el estado precario de internet

¡WhatsApp no funciona! Por qué los gigantes de internet también sufren caídas

Cada semana podemos ver como distintas compañías sufren caídas en sus servicios generando terremotos entre sus clientes. Estas son las razones.

Foto:

Recientemente hemos visto cómo gigantes como Movistar, Facebook o WhatsApp se quedaban fuera de juego: sus webs se caían y miles de usuarios se quejaban en las redes sociales buscando una explicación. Eran caídas muy puntuales, pero en compañías de su envergadura un fallo de 15 minutos puede convertirse un tsunami. Por eso, seguramente, cada vez que ves un caso así, te preguntas lo mismo: ¿Cómo es posible que estas grandes compañías, con presupuestos millonarios, sufran este tipo de caídas que parecen inexplicables?

Aunque a priori puedan parecer corporaciones multinacionales, con cientos de trabajadores dedicados a la estabilidad de sus servicios, cualquier trabajador del ramo puede confirmar que el estado de internet es mucho más precario de lo que piensa la mayoría. Un crecimiento mucho más veloz de lo planificado en la tecnología tiene gran parte de la culpa, pero hay infinidad de factores que afectan a las empresas 'online'; de fallos técnicos a errores humanos, pasando por catástrofes naturales, la mayoría de las veces la cuestión no radica en evitar los omnipresentes errores, sino en ser ágil remediándolos y minimizando el impacto de éstos.

¿Cómo puede ocurrir que una empresa seria esté caída durante horas? ¿No hay planes de contingencia? ¿Se debe a una falta de planificación? Repasemos algunas de las grandes caídas de los gigantes de internet:

Renfe

El eCommerce conocido como "la peor página española", rivalizando con Mercadona, es ya un clásico de las chanzas en Twitter. Con motivo de la promoción del XXV aniversario del AVE, los días 25 de cada mes se ofrecen plazas limitadas a un precio mucho menor del habitual, lo que provoca avalanchas de tráfico sobre sus servidores, aumentando sus visitas hasta en un 927%. Éste es un pico de tráfico difícil de asimilar con el que se puede hacer un paralelismo fácil en 'la vida offline', como es la venta de entradas para un concierto o un partido de fútbol.

Cuando la demanda es mucho mayor de la planificada, el "local de venta", en este caso los servidores de Renfe, se quedan pequeños y se forman colas interminables. Estas colas impiden acceder al recinto que, en el caso que nos ocupa, sería navegar por la web. La solución es tan obvia como poco económica: poner más locales de venta. Esto introduce más complejidad logística en el proceso de venta. En descargo de RENFE, diremos que no es sencillo de resolver, en una infraestructura donde hay decenas de empresas de consultoría implicadas (otro problema habitual en informática).

Streaming de vídeos en directo

Durante los últimos años, el consumo del vídeo por Internet y el uso de ancho de banda se han multiplicado, gracias a una cada vez mayor calidad de imagen. Aprovisionar recursos para que los usuarios tengan una buena experiencia visionando retransmisiones deportivas es un reto complicado, y no siempre se resuelve con éxito.

TotalChannel y sus problemas con la emisión de la Champions League o el directo del concierto de Alejandro Sanz del Calderón de este verano son dos buenos ejemplos de que hace falta una preparación milimétrica y una buena capacidad de previsión para evitar problemas de 'buffering' (recarga del vídeo a la mitad), lentitud de carga y, en definitiva, usuarios cabreados, que han pagado y han recibido una calidad de servicio inferior a la que esperaban.

En ambos casos y otros similares, la afluencia de espectadores del directo fue mucho mayor a la prevista y falló la aplicación de unas pruebas de estrés suficientes, lo que hubiera permitido conocer los límites del despliegue. Un 'plan B' para casos de desborde - previsibles, por otra parte - hubiera hecho más discreto el tamaño del problema, lo cual FeelTheLive aplicó mejor que TotalChannel, permitiéndole "salvar los muebles" y conseguir emitir el concierto pese a un desastroso comienzo.

Amazon

A pesar de que saltó a la fama por ello, y para el gran público así siga siendo, Amazon es, actualmente, más un proveedor de tecnología que una tienda. Su división AWS, de 'cloud computing', ha disparado los beneficios de la compañía gracias a que los ingresos han crecido un 42,7% en el primer trimestre de 2017, hasta 3.660 millones de dólares. Multitud de webs populares y servicios online están alojadas en su infraestructura, como pueden ser Airbnb, Netflix, Tinder o incluso la CIA, que adjudicó un contrato a la compañía de 600 millones de dólares en 2014.

Esto convierte un fallo del gigante de Jeff Bezos en una especie de apagón 'online', como ocurrió en marzo de este año: un error humano al teclear dio al traste con una buena parte de la capacidad de los servidores, lo que se tradujo en horas de caída, decenas de miles usuarios cabreados y cientos de potenciales matches de Tinder perdidos (y corazones rotos). Todo un drama digital.

¿Cómo evitar estos fallos?

Pero no siempre los errores son humanos. En Junio de 2012, una tormenta eléctrica produjo un pico de voltaje en los centros de datos de Virginia, causando cortes durante horas en el servicio. Tanto los fallos humanos como los causados por desastres climáticos son imprevisibles y, por tanto, difíciles de controlar, y es aquí donde entran los procesos de mejora contínua de la compañía que intenta aprender de ellos y aplicar redundancias y controles para evitar futuras caídas.

Visto que parece que ni los grandes se libran de ganar mala fama y perder ingentes cantidades de dinero debido a caídas de sus webs y servicios online, uno podría pensar que el pequeño comercio no tiene nada que hacer en esa lucha. Sin embargo, es una suposición errónea puesto que (a diferentes escalas) las mismas técnicas aplican para mantener una web pequeña y una grande. Algunas de éstas son:

¡Todo por duplicado!

La redundancia es la clave: ya que los elementos por sí solos fallan, en este caso “más es más”. Tener un respaldo de todo es caro, pero más caro puede salir no tenerlo; las potenciales pérdidas de ventas e imagen, en caso de una caída repetida muchas veces, compensan el precio extra de servidores de respaldo ("backup").

Caché

En caso de sitios web, una de las técnicas más sencillas es el uso de "web caching", que no es más que guardar el resultado de generar una página para reutilizarlo en la siguiente petición. Una analogía sencilla es una agenda: recordar todo lo que tenemos que hacer en un día es un proceso no inmediato, que exige un cierto esfuerzo por nuestra parte.

En cambio, echar un vistazo a la agenda donde tenemos apuntados los compromisos del día nos libera de ese esfuerzo y nos permite responder a cualquier consulta sobre el día, mucho más rápido que hacerlo de memoria. El uso de cachés web es similar, permitiendo liberar a los servidores de tareas repetitivas que siempre tienen el mismo resultado.

CDNs

Del inglés 'Content Delivery Network' (red de distribución de contenidos), es una externalización del punto anterior. Empresas con una capacidad de almacenamiento y velocidad de red muy superiores a la de cualquier hosting particular, que albergan copias del contenido original, entregándolas al usuario mucho más rápido, dado que están distribuidas por todo el mundo.

De esta manera, en el caso de un hosting en Estados Unidos, una petición desde España no necesita cruzar el Atlántico, sino que es servida por un nodo cercano en España.

Esquema del funcionamiento de las CDNs
Esquema del funcionamiento de las CDNs

Equipo técnico

Un buen equipo, tanto de desarrollo como de sistemas, es determinante a la hora de optimizar una web. A pesar de la democratización de la web y de la popularidad de software que permite a cualquiera tener su propio sitio en Internet, no todo el mundo puede -¡ni quiere!- ser un experto tecnólogo.

Profesionales del sector que se ocupen de la planificación del servicio, de hacer pruebas exhaustivas, hacer los ajustes de seguridad y dimensionar la plataforma de forma acorde a las expectativas (sin cerrar la puerta a un futuro crecimiento) es la mejor garantía de una web estable y sin caídas.

Mantener la calma y ser humilde

A pesar de que pongamos todo el empeño, los errores ocurren, y son imprescindibles para aprender. Los usuarios se cabrearán ante la más mínima indisponibilidad, así que, si hemos metido la pata, toca ser honestos, asumir los errores e intentar poner medios para que no vuelvan a ocurrir.

Echar balones fuera o intentar mentir -y que las huestes de Internet te acaben por pillar- genera peor sensación entre los usuarios que la más dura de las caídas.

Facebook, Google, Twitter.... Todos volverán a fallar inevitablemente puesto que el error, al menos por el momento, viene implícito a la tecnología. No pasa nada. Hemos sobrevivido miles de años sin internet. El mundo no terminará por dos horas sin fotos del negro de Whatsapp. Guardemos el móvil y demos un paseo, alguien ya está trabajando contrarreloj para que podamos seguir dando likes en Instagram. Errare humanum est.

*Diego Suárez es Ingeniero técnico en Informática de Sistemas por la Universidad de Oviedo y CTO de la tecnólogica Transparent CDN

Tribuna

Escribe un comentario... Respondiendo al comentario #1
1comentario
Por FechaMejor Valorados
Mostrar más comentarios