Dígitos y trastos

"Es de ellos": ¿qué ocurre realmente cuando decimos que internet ha caído?

Un repaso a las peores interrupciones de servicios digitales de un 2025 que ha sido un año especialmente funesto e ilumina deficiencias de la red de redes

Una de las instalaciones de Amazon Web Services
19/12/2025
5 min

BarcelonaEste 2025 que se marcha nos ha recordado con insistencia que vivimos en una sociedad dependiente de internet. Las redes y servicios digitales han experimentado algunas de las interrupciones más masivas de la historia reciente, con cientos de millones de usuarios afectados en todo el mundo. Lo preocupante: muchas caídas han sido causadas por errores humanos, actualizaciones mal desplegadas o configuraciones defectuosas. ¿Dónde ha quedado ese internet distribuido que debía ser resiliente?

El incidente más grave ocurrió el 20 de octubre, cuando Amazon Web Services (AWS) generó más de 17 millones de notificaciones de incidencias a DownDetector. Pero esta cifra sólo incluye a los usuarios tan cabreados que tuvieron el ánimo de entrar en una web de terceros y pulsar el botón rojo. En la industria se estima que por cada persona que se queja activamente, hay entre 20 y 100 que simplemente callan y reinician el rútero. Con una extrapolación conservadora, estamos hablando de 850 millones de personas afectadas: uno de cada cinco internautas del planeta se quedó colgado por un error en Amazon.

La avería, de más de 15 horas, tuvo origen en el sistema de gestión automatizada de DNS vinculado a la base de datos DynamoDB de la región US-EAST-1. Éste es el trastero desordenado de internet, en Virginia, donde se acumulan capas de tecnología obsoleta. Un punto único de fallo que todos los arquitectos de sistemas saben que hay que evitar, pero que todo el mundo utiliza porque es donde Amazon despliega primero las novedades.

El problema fue de una estupidez técnica que cuesta creer. Una actualización automatizada hizo que dos procesos intentaran escribir al mismo tiempo en el sistema de DNS. En lugar de dar tanda primero a uno y después al otro, el sistema se hizo un lío y decidió borrar las rutas. Resultado: la base de datos funcionaba perfectamente, pero nadie sabía cómo llegar. Era como si alguien hubiera borrado del GPS la ficha de la AP-7; la autopista está ahí, pero los coches no la encuentran.

La ironía suprema es que los mismos tableros de mando de AWS también dependían de este DNS. Cuando los ingenieros de Amazon intentaron entrar en el sistema para solucionar el problema, no podían acceder a él. Entre los usuarios afectados, las de las camas conectadas Eight Sleep no pudieron activarlas: hay gente que necesita AWS para dormir.

El segundo incidente más notorio fue el de la PlayStation Network el 7 de febrero, con casi 4 millones de quejas. Sus 116 millones de usuarios mensuales permanecieron 24 horas sin poder jugar, en la segunda caída más larga de la historia de PSN desde el 2011. Lo más frustrante: coincidió con el lanzamiento de la beta de Monster Hunter Wilds. La caída de PSN es un recordatorio brutal: no somos propietarios de nuestros juegos. Cuando compras un juego por 70 euros en la tienda digital, compras el derecho a jugar mientras Sony quiera y pueda mantener el servidor encendido. Incluso juegos para un solo jugador daban error si debían conectarse para validar la licencia.

Cloudflare, una empresa que se dedica precisamente a proteger internet de caídas, protagonizó interrupciones significativas. La del 18 de noviembre afectó a Spotify, ChatGPT y Discord durante casi cinco horas. La realidad fue prosaica: un ingeniero aplicó una actualización en la base de datos que gestiona la detección de bots. El cambio provocó que una consulta interna devolviera datos duplicados, lo que hizo que un archivo de configuración creciera hasta superar el límite que el software podía leer. Cuando los miles de servidores de Cloudflare recibieron este archivo demasiado voluminoso, el software entró en pánico y los servidores entraban en un bucle infinito de reinicios. El CEO Matthew Prince admitió que fue "el peor incidente desde 2019".

Aquí el año también ha sido duro. El 28 de abril España y Portugal vivieron el mayor apagón eléctrico de su historia reciente. El tráfico de internet cayó entre un 80 y un 90% durante más de 36 horas. Las redes móviles se apagaron a medida que las baterías de reserva se agotaban. La economía española sufrió pérdidas estimadas en 1.600 millones de euros.

Tres semanas después, el 20 de mayo, España volvió a quedar medio desconectada por una actualización de red de Telefónica que salió mal. Madrid, Barcelona, ​​Valencia, Sevilla y Bilbao reportaron caídas masivas. El teléfono 112 de emergencias dejó de funcionar en muchas comunidades autónomas. "Todos los servicios fueron restablecidos, salvo un par", dijo después el director de operaciones de Telefónica, con una naturalidad impresionante.

Por qué las caídas afectan a tanta gente

La respuesta es tan simple como preocupante: internet está mucho más centralizado de lo que queremos creer. Empresas como AWS, Cloudflare, Microsoft Azure o Google Cloud dominan el mercado. Cuando una de ellas cae, arrastra miles de aplicaciones que dependen de ella. AWS tiene aproximadamente el 32% del mercado mundial de computación en la nube. Cuando su servicio cae, plataformas como Netflix, Spotify o Roblox quedan inaccesibles. El incidente de octubre afectó a Delta, por lo que impidió a los pasajeros realizar la facturación. Cloudflare, por su parte, ofrece servicios a millones de sitios web. Cuando sus sistemas fallan, webs sin relación alguna entre ellas desaparecen simultáneamente.

Para detectar estas interrupciones se combinan varios sistemas de monitorización distribuidos. Plataformas como ThousandEyes y Catchpoint utilizan miles de puntos de vigilancia globales que analizan a diario miles de millones de mediciones mediante protocolos como el BGP (Border Gateway Protocol) y DNS. Cuando existen cambios anómalos en las rutas BGP, los sistemas pueden detectar interrupciones en cuestión de minutos.

DownDetector, propiedad de Ookla, aplica un enfoque diferente: agrega notificaciones de los usuarios afectados. Es menos preciso técnicamente, pero muy efectivo para medir el impacto real.

Cuando se detecta una caída masiva, comienza una carrera contrarreloj. Los ingenieros deben identificar primero la causa del problema en sistemas inmensamente complejos. Las empresas modernas utilizan sistemas para revertir los cambios más recientes. Cloudflare tardó más de cinco horas porque la configuración corregida debía propagarse por todos sus centros de datos mundiales.

En caso de averías eléctricas, la recuperación es más lenta y física. Los operadores deben restablecer nodo por nodo, antena por antena. Las baterías de reserva dan aproximadamente ocho horas de autonomía, pero en apagones prolongados se quedan cortas.

Las lecciones de 2025

Este año nos ha enseñado que quizá deberíamos revisar la confianza ciega en la nube. La senadora estadounidense Elizabeth Warren lo resumió tras el incidente de AWS: "Si una empresa puede romper todo internet, es demasiado grande. Y punto". También hemos aprendido que los errores humanos son inevitables, pero que los sistemas de recuperación son demasiado lentos. Cuando una configuración errónea puede dejar sin servicio a millones de usuarios durante horas, habría que repensar cómo desplegamos las actualizaciones en infraestructuras críticas.

Hemos descubierto que la promesa de una arquitectura distribuida de internet es más un lema de marketing que una realidad. Tres o cuatro empresas controlan la infraestructura esencial de la red global. La automatización, que nos habían vendido como la solución al error humano, se ha convertido en un amplificador de errores que propaga fallos a la velocidad de la luz por miles de servidores antes de que ningún humano pueda decir "Ep, pared máquinas".

El 2025 aún no ha terminado, pero ya ha sido suficientemente elocuente. Internet es muy útil cuando funciona, pero catastróficamente inútil cuando no. Y cada vez depende más de menos manos. Qué tranquilidad.

stats