Todavía resuenan en la red los ecos de los gritos en un vacío en el que nadie podía oír a nadie. Miles de millones de personas e influencers sorprendidas por la desaparición de Facebook y también de WhatsApp e Instagram –ambas propiedad de Facebook– ayer 4 de octubre durante unas seis largas horas. Aunque los más alejados del mundo de la tecnología ni si enteraron, raro era quien no comentaba algo ante el silencio reinante sin los ¡dings! de WhatsApp, con Facebook y su Messenger desaparecido e Instagram sin fotos de vidas perfectas, perritos y sonrisas Profidén. ¿La razón? Un miserable fallo en una actualización.
A falta de una explicación más detallada, el equipo de ingeniería ha explicado en una nota en su blog que la caída se debió a un efecto «bola de nieve» tras el fallo de una actualización de las tablas de rutas (BGP) y los DNS que dirigen el tráfico hasta los servidores de Facebook. Estos servidores básicamente se borraron a sí mismos del mapa al eliminar los registros A y AAA de sus DNS; de hecho hasta parecía que el dominio Facebook.com estaba a la venta. Lo peor es que Facebook gestiona sus propios DNS, tiene varios (a.ns.facebook.com, b.ns.facebook.com, etcétera) pero el fallo afectó a todos porque dependían de un sólo punto de fallo: si el dominio principal facebook.com desaparecía, adiós a todo lo demás. (Esos mismos dominios también los usan Instagram, WhatsApp y otras apps de la compañía.)
Lo más increíble –aunque hay que reconocer que ha sido bastante dramatizado– es que de ese mismo dominio facebook.com cuelgan también todas las herramientas internas de los empleados de la compañía, de modo que al despertarse por la mañana nadie podía acceder a los diagnósticos ni alertas para saber qué había fallado o cómo remediarlo. Tampoco podían enviarse correo (porque usan el mismo dominio), ni usar su Messenger para chatear, ni montar una videoconferencia de urgencia: nada funcionaba. Lo calificaron como «un día de nevada», de esos en los que despiertas y ves que no puedes siquiera llegar a la oficina porque han caído dos metros de nieve durante la noche.
El colmo de los colmos fue que a una periodista del New York Times que habló por teléfono con algunos empleados le contaron que aunque los técnicos habían salido corriendo y en avión hacia los centros de datos donde se alojan los servidores principales para reparar la actualización –incluso a mano si hiciera falta– al llegar descubrieron que no podían entrar en los edificios porque también utilizan tarjetas de identificación de Facebook para acceder, que no «validaban». Como es lógico, cabe pensar que aunque esos sitios son pequeños búnkeres bien protegidos, con unas cuantas llamadas de teléfono resolverían la situación para que alguien abriera la puerta manualmente, del mismo modo que los técnicos también podían hablar por teléfono o utilizar cualquier otro sistema de mensajería. A mí me hizo gracia ver a Facebook pidiendo disculpas en Twitter por su problema técnico. Tanto Twitter como @Jack, uno de sus creadores, se lo tomaron con bastante cachondeo.
Hacia la medianoche hora española los servicios ya estaban reestablecidos, tras seis largas horas que han hecho que Facebook saliera hasta en los telediarios, perdiera 7.000 millones de dólares en bolsa y estuviera en boca de todos, de nuevo no precisamente por una buena causa. Además, coincidiendo en menos de 24h con la entrevista de una exempleada que ha filtrado documentos internos importantes sobre las prácticas éticamente reprobables de la compañía –en principio sin relación, aunque muchos nos imaginamos un posible hackeo que finalmente no ha sido tal– su comienzo de semana ha sido fino, fino.
§
Eso me ha recordado un antiguo vídeo de Tom Scott. Quien ayer sintiera angustia por la caída no debería verlo porque es profundo y tenebroso. La charla de Scott trata sobre una situación similar e imaginaria pero en Google; lo tituló Punto único de fallo.
La historia comienza explicando cómo un hackeo, bug o sabotaje en Google podría producir al caos mundial de una forma casi trivial: alguien modifica el código de validación de las contraseñas del login de entrada a los servicios, de modo que en vez de comprobar si son correctos, permite entrar a cualquier persona con cualquier contraseña e impide que la contraseña válida pueda acceder. Un simple cambio de código de un «es igual a» a «es distinto». De repente cualquier persona puede ver los correos, documentos, fotos y hojas de cálculo de todo el mundo, y reina el caos. El impacto sería increíble y el fallo podría requerir prácticamente un sólo byte de código.
Actualización (6 de octubre de 2021) – Un hilo de Rafa Merino con explicaciones en lenguaje claro sobre las preguntas más habituales acerca del incidente y más detalles explicados por Facebook.
Relacionado: