Ayer hacia las 22.00 hora de Madrid el servidor de Microsiervos cayó en una especie de agujero negro. Tras las primeras alertas y comprobaciones, nos dimos cuenta de que en realidad todo Media Temple, nuestra empresa de alojamiento, había caído. Cientos de sites fueron afectados, incluyendo algunos tan conocidos como Stop Design, Reinvigorate, StyleGala, Authentic Geek y otros. Pero había más todavía: nos enteramos por MetaFilter que no sólo Media Temple había caído. Toda la ciudad de Los Angeles había caído a raíz de un fallo en una subestación eléctrica.
Al parecer un empleado cortó un cable de alimentación. [Los Angeles Times]Cuando cosas como estas suceden además de quedarte sin servidor web te quedas sin correo. Como la empresa de hosting también está «caída» no puedes leer en su página web qué ha sucedido, no hay información de «estado de la red». No puedes poner un ticket para pedir soporte técnico ni hacer nada de nada. Sólo puedes llamar por teléfono si las líneas no están saturadas. La alternativa es navegar un poco, leer Google News para investigar qué ha sucedido, usar GMail para lo más urgente y tener paciencia. Esperar es casi la única opción. Yo probé a buscar algo en los «buscadores en tiempo real» como Technorati pero no había ningún post sobre Media Temple. Ahora aparecen algunas referencias incluyendo la que puse en mi «legalmente declarado muerto» blog en inglés en Typepad que sí funcionaba. También dejé una nota en Flickr para que se enteraran mis contactos.
Lo más gracioso del asunto es que se habló mucho estas semanas de la posible destrucción tecnológica causada por el Katrina, y hubo incluso rumores de que Bell South podría tener problemas en las líneas, etc. pero todo eso quedó descartado. Sabiendo que nuestro servidor está en Los Angeles, Wicho bromeaba con que igual la mala suerte se había cebado con EE.UU. y el Big One había arrasado Los Angeles.
Lo irónico del asunto es que Nacho encontró en la caché de Google durante el «apagón» una bonita explicación de cómo está preparado Media Temple para estas emergencias:
Media Temple - Con 4.000 amperios de suministro eléctrico de respaldo y 4 generadores turbo de 1,5 megawatios, nuestras instalaciones son independientes de los servicios de agua y electricidad de la ciudad. Podrían mantenerse operativos de forma autónoma durante 28 días. Estos generadores podrían garantizar el suministro energético a una ciudad de 20.000 personas.Bonitas palabras publicitarias para conseguir clientes. Pero la realidad ha sido bien distinta: exactamente cuando a las 13.00, hora de Los Angeles, se cortó el suministro, Media Temple mordió el polvo. Desde luego no fue la única empresa, también Dreamhost cayó al completo con otros cientos de servidores alojados allí, y seguramente muchas otras compañías, porque la zona afectada fue bastante amplia y muchas empresas tecnológicas tienen allí su sede y sus data-centers.
Decir que ha sido una situación inusual y un problema generalizado ante el que no había nada que hacer tampoco es una excusa. Es cierto que un problema que afecta a media ciudad y la deja sumida en el caos circulatorio sin semáforos, con gente atrapada en ascensores, etc. es gravísimo y una buena excusa para justificar cualquier fallo. Pero también tenemos el reciente ejemplo de DirectNIC, una empresa con sede en Nueva Orleans que ha resistido la destrucción de la ciudad gracias a un equipo de técnicos atrincherado en la planta 10 de un edificio cercano al Superdome, con un generador diesel. Acampados allí con alimentos y armas han mantenido sus líneas y servidores en funcionamiento pese a estar sin enegría ni agua en una ciudad anegada al 80% por las aguas, tomada por el ejército y amenazada por el caos genealizado.
Lo que hemos aprendido de todo esto es que parece que en el fondo da igual si alojas tus servidores en un sitio caro y de renombre (Media Temple) o en otro barato y humilde (Dreamhost). Todos pueden morder el polvo. Cuando no hay energía para nadie, las ciudades, los servidores y líneas de comunicación sufren y son desconectados de la Red. El eslabon más débil es el que manda. Probablemente Media Temple pueda aguantar esos 28 días de forma autónoma ante inundaciones o terremotos con las excelentes instalaciones que tiene, pero si el siguiente eslabón de la cadena, en este caso sus proveedores de comunicaciones fallan, el problema es exactamente el mismo: desconexión total de los servidores.
La mítica leyenda sobre una Internet modelada de tal forma que es capaz de resistir ataques nucleares por su estructura de red en base a nodos independientes parece que no es tan bonita como siempre hemos querido creer: cualquier imbécil que corte por error el cable que no debe puede tumbar toda una ciudad durante horas.
Actualización: Media Temple ha publicado un FAQ sobre el incidente de suministro eléctrico en Los Angeles. Dicen que aunque a las 12.37 se cortó el suministro y se activó su sofisticado sistema de alimentación ininterrumpida (UPS). PERO una media hora después un «fallo humano» por parte de los trabajadores del Garland Building, el edificio donde se aloja, al «intentar asistir al sistema automático» provocó una caída total del sistema hacia las 13.00 (22.00 hora Madrid). Tuvieron que evacuar a los trabajadores mientras los ingenieros eléctricos del edificio trabajaban en el asunto. Tras dos horas la electricidad fue restaurada. Algunos sistemas de hosting tardaron varias horas más en volver a ser visibles debido a las labores de reinicio y comprobación de ficheros. Dicen haber aprendido mucho de la experiencia ;-)
Otra actualización: 16 horas después del incidente, han mandado un email a los clientes explicando todo el problema.