Por @Alvy — 18 de junio de 2008

More Good Stuff - Servidores de Archive.org (CC) MysteryBee
Aspecto de los servidores de Archive.org en 2007 – Foto (CC) MysteryBee

O’Reilly publica una extensa entrevista con el responsable de tecnología de Archive.org, uno de los proyectos más apasionantes de todo la Internet y su «repositorio histórico» de facto. Se titula Gordon Mohr Takes Us Inside the Internet Archives e incluye datos como estos:

  • El archivo cubre los últimos 11 años, a partir de finales de 1996
  • Contiene unos 100.000 millones de URLs «fotografiadas» en distintas fechas
  • El archivo completo, comprimido, ocupa aproximadamente un petabyte (un millón de gigabytes)
  • Literalmente tiene miles de servidores, tantos que ni siquiera el «jefe» sabe el número exacto. La parte principal unos 11 racks de 19" con 40 máquinas 1U en cada uno de ellos, cada una de las cuales cuenta con cuatro discos duros – eso son casi 2.000 discos duros. Son tantos chismes que ellos piensan en «bloques de 40 en 40 máquinas»
  • Mediante un acuerdo con la Biblioteca de Alejandría, un par de veces han enviado allí una copia completa de la Web a modo de copia de seguridad…
  • … y esa copia eran de hecho las máquinas físicas de Archive.org que se reemplazaron por otras nuevas
  • Prácticamente todo Archivo.org corre sobre software libre: históricamente han usado Red Hat, Debian y ahora utilizan prácticamente en exclusiva Ubuntu

El detalle de que la Biblioteca de Alejandría en Egipto sea actualmente un repositorio a modo de copia de seguridad de la mayor red de conocimiento de la actualidad no deja de tener un toque romántico – por aquello de su misterioso a la par que trágico final de una época, que supuso la inestimable pérdida de una gran parte de la cultura de las civilizaciones más antiguas.

(Vía Slashdot – cuya primera versión podía verse así en 1998)

Actualización (11 de septiembre de 2020) – En una especie de Gran Ironía Cósmica resulta que la página web original de O’Reilly con la entrevista está completamente desaparecida. Por suerte la copia de Archive.orb funciona bien y se puede leer allí, de modo que he actualizado el enlace.

Relacionado:

Compartir en Flipboard Publicar / Tuitear Publicar