La vida media de un documento en la Web son 75 días, pero un nuevo estudio pretende afinar esa cifra
En 1996 un profesor del MIT se preguntó cuál sería la «vida media» de una página o documento existente en la World Wide Web. Le preocupaba incluir citas en un trabajo y que luego desaparecieran con un triste Error 404: recurso no encontrado. Ahora un nuevo estudio financiado por una donación de la Fundación Filecoin pretende afinar esta cifra muestreando 25 millones de páginas y documentos para comprobar su estado.
Revisar el artículo original de aquel profesor del MIT es todo un viaje al pasado de la WWW de hace 25 años. Se habla de AltaVista, de que Archive.org almacenaba 600 GB (hoy en día son 10 petabytes o 10.000.000 gigabytes) y de que se calculaba que existían 50 millones de páginas web en total (hoy en día son unos 45.000 millones, según datos recopilados por WorldWideWebSize.com.)
Según Según Michael Nelson, en cuyo blog he encontrado todas estas referencias, la respuesta típica a la pregunta ¿Cuál es la vida media de un documento en la Web? Ha sido históricamente 44, 75 o 100 días, según la fuente que se usara (hay estudios entre 1996 y 2003). La más citada es 75, unos dos meses y medio y las razones son de lo más diversas, pero a veces desconocidas.
Por esto en el nuevo estudio se intentará no sólo obtener el valor de la vida media real de las páginas y documentos en la WWW, además se procurará averiguar qué sucede con las páginas: cuáles son redirigidas a sitios distintos, cuáles mueren en un cruel 404, cuáles siguen existiendo pero no funcionan (o sus versiones archivadas no son usables) y cuáles han «desparecido» detrás de muros de pago, como ha sucedido con muchas noticias y artículos de periódicos y otros medios informativos.
Por aquí ya comentamos hace algún tiempo que así a ojo uno de cada cuatro enlaces de las últimas dos décadas está 404, caído en combate. Es un problema con difícil solución, aunque la más directa es irse a Archive.org a recuperar la página. Si te dedicas a publicar algo, tampoco estaría de más asegurarte de que tus páginas quedan archivadas allí y que funcionan, lo cual depende muchas veces del diseño y el código utilizado. La regla general de que cuanto más simple, mejor, también es aplicable aquí.
(Vía WS-DL.)
Relacionado: