WikiHist.html es un proyecto que básicamente consiste en una conversión de la Wikipedia de formato wikitexto (el lenguaje de marcado en el que se escribe) a HTML y a la vez conservando todas las revisiones del historial de cada artículo. Para quien no lo sepa: desde que un artículo se crea por primera vez, la Wikipedia guarda cada mínimo cambio hecho por los editores de modo que consten y se puedan comprobar después todos esos cambios: quién los hizo, cuándo, qué cambió, etcétera.
De momento este megaproyecto sólo ha hecho sólo para la Wikipedia en inglés, pero podría llegar a otros idiomas si alguien lo necesita; es todo cuestión de voluntad. El resultado práctico es un gigantesco archivo de 7 TB dividido en más de 500 directorios en tres partes: (1) contenido e historial convertidos a HTML; (2) lista de fechas de creación de los artículos y (3) redirecciones. El archivo contiene los cambios desde el nacimiento de Wikipedia hasta marzo de 2019.
Con esto los investigadores que necesiten todo el material pueden descargarlo y dentro de sus posibilidades, para lo cual hace falta un buen puñado de discos y una no menos poderosa conexión sin límite de datos. Como la descarga es un poco bestial está disponible en Archive.org tanto en descarga directa como en torrents. También hay más información en la página Github del proyecto WikiHist.html.
(Vía Bob West.)
Relacionado:
- Wikipedia Zero: la versión «gratis total» para países en desarrollo
- Cómo la foto del creador de la Wikipedia marcó récords de donaciones
- En España se han donado medio millón de dólares a Wikipedia en 2012
- Explorando la brecha de género en los editores de la Wikipedia
- Cinco años de Wikipedia
- WikiRank: estadísticas de calidad y popularidad acerca de Wikipedia
- La Wikipedia vista como una galaxia
- Artículos peculiares en la Wikipedia, ahora en español
- Wikipedia en español alcanza los 500.000 artículos