¿Cómo generas una nube de cientos de millones de tags? ¿O cómo guardas 1.400 millones de posts en una base de datos? O'Reilly Radar está recopilando una serie de historias sobre «batallitas» con bases de datos gigantescas en servicios de nueva generación de los denominados Web 2.0. Son fragmentos de presentaciones, entrevistas o charlas donde se descubren cifras y algunos de los secretos de bases de datos colosales como las de Second Life, Bloglines, Flickr, NASA World Wind o Craigslist. En algunas el principal reto es la velocidad de acceso a los datos, en otras el tamaño enorme de la información a almacenar. Algunas perlas:
Mark Fletcher (Bloglines): Los 1.400 millones de posts que hemos archivado desde que empezamos están guardados en un sistema de almacenamiento de datos que escribimos nosotros mismos. Está basado en ficheros planos que están replicados en varias máquinas, algo así como lo que se explica en el documento sobre el Sistema de Archivos de Google [PDF, 270 KB].
Cal Henderson (Flickr): El total de datos únicos almacenados es de unos 935 GB y en duplicado unos 3 TB (…) [Nota: debe referirse a datos de tipo texto, no a las imágenes] Los tags son algo interesante. Muchos de esos asuntos de la «Web 2.0» como los tags no encajan bien con el tradicional esquema de diseño de bases de datos normalizadas. De modo que la desnormalización (o el cacheo masivo) es la única forma de generar una nube de tags en milisegundos para cientos de millones de tags.