Por @Alvy — 14 de julio de 2020

Un extractor de tablas HTML sencillo y que funciona

HTML Table Scraper es una aplicación de esas sencillas que hace una sola cosa y la hace bien: extraer datos de tablas de las páginas HTML y exportarlas como hojas de cálculo en formato CSV. Esto evita tener que hacer malabarismos con los copypastes y la hoja de cálculo, porque aunque estamos en el siglo XXI no es algo que resulte fácil precisamente.

Todo lo que hay que hacer es (1) pegar la URL de la página y (2) en caso de que haya varias tablas elegir cuál de ellas se quiere exportar. Con un clic el fichero se descarga y queda en formato CSV con una fila por registro y los campos separados por comas. Si hay textos con comas se encierran entre comillas; si hay celdas vacías aparecen como empty cell, lo que permite un tratamiento semimanual posterior.

La conversión no siempre es perfecta; por ejemplo en algunas tablas de la Wikipedia los números de notas al estilo nota[42] también se incluyen con los datos, y hay que filtrarlos a mano. Como todo esto suele tener un patrón –comas, comillas, corchetes– se pueden filtrar con otro programa. Yo suelo hacerlo con BBEdit, pero casi cualquier editor puede valer.

Relacionado:

Compartir en Flipboard Publicar / Tuitear Publicar