Por @Alvy — 23 de abril de 2006

Robots.txt Validator and Testing es una sencilla herramienta para comprobar que el contenido del archivo robots.txt de una web se ajusta al Protocolo de Exclusión de Robots. Ese archivo lo instalan algunos webmasters, y sirve para decirle a Google y a otros buscadores, apodados «arañas» o «robots» las paginas o áreas de una web que no deben explorar. A veces esto es necesario para evitar que se metan donde no interesa (áreas restringidas), bucles infinitos o limitar el acceso a robots que pueden estar abusando inconscientemente de una web, por ejemplo con descargas masivas de algún tipo.

Este analizador revisa que todo esté bien, incluyendo la posición del grupo disallow: * (que recomiendan situar al final del fichero), que no haya líneas en blanco entre declaraciones dirigidas al mismo grupo de robots, que si hay comentarios no se confundan con las órdenes y detalles por el estilo.

Finalmente, con texto en rojo y verde explica en «lenguaje humano» lo que se está diciendo realmente a los robots que deben ignorar y lo que sí pueden leer.

Bucando más sobre todo esto también descubrí The Web Robots Pages con bastante información.

Actualización (diciembre de 2022) – El validador original al que hacía referencia este artícuo (Robots.txt Checker) desapareció, así que lo he reemplazado por otro más moderno que funciona igual.

Compartir en Flipboard Publicar / Tuitear Publicar