Por @Alvy — 8 de julio de 2023
# AI.TXT
# Spawning AI / Prevent datasets from using the following file types

User-Agent: *
Disallow: *.gif
Disallow: *.jpg
Disallow: *.png
…
Allow: *.txt
Allow: *.pdf
Allow: *.doc
…
Allow: *.css
Allow: *.php
Allow: *.sql
Allow: /

En Spawning tienen esta propuesta sobre un estándar / protocolo / especificación llamado simplemente AI.txt que, para entenderlo en pocas palabras, sería algo así como un protocolo Robots.txt pero para las inteligencias artificiales.

De este modo con un simple fichero de texto en el directorio raíz de una web se podría especificar a los robots recolectores de información de las IAs qué tipo de datos pueden o no pueden recabar para su entrenamiento de las webs públicas que cada cual controle.

En esta primera versión se consideran:

  • Textos
  • Imágenes
  • Audio
  • Vídeo
  • Código

El propio generador de ficheros AI.txt deja entrever cómo funciona la cosa; es tan simple como una lista con Allows y Disallows (permitir / no permitir) para cada tipo de archivo: .txt, .pdf, .doc, .jpeg, .png, .mov, .avi… Más simple imposible.

Hay un vídeo explicativo de 60 segundos y un FAQ sobre AI.txt, además de un plugin para Wordpress e instrucciones sobre cómo subir el fichero de texto al directorio raíz (FTP y otras opciones).

En teoría más o menos lo mismo podría hacerse con el fichero Robots.txt de toda la vida, porque un robot de IA es también un robot y debe obedecer las normas; por otro lado AI.txt podría proporcionar un ajusto algo más fino. Otra cosa en cualquier caso es que haya robots que se salten el protocolo y no le hagan ni caso o lo usen para el mal, pero eso suele suceder.

Relacionado:
Compartir en Flipboard Publicar / Tuitear Publicar