Preguntas naturales: un conjunto de datos con 300.000 entradas para entrenar inteligencias artificiales

Por @Alvy — 9 de abril de 2019

El equipo de Google AI ha preparado este gigantesco archivo a modo de herramienta llamado Natural Questions para ayudar a trabajar con lenguaje natural y entrenar algoritmos de inteligencia artificial. Utilizando estos datos en bruto cualquiera puede desarrollar algoritmos, entrenarlos y compararlos con otros con un único objetivo: responder a preguntas normales y corrientes escritas en lenguaje natural.

Algunas de las preguntas de ejemplo son sencillas: «¿Cuándo entró la Unión Soviética en la Segunda Guerra Mundial?» «¿Cuántos episodios hay en la segunda temporada de Breaking Bad?» y otras no tanto: «¿Qué significa China en chino?», «¿De dónde proviene la energía de una explosión nuclear?» Las temáticas como pueden verse son muy variadas, e incluyen algunas de usuarios reales, para darle un toque de «realismo» y que no sea todo tan enciclopédico.

El conjunto de datos ocupa 42 GB e incluye 307.000 ejemplos para entrenamiento y luego 8.000 para desarrollo y otros 8.000 para pruebas, utilizando la información de Wikipedia. En la web hay una especie de concurso para ver quién puede hacer mejor uso de los datos y conseguir mayor puntuación en condiciones de competición.

Según explican, han calculado que un ser humano puede alcanzar un 87% dando respuestas «cortas» y un 76% en respuestas «largas», más elaboradas. Los equipos que compiten están alrededor del 53-54% en cortas y 66-67% en largas.

Relacionado: