El equipo de Google AI ha preparado este gigantesco archivo a modo de herramienta llamado Natural Questions para ayudar a trabajar con lenguaje natural y entrenar algoritmos de inteligencia artificial. Utilizando estos datos en bruto cualquiera puede desarrollar algoritmos, entrenarlos y compararlos con otros con un único objetivo: responder a preguntas normales y corrientes escritas en lenguaje natural.
Algunas de las preguntas de ejemplo son sencillas: «¿Cuándo entró la Unión Soviética en la Segunda Guerra Mundial?» «¿Cuántos episodios hay en la segunda temporada de Breaking Bad?» y otras no tanto: «¿Qué significa China en chino?», «¿De dónde proviene la energía de una explosión nuclear?» Las temáticas como pueden verse son muy variadas, e incluyen algunas de usuarios reales, para darle un toque de «realismo» y que no sea todo tan enciclopédico.
El conjunto de datos ocupa 42 GB e incluye 307.000 ejemplos para entrenamiento y luego 8.000 para desarrollo y otros 8.000 para pruebas, utilizando la información de Wikipedia. En la web hay una especie de concurso para ver quién puede hacer mejor uso de los datos y conseguir mayor puntuación en condiciones de competición.
Según explican, han calculado que un ser humano puede alcanzar un 87% dando respuestas «cortas» y un 76% en respuestas «largas», más elaboradas. Los equipos que compiten están alrededor del 53-54% en cortas y 66-67% en largas.
Relacionado:
- Así aprenden las máquinas: los experimentos de IA de Google
- «Experiencias semánticas» con aprendizaje automático
- La inteligencia artificial DeepMind de Google aprendiendo a saltar
- Los 7 mandamientos éticos de Google para el uso de inteligencia artificial
- Scrying Pen: un experimento capaz de «predecir» lo que vas a dibujar
- Un algoritmo más hábil que los humanos encontrando un McDonald’s
- Mesa redonda sobre inteligencia artificial, Memorial Isaac Asimov