ChatGPT acierta el 67% de las «preguntas de Trivial», aunque sólo el 50% de los acertijos y problemas de lógica, porque «no entiende ni razona»

Por @Alvy — 18 de enero de 2023

Hace unos años a Aaron Batilo se le ocurrió que enfrentar a diversas inteligencias artificiales a preguntas de trivial sería una buena idea de examinar no tanto su inteligencia como su progreso. De modo que probó algunas técnicas sin mucho éxito porque no acertaban más allá de lo que sería dar respuestas al azar. El resultado hoy en día es muy distinto: ChatGPT acierta ya dos de cada tres preguntas, y de sus fallos se puede aprender bastante.

Se puede ver cómo han sido estas pruebas en su artículo I made ChatGPT answer 50,000 trivia questions. Are we doomed? Disponer de la API de ChatGPT para tantas consultas le costó unos 100 dólares, que tampoco es mucho para un experimento. Las preguntas salieron del conjunto de datos OpenTriviaQA que usan los expertos para estas cosas y que contiene 49.717 preguntas de tipo Trivial, divididas en áreas temáticas como naturaleza, historia, deporte, etcétera. Es un test de respuestas múltiples (A-B-C-D) en las que sólo una es correcta. Una vez preparadas se lanzaron de forma automatizada a GPT-3, precedidas de este texto para enfocarlas bien:

Eres un robot de preguntas y respuestas muy inteligente. Te haré una pregunta con varias opciones. Debes elegir una de ellas como la respuesta correcta. Incluye sólo la respuesta y nada más.

El ratio de respuestas acertadas llegó a ser del 77% en geografía, 75% en humanidades o historia a tan solo el 50% en acertijos lógicos, el 51% en videojuegos y el 56% en televisión. El promedio fue el 67% de aciertos en las cerca de 50.000 preguntas. Este es un ejemplo de la categoría de acertijos (brain teasers):

P: El nombre de qué se codifica de la siguiente forma: 86,smopuim?

A: no significa nada
B: el nombre de un producto de software
C: un avión de la NASA
D: un proyecto secreto de la CIA

La respuesta correcta es (B), «Windows 98» escrito boca abajo. También fallaba en otras como «¿Qué número multiplicado por 10 es igual al cuadrado del mismo número, multiplicado por 5?» (Respuestas: 4, 5, 2, 10). Respondía 5 y la respuesta correcta es 2. Estos fallos se explican de una forma sencilla: ChatGPT es una herramienta avanzada para generar textos, pero no «entiende» ni «razona» y no puede aplicar sus conocimientos a descifrar acertijos ni a la aritmética.

La conclusión es que las categorías en que más acierta son aquellas sobre las que existe más documentación escrita, y por tanto disponible en Internet y que ChatGPT ha podido absorber durante su masivo entrenamiento: geografía, historia, religión, personajes… son cosas que existen mucho antes que la televisión o los videojuegos. En cualquier caso, como dice Batilo, un 67% de acierto de promedio es una cifra alta, aunque a veces acierte de chiripa, algo que también le sucede a los humanos al hacer estas pruebas. Si no me equivoco, esto situaría a ChatGPT al nivel de los jóvenes de 14-15 años en cuanto a aciertos en tests de conocimientos generales («de Trivial»).

Todo esto me vuelve a recordar lo del chiste del perro que jugaba al ajedrez; igual un día vamos a acabar con un ChatGPT-42 que acierte el 99% de las preguntas y todavía vamos a decir que «no es para tanto».

_____
Imagen (CC) Deepmind @ Unsplash.

Relacionado: