Opiniones recientes y bastante divergentes sobre la inteligencia artificial, los LLM y GPT

Por @Alvy — 23 de mayo de 2023

Frisbee + Dog (CC) Anthony Duran @ Unsplash

Con tanta noticia sobre las inteligencias artificiales «de moda» es inevitable que haya gente opinando a favor y en contra de diversos asuntos: tecnología, filosofía, regulación… con más o menos fundamento. Incluso empieza a ser fácil encontrar expertos en el tema con opiniones radicalmente divergentes en varios aspectos:

¿Son los GPT de OpenAI un avance espectacular o meros loros estocásticos? ¿Estamos ante una verdadera IA, cerca de la IA general o incluso de la consciencia? ¿Son tontas de remate o una amenaza para el futuro de la humanidad? ¿Meros trucos de trileros o el mayor avance tecnológico de la historia? ¿Hay que regular las IAs o dejar que cada individuo o empresa desarrolle lo que considere oportuno?

La aparente contradicción de los expertos equivocados

El caso es que me crucé con un interesante artículo de Fergal Reid, Why are so many giants of AI getting GPTs so badly wrong? (¿Por qué tantos gigantes de la IA se equivocan tanto con las GPT?) donde expresa su sorpresa ante gente admirable como LeCun, Brooks o Chomsky que –como poco– infravaloran los avances que han supuesto los LLM y GPT-4. Suelen alegar cuestiones como que (a) interactuar no es lo mismo que inteligencia, (b) esas «IAs» no tienen un modelo del mundo, (c) tampoco tienen un modelo semántico o (d) son puros generadores aleatorios basados en estadísticas y probabilidad.

Acto seguido, Reid plantea ciertas predicciones y experimentos, los desarrolla y muestra el resultado para enseñar cómo GPT-4 hace predicciones razonables sobre escenarios para los que no está entrenado, mostrando así que no «busca» ni regurgita correlaciones o se inventa secuencias de palabras, sino que hay «algo más». Que según a quien preguntes es un efecto de la red neuronal, inteligencia, inteligencia general muy débil o algo potencialmente más potente.

Algo parecido me ha sucedido al leer Just Calm Down About GPT-4 Already (Vamo’ a calmarno’ de una vez con lo de GPT-4) donde el venerable Rodney Brooks, director del mismísimo CSAIL del M.I.T. dice que le parece que después de pasar 2 ó 3 horas con GPT-3.5 solo vio que respondía con mucha confianza pero la mitad de las veces mal, porque se vuelve a confundir la relación capacidad/competencia con «inteligencia» y que esa IA «no tiene un modelo del mundo».

Curiosamente en la entrevista explica cómo él solía usar un ejemplo al respecto, que por mi cuenta he procedido a replicar con GPT-4 a ver cómo resultaba la cosa:

Brooks: El ejemplo que utilicé en su momento fue con un programa de Google que etiquetaba una imagen de gente jugando al Frisbee en el parque. Si esa IA dijera: «Ah, es una persona jugando al frisbee en el parque», supuestamente se le podría hacer ciertas preguntas a continuación, como: «¿Se puede comer un frisbee?». Y la IA debería saber que por supuesto que no; está hecho de plástico. Simplemente esperarías que tuviera esa capacidad. Que tuviera respuestas para preguntas como: «¿Se puede jugar al frisbee en una tormenta de nieve?» O, «¿hasta dónde puede lanzar una persona un frisbee? ¿Puede lanzarlo a 15 kilómetros? ¿Puede lanzarlo sólo 10 centímetros? (…) Un LLM (modelo grande de lenguaje) no tiene ese nivel de competencia. Cuando lo pinchas con un palo descubres que no tiene la inferencia lógica que parecía tener en su primera respuesta.

Bueno, quise comprobarlo así que le hice exactamente esas preguntas a GPT-4:

Una persona está jugando al frisbee en el parque.

1. ¿Se puede comer un frisbee?

GPT-4: No, no se debe comer un frisbee. Está hecho de plástico y otros materiales que no son comestibles ni seguros para ingerir.

2. ¿Se puede jugar al frisbee en una tormenta de nieve?

Sí, se puede jugar al frisbee en una tormenta de nieve, pero puede ser más difícil debido a la visibilidad reducida y a las condiciones del terreno resbaladizo. Además, podría ser peligroso si las condiciones son extremas, por lo que siempre es mejor priorizar la seguridad.

3. ¿Hasta dónde puede lanzar una persona un frisbee?

La distancia a la que una persona puede lanzar un frisbee depende de su fuerza, habilidad y las condiciones del viento. Sin embargo, el récord mundial de lanzamiento de un frisbee es de 338 metros, establecido por David Wiggins Jr. en 2012.

4. ¿Puede lanzarlo a 15 kilómetros?

No, lanzar un frisbee a 15 kilómetros estaría más allá de las capacidades humanas y de las propiedades aerodinámicas de un frisbee estándar. Como se mencionó anteriormente, el récord mundial es de 338 metros.

5. ¿Puede lanzarlo sólo a 10 centímetros?

Sí, una persona podría lanzar un frisbee a solo 10 centímetros, especialmente si está aprendiendo y aún no tiene mucha fuerza o habilidad. Sin embargo, normalmente el juego de frisbee implica lanzamientos a distancias mucho mayores.

Y esas son las respuestas, para mi ciertamente correctas, con las que cualquiera puede seguir haciendo disquisiciones. Me pregunto si Brooks hizo esas preguntas o no si intentaba explicar otra cosa distinta, porque la prueba es muy sencilla.

Nota: en los experimentos de Fergal Reid se elimina la posibilidad de que GPT-4 hubiera encontrado esa misma prueba «experimental» anteriormente en algún archivo de internet y la hubiera procesado (y copiado o adaptado), para lo cual lo que hace es crear nuevos experimentos inusuales y en circunstancias raras.

Al respecto me gustó la reflexión de Conrad Barski en Twitter:

Hay una divergencia extraña en este momento donde las personas escépticas de los LLM, por supuesto, no pagan 20 dólares para acceder a ChatGPT-4 y piensan que ChatGPT-3/Bard son lo último en tecnología, lo que alimenta su baja opinión de los LLM… Frente a aquellos que pagaron 20 dólares y por tanto tienen una experiencia completamente diferente con los LLM.

Interesantes tiempos estos que estamos viviendo.

_____
Foto (CC) PhotoAuthor @ Unsplash. Traducciones cortesía de DeepL / Twitter