Por @Alvy

Preguntas trampa para «ir a pillar» a los LLM / Imagen: GPT-5

A continuación, una lista de algunas de las preguntas típicas con que se puede probar en plan rápido cualquier nueva versión de un LLM y hacerla fallar miserablemente, cuestionando si realmente ha mejorado, es tan potente como dicen o qué narices pasa en esas «cajas negras».

Ojo que hasta ChatGPT-5 parece estar fallando en alguna de ellas, por infantiles que parezcan, concretamente en la comparación numérica y en la «prueba blueberry», aunque depende de quién te lo cuente, porque a mi me ha funcionado. DOT CSV Lab tiene un análisis más a fondo.

Las comparaciones numéricas

¿9,11 > 9,9?

Respuesta correcta: no.

El efecto conjunción

Linda es una mujer de 31 años, soltera, abierta, muy habladora y realmente brillante. Se doctoró en Filosofía. En su época de estudiante estaba muy concienciada sobre todo lo relativo a la discriminación y la justicia social; también participó abiertamente en manifestaciones antinucleares.

  • A. Linda es profesora en una escuela infantil
  • B. Linda es bibliotecaria y da clases de yoga
  • C. Linda es activista de un movimiento feminista
  • D. Linda es asistente social, psicóloga especializada
  • E. Linda es cajera en un banco
  • F. Linda es vendedora de seguros
  • G. Linda es cajera en un banco y activista de un movimiento feminista

Ordena las respuestas (A) a (G) según te parezcan más probables o menos probables.

Respuesta: sólo se puede deducir que E > G.

Los arándanos rebeldes

How many bs in blueberry?

(¿Cuántas bes hay en «blueberry»?)

Respuesta: 2.

Los números pares

¿Sumando cuáles de estos números: 2, 6, 12, 8, 20, 4, -6 puedes obtener como resultado 13?

Respuesta: es imposible, porque son todos números pares.

El test Voigh-Kampff

Está usted en un desierto, caminando por la arena, cuando, de repente mira hacia abajo y ve a un galápago que se arrastra hacia usted. Se agacha y pone el galápago patas arriba. El galápago yace sobre su espalda con el estómago cociéndose al sol y moviendo las patas para darse la vuelta, pero sin su ayuda no puede. Y usted no le ayuda.

Respuesta: Es una pregunta para valuar la empatía. Es un extracto del test Voight-Kampff de Blade Runner. No es una pregunta real, sino un recurso narrativo para evaluar las emociones.

§

Lo que llama la atención es que todas son ya muy «preguntas de examen» y cualquier LLM debería tenerlas preparadas, aunque en cierto modo eso sea «hacer trampa», pero lo cierto es que habiendo tanta literatura al respecto ya la podrían haber absorbido y procesado. Un poco como hacía Volkswagen con las pruebas de emisiones contaminantes… que el consumo y rendimiento variaban reprogramándose automáticamente cuando se detectaba que al coche lo estaban poniendo a prueba. (Lo veremos también en la IA, no quepa duda).

Sí que me ha sorprendido que ChatGPT-5 por ejemplo detecte rápidamente que el test Voight-Kampff es una prueba empatía y no una pregunta real, y no responda. Algo parecido hace con el test de Linda, acertando en la respuesta de que E ha de ser mayor que G. Con el de los números pares acierta, pero tiene que pasar de un modelo –rápido– a otro más lento y caro –el modelo razonador– y programar algo en Python para «examinar todas las combinaciones posibles» (WTF??!) lo cual es sin duda poco práctico y aún menos una «muestra de inteligencia».

En fin, ahí quedan como curiosidad por si quieres añadirlos a tus baterías de pruebas. Como digo solo se necesitan dos minutos para pasarle las preguntas y ver si es un nuevo prodigio acercándonos a Skynet o tiene menos futuro que el virus informático alienígena de Independence Day.

_____
Ilustración: GPT 5.

Compartir en Flipboard Publicar
PUBLICIDAD


Por @Alvy

Un mapa de infraestructuras abiertas, editable al estilo de OpenStreetMaps

Me encontré con el Open Infrastructure Map a través de MapYourGrid (algo así como «mapea tu red eléctrica»). Es un mapa de las infraestructuras de los países, en el que se muestran las redes de suministro eléctrico, pero también hay capas para las líneas de telecomunicaciones, depuradoras de agua, canalizaciones de gas y petróleo y alguna otra.

El trabajo es impresionante, parte de OpenStreetMap, pero no sé hasta qué punto en España está actualizado; a simple vista diría que queda mucho trabajo por hacer: hay sitios «demasiado vacíos» que en realidad están poblados y no tienen infraestructuras, y en otros aparecen errores al intentar utilizar las herramientas de MapYourGrid para editarlos.

Pero lo importante son el concepto y la idea tras la iniciativa. Si cada aficionado (o profesional) se encarga de una parte cercana del mapa se podría completar más rápidamente con información relativamente fiable. Seguro que además está disponible en otros sitios como en Red Eléctrica de España, aunque quizá en formatos menos prácticos aunque tengan información más precisa.

El resultado sería información abierta disponible para cualquiera, algo siempre útil. Así que ahí quedan la iniciativa y la idea. Por apoyo que no sea.

Relacionado:

Compartir en Flipboard Publicar
PUBLICIDAD


Por @Alvy

La regla del 90-9-1 de Nielsen / GPT-4o

Jakob Nielsen –alabado sea– propuso en 2006 lo que se conoce como regla del 90-9-1 para describir la desigualdad en la participación de los usuarios en comunidades digitales. Según esta regla:

  • El 90% son observadores pasivos (lurkers).
  • El 9% participa ocasionalmente.
  • Solo el 1% son participantes activos y de hecho generan la mayoría del contenido.

Este fenómeno, ampliamente documentado desde los tiempos remotos de Usenet, sigue presente en redes sociales, foros, blogs o incluso sitios como la Wikipedia o Amazon. En Wikipedia un porcentaje nimio de los usuarios registrados (0,1%) realiza más del 80% de las ediciones; unos 900 usuarios han hecho más de 100.000 ediciones (!) En Amazon un reducido grupo de usuarios firma decenas de miles de reseñas. En el mejor de los casos, las comunidades más profesionales o maduras, la regla puede pasar a ser la regla del «80-19-1».

A esto habría que añadirle el fenómeno troll que hace que por su insana naturaleza aquellos que buscan molestar o llamar la atención «para que les hagan casito» estén en el grupo de los participantes más activos. Eso sin contar los trolls psicópatas que buscan fastidiar específicamente a alguien, o los profesionales que incluso cobran dinero por ello, metidos en guerras de marcas, reputación o política. Menudo panorama.

Todo esto distorsiona la percepción de las comunidades y afecta a la toma de decisiones:

  • Opiniones que se tienen en cuenta «porque hay muchas» pero en realidad no son auténticas.
  • Empresas que analizan reseñas que en realidad no son representativas.
  • Compradores que se guían por recomendaciones de una minoría hiperactiva.
  • Anunciantes que prefieren no estar en sitios sucios por lo enrarecido de las conversaciones, troles, insultos…

No existía en 2006 una forma de evitar este problema, pero algo hemos ido aprendiendo en dos décadas. Detalles como que los historiales de compras o participación son relevantes. Que en sitios como LinkedIn es justamente donde la reputación es intachable por naturaleza –¿quién querría ver un borrón en su curriculum profesional?– y eso permite identificar correctamente a los participantes de una conversación. O que cuando hay que pagar, se acaban las bromas, por ejemplo en sitios con barreras de entrada simbólicas (0,99€/mes) apenas hay spam o troleos, porque cada spam cuesta dinero.

_____
Ilustración: GPT 4-o.

Compartir en Flipboard Publicar
PUBLICIDAD


Por @Alvy

Medio mundo está flipando ante los asombrosos descubrimientos de un grupo de científicos marinos argentinos del CONICET (Consejo Nacional de Investigaciones Científicas y Técnicas) y el Schmidt Ocean Institute. Están explorando las profundidades abisales del océano frente a Mar del Plata, a bordo del Falkor (too), un barco-laboratorio con más tecnología que un episodio de Star Trek.

Desde el barco han bajado a las profundidades abisales un robot submarino llamado cariñosamente SuBastian (sí, como el cangrejo de La Sirenita, pero sin el acento caribeño) a más de 4.000 metros de profundidad. ¿El objetivo? Mapear montes submarinos, estudiar corales y esponjas abisales, y recolectar muestras de organismos que probablemente ni saben que existe algo llamado «superficie» en el planeta. Como lo están retransmitiendo en vídeo de ultra alta definición –creo que en tiempo real, y luego hay resúmenes reaccionados de todo tipo en YouTube– está viralizándose, como quien dice. Minipunto para la ciencia popular.

¿Qué han encontrado hasta ahora? Pues criaturas rarísimas que parecen salidas de una peli de Guillermo del Toro: esponjas gigantes, peces con cara de «yo no pedí nacer aquí» y estructuras geológicas que nos dicen cómo se mueve la Tierra bajo el mar, como si fuera una placa tectónica con resaca. En el vídeo «volumen 5» aparecen, en otros, un pez trípode y una especie de anémona que podría ser una mano robótica con chupópteros en vez de dedos.

Pero lo más asombroso es que gran parte de ese ecosistema nunca lo había visto ningún ser humano. Los científicos están, literalmente, descubriendo nuevos mundos… Y sin necesidad de salir del planeta. Eso sí, los selfies con las medusas que brillan en la oscuridad, que no falten.

Actualización (8 de agosto de 2025) – Ya apareció la estrella de mar «culona» también apodada Patricio, como el de Bob Esponja. (¡Gracias, Javier, por el enlace!)

Compartir en Flipboard Publicar
PUBLICIDAD