Un diálogo visual de besugos que da pie a cuestionar algunas cosas sobre los bots y la inteligencia artificial

Por @Alvy — 4 de enero de 2019

Visual Dialog
¿Qué ves? «Unas tijeras sobre una mesa»

Vi pasar por Twitter un chiste sobre Visual Dialog, un simpático experimento a modo de agente de inteligencia artificial que combina lenguaje conversacional con contenido visual. La idea es simple: le das una fotografía y te dice lo que ve. Y luego puedes preguntar al respecto.

Lo cierto es que el sistema –cuyo código fuente puede descargarse de Github– tiene ya un par de añitos; y aunque hemos visto muchos bots similares en los últimos tiempos con los que echar unas risas no es menos cierto es que acaban funcionando mejor con el paso del tiempo, cuando se afinan y alimentan con suficientes datos. La parte «conversacional» la da además cierto punto de interés porque se puede comprender mejor lo que la IA está «viendo» en las imágenes.

Visual Dialog

En el chiste original en vez de la «Sarah Connor de Terminator armada con un AK-47» el bot creía ver «una mujer con un monopatín». Desde luego no reconocía al icónico personaje. Y cuando le decían «pues vaya monopatín más raro» simplemente contestaba «sí.» En otros casos la AI acierta a medias: en la foto de arriba ve «una persona delante de un edificio» (en realidad es un cartel) y reconoce no saber cómo de grande es la persona, porque «sólo puede verla parcialmente, no entera».

Visual Dialog

En otros casos acierta con éxito: bicicletas, grupos de personas en la calle son fáciles de identificar. O a veces acierta con pequeños fallos: en este otro ejemplo ve «un hombre y una mujer con un paraguas» (es una mujer con una bandera). Si se le pregunta por el color (es «multicolor») responde «negra». En otro caso que probé dos personas juegan al ajedrez en el parque, pero cree que están «cortando una tarta».

El bot parece tener querencia por escenas comunes y objetos sencillos y cotidianos como paraguas, mesas o teléfonos móviles; pero parece desconocer la existencia de las estatuas, pósteres o los carteles publicitarios en las calles. Una foto de una imagen de la Virgen María en el interior de una iglesia era «una mujer sujetando un teléfono móvil». «¿Está viva?». «Sí» (quizá sea un bot religioso o metafísico, quién sabe). Si se «tortura» estilo Blade Runner se le acaba pillando: en una foto de una cafetería de un centro comercial con un letrero de colores creía ver «un grupo de gente con paraguas»; cuestionado sobre si ve llover en la imagen dice que «no». Si se le pregunta si la escena es dentro de un edificio dice «sí.» «Entonces: ¿qué hace un grupo de gente con paraguas si no llueve y están dentro de un edificio?» «No lo sé», responde finalmente. Al menos es honesto.

Últimamente se está publicando bastante sobre la problemática de los bots haciéndose pasar por humanos: bots que inflan las cifras de la publicidad, bots que aumentan las visitas a los vídeos de YouTube, que escriben sus tuits para inflar las audiencias en la redes sociales… Pero también hay quien se ha escrito sobre personas que se hacen pasar por bots. Esto se refiere a empresas que hacen pasar su tecnología (ej. chatbots) por inteligencia artificial cuando no son más que turcos mecánicos o algo mucho menos tecnológico, simplemente «inteligencias colectivas». Si lo piensas, es una especie de test de Voight-Kampff «al revés»: humanos intentando hacerse pasar por robots. ¡A dónde vamos a llegar! De momento resulta divertido diferenciar una cosa de la otra. En unos meses o años, ya veremos.