DALL·E es una inteligencia artificial que crea imágenes a partir de descripciones en lenguaje natural

Por @Alvy — 6 de enero de 2021

DALL·E (pronunciado como DALL·E, el robot de la película de Pixar) es un curioso trabajo de la gente de OpenAI consistente en una inteligencia artificial basada en GPT-3 que genera imágenes a partir de descripciones textuales, en lenguaje natural. No es simplemente un buscador: las imágenes se generan sobre la marcha, incluyendo objetos aparentemente imposibles como «tapas de alcantarillas octogonales verdes» o «relojes amarillos con forma de triángulo amarillo».

La página donde se explica sus posibilidades es un dechado de imaginación y da buena cuenta de sus posibilidades: «una tetera de color rojo con el texto 'Bébeme' escrito en el lateral». Aunque de momento no permite introducir texto libre se puede jugar con algunos términos de ciertas frases para hacerse una idea; los desarrolladores registrados tienen acceso a la API completa para probarlo.

Para el entrenamiento se han utilizado 12.000 millones de parámetros sobre otro gigantesco número de pares texto-imagen, utilizando el letras, palabras y «conceptos» codificados como tokens. La IA tiene que primero entender lo que se está pidiendo y luego generar una imagen plausible. El resultado no siempre es acertado, pero la calidad de las imágenes es notablemente alta.

Relacionado: