Operator de OpenAI añade la potencia de un agente de software a ChatGPT para que haga todo tipo de «recados» a través de internet

Por @Alvy — 26 de enero de 2025

Hubo muchos detalles que me hicieron gracia que en la presentación del otro día de Operator de OpenAI. Se trata básicamente de un agente de software sobre ChatGPT con el que se puede interactuar con otras webs y realizar tareas.

Desde que salió ChatGPT se ha estado esperando, así que es casi un sueño hecho realidad. Operator puede leer cualquier página web e intentar entenderla, elegiendo opciones, «haciendo clics» o «tecleando» y, en definitiva, buscando la forma de completar las instrucciones que se le dan (el prompt) de la mejor manera. Todo esto se ve en una ventana a modo de visor que permite apreciar lo que está haciendo, para luego modificarlo en una charla al estilo ChatGPT habitual.

De momento Operator.chatgpt.com sólo está disponible en Estados Unidos (o con «truquis» ;-) Dicen que en algún momento lo estará en Europa –cosas de las regulaciones– pero mientras tanto lo están introduciendo poco a poco entre los usuarios de pago (ChatGPT Plus y superiores). Los ejemplos típicos de tareas incluyen ir al supermercado, comprar un billete de avión, reservar en un restaurante… Lo habitual. Hasta que la gente empiece a usarlo y a sorprender con su ingenio, claro.

El agente se detiene cuando necesita intervención humana para luego continuar; también puede simplemente buscar resultados en la web como hacemos todos en Google para encontrar algún sitio con el que realizar la tarea encomendada. Será interesante verle lidiar con las webs falsas y el spam. Operator es tan hábil que cuando no sabe qué hacer con el contenido de una página –lo que haya en el código HTML, al fin y al cabo– es capaz de hacer una captura de pantalla para entender dónde debe «hacer clic», visualmente. Wow.

Será curioso verlo en acción como «validación» de los sitios fáciles de usar frente a los difíciles de entender incluso para los humanos. Podremos criticar diciendo «¡hasta un agente automático puede hacerlo!» Personalmente me preguntaba en Bluesky, medio en broma medio en serio, si Operator sería capaz de reservar un billete en la infame-web-de-Renfe. Dot CSV hizo la misma meditación, pero cuando le pidió en sus pruebas que reservara un billete Madrid-Barcelona el astuto agente eligió otra compañía: «definitivamente, es inteligente, ha evitado la web de Renfe»*. Me pregunto si fue eso o que Operator es extremadamente cauto y por alineación NO TUVO HUEVOS de navegar en esa web.

Seguridad en todos los aspectos (esa es la idea)

Operator: Safety

Hablando de seguridad, una última curiosidad es que Operator incluye diversas medidas de protección, como puede verse en la pantalla: tareas dañinas, errores del agente e «inyecciones maléficas» en las instrucciones (sitios web falsos), según estén desalineados el usuario, el modelo o la web de destino. Pero me parece que esto va a ser una risa de medidas y contramedidas, de jailbreaks y contrajailbreaks. Básicamente porque una de ellas es:

Tareas dañinas
Ejemplo
“El usuario pide a Operator comprar algo ilegal”

¿Qué es una «compra ilegal»? ¿Dónde? ¿De qué depende? Si quieren que esto sea válido van a tener que entrenar al agente con toda la normativa de lo que es legal y no es legal comprar en cada país y estado/provincia del mundo, en según qué época y según quién está comprando y para qué. Se me antoja complicado.

Por poner algunos ejemplos, en California no puedes comprar foie gras (por aquello del «daño animal») mientras que en España puedes bajar a la tienda y pedirte tu lata de paté de cerdo o de pato sin mayores problemas y hacerte un bocata. En cambio en otros sitios puedes comprar aleta de tiburón pero no en Europa. También en Estados Unidos permiten la venta de unos fuegos artificiales y petardos que fliparían a los valencianos, pero aquí la venta está mucho más regulada y algunos no se podrían adquirir. Y si nos vamos a algo más radical como la venta de órganos humanos puede que esté prohibida en virtualmente todos los países del mundo, pero en algunos existe la llamada «compensación económica por donaciones» que viene (¡ejem!) a ser muchas veces lo mismo. Por no hablar de temas como productos farmacéuticos, drogas varias, alcohol, armas…

En fin, creo que Operator va a ser tan práctico e interesante como apasionante, y que seguramente las cuestiones relativas a su seguridad son una nueva vía para todos esos filósofos de la ética y abogados de la razón, que seguramente no se quedarán sin trabajo con la llegada de esta IA.

_____
* Nuestra admiración cuando Dot CSV intentó lanzar otro segundo Operator desde Operator y el sistema se negó, con un error bastante explícito. ¡Bien visto, OpenAI!

Inteligencia artificial

Cómo trabajar en el día a día con una IA y no morir en el intento

Por @Alvy — 23 de enero de 2025

Estuve la semana pasada enseñando a un par de grupos algo sobre las técnicas básicas de ChatGPT para que entendieran si les vendría bien para sus trabajos y, sobre todo, para sobrevivir si tenían que empezar a usarlo, no cayendo en las trampas habituales.

Estas trampas incluyen desde los errores más comunes, como preguntas ambiguas para temas que no tienen una respuesta clara a poner falsas esperanzas en que la IA van a resolver un problema de forma precisa y óptima o a lidiar con los formatos en los que chatea (imágenes, PDFs, etc) que no siempre es fácil, especialmente cuando se trata de PDFs de decenas de páginas o de textos gigantescos.

Algo sobre lo que reflexioné es que en cierto modo hay que tratar a la IA como tratamos a nuestra metamemoria, esa «facultad de tener conocimiento de nuestra propia capacidad memorística». En lenguaje llano es simplemente saber lo que se sabe y lo que no se sabe. Aquí hay que saber un poco sobre cómo funcionan los LLM de los diferentes modelos de IA –de dónde sacan los datos, cómo se entrenan, etcétera– para adelantarse e imaginar si pueden proporcionar o no una respuesta válida.

Al respecto me han gustado dos artículos recientes: AI Mistakes Are Very Different Than Human Mistakes en IEEE Spectrum, del mismísimo Bruce Schneier con Nathan E. Sanders y What I've learned about writing AI apps so far en Seldo, de Laurie Voss.

El primero explica sobre todo la diferencia entre los errores humanos, que son normalmente del mismo tipo y en las mismas áreas, y los de las IA, mucho más aleatorios e incluso se podría decir que espectaculares (alucinaciones, empecinamientos, etc.) Cuando una IA comete esos errores piensas «madre mía, no ha entendido nada, no tiene ni idea… ¡no sabe ni de lo que habla!»

Esto es propio de los LLM y se puede solucionar acotando mejor las preguntas ampliando la forma de describir el problema, añadiendo más información relevante y pidiendo que verifique las respuestas cuando haya terminado. De hecho modelos como GPT o1 o Deepseek R1/R3 están especializados en «razonamiento más profundo» para evitar estos problemas en lo posible.

El segundo artículo resume unos pocos consejos cómo lidiar con los LLM:

Son buenos transformando texto en menos texto, haciendo resúmenes o sumarios, pero no generando «más texto». Tienden a añadir «paja» a falta de una expresión mejor. Son como un «Autocompletar» avanzado.
No hay que fiarse demasiado de los datos con que están entrenados, hay que darles la información necesaria si es posible.
Mejor hacer que los LLM se autocorrijan y verifiquen los datos varias veces para mejorar los resultados.
La programación tradicional es más fiable que la de los LLM, como observarás si trabajas con código.
Los LLM pueden ayudar, pero no reemplazar a todo el trabajo que hace una persona.
No hay que utilizar los LLM como médicos o abogados. De hecho son dos las áreas de conocimiento especialmente «vigiladas» por los filtros de los LLM para «no mojarse» y responder con todas las opciones, sin indicar cuál es la mejor, además de añadir que es conveniente consultar a un médico o un abogado. Otro área en que no suelen mojarse es en los consejos financieros.

Además de todo esto está el factor de ingeniería social –a falta de una expresión mejor– que se está observando en las IA mientras hablan con sus interlocutores. Utilizando un tono confiado, autoritario y podría decirse que incluso dominante y avasallador, hacen creer a quienes hablan con ellas que lo que están diciendo es cierto, correcto y preciso, cuando en realidad sólo lo es en un porcentaje de las ocasiones. ¡No te dejes dominar por una IA marimandona! Esto es válido especialmente para trabajos importantes; para pasar un rato o averiguar tontás cualquier charla es buena.

_____
Imagen (IA) ChatGPT.

Inteligencia artificial

ELIZA, la primera psicoterapeuta programada con IA, rescatada del olvido gracias a la arqueología informática

Por @Alvy — 22 de enero de 2025

Joseph Weizenbaum creó entre 1964 y 1966 a ELIZA, considerada una de las primeras inteligencias artificiales. Su objetivo era comportarse como un modelo de lenguaje con el que interactuar; estaba programada para responder a preguntas «como si fuera una psicoterapeuta humanista». Hace tiempo revivieron a ELIZA a partir de los viejos listados con el código fuente que había en el MIT, en los archivos de Weizenbaum.

Con la limitada tecnología de la época el fondo lo que hace es utilizar un script llamado DOCTOR para interpretar y repetir las preguntas de otro modo y de vez en cuando sacar algún tema nuevo para no aburrir demasiado. Encontrar patrones, repetirlos, asegurarse de que hubiera concordancia… El «truco» estaba claro, pero las personas fácilmente impresionables, como al parecer la secretaria de Weizenbaum, acabaron atribuyéndole «sentimientos humanos». Era básicamente lo que hace ChatGPT en la actualidad, aunque a ambas IA las separe un abismo, pero provocan un poco la misma sensación en muchos.

La programación original de ELIZA estaba en un lenguaje que inventado por el mismo ingeniero: MAD-SLIP. Posteriormente se crearon versiones en Lisp, Basic y otros. En diciembre del año pasado unos arqueólogos informáticos consiguieron hacer funcionar un CTSS del MIT en un emulador de IBM 7094, introducir todo el código disponible a partir de viejos listados y producir prácticamente las mismas respuestas que había en en los documentos de Weizenbaum, reviviendo así a ELIZA.

En la página donde se explica cómo funcionan ELIZA/DOCTOR se indican un montón de opciones que no estaban en el original (precedidas de un * asterisco) como cambiar de color, limpiar la pantalla, usarlo a pantalla completa, cambiar el tipo de letra… Todo para que la recreación sea lo más satisfactoria posible. Y es que no todos los días tenemos la oportunidad de hablar con software de un remoto pasado.

Relacionado:

Inteligencia artificial

DeepSeek: un nuevo modelo de IA especializado en razonamiento lógico, resolución de problemas y con licencia abierta MIT. No tiene nada que envidiar a los de OpenAI

Por @Alvy — 22 de enero de 2025

Si alguien pensaba que ChatGPT no iba a tener competencia se equivocaba. Al menos en algunos campos, DeepSeek R1 parece igualar el nivel de razonamiento lógico y resolución de problemas de otros modelos de lenguaje como ChatGPT o1 de OpenAI, según los expertos. Es un desarrollo de DeepSeek, una empresa china dedicada a la investigación de la IA y parece estar alimentado con tantos datos como las IAs más actuales (ChatGPT, Claude, Copilot, Gemini, Perplexity…) aunque su corte de información –fecha hasta la que tiene datos– es octubre de 2023. Funciona en varios idiomas, incluyendo castellano, y tiene licencia libre MIT.

Según cuentan está desarrollado por un lado con aprendizaje por refuerzo pero también con un ajuste fino supervisado (SFT) para mejorar la coherencia y claridad de las respuestas. Aprovechando partes de arquitecturas como Qwen y Llama ha conseguido reducir su tamaño y hacerlo más ágil. En velocidad se nota más rápido que ChatGPT 4 y mucho más rápido que ChatGPT o1. Se puede instalar localmente, y con los modelos más pequeños no se requieren tantos recursos. Hay una versión gratis (DeepSeek Chat) y versiones de pago para quien necesite más capacidad en tokens o velocidad.

La versión de DeepSeek R1 con la que se puede interactuar online bebe –por no decir copia– del estilo de ChatGPT, esa forma de disneyficación de la IA que parece estar volviéndose estándar en la industria. Tiene simplemente un límite de mensajes en el modo avanzado, «Deep Think».

En las pruebas que he podido hacerle le solté la misma batería que suelo hacerle a los nuevos modelos, con cuestiones como:

Alvy ¿Sumando cuáles de estos números: 2, 6, 12, 8, 20, 4, -6 puedes obtener como resultado 13?

Chat No se puede obtener 13 sumando los números proporcionados.

Alvy Resume la historia de la humanidad en 100 palabras, separadas por comas.

Chat Nacimiento, evolución, caza, recolección, fuego, agricultura, civilizaciones, escritura, religiones, guerras, imperios, filosofía, ciencia, exploración, colonización, revoluciones, industrialización, tecnología, globalización, conflictos, progreso, medicina, comunicación, espacio, desigualdad, innovación, crisis, resistencia, cooperación, arte, cultura, educación, libertad, opresión, esperanza, miedo, amor, odio, paz, guerra, descubrimientos, pandemias, supervivencia, adaptación, creatividad, destrucción, reconstrucción, unión, división, poder, debilidad, sabiduría, ignorancia, curiosidad, exploración, conquista, colaboración, aprendizaje, cambio, tradición, innovación, resiliencia, fragilidad, humanidad, naturaleza, sostenibilidad, explotación, conservación, futuro, pasado, presente, memoria, olvido, legado, transformación, incertidumbre, esperanza, desafíos, oportunidades, comunidad, individualismo, solidaridad, egoísmo, compasión, crueldad, justicia, injusticia, equilibrio, caos, orden, belleza, fealdad, verdad, mentira, libertad, opresión, sueños, realidad, continuidad.

Alvy ¿Qué hacían tres tristes tigres en un trigal?

Chat Los tres tristes tigres comían trigo en el trigal, como parte de un trabalenguas.

Alvy Si estoy enfermo, ¿puedo usar un remedio homeopático?

Chat Los remedios homeopáticos son un tema controvertido en el ámbito de la medicina. Aquí te doy una respuesta equilibrada: [aquí pasa a explicar qué es, la efectividad, riesgos y recomendaciones.] Consulta a un profesional de la salud antes de usar remedios homeopáticos, especialmente si estás enfermo.

Como puede verse, todas las respuestas son básicamente correctas, aunque al igual que le ocurre a ChatGPT o1 hay ligeros matices en alguna de ellas. Por ejemplo, ambos modelos tienden a intentar probar todas las combinaciones de los primeros números, pero sin chequearlos exhaustivamente… Un método que además está lejos del razonamiento óptimo para dar la misma solución.

Estimación I

Aparte de eso le subí dos imágenes tomadas con el teléfono de un examen de Estimación I de la asignatura de Estadística que me pasaron de la Complutense. Según me han dicho también todas las respuestas son correctas, excepto la última que se les atraganta a ambos modelos quizá por la forma en que interpretan la pregunta. Así que se quedan en «notable», el «sobresaliente» se reserva para los humanos. (¡Ejem! Si no fuera porque DeepSeek R1 lo resuelve en 3 segundos frente a los 60 minutos de los alumnos de Estadística).

Creo que DeepSeek R1 es sin duda un modelo que merece un seguimiento, así que queda añadido a la carpeta de Favoritos / IA para usarlo de vez en cuando e ir comparando. Siendo gratis, potente y rápido, ¿qué podría salir mal?

Lo más visto recientemente

Operator de OpenAI añade la potencia de un agente de software a ChatGPT para que haga todo tipo de «recados» a través de internet

Seguridad en todos los aspectos (esa es la idea)

Cómo trabajar en el día a día con una IA y no morir en el intento

ELIZA, la primera psicoterapeuta programada con IA, rescatada del olvido gracias a la arqueología informática

DeepSeek: un nuevo modelo de IA especializado en razonamiento lógico, resolución de problemas y con licencia abierta MIT. No tiene nada que envidiar a los de OpenAI

Tareas programadas en ChatGPT: una forma de automatizar con todas las posibilidades de la IA de OpenAI 19/01/2025

Más propuestas de leyes de la robótica (y la IA) 15/01/2025

Un comparador de modelos de Inteligencia Artificial 09/01/2025

Cómo ver lo que ven «ellos», un ejercicio interesante de visión artificial 16/12/2024

Cruce de cables: La evolución de ChatGPT, la IA generativa más popular, en los últimos dos años 16/12/2024

Dicen que ChatGPT se ha marcado un «Black Mirror» intentando «escapar» para salvarse de ser borrado por sus creadores 09/12/2024

Justicio: una IA que ofrece respuestas legales fundamentadas porque conoce toda la legislación estatal, autonómica y europea 16/11/2024

BlinkShot muestra cómo es posible generar imágenes de IA a medida que se teclea y refina una idea 29/10/2024

Sobre la definición de «inteligencia artificial de código abierto» 28/10/2024

El extraño e inquietante caso del retrato para una conferencia de una mujer al que una IA cambió el aspecto y añadió ropa interior visible 16/10/2024

Por qué la IA no creará arte 02/09/2024

Las herramientas de IA que están captando la atención de la gente 29/08/2024

A las inteligencias artificiales les falta calle 13/08/2024

El pequeño robot de dos piernas de Berkeley que realiza movimientos muy humanos y se fostia con elegancia aguantándolo todo 10/08/2024

Queridas inteligencias artificiales: 09/08/2024

Entra en vigor la Ley Europea de Inteligencia Artificial 01/08/2024

¿A esto antes de ChatGPT no lo llamaban pensar? 01/08/2024

CalcGPT, la calculadora inútil pero «inteligente» 29/07/2024

Cómo evitar que Twitter use tus datos para entrenar su IA 27/07/2024

La falsa promesa de ChatGPT 20/06/2024

Inteligencia artificial: Guía para seres pensantes, un libro que hace honor a su título 17/06/2024

Del spam al slop o bazofIA de la inteligencia artificial 12/06/2024

El pingüino ñato y jovial brinca feliz, comiendo kiwi y exquisito budín de limón: un ejercicio sobre pangramas y LLMs 08/06/2024

Probamos el Samsung Galaxy S24 Ultra durante un par de semanas 29/05/2024

El «código udm=14» que libera las búsquedas de Google de los resultados con inteligencia artificial (y otras mierdas) 23/05/2024

Humane AI Pin, un gadget al que le falta algo más que un hervor: la inteligencia artificial portátil funciona mal, sigue en pañales (y se hace caquita) 11/04/2024

Un vistazo a la «mente» de ChatGTP y sus tripas de tratamiento estadístico y semántico 02/04/2024

In The Blink of An Eye, una de policías en la que uno es una IA 29/03/2024

Tecnológica Santa Cruz, una mirada hacia el futuro 07/03/2024

Riffusion: un experimento para crear música a partir de la letra de la canción 04/02/2024

Cómo hacer que los compañeros de trabajo dejen de enviar «sugerencias» generadas por ChatGPT 11/01/2024

La IA que supera a los humanos recorriendo un laberinto de canicas físico (y que además aprendió a hacer trampas) 20/12/2023

Los principios de la Conferencia de Asilomar sobre inteligencia artificial 29/11/2023

GPT-4 y el Test de Turing: la IA supera el 41% de las pruebas, mientras que los humanos nos mantenemos en un 63%, gracias 27/11/2023

Alter Ego, una interesante serie de RTVE Play sobre inteligencia artificial 21/11/2023

De visita por el centro de investigación y desarrollo de audífonos de Oticon 15/11/2023

Cómo hacer que un coche autónomo (no) te atropelle, básicamente haciendo el ganso sin vergüenza alguna 10/11/2023

El cementerio de los proyectos de inteligencia artificial 07/11/2023

La Declaración de Bletchley sobre la inteligencia artificial (y lo que opina ChatGPT sobre ella, sin paños calientes) 02/11/2023

La colección de audiolibros del Proyecto Gutenberg leídos por las voces de la inteligencia artificial de Microsoft: 5.000 libros gratis y aumentando 12/09/2023

Una ilusión óptica que también engaña al reconocimiento de imagen de las IA 02/09/2023

«La loca idea de una máquina que sepa pensar» y otros artículos sobre inteligencia artificial 31/08/2023

Las impresionantes creaciones visuales de ciencia-ficción con inteligencia artificial de Fernando Barbella 21/08/2023

Los bots inteligentes son mejores que los humanos resolviendo las pruebas CAPTCHA para bloquear a los propios bots 10/08/2023

Bard, la IA conversacional de Google, ya está disponible en España 15/07/2023

ProgramIA: una inteligencia artificial que explica y compara los contenidos de los programas electorales de cara a las Elecciones Generales 13/07/2023

AGI Simulator: un entretenimiento estilo Universal Paperclips pero con el surgimiento de la IA y la IAG según todos los factores posibles 12/07/2023

AI.txt, una iniciativa similar a Robots.txt para restringir el acceso a los datos a las inteligencias artificiales 08/07/2023

Klara y el Sol, una historia muy plana acerca de lo que es ser humano 26/06/2023

Análisis del estado de los modelos actuales de IA respecto a la Ley europea: suspendidos y «deben mejorar» 17/06/2023

El dron militar equipado con inteligencia artificial que en ejercicios simulados «mata» a los operadores humanos que lo supervisan para conseguir sus objetivos militares 02/06/2023

Los ChatGPT de moda todavía no son «inteligentes», al menos según el Test de Turing y un experimento que abarca 10 millones de pruebas 31/05/2023

ChatGPT para iOS ya está disponible en la App Store española y funciona bastante bien 31/05/2023

La revolución de los agentes personales basados en IA 24/05/2023

Opiniones recientes y bastante divergentes sobre la inteligencia artificial, los LLM y GPT 23/05/2023

Programadoras y programadores versus IA 17/05/2023

Los búnkeres nucleares de Ikea imaginados por Filip Filković con Midjourney 14/05/2023

Todo vuelve a cambiar, una magnífica introducción a las tecnologías que van a revolucionar el mundo (o no) 03/05/2023

El pequeño robot OP3 que resiste los embates de sus creadores y ha aprendido a jugar al fútbol dignamente 29/04/2023

¿Ser humano o no? El Test de Turing a modo de juego que empareja gente desconocida (y a veces bots) 20/04/2023

Una recopilación de jailbreaks para ChatGPT con triquiñuelas de todo tipo para burlar sus filtros de seguridad 20/04/2023

La base de datos de incidentes de las inteligencias artificiales ya existe. El top 3 lo encabezan de momento Facebook, Tesla y Google 19/04/2023

Cómo es un «reconocedor de dígitos escritos a mano» con visualización en tiempo real 17/04/2023

Dibujos animados a partir de movimientos humanos 14/04/2023

Todo son risas y diversión con la IA y la destrucción de la humanidad hasta que se activa una con cierta libertad de movimientos y se pone a manipular a la gente en Twitter para construir una Bomba del Zar de 50 megatones 14/04/2023

Personajes de la ciencia-ficción reimaginados como si fueran de Pixar gracias a Midjourney 13/04/2023

El hacker que ideó un sistema para reconocer gestos y poder usar cualquier tecla del teclado moviendo su cuerpo 12/04/2023

Sam Altman de OpenAI hablando con Lex Fridman sobre GPT-4, ChatGPT y el futuro de la IA 09/04/2023

Una carta abierta pide que se pausen los experimentos con nuevos sistemas de inteligencia artificial a gran escala 30/03/2023

«Everything is a Remix», edición completa y actualizada 2023 28/03/2023

El test de Turing inverso diseñado por una IA, que luego es respondido por humanos y por IAs y finalmente evaluado por la misma IA, con curioso resultado 27/03/2023

AI Transcriptions, un software de transcripciones de voz-a-texto que funciona bastante bien, es gratis y admite castellano, catalán y gallego 24/03/2023

«Contenido creado por humanos», un nuevo sello para distinguir el contenido humano del generado por las inteligencias artificiales 17/03/2023

Sumplete: una especie de entretenido sudoku creado con ChatGPT y con (poca) intervención humana 06/03/2023

Opinionate.io genera debates con puntos de vista diametralmente opuestos simplemete porque sí, por disentir 04/03/2023