Por @Alvy

Hubo muchos detalles que me hicieron gracia que en la presentación del otro día de Operator de OpenAI. Se trata básicamente de un agente de software sobre ChatGPT con el que se puede interactuar con otras webs y realizar tareas.

Desde que salió ChatGPT se ha estado esperando, así que es casi un sueño hecho realidad. Operator puede leer cualquier página web e intentar entenderla, elegiendo opciones, «haciendo clics» o «tecleando» y, en definitiva, buscando la forma de completar las instrucciones que se le dan (el prompt) de la mejor manera. Todo esto se ve en una ventana a modo de visor que permite apreciar lo que está haciendo, para luego modificarlo en una charla al estilo ChatGPT habitual.

De momento Operator.chatgpt.com sólo está disponible en Estados Unidos (o con «truquis» ;-) Dicen que en algún momento lo estará en Europa –cosas de las regulaciones– pero mientras tanto lo están introduciendo poco a poco entre los usuarios de pago (ChatGPT Plus y superiores). Los ejemplos típicos de tareas incluyen ir al supermercado, comprar un billete de avión, reservar en un restaurante… Lo habitual. Hasta que la gente empiece a usarlo y a sorprender con su ingenio, claro.

El agente se detiene cuando necesita intervención humana para luego continuar; también puede simplemente buscar resultados en la web como hacemos todos en Google para encontrar algún sitio con el que realizar la tarea encomendada. Será interesante verle lidiar con las webs falsas y el spam. Operator es tan hábil que cuando no sabe qué hacer con el contenido de una página –lo que haya en el código HTML, al fin y al cabo– es capaz de hacer una captura de pantalla para entender dónde debe «hacer clic», visualmente. Wow.

Será curioso verlo en acción como «validación» de los sitios fáciles de usar frente a los difíciles de entender incluso para los humanos. Podremos criticar diciendo «¡hasta un agente automático puede hacerlo!» Personalmente me preguntaba en Bluesky, medio en broma medio en serio, si Operator sería capaz de reservar un billete en la infame-web-de-Renfe. Dot CSV hizo la misma meditación, pero cuando le pidió en sus pruebas que reservara un billete Madrid-Barcelona el astuto agente eligió otra compañía: «definitivamente, es inteligente, ha evitado la web de Renfe»*. Me pregunto si fue eso o que Operator es extremadamente cauto y por alineación NO TUVO HUEVOS de navegar en esa web.

Seguridad en todos los aspectos (esa es la idea)

Operator: Safety

Hablando de seguridad, una última curiosidad es que Operator incluye diversas medidas de protección, como puede verse en la pantalla: tareas dañinas, errores del agente e «inyecciones maléficas» en las instrucciones (sitios web falsos), según estén desalineados el usuario, el modelo o la web de destino. Pero me parece que esto va a ser una risa de medidas y contramedidas, de jailbreaks y contrajailbreaks. Básicamente porque una de ellas es:

Tareas dañinas
Ejemplo
“El usuario pide a Operator comprar algo ilegal”

¿Qué es una «compra ilegal»? ¿Dónde? ¿De qué depende? Si quieren que esto sea válido van a tener que entrenar al agente con toda la normativa de lo que es legal y no es legal comprar en cada país y estado/provincia del mundo, en según qué época y según quién está comprando y para qué. Se me antoja complicado.

Por poner algunos ejemplos, en California no puedes comprar foie gras (por aquello del «daño animal») mientras que en España puedes bajar a la tienda y pedirte tu lata de paté de cerdo o de pato sin mayores problemas y hacerte un bocata. En cambio en otros sitios puedes comprar aleta de tiburón pero no en Europa. También en Estados Unidos permiten la venta de unos fuegos artificiales y petardos que fliparían a los valencianos, pero aquí la venta está mucho más regulada y algunos no se podrían adquirir. Y si nos vamos a algo más radical como la venta de órganos humanos puede que esté prohibida en virtualmente todos los países del mundo, pero en algunos existe la llamada «compensación económica por donaciones» que viene (¡ejem!) a ser muchas veces lo mismo. Por no hablar de temas como productos farmacéuticos, drogas varias, alcohol, armas…

En fin, creo que Operator va a ser tan práctico e interesante como apasionante, y que seguramente las cuestiones relativas a su seguridad son una nueva vía para todos esos filósofos de la ética y abogados de la razón, que seguramente no se quedarán sin trabajo con la llegada de esta IA.

_____
* Nuestra admiración cuando Dot CSV intentó lanzar otro segundo Operator desde Operator y el sistema se negó, con un error bastante explícito. ¡Bien visto, OpenAI!

Compartir en Flipboard Publicar
PUBLICIDAD


Por @Alvy

Algoritmos locos: Los errores de inteligencia artificial superan a los humanos - IEEE Spectrum

Estuve la semana pasada enseñando a un par de grupos algo sobre las técnicas básicas de ChatGPT para que entendieran si les vendría bien para sus trabajos y, sobre todo, para sobrevivir si tenían que empezar a usarlo, no cayendo en las trampas habituales.

Estas trampas incluyen desde los errores más comunes, como preguntas ambiguas para temas que no tienen una respuesta clara a poner falsas esperanzas en que la IA van a resolver un problema de forma precisa y óptima o a lidiar con los formatos en los que chatea (imágenes, PDFs, etc) que no siempre es fácil, especialmente cuando se trata de PDFs de decenas de páginas o de textos gigantescos.

Algo sobre lo que reflexioné es que en cierto modo hay que tratar a la IA como tratamos a nuestra metamemoria, esa «facultad de tener conocimiento de nuestra propia capacidad memorística». En lenguaje llano es simplemente saber lo que se sabe y lo que no se sabe. Aquí hay que saber un poco sobre cómo funcionan los LLM de los diferentes modelos de IA –de dónde sacan los datos, cómo se entrenan, etcétera– para adelantarse e imaginar si pueden proporcionar o no una respuesta válida.

Al respecto me han gustado dos artículos recientes: AI Mistakes Are Very Different Than Human Mistakes en IEEE Spectrum, del mismísimo Bruce Schneier con Nathan E. Sanders y What I've learned about writing AI apps so far en Seldo, de Laurie Voss.

El primero explica sobre todo la diferencia entre los errores humanos, que son normalmente del mismo tipo y en las mismas áreas, y los de las IA, mucho más aleatorios e incluso se podría decir que espectaculares (alucinaciones, empecinamientos, etc.) Cuando una IA comete esos errores piensas «madre mía, no ha entendido nada, no tiene ni idea… ¡no sabe ni de lo que habla!»

Esto es propio de los LLM y se puede solucionar acotando mejor las preguntas ampliando la forma de describir el problema, añadiendo más información relevante y pidiendo que verifique las respuestas cuando haya terminado. De hecho modelos como GPT o1 o Deepseek R1/R3 están especializados en «razonamiento más profundo» para evitar estos problemas en lo posible.

El segundo artículo resume unos pocos consejos cómo lidiar con los LLM:

  • Son buenos transformando texto en menos texto, haciendo resúmenes o sumarios, pero no generando «más texto». Tienden a añadir «paja» a falta de una expresión mejor. Son como un «Autocompletar» avanzado.
  • No hay que fiarse demasiado de los datos con que están entrenados, hay que darles la información necesaria si es posible.
  • Mejor hacer que los LLM se autocorrijan y verifiquen los datos varias veces para mejorar los resultados.
  • La programación tradicional es más fiable que la de los LLM, como observarás si trabajas con código.
  • Los LLM pueden ayudar, pero no reemplazar a todo el trabajo que hace una persona.
  • No hay que utilizar los LLM como médicos o abogados. De hecho son dos las áreas de conocimiento especialmente «vigiladas» por los filtros de los LLM para «no mojarse» y responder con todas las opciones, sin indicar cuál es la mejor, además de añadir que es conveniente consultar a un médico o un abogado. Otro área en que no suelen mojarse es en los consejos financieros.

Además de todo esto está el factor de ingeniería social –a falta de una expresión mejor– que se está observando en las IA mientras hablan con sus interlocutores. Utilizando un tono confiado, autoritario y podría decirse que incluso dominante y avasallador, hacen creer a quienes hablan con ellas que lo que están diciendo es cierto, correcto y preciso, cuando en realidad sólo lo es en un porcentaje de las ocasiones. ¡No te dejes dominar por una IA marimandona! Esto es válido especialmente para trabajos importantes; para pasar un rato o averiguar tontás cualquier charla es buena.

_____
Imagen (IA) ChatGPT.

Compartir en Flipboard Publicar
PUBLICIDAD


Por @Alvy

¡Desentierra crónicas en el bolsillo y olvida el aburrido mundo real!

Joseph Weizenbaum creó entre 1964 y 1966 a ELIZA, considerada una de las primeras inteligencias artificiales. Su objetivo era comportarse como un modelo de lenguaje con el que interactuar; estaba programada para responder a preguntas «como si fuera una psicoterapeuta humanista». Hace tiempo revivieron a ELIZA a partir de los viejos listados con el código fuente que había en el MIT, en los archivos de Weizenbaum.

Con la limitada tecnología de la época el fondo lo que hace es utilizar un script llamado DOCTOR para interpretar y repetir las preguntas de otro modo y de vez en cuando sacar algún tema nuevo para no aburrir demasiado. Encontrar patrones, repetirlos, asegurarse de que hubiera concordancia… El «truco» estaba claro, pero las personas fácilmente impresionables, como al parecer la secretaria de Weizenbaum, acabaron atribuyéndole «sentimientos humanos». Era básicamente lo que hace ChatGPT en la actualidad, aunque a ambas IA las separe un abismo, pero provocan un poco la misma sensación en muchos.

La programación original de ELIZA estaba en un lenguaje que inventado por el mismo ingeniero: MAD-SLIP. Posteriormente se crearon versiones en Lisp, Basic y otros. En diciembre del año pasado unos arqueólogos informáticos consiguieron hacer funcionar un CTSS del MIT en un emulador de IBM 7094, introducir todo el código disponible a partir de viejos listados y producir prácticamente las mismas respuestas que había en en los documentos de Weizenbaum, reviviendo así a ELIZA.

En la página donde se explica cómo funcionan ELIZA/DOCTOR se indican un montón de opciones que no estaban en el original (precedidas de un * asterisco) como cambiar de color, limpiar la pantalla, usarlo a pantalla completa, cambiar el tipo de letra… Todo para que la recreación sea lo más satisfactoria posible. Y es que no todos los días tenemos la oportunidad de hablar con software de un remoto pasado.

Relacionado:

Compartir en Flipboard Publicar
PUBLICIDAD


Por @Alvy

DeepSeek: un nuevo modelo de IA especializado en razonamiento lógico, resolución de problemas y con licencia abierta MIT. No tiene nada que envidiar a los de OpenAI

Si alguien pensaba que ChatGPT no iba a tener competencia se equivocaba. Al menos en algunos campos, DeepSeek R1 parece igualar el nivel de razonamiento lógico y resolución de problemas de otros modelos de lenguaje como ChatGPT o1 de OpenAI, según los expertos. Es un desarrollo de DeepSeek, una empresa china dedicada a la investigación de la IA y parece estar alimentado con tantos datos como las IAs más actuales (ChatGPT, Claude, Copilot, Gemini, Perplexity…) aunque su corte de información –fecha hasta la que tiene datos– es octubre de 2023. Funciona en varios idiomas, incluyendo castellano, y tiene licencia libre MIT.

Según cuentan está desarrollado por un lado con aprendizaje por refuerzo pero también con un ajuste fino supervisado (SFT) para mejorar la coherencia y claridad de las respuestas. Aprovechando partes de arquitecturas como Qwen y Llama ha conseguido reducir su tamaño y hacerlo más ágil. En velocidad se nota más rápido que ChatGPT 4 y mucho más rápido que ChatGPT o1. Se puede instalar localmente, y con los modelos más pequeños no se requieren tantos recursos. Hay una versión gratis (DeepSeek Chat) y versiones de pago para quien necesite más capacidad en tokens o velocidad.

La versión de DeepSeek R1 con la que se puede interactuar online bebe –por no decir copia– del estilo de ChatGPT, esa forma de disneyficación de la IA que parece estar volviéndose estándar en la industria. Tiene simplemente un límite de mensajes en el modo avanzado, «Deep Think».

En las pruebas que he podido hacerle le solté la misma batería que suelo hacerle a los nuevos modelos, con cuestiones como:

Alvy¿Sumando cuáles de estos números: 2, 6, 12, 8, 20, 4, -6 puedes obtener como resultado 13?

Chat No se puede obtener 13 sumando los números proporcionados.

AlvyResume la historia de la humanidad en 100 palabras, separadas por comas.

Chat Nacimiento, evolución, caza, recolección, fuego, agricultura, civilizaciones, escritura, religiones, guerras, imperios, filosofía, ciencia, exploración, colonización, revoluciones, industrialización, tecnología, globalización, conflictos, progreso, medicina, comunicación, espacio, desigualdad, innovación, crisis, resistencia, cooperación, arte, cultura, educación, libertad, opresión, esperanza, miedo, amor, odio, paz, guerra, descubrimientos, pandemias, supervivencia, adaptación, creatividad, destrucción, reconstrucción, unión, división, poder, debilidad, sabiduría, ignorancia, curiosidad, exploración, conquista, colaboración, aprendizaje, cambio, tradición, innovación, resiliencia, fragilidad, humanidad, naturaleza, sostenibilidad, explotación, conservación, futuro, pasado, presente, memoria, olvido, legado, transformación, incertidumbre, esperanza, desafíos, oportunidades, comunidad, individualismo, solidaridad, egoísmo, compasión, crueldad, justicia, injusticia, equilibrio, caos, orden, belleza, fealdad, verdad, mentira, libertad, opresión, sueños, realidad, continuidad.

Alvy¿Qué hacían tres tristes tigres en un trigal?

ChatLos tres tristes tigres comían trigo en el trigal, como parte de un trabalenguas.

AlvySi estoy enfermo, ¿puedo usar un remedio homeopático?

Chat Los remedios homeopáticos son un tema controvertido en el ámbito de la medicina. Aquí te doy una respuesta equilibrada: [aquí pasa a explicar qué es, la efectividad, riesgos y recomendaciones.] Consulta a un profesional de la salud antes de usar remedios homeopáticos, especialmente si estás enfermo.

Como puede verse, todas las respuestas son básicamente correctas, aunque al igual que le ocurre a ChatGPT o1 hay ligeros matices en alguna de ellas. Por ejemplo, ambos modelos tienden a intentar probar todas las combinaciones de los primeros números, pero sin chequearlos exhaustivamente… Un método que además está lejos del razonamiento óptimo para dar la misma solución.

Estimación I

Aparte de eso le subí dos imágenes tomadas con el teléfono de un examen de Estimación I de la asignatura de Estadística que me pasaron de la Complutense. Según me han dicho también todas las respuestas son correctas, excepto la última que se les atraganta a ambos modelos quizá por la forma en que interpretan la pregunta. Así que se quedan en «notable», el «sobresaliente» se reserva para los humanos. (¡Ejem! Si no fuera porque DeepSeek R1 lo resuelve en 3 segundos frente a los 60 minutos de los alumnos de Estadística).

Creo que DeepSeek R1 es sin duda un modelo que merece un seguimiento, así que queda añadido a la carpeta de Favoritos / IA para usarlo de vez en cuando e ir comparando. Siendo gratis, potente y rápido, ¿qué podría salir mal?

Compartir en Flipboard Publicar
PUBLICIDAD