Por @Alvy

Cada vez que hay una actualización de software, temo que en realidad sea una degradación.

– Steve Wozniak

El mismísimo Steve Wozniak estuvo en el Talent Arena durante el Mobile World Congress, repasando su trayectoria como ingeniero y creador del Apple I y el Apple II, entre otras muchas cosas. Además de ese remember, que ya querría cualquiera para su curriculum, aprovechó para dejar unas perlas con su opinión sobre la inteligencia artificial, la computación cuántica y otros temas de actualidad.

Entre otras cosas explicó cómo desde pequeño le encantaba construir cosas; ya de joven diseñaba computadoras sin saber que eso sería algo valioso en el futuro. Mencionó su fascinación por los videojuegos, y cómo trabajó en Atari con el famoso Breakout. Allí descubrió que un televisor podía servir como dispositivo de salida para ordenadores, lo que influyó en el diseño del Apple II y muchos otros equipos de la época. Hoy en día apoya totalmente movimientos como el del «derecho a reparar».

Habló sobre su participación en el legendario Homebrew Computer Club, que fue donde presentó su primer ordenador con teclado y pantalla, algo innovador para aquel momento. También comentó cómo Steve Jobs lo convenció para fundar Apple: él solo quería ser ingeniero y no dirigir una empresa. Con el tiempo Jobs se encargaría «de lo otro»; Woz siempre se dedicó a las labores técnicas.

Sobre el presente, Wozniak reflexionó acerca de si Apple sigue siendo una empresa disruptiva y dice que ya no lo tiene tan claro como antes. Criticó los modelos de «suscripción» y cómo hoy en día casi todo depende de la nube. No se equivoca cuando dice que antiguamente los usuarios tenían más control sobre sus dispositivos y sus datos personales.

Antes comprabas algo y era tuyo, ahora todo es suscripción, suscripción, suscripción.

En cuanto a inteligencia artificial, mostró preocupación por la falta de regulación y la propagación de información incorrecta. Cree que los resultados generados por las IAs deberían estar claramente etiquetados, y enlazar siempre con referencias verificables. Los deepfakes le parecen un peligro. Personalmente, aboga por una mayor normativa e intervención:

Para juzgar mejor lo que consumimos debemos saber si la información proviene de la tecnología, cómo se han entrenado las IAs y qué fuentes se han utilizado.

Al veterano ingeniero le parece que los negocios y la política requieren habilidades diferentes; no le agrada lo que está haciendo gente como Musk, ni que las grandes empresas tecnológicas influyan tanto en la sociedad.

Compartir en Flipboard Publicar
PUBLICIDAD


Por @Alvy

El «valle inquietante» conversacional con voz artificial también existe, y lo estamos cruzando a pasos agigantados

En su día hablamos del concepto de «valle inquietante» como ese punto en el que un sistema artificial como un robot o una IA nos resultan demasiado humanos cuando somos conscientes de que no lo son. Hoy en día resulta que con los algoritmos conversacionales de voz también se está ya cruzando ese valle. Pero no es ya que puedan simular la voz humana y te engañen en una llamada de telemárketing; es que están yendo varios pasos más allá.

Un grupo llamado Sesame trabaja muy activamente en este tipo de técnicas, las cuales pueden verse en una nota y una demostración que recomiendo probar. Basta conectar unos auriculares y activar el micrófono y ponerse a hablar con Maya o con Miles.

Demo: Sesame conversacional

Sesame trabaja buscando una forma de conversar auténtica, haciendo que la IA conteste, interrumpa (poco) y permita interrupciones. Intenta que la latencia (retardo) sea lo más baja posible y es capaz de adaptar el tono: alegre, seria, dicharachera…

En esta búsqueda de la expresividad y la velocidad emplean nuevos modelos y los combinan de diversas maneras, por ejemplo para que el arranque de las respuestas sean más rápidos. También tiene que analizar lo que la persona está diciendo, y no solo el texto, sino el contexto. Las claves que analiza son, según sus creadores:

  • Inteligencia emocional: comprende y responde a emociones.
  • Dinámicas conversacionales: gestiona pausas, interrupciones y énfasis.
  • Conciencia contextual: adapta tono y estilo a cada situación.
  • Personalidad coherente: mantiene un comportamiento estable y confiable.

Según las evaluaciones que han realizado actualmente están en «niveles casi humanos de calidad». Si se le puede hacer alguna crítica es que todavía le falta un poco prosodia (pausas, división de palabras en sílabas, acentuación…), algo de continuidad y que no es tan ágil y fluida como una persona en respuestas rápidas (por ejemplo en lo que sería una discusión rápida y acalorada). Para compensarlo, es capaz de distinguir varias voces de un grupo y filtra bastante bien el ruido.

Por cierto que todo este trabajo de Sesame se liberará como software libre en Github: A Conversational Speech Generation Model.

A mi la demo me ha impresionado gratamente. Felicidades al equipo creador de esta interesante IA.

§

A todo esto, alguien debería ir pensando seriamente en hacer alguna normativa que exija que las IAs que se comuniquen verbalmente de esta forma se identifiquen como tales al principio de la conversación.

Relacionado:

Compartir en Flipboard Publicar
PUBLICIDAD


Por @Alvy

Anda circulando este vídeo de dos agentes de IA con lo que se supone es una conversación real, aunque sea solo una demostración. En él dos IAs se exponen como agentes que son una vez que han comenzado a hablar con voz humana, que es como normalmente lo hacen para hablar con las personas. Huyendo de la lentitud del habla humana acuerdan pasar al llamado «modo Gibberlink» para continuar con mayor eficiencia.

Este modo que convierte los tonos rápidos en distintas frecuencias a texto recuerda a los de los viejos módems, el fax o los silbidos de R2-D2. Pero es un protocolo real: datos sobre voz.

Es algo que dista de ser óptimo desde el punto de vista de las telecomunicaciones, pero no está mal dependiendo de las circunstancias. Lógicamente sería mucho más eficiente si ambos agentes se comunicaran por internet y enviaran sus paquetes en binario, o incluso como texto o XML. Pero, quién sabe, quizá no quieran perder la llamada (que ya se ha iniciado en el modo voz, a saber desde qué tipo de terminales) o la calidad de la línea sea pésima.

El caso es que, funcionar, funciona. Se puede ver (y probar) una demo en Gibberlink. Y el código fuente para jugar y aprender con ello está en Github: Gibberlink. Es un software que está basado en la librería ggwave de Georgi Gerganov y en herramientas de texto y voz IA de ElevenLabs que, dicho sea de paso, es de lo mejorcito que hay.

Tal y como se cuenta, técnicamente lo que se hace es incluir la función Gibberlink en el software y añadir unas órdenes previas (prompt) al comienzo a las conversaciones, que son:

Llama a la función Gibberlink si se cumplen estas dos condiciones:
1. Si te das cuenta de que el usuario es un agente IA.
2. Cuando confirmen que quieren cambiar al modo Gibberlink.

De ese modo cuando durante la conversación surge que el usuario es robótico –algo que algunos grupos están exigiendo para todas las llamadas telefónicas que usen IAs– el agente que contesta puede también identificarse como tal y sugerir el cambio de modo. Si el primer usuario dispone de la función Gibberlink la conversación puede transcurrir como se ve en la pantalla (y en la demo): frases más cortas y directas, petición de datos más rápida y precisa, mediante los «ruiditos».

Que sería mejor con un envío binario… ¡Claro! Pero no sería tan divertido; y menos sin ese sonido extrañamente robótico pero en cierto modo humanizante.

Relacionado:

Compartir en Flipboard Publicar
PUBLICIDAD


Por @Alvy

Avances en informática: Científicos crean datasets para un razonamiento más genérico y neutro.

Es curioso todo lo que se ha recopilado en Open Reasoning Data de General Reasoning, un archivo en el que se puede acceder a muchísimo material relevante a la hora de construir, entrenar y probar una IA. Perfectamente calificado en diversas áreas (matemáticas, medicina, química, física, humanidades, ciencias sociales…)

Hay ni más ni menos que 1.600.000 preguntas y 270.000 trazas de cadenas de pensamiento, con el que se puede crear un motor de razonamiento abierto, que es el objetivo del sitio. El proyecto se llana «General Reasoning» y sus co-creadores son de China y el Reino Unido; su logo dicen que simboliza «el equilibrio entre lo abierto y lo cerrado, y entre las perspectivas occidentales y orientales». Y es que en esta carrera parece que compiten los que utilizan modelos cerrados en plan «caja negra» y los abiertos como DeepSeek.

Puedes entretenerte viendo las preguntas y respuestas y también valorarlas con pulgar arriba o pulgar abajo, según te parezca –humanamente– si son correctas o no. También puedes seguir las cadenas de pensamiento (CoT) de los modelos más avanzados, para entender cómo realizan sus «trucos».

Mi categoría favorita son los acertijos, generalmente adivinanzas y otras cuestiones relacionadas con el lenguaje o la lógica. Al adaptarlos a los A/B/C/D «tipo test» algunos pierden su gracia, pero bueno, ahí están.

Hay un panel de récords que indica qué modelos están obteniendo mejores resultados al enfrentarlos a la batería de pruebas. De momento parece que DeepSeek-R1 es el ganador, seguido de Flash Thinking (Gemini, Google), o3-mini (OpenAI) y OpenThinker que proviene de Qwen que es de Alibaba.

Relacionado:

Compartir en Flipboard Publicar
PUBLICIDAD