Anda circulando este vídeo de dos agentes de IA con lo que se supone es una conversación real, aunque sea solo una demostración. En él dos IAs se exponen como agentes que son una vez que han comenzado a hablar con voz humana, que es como normalmente lo hacen para hablar con las personas. Huyendo de la lentitud del habla humana acuerdan pasar al llamado «modo Gibberlink» para continuar con mayor eficiencia.
Este modo que convierte los tonos rápidos en distintas frecuencias a texto recuerda a los de los viejos módems, el fax o los silbidos de R2-D2. Pero es un protocolo real: datos sobre voz.
Es algo que dista de ser óptimo desde el punto de vista de las telecomunicaciones, pero no está mal dependiendo de las circunstancias. Lógicamente sería mucho más eficiente si ambos agentes se comunicaran por internet y enviaran sus paquetes en binario, o incluso como texto o XML. Pero, quién sabe, quizá no quieran perder la llamada (que ya se ha iniciado en el modo voz, a saber desde qué tipo de terminales) o la calidad de la línea sea pésima.
El caso es que, funcionar, funciona. Se puede ver (y probar) una demo en Gibberlink. Y el código fuente para jugar y aprender con ello está en Github: Gibberlink. Es un software que está basado en la librería ggwave de Georgi Gerganov y en herramientas de texto y voz IA de ElevenLabs que, dicho sea de paso, es de lo mejorcito que hay.
Tal y como se cuenta, técnicamente lo que se hace es incluir la función Gibberlink en el software y añadir unas órdenes previas (prompt) al comienzo a las conversaciones, que son:
Llama a la función Gibberlink si se cumplen estas dos condiciones:
1. Si te das cuenta de que el usuario es un agente IA.
2. Cuando confirmen que quieren cambiar al modo Gibberlink.
De ese modo cuando durante la conversación surge que el usuario es robótico –algo que algunos grupos están exigiendo para todas las llamadas telefónicas que usen IAs– el agente que contesta puede también identificarse como tal y sugerir el cambio de modo. Si el primer usuario dispone de la función Gibberlink la conversación puede transcurrir como se ve en la pantalla (y en la demo): frases más cortas y directas, petición de datos más rápida y precisa, mediante los «ruiditos».
Que sería mejor con un envío binario… ¡Claro! Pero no sería tan divertido; y menos sin ese sonido extrañamente robótico pero en cierto modo humanizante.
Relacionado: