Por @Alvy

El «valle inquietante» conversacional con voz artificial también existe, y lo estamos cruzando a pasos agigantados

En su día hablamos del concepto de «valle inquietante» como ese punto en el que un sistema artificial como un robot o una IA nos resultan demasiado humanos cuando somos conscientes de que no lo son. Hoy en día resulta que con los algoritmos conversacionales de voz también se está ya cruzando ese valle. Pero no es ya que puedan simular la voz humana y te engañen en una llamada de telemárketing; es que están yendo varios pasos más allá.

Un grupo llamado Sesame trabaja muy activamente en este tipo de técnicas, las cuales pueden verse en una nota y una demostración que recomiendo probar. Basta conectar unos auriculares y activar el micrófono y ponerse a hablar con Maya o con Miles.

Demo: Sesame conversacional

Sesame trabaja buscando una forma de conversar auténtica, haciendo que la IA conteste, interrumpa (poco) y permita interrupciones. Intenta que la latencia (retardo) sea lo más baja posible y es capaz de adaptar el tono: alegre, seria, dicharachera…

En esta búsqueda de la expresividad y la velocidad emplean nuevos modelos y los combinan de diversas maneras, por ejemplo para que el arranque de las respuestas sean más rápidos. También tiene que analizar lo que la persona está diciendo, y no solo el texto, sino el contexto. Las claves que analiza son, según sus creadores:

  • Inteligencia emocional: comprende y responde a emociones.
  • Dinámicas conversacionales: gestiona pausas, interrupciones y énfasis.
  • Conciencia contextual: adapta tono y estilo a cada situación.
  • Personalidad coherente: mantiene un comportamiento estable y confiable.

Según las evaluaciones que han realizado actualmente están en «niveles casi humanos de calidad». Si se le puede hacer alguna crítica es que todavía le falta un poco prosodia (pausas, división de palabras en sílabas, acentuación…), algo de continuidad y que no es tan ágil y fluida como una persona en respuestas rápidas (por ejemplo en lo que sería una discusión rápida y acalorada). Para compensarlo, es capaz de distinguir varias voces de un grupo y filtra bastante bien el ruido.

Por cierto que todo este trabajo de Sesame se liberará como software libre en Github: A Conversational Speech Generation Model.

A mi la demo me ha impresionado gratamente. Felicidades al equipo creador de esta interesante IA.

§

A todo esto, alguien debería ir pensando seriamente en hacer alguna normativa que exija que las IAs que se comuniquen verbalmente de esta forma se identifiquen como tales al principio de la conversación.

Relacionado:


Compartir en Flipboard Publicar