Vozy de Colombia desarrolla solución neuronal de texto a voz para el idioma español

vozy de colombia desarrolla solución neuronal de texto a voz para el idioma español
vozy de colombia desarrolla solución neuronal de texto a voz para el idioma español

Contxto – Hace algunos años, la tecnología de texto a voz (TTS por sus siglas en inglés) era aburrida y monótona. No queriendo arrullar a los clientes hasta que se duerman, algunas startups como Vozy están desarrollando soluciones para hacer que estas voces generadas artificialmente se escuchen con más vida.

Si bien la startup colombiana ha desarollado tecnología avanzada de TTS en inglés, ahora también ofrece servicios en español.

Basado en la diversidad regional del idioma español, los agentes virtuales bilingües de Vozy ahora pueden distinguir entre varios acentos. De esta manera, la tecnología de IA que aprovecha el TTS neuronal puede adaptarse a los clientes, dependiendo de qué tan rápido hablen o rueden sus “rs”, por ejemplo.

TTS Neuronal

Fuera lo viejo y venga lo nuevo. Si bien Vozy tiene orígenes colombianos, la startup con sede en Miami tiene la intención de reemplazar los modelos TTS estándar con actualizaciones neuronales.

Primero, retrocedamos. Con estándar, me refiero a voces horriblemente aburridas con poco o ningún carácter reemplazado por algo más identificable. Dado que las voces generadas por máquina siguen guiones de texto a voz, el sistema original dividió el texto en pequeñas unidades.

Al igual que un rompecabezas, los usuarios esencialmente unen las piezas de audio de acuerdo con las unidades. Por lo general, esto requería grandes cantidades de datos para que correspondiera con precisión con el texto. No hace falta decir que fue a menudo un proceso largo y complicado.

En cambio, el TTS neuronal suena más realista debido a los modelos de aprendizaje automático para convertir texto a voz. Primero, el texto entra al sistema seguido de un generador acústico. A partir de ahí, va a un vocoder (codificador de voz) acústico donde se produce el sonido.

Con esto viene la capacidad de entrenar máquinas para que se adapten a estilos de voz únicos, tal como lo haría un humano. En lugar de pasar un año en Argentina para aprender el acento regional, el modelo neuronal permite que la máquina domine estos matices en solo unas pocas horas. En general, este proceso es más conciso que su predecesor.

Detrás de este servicio se encuentra el aprendizaje automático que convierte el texto de código en voces culturalmente específicas. Una vez que el texto codificado se convierte en una cadena de caracteres, se convierten en una secuencia de “coeficientes cepstrum”, es decir, frecuencias. Cuando estos pasan por el vocoder, aquí es donde los ruidos se convierten en una señal de audio continua.

Reconocimiento de voz

Equipadas con esta solución de comunicación, las empresas estarán en mejores condiciones de atender a los clientes en el mundo de habla hispana. En resumen, la startup colombiana combina tecnología de voz, inteligencia artificial y comprensión humana para desarrollar interacciones personalizadas con los clientes a escala.

Hasta ahora, la tecnología de texto de voz neuronal está disponible en ocho acentos. Según los informes, estos incluyen al colombiano, mexicano, argentino, peruano, puertorriqueño, entre otros. Hoy, Vozy tiene más de 200 clientes en 15 países, incluidos MAPFRE e Infopáginas en Puerto Rico.

Recientemente, Vozy recaudó fondos del Fideicomiso de Ciencia, Tecnología e Investigación de Puerto Rico después de colaborar con la aceleradora Parallel18. Según Vozy, es la única compañía latinoamericana que otorga este tipo de tecnología para el idioma español.

-JA

Traducido por Alejandra Rodríguez

Scaling a startup or scouting for your next deal?
We help you get there faster.