Vozy de Colombia desarrolla solución neuronal de texto a voz para el idioma español

octubre 29, 2019

Contxto – Hace algunos años, la tecnología de texto a voz (TTS por sus siglas en inglés) era aburrida y monótona. No queriendo arrullar a los clientes hasta que se duerman, algunas startups como Vozy están desarrollando soluciones para hacer que estas voces generadas artificialmente se escuchen con más vida.

Si bien la startup colombiana ha desarollado tecnología avanzada de TTS en inglés, ahora también ofrece servicios en español.

Basado en la diversidad regional del idioma español, los agentes virtuales bilingües de Vozy ahora pueden distinguir entre varios acentos. De esta manera, la tecnología de IA que aprovecha el TTS neuronal puede adaptarse a los clientes, dependiendo de qué tan rápido hablen o rueden sus “rs”, por ejemplo.

TTS Neuronal

Fuera lo viejo y venga lo nuevo. Si bien Vozy tiene orígenes colombianos, la startup con sede en Miami tiene la intención de reemplazar los modelos TTS estándar con actualizaciones neuronales.

Primero, retrocedamos. Con estándar, me refiero a voces horriblemente aburridas con poco o ningún carácter reemplazado por algo más identificable. Dado que las voces generadas por máquina siguen guiones de texto a voz, el sistema original dividió el texto en pequeñas unidades.

Al igual que un rompecabezas, los usuarios esencialmente unen las piezas de audio de acuerdo con las unidades. Por lo general, esto requería grandes cantidades de datos para que correspondiera con precisión con el texto. No hace falta decir que fue a menudo un proceso largo y complicado.

En cambio, el TTS neuronal suena más realista debido a los modelos de aprendizaje automático para convertir texto a voz. Primero, el texto entra al sistema seguido de un generador acústico. A partir de ahí, va a un vocoder (codificador de voz) acústico donde se produce el sonido.

Con esto viene la capacidad de entrenar máquinas para que se adapten a estilos de voz únicos, tal como lo haría un humano. En lugar de pasar un año en Argentina para aprender el acento regional, el modelo neuronal permite que la máquina domine estos matices en solo unas pocas horas. En general, este proceso es más conciso que su predecesor.

Detrás de este servicio se encuentra el aprendizaje automático que convierte el texto de código en voces culturalmente específicas. Una vez que el texto codificado se convierte en una cadena de caracteres, se convierten en una secuencia de “coeficientes cepstrum”, es decir, frecuencias. Cuando estos pasan por el vocoder, aquí es donde los ruidos se convierten en una señal de audio continua.

Reconocimiento de voz

Equipadas con esta solución de comunicación, las empresas estarán en mejores condiciones de atender a los clientes en el mundo de habla hispana. En resumen, la startup colombiana combina tecnología de voz, inteligencia artificial y comprensión humana para desarrollar interacciones personalizadas con los clientes a escala.

Hasta ahora, la tecnología de texto de voz neuronal está disponible en ocho acentos. Según los informes, estos incluyen al colombiano, mexicano, argentino, peruano, puertorriqueño, entre otros. Hoy, Vozy tiene más de 200 clientes en 15 países, incluidos MAPFRE e Infopáginas en Puerto Rico.

Recientemente, Vozy recaudó fondos del Fideicomiso de Ciencia, Tecnología e Investigación de Puerto Rico después de colaborar con la aceleradora Parallel18. Según Vozy, es la única compañía latinoamericana que otorga este tipo de tecnología para el idioma español.

-JA

Traducido por Alejandra Rodríguez

#Noticias

Keep up to Date with Latin American VC and Startups News!

Incluedu, la plataforma de aprendizaje de lengua de señas basada en IA que pone la tecnología al servicio de la inclusión

febrero 24, 2025

La Asamblea De La Asociación Fintech De Colombia Elige Junta Directiva Con Mayoría Femenina

Presencia de Fintechs mexicanas en el mercado colombiano

mayo 31, 2024

Barn Investimentos invierte en Ruedata

mayo 23, 2024

Vozy de Colombia desarrolla solución neuronal de texto a voz para el idioma español

TTS Neuronal

Reconocimiento de voz

Copa Mundial FIFA 2026: El torneo más automatizado en la historia del fútbol

Medellín como hub de innovación y emprendimiento en Latinoamérica

Recobra, la startup que busca recuperar el tiempo perdido en la era de la distracción digital

La startup colombiana Quipu cierra ronda pre-Serie A de $1,1 millones millones de dólares

Keep up to Date with Latin American VC and Startups News!

La apertura de la App Store en mercados europeos sienta un precedente para Latinoamérica

Tendencias clave en IA que están marcando este 2025

Yango Group lanza fondo corporativo por 20 millones de dólares enfocado en startups de Latinoamérica

Incluedu, la plataforma de aprendizaje de lengua de señas basada en IA que pone la tecnología al servicio de la inclusión

Presencia de Fintechs mexicanas en el mercado colombiano

Barn Investimentos invierte en Ruedata