Los líderes del sector se reunieron en San Francisco el 10 de enero para una noche de networking y debate. Fue una oportunidad para profundizar en los avances de empresas emergentes como ElevenLabs, que ha conseguido millones de financiación para desarrollar su tecnología patentada de clonación de voz. Sin embargo, un recién llegado a la escena, OpenVoice, ha cambiado las reglas del juego.
OpenVoice es fruto de una colaboración única entre el MIT, la Universidad de Tsinghua y MyShell, una floreciente empresa de IA. MyShell ha anunciado hoy a través de su cuenta oficial en X el lanzamiento del algoritmo OpenVoice como tecnología de código abierto. Esta herramienta proporciona a los usuarios la capacidad de replicar voces con asombroso detalle y matices vocales personalizables, todo ello a partir de un breve fragmento de audio.
La presentación de OpenVoice el 2 de enero de 2024 fue acompañada de un documento de investigación que explicaba su desarrollo. El acceso de prueba a esta innovadora solución de clonación de voz está disponible a través de la aplicación web MyShell, que requiere una cuenta, y HuggingFace, que ofrece acceso público sin requisitos de inicio de sesión.
Al realizar pruebas informales con el modelo OpenVoice en HuggingFace, observé que el software producía un clon de voz de mi propia voz de forma rápida y eficaz. Gracias a esta IA de vanguardia, los usuarios ya no están limitados a leer de un texto prescrito; el habla espontánea es suficiente para crear un clon. Además, el sistema permite modificar los tonos emocionales, como la alegría o la ira, dando un toque claramente humano a la voz clonada.
El equipo de desarrollo de OpenVoice, formado por Zengyi Qin, del MIT y MyShell, Wenliang Zhao y Xumin Yu, de la Universidad de Tsinghua, y Xin Sun, de MyShell, proporcionó información sobre su innovador enfoque en el artículo publicado. OpenVoice funciona con dos marcos de IA: un modelo de texto a voz y un convertidor de tonos. Entrenados con miles de muestras de audio de varios idiomas y acentos, estos modelos son competentes en la creación de clones de voz muy matizados con recursos computacionales mínimos.
Fundada en Calgary (Alberta) en 2023 con una inversión inicial de 5,6 millones de dólares, MyShell ha ganado adeptos rápidamente con más de 400.000 usuarios. Con inversiones de empresas como INCE Capital y Folius Ventures, esta start-up está revolucionando el panorama de la IA al proporcionar un centro descentralizado para aplicaciones nativas de IA, con personajes de IA únicos, un creador de GIF animados y juegos de rol basados en texto.
Aunque OpenVoice es de código abierto, MyShell mantiene un modelo de ingresos mediante suscripciones a su aplicación web y cobrando por las promociones de bots y los datos de entrenamiento de IA. VentureBeat celebra ser la encrucijada digital donde los líderes tecnológicos convergen para explorar y realizar transacciones en tecnología empresarial innovadora.