Os líderes do setor se reuniram em São Francisco no dia 10 de janeiro para uma noite de networking e discussões. Foi uma oportunidade de se aprofundar nos avanços de startups como a ElevenLabs, que conseguiu milhões em financiamento para criar sua tecnologia proprietária de clonagem de voz. No entanto, uma nova participante no cenário, a OpenVoice, mudou o jogo.
A OpenVoice é fruto de uma colaboração única envolvendo o MIT, a Universidade de Tsinghua e a MyShell, uma empresa de IA em ascensão. A MyShell anunciou hoje, por meio de sua conta oficial no X, o lançamento do algoritmo do OpenVoice como tecnologia de código aberto. Essa ferramenta oferece aos usuários a capacidade de reproduzir vozes com detalhes surpreendentes e nuances vocais personalizáveis, tudo a partir de um breve trecho de áudio.
A revelação do OpenVoice em 2 de janeiro de 2024 foi acompanhada de um artigo de pesquisa que explicava seu desenvolvimento. O acesso de teste a essa solução inovadora de clonagem de voz é disponibilizado por meio do aplicativo da Web MyShell, que requer uma conta, e do HuggingFace, que oferece acesso público sem necessidade de login.
Ao realizar testes informais com o modelo OpenVoice no HuggingFace, observei que o software produziu um clone de voz da minha própria voz de forma rápida e eficaz. Graças a essa IA de ponta, os usuários não estão mais restritos à leitura de um texto prescrito; a fala espontânea é suficiente para criar um clone. Além disso, o sistema permite a modificação de tons emocionais, como alegria ou raiva, dando um toque nitidamente humano à voz clonada.
A equipe de desenvolvimento do OpenVoice, composta por Zengyi Qin, do MIT e da MyShell, Wenliang Zhao e Xumin Yu, da Universidade de Tsinghua, e Xin Sun, da MyShell, forneceu informações sobre sua abordagem inovadora no artigo publicado. O OpenVoice opera com duas estruturas de IA: um modelo de conversão de texto em fala e um conversor de tons. Treinados em milhares de amostras de áudio em vários idiomas e sotaques, esses modelos são proficientes na criação de clones de voz altamente matizados com o mínimo de recursos computacionais.
Fundada em Calgary, Alberta, em 2023, com um investimento inicial de US$ 5,6 milhões, a MyShell rapidamente ganhou força com mais de 400.000 usuários. Com investimentos de empresas como INCE Capital e Folius Ventures, essa start-up está revolucionando o cenário de IA ao fornecer um hub descentralizado para aplicativos nativos de IA, completo com personagens exclusivos de IA, um criador de GIFs animados e RPGs baseados em texto.
Ao tornar o OpenVoice de código aberto, a MyShell mantém um modelo de receita por meio de assinaturas para seu aplicativo da Web e cobra por promoções de bots e dados de treinamento de IA. A VentureBeat comemora o fato de ser a encruzilhada digital em que os líderes tecnológicos convergem para explorar e fazer transações com tecnologia empresarial inovadora.