IA de clonagem de voz da OpenAI precisa de apenas 15 segundos para funcionar

A OpenAI está oferecendo acesso limitado a uma plataforma de geração de texto para voz desenvolvida por ela, chamada Voice Engine, que pode criar uma voz sintética baseada em um clipe de 15 segundos da voz de alguém.

OpenAI’s voice cloning AI model only needs a 15-second sample to work https://t.co/waLpDSO7W8
— The Verge (@verge) March 29, 2024

A voz gerada por inteligência artificial pode ler instruções de texto sob comando no mesmo idioma do locutor ou em vários outros idiomas.

“Essas implantações em pequena escala estão ajudando a informar nossa abordagem, salvaguardas e pensamentos sobre como o Voice Engine poderia ser usado para o bem em vários setores”, disse OpenAI em sua postagem no blog .

As empresas com acesso incluem a empresa de tecnologia educacional Age of Learning, a plataforma de narrativa visual HeyGen, o fabricante de software de saúde de linha de frente Dimagi, o criador do aplicativo de comunicação de IA Livox e o sistema de saúde Lifespan.

Nestes exemplos postados pela OpenAI, você pode ouvir o que Age of Learning tem feito com a tecnologia para gerar conteúdo de narração pré-roteirizado, bem como ler “respostas personalizadas em tempo real” para alunos escritas por GPT-4 .

Primeiro, o áudio de referência em inglês:

E aqui estão três clipes de áudio gerados por IA com base nessa amostra:

A geração de texto para áudio por inteligência artificial é uma área da IA generativa que continua a evoluir. Embora a maioria se concentre em sons instrumentais ou naturais, poucos se concentram na geração de voz.

Leia também:

Undetectable.ai: Otimize a humanização de textos com IA