ElevenLabs anuncia modelo para efeitos sonoros de IA; saiba mais

Depois de dominar a arte da clonagem e síntese de voz baseada em aprendizado de máquina, a ElevenLabs, uma startup de IA de dois anos fundada por ex-funcionários do Google e da Palantir, está expandindo seu portfólio com um novo modelo de texto para som.

Publicado por

Vinicius Siqueira

20 de fevereiro de 2024 14:19

Créditos de Imagem: Curto News/BingAI

Anunciado nesta segunda-feira (19), a IA permitirá que os criadores gerem efeitos sonoros simplesmente descrevendo sua imaginação em palavras. Espera-se que isso enriqueça o conteúdo de uma nova maneira na era das experiências digitais impulsionadas por IA.

O modelo não está disponível publicamente, mas a ElevenLabs demonstrou suas capacidades ao lançar um teaser de um minuto com vídeos produzidos pelo novo Sora da OpenAI e aprimorados com seus próprios sons de IA. A empresa também criou uma página de inscrição e está convidando usuários em potencial a participarem de uma lista de espera para acesso antecipado ao modelo.

Fundada em 2022, a ElevenLabs vem pesquisando inteligência artificial para tornar o conteúdo de áudio e vídeo – de filmes a podcasts – acessível em diferentes idiomas e geografias. A empresa lançou uma variedade de ofertas para avançar nesse sentido, incluindo modelos de texto para fala e fala para fala que podem produzir fala de IA a partir de um determinado conteúdo (texto/áudio/vídeo) em 29 idiomas diferentes, mantendo a voz e as emoções naturais (voz original do locutor na fala para fala).

Sora da OpenAI também pode renderizar videogames; entenda

O novo modelo de geração de vídeo da OpenAI, Sora, consegue realizar algumas proezas cinematográficas genuinamente impressionantes. Mas o modelo é ainda mais capaz do que a OpenAI inicialmente divulgou, pelo menos julgando pelo artigo técnico publicado nesta quinta-feira (15).

Enquanto essas ferramentas continuam a ser amplamente adotadas por empresas e indivíduos que produzem conteúdo, também houve um aumento no conteúdo totalmente gerado por IA, graças a ferramentas como Runway, Pika e, mais recentemente, OpenAI (com o Sora). Esses produtos geram vídeos de IA realistas a partir de prompts de texto simples, mas carecem de áudio padrão. É aqui que o novo modelo da ElevenLabs entra, permitindo que os usuários produzam efeitos sonoros para seu conteúdo descrevendo o que desejam.

Quando colocado em uso, essa oferta pode facilmente permitir que os criadores de IA aprimorem seu trabalho com sons de fundo que naturalmente deveriam acompanhá-lo. O efeito sonoro pode ser de qualquer coisa, desde pássaros cantando até veículos em movimento e buzinas. Pode até ser pessoas falando, comendo ou caminhando em uma rua movimentada.

“Na ElevenLabs, só mostramos nossos modelos de texto para fala em público. No entanto, temos muito mais em desenvolvimento. E quando a OpenAI anunciou seu modelo Sora – que gera vídeos incríveis mas sem som – decidimos mostrar uma prévia de nossa nova linha de produtos”, escreveu Luke Harries, que lidera o crescimento na ElevenLabs, ao compartilhar novamente o post que apresentava uma série de vídeos gerados por Sora aprimorados com efeitos sonoros de IA do modelo da empresa.

Além do conteúdo gerado por IA, os sons produzidos pelo novo modelo podem até ser aplicados a falas simples produzidas a partir de texto ou a qualquer outro vídeo – clipe do Instagram, comercial ou trailer de jogo – que precise de um toque de áudio de fundo. Resta saber como será usado e que tipo de qualidade entregará.

Embora a ElevenLabs não tenha compartilhado quando planeja lançar o modelo publicamente, a empresa abriu inscrições para acesso antecipado. Os usuários interessados podem acessar esta página e se registrar com seu nome e e-mail, descrevendo para que precisam dos efeitos sonoros. A ElevenLabs também está pedindo aos primeiros voluntários que escrevam um prompt de amostra para um efeito sonoro de IA, potencialmente para otimizar as respostas do modelo.

Uma vez concluído o registro, o usuário é incluído em uma lista de espera e terá acesso quando o modelo estiver disponível. O cronograma, no entanto, permanece incerto nesta fase.

A nova tecnologia de texto para som pode dar à ElevenLabs uma vantagem de pioneira, mas é importante notar que várias outras empresas que estão ativas no espaço de fala de IA também têm potencial para se aventurar neste segmento. Isso inclui jogadores conhecidos como MURF.AI, Play.ht e WellSaid Labs.

De acordo com a Market US, o mercado global para tais ferramentas era de US$ 1,2 bilhão em 2022 e estima-se que chegará a quase US$ 5 bilhões em 2032, com um CAGR ligeiramente acima de 15,40%.

Leia também:

A febre da inteligência artificial gera os “Magníficos 7”; entenda

Os gigantes da tecnologia dos Estados Unidos, conhecidos como “Magníficos 7” – Apple, Amazon, Alphabet, Meta, Microsoft, Nvidia e Tesla – têm apresentado um crescimento financeiro sem precedentes, ofuscando as capitalizações de mercado e os lucros de quase todos os países do G20, exceto China e Japão.

Este post foi modificado pela última vez em %s = human-readable time difference 14:20

Vinicius Siqueira