Google SoundStorm: inteligência artificial para geração eficiente de áudio

O SoundStorm pode sintetizar diálogos com diferentes vozes e abrir novas possibilidades, como criação de conteúdo de áudio a partir de texto e podcasts realistas.
Ao contrário do seu antecessor, o SoundStorm gera áudio em blocos de 30 segundos, o que aumenta a eficiência.
Ele foi treinado com um grande conjunto de dados de diálogos, garantindo uma compreensão robusta da linguagem falada.
O SoundStorm é duas vezes mais rápido que o modelo anterior, podendo gerar 30 segundos de áudio em apenas 0,5 segundo.
A ferramenta ainda não chegou ao público geral, mas as pesquisas apresentadas mostram como a IA deve funcionar.
O áudio gerado pelo SoundStorm tem qualidade equivalente ao modelo anterior e preserva a voz do locutor com precisão.
É importante considerar possíveis problemas éticos, como vieses relacionados a sotaques e abusos na imitação de vozes.
O Google destaca a importância de implementar proteções e estuda formas de detectar o uso ético dessa tecnologia, como marca d’água de áudio.
Ouça, em inglês, um exemplo de áudio gerado pelo SoundStorm: