Google SoundStorm : l'intelligence artificielle pour une génération audio efficace

SoundStorm peut synthétiser des dialogues avec différentes voix et ouvrir de nouvelles possibilités, comme la création de contenu audio à partir de texte et de podcasts réalistes.
Contrairement à son prédécesseur, SoundStorm génère de l'audio par tranches de 30 secondes, ce qui augmente l'efficacité.
Il était qualifié avec un large ensemble de données de dialogues, garantissant une solide compréhension de la langue parlée.
SoundStorm est deux fois plus rapide que le modèle précédent, capable de générer 30 secondes d'audio en seulement 0,5 seconde.
L'outil n'a pas encore atteint le grand public, mais recherche présentés montrent comment l’IA devrait fonctionner.
L'audio généré par SoundStorm est de qualité équivalente au modèle précédent et préserve avec précision la voix de l'orateur.
Il est important de considérer d’éventuels problèmes éthiques, tels que les préjugés liés aux accents et les abus dans l’imitation des voix.
O Google souligne l'importance de mettre en œuvre des protections et étudie les moyens de détecter l'utilisation éthique de cette technologie, comme le filigrane audio.
Écoutez, en anglais, un exemple d'audio généré par SoundStorm :