- SoundStorm peut synthétiser des dialogues avec différentes voix et ouvrir de nouvelles possibilités, comme la création de contenu audio à partir de texte et de podcasts réalistes.
- Contrairement à son prédécesseur, SoundStorm génère de l'audio par tranches de 30 secondes, ce qui augmente l'efficacité.
- Il était qualifié avec un large ensemble de données de dialogues, garantissant une solide compréhension de la langue parlée.
- SoundStorm est deux fois plus rapide que le modèle précédent, capable de générer 30 secondes d'audio en seulement 0,5 seconde.
- L'outil n'a pas encore atteint le grand public, mais recherche présentés montrent comment l’IA devrait fonctionner.
- L'audio généré par SoundStorm est de qualité équivalente au modèle précédent et préserve avec précision la voix de l'orateur.
- Il est important de considérer d’éventuels problèmes éthiques, tels que les préjugés liés aux accents et les abus dans l’imitation des voix.
- O Google souligne l'importance de mettre en œuvre des protections et étudie les moyens de détecter l'utilisation éthique de cette technologie, comme le filigrane audio.
- Écoutez, en anglais, un exemple d'audio généré par SoundStorm :
Voir aussi: