- SoundStorm, farklı seslerle diyalogları sentezleyebilir ve metinlerden ve gerçekçi podcast'lerden ses içeriği oluşturmak gibi yeni olasılıkların önünü açabilir.
- Önceki modelden farklı olarak SoundStorm, sesi 30 saniyelik parçalar halinde üretiyor ve bu da verimliliği artırıyor.
- O öyleydi eğitimli geniş bir diyalog veri seti ile konuşma dilinin sağlam bir şekilde anlaşılmasını sağlar.
- SoundStorm önceki modele göre iki kat daha hızlıdır ve yalnızca 30 saniyede 0,5 saniyelik ses üretme kapasitesine sahiptir.
- Araç henüz genel kullanıma ulaşmadı, ancak araştırmalar sunulan yapay zekanın nasıl çalışması gerektiğini gösteriyor.
- SoundStorm tarafından üretilen ses, önceki modelle eşdeğer kalitededir ve konuşmacının sesini doğru şekilde korur.
- Ses taklitinde aksanla ilgili önyargılar ve suiistimaller gibi olası etik sorunları dikkate almak önemlidir.
- O Google korumaların uygulanmasının önemini vurguluyor ve ses filigranı gibi bu teknolojinin etik kullanımını tespit etmenin yollarını araştırıyor.
- SoundStorm tarafından oluşturulan bir ses örneğini İngilizce olarak dinleyin:
Şunu da görün: