Google SoundStorm: Verimli ses üretimi için yapay zeka

SoundStorm, farklı seslerle diyalogları sentezleyebilir ve metinlerden ve gerçekçi podcast'lerden ses içeriği oluşturmak gibi yeni olasılıkların önünü açabilir.
Önceki modelden farklı olarak SoundStorm, sesi 30 saniyelik parçalar halinde üretiyor ve bu da verimliliği artırıyor.
O öyleydi eğitimli geniş bir diyalog veri seti ile konuşma dilinin sağlam bir şekilde anlaşılmasını sağlar.
SoundStorm önceki modele göre iki kat daha hızlıdır ve yalnızca 30 saniyede 0,5 saniyelik ses üretme kapasitesine sahiptir.
Araç henüz genel kullanıma ulaşmadı, ancak araştırmalar sunulan yapay zekanın nasıl çalışması gerektiğini gösteriyor.
SoundStorm tarafından üretilen ses, önceki modelle eşdeğer kalitededir ve konuşmacının sesini doğru şekilde korur.
Ses taklitinde aksanla ilgili önyargılar ve suiistimaller gibi olası etik sorunları dikkate almak önemlidir.
O Google korumaların uygulanmasının önemini vurguluyor ve ses filigranı gibi bu teknolojinin etik kullanımını tespit etmenin yollarını araştırıyor.
SoundStorm tarafından oluşturulan bir ses örneğini İngilizce olarak dinleyin: