Google SoundStorm: kecerdasan buatan untuk penjanaan audio yang cekap

SoundStorm boleh mensintesis dialog dengan suara yang berbeza dan membuka kemungkinan baharu, seperti mencipta kandungan audio daripada teks dan podcast realistik.
Tidak seperti pendahulunya, SoundStorm menjana audio dalam ketulan 30 saat, yang meningkatkan kecekapan.
Beliau terlatih dengan set data dialog yang besar, memastikan pemahaman yang mantap tentang bahasa pertuturan.
SoundStorm adalah dua kali lebih pantas daripada model sebelumnya, mampu menjana 30 saat audio dalam hanya 0,5 saat.
Alat itu belum sampai kepada orang awam, tetapi penyelidikan dibentangkan menunjukkan bagaimana AI harus berfungsi.
Audio yang dijana oleh SoundStorm adalah kualiti yang setara dengan model sebelumnya dan mengekalkan suara pembesar suara dengan tepat.
Adalah penting untuk mempertimbangkan kemungkinan masalah etika, seperti berat sebelah yang berkaitan dengan aksen dan penyalahgunaan dalam meniru suara.
O Google menyerlahkan kepentingan melaksanakan perlindungan dan mengkaji cara untuk mengesan penggunaan beretika teknologi ini, seperti penanda air audio.
Dengar, dalam bahasa Inggeris, kepada contoh audio yang dijana oleh SoundStorm: