Google SoundStorm: kecerdasan buatan untuk menghasilkan audio yang efisien

SoundStorm dapat mensintesis dialog dengan suara berbeda dan membuka kemungkinan baru, seperti membuat konten audio dari teks dan podcast realistis.
Berbeda dengan pendahulunya, SoundStorm menghasilkan audio dalam potongan 30 detik, sehingga meningkatkan efisiensi.
dia adalah terlatih dengan kumpulan data dialog yang besar, memastikan pemahaman yang kuat tentang bahasa lisan.
SoundStorm dua kali lebih cepat dari model sebelumnya, mampu menghasilkan audio 30 detik hanya dalam 0,5 detik.
Alat ini belum menjangkau masyarakat umum, namun penelitian disajikan menunjukkan bagaimana AI seharusnya bekerja.
Audio yang dihasilkan oleh SoundStorm memiliki kualitas yang setara dengan model sebelumnya dan secara akurat menjaga suara pembicara.
Penting untuk mempertimbangkan kemungkinan masalah etika, seperti bias terkait aksen dan penyalahgunaan dalam meniru suara.
O Google menyoroti pentingnya menerapkan perlindungan dan mempelajari cara untuk mendeteksi penggunaan etis teknologi ini, seperti audio watermarking.
Dengarkan, dalam bahasa Inggris, contoh audio yang dihasilkan oleh SoundStorm: