Google SoundStorm: artificial intelligence para sa mahusay na pagbuo ng audio

Maaaring i-synthesize ng SoundStorm ang mga dialogue na may iba't ibang boses at magbukas ng mga bagong posibilidad, gaya ng paglikha ng audio content mula sa text at makatotohanang mga podcast.
Hindi tulad ng hinalinhan nito, ang SoundStorm ay bumubuo ng audio sa loob ng 30 segundong chunks, na nagpapataas ng kahusayan.
Siya ay sinanay na may malaking dataset ng mga diyalogo, na tinitiyak ang matatag na pag-unawa sa sinasalitang wika.
Ang SoundStorm ay dalawang beses na mas mabilis kaysa sa nakaraang modelo, na may kakayahang bumuo ng 30 segundo ng audio sa loob lamang ng 0,5 segundo.
Ang tool ay hindi pa nakarating sa pangkalahatang publiko, ngunit piso ipinakita ay nagpapakita kung paano dapat gumana ang AI.
Ang audio na nabuo ng SoundStorm ay may katumbas na kalidad sa nakaraang modelo at tumpak na pinapanatili ang boses ng speaker.
Mahalagang isaalang-alang ang mga posibleng problema sa etika, tulad ng mga bias na nauugnay sa mga punto at pang-aabuso sa panggagaya sa mga boses.
O Google itinatampok ang kahalagahan ng pagpapatupad ng mga proteksyon at pag-aaral ng mga paraan upang makita ang etikal na paggamit ng teknolohiyang ito, gaya ng audio watermarking.
Makinig, sa English, sa isang halimbawa ng audio na nabuo ng SoundStorm: