- Maaaring i-synthesize ng SoundStorm ang mga dialogue na may iba't ibang boses at magbukas ng mga bagong posibilidad, gaya ng paglikha ng audio content mula sa text at makatotohanang mga podcast.
- Hindi tulad ng hinalinhan nito, ang SoundStorm ay bumubuo ng audio sa loob ng 30 segundong chunks, na nagpapataas ng kahusayan.
- Siya ay sinanay na may malaking dataset ng mga diyalogo, na tinitiyak ang matatag na pag-unawa sa sinasalitang wika.
- Ang SoundStorm ay dalawang beses na mas mabilis kaysa sa nakaraang modelo, na may kakayahang bumuo ng 30 segundo ng audio sa loob lamang ng 0,5 segundo.
- Ang tool ay hindi pa nakarating sa pangkalahatang publiko, ngunit piso ipinakita ay nagpapakita kung paano dapat gumana ang AI.
- Ang audio na nabuo ng SoundStorm ay may katumbas na kalidad sa nakaraang modelo at tumpak na pinapanatili ang boses ng speaker.
- Mahalagang isaalang-alang ang mga posibleng problema sa etika, tulad ng mga bias na nauugnay sa mga punto at pang-aabuso sa panggagaya sa mga boses.
- O Google itinatampok ang kahalagahan ng pagpapatupad ng mga proteksyon at pag-aaral ng mga paraan upang makita ang etikal na paggamit ng teknolohiyang ito, gaya ng audio watermarking.
- Makinig, sa English, sa isang halimbawa ng audio na nabuo ng SoundStorm:
Tingnan din ang: