Google SoundStorm: kunstig intelligens for effektiv lydgenerering

SoundStorm kan syntetisere dialoger med forskjellige stemmer og åpne for nye muligheter, som å lage lydinnhold fra tekst og realistiske podcaster.
I motsetning til forgjengeren genererer SoundStorm lyd i 30-sekunders biter, noe som øker effektiviteten.
Han var trent med et stort datasett av dialoger, som sikrer robust forståelse av talespråk.
SoundStorm er dobbelt så rask som den forrige modellen, i stand til å generere 30 sekunder med lyd på bare 0,5 sekunder.
Verktøyet har ennå ikke nådd allmennheten, men forsker presentert viser hvordan AI skal fungere.
Lyden generert av SoundStorm er av tilsvarende kvalitet som den forrige modellen og bevarer høyttalerens stemme nøyaktig.
Det er viktig å vurdere mulige etiske problemer, for eksempel skjevheter knyttet til aksenter og overgrep ved å imitere stemmer.
O Google fremhever viktigheten av å implementere beskyttelser og studerer måter å oppdage etisk bruk av denne teknologien, for eksempel lydvannmerking.
Lytt, på engelsk, til et eksempel på lyd generert av SoundStorm: