Google SoundStorm: kunstig intelligens til effektiv lydgenerering

SoundStorm kan syntetisere dialoger med forskellige stemmer og åbne op for nye muligheder, såsom at skabe lydindhold fra tekst og realistiske podcasts.
I modsætning til sin forgænger genererer SoundStorm lyd i 30-sekunders bidder, hvilket øger effektiviteten.
Han var trænet med et stort datasæt af dialoger, der sikrer en robust forståelse af det talte sprog.
SoundStorm er dobbelt så hurtig som den tidligere model, i stand til at generere 30 sekunders lyd på kun 0,5 sekunder.
Værktøjet har endnu ikke nået den brede offentlighed, men forsker præsenteret viser, hvordan AI skal fungere.
Lyden genereret af SoundStorm er af samme kvalitet som den tidligere model og bevarer højttalerens stemme nøjagtigt.
Det er vigtigt at overveje mulige etiske problemer, såsom skævheder relateret til accenter og misbrug ved efterligning af stemmer.
O Google fremhæver vigtigheden af at implementere beskyttelser og undersøger måder til at opdage den etiske brug af denne teknologi, såsom lydvandmærkning.
Lyt på engelsk til et eksempel på lyd genereret af SoundStorm: