Google SoundStorm: artificiell intelligens för effektiv ljudgenerering

SoundStorm kan syntetisera dialoger med olika röster och öppna upp för nya möjligheter, som att skapa ljudinnehåll från text och realistiska poddsändningar.
Till skillnad från sin föregångare genererar SoundStorm ljud i 30 sekunders bitar, vilket ökar effektiviteten.
Han var tränad med en stor datauppsättning av dialoger, vilket säkerställer en robust förståelse av talat språk.
SoundStorm är dubbelt så snabb som den tidigare modellen och kan generera 30 sekunders ljud på bara 0,5 sekunder.
Verktyget har ännu inte nått allmänheten, men forskar presenteras visar hur AI ska fungera.
Ljudet som genereras av SoundStorm är av samma kvalitet som den tidigare modellen och bevarar högtalarens röst korrekt.
Det är viktigt att överväga möjliga etiska problem, såsom fördomar relaterade till accenter och övergrepp i att imitera röster.
O Google betonar vikten av att implementera skydd och studerar sätt att upptäcka den etiska användningen av denna teknik, såsom ljudvattenmärkning.
Lyssna, på engelska, på ett exempel på ljud som genereras av SoundStorm: