Google SoundStorm: umělá inteligence pro efektivní generování zvuku

SoundStorm dokáže syntetizovat dialogy s různými hlasy a otevřít nové možnosti, jako je vytváření zvukového obsahu z textu a realistických podcastů.
Na rozdíl od svého předchůdce SoundStorm generuje zvuk v 30sekundových blocích, což zvyšuje efektivitu.
Byl vyškolený s velkým datovým souborem dialogů zajišťujících důkladné porozumění mluvené řeči.
SoundStorm je dvakrát rychlejší než předchozí model a dokáže generovat 30 sekund zvuku za pouhých 0,5 sekundy.
Nástroj se zatím nedostal k široké veřejnosti, ale výzkumy prezentované ukazují, jak by měla AI fungovat.
Zvuk generovaný SoundStorm má stejnou kvalitu jako předchozí model a přesně zachovává hlas mluvčího.
Je důležité vzít v úvahu možné etické problémy, jako jsou předsudky související s akcenty a zneužívání při napodobování hlasů.
O Google zdůrazňuje význam zavádění ochran a studuje způsoby, jak odhalit etické použití této technologie, jako je audio vodoznak.
Poslechněte si v angličtině příklad zvuku generovaného SoundStorm: