- SoundStorm dokáže syntetizovat dialogy s různými hlasy a otevřít nové možnosti, jako je vytváření zvukového obsahu z textu a realistických podcastů.
- Na rozdíl od svého předchůdce SoundStorm generuje zvuk v 30sekundových blocích, což zvyšuje efektivitu.
- Byl vyškolený s velkým datovým souborem dialogů zajišťujících důkladné porozumění mluvené řeči.
- SoundStorm je dvakrát rychlejší než předchozí model a dokáže generovat 30 sekund zvuku za pouhých 0,5 sekundy.
- Nástroj se zatím nedostal k široké veřejnosti, ale výzkumy prezentované ukazují, jak by měla AI fungovat.
- Zvuk generovaný SoundStorm má stejnou kvalitu jako předchozí model a přesně zachovává hlas mluvčího.
- Je důležité vzít v úvahu možné etické problémy, jako jsou předsudky související s akcenty a zneužívání při napodobování hlasů.
- O Google zdůrazňuje význam zavádění ochran a studuje způsoby, jak odhalit etické použití této technologie, jako je audio vodoznak.
- Poslechněte si v angličtině příklad zvuku generovaného SoundStorm:
Viz také: