Google SoundStorm: изкуствен интелект за ефективно аудио генериране

SoundStorm може да синтезира диалози с различни гласове и да отвори нови възможности, като например създаване на аудио съдържание от текст и реалистични подкасти.
За разлика от своя предшественик, SoundStorm генерира аудио на 30-секундни парчета, което повишава ефективността.
Той беше обучени с голям набор от данни от диалози, гарантиращи стабилно разбиране на говоримия език.
SoundStorm е два пъти по-бърз от предишния модел, способен да генерира 30 секунди аудио само за 0,5 секунди.
Инструментът все още не е достигнал до широката публика, но изследвания представени показват как трябва да работи AI.
Звукът, генериран от SoundStorm, е с еквивалентно качество на предишния модел и точно запазва гласа на говорещия.
Важно е да се обмислят възможни етични проблеми, като пристрастия, свързани с акценти и злоупотреби при имитиране на гласове.
O Google подчертава значението на прилагането на защити и проучва начини за откриване на етичната употреба на тази технология, като аудио воден знак.
Чуйте на английски пример за аудио, генерирано от SoundStorm: