- SoundStorm може да синтезира диалози с различни гласове и да отвори нови възможности, като например създаване на аудио съдържание от текст и реалистични подкасти.
- За разлика от своя предшественик, SoundStorm генерира аудио на 30-секундни парчета, което повишава ефективността.
- Той беше обучени с голям набор от данни от диалози, гарантиращи стабилно разбиране на говоримия език.
- SoundStorm е два пъти по-бърз от предишния модел, способен да генерира 30 секунди аудио само за 0,5 секунди.
- Инструментът все още не е достигнал до широката публика, но изследвания представени показват как трябва да работи AI.
- Звукът, генериран от SoundStorm, е с еквивалентно качество на предишния модел и точно запазва гласа на говорещия.
- Важно е да се обмислят възможни етични проблеми, като пристрастия, свързани с акценти и злоупотреби при имитиране на гласове.
- O Google подчертава значението на прилагането на защити и проучва начини за откриване на етичната употреба на тази технология, като аудио воден знак.
- Чуйте на английски пример за аудио, генерирано от SoundStorm:
Вижте също: