- SoundStorm может синтезировать диалоги с разными голосами и открывать новые возможности, такие как создание аудиоконтента из текста и реалистичных подкастов.
- В отличие от своего предшественника, SoundStorm генерирует звук 30-секундными фрагментами, что повышает эффективность.
- Он был обученный с большим набором данных диалогов, обеспечивающим четкое понимание разговорной речи.
- SoundStorm в два раза быстрее предыдущей модели и способен генерировать 30 секунд звука всего за 0,5 секунды.
- Инструмент еще не стал доступен широкой публике, но исследование представленные показывают, как должен работать ИИ.
- Звук, создаваемый SoundStorm, имеет такое же качество, как и в предыдущей модели, и точно сохраняет голос говорящего.
- Важно учитывать возможные этические проблемы, такие как предубеждения, связанные с акцентами и злоупотреблениями при имитации голосов.
- O Google подчеркивает важность реализации мер защиты и изучает способы выявления этического использования этой технологии, такой как нанесение водяных знаков на звук.
- Послушайте на английском языке пример звука, созданного SoundStorm:
См. также: