Google SoundStorm: искусственный интеллект для эффективной генерации звука

SoundStorm может синтезировать диалоги с разными голосами и открывать новые возможности, такие как создание аудиоконтента из текста и реалистичных подкастов.
В отличие от своего предшественника, SoundStorm генерирует звук 30-секундными фрагментами, что повышает эффективность.
Он был обученный с большим набором данных диалогов, обеспечивающим четкое понимание разговорной речи.
SoundStorm в два раза быстрее предыдущей модели и способен генерировать 30 секунд звука всего за 0,5 секунды.
Инструмент еще не стал доступен широкой публике, но исследование представленные показывают, как должен работать ИИ.
Звук, создаваемый SoundStorm, имеет такое же качество, как и в предыдущей модели, и точно сохраняет голос говорящего.
Важно учитывать возможные этические проблемы, такие как предубеждения, связанные с акцентами и злоупотреблениями при имитации голосов.
O Google подчеркивает важность реализации мер защиты и изучает способы выявления этического использования этой технологии, такой как нанесение водяных знаков на звук.
Послушайте на английском языке пример звука, созданного SoundStorm: