Google SoundStorm: штучний інтелект для ефективного створення звуку

SoundStorm може синтезувати діалоги з різними голосами та відкривати нові можливості, такі як створення аудіоконтенту з тексту та реалістичних подкастів.
На відміну від свого попередника, SoundStorm створює аудіо фрагментами по 30 секунд, що підвищує ефективність.
Він був навчений з великим набором даних діалогів, що забезпечує надійне розуміння розмовної мови.
SoundStorm удвічі швидший за попередню модель, здатний генерувати 30 секунд аудіо лише за 0,5 секунди.
Інструмент ще не дійшов до широкого загалу, але дослідження представлені показують, як має працювати ШІ.
Звук, створений SoundStorm, має еквівалентну якість, ніж у попередньої моделі, і точно зберігає голос мовця.
Важливо враховувати можливі етичні проблеми, такі як упередження, пов’язані з акцентами та зловживання під час імітації голосу.
O Google підкреслює важливість впровадження засобів захисту та вивчає способи виявлення етичного використання цієї технології, наприклад водяних знаків аудіо.
Послухайте англійською мовою приклад аудіо, згенерованого SoundStorm: