Google SoundStorm: sztuczna inteligencja do wydajnego generowania dźwięku

SoundStorm może syntetyzować dialogi z różnymi głosami i otwierać nowe możliwości, takie jak tworzenie treści audio z tekstu i realistycznych podcastów.
W przeciwieństwie do swojego poprzednika, SoundStorm generuje dźwięk w 30-sekundowych fragmentach, co zwiększa wydajność.
On był przeszkolony z dużym zbiorem danych dialogowych, zapewniającym solidne zrozumienie języka mówionego.
SoundStorm jest dwukrotnie szybszy od poprzedniego modelu i jest w stanie wygenerować 30 sekund dźwięku w zaledwie 0,5 sekundy.
Narzędzie nie dotarło jeszcze do ogółu społeczeństwa, ale badania zaprezentowane pokazują, jak powinna działać sztuczna inteligencja.
Dźwięk generowany przez SoundStorm ma taką samą jakość jak w poprzednim modelu i dokładnie odtwarza głos mówiącego.
Ważne jest, aby wziąć pod uwagę możliwe problemy etyczne, takie jak uprzedzenia związane z akcentem i nadużycia w zakresie naśladowania głosów.
O Google podkreśla znaczenie wdrażania zabezpieczeń i bada sposoby wykrywania etycznego wykorzystania tej technologii, np. znakowania wodnego dźwięku.
Posłuchaj, w języku angielskim, przykładu dźwięku wygenerowanego przez SoundStorm: