Google SoundStorm: intelligenza artificiale per una generazione audio efficiente

SoundStorm può sintetizzare dialoghi con voci diverse e aprire nuove possibilità, come la creazione di contenuti audio da testo e podcast realistici.
A differenza del suo predecessore, SoundStorm genera audio in blocchi di 30 secondi, il che aumenta l'efficienza.
È stato allenato con un ampio set di dati di dialoghi, garantendo una solida comprensione della lingua parlata.
SoundStorm è due volte più veloce del modello precedente, capace di generare 30 secondi di audio in soli 0,5 secondi.
Lo strumento non ha ancora raggiunto il grande pubblico, ma ricerca presentati mostrano come dovrebbe funzionare l’intelligenza artificiale.
L'audio generato da SoundStorm è di qualità equivalente al modello precedente e preserva accuratamente la voce di chi parla.
È importante considerare i possibili problemi etici, come i pregiudizi legati agli accenti e gli abusi nell’imitazione delle voci.
O Google sottolinea l'importanza di implementare protezioni e studiare modi per rilevare l'uso etico di questa tecnologia, come la filigrana audio.
Ascolta, in inglese, un esempio di audio generato da SoundStorm: