- SoundStorm può sintetizzare dialoghi con voci diverse e aprire nuove possibilità, come la creazione di contenuti audio da testo e podcast realistici.
- A differenza del suo predecessore, SoundStorm genera audio in blocchi di 30 secondi, il che aumenta l'efficienza.
- È stato allenato con un ampio set di dati di dialoghi, garantendo una solida comprensione della lingua parlata.
- SoundStorm è due volte più veloce del modello precedente, capace di generare 30 secondi di audio in soli 0,5 secondi.
- Lo strumento non ha ancora raggiunto il grande pubblico, ma ricerca presentati mostrano come dovrebbe funzionare l’intelligenza artificiale.
- L'audio generato da SoundStorm è di qualità equivalente al modello precedente e preserva accuratamente la voce di chi parla.
- È importante considerare i possibili problemi etici, come i pregiudizi legati agli accenti e gli abusi nell’imitazione delle voci.
- O Google sottolinea l'importanza di implementare protezioni e studiare modi per rilevare l'uso etico di questa tecnologia, come la filigrana audio.
- Ascolta, in inglese, un esempio di audio generato da SoundStorm:
Vedi anche: