- SoundStorm pot sintetitzar diàlegs amb diferents veus i obrir noves possibilitats, com ara crear contingut d'àudio a partir de text i podcasts realistes.
- A diferència del seu predecessor, SoundStorm genera àudio en fragments de 30 segons, cosa que augmenta l'eficiència.
- Ell era entrenat amb un gran conjunt de dades de diàlegs, que garanteixen una comprensió sòlida del llenguatge parlat.
- SoundStorm és el doble de ràpid que el model anterior, capaç de generar 30 segons d'àudio en només 0,5 segons.
- L'eina encara no ha arribat al gran públic, però investigacions presentat mostra com hauria de funcionar la IA.
- L'àudio generat per SoundStorm és de qualitat equivalent al model anterior i preserva amb precisió la veu de l'altaveu.
- És important tenir en compte els possibles problemes ètics, com ara els biaixos relacionats amb els accents i els abusos en la imitació de veus.
- O Google destaca la importància d'implementar proteccions i estudiar maneres de detectar l'ús ètic d'aquesta tecnologia, com ara la marca d'aigua d'àudio.
- Escolteu, en anglès, un exemple d'àudio generat per SoundStorm:
Veja também: