Google SoundStorm: intel·ligència artificial per a una generació eficient d'àudio

SoundStorm pot sintetitzar diàlegs amb diferents veus i obrir noves possibilitats, com ara crear contingut d'àudio a partir de text i podcasts realistes.
A diferència del seu predecessor, SoundStorm genera àudio en fragments de 30 segons, cosa que augmenta l'eficiència.
Ell era entrenat amb un gran conjunt de dades de diàlegs, que garanteixen una comprensió sòlida del llenguatge parlat.
SoundStorm és el doble de ràpid que el model anterior, capaç de generar 30 segons d'àudio en només 0,5 segons.
L'eina encara no ha arribat al gran públic, però investigacions presentat mostra com hauria de funcionar la IA.
L'àudio generat per SoundStorm és de qualitat equivalent al model anterior i preserva amb precisió la veu de l'altaveu.
És important tenir en compte els possibles problemes ètics, com ara els biaixos relacionats amb els accents i els abusos en la imitació de veus.
O Google destaca la importància d'implementar proteccions i estudiar maneres de detectar l'ús ètic d'aquesta tecnologia, com ara la marca d'aigua d'àudio.
Escolteu, en anglès, un exemple d'àudio generat per SoundStorm: