Google SoundStorm: mesterséges intelligencia a hatékony hanggeneráláshoz

A SoundStorm képes szintetizálni a párbeszédeket különböző hangokkal, és új lehetőségeket nyithat meg, például hangtartalom létrehozását szövegből és valósághű podcastokat.
Elődjétől eltérően a SoundStorm 30 másodperces részletekben generálja a hangot, ami növeli a hatékonyságot.
Ő volt kiképzett párbeszédek nagy adathalmazával, amely biztosítja a beszélt nyelv megbízható megértését.
A SoundStorm kétszer olyan gyors, mint az előző modell, mindössze 30 másodperc alatt képes 0,5 másodpercnyi hangot generálni.
Az eszköz még nem jutott el a nagyközönséghez, de kutatások bemutatott bemutatja, hogyan kell az AI-nak működnie.
A SoundStorm által generált hang az előző modellel egyenértékű minőségű, és pontosan megőrzi a hangszóró hangját.
Fontos figyelembe venni a lehetséges etikai problémákat, például az akcentusokkal kapcsolatos elfogultságokat és a hangutánzásokkal kapcsolatos visszaéléseket.
O Google kiemeli a védelmek bevezetésének fontosságát, és tanulmányozza a technológia etikus használatának kimutatásának módjait, például a hangvízjelet.
Hallgasson meg egy példát a SoundStorm által generált hangra angolul: