- SoundStorm kan dialogen met verschillende stemmen synthetiseren en nieuwe mogelijkheden openen, zoals het creëren van audio-inhoud op basis van tekst en realistische podcasts.
- In tegenstelling tot zijn voorganger genereert SoundStorm audio in blokken van 30 seconden, wat de efficiëntie verhoogt.
- Hij was getraind met een grote dataset van dialogen, waardoor een robuust begrip van gesproken taal wordt gegarandeerd.
- SoundStorm is twee keer zo snel als het vorige model en kan in slechts 30 seconde 0,5 seconden audio genereren.
- De tool heeft het grote publiek nog niet bereikt, maar onderzoek gepresenteerd laten zien hoe AI zou moeten werken.
- De door SoundStorm gegenereerde audio is van gelijkwaardige kwaliteit als het vorige model en behoudt nauwkeurig de stem van de spreker.
- Het is belangrijk om mogelijke ethische problemen in overweging te nemen, zoals vooroordelen gerelateerd aan accenten en misbruik bij het imiteren van stemmen.
- O Google benadrukt het belang van het implementeren van beschermingsmaatregelen en onderzoekt manieren om het ethische gebruik van deze technologie, zoals audiowatermerken, op te sporen.
- Luister in het Engels naar een voorbeeld van audio gegenereerd door SoundStorm:
Zie ook: