Google SoundStorm: kunstmatige intelligentie voor efficiënte audiogeneratie

SoundStorm kan dialogen met verschillende stemmen synthetiseren en nieuwe mogelijkheden openen, zoals het creëren van audio-inhoud op basis van tekst en realistische podcasts.
In tegenstelling tot zijn voorganger genereert SoundStorm audio in blokken van 30 seconden, wat de efficiëntie verhoogt.
Hij was getraind met een grote dataset van dialogen, waardoor een robuust begrip van gesproken taal wordt gegarandeerd.
SoundStorm is twee keer zo snel als het vorige model en kan in slechts 30 seconde 0,5 seconden audio genereren.
De tool heeft het grote publiek nog niet bereikt, maar onderzoek gepresenteerd laten zien hoe AI zou moeten werken.
De door SoundStorm gegenereerde audio is van gelijkwaardige kwaliteit als het vorige model en behoudt nauwkeurig de stem van de spreker.
Het is belangrijk om mogelijke ethische problemen in overweging te nemen, zoals vooroordelen gerelateerd aan accenten en misbruik bij het imiteren van stemmen.
O Google benadrukt het belang van het implementeren van beschermingsmaatregelen en onderzoekt manieren om het ethische gebruik van deze technologie, zoals audiowatermerken, op te sporen.
Luister in het Engels naar een voorbeeld van audio gegenereerd door SoundStorm: