Google SoundStorm: τεχνητή νοημοσύνη για αποτελεσματική παραγωγή ήχου

Το SoundStorm μπορεί να συνθέσει διαλόγους με διαφορετικές φωνές και να ανοίξει νέες δυνατότητες, όπως η δημιουργία περιεχομένου ήχου από κείμενο και ρεαλιστικά podcast.
Σε αντίθεση με τον προκάτοχό του, το SoundStorm παράγει ήχο σε κομμάτια 30 δευτερολέπτων, γεγονός που αυξάνει την απόδοση.
Αυτός ήταν εκπαιδευμένο με ένα μεγάλο σύνολο δεδομένων διαλόγων, που διασφαλίζει την ισχυρή κατανόηση της προφορικής γλώσσας.
Το SoundStorm είναι δύο φορές πιο γρήγορο από το προηγούμενο μοντέλο, ικανό να παράγει 30 δευτερόλεπτα ήχου σε μόλις 0,5 δευτερόλεπτα.
Το εργαλείο δεν έχει φτάσει ακόμη στο ευρύ κοινό, αλλά έρευνες που παρουσιάζονται δείχνουν πώς πρέπει να λειτουργεί η τεχνητή νοημοσύνη.
Ο ήχος που δημιουργείται από το SoundStorm είναι ισοδύναμης ποιότητας με το προηγούμενο μοντέλο και διατηρεί με ακρίβεια τη φωνή του ομιλητή.
Είναι σημαντικό να ληφθούν υπόψη πιθανά ηθικά προβλήματα, όπως προκαταλήψεις που σχετίζονται με προφορές και καταχρήσεις στη μίμηση φωνών.
O Google υπογραμμίζει τη σημασία της εφαρμογής προστασιών και μελετά τρόπους ανίχνευσης της ηθικής χρήσης αυτής της τεχνολογίας, όπως η ηχητική υδατοσήμανση.
Ακούστε, στα αγγλικά, ένα παράδειγμα ήχου που δημιουργήθηκε από το SoundStorm: