- Το SoundStorm μπορεί να συνθέσει διαλόγους με διαφορετικές φωνές και να ανοίξει νέες δυνατότητες, όπως η δημιουργία περιεχομένου ήχου από κείμενο και ρεαλιστικά podcast.
- Σε αντίθεση με τον προκάτοχό του, το SoundStorm παράγει ήχο σε κομμάτια 30 δευτερολέπτων, γεγονός που αυξάνει την απόδοση.
- Αυτός ήταν εκπαιδευμένο με ένα μεγάλο σύνολο δεδομένων διαλόγων, που διασφαλίζει την ισχυρή κατανόηση της προφορικής γλώσσας.
- Το SoundStorm είναι δύο φορές πιο γρήγορο από το προηγούμενο μοντέλο, ικανό να παράγει 30 δευτερόλεπτα ήχου σε μόλις 0,5 δευτερόλεπτα.
- Το εργαλείο δεν έχει φτάσει ακόμη στο ευρύ κοινό, αλλά έρευνες που παρουσιάζονται δείχνουν πώς πρέπει να λειτουργεί η τεχνητή νοημοσύνη.
- Ο ήχος που δημιουργείται από το SoundStorm είναι ισοδύναμης ποιότητας με το προηγούμενο μοντέλο και διατηρεί με ακρίβεια τη φωνή του ομιλητή.
- Είναι σημαντικό να ληφθούν υπόψη πιθανά ηθικά προβλήματα, όπως προκαταλήψεις που σχετίζονται με προφορές και καταχρήσεις στη μίμηση φωνών.
- O Google υπογραμμίζει τη σημασία της εφαρμογής προστασιών και μελετά τρόπους ανίχνευσης της ηθικής χρήσης αυτής της τεχνολογίας, όπως η ηχητική υδατοσήμανση.
- Ακούστε, στα αγγλικά, ένα παράδειγμα ήχου που δημιουργήθηκε από το SoundStorm:
Δείτε επίσης: