Google SoundStorm: الذكاء الاصطناعي لتوليد الصوت بكفاءة

يمكن لـ SoundStorm تجميع الحوارات بأصوات مختلفة وفتح إمكانيات جديدة، مثل إنشاء محتوى صوتي من النص والبودكاست الواقعي.
على عكس سابقتها، يقوم SoundStorm بإنشاء الصوت في أجزاء مدتها 30 ثانية، مما يزيد من الكفاءة.
كان تم تدريبه مع مجموعة بيانات كبيرة من الحوارات، مما يضمن فهمًا قويًا للغة المنطوقة.
SoundStorm أسرع بمرتين من الطراز السابق، وهو قادر على توليد 30 ثانية من الصوت في 0,5 ثانية فقط.
الأداة لم تصل بعد إلى عامة الناس، ولكن بحث يوضح العرض كيف يجب أن يعمل الذكاء الاصطناعي.
الصوت الناتج عن SoundStorm يتمتع بجودة مكافئة للطراز السابق ويحافظ بدقة على صوت المتحدث.
ومن المهم أن نأخذ في الاعتبار المشاكل الأخلاقية المحتملة، مثل التحيزات المتعلقة باللهجات والإساءات في تقليد الأصوات.
O Google يسلط الضوء على أهمية تنفيذ وسائل الحماية ويدرس طرق الكشف عن الاستخدام الأخلاقي لهذه التكنولوجيا، مثل العلامات المائية الصوتية.
استمع باللغة الإنجليزية إلى مثال للصوت الذي تم إنشاؤه بواسطة SoundStorm: