Google SoundStorm: هوش مصنوعی برای تولید صوتی کارآمد

SoundStorm می تواند دیالوگ ها را با صداهای مختلف ترکیب کند و امکانات جدیدی مانند ایجاد محتوای صوتی از متن و پادکست های واقع گرایانه را به شما باز کند.
برخلاف مدل قبلی خود، SoundStorm صدا را در قطعات 30 ثانیه ای تولید می کند که باعث افزایش کارایی می شود.
الفوی آموزش دیده با مجموعه داده بزرگی از دیالوگ ها، اطمینان از درک قوی از زبان گفتاری.
SoundStorm دو برابر سریعتر از مدل قبلی است و قادر است 30 ثانیه صدا را تنها در 0,5 ثانیه تولید کند.
این ابزار هنوز به دست عموم مردم نرسیده است، اما تحقیقات ارائه شده نشان می دهد که هوش مصنوعی چگونه باید کار کند.
صدای تولید شده توسط SoundStorm کیفیتی معادل مدل قبلی دارد و صدای گوینده را به دقت حفظ می کند.
در نظر گرفتن مشکلات اخلاقی احتمالی، مانند سوگیری های مربوط به لهجه ها و سوء استفاده ها در تقلید صدا، مهم است.
O Google اهمیت اجرای حفاظت‌ها را برجسته می‌کند و راه‌های تشخیص استفاده اخلاقی از این فناوری، مانند واترمارک صوتی را مطالعه می‌کند.
به زبان انگلیسی به مثالی از صدای تولید شده توسط SoundStorm گوش دهید: