Google সাউন্ডস্টর্ম: দক্ষ অডিও প্রজন্মের জন্য কৃত্রিম বুদ্ধিমত্তা

সাউন্ডস্টর্ম বিভিন্ন ভয়েসের সাথে সংলাপগুলিকে সংশ্লেষিত করতে পারে এবং নতুন সম্ভাবনাগুলি খুলতে পারে, যেমন পাঠ্য এবং বাস্তবসম্মত পডকাস্ট থেকে অডিও সামগ্রী তৈরি করা।
এর পূর্বসূরীর বিপরীতে, সাউন্ডস্টর্ম 30-সেকেন্ডের অংশে অডিও তৈরি করে, যা দক্ষতা বাড়ায়।
সে ছিল প্রশিক্ষিত কথ্য ভাষার দৃঢ় বোধগম্যতা নিশ্চিত করে কথোপকথনের একটি বড় ডেটাসেট সহ।
SoundStorm আগের মডেলের তুলনায় দ্বিগুণ দ্রুত, মাত্র 30 সেকেন্ডে 0,5 সেকেন্ডের অডিও তৈরি করতে সক্ষম।
হাতিয়ার এখনো সাধারণ মানুষের কাছে পৌঁছায়নি, কিন্তু গবেষণা করে উপস্থাপিত দেখায় কিভাবে AI কাজ করা উচিত।
SoundStorm দ্বারা উত্পন্ন অডিও পূর্ববর্তী মডেলের সমতুল্য এবং সঠিকভাবে স্পিকারের ভয়েস সংরক্ষণ করে।
সম্ভাব্য নৈতিক সমস্যাগুলি বিবেচনা করা গুরুত্বপূর্ণ, যেমন উচ্চারণ সম্পর্কিত পক্ষপাতিত্ব এবং কণ্ঠের অনুকরণে অপব্যবহার।
O Google অডিও ওয়াটারমার্কিং-এর মতো এই প্রযুক্তির নৈতিক ব্যবহার শনাক্ত করার জন্য সুরক্ষা এবং অধ্যয়ন পদ্ধতি বাস্তবায়নের গুরুত্ব তুলে ধরে।
সাউন্ডস্টর্ম দ্বারা উত্পন্ন অডিওর একটি উদাহরণ ইংরেজিতে শুনুন: