জার্মান গবেষকদের একটি যুগান্তকারী অধ্যয়ন এই প্রশ্নের উত্তর "হ্যাঁ" দিয়ে দেয়। তিনটি মডেল ব্যবহার করে মেশিন লার্নিং, বিজ্ঞানীরা মাত্র 1,5 সেকেন্ডের অডিও নমুনায় বিভিন্ন আবেগ সঠিকভাবে চিনতে সক্ষম হয়েছেন।
বিজ্ঞাপন
ভয়েসের রহস্য উদঘাটনের যাত্রা
ফ্রন্টিয়ার্স ইন সাইকোলজি জার্নালে প্রকাশিত, গবেষণায় দুটি ডেটাসেট থেকে নেওয়া অর্থহীন বাক্য বিশ্লেষণ করা হয়েছে: একটি কানাডিয়ান এবং একটি জার্মান। এই কৌশলগত পছন্দ শুধুমাত্র কণ্ঠস্বরের উপর ফোকাস করে ভাষা এবং সাংস্কৃতিক সূক্ষ্মতার প্রভাব দূর করেছে।
প্রতিটি অডিও ক্লিপ সাবধানে 1,5 সেকেন্ডে ছাঁটাই করা হয়েছিল, মানুষের বক্তৃতায় আবেগ সনাক্ত করার জন্য সর্বনিম্ন দৈর্ঘ্যের প্রয়োজন। এই সাময়িক নির্ভুলতা নিশ্চিত করে যে প্রতিটি টুকরো একটি একক আবেগের প্রতিনিধিত্ব করে, ওভারল্যাপ এবং অস্পষ্টতা এড়িয়ে।
ফোকাস মধ্যে আবেগ
গবেষণাটি ছয়টি মৌলিক আবেগের উপর দৃষ্টি নিবদ্ধ করে: আনন্দ, আরaiva, দুঃখ, ভয়, বিতৃষ্ণা এবং নিরপেক্ষতা। এর কৌশলের মাধ্যমে মেশিন লার্নিং, মডেলগুলিকে প্রতিটি মানসিক অবস্থার সাথে যুক্ত নির্দিষ্ট শব্দের ধরণগুলি চিনতে প্রশিক্ষণ দেওয়া হয়েছিল।
বিজ্ঞাপন
তিনটি মডেল, তিনটি পদ্ধতি
ভয়েসের রহস্য উদঘাটন করতে, গবেষকরা তিনটি ভিন্ন ভয়েস মডেল ব্যবহার করেছেন। মেশিন লার্নিং:
- ডিপ নিউরাল নেটওয়ার্ক (DNN): তারা জটিল ফিল্টারের মতো কাজ করে, শব্দের উপাদান যেমন ফ্রিকোয়েন্সি এবং টোন বিশ্লেষণ করে। উদাহরণস্বরূপ, কণ্ঠস্বরের একটি উত্থিত স্বন r নির্দেশ করতে পারেaiva বা হতাশা।
- কনভোল্যুশনাল নিউরাল নেটওয়ার্ক (সিএনএন): তারা শব্দ তরঙ্গের গ্রাফিক উপস্থাপনায় ভিজ্যুয়াল প্যাটার্নগুলি সন্ধান করে, যেভাবে আমরা ভয়েসের ছন্দ এবং টেক্সচারে আবেগগুলি সনাক্ত করি।
- হাইব্রিড মডেল (C-DNN): এটি আবেগের আরও সঠিক ভবিষ্যদ্বাণী পেতে অডিও এবং এর ভিজ্যুয়াল উপস্থাপনা উভয় ব্যবহার করে পূর্ববর্তী দুটি কৌশলকে একত্রিত করে।
প্রতিশ্রুতিবদ্ধ ফলাফল এবং চ্যালেঞ্জ কাটিয়ে উঠতে হবে
গবেষণার ফলাফল ছিল উৎসাহব্যঞ্জক। এর মডেলগুলি মেশিন লার্নিং তারা মানুষের মত নির্ভুলতার সাথে আবেগ সনাক্ত করতে সক্ষম হয়েছিল, এমনকি প্রসঙ্গ বিহীন অর্থহীন বাক্যেও।
যাইহোক, লেখক কিছু সীমাবদ্ধতা স্বীকার করেন। ব্যবহৃত সংক্ষিপ্ত বাক্যগুলি বাস্তব আবেগগুলিতে উপস্থিত সূক্ষ্মতা এবং অস্পষ্টতার সম্পূর্ণ পরিসীমা ক্যাপচার করতে পারে না। উপরন্তু, সঠিক আবেগ স্বীকৃতির জন্য সর্বোত্তম অডিও সময়কাল নির্ধারণের জন্য ভবিষ্যতের গবেষণা প্রয়োজন।
বিজ্ঞাপন
মানব-মেশিন ইন্টারঅ্যাকশনের ভবিষ্যত
ভয়েসের মাধ্যমে আবেগ চেনার ক্ষমতা মানব-মেশিন মিথস্ক্রিয়া ভবিষ্যতের জন্য সম্ভাবনার একটি পরিসীমা উন্মুক্ত করে। এমন একটি ভবিষ্যৎ কল্পনা করুন যেখানে স্মার্ট ডিভাইস এবং ভার্চুয়াল সহকারীরা আপনার মানসিক চাহিদা বুঝতে এবং সাড়া দিতে পারে।
এই গবেষণা এই দিক একটি গুরুত্বপূর্ণ পদক্ষেপ প্রতিনিধিত্ব করে, সম্ভাব্য প্রদর্শন intelig .ncia কৃত্রিম মানুষের ভয়েসের গোপনীয়তা ডিকোড করতে এবং আরও সহানুভূতিশীল এবং মানবিক ইন্টারফেস তৈরি করতে।
আরও পড়ুন:
* এই নিবন্ধের পাঠ্যটি আংশিকভাবে কৃত্রিম বুদ্ধিমত্তার সরঞ্জাম, অত্যাধুনিক ভাষার মডেল দ্বারা তৈরি করা হয়েছে যা পাঠ্যের প্রস্তুতি, পর্যালোচনা, অনুবাদ এবং সংক্ষিপ্তকরণে সহায়তা করে। টেক্সট এন্ট্রি দ্বারা তৈরি করা হয়েছে Curto চূড়ান্ত বিষয়বস্তু উন্নত করতে এআই টুলস থেকে সংবাদ এবং প্রতিক্রিয়া ব্যবহার করা হয়েছিল।
এটি হাইলাইট করা গুরুত্বপূর্ণ যে AI সরঞ্জামগুলি কেবলমাত্র সরঞ্জাম এবং প্রকাশিত বিষয়বস্তুর জন্য চূড়ান্ত দায়বদ্ধতা রয়েছে Curto খবর। এই সরঞ্জামগুলিকে দায়িত্বের সাথে এবং নৈতিকভাবে ব্যবহার করার মাধ্যমে, আমাদের উদ্দেশ্য হল যোগাযোগের সম্ভাবনা প্রসারিত করা এবং মানসম্পন্ন তথ্যের অ্যাক্সেসকে গণতান্ত্রিক করা। 🤖
বিজ্ঞাপন
আপনার জীবন সহজ করতে একটি কৃত্রিম বুদ্ধিমত্তা টুল খুঁজছেন? এই নির্দেশিকা মধ্যে, আপনি AI-চালিত রোবটের একটি ক্যাটালগ ব্রাউজ করুন এবং তাদের কার্যকারিতা সম্পর্কে জানুন। আমাদের সাংবাদিকদের দল তাদের যে মূল্যায়ন করেছে তা দেখুন!