এআই মডেল আমাদের কণ্ঠস্বর বিশ্লেষণ করে আবেগ অনুমান করতে পারে
চিত্র ক্রেডিট: Curto সংবাদ/বিং এআই

এআই মডেল আমাদের কণ্ঠস্বর বিশ্লেষণ করে আবেগ অনুমান করতে পারে

ভয়েস কেবল যোগাযোগের একটি মাধ্যম নয়। এটি আমাদের সবচেয়ে অন্তরঙ্গ আবেগের জন্য একটি প্রকাশক চ্যানেল। যদি ভয়েস টোন বোঝানো আমাদের জন্য স্বাভাবিক হয়, তবে কৃত্রিম বুদ্ধিমত্তা (AI) কি একই কাজ করতে পারে?

জার্মান গবেষকদের একটি যুগান্তকারী অধ্যয়ন এই প্রশ্নের উত্তর "হ্যাঁ" দিয়ে দেয়। তিনটি মডেল ব্যবহার করে মেশিন লার্নিং, বিজ্ঞানীরা মাত্র 1,5 সেকেন্ডের অডিও নমুনায় বিভিন্ন আবেগ সঠিকভাবে চিনতে সক্ষম হয়েছেন।

বিজ্ঞাপন

ভয়েসের রহস্য উদঘাটনের যাত্রা

ফ্রন্টিয়ার্স ইন সাইকোলজি জার্নালে প্রকাশিত, গবেষণায় দুটি ডেটাসেট থেকে নেওয়া অর্থহীন বাক্য বিশ্লেষণ করা হয়েছে: একটি কানাডিয়ান এবং একটি জার্মান। এই কৌশলগত পছন্দ শুধুমাত্র কণ্ঠস্বরের উপর ফোকাস করে ভাষা এবং সাংস্কৃতিক সূক্ষ্মতার প্রভাব দূর করেছে।

প্রতিটি অডিও ক্লিপ সাবধানে 1,5 সেকেন্ডে ছাঁটাই করা হয়েছিল, মানুষের বক্তৃতায় আবেগ সনাক্ত করার জন্য সর্বনিম্ন দৈর্ঘ্যের প্রয়োজন। এই সাময়িক নির্ভুলতা নিশ্চিত করে যে প্রতিটি টুকরো একটি একক আবেগের প্রতিনিধিত্ব করে, ওভারল্যাপ এবং অস্পষ্টতা এড়িয়ে।

ফোকাস মধ্যে আবেগ

গবেষণাটি ছয়টি মৌলিক আবেগের উপর দৃষ্টি নিবদ্ধ করে: আনন্দ, আরaiva, দুঃখ, ভয়, বিতৃষ্ণা এবং নিরপেক্ষতা। এর কৌশলের মাধ্যমে মেশিন লার্নিং, মডেলগুলিকে প্রতিটি মানসিক অবস্থার সাথে যুক্ত নির্দিষ্ট শব্দের ধরণগুলি চিনতে প্রশিক্ষণ দেওয়া হয়েছিল।

বিজ্ঞাপন

তিনটি মডেল, তিনটি পদ্ধতি

ভয়েসের রহস্য উদঘাটন করতে, গবেষকরা তিনটি ভিন্ন ভয়েস মডেল ব্যবহার করেছেন। মেশিন লার্নিং:

  • ডিপ নিউরাল নেটওয়ার্ক (DNN): তারা জটিল ফিল্টারের মতো কাজ করে, শব্দের উপাদান যেমন ফ্রিকোয়েন্সি এবং টোন বিশ্লেষণ করে। উদাহরণস্বরূপ, কণ্ঠস্বরের একটি উত্থিত স্বন r নির্দেশ করতে পারেaiva বা হতাশা।
  • কনভোল্যুশনাল নিউরাল নেটওয়ার্ক (সিএনএন): তারা শব্দ তরঙ্গের গ্রাফিক উপস্থাপনায় ভিজ্যুয়াল প্যাটার্নগুলি সন্ধান করে, যেভাবে আমরা ভয়েসের ছন্দ এবং টেক্সচারে আবেগগুলি সনাক্ত করি।
  • হাইব্রিড মডেল (C-DNN): এটি আবেগের আরও সঠিক ভবিষ্যদ্বাণী পেতে অডিও এবং এর ভিজ্যুয়াল উপস্থাপনা উভয় ব্যবহার করে পূর্ববর্তী দুটি কৌশলকে একত্রিত করে।

প্রতিশ্রুতিবদ্ধ ফলাফল এবং চ্যালেঞ্জ কাটিয়ে উঠতে হবে

গবেষণার ফলাফল ছিল উৎসাহব্যঞ্জক। এর মডেলগুলি মেশিন লার্নিং তারা মানুষের মত নির্ভুলতার সাথে আবেগ সনাক্ত করতে সক্ষম হয়েছিল, এমনকি প্রসঙ্গ বিহীন অর্থহীন বাক্যেও।

যাইহোক, লেখক কিছু সীমাবদ্ধতা স্বীকার করেন। ব্যবহৃত সংক্ষিপ্ত বাক্যগুলি বাস্তব আবেগগুলিতে উপস্থিত সূক্ষ্মতা এবং অস্পষ্টতার সম্পূর্ণ পরিসীমা ক্যাপচার করতে পারে না। উপরন্তু, সঠিক আবেগ স্বীকৃতির জন্য সর্বোত্তম অডিও সময়কাল নির্ধারণের জন্য ভবিষ্যতের গবেষণা প্রয়োজন।

বিজ্ঞাপন

মানব-মেশিন ইন্টারঅ্যাকশনের ভবিষ্যত

ভয়েসের মাধ্যমে আবেগ চেনার ক্ষমতা মানব-মেশিন মিথস্ক্রিয়া ভবিষ্যতের জন্য সম্ভাবনার একটি পরিসীমা উন্মুক্ত করে। এমন একটি ভবিষ্যৎ কল্পনা করুন যেখানে স্মার্ট ডিভাইস এবং ভার্চুয়াল সহকারীরা আপনার মানসিক চাহিদা বুঝতে এবং সাড়া দিতে পারে।

এই গবেষণা এই দিক একটি গুরুত্বপূর্ণ পদক্ষেপ প্রতিনিধিত্ব করে, সম্ভাব্য প্রদর্শন intelig .ncia কৃত্রিম মানুষের ভয়েসের গোপনীয়তা ডিকোড করতে এবং আরও সহানুভূতিশীল এবং মানবিক ইন্টারফেস তৈরি করতে।

আরও পড়ুন:

* এই নিবন্ধের পাঠ্যটি আংশিকভাবে কৃত্রিম বুদ্ধিমত্তার সরঞ্জাম, অত্যাধুনিক ভাষার মডেল দ্বারা তৈরি করা হয়েছে যা পাঠ্যের প্রস্তুতি, পর্যালোচনা, অনুবাদ এবং সংক্ষিপ্তকরণে সহায়তা করে। টেক্সট এন্ট্রি দ্বারা তৈরি করা হয়েছে Curto চূড়ান্ত বিষয়বস্তু উন্নত করতে এআই টুলস থেকে সংবাদ এবং প্রতিক্রিয়া ব্যবহার করা হয়েছিল।
এটি হাইলাইট করা গুরুত্বপূর্ণ যে AI সরঞ্জামগুলি কেবলমাত্র সরঞ্জাম এবং প্রকাশিত বিষয়বস্তুর জন্য চূড়ান্ত দায়বদ্ধতা রয়েছে Curto খবর। এই সরঞ্জামগুলিকে দায়িত্বের সাথে এবং নৈতিকভাবে ব্যবহার করার মাধ্যমে, আমাদের উদ্দেশ্য হল যোগাযোগের সম্ভাবনা প্রসারিত করা এবং মানসম্পন্ন তথ্যের অ্যাক্সেসকে গণতান্ত্রিক করা।
🤖

বিজ্ঞাপন

আপনার জীবন সহজ করতে একটি কৃত্রিম বুদ্ধিমত্তা টুল খুঁজছেন? এই নির্দেশিকা মধ্যে, আপনি AI-চালিত রোবটের একটি ক্যাটালগ ব্রাউজ করুন এবং তাদের কার্যকারিতা সম্পর্কে জানুন। আমাদের সাংবাদিকদের দল তাদের যে মূল্যায়ন করেছে তা দেখুন!

উপরে স্ক্রল কর