نقشه‌برداری ذهن مدل‌های زبان بزرگ، درک تحقیقات انسان‌شناسی

آنتروپیک راه اندازی شد اخیراً، تحقیقات نوآورانه با موفقیت میلیون‌ها مفهوم قابل تفسیر توسط انسان به نام «منابع» را در شبکه‌های عصبی مدل شناسایی و ترسیم کرده است. کلود.

تبلیغات

با استفاده از تکنیکی به نام "یادگیری فرهنگ لغتمحققان توانستند الگوهایی را جدا کنند که با مفاهیم مختلف، از اشیا گرفته تا ایده های انتزاعی مطابقت داشتند. با تغییر این الگوها، آنها توانایی تأثیرگذاری بر نتایج تولید شده توسط مدل کلود را نشان دادند و به طور بالقوه راه را برای سیستم های قابل کنترل تر هموار کردند.

محققان آسیب‌پذیری جدیدی را در مدل‌های زبان بزرگ (LLM) شناسایی کردند.

محققان آسیب‌پذیری جدیدی را در مدل‌های زبان بزرگ آنتروپیک (LLM) شناسایی کردند.

علاوه بر این، این تیم قادر به ترسیم مفاهیم مرتبط با نگرانی‌های امنیتی هوش مصنوعی، مانند فریب و جستجوی قدرت، ارائه بینش‌هایی در مورد چگونگی درک مدل‌ها از این مسائل ضروری بود.

همچنین بخوانید:

کارکنان هوش مصنوعی کنیایی می گویند که شرایط آنها برابر با "بردگی مدرن" است.