"نقشه برداری از ذهن مدل های زبان بزرگ": تحقیق آنتروپیک را درک کنید

آنتروپیک راه اندازی شد اخیراً، تحقیقات نوآورانه با موفقیت میلیون‌ها مفهوم قابل تفسیر توسط انسان به نام «منابع» را در شبکه‌های عصبی مدل شناسایی و ترسیم کرده است. کلود.

تبلیغات

با استفاده از تکنیکی به نام "یادگیری فرهنگ لغتمحققان توانستند الگوهایی را جدا کنند که با مفاهیم مختلف، از اشیا گرفته تا ایده های انتزاعی مطابقت داشتند. با تغییر این الگوها، آنها توانایی تأثیرگذاری بر نتایج تولید شده توسط مدل کلود را نشان دادند و به طور بالقوه راه را برای سیستم های قابل کنترل تر هموار کردند.

علاوه بر این، این تیم قادر به ترسیم مفاهیم مرتبط با نگرانی‌های امنیتی هوش مصنوعی، مانند فریب و جستجوی قدرت، ارائه بینش‌هایی در مورد چگونگی درک مدل‌ها از این مسائل ضروری بود.

همچنین بخوانید:

بکش بالا