Mapování mysli velkých jazykových modelů, rozumějte antropickému výzkumu

Antropický spuštěna Inovativnímu výzkumu se v poslední době podařilo v rámci neuronových sítí modelu úspěšně identifikovat a zmapovat miliony lidmi interpretovatelných konceptů, nazývaných „zdroje“. Claude.

PUBLICITA

Pomocí techniky zvané „učení slovníku“, vědci byli schopni izolovat vzory, které odpovídaly různým konceptům, od objektů po abstraktní myšlenky. Vyladěním těchto vzorů prokázali schopnost ovlivňovat výsledky generované modelem Claude a potenciálně připravit cestu pro lépe ovladatelné systémy.

Výzkumníci identifikují novou zranitelnost ve velkých jazykových modelech (LLM)

Výzkumníci identifikují novou zranitelnost v antropických velkých jazykových modelech (LLM)

Kromě toho byl tým schopen zmapovat koncepty související s bezpečnostními problémy umělé inteligence, jako je klamání a hledání moci, a nabídl tak pohled na to, jak modely chápou tyto zásadní problémy.

Čtěte také:

Keňští pracovníci AI říkají, že jejich podmínky se blíží „modernímu otroctví“