'Mapping the Mind of Great Language Models': Pochopte výzkum Anthropic

Antropický spuštěna Inovativnímu výzkumu se v poslední době podařilo v rámci neuronových sítí modelu úspěšně identifikovat a zmapovat miliony lidmi interpretovatelných konceptů, nazývaných „zdroje“. Claude.

PUBLICITA

Pomocí techniky zvané „učení slovníku“, vědci byli schopni izolovat vzory, které odpovídaly různým konceptům, od objektů po abstraktní myšlenky. Vyladěním těchto vzorů prokázali schopnost ovlivňovat výsledky generované modelem Claude a potenciálně připravit cestu pro lépe ovladatelné systémy.

Kromě toho byl tým schopen zmapovat koncepty související s bezpečnostními problémy umělé inteligence, jako je klamání a hledání moci, a nabídl tak pohled na to, jak modely chápou tyto zásadní problémy.

Čtěte také:

posunout nahoru