Antropický spuštěna Inovativnímu výzkumu se v poslední době podařilo v rámci neuronových sítí modelu úspěšně identifikovat a zmapovat miliony lidmi interpretovatelných konceptů, nazývaných „zdroje“. Claude.
PUBLICITA
Pomocí techniky zvané „učení slovníku“, vědci byli schopni izolovat vzory, které odpovídaly různým konceptům, od objektů po abstraktní myšlenky. Vyladěním těchto vzorů prokázali schopnost ovlivňovat výsledky generované modelem Claude a potenciálně připravit cestu pro lépe ovladatelné systémy.
Kromě toho byl tým schopen zmapovat koncepty související s bezpečnostními problémy umělé inteligence, jako je klamání a hledání moci, a nabídl tak pohled na to, jak modely chápou tyto zásadní problémy.
Čtěte také: