繪製偉大語言模型的思維，理解人類研究

人擇推出最近，創新研究成功地在模型的神經網路中識別並映射了數百萬個人類可解釋的概念，稱為「資源」。克勞德.

宣傳

使用一種稱為“字典學習「，研究人員能夠分離出與各種概念（從物體到抽象概念）相對應的模式。透過調整這些模式，他們展示了影響克勞德模型產生的結果的能力，可能為更可控的系統鋪平道路。

研究人員發現大型語言模型（LLM）的新漏洞

此外，該團隊還能夠繪製與人工智慧安全問題相關的概念，例如欺騙和權力尋求，從而深入了解模型如何理解這些基本問題。

閱讀：

肯亞人工智慧工人稱他們的處境相當於“現代奴隸制”

「繪製偉大語言模型的思維」：了解 Anthropic 的研究