‘Mapeando a Mente de Grandes Modelos de Linguagem’: Entenda a pesquisa da Anthropic

A Anthropic lançou recentemente uma pesquisa inovadora que conseguiu identificar e mapear – com sucesso – milhões de conceitos interpretáveis por humanos, denominados “recursos”, dentro das redes neurais do modelo Claude.

PUBLICIDADE

Usando uma técnica chamada “aprendizado de dicionário“, os pesquisadores conseguiram isolar padrões que correspondiam a uma variedade de conceitos, desde objetos até ideias abstratas. Ajustando esses padrões, eles demonstraram a capacidade de influenciar os resultados gerados pelo modelo Claude, potencialmente abrindo caminho para sistemas mais controláveis.

Além disso, a equipe conseguiu mapear conceitos relacionados às preocupações de segurança da IA, como engano e busca de poder, oferecendo insights sobre como os modelos compreendem essas questões essenciais.

Leia também:

Rolar para cima