Inteligência Artificial

‘Mapeando a Mente de Grandes Modelos de Linguagem’: Entenda a pesquisa da Anthropic

Publicado por
Juliana Caminoto

A Anthropic lançou recentemente uma pesquisa inovadora que conseguiu identificar e mapear – com sucesso – milhões de conceitos interpretáveis por humanos, denominados “recursos”, dentro das redes neurais do modelo Claude.

Usando uma técnica chamada “aprendizado de dicionário“, os pesquisadores conseguiram isolar padrões que correspondiam a uma variedade de conceitos, desde objetos até ideias abstratas. Ajustando esses padrões, eles demonstraram a capacidade de influenciar os resultados gerados pelo modelo Claude, potencialmente abrindo caminho para sistemas mais controláveis.

Além disso, a equipe conseguiu mapear conceitos relacionados às preocupações de segurança da IA, como engano e busca de poder, oferecendo insights sobre como os modelos compreendem essas questões essenciais.

Leia também:

Este post foi modificado pela última vez em %s = human-readable time difference 17:03

Juliana Caminoto

Advogada com especialização em compliance e auditoria, estou sempre conectada às redes sociais e em busca de novos desafios. Sou mãe de pet e amo viajar.

Posts recentes

Google se associa à Apptronik para desenvolver robôs humanoides

O Google DeepMind acaba de anunciar uma parceria estratégica com a Apptronik, uma empresa de…

20 de dezembro de 2024

Genesis: Um novo patamar para simulações físicas em IA

Uma equipe de pesquisadores de 20 laboratórios diferentes acaba de apresentar o Genesis, um motor…

20 de dezembro de 2024

Google lança seu próprio modelo de IA de “raciocínio”

O Google acabou de lançar o que está chamando de um novo modelo de inteligência…

19 de dezembro de 2024

GitHub Copilot agora é gratuito

A GitHub, de propriedade da Microsoft, acaba de anunciar um nível gratuito de seu Copilot…

19 de dezembro de 2024

ChatGPT ganha um novo número de telefone; veja

A OpenAI acaba de lançar uma nova maneira surpreendente de acessar o ChatGPT - através…

19 de dezembro de 2024

Google lança novo benchmark para testar a factualidade de LLMs

O Google DeepMind acaba de lançar o FACTS Grounding, um novo benchmark projetado para avaliar…

18 de dezembro de 2024