Inteligência Artificial

‘Mapeando a Mente de Grandes Modelos de Linguagem’: Entenda a pesquisa da Anthropic

Publicado por
Juliana Caminoto

A Anthropic lançou recentemente uma pesquisa inovadora que conseguiu identificar e mapear – com sucesso – milhões de conceitos interpretáveis por humanos, denominados “recursos”, dentro das redes neurais do modelo Claude.

Usando uma técnica chamada “aprendizado de dicionário“, os pesquisadores conseguiram isolar padrões que correspondiam a uma variedade de conceitos, desde objetos até ideias abstratas. Ajustando esses padrões, eles demonstraram a capacidade de influenciar os resultados gerados pelo modelo Claude, potencialmente abrindo caminho para sistemas mais controláveis.

Além disso, a equipe conseguiu mapear conceitos relacionados às preocupações de segurança da IA, como engano e busca de poder, oferecendo insights sobre como os modelos compreendem essas questões essenciais.

Leia também:

Este post foi modificado pela última vez em 22 de maio de 2024 17:03

Juliana Caminoto

Advogada com especialização em compliance e auditoria, estou sempre conectada às redes sociais e em busca de novos desafios. Sou mãe de pet e amo viajar.

Posts recentes

O que a vitória de Trump pode significar para a regulação de IA

Com a vitória de Donald Trump na presidência e o controle do Senado pelos republicanos,…

6 de novembro de 2024

Tencent revela modelo Hunyuan-Large de código aberto

A Tencent acaba de lançar o Hunyuan-Large, um novo modelo de linguagem de código aberto…

6 de novembro de 2024

Apple explora o mercado de óculos inteligentes; veja

A Apple está supostamente dando seus primeiros passos sérios em direção ao desenvolvimento de óculos…

6 de novembro de 2024

Apple prepara desenvolvedores para atualização de IA da Siri

A Apple acaba de começar a lançar novas ferramentas para desenvolvedores para os próximos recursos de reconhecimento…

6 de novembro de 2024

Physical Intelligence capta US$ 400 milhões para criar robôs mais inteligentes

A startup de inteligência artificial (IA) Physical Intelligence acaba de conseguir US$ 400 milhões em investimentos liderados…

5 de novembro de 2024

Anthropic lança o Claude Haiku 3.5; veja

A Anthropic acabou de lançar seu modelo Claude 3.5 Haiku, oferecendo novas melhorias no uso…

5 de novembro de 2024