A Anthropic lançou recentemente uma pesquisa inovadora que conseguiu identificar e mapear – com sucesso – milhões de conceitos interpretáveis por humanos, denominados “recursos”, dentro das redes neurais do modelo Claude.
Usando uma técnica chamada “aprendizado de dicionário“, os pesquisadores conseguiram isolar padrões que correspondiam a uma variedade de conceitos, desde objetos até ideias abstratas. Ajustando esses padrões, eles demonstraram a capacidade de influenciar os resultados gerados pelo modelo Claude, potencialmente abrindo caminho para sistemas mais controláveis.
Além disso, a equipe conseguiu mapear conceitos relacionados às preocupações de segurança da IA, como engano e busca de poder, oferecendo insights sobre como os modelos compreendem essas questões essenciais.
Leia também:
Este post foi modificado pela última vez em 22 de maio de 2024 17:03
A Copa do Mundo de 2026, que será realizada nos Estados Unidos, Canadá e México,…
O presidente dos Estados Unidos, Donald Trump, assinou nesta terça-feira (2) uma nova ordem executiva…
A rápida expansão da inteligência artificial (IA) na saúde mental vem sendo tratada como uma…
A promessa de neutralidade da inteligência artificial (IA) no mercado de trabalho acaba de sofrer…
A inteligência artificial (IA) acaba de entrar oficialmente no centro do debate moral da Igreja…
A disputa entre gigantes da inteligência artificial (IA) acaba de atingir um novo patamar —…