A Anthropic lançou recentemente uma pesquisa inovadora que conseguiu identificar e mapear – com sucesso – milhões de conceitos interpretáveis por humanos, denominados “recursos”, dentro das redes neurais do modelo Claude.
Usando uma técnica chamada “aprendizado de dicionário“, os pesquisadores conseguiram isolar padrões que correspondiam a uma variedade de conceitos, desde objetos até ideias abstratas. Ajustando esses padrões, eles demonstraram a capacidade de influenciar os resultados gerados pelo modelo Claude, potencialmente abrindo caminho para sistemas mais controláveis.
Além disso, a equipe conseguiu mapear conceitos relacionados às preocupações de segurança da IA, como engano e busca de poder, oferecendo insights sobre como os modelos compreendem essas questões essenciais.
Leia também:
Este post foi modificado pela última vez em 22 de maio de 2024 17:03
A startup britânica de inteligência artificial (IA) Stability AI tem um novo CEO, Prem Akkaraju,…
Um minúsculo robô ingerível chamado PillBot entrou em ensaios clínicos e se prepara para avaliação…
A Huawei Technologies da China disse na sexta-feira (21) que fez avanços em áreas que…
Olga Loiek, uma estudante da Universidade da Pensilvânia, nos EUA, procurava pela atenção do público…
Várias empresas de inteligência artificial (IA) estão contornando um padrão web comum usado por editores…
O Citigroup acaba de lançar um novo relatório do GPS sobre inteligência artificial (IA) em…