A Anthropic acaba de publicar um conjunto de novas avaliações destinadas a detectar potenciais capacidades de sabotagem em sistemas avançados de inteligência artificial (IA), focando em riscos que podem surgir se os modelos tentarem subverter a supervisão humana ou a tomada de decisões.
A pesquisa da Anthropic mostra que a IA não é muito boa em sabotar humanos… ainda. Mas as capacidades estão lá em alguma capacidade – e se a aceleração do modelo continuar como muitos pensam que será, é apenas uma questão de tempo antes que essas ameaças sejam reais e importantes de mitigar.
Leia também:
Este post foi modificado pela última vez em %s = human-readable time difference 15:52
Pesquisadores da Stanford desenvolveram um modelo de inteligência artificial (IA) que permite que avatares digitais…
A startup chinesa de inteligência artificial (IA) DeepSeek acaba de lançar o DeepSeek-V3, um novo…
A nova funcionalidade de busca do ChatGPT, a poderosa ferramenta de inteligência artificial (IA) da…
A OpenAI divulgou um plano para reformular sua estrutura corporativa no próximo ano, afirmando que…
A Apple está se aproximando de uma marca histórica de US$ 4 trilhões de valor…
Na versão mais recente do aplicativo Arquivos do Google, invocar o Gemini enquanto olha para…