Inteligência Artificial

Apple afirma que LLMs não possuem “evidências de raciocínio formal”

Publicado por
Isabella Caminoto

Pesquisadores da Apple publicaram recentemente um novo estudo revelando limitações significativas nas capacidades de raciocínio dos LLMs, incluindo os de principais laboratórios de inteligência artificial (IA) como os modelos 4o e o1 da OpenAI.

Detalhes

Cientistas da Apple desenvolveram um novo benchmark chamado GSM-Symbolic para avaliar as habilidades de raciocínio matemático dos LLMs. O estudo descobriu que pequenas alterações na redação das perguntas ou a adição de informações irrelevantes alteraram drasticamente os resultados do modelo, com a precisão caindo em até 65%.

Os pesquisadores observaram maior variabilidade de desempenho e precisão reduzida à medida que a complexidade das perguntas aumentava. A equipe concluiu que não havia “evidências de raciocínio formal” nos modelos testados, sugerindo que o comportamento é mais provavelmente uma correspondência de padrões sofisticada.

Por que isso importa

Embora pareça haver opiniões conflitantes sobre se os LLMs podem realmente raciocinar, arquiva esta nova pesquisa na categoria ‘não’. Se essas limitações se mantiverem, elas expõem algumas questões significativas sobre a confiabilidade e os riscos de implantar modelos em aplicações cada vez mais complexas.

Leia também:

Este post foi modificado pela última vez em 14 de outubro de 2024 14:12

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Posts recentes

Swarm: Nova ferramenta da OpenAI para coordenar inteligências artificiais

A OpenAI acaba de apresentar o Swarm, um novo framework experimental de código aberto projetado…

14 de outubro de 2024

CEO da Anthropic publica ensaio sobre IA e o futuro

O CEO da Anthropic, Dario Amodei, acaba de publicar um longo ensaio delineando uma visão…

14 de outubro de 2024

TikTok corta centenas de empregos em mudança para moderação de conteúdo com IA

A plataforma de mídia social TikTok está demitindo centenas de funcionários de sua força de…

11 de outubro de 2024

MLE-bench: Novo benchmark de agente de IA da OpenAI

A OpenAI acaba de introduzir o MLE-bench, um novo benchmark projetado para avaliar o desempenho…

11 de outubro de 2024

AMD revela chips de IA de próxima geração

A AMD acaba de lançar sua nova linha de processadores focados em inteligência artificial (IA)…

11 de outubro de 2024

Elon Musk e Tesla revelam o Robotaxi; confira

Elon Musk acabou de revelar o tão esperado Robotaxi da Tesla, um veículo futurista de…

11 de outubro de 2024