[gtranslate]

Inteligência Artificial

OpenAI reinventa padrão para avaliação de código

Publicado por
Isabella Caminoto

A OpenAI e os autores do SWE-bench colaboraram para redesenhar o popular benchmark de engenharia de software e lançar o ‘SWE-bench Verified’, um subconjunto validado por humanos do benchmark original.

Os detalhes

O SWE-bench Verified aborda problemas do benchmark original, como testes unitários excessivamente específicos e ambientes de desenvolvimento não confiáveis que levam a avaliações incorretas do desempenho da IA. O novo subconjunto inclui 500 amostras verificadas por desenvolvedores de software profissionais humanos para tornar a avaliação de modelos no SWE-bench mais fácil e confiável. No SWE-bench Verified, o GPT-4o resolve 33,2% das amostras, e o melhor scaffold de código aberto, Agentless, dobra sua pontuação anterior para 16%. A tabela de classificação para o SWE-bench Verified não inclui o Genie da Cosine, sobre o qual escrevemos ontem, que quebrou a pontuação mais alta no antigo benchmark em mais de 10%.

Por que isso importa

a avaliação precisa da IA em tarefas de nível humano, como codificação, é crucial para a transparência e a avaliação do risco da IA. No entanto, a colaboração da OpenAI com o SWE-bench é uma faca de dois gumes – embora melhore o benchmark, também levanta questões sobre potenciais conflitos de interesse, especialmente com os rumores do ‘Projeto Strawberry’ esquentando.

Leia também:

Este post foi modificado pela última vez em 14 de agosto de 2024 13:32

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Posts recentes

Copa do Mundo 2026 aposta em IA para proteger jogadores de ataques online

A Copa do Mundo de 2026, que será realizada nos Estados Unidos, Canadá e México,…

6 de junho de 2026

Trump assina ordem executiva para revisar IA antes do lançamento e reacende debate sobre regulação nos EUA

O presidente dos Estados Unidos, Donald Trump, assinou nesta terça-feira (2) uma nova ordem executiva…

3 de junho de 2026

IA na saúde mental herda preconceitos humanos — e pesquisadores alertam para riscos invisíveis

A rápida expansão da inteligência artificial (IA) na saúde mental vem sendo tratada como uma…

28 de maio de 2026

Estudo de Stanford expõe viés racial em ferramentas de IA usadas para contratação

A promessa de neutralidade da inteligência artificial (IA) no mercado de trabalho acaba de sofrer…

27 de maio de 2026

Papa Leão XIV lança manifesto histórico sobre IA e alerta: “Nenhum algoritmo pode substituir a humanidade”

A inteligência artificial (IA) acaba de entrar oficialmente no centro do debate moral da Igreja…

26 de maio de 2026

Google resolve nove problemas matemáticos inéditos com IA e acelera corrida por descobertas científicas

A disputa entre gigantes da inteligência artificial (IA) acaba de atingir um novo patamar —…

25 de maio de 2026