Inteligência Artificial

MLE-bench: Novo benchmark de agente de IA da OpenAI

Publicado por
Isabella Caminoto

A OpenAI acaba de introduzir o MLE-bench, um novo benchmark projetado para avaliar o desempenho de agentes de inteligência artificial (IA) em tarefas de engenharia de machine learning no mundo real, utilizando competições do Kaggle.

Os detalhes
  • O MLE-bench consiste em 75 competições do Kaggle selecionadas, abrangendo uma variedade de tarefas de ML, como treinamento de modelos, preparação de dados e experimentação.
  • As competições do Kaggle são desafios online em que cientistas de dados competem para resolver problemas complexos usando machine learning, buscando prêmios e reconhecimento.
  • Nas pesquisas, os modelos de IA geralmente tiveram sucesso ao aplicar técnicas padrão, mas enfrentaram dificuldades em tarefas que exigiam adaptabilidade ou resolução criativa de problemas.
  • A configuração de melhor desempenho, o modelo o1-preview da OpenAI com a estrutura AIDE, conquistou pelo menos uma medalha de bronze em 16,9% das competições.
Por que isso importa

Os agentes de IA estão ganhando força — e novos benchmarks são necessários para avaliar suas capacidades que superam as medidas de teste anteriores. Com os comentários da OpenAI, uma onda de startups impulsionando capacidades de agentes, e a criação de novos benchmarks, a revolução dos agentes de IA parece prestes a explodir.

Leia também:

Este post foi modificado pela última vez em 11 de outubro de 2024 14:36

Isabella Caminoto

Advogada e mestranda em Direito Internacional, tenho a democracia e a liberdade como bandeiras irrenunciáveis. Sou apaixonada pelos animais e acredito que o bem-estar do nosso planeta deveria ser o destaque diário da pauta da nossa sociedade.

Compartilhar
Publicado por
Isabella Caminoto

Posts recentes

AMD revela chips de IA de próxima geração

A AMD acaba de lançar sua nova linha de processadores focados em inteligência artificial (IA)…

11 de outubro de 2024

Elon Musk e Tesla revelam o Robotaxi; confira

Elon Musk acabou de revelar o tão esperado Robotaxi da Tesla, um veículo futurista de…

11 de outubro de 2024

Brasil propõe reforma para endurecer regulamentação antitruste para big techs

O governo brasileiro recomendou na quinta-feira (10) uma reforma em sua lei de concorrência que…

10 de outubro de 2024

Writer revoluciona a IA com Palmyra X 004; confira

A startup de IA Writer acaba de apresentar o Palmyra X 004, um LLM que…

10 de outubro de 2024

Língua eletrônica permite que IA “saboreie”

Cientistas da Penn State criaram recentemente uma "língua eletrônica" alimentada por inteligência artificial (IA) que…

10 de outubro de 2024

IA da Amazon vai te ajudar a decidir o que comprar

A Amazon tem uma nova ferramenta de compras que usa inteligência artificial (IA) para ajudar…

10 de outubro de 2024