Nova técnica de IA permite que robôs “pensem” antes de realizar tarefas complexas

Publicado por

Vinicius Siqueira

29 de julho de 2024 15:59

Créditos de Imagem: Curto News/Bing Image Creator

Especialistas em robótica desenvolveram uma nova maneira de melhorar a forma como os robôs interagem com o ambiente.

Pesquisadores da UC Berkeley, da Universidade de Stanford e da Universidade de Varsóvia desenvolveram um método que permite que os robôs aprimorem seus processos de tomada de decisão, incorporando raciocínio.

O método, chamado Embodied Chain-of-Thought Reasoning (ECoT), permite que os robôs pensem nas tarefas passo a passo e considerem seu entorno antes de agir.

Conforme detalhado em um artigo recentemente publicado, o ECoT foi projetado para aumentar a capacidade dos robôs de lidar eficazmente com novas tarefas e ambientes. Ele também oferece aos operadores humanos uma maneira de corrigir comportamentos, modificando o raciocínio dos robôs por meio de feedback em linguagem natural.

Modelos de visão-linguagem-ação (VLAs) têm se mostrado uma maneira poderosa de treinar um robô para realizar uma ação. Eles são projetados para dar ao robô a capacidade de entender melhor a tarefa que lhe foi solicitada. Pesquisadores do Google DeepMind destacaram o potencial dos VLAs em um estudo publicado em junho de 2023.

No entanto, de acordo com os pesquisadores, os VLAs geralmente aprendem a partir da observação de ações sem qualquer raciocínio intermediário, o que significa que eles são limitados em sua capacidade de lidar com situações complexas e novas que requerem planejamento e adaptação mais cuidadosos.

Os pesquisadores buscaram melhorar o raciocínio robótico adicionando um modelo fundamental à equação. Eles desenvolveram uma linha de produção escalável para gerar dados de treinamento sintéticos para o ECoT, aproveitando vários modelos fundamentais para extrair características de demonstrações de robôs no conjunto de dados Bridge V2.

Eles usaram uma suíte de modelos fundamentais em seu projeto, utilizando detectores de objetos e modelos de visão-linguagem para criar descrições do ambiente em que o robô estava, anotando informações como objetos.

Eles então usaram o modelo Gemini do Google para gerar planos, subtarefas e rótulos de movimento, combinando os dados previamente coletados sobre os objetos na cena, bem como detalhes sobre a posição do gripper do robô.

Dividir o processo em submódulos permitiu uma abordagem escalonada e mais metódica, permitindo que o robô realizasse sua tarefa após pensar cuidadosamente.

Os pesquisadores também descobriram que o raciocínio ECoT pode ser transferido para outras configurações de robôs, permitindo que a política generalize suas capacidades de raciocínio mesmo para robôs não vistos durante o treinamento.

Os cientistas demonstraram que o ECoT aumentou a taxa de sucesso absoluta do OpenVLA, um VLA de código aberto, em 28% em tarefas de generalização desafiadoras, sem exigir dados adicionais de treinamento de robôs. O método, no entanto, não está isento de falhas.

Todos os passos de raciocínio são realizados na ordem fixa escolhida pelos pesquisadores, o que pode limitar a adaptabilidade e flexibilidade do robô em ambientes dinamicamente mutáveis.

Os pesquisadores observaram que o projeto em pequena escala poderia ser melhorado usando um conjunto de dados maior, o que permitiria que o ECoT fosse aplicado a mais robôs.

Além disso, os cientistas consideraram a velocidade de execução limitada e querem explorar maneiras de otimizar as frequências de controle para permitir operações mais rápidas.

Modelos fundamentais estão se tornando uma área de interesse crescente para pesquisadores de robótica, potencialmente permitindo que os robôs realizem tarefas de propósito geral.

Uma startup chamada Skild AI está buscando transformar essa área de pesquisa em uma maneira de reduzir o custo do treinamento de robôs. A Skild recentemente arrecadou US$ 300 milhões para financiar seus esforços, com seu modelo fundamental já sendo aplicado a soluções de automação para inspeção visual e tarefas de patrulhamento.

Leia também:

Turbulência no mercado acionário dos EUA coloca lupa nas avaliações das Big Techs

Este post foi modificado pela última vez em %s = human-readable time difference 16:00

Vinicius Siqueira

Próximo Apple dá o pontapé inicial na 'Apple Intelligence' com o iOS 18.1 beta »

Anterior « Microsoft sob pressão: Altos custos com IA e retorno incerto

Publicado por

Vinicius Siqueira

Tags: ECoTinteligência artificialrobôsrobótica

29 de julho de 2024 15:59

Posts recentes

Inteligência Artificial

Google se associa à Apptronik para desenvolver robôs humanoides

O Google DeepMind acaba de anunciar uma parceria estratégica com a Apptronik, uma empresa de…

20 de dezembro de 2024

Inteligência Artificial

Genesis: Um novo patamar para simulações físicas em IA

Uma equipe de pesquisadores de 20 laboratórios diferentes acaba de apresentar o Genesis, um motor…

20 de dezembro de 2024

Inteligência Artificial

Google lança seu próprio modelo de IA de “raciocínio”

O Google acabou de lançar o que está chamando de um novo modelo de inteligência…

19 de dezembro de 2024

Inteligência Artificial

GitHub Copilot agora é gratuito

A GitHub, de propriedade da Microsoft, acaba de anunciar um nível gratuito de seu Copilot…

19 de dezembro de 2024

Inteligência Artificial

ChatGPT ganha um novo número de telefone; veja

A OpenAI acaba de lançar uma nova maneira surpreendente de acessar o ChatGPT - através…

19 de dezembro de 2024

Inteligência Artificial

Google lança novo benchmark para testar a factualidade de LLMs

O Google DeepMind acaba de lançar o FACTS Grounding, um novo benchmark projetado para avaliar…

18 de dezembro de 2024

Nova técnica de IA permite que robôs “pensem” antes de realizar tarefas complexas

Posts relacionados

Posts recentes

Google se associa à Apptronik para desenvolver robôs humanoides

Genesis: Um novo patamar para simulações físicas em IA

Google lança seu próprio modelo de IA de “raciocínio”

GitHub Copilot agora é gratuito

ChatGPT ganha um novo número de telefone; veja

Google lança novo benchmark para testar a factualidade de LLMs