Especialistas em robótica desenvolveram uma nova maneira de melhorar a forma como os robôs interagem com o ambiente.
Pesquisadores da UC Berkeley, da Universidade de Stanford e da Universidade de Varsóvia desenvolveram um método que permite que os robôs aprimorem seus processos de tomada de decisão, incorporando raciocínio.
O método, chamado Embodied Chain-of-Thought Reasoning (ECoT), permite que os robôs pensem nas tarefas passo a passo e considerem seu entorno antes de agir.
Conforme detalhado em um artigo recentemente publicado, o ECoT foi projetado para aumentar a capacidade dos robôs de lidar eficazmente com novas tarefas e ambientes. Ele também oferece aos operadores humanos uma maneira de corrigir comportamentos, modificando o raciocínio dos robôs por meio de feedback em linguagem natural.
Modelos de visão-linguagem-ação (VLAs) têm se mostrado uma maneira poderosa de treinar um robô para realizar uma ação. Eles são projetados para dar ao robô a capacidade de entender melhor a tarefa que lhe foi solicitada. Pesquisadores do Google DeepMind destacaram o potencial dos VLAs em um estudo publicado em junho de 2023.
No entanto, de acordo com os pesquisadores, os VLAs geralmente aprendem a partir da observação de ações sem qualquer raciocínio intermediário, o que significa que eles são limitados em sua capacidade de lidar com situações complexas e novas que requerem planejamento e adaptação mais cuidadosos.
Os pesquisadores buscaram melhorar o raciocínio robótico adicionando um modelo fundamental à equação. Eles desenvolveram uma linha de produção escalável para gerar dados de treinamento sintéticos para o ECoT, aproveitando vários modelos fundamentais para extrair características de demonstrações de robôs no conjunto de dados Bridge V2.
Eles usaram uma suíte de modelos fundamentais em seu projeto, utilizando detectores de objetos e modelos de visão-linguagem para criar descrições do ambiente em que o robô estava, anotando informações como objetos.
Eles então usaram o modelo Gemini do Google para gerar planos, subtarefas e rótulos de movimento, combinando os dados previamente coletados sobre os objetos na cena, bem como detalhes sobre a posição do gripper do robô.
Dividir o processo em submódulos permitiu uma abordagem escalonada e mais metódica, permitindo que o robô realizasse sua tarefa após pensar cuidadosamente.
Os pesquisadores também descobriram que o raciocínio ECoT pode ser transferido para outras configurações de robôs, permitindo que a política generalize suas capacidades de raciocínio mesmo para robôs não vistos durante o treinamento.
Os cientistas demonstraram que o ECoT aumentou a taxa de sucesso absoluta do OpenVLA, um VLA de código aberto, em 28% em tarefas de generalização desafiadoras, sem exigir dados adicionais de treinamento de robôs. O método, no entanto, não está isento de falhas.
Todos os passos de raciocínio são realizados na ordem fixa escolhida pelos pesquisadores, o que pode limitar a adaptabilidade e flexibilidade do robô em ambientes dinamicamente mutáveis.
Os pesquisadores observaram que o projeto em pequena escala poderia ser melhorado usando um conjunto de dados maior, o que permitiria que o ECoT fosse aplicado a mais robôs.
Além disso, os cientistas consideraram a velocidade de execução limitada e querem explorar maneiras de otimizar as frequências de controle para permitir operações mais rápidas.
Modelos fundamentais estão se tornando uma área de interesse crescente para pesquisadores de robótica, potencialmente permitindo que os robôs realizem tarefas de propósito geral.
Uma startup chamada Skild AI está buscando transformar essa área de pesquisa em uma maneira de reduzir o custo do treinamento de robôs. A Skild recentemente arrecadou US$ 300 milhões para financiar seus esforços, com seu modelo fundamental já sendo aplicado a soluções de automação para inspeção visual e tarefas de patrulhamento.
Leia também:
Este post foi modificado pela última vez em %s = human-readable time difference 16:00
O Google DeepMind acaba de anunciar uma parceria estratégica com a Apptronik, uma empresa de…
Uma equipe de pesquisadores de 20 laboratórios diferentes acaba de apresentar o Genesis, um motor…
O Google acabou de lançar o que está chamando de um novo modelo de inteligência…
A GitHub, de propriedade da Microsoft, acaba de anunciar um nível gratuito de seu Copilot…
A OpenAI acaba de lançar uma nova maneira surpreendente de acessar o ChatGPT - através…
O Google DeepMind acaba de lançar o FACTS Grounding, um novo benchmark projetado para avaliar…