Inteligência Artificial

Nova técnica de IA permite que robôs “pensem” antes de realizar tarefas complexas

Publicado por
Vinicius Siqueira

Especialistas em robótica desenvolveram uma nova maneira de melhorar a forma como os robôs interagem com o ambiente.

Pesquisadores da UC Berkeley, da Universidade de Stanford e da Universidade de Varsóvia desenvolveram um método que permite que os robôs aprimorem seus processos de tomada de decisão, incorporando raciocínio.

O método, chamado Embodied Chain-of-Thought Reasoning (ECoT), permite que os robôs pensem nas tarefas passo a passo e considerem seu entorno antes de agir.

Conforme detalhado em um artigo recentemente publicado, o ECoT foi projetado para aumentar a capacidade dos robôs de lidar eficazmente com novas tarefas e ambientes. Ele também oferece aos operadores humanos uma maneira de corrigir comportamentos, modificando o raciocínio dos robôs por meio de feedback em linguagem natural.

Modelos de visão-linguagem-ação (VLAs) têm se mostrado uma maneira poderosa de treinar um robô para realizar uma ação. Eles são projetados para dar ao robô a capacidade de entender melhor a tarefa que lhe foi solicitada. Pesquisadores do Google DeepMind destacaram o potencial dos VLAs em um estudo publicado em junho de 2023.

No entanto, de acordo com os pesquisadores, os VLAs geralmente aprendem a partir da observação de ações sem qualquer raciocínio intermediário, o que significa que eles são limitados em sua capacidade de lidar com situações complexas e novas que requerem planejamento e adaptação mais cuidadosos.

Os pesquisadores buscaram melhorar o raciocínio robótico adicionando um modelo fundamental à equação. Eles desenvolveram uma linha de produção escalável para gerar dados de treinamento sintéticos para o ECoT, aproveitando vários modelos fundamentais para extrair características de demonstrações de robôs no conjunto de dados Bridge V2.

Eles usaram uma suíte de modelos fundamentais em seu projeto, utilizando detectores de objetos e modelos de visão-linguagem para criar descrições do ambiente em que o robô estava, anotando informações como objetos.

Eles então usaram o modelo Gemini do Google para gerar planos, subtarefas e rótulos de movimento, combinando os dados previamente coletados sobre os objetos na cena, bem como detalhes sobre a posição do gripper do robô.

Dividir o processo em submódulos permitiu uma abordagem escalonada e mais metódica, permitindo que o robô realizasse sua tarefa após pensar cuidadosamente.

Os pesquisadores também descobriram que o raciocínio ECoT pode ser transferido para outras configurações de robôs, permitindo que a política generalize suas capacidades de raciocínio mesmo para robôs não vistos durante o treinamento.

Os cientistas demonstraram que o ECoT aumentou a taxa de sucesso absoluta do OpenVLA, um VLA de código aberto, em 28% em tarefas de generalização desafiadoras, sem exigir dados adicionais de treinamento de robôs. O método, no entanto, não está isento de falhas.

Todos os passos de raciocínio são realizados na ordem fixa escolhida pelos pesquisadores, o que pode limitar a adaptabilidade e flexibilidade do robô em ambientes dinamicamente mutáveis.

Os pesquisadores observaram que o projeto em pequena escala poderia ser melhorado usando um conjunto de dados maior, o que permitiria que o ECoT fosse aplicado a mais robôs.

Além disso, os cientistas consideraram a velocidade de execução limitada e querem explorar maneiras de otimizar as frequências de controle para permitir operações mais rápidas.

Modelos fundamentais estão se tornando uma área de interesse crescente para pesquisadores de robótica, potencialmente permitindo que os robôs realizem tarefas de propósito geral.

Uma startup chamada Skild AI está buscando transformar essa área de pesquisa em uma maneira de reduzir o custo do treinamento de robôs. A Skild recentemente arrecadou US$ 300 milhões para financiar seus esforços, com seu modelo fundamental já sendo aplicado a soluções de automação para inspeção visual e tarefas de patrulhamento.

Leia também:

Este post foi modificado pela última vez em 29 de julho de 2024 16:00

Vinicius Siqueira

Posts recentes

Lionsgate fecha acordo com empresa de IA para explorar seu vasto catálogo de filmes e séries de TV

A startup de inteligência artificial (IA) Runway fez um nome para si mesma construindo modelos…

18 de setembro de 2024

Golpes com deepfake: sua voz pode ser clonada e usada contra você

Golpistas estão usando a inteligência artificial (IA) para transformar seus vídeos de redes sociais em…

18 de setembro de 2024

Novo modelo da 1X ajuda robôs a agir no mundo; veja como

A 1X desenvolveu seu ‘World Model’, um simulador virtual alimentado por inteligência artificial (IA) para…

18 de setembro de 2024

Novos óculos AR da Snap são alimentados por IA

A Snap acaba de apresentar seus Spectacles de quinta geração, óculos AR autônomos alimentados pelo…

18 de setembro de 2024

Médicos britânicos adotam IA para aumentar a eficiência, revela estudo

Um em cada cinco médicos de família (GPs) no Reino Unido está usando ferramentas de…

18 de setembro de 2024

EUA convocará Cúpula Global de Segurança de IA em novembro

O governo Biden anunciou na quarta-feira (18) que realizará uma Cúpula Global de Segurança sobre…

18 de setembro de 2024