Waymo quer usar o Gemini do Google para treinar seus robotaxis

A Waymo há muito tempo destaca seus laços com o DeepMind do Google e suas décadas de pesquisa em inteligência artificial (IA) como uma vantagem estratégica sobre seus rivais no espaço da direção autônoma. Agora, a empresa controlada pela Alphabet está dando um passo adiante, desenvolvendo um novo modelo de treinamento para seus robotaxis baseado no modelo de linguagem grande multimodal (MLLM) Gemini do Google.

A Waymo lançou um novo artigo de pesquisa hoje que introduz um “Modelo Multimodal de Fim a Fim para Direção Autônoma”, também conhecido como EMMA. Esse novo modelo de treinamento de ponta a ponta processa dados de sensores para gerar “trajetórias futuras para veículos autônomos”, ajudando os veículos sem motorista da Waymo a tomar decisões sobre para onde ir e como evitar obstáculos.

Mas, mais importante, esta é uma das primeiras indicações de que o líder em direção autônoma tem planos de usar MLLMs em suas operações. E é um sinal de que esses LLMs podem se libertar de seu uso atual como chatbots, organizadores de e-mail e geradores de imagens e encontrar aplicação em um ambiente totalmente novo na estrada. Em seu artigo de pesquisa, a Waymo propõe “desenvolver um sistema de direção autônoma em que o MLLM é um cidadão de primeira classe”.

O artigo descreve como, historicamente, os sistemas de direção autônoma desenvolveram “módulos” específicos para as várias funções, incluindo percepção, mapeamento, previsão e planejamento. Essa abordagem se mostrou útil por muitos anos, mas tem problemas de escalabilidade “devido aos erros acumulados entre os módulos e à comunicação intermodular limitada”. Além disso, esses módulos podem ter dificuldade em responder a “ambientes novos” porque, por natureza, são “pré-definidos”, o que pode dificultar a adaptação.

A Waymo diz que MLLMs como o Gemini apresentam uma solução interessante para alguns desses desafios por dois motivos: o chat é um “generalista” treinado em vastos conjuntos de dados coletados da internet “que fornecem um ‘conhecimento mundial’ rico além do que está contido nos logs de direção comuns”; e demonstram capacidades de raciocínio “superiores” através de técnicas como “raciocínio em cadeia de pensamento”, que imita o raciocínio humano, dividindo tarefas complexas em uma série de etapas lógicas.

A Waymo desenvolveu o EMMA como uma ferramenta para ajudar seus robotaxis a navegar em ambientes complexos. A empresa identificou várias situações em que o modelo ajudou seus carros autônomos a encontrar o caminho certo, incluindo encontrar vários animais ou construções na estrada.

Outras empresas, como a Tesla, falaram extensivamente sobre o desenvolvimento de modelos de ponta a ponta para seus carros autônomos. Elon Musk afirma que a última versão de seu sistema Full Self-Driving (12.5.5) usa um sistema de IA de “redes neurais de ponta a ponta” que traduz imagens de câmera em decisões de direção.

Isso é uma clara indicação de que a Waymo, que tem uma vantagem sobre a Tesla no deployment de veículos autônomos reais nas estradas, também está interessada em perseguir um sistema de ponta a ponta. A empresa disse que seu modelo EMMA se destacou na previsão de trajetória, detecção de objetos e compreensão de gráficos de estradas.

“Isso sugere uma avenida promissora de pesquisa futura, onde ainda mais tarefas de direção autônoma essenciais poderiam ser combinadas em uma configuração semelhante e ampliada”, disse a empresa em um post no blog hoje.

Mas o EMMA também tem suas limitações, e a Waymo reconhece que será necessário mais pesquisa antes que o modelo seja colocado em prática. Por exemplo, o EMMA não pôde incorporar entradas de sensores 3D de lidar ou radar, o que a Waymo disse ser “computacionalmente caro”. E só poderia processar uma pequena quantidade de quadros de imagem de cada vez.

Também há riscos em usar MLLMs para treinar robotaxis que não são mencionados no artigo de pesquisa. Chatbots como o Gemini muitas vezes “alucinam” ou falham em tarefas simples, como ler relógios ou contar objetos. A Waymo tem muito pouca margem de erro quando seus veículos autônomos estão viajando a 40 mph em uma estrada movimentada. Mais pesquisas serão necessárias antes que esses modelos possam ser implantados em larga escala – e a Waymo está clara sobre isso.

“Esperamos que nossos resultados inspirem mais pesquisas para mitigar esses problemas”, escreve a equipe de pesquisa da empresa, “e para evoluir ainda mais o estado da arte nas arquiteturas de modelos de direção autônoma.”

Leia também:

GitHub e Microsoft abrem Copilot para modelos de IA rivais