Apenas dois meses após o lançamento de seu último grande modelo de inteligência artificial (IA), a Meta está de volta com uma atualização importante: seu primeiro modelo de código aberto capaz de processar imagens e texto.
O novo modelo, Llama 3.2, pode permitir que desenvolvedores criem aplicativos de IA mais avançados, como aplicativos de realidade aumentada que fornecem compreensão em tempo real de vídeo, mecanismos de busca visual que classificam imagens com base no conteúdo ou análise de documentos que resumem grandes trechos de texto para você.
A Meta diz que será fácil para os desenvolvedores colocar o novo modelo em funcionamento. Os desenvolvedores terão que fazer pouco além de adicionar essa “nova multimodalidade e serem capazes de mostrar imagens ao Llama e fazer com que ele se comunique”, disse Ahmad Al-Dahle, vice-presidente de IA generativa da Meta, ao The Verge.
Outros desenvolvedores de IA, incluindo OpenAI e Google, já lançaram modelos multimodais no ano passado, então a Meta está correndo atrás. A adição de suporte de visão também desempenhará um papel fundamental à medida que a Meta continua a desenvolver capacidades de IA em hardware como seus óculos Ray-Ban Meta.
O Llama 3.2 inclui dois modelos de visão (com 11 bilhões de parâmetros e 90 bilhões de parâmetros) e dois modelos de texto somente leves (com 1 bilhão de parâmetros e 3 bilhões de parâmetros). Os modelos menores são projetados para funcionar em Qualcomm, MediaTek e outro hardware Arm, com a Meta claramente esperando vê-los sendo usados em dispositivos móveis.
Ainda há um lugar para o (ligeiramente) mais antigo Llama 3.1: esse modelo, lançado em julho, incluía uma versão com 405 bilhões de parâmetros, que teoricamente será mais capaz quando se trata de gerar texto.
Leia também:
Este post foi modificado pela última vez em %s = human-readable time difference 14:45
O Google DeepMind acaba de anunciar uma parceria estratégica com a Apptronik, uma empresa de…
Uma equipe de pesquisadores de 20 laboratórios diferentes acaba de apresentar o Genesis, um motor…
O Google acabou de lançar o que está chamando de um novo modelo de inteligência…
A GitHub, de propriedade da Microsoft, acaba de anunciar um nível gratuito de seu Copilot…
A OpenAI acaba de lançar uma nova maneira surpreendente de acessar o ChatGPT - através…
O Google DeepMind acaba de lançar o FACTS Grounding, um novo benchmark projetado para avaliar…