Chameleon: o novo LLM multimodal da Meta
O laboratório de pesquisa em IA da Meta acaba de apresentar o Chameleon, uma nova família de modelos de inteligência artificial (IA) baseados em tokens com “fusão antecipada”. O Chameleon consegue entender e gerar texto e imagens em qualquer sequência.
Diferente de outros modelos que processam imagens e textos separadamente, combinando-os depois, o Chameleon trabalha com sequências vinculadas de ambos. O Chameleon superou todos os modelos concorrentes em legendagem de imagens e perguntas visuais, e ainda assim manteve um desempenho equivalente em tarefas somente com texto. O Chameleon, com seus 34 bilhões de parâmetros, também igualou ou superou modelos top como o Gemini Pro e o GPT-4V em testes de geração multimodal de longa duração.
O Chameleon demonstra o potencial de uma arquitetura diferente para modelos de IA multimodais. Sua abordagem de fusão antecipada permite um raciocínio e geração mais fluidos entre diferentes modalidades, estabelecendo novos patamares de performance.
Leia também:
Este post foi modificado pela última vez em 23 de maio de 2024 13:43
A Bloomberg News informou nesta segunda-feira (24), citando fontes familiarizadas com o assunto, que a…
A inteligência artificial (IA) tem revolucionado diversos setores - desde a saúde até o entretenimento…
Immersity AI é uma plataforma avançada que transforma imagens e vídeos 2D em experiências 3D…
A Fórmula 1 estreou no Grande Prêmio da Espanha um novo recurso de inteligência artificial…
Empresas de tecnologia globais e startups locais estão desenvolvendo assistentes virtuais e chatbots com inteligência…
Segundo o Wall Street Journal, Meta e Apple estão negociando uma parceria para integrar o…