A equipe Qwen da Alibaba lançou o Qwen2.5-VL, uma nova família de modelos de linguagem de grande porte (LLMs) que combinam visão computacional e linguagem natural. Esses modelos são capazes de interagir com computadores e smartphones, além de possuírem capacidades avançadas de análise de documentos e vídeos.
PUBLICIDADE
Detalhes do Qwen2.5-VL
- O modelo principal, com 72 bilhões de parâmetros, supera modelos como GPT-4o e Claude 3.5 Sonnet em benchmarks importantes de análise de documentos e compreensão de vídeos.
- O sistema pode analisar vídeos de até uma hora de duração, extrair momentos específicos e processar documentos complexos, como faturas e formulários.
- Uma nova funcionalidade permite que a IA controle aplicativos em smartphones e computadores. Foram demonstradas capacidades como reserva de passagens aéreas, edição de imagens e instalação de código.
- As versões menores, com 3 bilhões e 7 bilhões de parâmetros, estão disponíveis gratuitamente. Já o modelo de 72 bilhões de parâmetros requer permissão para uso comercial em larga escala.
Por que isso importa
O Qwen2.5-VL é um novo “operador” no cenário da inteligência artificial (IA), chegando logo após o lançamento do modelo Operator da OpenAI. Com o lançamento do Qwen e os recentes avanços da DeepSeek, a distância entre modelos de código aberto e modelos fechados, assim como entre desenvolvimentos na China e nos Estados Unidos, parece estar diminuindo cada vez mais.
Leia também: