Qwen lança modelos de IA que controlam dispositivos

Qwen lança modelos de IA que controlam dispositivos

A equipe Qwen da Alibaba lançou o Qwen2.5-VL, uma nova família de modelos de linguagem de grande porte (LLMs) que combinam visão computacional e linguagem natural. Esses modelos são capazes de interagir com computadores e smartphones, além de possuírem capacidades avançadas de análise de documentos e vídeos.

PUBLICIDADE

Detalhes do Qwen2.5-VL
  • O modelo principal, com 72 bilhões de parâmetros, supera modelos como GPT-4o e Claude 3.5 Sonnet em benchmarks importantes de análise de documentos e compreensão de vídeos.
  • O sistema pode analisar vídeos de até uma hora de duração, extrair momentos específicos e processar documentos complexos, como faturas e formulários.
  • Uma nova funcionalidade permite que a IA controle aplicativos em smartphones e computadores. Foram demonstradas capacidades como reserva de passagens aéreas, edição de imagens e instalação de código.
  • As versões menores, com 3 bilhões e 7 bilhões de parâmetros, estão disponíveis gratuitamente. Já o modelo de 72 bilhões de parâmetros requer permissão para uso comercial em larga escala.
Por que isso importa

O Qwen2.5-VL é um novo “operador” no cenário da inteligência artificial (IA), chegando logo após o lançamento do modelo Operator da OpenAI. Com o lançamento do Qwen e os recentes avanços da DeepSeek, a distância entre modelos de código aberto e modelos fechados, assim como entre desenvolvimentos na China e nos Estados Unidos, parece estar diminuindo cada vez mais.

Leia também:

Rolar para cima