A equipe Qwen da Alibaba lançou o QwQ-32B, um novo modelo de raciocínio de inteligência artificial (IA) que utiliza aprendizado por reforço para igualar ou superar o desempenho de concorrentes maiores, como o DeepSeek-R1, a uma fração do custo.
PUBLICIDADE
Detalhes do QwQ-32B
- O QwQ-32B utiliza aprendizado por reforço em larga escala, impulsionando significativamente o desempenho em tarefas avançadas de matemática, codificação e raciocínio.
- O modelo é aproximadamente 20 vezes menor que o DeepSeek-R1, mas oferece desempenho comparável ou superior em benchmarks chave.
- O preço é de apenas US$ 0,20 por milhão de tokens de entrada e saída, uma redução de aproximadamente 90% em comparação com modelos de desempenho semelhante, como R1 e o1-mini.
- A Qwen disponibilizou o modelo em código aberto sob a licença Apache 2.0, com disponibilidade no Hugging Face e na plataforma ModelScope da Alibaba Cloud.
Por que isso é importante
- Os modelos de código aberto da China continuam a acelerar, com este último lançamento da Qwen demonstrando ganhos de desempenho significativos, apesar do tamanho reduzido (a inteligência quase de ponta em dispositivos está aqui) e do custo.
- Abordagens de treinamento inteligentes ainda estão provando seu valor sobre o tamanho bruto do modelo, enquanto os laboratórios continuam a se aproximar da AGI (Inteligência Artificial Geral).
Leia também: