SmolVLM2: O menor modelo de linguagem de vídeo do mundo

Pesquisadores da Hugging Face acabaram de lançar o SmolVLM2, a menor família de modelos de inteligência artificial (IA) do mundo capaz de entender e analisar vídeos em dispositivos do dia a dia, como celulares e laptops, sem a necessidade de servidores potentes ou conexões de nuvem.

PUBLICIDADE

Detalhes do SmolVLM2
  • A família SmolVLM2 inclui versões com apenas 256 milhões de parâmetros, mantendo as capacidades de sistemas muito maiores.
  • A equipe também desenvolveu aplicativos práticos, incluindo um aplicativo para iPhone para análise de vídeo local e uma integração para navegação de vídeo em linguagem natural.
  • O modelo principal da família, com 2,2 bilhões de parâmetros, supera outros modelos de tamanho semelhante em benchmarks importantes, tudo isso rodando em hardware básico.
  • Os modelos estão disponíveis em múltiplos formatos, incluindo MLX para dispositivos Apple, com APIs Python e Swift prontas para implementação imediata.
Por que isso é importante

A qualidade dos modelos capazes de rodar em celulares e laptops está melhorando cada vez mais — e ter um entendimento sofisticado de vídeo funcionando localmente, sem enviar dados para a nuvem, pode possibilitar uma nova onda de aplicativos de vídeo que preservam a privacidade.

Leia também:

Rolar para cima