A Sakana AI utilizou uma abordagem de “fusão de modelos”, combinada com um algoritmo evolutivo, para desenvolver seus novos modelos. Esse processo envolveu a geração de centenas de modelos, onde os mais eficazes serviram como base para as próximas iterações.
PUBLICIDADE
A empresa está disponibilizando o código-fonte de dois dos modelos desenvolvidos. Notavelmente, o modelo de parâmetro 7B LLM-JP demonstrou superar os modelos de parâmetro 70B em vários benchmarks.
Os três lançamentos de modelo incluem:
- EvoLLM-JP: Um modelo de idioma com forte fluência em japonês e capacidades matemáticas
- EvoSDXL-JP: Um modelo de difusão para geração de imagens em alta velocidade
- EvoVLM-JP: Um modelo de linguagem de visão para textos e imagens em japonês
O forte desempenho de Sakana pode sugerir um novo caminho alternativo de treinamento para modelos de inteligência artificial.
Se for escalável, também poderá democratizar significativamente o desenvolvimento da tecnologia – permitindo que modelos de alta qualidade e específicos para tarefas evoluam rapidamente, misturando e combinando o universo em expansão da IA de código aberto.
PUBLICIDADE
Leia também: