O Google revelou o Gemma – sua família de Modelos de Linguagem Grande (LLMs) leves para desenvolvedores de código aberto – em fevereiro. Pesquisadores do Google DeepMind o desenvolveram com o intuito de auxiliar desenvolvedores e pesquisadores na construção responsável de inteligência artificial (IA).
🇬🇧 Subscribe to the best newsletter about AI (in English 🇬🇧) 🇧🇷 Assine a melhor newsletter sobre IA (em português 🇧🇷)
Agora, anunciaram duas novas adições ao Gemma – CodeGemma e RecurrentGemma. Com essa iniciativa, o Google DeepMind pretende manter o ritmo na corrida pela IA, enfrentando a concorrência de gigantes como OpenAI e Microsoft.
Embora a empresa tenha se encontrado em águas turbulentas devido a algumas capacidades de IA de seu modelo de IA mais popular, Gemini, parece que a controvérsia não desacelerou os pesquisadores. Esses novos modelos de IA prometem possibilidades de inovação para desenvolvedores de Aprendizado de Máquina (ML).
Saiba mais sobre os dois novos modelos de IA da Gemma – CodeGemma e Recurrent Gemma
O primeiro dos dois novos modelos de IA é o CodeGemma, um modelo leve com capacidades de codificação e seguimento de instruções. Está disponível em três variantes:
1. Variante pré-treinada de 7B para tarefas de conclusão e geração de código.
2. Variante ajustada para instruções de 7B para seguimento de instruções e bate-papo de código.
3. Variante pré-treinada de 2B para conclusão rápida de código em PCs locais.
O Google afirma que o CodeGemma não apenas pode gerar linhas e funções, mas também criar blocos de código, independentemente de estar sendo usado localmente em PCs ou via recursos na nuvem. Ele possui proficiência em vários idiomas, o que significa que você pode usá-lo como assistente ao codificar em linguagens como Python, JavaScript e Java. O código gerado pelo CodeGemma não só é anunciado como sendo sintaticamente preciso, mas também semanticamente correto. Isso promete reduzir erros e tempo de depuração.
Este novo modelo de IA é treinado em 500 bilhões de tokens de dados, principalmente em inglês, incluindo código de repositórios publicamente disponíveis, matemática e documentos na web.
O outro modelo de IA, chamado RecurrentGemma, tem como objetivo melhorar a eficiência de memória aproveitando redes neurais recorrentes e atenção local. Assim, destina-se à experimentação de pesquisa. Embora entregue desempenho de benchmark similar ao modelo de IA Gemma 2B do DeepMind, o RecurrentGemma tem uma arquitetura única que permite fornecer em três frentes – uso reduzido de memória, maior throughput e inovação em pesquisa.
Segundo o Google, o RecurrentGemma pode gerar amostras mais longas mesmo em dispositivos com memória limitada devido aos requisitos de memória mais baixos. Isso também permite que o modelo de IA execute inferência em lotes grandes, aumentando os tokens por segundo. O Google também afirma que modelos baseados em Transformadores, como Gemma, podem diminuir à medida que as sequências ficam mais longas. Por outro lado, o RecurrentGemma mantém sua velocidade de amostragem independentemente do comprimento da sequência.
Leia também:
Este post foi modificado pela última vez em 12 de abril de 2024 09:59
Pesquisadores da Microsoft acabaram de apresentar o Magnetic-One, um sistema de orquestração de inteligência artificial…
A Nvidia acaba de anunciar um conjunto abrangente de novas ferramentas de inteligência artificial (IA)…
A OpenAI adquiriu o nome de domínio chat.com (que agora redireciona para o ChatGPT) do…
Com a vitória de Donald Trump na presidência e o controle do Senado pelos republicanos,…
A Tencent acaba de lançar o Hunyuan-Large, um novo modelo de linguagem de código aberto…
A Apple está supostamente dando seus primeiros passos sérios em direção ao desenvolvimento de óculos…