Nos últimos meses, pesquisadores da Apple lançaram artigos, modelos e bibliotecas de programação que podem ter importantes implicações para a IA generativa em dispositivos. Uma análise mais detalhada desses lançamentos pode dar uma pista de onde a Apple está indo e onde ela se encaixará no crescente mercado de IA generativa.
PUBLICIDADE
A Apple não é uma hiperescaladora e não pode construir um modelo de negócio baseado na venda de acesso a grandes modelos de linguagem (LLMs) em nuvem. No entanto, ela possui a integração vertical mais forte da indústria de tecnologia, com controle total sobre toda sua pilha, desde o sistema operacional até as ferramentas de desenvolvimento e até os processadores em cada dispositivo Apple.
Isso coloca a Apple em uma posição única para otimizar modelos generativos para inferência em dispositivos. A empresa vem fazendo grandes progressos nesse campo, de acordo com alguns dos artigos de pesquisa que lançou nos últimos meses.
Em janeiro, a Apple lançou um artigo intitulado “LLM em um instante”, que descreve uma técnica para executar LLMs em dispositivos com restrições de memória, como smartphones e laptops. A técnica carrega uma parte do modelo na RAM dinâmica e mantém o restante na memória flash. Ele troca dinamicamente os pesos do modelo entre a memória flash e a RAM de uma forma que reduz consideravelmente o consumo de memória, minimizando a latência de inferência, especialmente quando executado no silício da Apple.
PUBLICIDADE
Antes de “LLM em um instante”, a Apple havia lançado outros artigos que mostravam como a arquitetura dos LLMs poderia ser ajustada para reduzir “a computação de inferência até três vezes… com poucos comprometimentos de desempenho”.
Técnicas de otimização de inferência em dispositivos podem se tornar cada vez mais importantes à medida que mais desenvolvedores exploram a construção de aplicativos com pequenos LLMs que podem caber em dispositivos de consumo. Experimentos mostram que centésimos de segundo podem ter um efeito considerável na experiência do usuário. E a Apple está garantindo que seus dispositivos possam fornecer o melhor equilíbrio entre velocidade e qualidade.
A Apple também lançou vários modelos generativos de código aberto nos últimos meses. O Ferret, lançado silenciosamente em outubro, é um LLM multimodal que vem em dois tamanhos: 7 bilhões e 13 bilhões de parâmetros.
PUBLICIDADE
O modelo é construído sobre o Vicuna, um LLM de código aberto, e o LLaVA, um modelo de linguagem visual (VLM). Enquanto modelos multimodais geralmente analisam uma imagem de entrada em sua totalidade, o Ferret tem um mecanismo especial que permite gerar suas respostas com base em uma área específica da imagem. O Ferret é especialmente bom em lidar com objetos pequenos e detalhes dentro das imagens. Ele pode potencialmente se tornar a base de um modelo que permite aos usuários interagir com objetos que veem através da câmera de seus iPhones ou dispositivos Vision Pro.
Mais recentemente, a Apple lançou o MLLM-Guided Image Editing (MGIE), um modelo que pode modificar imagens com base em comandos de linguagem natural. As capacidades do MGIE variam desde modificações em toda a imagem, como alterar o brilho e o contraste, até edições em regiões específicas, como “tornar o céu mais azul” ou trabalhar em objetos específicos na imagem. Esses recursos podem ser uma boa adição à próxima geração de dispositivos iOS.
A Apple não é conhecida por adotar a cultura de código aberto. A licença do Ferret afirma que ele só pode ser usado para fins de pesquisa. No entanto, o lançamento dos modelos pode ajudar a criar tração para futuros lançamentos da Apple e preparar a comunidade de desenvolvedores para construir aplicativos para os produtos da Apple. Uma vez que um modelo é lançado para o público, os desenvolvedores geralmente encontram maneiras de usá-lo de maneiras que seus criadores não haviam pensado e fornecem orientações importantes sobre como melhorá-lo ou integrá-lo a produtos existentes.
PUBLICIDADE
Todos os sinais indicam que a Apple está criando as bases para uma mudança de plataforma que a permitirá se tornar um grande jogador em IA generativa em dispositivos. A Apple possui equipes de pesquisa e engenharia fortes que podem trabalhar juntas para otimizar modelos para os processadores da Apple e criar a próxima geração de chips que são mais adequados para os modelos e ferramentas de desenvolvimento da Apple.
Portanto, embora a Apple possa não ter um concorrente direto do GPT-4 ou seu sucessor, ela tem tudo o que precisa para alimentar o próximo LLM que está sendo executado no seu telefone ou relógio.
Leia também: