Apple amplia capacidade de processamento em dispositivos

Aproveitando o poder dos grandes modelos de linguagem e processamento de linguagem natural, a Apple tem testemunhado um progresso tremendo na comunicação entre os usuários e a tecnologia incorporada em suas vidas diárias.

A questão da memória se mostrou um obstáculo significativo no desenvolvimento da inteligência artificial (IA) para dispositivos portáteis. Mas os pesquisadores da Apple indicam que estão prontos para enfrentar esse desafio.

O desafio reside na capacidade de memória. Grandes modelos de linguagem exigem considerável espaço de armazenamento. Com modelos que requerem o armazenamento de potencialmente centenas de bilhões de parâmetros, smartphones amplamente utilizados, como o iPhone 15 da Apple -que possui modestos 8GB de memória – estão aquém para tal tarefa.

Apple revela ‘Ferret’: seu primeiro modelo de IA multimodal de código aberto

Abrindo novos caminhos na indústria da inteligência artificial (IA), a Apple lançou o ‘Ferret’, seu primeiro modelo de linguagem grande (LLM) multimodal de código aberto, em um esforço colaborativo com a Universidade de Columbia.

Em um artigo publicado no servidor de pré-impressão arXiv em 12 de dezembro, a Apple revelou ter desenvolvido um método que se utiliza de transferências de dados entre a memória flash e a DRAM para permitir que um dispositivo inteligente execute um sistema de IA poderoso.

Os pesquisadores destacam que o processo pode executar programas de IA com o dobro do tamanho da capacidade da DRAM de um dispositivo e acelerar as operações da CPU em até 500%. Além disso, eles afirmam que os processos da GPU podem ser acelerados até 25 vezes mais em comparação com as abordagens atuais.

“Estruturamos nosso método em torno da construção de um modelo de custo de inferência que se alinha ao comportamento da memória flash, nos orientando a otimizar em duas áreas críticas: reduzir o volume de dados transferidos da flash e realizar a leitura de dados em blocos maiores e mais contínuos”, afirmaram os pesquisadores em seu artigo intitulado “LLM in a flash: Inferência Eficiente de Modelos de Linguagem de Grande Escala com Memória Limitada”.

As duas técnicas utilizadas foram:

Janelamento: Reduz a quantidade de dados que precisam ser trocados entre a memória flash e a RAM, minimizando solicitações de I/O e economizando energia e tempo ao reutilizar resultados de cálculos recentes.
Agrupamento de linha-coluna: Alcança maior eficiência ao processar blocos maiores de dados da memória flash por vez.

Os pesquisadores afirmam que “essas duas abordagens contribuem de forma significativa para a redução da carga de dados e para uma utilização mais eficiente da memória”.

Além disso, eles acrescentam: “Essa inovação é particularmente crucial para a implementação de LLMs avançados em ambientes com recursos limitados, ampliando, assim, sua aplicabilidade e acessibilidade”.

Em outra inovação recente, a Apple introduziu um programa chamado HUGS, capaz de criar avatares animados a partir de alguns segundos de vídeo capturados por uma única lente. Ao contrário dos programas atuais de criação de avatares, que exigem múltiplas visualizações de câmera, o HUGS pode criar avatares realistas em apenas 30 minutos, um tempo significativamente mais curto em comparação com as abordagens atuais populares. Este relatório, intitulado “HUGS: Human Gaussian Splats”, foi publicado no arXiv em 29 de novembro.

Leia também:

Presidente da Suprema Corte dos EUA pede “cautela” enquanto a IA remodela o campo jurídico