A Apple está fazendo parceria com a Nvidia em um esforço para melhorar a velocidade de desempenho dos modelos de inteligência synthetic (IA). Na quarta-feira, a gigante da tecnologia com sede em Cupertino anunciou que está pesquisando a aceleração de inferência na plataforma Nvidia para ver se a eficiência e a latência de um modelo de linguagem grande (LLM) podem ser melhoradas simultaneamente. O fabricante do iPhone usou uma técnica chamada Recurrent Drafter (ReDrafter), que foi publicada em um artigo de pesquisa no início deste ano. Esta técnica foi combinada com a estrutura de aceleração de inferência Nvidia TensorRT-LLM.
Apple usa plataforma Nvidia para melhorar desempenho de IA
Em um postagem no blogOs pesquisadores da Apple detalharam a nova colaboração com a Nvidia para desempenho do LLM e os resultados alcançados com ela. A empresa destacou que vem pesquisando o problema de melhorar a eficiência da inferência e ao mesmo tempo manter a latência nos modelos de IA.
A inferência em aprendizado de máquina refere-se ao processo de fazer previsões, decisões ou conclusões com base em um determinado conjunto de dados ou entradas ao usar um modelo treinado. Simplificando, é a etapa de processamento de um modelo de IA onde ele decodifica os prompts e converte dados brutos em informações processadas e invisíveis.
No início deste ano, a Apple publicado e a técnica ReDrafter de código aberto, trazendo uma nova abordagem para a decodificação especulativa de dados. Usando um modelo preliminar de rede neural recorrente (RNN), ele combina pesquisa de feixe (um mecanismo onde a IA explora múltiplas possibilidades para uma solução) e atenção de árvore dinâmica (dados de estrutura de árvore são processados usando um mecanismo de atenção). Os pesquisadores afirmaram que isso pode acelerar a geração de tokens LLM em até 3,5 tokens por etapa de geração.
Embora a empresa tenha conseguido melhorar a eficiência do desempenho até certo ponto ao combinar dois processos, a Apple destacou que não houve aumento significativo na velocidade. Para resolver isso, os pesquisadores integraram o ReDrafter à estrutura de aceleração de inferência Nvidia TensorRT-LLM.
Como parte da colaboração, a Nvidia adicionou novos operadores e expôs os existentes para melhorar o processo de decodificação especulativa. A postagem afirmava que ao usar a plataforma Nvidia com ReDrafter, eles encontraram uma aceleração de 2,7x nos tokens gerados por segundo para decodificação gananciosa (uma estratégia de decodificação usada em tarefas de geração de sequência).
A Apple destacou que esta tecnologia pode ser usada para reduzir a latência do processamento de IA ao mesmo tempo que usa menos GPUs e consome menos energia.
Para obter as últimas notícias e análises de tecnologia, siga Devices 360 em X, Facebook, WhatsApp, Tópicos e Google Notícias. Para os vídeos mais recentes sobre devices e tecnologia, inscreva-se em nosso Canal do YouTube. Se você quiser saber tudo sobre os principais influenciadores, siga nosso web site interno Quem é esse 360 sobre Instagram e YouTube.
Samsung Galaxy Ring pode ser lançado em duas novas opções de tamanho