Hugging Face compartilhou um novo estudo de caso na semana passada mostrando como modelos de linguagem pequena (SLMs) podem superar modelos maiores. Na postagem, os pesquisadores da plataforma afirmaram que, em vez de aumentar o tempo de treinamento dos modelos de inteligência synthetic (IA), focar na computação do tempo de teste pode mostrar resultados aprimorados para os modelos de IA. Esta última é uma estratégia de inferência que permite que os modelos de IA gastem mais tempo na resolução de um problema e oferece diferentes abordagens, como auto-refinamento e busca em um verificador que possa melhorar sua eficiência.
Como funciona o escalonamento de computação em tempo de teste
Em um publicarHugging Face destacou que a abordagem tradicional para melhorar as capacidades de um modelo de IA pode muitas vezes consumir muitos recursos e ser extremamente cara. Normalmente, uma técnica chamada computação em tempo de trem é usada onde os dados e algoritmos de pré-treinamento são usados para melhorar a maneira como um modelo básico divide uma consulta e chega à solução.
Alternativamente, os pesquisadores alegaram que focar no escalonamento computacional em tempo de teste, uma técnica em que os modelos de IA podem gastar mais tempo resolvendo um problema e permitindo que eles se corrijam, pode mostrar resultados semelhantes.
Destacando o exemplo do modelo focado no raciocínio o1 da OpenAI, que usa computação em tempo de teste, os pesquisadores afirmaram que esta técnica pode permitir que os modelos de IA exibam capacidades aprimoradas, apesar de não fazer alterações nos dados de treinamento ou nos métodos de pré-treinamento. No entanto, houve um problema. Como a maioria dos modelos de raciocínio são fechados, não há como saber as estratégias que estão sendo utilizadas.
Os pesquisadores usaram um estudo do Google DeepMind e técnicas de engenharia reversa para desvendar como exatamente os desenvolvedores de LLM podem dimensionar a computação em tempo de teste na fase pós-treinamento. De acordo com o estudo de caso, apenas aumentar o tempo de processamento não mostra uma melhoria significativa nos resultados de consultas complexas.
Em vez disso, os pesquisadores recomendam o uso de um algoritmo de auto-aperfeiçoamento que permite que os modelos de IA avaliem as respostas em iterações subsequentes e identifiquem e corrijam possíveis erros. Além disso, usar um verificador que os modelos possam pesquisar pode melhorar ainda mais as respostas. Esses verificadores podem ser um modelo de recompensa aprendido ou heurísticas codificadas.
Técnicas mais avançadas envolveriam uma abordagem melhor de N, onde um modelo gera múltiplas respostas por problema e atribui uma pontuação para julgar qual seria a mais adequada. Essas abordagens podem ser combinadas com um modelo de recompensa. A busca por feixe, que prioriza o raciocínio passo a passo e a atribuição de pontuações para cada etapa, é outra estratégia destacada pelos pesquisadores.
Usando as estratégias mencionadas acima, os pesquisadores do Hugging Face conseguiram usar o Llama 3B SLM e fazê-lo superar o Llama 70B, um modelo muito maior, no benchmark MATH-500.