A equipe de pesquisa Qwen do Alibaba lançou outro modelo de inteligência synthetic (IA) de código aberto em versão prévia. Chamado de QVQ-72B, é um modelo de raciocínio baseado em visão que pode analisar informações visuais de imagens e compreender o contexto por trás delas. A gigante da tecnologia também compartilhou pontuações de benchmark do modelo de IA e destacou que em um teste específico foi capaz de superar o modelo o1 da OpenAI. Notavelmente, o Alibaba lançou recentemente vários modelos de IA de código aberto, incluindo os modelos de linguagem grande (LLMs) focados no raciocínio QwQ-32B e Marco-o1.
Lançado modelo de IA QVQ-72B baseado em visão do Alibaba
Em um rosto abraçado listagemA equipe Qwen do Alibaba detalhou o novo modelo de IA de código aberto. Chamando-o de modelo de pesquisa experimental, os pesquisadores destacaram que o QVQ-72B vem com capacidades aprimoradas de raciocínio visible. Curiosamente, estes são dois ramos distintos de desempenho, que os investigadores combinaram neste modelo.
Os modelos de IA baseados em visão são muitos. Eles incluem um codificador de imagem e podem analisar as informações visuais e o contexto por trás deles. Da mesma forma, modelos focados no raciocínio, como o1 e QwQ-32B, vêm com recursos de escalabilidade computacional em tempo de teste que permitem aumentar o tempo de processamento do modelo. Isso permite que o modelo decomponha o problema, resolva-o passo a passo, avalie o resultado e corrija-o em relação a um verificador.
Com o modelo de visualização do QVQ-72B, o Alibaba combinou essas duas funcionalidades. Agora ele pode analisar informações de imagens e responder a consultas complexas usando estruturas focadas no raciocínio. A equipe destaca que melhorou significativamente o desempenho do modelo.
Compartilhando avaliações de testes internos, os pesquisadores afirmaram que o QVQ-72B foi capaz de pontuar 71,4 por cento no benchmark MathVista (mini), superando o modelo o1 (71,0). Diz-se também que obteve uma pontuação de 70,3 por cento no benchmark Multimodal Huge Multi-task Understanding (MMMU).
Apesar do desempenho melhorado, existem várias limitações, como é o caso da maioria dos modelos experimentais. A equipe Qwen afirmou que o modelo de IA ocasionalmente mistura idiomas diferentes ou alterna inesperadamente entre eles. A questão da troca de código também é proeminente no modelo. Além disso, o modelo tende a ficar preso em loops de raciocínio recursivos, afetando o resultado ultimate.