As comportas foram abertas para a construção de modelos de raciocínio de IA baratos.
Pesquisadores da Stanford e da Universidade de Washington desenvolveram um modelo que apresenta um desempenho comparativamente aos modelos OpenAI O1 e Deepseek R1 em matemática e codificação – por menos de US $ 50 em créditos de computação em nuvem.
Além disso, o modelo foi treinado em apenas 1.000 perguntas e levou apenas 26 minutos e 16 GPUs da NVIDIA H100. O pesquisador de Stanford, Niklas Muennightoff, disse em um e -mail para Mashable que o custo é uma estimativa baseada no tempo de execução da GPU e no número de GPUs H100 usadas.
Conheça o QWEN 2.5 da Alibaba, um modelo de IA que afirma vencer o Chatgpt de Deepseek e Openai
A indústria de IA ultimamente é sobre como novas abordagens para o processo de pré e pós -treinamento podem economizar maciçamente os custos de computação, como evidenciado pelo impacto disruptivo de Deepseek. Além disso, os desenvolvedores agora podem construir os modelos de IA existentes a pouco ou nenhum custo, por meio de APIs, acesso de código aberto e até modelos de código fechado, destilando seus dados, reduzindo ainda mais os custos.
Velocidade de luz mashable
De acordo com o time Trabalho de pesquisa Publicado na sexta -feira passada, o S1 foi treinado em um conjunto de dados que consiste em “1.000 perguntas cuidadosamente selecionadas emparelhadas com traços de raciocínio e respostas destiladas de Gemini Considering Experimental”. O Modelo Experimental de Pensamento de Gêmeos do Google é acessível com limites diários através do estúdio de IA. Embora seja um modelo de código fechado, isso claramente não impediu os pesquisadores de usarem suas respostas.
O OpenAI lança ‘Deep Analysis’ AI Agent for ChatGPT
Em seguida, os pesquisadores usaram um modelo “fora da prateleira” do laboratório de propriedade do Alibaba, Qwen, e realizou o ajuste fino supervisionado de seu conjunto de dados com curadoria. Em seguida, a equipe criou um orçamento de token para controlar a quantidade de tempo de computação para testar o modelo. Se o S1 passou por todo o orçamento para pensar em fichas, ele foi cortado e forçado a gerar qualquer resposta que surgisse. Se os pesquisadores quisessem que o modelo gastasse mais “computação no tempo de teste” em um problema, eles simplesmente diriam ao modelo para “esperar”, o que estendeu seu tempo de pensamento e levou a resultados mais precisos.
Ao controlar a quantidade de tempo e a computação gasta em um problema, os pesquisadores conseguiram mostrar como o aumento da equipe de pensamento leva a um melhor desempenho.
O S1 é um exemplo de modelos de raciocínio de código aberto que foram desenvolvidos para uma fração do custo dos modelos principais do Google e OpenAI. Em janeiro, os pesquisadores da UC Berkeley divulgaram um modelo de raciocínio de código aberto chamado Sky-T1 que custou US $ 450 “, demonstrando que é possível replicar recursos de raciocínio de alto nível de maneira acessível e eficiente”, de acordo com o seu Postagem do blog. Há também a fonte aberta rstar-math Modelo de raciocínio da Microsoft Asia Pesquisadores, Tulu 3 do Instituto de Pesquisa de Non lucrativos AI2, e o Huggingface tem sua própria iniciativa para Replique o R1 de Deepseek.
À medida que os modelos de alta qualidade se tornam mais acessíveis e mais baratos, estamos começando a ver uma mudança de poder dos poucos rebatedores pesados da IA, para muitos.
Tópicos
Inteligência Synthetic OpenAI