Modelo de IA ‘Reflection 70B’ pode ser a solução para as alucinações de LLMs

Modelo de IA ‘Reflection 70B’ pode ser a solução para as alucinações de LLMs

O modelo de inteligência artificial foi treinado com o “Reflection-Tuning”, projetado para ajudá-lo a aprender com seus erros e corrigi-los.

Há mais um novo chatbot de inteligência artificial entrando no espaço já saturado, mas este parece ter uma característica que muitos outros não têm — aprender com seus próprios erros.

Em um post no X no dia 5 de setembro, o CEO da HyperWrite AI, Matt Shumer, anunciou o desenvolvimento do ‘Reflection 70B’, alegando ser “o maior modelo de código aberto do mundo”.

Ele acrescentou que o novo modelo de IA foi treinado utilizando o “Reflection-Tuning”, uma técnica desenvolvida para permitir que os LLMs corrijam seus próprios erros.

Reflection Llama-3.1 70B pode “competir de igual para igual” com até os principais modelos de código fechado, como o Claude 3.5 Sonnet da Anthropic e o GPT-4o da OpenAI, em vários testes de benchmark, segundo ele. O Llama 3.1 é o modelo de IA de código aberto da Meta, lançado em julho.

Ele destacou que os modelos de IA atuais muitas vezes sofrem de alucinações, mas o Reflection-Tuning permite que esses modelos reconheçam seus erros e os corrijam antes de se comprometer com uma resposta.

“Os LLMs atuais tendem a alucinar e não conseguem reconhecer quando fazem isso.” Uma alucinação de IA é um fenômeno em que um chatbot de IA gerativa percebe padrões ou objetos inexistentes ou imperceptíveis para os observadores humanos, criando respostas imprecisas.

O Reflection-Tuning é uma técnica usada para aprimorar os modelos de IA, fazendo com que analisem e aprendam com suas próprias respostas.

As respostas da IA podem ser realimentadas para que o próprio sistema avalie suas respostas, identificando pontos fortes, fracos e áreas de melhoria, por exemplo.

Esse processo é repetido várias vezes, permitindo que a IA refina continuamente suas capacidades, com o objetivo de torná-la mais autoconsciente de suas respostas e melhor em criticar e melhorar seu próprio desempenho.

Shumer acrescentou que “com o direcionamento correto, é uma verdadeira potência para muitos casos de uso”, oferecendo um link de demonstração para o novo modelo.

Em 2023, a OpenAI, apoiada pela Microsoft, lançou um artigo de pesquisa com ideias sobre como prevenir alucinações em IAs.

Uma das ideias era a “supervisão de processos”, que envolve treinar os modelos de IA para se recompensarem por cada passo individual e correto de raciocínio ao chegar a uma resposta, em vez de apenas recompensar a conclusão final correta.

“Detectar e mitigar os erros lógicos de um modelo, ou alucinações, é um passo crucial para construir AGI [inteligência artificial geral] alinhada”, disse Karl Cobbe, um pesquisador da OpenAI, à CNBC na época.