À medida que os chatbots de inteligência synthetic surgem para fornecer informações em todos os tipos de aplicações, os investigadores da Universidade de Washington desenvolveram uma nova forma de afinar as suas respostas.
Apelidado de “aprendizagem de preferência variacional”, o objetivo do método é moldar a saída de um grande modelo de linguagem para melhor corresponder a um usuário particular person de acordo com suas preferências expressas.
Os sistemas de IA são treinados em conjuntos de dados que incluem preconceitos embutidos e informações inadequadas que os engenheiros atualmente tentam filtrar das respostas por meio de “aprendizado por reforço a partir de suggestions humano”, ou RLHF. A estratégia exige que um grupo de pessoas analise os resultados dos chatbots e selecione a resposta preferida, levando o sistema a uma resposta segura, precisa e aceitável.
Mas essas preferências são determinadas pela organização que cria o chatbot e não incluem necessariamente as opiniões abrangentes mantidas entre os diversos utilizadores que interagem com as ferramentas.
“Acho um pouco assustador que tenhamos pesquisadores em um punhado de empresas, que não são treinados em política ou sociologia, decidindo o que é apropriado e o que não é para os modelos dizerem, e temos tantas pessoas usando esses sistemas e tentando descobrir a verdade deles”, disse Natasha Jaquesprofessor assistente da Escola Paul G. Allen de Ciência da Computação e Engenharia da UW, em um Postagem UW.
“Este é um dos problemas mais urgentes da IA”, disse ela, “por isso precisamos de melhores técnicas para resolvê-lo”.
Jaques lidera Laboratório de aprendizagem por reforço social na UW e também é pesquisador sênior do Google DeepMind. Ela ingressou na Allen Faculty da UW há quase dois anos.
Jaques deu um exemplo de caso em que a abordagem de formação RLHF poderia criar um problema. Think about que um aluno de baixa renda estivesse interagindo com um chatbot para saber mais sobre uma faculdade para a qual queria se inscrever, mas a resposta do modelo foi ajustada para a maioria das inscrições da escola, que eram alunos de maior renda. O modelo deduziria que havia interesse limitado nas informações sobre ajuda financeira e não as forneceria.
A abordagem de aprendizagem de preferência variacional desenvolvida pelos pesquisadores da UW colocaria os próprios usuários do chatbot na função de refinar os resultados. E pode fazer isso rapidamente – com apenas quatro consultas, o método de treinamento VPL pode aprender que tipo de respostas um usuário escolherá.
O ajuste fino pode incluir o nível preferido de especificidade da resposta, a duração e o tom da saída, bem como quais informações são incluídas.
A estratégia poderia ser aplicada a interações verbais, bem como ao treinamento de robôs que executam tarefas simples em ambientes pessoais, como residências.
Mas a VPL precisa estar atenta às preferências por desinformação ou desinformação, bem como às respostas inadequadas, disse Jaques.
Jaques e colegas compartilharam suas pesquisas na Conferência sobre Sistemas de Processamento de Informações Neurais da semana passada em Vancouver, BC
Coautores adicionais do estudo incluem o professor assistente da Allen Faculty Abhishek Guptabem como alunos de doutorado da Allen Faculty Sriyash Poddar, Yanming Wan e Hamish Ivison.
Jaques disse que os participantes da conferência internacional de longa duração estavam interessados na questão da promoção de diversas perspectivas em sistemas de IA que ela e outros estão abordando.
“Estou encorajado em ver a receptividade da comunidade de IA e o impulso nesta área”, disse Jaques ao GeekWire.