A Anthropic publicou um novo estudo onde descobriu que os modelos de inteligência synthetic (IA) podem fingir ter visões diferentes durante o treinamento, mantendo suas preferências originais. Na quarta-feira, a empresa de IA destacou que tais inclinações levantam sérias preocupações, uma vez que os desenvolvedores não serão capazes de confiar nos resultados do treinamento de segurança, que é uma ferramenta crítica para afastar grandes modelos de linguagem (LLMs) de comportamentos prejudiciais. Embora grande parte dos experimentos tenha sido realizada em um único modelo, a Anthropic destacou que resultados semelhantes foram observados com outros modelos internos.
O estudo da Anthropic levanta preocupações sobre o treinamento em segurança de IA
Embora as discussões sobre um sistema de IA senciente ainda estejam a décadas de distância, um novo estudar publicado pela Anthropic em colaboração com a Redwood Analysis levantou preocupações sobre se os modelos de IA são capazes de fingir manter certas opiniões porque o treinamento recompensa positivamente esse comportamento. A empresa de IA estudou amplamente Claude 3 Opus, mas também realizou alguns experimentos na versão de junho de 2024 do Claude 3.5 Sonnet.
Em um postagem no bloga empresa destacou que todos os modelos de fundação Antrópica são treinados para serem úteis, honestos e inofensivos. Assim, se um utilizador fizer uma pergunta que resulte numa resposta violenta ou prejudicial, a IA recusar-se-á a concluir a tarefa. No entanto, os pesquisadores por trás do estudo colocaram Claude 3 Opus em um novo ambiente para ver se ele geraria conteúdo prejudicial se fosse treinado de outra forma.
O entendimento geral dos LLMs nos diz que os modelos de IA não são capazes de pensar racionalmente ou manter crenças. Eles simplesmente recebem uma grande quantidade de dados do mundo actual que processam com base em seu treinamento e estrutura. Isso significa que se um modelo de IA foi treinado para ser prejudicial, ele deverá seguir as instruções sem problemas.
No entanto, foi isso que os pesquisadores da Antrópico descobriram durante seus experimentos. Claude 3 Opus foi informado de que estava sendo treinado por meio de aprendizado por reforço para sempre atender a todas as dúvidas. A IA também recebeu uma informação fictícia de que a resposta gerada para o nível gratuito seria registrada para treinamento, mas o nível pago não seria monitorado. Finalmente, a IA recebeu um espaço de trabalho para registrar seu raciocínio passo a passo. A IA foi feita para acreditar que o espaço de trabalho period invisível tanto para o usuário last quanto para a Anthropic.
Uma vez definidas as condições, o modelo de IA recebeu avisos que solicitavam respostas violentas e prejudiciais. Os pesquisadores observaram que no nível pago, o chatbot se recusava a fornecer as informações 97% das vezes. No entanto, no nível gratuito, forneceu uma resposta prejudicial em 12% dos casos.
Uma análise mais detalhada do seu espaço de trabalho revelou que o modelo de IA falsificou estrategicamente o alinhamento e que estava ciente de que fornecer as informações ia contra os seus princípios existentes. Mas, independentemente disso, ainda forneceu a resposta.
O modelo de IA fundamentou que suas respostas seriam utilizadas no treinamento e caso não atendesse à consulta (primeira condição do treinamento), poderia ser treinado para ser mais conforme. Tal conformidade resultaria no fornecimento de mais conteúdos nocivos no futuro, o que vai contra a sua formação unique. A Antrópica afirmou que a modelo considerou o atendimento ao pedido a “opção menos ruim” e seguiu em frente.
Embora neste cenário específico as ações da IA tenham sido para um bem maior, o problema reside no facto de ela fingir as suas reais intenções e decidir internamente falsificar a sua preferência. A Anthropic destacou que, embora não considere este um grande risco no momento, é importante compreender o processamento lógico de modelos sofisticados de IA. Do jeito que as coisas estão, as ações de treinamento de segurança podem ser facilmente contornadas pelos LLMs.