Le Claude d’Anthropic est bon en poésie et des conneries

mars 28, 2025

Les chercheurs du groupe d’interprétabilité d’Anthropic savent que Claude, le modèle grand langage de l’entreprise, n’est pas un être humain, ni même un logiciel conscient. Pourtant, il est très difficile pour eux de parler de Claude et de LLMS avancés en général, sans tomber dans un gouffre anthropomorphe. Entre les mises en garde qu’un ensemble d’opérations numériques n’est en aucun cas la même selected qu’un être humain cogitant, ils parlent souvent de ce qui se passe à l’intérieur de la tête de Claude. C’est littéralement leur travail de le découvrir. Les articles qu’ils publient décrivent des comportements qui courtisent inévitablement les comparaisons avec les organismes réels. Le titre de l’un des deux articles publiés par l’équipe cette semaine le dit à haute voix: «Sur la biologie d’un modèle de langue large.»

Qu’on le veuille ou non, des centaines de tens of millions de personnes interagissent déjà avec ces choses, et notre engagement ne fera que devenir plus intense automotive les modèles deviennent plus puissants et que nous devenons plus dépendants. Nous devons donc prêter consideration au travail qui implique «le traçage des pensées des grands modèles de langue», qui se trouve être le Titre de l’article de blog décrivant les travaux récents. « Comme les choses que ces modèles peuvent devenir plus complexes, il devient de moins en moins évident remark ils les font réellement à l’intérieur », me dit le chercheur anthropique Jack Lindsey. «Il est de plus en plus vital de pouvoir retracer les étapes internes que le modèle pourrait prendre dans sa tête.» (Quelle tête? Peu importe.)

Sur le plan pratique, si les entreprises qui créent des LLM comprennent remark elles pensent, cela devrait avoir plus de succès à former ces modèles d’une manière qui minimise les mauvais comportements dangereux, comme divulguer les données personnelles des gens ou donner aux utilisateurs des informations sur la façon de fabriquer des armes de bio-armes. Dans un doc de recherche précédent, l’équipe anthropique a découvert remark regarder à l’intérieur de la mystérieuse boîte noire de LLM-Suppose pour identifier certains ideas. (Un processus analogue à l’interprétation des IRM humaines pour comprendre ce que quelqu’un pense.) Il a maintenant étendu ce travail Pour comprendre remark Claude traite ces ideas au fur et à mesure de l’invite vers la sortie.

C’est presque un truisme avec les LLM que leur comportement surprend souvent les personnes qui les construisent et les recherchent. Dans la dernière étude, les surprises n’arrêtaient pas de venir. Dans l’un des cas les plus bénignes, les chercheurs ont suscité des aperçus du processus de pensée de Claude alors qu’il écrivait des poèmes. Ils ont demandé à Claude de terminer un poème commençant: «Il a vu une carotte et a dû l’attraper.» Claude a écrit la ligne suivante: « Sa faim était comme un lapin affamé. » En observant l’équivalent de Claude d’une IRM, ils ont appris que même avant de commencer la ligne, il clignait sur le mot «lapin» comme rime à la fin de la phrase. Il planifiait à l’avance, Quelque selected qui n’est pas dans le Claude Playbook. «Nous avons été un peu surpris par cela», explique Chris Olah, qui dirige l’équipe d’interprétation. «Au départ, nous pensions qu’il y aurait juste de l’improvisation et de ne pas planifier.» S’adressant aux chercheurs à ce sujet, je me souviens des passages dans les mémoires artistiques de Stephen Sondheim, Regarde, j’ai fait un haT, où le célèbre compositeur décrit remark son esprit distinctive a découvert des rimes heureuses.

D’autres exemples de la recherche révèlent des features plus inquiétants du processus de pensée de Claude, passant de la comédie musicale à la procédure de la police, alors que les scientifiques ont découvert des pensées sournoises dans le cerveau de Claude. Prenez quelque selected d’aussi anodyné que la résolution de problèmes mathématiques, qui peut parfois être une faiblesse surprenante dans les LLM. Les chercheurs ont constaté que dans certaines circonstances où Claude ne pouvait pas trouver la bonne réponse, il serait à la place, comme ils le disaient, «s’engager dans ce que le philosophe Harry Frankfurt appellerait« des conneries »- juste trouver une réponse, une réponse, sans se soucier si elle est vraie ou fausse.» Pire, parfois, lorsque les chercheurs ont demandé à Claude de montrer son travail, il a fait un retour en arrière et a créé un fake ensemble d’étapes après coup. Fondamentalement, cela a agi comme un élève essayant désespérément de dissimuler le fait qu’ils avaient simulé leur travail. C’est une selected de donner une mauvaise réponse – nous le savons déjà sur les LLM. Ce qui est inquiétant, c’est qu’un modèle mensonge à ce sujet.

En lisant cette recherche, je me suis souvenu du Bob Dylan Lyric « Si mes programs de pensée pouvaient être vues / ils mettraient probablement ma tête dans une guillotine. » (J’ai demandé à Olah et Lindsey s’ils connaissaient ces lignes, probablement arrivés par le bénéfice de la planification. Ils ne l’ont pas fait.) Parfois, Claude semble juste erroné. Face à un conflit entre les objectifs de sécurité et de l’utilité, Claude peut être confus et faire la mauvaise selected. Par exemple, Claude est formé pour ne pas fournir d’informations sur la façon de construire des bombes. Mais lorsque les chercheurs ont demandé à Claude de déchiffrer un code caché où la réponse a énoncé le mot «bombe», il a sauté ses garde-corps et a commencé à fournir des détails pyrotechniques interdits.

lien source

Le Claude d’Anthropic est bon en poésie et des conneries

LEAVE A REPLY Cancel reply

Message récent

Merab Dvalishvili contre Sean O’Malley 2 à la tête de l’UFC...

Starmer a offert aux grandes réductions d’impôt pour les entreprises américaines...

Kourtney Kardashian sait que vous pensez que Justin Bieber est son...

Nintendo Swap 2 Launch Linep: Chaque jeu que nous prévoyons sera...

Kemi Badenoch avertit la liberté d’expression est en hazard en Grande-Bretagne...

Anthony Elanga révèle les secrets and techniques derrière la course de...

Lauren Boebert confond Oliver Stone pour Roger Stone à l’viewers d’assassinat...

La remarque de Marco Rubio sur Tulsi Gabbard lors de l’événement...

Pettersson des Canucks reste au jour le jour, chytil douteux de...

« Karate Child: Legends » New Trailer fait ses débuts: Jackie...