Home Technologie Les repères d’IA crowdsourcés ont de graves défauts, selon certains consultants

Les repères d’IA crowdsourcés ont de graves défauts, selon certains consultants

27
0

Les laboratoires AI s’appuient de plus en plus sur des plateformes d’analyse comparative de crowdsourced telles que Chatbot Area pour sonder les forces et les faiblesses de leurs derniers modèles. Mais certains consultants disent qu’il y a de graves problèmes avec cette approche du level de vue éthique et académique.

Au cours des dernières années, des laboratoires, dont OpenAI, Google et Meta, se sont tournés vers des plateformes qui recrutent des utilisateurs pour aider à évaluer les capacités des modèles à venir. Lorsqu’un modèle marque favorablement, le laboratoire derrière lui vantera souvent ce rating comme preuve d’une amélioration significative.

C’est une approche erronée, cependant, selon Emily Bender, professeur de linguistique à l’Université de Washington et co-auteur du livre «The Ai Con». Bender prend un problème particulier avec Chatbot Area, qui tâche des bénévoles pour inviter deux modèles anonymes et sélectionner la réponse qu’ils préfèrent.

« Pour être valide, une référence doit mesurer quelque selected de spécifique, et elle doit avoir une validité de building – c’est-à-dire qu’il doit y avoir des preuves que la building d’intérêt est bien définie et que les mesures sont réellement liées à la building », a déclaré Bender. « Chatbot Area n’a pas montré que voter pour une sortie sur un autre est en réalité en corrélation avec les préférences, mais ils peuvent être définis. »

Asmelash Teka Hadgu, co-fondateur de la société d’IA Lesan et un boursier de l’Institut de recherche sur l’IA distribué, a déclaré qu’il pensait que des repères comme Chatbot Area sont «cooptés» par les laboratoires de l’IA pour «promouvoir les réclamations exagérées». Hadgu a souligné une récente controverse impliquant le modèle Maverick Llama 4 de Meta. Meta a réglé une model de Maverick pour bien marquer sur Chatbot Area, seulement pour refuser ce modèle en faveur de la publication d’une model pire performante.

« Les repères devraient être dynamiques plutôt que des ensembles de données statiques », a déclaré Hadgu, « distribué sur plusieurs entités indépendantes, telles que des organisations ou des universités, et adaptées spécifiquement à des cas d’utilisation distincts, comme l’éducation, les soins de santé et d’autres domaines réalisés par des professionnels en exercice qui utilisent ces utilisateurs qui utilisent ces utilisent ces derniers [models] pour le travail. « 

Hadgu et Kristine Gloria, qui dirigeaient auparavant l’initiative des applied sciences émergentes et intelligentes de l’Aspen Institute, ont également fait valoir que les évaluateurs de modèles devraient être compensés pour leur travail. Gloria a déclaré que les laboratoires AI devraient apprendre des erreurs de l’industrie de l’étiquetage des données, qui est célèbre pour exploitant pratiques. (Certains laboratoires ont été accusé de même.)

« En général, le processus d’analyse comparative du Crowdsourced est précieux et me rappelle les initiatives des sciences citoyennes », a déclaré Gloria. «Idéalement, il aide à apporter des views supplémentaires à fournir une certaine profondeur à la fois dans l’évaluation et le réglage fin des données. Mais les repères ne devraient jamais être la seule métrique pour l’évaluation. Avec l’industrie et l’innovation qui se déplace rapidement, les repères peuvent rapidement devenir peu fiables.»

Matt Frederikson, le PDG de Grey Swan AI, qui gère des campagnes en équipe rouge de Crowdsourced pour les modèles, a déclaré que les bénévoles sont attirés par la plate-forme Grey Swan pour une gamme de raisons, notamment «l’apprentissage et la pratique de nouvelles compétences». (Grey Swan accorde également des prix en espèces pour certains exams.) Pourtant, il a reconnu que les références publiques «ne remplacent pas» les évaluations «payées privées».

« [D]Les Evelopers doivent également s’appuyer sur des références internes, des équipes rouges algorithmiques et des équipes rouges sous contrat qui peuvent adopter une approche plus ouverte ou apporter une experience de domaine spécifique « , a déclaré Frederikson. » Il est essential pour les développeurs de modèles et les créateurs de références, ils sont appelés à la query ou autrement. « 

Alex Atallah, PDG de Mannequin Market OpenRouter, qui s’est récemment associé à OpenAI pour accorder aux utilisateurs un accès précoce aux modèles GPT-4.1 d’OpenAI, a déclaré que les exams ouverts et l’analyse comparative des modèles seuls « ne suffisaient pas ». Il en va de même pour Wei-Lin Chiang, un doctorant de l’IA à l’UC Berkeley et l’un des fondateurs de Lmarena, qui maintient Chatbot Area.

« Nous soutenons certainement l’utilisation d’autres exams », a déclaré Chiang. «Notre objectif est de créer un espace ouvert digne de confiance qui mesure les préférences de notre communauté sur les différents modèles d’IA.»

Chiang a déclaré que des incidents tels que l’écart de référence Maverick ne sont pas le résultat d’un défaut dans la conception de Chatbot Area, mais plutôt des laboratoires mal interprétés. LM Area a pris des mesures pour empêcher les écarts futures de se produire, a déclaré Chiang, y compris la mise à jour de ses politiques pour «renforcer notre engagement envers les évaluations réduites et reproductibles».

« Notre communauté n’est pas ici en tant que bénévoles ou testeurs modèles », a déclaré Chiang. «Les gens utilisent LM Area parce que nous leur donnons un endroit ouvert et clear pour s’engager avec l’IA et donner des commentaires collectifs. Tant que le classement reflète fidèlement la voix de la communauté, nous nous réjouissons d’être partagés.»

lien source

LEAVE A REPLY

Please enter your comment!
Please enter your name here