L’un des nouveaux modèles phares AI Meta sorti samedi, Maverick, Se classe deuxième sur LM Arenaun take a look at qui a des évaluateurs humains comparer les sorties des modèles et choisir ce qu’ils préfèrent. Mais il semble que la model de Maverick que Meta déployée sur LM Enviornment diffère de la model largement disponible pour les développeurs.
Comme plusieurs IA chercheurs Souligné sur X, Meta a noté dans son annonce que le Maverick sur LM Enviornment est une «model de chat expérimentale». Un graphique sur le site Web officiel de lamaPendant ce temps, révèle que les assessments LM Enviornment de Meta ont été effectués en utilisant «Llama 4 Maverick optimisé pour la dialog».
Comme nous l’avons écrit auparavant, pour diverses raisons, LM Enviornment n’a jamais été la mesure la plus fiable des performances d’un modèle d’IA. Mais les sociétés d’IA n’ont généralement pas personnalisé ou autrement affiné leurs modèles pour mieux marquer sur LM Enviornment – ou n’ont pas admis de le faire, au moins.
Le problème de l’adaptation d’un modèle à une référence, de la retenir, puis de la libération d’une variante «vanille» de ce même modèle est qu’il est difficile pour les développeurs de prédire exactement à quel level le modèle fonctionnera dans des contextes particuliers. C’est aussi trompeur. Idéalement, les références – terriblement inadéquates aussi inadéquates – fournissent un instantané des forces et des faiblesses d’un seul modèle à travers une gamme de tâches.
En effet, les chercheurs sur X ont observé Stark Différences dans le comportement du Maverick téléchargeable publiquement par rapport au modèle hébergé sur LM Enviornment. La model LM Enviornment semble utiliser beaucoup d’emojis et donner des réponses incroyablement longues.
Oking Llama 4 est def un lol cuit à peu près, qu’est-ce que cette ville yap pic.twitter.com/y3gvhbvz65
– Nathan Lambert (@natolambert) 6 avril 2025
Pour une raison quelconque, le modèle Llama 4 dans Enviornment utilise beaucoup plus d’emojis
sur ensemble. AI, cela semble mieux: pic.twitter.com/f74odx4ztt
– Tech Dev Notes (@TechDevnotes) 6 avril 2025
Nous avons contacté Meta et Chatbot Enviornment, l’organisation qui maintient LM Enviornment, pour commenter.