OpenAI a annoncé aujourd’hui qu’il publiait une nouvelle famille de modèles d’intelligence artificielle optimisés pour exceller dans le codage, automotive il accélère les efforts pour repousser la concurrence de plus en plus rigide de sociétés comme Google et Anthropic. Les modèles sont disponibles pour les développeurs through l’interface de programmation d’functions d’OpenAI (API).
OpenAI publie trois tailles de modèles: GPT 4.1, GPT 4.1 Mini et GPT 4.1 Nano. Kevin Weil, chef de produit à Openai, a déclaré sur un flux en direct que les nouveaux modèles sont meilleurs que le modèle le plus utilisé d’Openai, GPT-4O et mieux que son modèle le plus grand et le plus puissant, GPT-4.5, à certains égards.
GPT-4.1 a marqué 55% sur Swe-Bench, une référence largement utilisée pour évaluer les prouesses des modèles de codage. Le rating est de plusieurs factors de pourcentage au-dessus de celui des autres modèles OpenAI. Les nouveaux modèles sont «excellents en codage, ils sont excellents dans l’instruction complexe qui suivent, ils sont fantastiques pour la development d’brokers», a déclaré Weil.
La capacité des modèles d’IA à rédiger et à modifier le code s’est considérablement amélioré ces derniers mois, permettant des moyens plus automatisés de prototypage des logiciels et d’améliorer les capacités des soi-disant brokers d’IA. Au cours des derniers mois, des rivaux comme Anthropic et Google ont tous deux introduit des modèles qui sont particulièrement bons pour écrire du code.
L’arrivée de GPT-4.1 a été largement rumeur ces dernières semaines. OpenAI a apparemment testé le modèle sur certains classements populaires sous le pseudonyme Alpha Quasar, selon des sources. Certains utilisateurs du modèle «furtif» signalé Capacités de codage impressionnantes. «Quasar a résolu tous les problèmes ouverts que j’ai eu avec un autre code géré [sic] through les LLM qui étaient incomplètes », a écrit une personne sur Reddit.
« Les développeurs se soucient beaucoup du codage, et nous avons amélioré la capacité de notre modèle à rédiger du code fonctionnel », a déclaré Michelle Pokrass, qui travaille sur la post-formation à Openai, lors du Lundi Livestream. «Nous avons travaillé à la faire suivre différents codecs et à mieux explorer des référentiels, exécuter des checks unitaires et écrire du code qui compile.»
Tous les nouveaux modèles peuvent analyser huit fois plus de code à la fois, ce qui améliore leur capacité à apporter des améliorations et à corriger les bogues. Les nouveaux modèles sont également meilleurs pour suivre les directions données par les utilisateurs, réduisant la nécessité de répéter les commandes de différentes manières pour obtenir le résultat souhaité. OpenAI a montré des démos de GPT-4.1 en créant différentes functions, y compris une utility de cartes flash pour l’apprentissage des langues.
GPT-4.1 est 40% plus rapide que GPT.4O, le modèle le plus utilisé d’Openai pour les développeurs. Le coût des requêtes de saisie des utilisateurs a été réduit de 80% dans cette dernière model, explique Openai.
Sur LiveStream d’aujourd’hui, Varun Mohan, PDG de Windsurf, un outil populaire pour le codage de l’IA, a déclaré que la société avait testé GPT-4.1 et a constaté que le nouveau modèle était «de mieux à 60%» que GPT-4O selon ses propres repères. « Nous avons constaté que GPT-4.1 a beaucoup moins de cas de comportement dégénéré », a déclaré Mohan, notant que le nouveau modèle passe moins de temps à lire et à éditer des fichiers non pertinents par erreur.
Au cours des deux dernières années, Openai a suscité un intérêt fébrile pour Chatgpt, un chatbot remarquable dévoilé pour la fin 2022, dans une entreprise croissante vendant un accès à des chatbots plus avancés et des modèles d’IA. Dans une interview TED la semaine dernière, Altman a déclaré qu’Openai avait 500 tens of millions d’utilisateurs actifs hebdomadaires et que l’utilisation «augmentait très rapidement».