Home Technologie Rencontrez l’agent d’IA avec plusieurs personnalités

Rencontrez l’agent d’IA avec plusieurs personnalités

9
0

Dans les années à venir, les brokers devraient largement prendre le relais de plus en plus de tâches au nom des humains, notamment en utilisant des ordinateurs et des smartphones. Pour l’instantaneous, cependant, ils sont trop sujets aux erreurs pour être très utiles.

Un nouvel agent appelé S2, créé par la startup SIMULULA IA, mix des modèles de frontière avec des modèles spécialisés pour l’utilisation d’ordinateurs. L’agent obtient des performances de pointe sur des tâches telles que l’utilisation d’purposes et la manipulation de fichiers – et suggère que se tourner vers différents modèles dans différentes conditions peut aider les brokers à avancer.

«Les brokers d’utilisation de l’informatique sont différents des modèles de grands langues et différents du codage», explique Ang Li, cofondateur et PDG de Simular. «C’est un sort de problème différent.»

Dans l’approche de SIMULUL, un puissant modèle d’IA à utilization général, comme le GPT-4O d’OpenAI ou Claude 3.7 d’Anthropic, est utilisé pour raisonner sur la meilleure façon de terminer la tâche à accomplir, tandis que les modèles open supply plus petits interviennent pour des tâches comme l’interprétation des pages Net.

Li, qui était chercheur chez Google DeepMind avant de fonder SIMULUM en 2023, explique que les modèles de grands langues glorious dans la planification mais ne sont pas aussi bons pour reconnaître les éléments d’une interface utilisateur graphique.

S2 est conçu pour apprendre de l’expérience avec un module de mémoire externe qui enregistre les actions et les commentaires des utilisateurs et utilise ces enregistrements pour améliorer les actions futures.

Sur les tâches particulièrement complexes, S2 fonctionne mieux que tout autre modèle sur Osworldune référence qui mesure la capacité d’un agent à utiliser un système d’exploitation informatique.

Par exemple, S2 peut effectuer 34,5% des tâches impliquant 50 étapes, battant l’opérateur d’Openai, qui peut compléter 32%. De même, S2 marque 50% sur Androidworld, une référence pour les brokers d’utilisation des smartphones, tandis que le prochain meilleur agent marque 46%.

Victor Zhong, informaticien de l’Université de Waterloo au Canada et l’un des créateurs d’Osworld, estime que les futurs modèles d’IA futurs peuvent intégrer des données de formation qui les aident à comprendre le monde visuel et à donner un sens aux interfaces graphiques des utilisateurs.

«Cela aidera les brokers à naviguer sur des GUIS avec une précision beaucoup plus élevée», explique Zhong. «Je pense que dans l’intervalle, avant de telles percées fondamentales, les systèmes de pointe ressembleront simulaires en ce qu’ils combinent plusieurs modèles pour fixer les limites des modèles uniques.»

Pour préparer cette colonne, j’ai utilisé SIMULULA pour réserver des vols et parcourir Amazon pour les offres, et il semblait mieux que certains des brokers open supply que j’ai essayés l’année dernière, y compris Autogène et vimgpt.

Mais même les brokers d’IA les plus intelligents sont, semble-t-il, encore troublés par les cas de bord et présentent parfois un comportement étrange. Dans un cas, lorsque j’ai demandé à S2 d’aider à trouver des coordonnées pour les chercheurs derrière Osworld, l’agent est resté coincé dans une boucle entre la web page du projet et la connexion pour la discorde d’Osworld.

Les repères d’Osworld montrent pourquoi les brokers restent plus hype que la réalité pour l’instantaneous. Alors que les humains peuvent effectuer 72% des tâches OSWORLD, les brokers sont déjoués 38% du temps sur des tâches complexes. Cela dit, lorsque la référence a été introduite en avril 2024, le meilleur agent ne pouvait effectuer que 12% des tâches.

lien source

LEAVE A REPLY

Please enter your comment!
Please enter your name here