Databricks, une entreprise qui aide les grandes entreprises à créer des modèles d’intelligence artificielle personnalisés, a développé une astuce d’apprentissage automatique qui peut augmenter les performances d’un modèle d’IA sans avoir besoin de données étiquetées propres.
Jonathan Frankle, scientifique en chef de l’IA chez Databricks, a passé l’année dernière à parler aux shoppers des principaux défis auxquels ils sont confrontés pour que l’IA fonctionne de manière fiable.
Le problème, dit Frankle, ce sont les données gross sales.
« Tout le monde a des données et a une idée de ce qu’il veut faire », explique Frankle. Mais le manque de données propres rend difficile à affiner un modèle pour effectuer une tâche spécifique. «Personne ne se présente avec de belles données fins et propres que vous pouvez coller dans une invite ou un [application programming interface]«Pour un modèle.
Le modèle de Databricks pourrait permettre aux entreprises de déployer éventuellement leurs propres brokers pour effectuer des tâches, sans la qualité des données sur le chemin.
La method offre un aperçu uncommon de certaines des astuces clés que les ingénieurs utilisent désormais pour améliorer les capacités des modèles d’IA avancés, en particulier lorsque de bonnes données sont difficiles à trouver. La méthode exploite des idées qui ont aidé à produire des modèles de raisonnement avancé en combinant l’apprentissage du renforcement, un moyen pour les modèles d’IA de s’améliorer grâce à la pratique, avec des données de formation «synthétiques» ou générées par l’IA.
Les derniers modèles d’Openai, Google et Deepseek dépendent tous fortement de l’apprentissage du renforcement ainsi que des données de formation synthétique. Wired a révélé que Nvidia prévoit d’acquérir Gretel, une entreprise spécialisée dans les données synthétiques. «Nous naviguons tous dans cet espace», explique Frankle.
La méthode Databricks exploite le fait que, étant donné suffisamment d’essais, même un modèle faible peut bien marquer sur une tâche ou une référence donnée. Les chercheurs appellent cette méthode pour stimuler les performances d’un modèle «Finest-of-N». Databricks a formé un modèle pour prédire quel meilleur-de-n les testeurs humains préféreraient, sur la base d’exemples. Le modèle de récompense de données de données, ou DBRM, peut ensuite être utilisé pour améliorer les performances d’autres modèles sans avoir besoin de données étiquetées supplémentaires.
DBRM est ensuite utilisé pour sélectionner les meilleures sorties à partir d’un modèle donné. Cela crée des données d’entraînement synthétiques pour un réglage fin du modèle afin qu’il produit une meilleure sortie la première fois. Databricks appelle sa nouvelle approche d’optimisation adaptative du temps de check ou TAO. «Cette méthode dont nous parlons utilise un renforcement relativement léger en apprenant à faire les avantages du meilleur de N dans le modèle lui-même», explique Frankle.
Il ajoute que les recherches effectuées par Databricks montrent que la méthode Tao s’améliore automotive elle est mise à l’échelle de modèles plus grands et plus capables. L’apprentissage du renforcement et les données synthétiques sont déjà largement utilisés, mais les combiner afin d’améliorer les modèles de langue est une method relativement nouvelle et techniquement difficile.
Databricks est inhabituellement ouvert sur la façon dont il développe l’IA, automotive il veut montrer aux shoppers qu’il a les compétences nécessaires pour créer des modèles personnalisés puissants pour eux. La société avait précédemment révélé à Wired remark elle a développé DBX, un modèle de langue (LLM) open supply de pointe à partir de zéro.