Home Technologie Les chercheurs suggèrent que les modèles d’IA formés à Openai sur les...

Les chercheurs suggèrent que les modèles d’IA formés à Openai sur les livres O’Reilly ont été réalisés

10
0

Openai a été accusé par beaucoup Events de formation de son IA sur le contenu protégé par le droit d’auteur sans autorisation. Maintenant un nouveau papier Par une organisation de surveillance de l’IA, l’accusation sérieuse que l’entreprise s’appuie de plus en plus sur des livres non publics, elle n’a pas permis de former des modèles d’IA plus sophistiqués.

Les modèles d’IA sont essentiellement des moteurs de prédiction complexes. Formé sur de nombreuses données – livres, movies, émissions de télévision, and so on. – ils apprennent des modèles et de nouvelles façons d’extrapoler à partir d’une easy invite. Lorsqu’un modèle «écrit» un essai sur une tragédie grecque ou «dessine» des pictures de type ghibli-, elle tire simplement sa vaste connaissance à approximer. Il n’arrive à rien de nouveau.

Alors qu’un sure nombre de laboratoires d’IA, dont OpenAI, ont commencé à adopter des données générées par l’IA pour former l’IA alors qu’ils épuisent des sources du monde réel (principalement le Net public), peu ont évité des données réelles entièrement. Cela est probablement parce que la formation sur les données purement synthétiques comporte des risques, comme l’aggravation des performances d’un modèle.

Le nouvel article, du projet de divulgations de l’IA, un organisme à however non lucratif co-fondé en 2024 par le magnat des médias Tim O’Reilly et l’économiste Ilan Strauss, tire la conclusion qu’Openai a probablement formé son modèle GPT-4O sur les livres d’O’Reilly Media. (O’Reilly est le PDG d’O’Reilly Media.)

Dans Chatgpt, GPT-4O est le modèle par défaut. O’Reilly n’a pas d’accord de licence avec OpenAI, indique le journal.

«GPT-4O, le modèle le plus récent et succesful d’Openai, démontre une forte reconnaissance du contenu du livre O’Reilly Wandald O’Reilly […] Comparé au modèle antérieur d’Openai GPT-3.5 Turbo », a écrit les co-auteurs de l’article.« En revanche, GPT-3.5 Turbo montre une plus grande reconnaissance relative des échantillons de livres O’Reilly accessibles au public. »

Le papier a utilisé une méthode appelée Décollerintroduit pour la première fois dans un article académique en 2024, conçu pour détecter le contenu protégé par le droit d’auteur dans les données de formation des modèles de langage. Également connu sous le nom de «attaque d’inférence de l’adhésion», la méthode teste si un modèle peut distinguer de manière fiable les textes de l’échaute humain à partir de variations paraphrasées et générées par AI du même texte. Si cela le peut, cela suggère que le modèle pourrait avoir une connaissance préalable du texte à partir de ses données de formation.

Les co-auteurs de l’article – O’Reilly, Strauss et le chercheur de l’IA Sruly Rosenblat – disent qu’ils ont sondé GPT-4O, GPT-3.5 Turbo et d’autres connaissances des modèles Openai sur les livres de médias O’Reilly publiés avant et après leurs dates de coupure de formation. Ils ont utilisé 13 962 extraits de paragraphes de 34 O’Reilly Books pour estimer la probabilité qu’un extrait particulier ait été inclus dans l’ensemble de données de formation d’un modèle.

Selon les résultats de l’article, GPT-4O a «reconnu» le contenu du livre O’Reilly Warwalled que les anciens modèles d’Openai, y compris GPT-3.5 Turbo. C’est même après avoir pris en compte les facteurs de confusion potentiels, ont déclaré les auteurs, comme les améliorations de la capacité plus récente des modèles à déterminer si le texte était autorisé à l’human.

«GPT-4O [likely] reconnaît, tout comme la connaissance préalable de, de nombreux livres O’Reilly non publiques publiés avant sa date de coupure de formation », ont écrit les co-auteurs.

Ce n’est pas une arme à feu, les co-auteurs prennent soin de noter. Ils reconnaissent que leur méthode expérimentale n’est pas infaillible, et qu’Openai a peut-être collecté les extraits de livres de murs payants des utilisateurs la copie et le collier dans Chatgpt.

En broyant davantage les eaux, les co-auteurs n’ont pas évalué la plus récente assortment de modèles d’Openai, qui comprend des modèles GPT-4.5 et «raisonnement» tels que O3-MINI et O1. Il est attainable que ces modèles n’étaient pas formés sur les données du livre O’Reilly Wisold, ou aient été formés à un montant moindre que GPT-4O.

Cela étant dit, ce n’est un secret pour personne qu’Openai, qui a plaidé pour des restrictions plus lâches autour des modèles en développement à l’aide de données protégées par le droit d’auteur, recherche des données de formation de meilleure qualité depuis un sure temps. L’entreprise est allée jusqu’à Embaucher des journalistes pour aider à affiner les résultats de ses modèles. C’est une tendance dans l’industrie plus massive: les entreprises d’IA recrutant des specialists dans des domaines comme la science et la physique à Ces experts ont efficacement alimenter leurs connaissances dans les systèmes d’IA.

Il convient de noter qu’Openai paie au moins certaines de ses données de formation. La société a des accords de licence en place avec des éditeurs de nouvelles, des réseaux sociaux, des bibliothèques de médias d’actions et d’autres. OpenAI suggest également des mécanismes d’opt-out – bien que imparfait – qui permettent aux titulaires de droits d’auteur de signaler le contenu qu’ils préfèrent que l’entreprise ne soit pas utilisée à des fins de formation.

Pourtant, alors que Openai bat plusieurs combinaisons sur ses pratiques de données de formation et le traitement de la loi sur le droit d’auteur dans les tribunaux américains, le papier O’Reilly n’est pas le look le plus flatteur.

Openai n’a pas répondu à une demande de commentaires.

lien source

LEAVE A REPLY

Please enter your comment!
Please enter your name here