6 ans de résultats, exploré plus de 2 millions de fois, ne réclamer que 1 yuan ? Le modèle d'IA a été accusé de "voler" des données, la dernière réponse de Xueersi

Question

Arrangement : Zheng Li YuanVendu par : CSDN (ID : CSDNnews)Le mois dernier, Xueersi a révélé qu'il développait actuellement son propre grand modèle mathématique MathGPT, qui s'adresse aux passionnés de mathématiques et aux instituts de recherche scientifique du monde entier, et est construit avec des algorithmes de résolution de problèmes et de lecture dans le domaine des mathématiques comme noyau.À cette époque, de nombreuses personnes pensaient que la version "étudiants en sciences" de ChatGPT arrivait enfin.De manière inattendue, le "scandale" à propos de MathGPT a éclaté avant même qu'il ne soit réellement lancé : ce mardi, l'application Bishen Composition a accusé Xueersi d'avoir illégalement accédé et mis en cache jusqu'à 2,58 millions de données sur son serveur via la technologie "crawler" fois, pour développer MathGPT's nouveau produit "assistant de composition AI".## **6 ans de résultats, crawlés plus de 2 millions de fois en un week-end**L'un des protagonistes de cet incident, Bishen Composition, est une plateforme d'enseignement de la composition K12 (éducation de la maternelle à la 12e année) créée en décembre 2017, qui est affiliée à Beijing Yiyilianghua Technology Co., Ltd.À cette époque, le marché de l'IA était beaucoup moins populaire qu'il ne l'est aujourd'hui, mais avec sa caractéristique "d'utiliser la technologie de l'intelligence artificielle pour aider les écrivains à améliorer leurs compétences en écriture", en janvier 2018, Bishen Composition a reçu plusieurs millions de yuans en tour de table. financement de ZhenFund. En juillet 2019, il a réalisé une ronde de financement providentiel de plusieurs millions de dollars.Selon les informations officielles, Pen God Composition est en ligne depuis six ans et a reçu plus de 300 000 soumissions d'essais et plus de 400 000 likes et commentaires chaque mois. Il a accumulé des millions de matériaux de composition et corrigé plus de 30 000 essais par mois. .Avec la naissance de ChatGPT à la fin de l'année dernière, Shiji Tianhong, l'un des investisseurs de Penshen, a dit un jour que "Penshen" et ChatGPT avaient la même technologie, et tous deux adoptaient le dernier algorithme basé sur Transformer comme couche inférieure du Modèle IA. Song Jiawei, le fondateur de Bishen Composition, a également introduit : « Un coup et deux coups comptent actuellement plus de 60 % de l'équipe en tant que personnel technique de R&D. Avant la création de l'entreprise, l'équipe avait fondé des sociétés de PNL. pendant de nombreuses années."Par conséquent, dans l'ensemble, le modèle algorithmique de Penshen Composition est auto-développé et formé par l'entreprise, et les mégadonnées de sa plateforme proviennent de sa propre accumulation.En raison de son accumulation technique et de ses réalisations remarquables en écriture, Bishen Composition et Xueersi ont conclu une coopération il y a trois ans : ils ont signé un contrat avec l'application d'outils d'apprentissage de Xueersi "Tipai Pai", qui est principalement chargée de fournir des services de recherche de matériel de composition.En tant que partenaire, Bishen Composition de cette semaine a déclaré : "Le 13 avril, quelque chose à quoi nous ne nous attendions pas s'est produit. Les réalisations de six ans de notre équipe depuis la création de l'entreprise ont été réalisées par "Xueersi" qui a coopéré pendant de nombreuses années en seulement un court laps de temps Plus de deux millions de crawls en un week-end !## **Appel : compensation de 1 yuan, excuses publiques et suppression de données**A en juger par la déclaration officielle Weibo de Penshen Composition, il ne dispose pas d'un mécanisme complet de sécurité des données, et il n'a pas mis en place toutes les précautions pour ses "partenaires" Xueersi, ce qui a conduit les filiales de Santi Yunlian (Xueersi) à profiter de cette confiance , c'est-à-dire: sans l'autorisation de Pen God Composition APP, du 13 avril au 17 avril 2023, accéder et mettre en cache illégalement le serveur Pen God Composition APP via la technologie "crawler" Les données sont jusqu'à 2,58 millions de fois.À cet égard, Bishen Composition affirme que ce comportement viole les termes du contrat entre les deux parties, et viole même l'article 32 de la "Loi sur la protection des données" "Toute organisation ou individu doit collecter des données de manière légale et appropriée, et doit ne volez pas ou n'utilisez pas d'autres méthodes pour collecter des données. "L'obtention illégale de données" a gravement violé les droits et les intérêts des données de l'APP Bishenzuowen.Par la suite, Penshen Composition a demandé à Xueersi une vérification, et l'autre partie a directement admis que leur groupe d'algorithmes explorait les données et les utilisait pour leur propre usage. Par conséquent, Penshen Composition a envoyé une lettre d'avocat, mais n'a pas reçu de réponse substantielle de l'autre partie. À l'heure actuelle, le modèle d'IA MathGPT de Xueersi est sur le point de lancer un nouveau produit "Composition AI Assistant".« En tant qu'entreprise beaucoup plus petite que 'Xueersi', nous n'avons pas d'autre choix que de protéger nos droits par des voies légales. » AI grand modèle vol de données] jugement précédent, il ne peut donc que « faire courageusement ce premier pas ».Quant à l'appel de Penshen Composition, il ne s'agit pas en fait de demander une grande compensation : je veux juste que Xueersi paie 1 yuan de compensation, s'excuse publiquement et supprime les données explorées.À cet égard, Bishen Composition a expliqué : "Les données sont précieuses, mais notre travail acharné est encore plus inestimable. La réclamation pour 1 yuan est due au fait que l'équité et la justice ne peuvent être mesurées par l'argent. Nous espérons dire à la société que ce comportement est mauvais à travers Le développement de l'industrie de l'intelligence artificielle repose sur la co-création plutôt que sur la convoitise et le plagiat des réalisations des autres.![](https://img.gateio.im/social/moments-bab2147faf-be0be09278-dd1a6f-62a40f) Il est vrai que comme le dit la composition du dieu stylo, son volume n'est pas important, donc cette déclaration n'a pas attiré beaucoup d'attention, mais les seuls quelques commentaires ont condamné le comportement d'apprentissage et de réflexion.## **Réponse de Xueersi : Tous répondent aux exigences du contrat**Après avoir été rapporté par de nombreux médias, cet incident a peu à peu fermenté, c'est pourquoi le Weibo officiel de Xueersi a également posté une réponse à cela hier soir :> Tout d'abord, MathGPT est un grand modèle auto-développé axé sur le domaine des mathématiques, sans aucune donnée liée à la composition ; deuxièmement, "Composition AI Assistant" est actuellement en cours de développement et n'a pas encore été publié. Ce service n'utilise pas toutes les données de Penshen Composition.![](https://img.gateio.im/social/moments-bab2147faf-f1f40067e4-dd1a6f-62a40f) Cependant, Bishen Composition a affirmé que plus de 2 millions de fois des données avaient été explorées. Xueersi a souligné que le contrat stipulait clairement que "le nombre d'appels inclus dans les frais mensuels garantis est de l'ordre de millions", et l'interface qu'il appelle "appartient à l'accord contractuel entre les deux parties. la portée normale de la coopération".À la fin de la réponse, Xueersi a souligné qu'il "respecte toujours les droits de propriété intellectuelle et attache une grande importance à la protection de la propriété intellectuelle", et que toutes les actions sont strictement exécutées conformément au contrat. , nous nous réservons le droit de poursuivre sa violation de réputation responsabilité."## **Problème de droit d'auteur des données d'entraînement de l'IA**À en juger par les déclarations actuelles faites par les deux parties, ce différend ne peut pas encore tirer de conclusion définitive, mais il révèle également un angle mort qui est facilement négligé mais très important dans le récent concours de modèles à grande échelle d'IA de plus en plus chaud : les données d'entraînement de l'IA. problème.En fait, Reddit, la "version US de Tieba" qui a fait beaucoup de bruit sur Internet ces derniers temps, a décidé d'imposer des frais d'API pour cette raison.Ces dernières années, le contenu de chat publié sur Reddit est devenu le matériau pour des entreprises telles que Google, OpenAI et Microsoft pour former de grands modèles d'IA pour développer des produits d'IA génératifs tels que ChatGPT. Avec la popularité de ces outils d'IA, le fondateur et PDG de Reddit a déclaré : "Le corpus de données de Reddit est très précieux, mais nous ne voulons pas fournir ce contenu gratuitement à certaines entreprises géantes."Après que Reddit ait pris l'initiative de demander aux géants de la technologie de payer pour l'utilisation des données, Stack Overflow, un site Web de questions-réponses informatique bien connu, a également annoncé son intention de facturer les grands développeurs d'IA pour l'accès aux données à partir du milieu de cette année. ) développement, la contribution apportée doit également être rémunérée.En plus de grands sites tels que Reddit et Stack Overflow, même dans le cercle des développeurs, certains programmeurs ont également annoncé qu'ils abandonneraient GitHub en raison de la prétendue violation du droit d'auteur du code par Copilot :![](https://img.gateio.im/social/moments-bab2147faf-1d59f27860-dd1a6f-62a40f)  ![](https://img.gateio.im/social/moments-bab2147faf-ee27c3535c-dd1a6f-62a40f) Sans aucun doute, dans le processus de rendre les grands modèles d'IA plus intelligents, des données de formation massives sont essentielles, mais du point de vue actuel, OpenAI, le "poulet frit populaire" dans le domaine de l'IA aujourd'hui, n'a pas beaucoup de problèmes de droits d'auteur pour les données d'entraînement bonne solution.Cependant, avec la poursuite du boom de l'IA, ce problème est appelé à être résolu. Comme l'a dit Chen Zhong, professeur à l'École d'informatique de l'Université de Pékin : « Peut-être qu'aux premiers stades de la recherche et du développement, les gens ne se soucient pas de la source des données, mais lorsque vous générez d'énormes avantages économiques, le modèle économique traditionnel et le système juridique limiteront votre recherche et votre développement. Comportement.Alors que pensez-vous de ce problème ?Lien de référence :