6 سنوات من النتائج ، تم الزحف إليها 2 مليون + مرة ، وتطالب فقط بـ 1 يوان؟ تم اتهام نموذج الذكاء الاصطناعي بـ "سرقة" البيانات ، وهو أحدث رد لـ Xueersi

2023-06-15 01:56:07

الترتيب: تشنغ ليوان

البائع: CSDN (المعرف: CSDNnews)

في الشهر الماضي ، كشفت Xueersi أنها تعمل حاليًا على تطوير نموذج رياضي كبير خاص بها ، MathGPT ، والذي يستهدف عشاق الرياضيات العالميين ومؤسسات البحث العلمي ، وقد تم بناؤه باستخدام خوارزميات حل المشكلات والمحاضرات في مجال الرياضيات باعتبارها جوهرًا.

في ذلك الوقت ، شعر الكثير من الناس أن إصدار "طلاب العلوم" من ChatGPT قادم أخيرًا.

بشكل غير متوقع ، قبل إطلاق MathGPT فعليًا ، اندلعت "الفضيحة" حوله أولاً: في هذا الثلاثاء ، اتهم تطبيق Bishen Composition App Xueersi بالوصول بشكل غير قانوني إلى 2.58 مليون بيانات على خادمه وتخزينها مؤقتًا من خلال تقنية "الزاحف". تطوير منتج MathGPT الجديد "مساعد تكوين الذكاء الاصطناعي".

6 سنوات من النتائج ، تم الزحف إليها أكثر من مليوني مرة في عطلة نهاية الأسبوع

أحد أبطال هذه الحادثة ، Bishen Composition ، هو منصة تعليمية لتكوين K12 (التعليم من روضة الأطفال إلى الصف 12) تأسست في ديسمبر 2017 ، وهي تابعة لشركة Beijing Yiyilianghua Technology Co.، Ltd.

في ذلك الوقت ، كان سوق الذكاء الاصطناعي أقل شعبية بكثير مما هو عليه الآن ، ولكن مع ميزة "استخدام تقنية الذكاء الاصطناعي لمساعدة الكتاب على تحسين مهاراتهم في الكتابة" ، في يناير 2018 ، تلقت Bishen Composition عدة ملايين من اليوانات في جولة أولية من ZhenFund. في يوليو 2019 ، أكملت جولة تمويل بملايين الدولارات.

وفقًا للمعلومات الرسمية ، فإن Pen God Composition موجود على الإنترنت منذ ست سنوات ، وقد تلقى أكثر من 300000 مقال وأكثر من 400000 إعجاب وتعليق كل شهر. وقد جمعت ملايين من مواد التكوين وصححت أكثر من 30000 مقال شهريًا.

مع ولادة ChatGPT في نهاية العام الماضي ، قال شيجي تيانهونج ، أحد مستثمري Penshen ، ذات مرة أن "Penshen" و ChatGPT لديهما نفس التقنية ، وكلاهما يتبنى أحدث خوارزمية تعتمد على Transformer كطبقة سفلية من نموذج الذكاء الاصطناعي. كما قدم Song Jiawei ، مؤسس Bishen Composition ، "ضربة واحدة وسكتين دماغيتين تضم حاليًا أكثر من 60٪ من الفريق كموظفين تقنيين للبحث والتطوير. قبل إنشاء الشركة ، كان الفريق قد أسس شركات البرمجة اللغوية العصبية". لعدة سنوات."

لذلك ، بشكل عام ، فإن نموذج الخوارزمية الخاص بـ Penshen Composition تم تطويره وتدريبه ذاتيًا من قبل الشركة ، وتأتي البيانات الضخمة لمنصتها من تراكمها الخاص.

نظرًا للتراكم التقني والإنجازات الرائعة في الكتابة ، توصل Bishen Composition و Xueersi إلى تعاون منذ ثلاث سنوات: فقد وقع عقدًا مع تطبيق أداة التعلم Xueersi "Tipai Pai" ، وهو المسؤول بشكل أساسي عن توفير خدمات الاستعلام عن مواد التكوين.

كشريك ، ذكر تكوين Bishen لهذا الأسبوع: في 13 أبريل ، حدث شيء لم نتوقعه. تم تحقيق إنجازات فريقنا على مدار ست سنوات منذ إنشاء الشركة من قبل "Xueersi" الذين تعاونوا لسنوات عديدة في فترة زمنية قصيرة. أكثر من مليوني عملية زحف في عطلة نهاية أسبوع واحدة!

استئناف: 1 يوان تعويض واعتذار عام وحذف بيانات

انطلاقًا من بيان Weibo الرسمي الخاص بـ Penshen Composition ، فإنه لا يحتوي على آلية أمان بيانات كاملة ، ولم يقم بإعداد جميع الاحتياطات لـ "شركائه" Xueersi ، مما أدى إلى قيام الشركات التابعة لـ Santi Yunlian (Xueersi) بالاستفادة من هذه الثقة ، أي: بدون إذن تطبيق Pen God Composition APP ، في الفترة من 13 أبريل إلى 17 أبريل 2023 ، يمكنك الوصول بشكل غير قانوني إلى خادم تطبيق Pen God Composition APP وتخزينه مؤقتًا من خلال تقنية "الزاحف". تصل البيانات إلى 2.58 مليون مرة.

في هذا الصدد ، تدعي Bishen Composition أن هذا السلوك ينتهك شروط العقد المبرم بين الطرفين ، بل وينتهك المادة 32 من "قانون حماية البيانات" "يجب على أي منظمة أو فرد جمع البيانات بطريقة قانونية ومناسبة ، ويجب عدم سرقة أو استخدام طرق أخرى لجمع البيانات. "الحصول على البيانات بشكل غير قانوني" انتهك حقوق البيانات ومصالح تطبيق Bishenzuowen بشكل خطير.

بعد ذلك ، طلبت Penshen Composition من Xueersi التحقق ، واعترف الطرف الآخر مباشرة أن مجموعة الخوارزميات الخاصة بهم كانت تزحف إلى البيانات وتستخدمها لاستخدامهم الخاص. لذلك ، أرسل Penshen Composition رسالة محامي ، لكنه لم يتلق ردًا موضوعيًا من الطرف الآخر. في هذا الوقت ، نموذج Xueersi AI MathGPT على وشك إطلاق منتج جديد "مساعد الذكاء الاصطناعي".

"بصفتنا شركة أصغر بكثير من" Xueersi "، ليس لدينا خيار سوى حماية حقوقنا من خلال القنوات القانونية.

أما بالنسبة لجاذبية Penshen Composition ، فهي لا تطلب في الواقع مبلغًا كبيرًا من التعويض: أريد فقط أن تدفع Xueersi 1 يوان كتعويض ، وتعتذر علنًا وتحذف البيانات التي تم الزحف إليها.

في هذا الصدد ، أوضح Bishen Composition: "البيانات قيمة ، لكن عملنا الجاد لا يقدر بثمن. المطالبة بـ 1 يوان لأن العدل والإنصاف لا يمكن قياسهما بالمال. ونأمل أن نقول للمجتمع أن هذا السلوك خاطئ من خلال التقاضي. يعتمد تطوير صناعة الذكاء الاصطناعي على الإبداع المشترك بدلاً من اشتهاء إنجازات الآخرين وانتحالها ".

صحيح أنه كما قال تكوين القلم ، حجمه ليس كبيرًا ، لذلك لم يجذب هذا البيان الكثير من الاهتمام ، لكن التعليقات القليلة فقط أدانت سلوك التعلم والتفكير.

استجابة Xueersi: جميعها تلبي متطلبات العقد

بعد أن تم الإبلاغ عنها من قبل العديد من وسائل الإعلام ، تخمر هذا الحادث تدريجيًا ، لذلك نشر Weibo الرسمي من Xueersi أيضًا ردًا على هذه الليلة الماضية:

أولاً وقبل كل شيء ، يعد MathGPT نموذجًا كبيرًا تم تطويره ذاتيًا يركز على مجال الرياضيات ، دون أي بيانات متعلقة بالتكوين ؛ ثانيًا ، "Composition AI Assistant" قيد التطوير حاليًا ولم يتم إصداره بعد. لا تستخدم الخدمة أي بيانات من تكوين Penshen.

ومع ذلك ، ادعت Bishen Composition أنه تم الزحف إلى أكثر من مليوني مرة من البيانات. وأشار Xueersi إلى أن العقد ينص بوضوح على أن "عدد المكالمات المدرجة في الرسوم الشهرية المضمونة هو في حدود الملايين" ، والواجهة التي يستدعيها "ينتمي إلى اتفاق العقد بين الطرفين. النطاق الطبيعي للتعاون".

في نهاية الرد ، أكد Xueersi أنه "يحترم دائمًا حقوق الملكية الفكرية ويولي أهمية كبيرة لحماية الملكية الفكرية" ، ويتم تنفيذ جميع الإجراءات بدقة وفقًا للعقد. ، سنحتفظ بالحق في متابعة انتهاك سمعته. مسؤولية."

إصدار حقوق الطبع والنشر لبيانات التدريب على الذكاء الاصطناعي

انطلاقًا من التصريحات الحالية التي أدلى بها كلا الطرفين ، لا يمكن لهذا النزاع أن يخلص إلى نتيجة نهائية حتى الآن ، ولكنه يكشف أيضًا عن نقطة عمياء يمكن التغاضي عنها بسهولة ولكنها مهمة جدًا في مسابقة نموذج الذكاء الاصطناعي واسعة النطاق التي تزداد سخونة مؤخرًا: بيانات التدريب على الذكاء الاصطناعي. مشكلة.

في الواقع ، قررت Reddit ، "النسخة الأمريكية من Tieba" التي أحدثت الكثير من الضجيج على الإنترنت مؤخرًا ، فرض رسوم على واجهة برمجة التطبيقات لهذا السبب.

في السنوات الأخيرة ، أصبح محتوى الدردشة المنشور على Reddit مادة لشركات مثل Google و OpenAI و Microsoft لتدريب نماذج الذكاء الاصطناعي الكبيرة لتطوير منتجات الذكاء الاصطناعي التوليدية مثل ChatGPT. مع شعبية أدوات الذكاء الاصطناعي هذه ، قال مؤسس Reddit ومديرها التنفيذي: "مجموعة بيانات Reddit قيمة للغاية ، لكننا لا نريد توفير هذا المحتوى لبعض الشركات العملاقة مجانًا."

بعد أن تولى Reddit زمام المبادرة في مطالبة عمالقة التكنولوجيا بالدفع مقابل استخدام البيانات ، أعلن موقع Stack Overflow ، وهو موقع إلكتروني شهير للأسئلة والأجوبة في مجال تكنولوجيا المعلومات ، عن خطط لفرض رسوم على مطوري الذكاء الاصطناعي الكبار للوصول إلى البيانات من منتصف هذا العام. ) التنمية ، يجب أيضًا تعويض المساهمة ".

بالإضافة إلى المواقع الكبيرة مثل Reddit و Stack Overflow ، حتى في دائرة المطورين ، أعلن بعض المبرمجين أيضًا أنهم سيتخلون عن GitHub بسبب انتهاك حقوق النشر المزعوم لرمز Copilot:

مما لا شك فيه ، في عملية جعل النماذج الكبيرة للذكاء الاصطناعي أكثر ذكاءً ، تعد بيانات التدريب الضخمة ضرورية ، ولكن من وجهة النظر الحالية ، فإن OpenAI ، "الدجاج المقلي الرائج" في مجال الذكاء الاصطناعي اليوم ، ليس لديه الكثير من مشكلات حقوق النشر لبيانات التدريب حل جيد.

ومع ذلك ، مع مزيد من التقدم في طفرة الذكاء الاصطناعي ، لا بد من حل هذه المشكلة. كما قال تشين تشونغ ، الأستاذ في كلية علوم الكمبيوتر بجامعة بكين: "ربما في المراحل الأولى من البحث والتطوير ، لا يهتم الناس بمصدر البيانات ، ولكن عندما تولد فوائد اقتصادية ضخمة ، فإن النموذج الاقتصادي التقليدي والنظام القانوني سيقيدان البحث والتطوير. السلوك. "

إذن ما رأيك في هذه القضية؟

ارتباط مرجعي:

شاهد النسخة الأصلية

المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.