6 років результатів, проскановано понад 2 мільйони разів, вимагайте лише 1 юань? Модель штучного інтелекту звинуватили у «крадіжці» даних, остання відповідь Сюерсі

Question

Аранжування: Чжен ЛіюаньПродавець: CSDN (ID: CSDNnews)Минулого місяця Xueersi повідомила, що зараз розробляє власну велику математичну модель MathGPT, яка орієнтована на ентузіастів математики та науково-дослідні установи та побудована на основі алгоритмів вирішення задач і лекцій у галузі математики як ядра.У той час багато людей відчували, що нарешті з’явиться версія ChatGPT для студентів-науків.Неочікувано, перш ніж MathGPT було фактично запущено, «скандал» навколо нього спалахнув першим: цього вівторка Bishen Composition App звинуватив Xueersi у незаконному доступі до 2,58 мільйона даних на його сервері та кешуванні за допомогою технології «сканера». розробити новий продукт MathGPT «помічник композиції AI».## **6 років результатів, сканування більше 2 мільйонів разів за вихідні**Один із головних героїв цього інциденту, Bishen Composition, є композиційною освітньою платформою K12 (навчання від дитячого садка до 12 класу), створеною в грудні 2017 року, яка є філією компанії Beijing Yiyilianghua Technology Co., Ltd.У той час ринок штучного інтелекту був набагато менш популярним, ніж зараз, але з його особливістю «використання технології штучного інтелекту, щоб допомогти письменникам покращити свої навички письма», у січні 2018 року Bishen Composition отримав кілька мільйонів юанів у початковому раунді. фінансування від ZhenFund У липні 2019 року він завершив багатомільйонний раунд фінансування.Згідно з офіційною інформацією, Pen God Composition існує в Інтернеті вже шість років і щомісяця отримує понад 300 000 есе та понад 400 000 лайків і коментарів. Він накопичує мільйони композиційних матеріалів і виправляє понад 30 000 есе на місяць.З народженням ChatGPT наприкінці минулого року Шидзі Тіаньхонг, один з інвесторів Penshen, якось сказав, що Penshen і ChatGPT мають однакову технологію, і обидва використовують найновіший алгоритм на основі Transformer як нижнього рівня AI модель. Сонг Цзявей, засновник Bishen Composition, також представив: «Наразі понад 60% команди займають технічний науково-дослідний персонал. До заснування компанії команда заснувала компанії НЛП. Це було культивовано протягом багатьох років."Таким чином, загалом модель алгоритму Penshen Composition самостійно розробляє та навчає компанія, а великі дані її платформи надходять із власного накопичення.Завдяки технічному накопиченню та видатним досягненням у написанні Bishen Composition і Xueersi досягли співпраці три роки тому: вони підписали контракт із додатком інструментів навчання Xueersi «Tipai Pai», який головним чином відповідає за надання послуг із запиту композиційного матеріалу.Як партнер цього тижня Bishen Composition заявив: 13 квітня сталося те, чого ми не очікували. Шестирічні досягнення нашої команди з моменту заснування компанії були досягнуті «Xueersi», які співпрацювали протягом багатьох років лише за короткий проміжок часу Понад два мільйони сканувань за один вихідний!## **Апеляція: 1 юань компенсації, публічні вибачення та видалення даних**Судячи з офіційної заяви Weibo компанії Penshen Composition, вона не має повного механізму безпеки даних і не встановила всіх запобіжних заходів для своїх «партнерів» Xueersi, що призвело до того, що дочірні компанії Santi Yunlian (Xueersi) скористалися цією довірою. , тобто: без авторизації Pen God Composition APP, з 13 квітня по 17 квітня 2023 року, незаконно отримувати доступ і кешувати сервер Pen God Composition APP через технологію «сканера» Дані 2,58 мільйона разів.У зв’язку з цим Bishen Composition стверджує, що така поведінка порушує умови договору між двома сторонами та навіть статтю 32 «Закону про захист даних» «Будь-яка організація чи особа повинні збирати дані законним і належним чином і повинні не крадіть і не використовуйте інші методи для збору даних." Незаконне отримання даних" серйозно порушує права на дані та інтереси APP Bishenzuowen.Після цього Penshen Composition попросила Xueersi про перевірку, і інша сторона прямо визнала, що їх група алгоритмів сканувала дані та використовувала їх для власних потреб. Тому компанія Penshen Composition надіслала листа юристу, але не отримала відповіді по суті від іншої сторони.У цей час модель штучного інтелекту Xueersi MathGPT збирається запустити новий продукт «Composition AI Assistant».«Як компанія, яка набагато менша за «Xueersi», у нас немає іншого вибору, окрім як захищати свої права через законні канали». Прецедент судового рішення щодо крадіжки даних великої моделі ШІ, тому вона може лише «сміливо зробити цей перший крок».Що стосується апеляції Penshen Composition, то насправді вона не вимагає великої суми компенсації: я просто хочу, щоб Xueersi заплатив 1 юань компенсації, публічно вибачився та видалив проскановані дані.З цього приводу Bishen Composition пояснив: «Дані цінні, але наша наполеглива праця ще безцінніша. Претензія на 1 юань тому, що чесність і справедливість не можна виміряти грошима. Ми сподіваємося сказати суспільству, що така поведінка є неправильною через Розвиток індустрії штучного інтелекту базується на спільній творчості, а не на жаданні та плагіаті досягнень інших».![](https://img.gateio.im/social/moments-bab2147faf-be0be09278-dd1a6f-62a40f) Це правда, як сказав композиція бога пера, його обсяг невеликий, тому ця заява не привернула особливої уваги, але лише кілька коментарів засуджували поведінку навчання та мислення.## **Відповідь Xueersi: усі відповідають умовам контракту**Після того, як про нього повідомили багато ЗМІ, цей інцидент поступово загнивав, тому вчора ввечері офіційний Weibo Xueersi також опублікував відповідь на це:> По-перше, MathGPT — це власно розроблена велика модель, зосереджена на галузі математики, без будь-яких даних, пов’язаних із композицією; по-друге, «Composition AI Assistant» наразі розробляється та ще не випущено. Ця служба не використовує будь-які дані Penshen Composition.![](https://img.gateio.im/social/moments-bab2147faf-f1f40067e4-dd1a6f-62a40f) Однак Bishen Composition стверджував, що дані були проскановані понад 2 мільйони разів. Xueersi зазначив, що в контракті чітко вказано, що «кількість дзвінків, включених у щомісячну гарантовану плату, становить близько мільйонів», а інтерфейс, який він викликає "належить до контрактної угоди між двома сторонами. нормальний обсяг співпраці".Наприкінці відповіді Xueersi підкреслив, що він «завжди поважає права інтелектуальної власності та надає великого значення захисту інтелектуальної власності», і всі дії виконуються суворо відповідно до контракту. Ми залишаємо за собою право переслідувати порушення його репутації відповідальність».## **Проблема авторського права на навчальні дані ШІ**Судячи з поточних заяв, зроблених обома сторонами, ця суперечка ще не може зробити остаточний висновок, але вона також розкриває сліпу пляму, яку легко не помітити, але дуже важливу в останній дедалі гарячішій конкуренції великомасштабних моделей штучного інтелекту: дані навчання штучного інтелекту. проблема.Насправді Reddit, «американська версія Tieba», яка нещодавно наробила багато шуму в Інтернеті, вирішила з цієї причини примусово стягувати плату за API.Останніми роками вміст чату, опублікований на Reddit, став матеріалом для таких компаній, як Google, OpenAI і Microsoft, для навчання великих моделей ШІ розробці генеративних продуктів ШІ, таких як ChatGPT. З огляду на популярність таких інструментів штучного інтелекту, засновник і генеральний директор Reddit сказав: «Корпус даних Reddit є дуже цінним, але ми не хочемо надавати цей вміст деяким гігантським компаніям безкоштовно».Після того, як Reddit взяв на себе ініціативу вимагати від технологічних гігантів платити за використання даних, Stack Overflow, відомий ІТ-сайт із питаннями та відповідями, також оголосив про плани стягувати з великих розробників ШІ плату за доступ до даних із середини цього року. (LLM ) розвитку, зроблений внесок також має бути компенсований».Крім великих сайтів, таких як Reddit і Stack Overflow, навіть у колі розробників деякі програмісти також оголосили, що вони відмовляться від GitHub через ймовірне порушення авторських прав на код Copilot:![](https://img.gateio.im/social/moments-bab2147faf-1d59f27860-dd1a6f-62a40f)  ![](https://img.gateio.im/social/moments-bab2147faf-ee27c3535c-dd1a6f-62a40f) Безсумнівно, у процесі створення великих моделей штучного інтелекту розумнішими, масивні навчальні дані є важливими, але з поточної точки зору, OpenAI, «популярне смажене курча» сьогодні в області штучного інтелекту, не має багато проблем з авторським правом для тренувальних даних.хороше рішення.Однак із подальшим розвитком штучного інтелекту ця проблема обов’язково буде вирішена. Як сказав Чень Чжун, професор Школи комп’ютерних наук Пекінського університету: «Можливо, на ранніх стадіях досліджень і розробок людей не хвилює джерело даних, але коли ви отримуєте величезні економічні вигоди, традиційна економічна модель і правова система буде обмежувати ваші дослідження та розробки. Поведінка».Отже, що ви думаєте про це питання?Посилання на посилання: