Результаты за 6 лет, просмотрены более 2 миллионов раз, требуют только 1 юань? Модель ИИ обвинили в «краже» данных, последний ответ Сюэрси

Question

Аранжировка: Чжэн ЛиюаньПродавец: CSDN (ID: CSDNnews)В прошлом месяце Xueersi сообщила, что в настоящее время разрабатывает свою собственную большую математическую модель MathGPT, которая предназначена для энтузиастов математики со всего мира и научно-исследовательских учреждений и построена с использованием алгоритмов решения задач и лекций в области математики в качестве ядра.В то время многие люди чувствовали, что версия ChatGPT для студентов-естественников наконец-то появилась.Неожиданно, прежде чем MathGPT был фактически запущен, сначала разразился «скандал» по этому поводу: во вторник приложение Bishen Composition App обвинило Xueersi в незаконном доступе и кэшировании целых 2,58 миллионов данных на своем сервере с помощью технологии «краулера». разработать новый продукт MathGPT «помощник по составлению ИИ».## **6 лет результатов, сканирование более 2 миллионов раз за выходные**Один из главных героев этого инцидента, Bishen Composition, представляет собой композиционную образовательную платформу K12 (обучение от детского сада до 12 класса), созданную в декабре 2017 года и являющуюся дочерней компанией Beijing Yiyilianghua Technology Co., Ltd.В то время рынок ИИ был гораздо менее популярен, чем сейчас, но с его особенностью «использования технологий искусственного интеллекта, чтобы помочь писателям улучшить свои навыки письма», в январе 2018 года Bishen Composition получила несколько миллионов юаней в начальном раунде. финансирование от ZhenFund, В июле 2019 года он завершил многомиллионный ангельский раунд финансирования.По официальной информации, Pen God Composition работает в сети уже шесть лет, ежемесячно получает более 300 000 заявок на сочинения и более 400 000 лайков и комментариев, аккумулирует миллионы композиционных материалов и исправляет более 30 000 эссе в месяц.С рождением ChatGPT в конце прошлого года Шиджи Тяньхун, один из инвесторов Penshen, однажды сказал, что Penshen и ChatGPT используют одну и ту же технологию, и оба используют новейший алгоритм, основанный на Transformer, в качестве нижнего уровня. Модель ИИ. Сун Цзявэй, основатель Bishen Composition, также представил: «Один удар и два удара в настоящее время имеют более 60% команды в качестве технического персонала НИОКР. До основания компании команда основала компании НЛП. на протяжении многих лет."Поэтому в целом алгоритмическая модель Penshen Composition разработана и обучена компанией самостоятельно, а большие данные ее платформы поступают из собственного накопления.Благодаря своему техническому накоплению и выдающимся достижениям в письменной форме, Bishen Composition и Xueersi начали сотрудничество три года назад: они подписали контракт с обучающим приложением Xueersi «Tipai Pai», которое в основном отвечает за предоставление услуг по запросу композиционных материалов.Как партнер, Bishen Composition на этой неделе сказал: "13 апреля произошло то, чего мы не ожидали. Шестилетние достижения нашей команды с момента основания компании были достигнуты "Xueersi", которые много лет сотрудничали всего за короткий период времени.Более двух миллионов сканирований за одни выходные!## **Апелляция: компенсация в размере 1 юаня, публичные извинения и удаление данных**Судя по официальному заявлению Penshen Composition в Weibo, у него нет полного механизма защиты данных, и он не принял всех мер предосторожности для своих «партнеров» Xueersi, что привело к тому, что дочерние компании Santi Yunlian (Xueersi) воспользовались этим доверием. , то есть: без разрешения приложения Pen God Composition с 13 по 17 апреля 2023 года незаконный доступ и кеширование сервера приложения Pen God Composition с помощью технологии «краулера». Данные до 2,58 миллиона раз.В связи с этим Bishen Composition утверждает, что такое поведение нарушает условия договора между двумя сторонами и даже нарушает статью 32 «Закона о защите данных»: «Любая организация или физическое лицо должны собирать данные законным и надлежащим образом и должны не воровать и не использовать другие методы для сбора данных. «Незаконное получение данных» серьезно нарушило права и интересы приложения Bishenzuowen в отношении данных.После этого Penshen Composition запросила у Xueersi подтверждение, и другая сторона прямо признала, что их группа алгоритмов сканирует данные и использует их для собственного использования. Таким образом, Penshen Composition отправила письмо адвоката, но не получила существенного ответа от другой стороны.В настоящее время модель искусственного интеллекта Xueersi MathGPT собирается запустить новый продукт «Composition AI Assistant».«Как компания, намного меньшая, чем «Xueersi», у нас нет другого выбора, кроме как защищать наши права по юридическим каналам».Что касается апелляции Penshen Composition, то на самом деле она не требует большой суммы компенсации: я просто хочу, чтобы Xueersi выплатила компенсацию в размере 1 юаня, публично извинилась и удалила просканированные данные.В связи с этим Bishen Composition объяснил: «Данные ценны, но наша тяжелая работа еще более бесценна. Претензия на 1 юань связана с тем, что честность и справедливость не могут быть измерены деньгами. Мы надеемся сообщить обществу, что такое поведение неправильно, посредством судебные тяжбы. Развитие индустрии искусственного интеллекта опирается на совместное творчество, а не на плагиат чужих достижений».![](https://img.gateio.im/social/moments-bab2147faf-be0be09278-dd1a6f-62a40f) Правда, как сказал состав бога пера, его объем невелик, поэтому это заявление не привлекло особого внимания, но лишь немногие комментарии осуждали поведение обучения и мышления.## **Ответ Xueersi: Все соответствует требованиям контракта**После того, как многие СМИ сообщили об этом инциденте, он постепенно забродил, поэтому официальный Weibo Xueersi также опубликовал ответ на это прошлой ночью:> Во-первых, MathGPT — это крупная модель собственной разработки, ориентированная на область математики, без каких-либо данных, связанных с композицией, во-вторых, «Composition AI Assistant» в настоящее время находится в разработке и еще не выпущен. любые данные из Penshen Composition.![](https://img.gateio.im/social/moments-bab2147faf-f1f40067e4-dd1a6f-62a40f) Однако Bishen Composition заявила, что данные были просканированы более 2 миллионов раз. Сюэрси указал, что в контракте четко указано, что «количество звонков, включенных в ежемесячную гарантированную плату, составляет порядка миллионов», а интерфейс, который он вызывает, "принадлежит к договору между двумя сторонами. нормальная сфера сотрудничества".В конце ответа Xueersi подчеркнула, что «всегда соблюдает права интеллектуальной собственности и придает большое значение защите интеллектуальной собственности», и все действия выполняются строго в соответствии с договором, но: «Публичное заявление Penshen Composition уже нанес ущерб репутации бренда Xueersi. , мы оставляем за собой право нести ответственность за нарушение репутации».## **Проблема авторских прав на обучающие данные ИИ**Судя по текущим заявлениям, сделанным обеими сторонами, этот спор еще не может сделать окончательный вывод, но он также обнаруживает слепое пятно, которое легко упустить из виду, но очень важное в недавнем все более горячем конкурсе крупномасштабных моделей ИИ: данные обучения ИИ. проблема.Фактически, Reddit, «американская версия Tieba», которая в последнее время наделала много шума в Интернете, решила по этой причине ввести плату за API.В последние годы контент чата, опубликованный на Reddit, стал материалом для таких компаний, как Google, OpenAI и Microsoft, для обучения больших моделей ИИ для разработки генеративных продуктов ИИ, таких как ChatGPT. Учитывая популярность таких инструментов искусственного интеллекта, основатель и генеральный директор Reddit сказал: «Корпус данных Reddit очень ценен, но мы не хотим предоставлять этот контент некоторым гигантским компаниям бесплатно».После того, как Reddit взял на себя инициативу призвать технологических гигантов платить за использование данных, Stack Overflow, известный веб-сайт вопросов и ответов в области ИТ, также объявил о планах взимать плату с крупных разработчиков ИИ за доступ к данным с середины этого года (LLM). ) развития, сделанный вклад также должен быть компенсирован».Помимо крупных сайтов, таких как Reddit и Stack Overflow, даже в кругу разработчиков некоторые программисты также объявили, что откажутся от GitHub из-за предполагаемого нарушения авторских прав на код Copilot:![](https://img.gateio.im/social/moments-bab2147faf-1d59f27860-dd1a6f-62a40f)  ![](https://img.gateio.im/social/moments-bab2147faf-ee27c3535c-dd1a6f-62a40f) Несомненно, в процессе создания более интеллектуальных больших моделей ИИ необходимы массивные данные для обучения, но с текущей точки зрения OpenAI, «популярный сегодня жареный цыпленок» в области ИИ, не имеет большого количества проблем с авторскими правами. для обучения данных хорошее решение.Однако с дальнейшим развитием бума ИИ эта проблема обязательно будет решена. Как сказал Чэнь Чжун, профессор Школы компьютерных наук Пекинского университета: «Возможно, на ранних стадиях исследований и разработок людей не волнует источник данных, но когда вы получаете огромные экономические выгоды, традиционная экономическая модель и правовая система будет ограничивать ваши исследования и разработки. Поведение».Итак, что вы думаете об этом вопросе?Ссылка на ссылку: