6 年間の実績、200 万回以上のクロールでも、請求額は 1 元だけですか? AIモデルがデータを「盗んだ」疑いで告発、Xueersi氏の最新反応

Question

編曲：鄭麗源出品：CSDN（ID：CSDNnews）先月、Xueersiは現在、世界の数学愛好家や科学研究機関を対象とした独自の大規模数学モデルMathGPTを開発中であることを明らかにしており、数学分野の問題解決アルゴリズムと講義アルゴリズムを中核として構築されている。当時、ChatGPT の「理系学生」バージョンがついに登場すると多くの人が感じました。予想外なことに、MathGPT が実際に開始される前に、MathGPT に関する「スキャンダル」が最初に勃発しました。今週火曜日、Bishen 作文アプリは、Xueersi が「クローラー」テクノロジーを通じてサーバー上の 258 万ものデータに違法にアクセスし、キャッシュしたとして告発しました。 MathGPTの新製品「作文AIアシスタント」を開発。## **6 年間の実績、週末に 200 万回以上クロール**この事件の主役の一人であるBishen Recipeは、2017年12月に設立されたK12（幼稚園から12年生までの教育）の作文教育プラットフォームで、Beijing Yiyilianghua Technology Co., Ltd.の傘下にあります。当時、AI市場は現在よりもはるかに人気がありませんでしたが、「人工知能技術を使用して作家の執筆スキルの向上を支援する」という特徴により、2018年1月にBishen Compositionはシードラウンドで数百万元を獲得しましたZhenFundからの資金調達を受け、2019年7月に数百万規模のエンジェルラウンドによる資金調達を完了した。公式情報によると、ペン神作文は6年間オンラインで運営されており、毎月30万件以上のエッセイの投稿と40万件以上の「いいね！」とコメントを受け取り、数百万の作文素材を蓄積し、毎月3万件以上のエッセイを添削してきたという。昨年末に ChatGPT が誕生したとき、Penshen の投資家の一人である Shiji Tianhong 氏は、「Penshen」と ChatGPT は同じテクノロジーを持っており、両方とも Transformer に基づく最新のアルゴリズムを最下位層として採用していると述べました。 AIモデル。 Bishen Combo の創設者である Song Jiawe 氏も次のように紹介しました。「現在、一筆二筆はチームの 60% 以上が技術研究開発要員です。会社設立前、チームは NLP 会社を設立していました。長年。"したがって、全体として、Penshen Combopositionのアルゴリズムモデルは自社で開発およびトレーニングされており、プラットフォームのビッグデータは自社の蓄積から得られます。技術的な蓄積と執筆における顕著な成果により、Bishen作曲とXueersiは3年前に協力関係に達し、主に作曲素材クエリサービスの提供を担当するXueersiの学習ツールアプリ「Tipai Pai」と契約を締結した。今週の美神作文はパートナーとして、「4月13日、私たちが予期していなかったことが起こりました。会社設立以来、私たちのチームの6年間の成果は、わずか1年で長年協力してきた「Xueersi」によって達成されました。短期間で、週末に 200 万回以上のクロールが行われました。## **控訴：1元の賠償、公的謝罪およびデータ削除**Penshen Combo の Weibo の公式声明から判断すると、同社は完全なデータ セキュリティ メカニズムを備えておらず、「パートナー」である Xueersi に対してすべての予防措置を講じていないため、Santi Yunlian (Xueersi) の子会社がこの信頼を利用することになりました。つまり、ペン神作文APPの許可なく、2023年4月13日から4月17日までの間、「クローラー」技術を通じてペン神作文APPサーバーに不正にアクセスし、キャッシュしたデータは最大258万回に及びます。これに関して、Bishen Composition は、この行為は両当事者間の契約条項に違反し、さらには「データ保護法」第 32 条にも違反すると主張しています。データを盗んだり、他の方法を使用してデータを収集しないでください。「データを違法に取得する」ことは、Bishenzuowen APP のデータの権利と利益を重大に侵害しています。その後、ペンシェン・コンポジションはXueersiに検証を求め、相手方は自社のアルゴリズムグループがデータをクロールし、自らの目的で使用していたことを直接認めた。そのため、Penshen Combopositionは弁護士の手紙を送ったが、相手方から実質的な返答は得られず、現在、XueersiのAIモデルMathGPTが新製品「Composition AI Assistant」を発売しようとしている。「『Xueersi』よりもはるかに小規模な企業として、法的手段を通じて権利を守る以外に選択肢はありません。」AI大規模モデルデータ盗難]判決の先例があるため、「この最初の一歩を勇敢に踏み出す」ことしかできません。Penshen Composition の訴えについては、実際に多額の賠償を求めているわけではありません。Xueersi に 1 元の賠償金を支払い、公的に謝罪し、クロールされたデータを削除してほしいだけです。これに関して、Bishen Composition は次のように説明しました。「データは貴重ですが、私たちの努力はさらに貴重です。1 元の要求は、公平性と正義はお金では測れないからです。私たちは、この行動が間違っていることを社会に伝えたいと考えています」人工知能産業の発展は、他人の成果をむさぼり読んだり盗用したりするのではなく、共創に依存しています。」![](https://img.gateio.im/social/moments-bab2147faf-be0be09278-dd1a6f-62a40f) 確かに、ペン神の作文の通り、その量は多くないため、この発言はあまり注目を集めなかったが、学習や思考という行為を非難するコメントは数件しかなかった。## **Xueersi の回答: すべてが契約要件を満たしています**多くのメディアで報道された後、この事件は徐々に発酵していったため、雪氏の公式微博も昨夜これに対して次のような反応を投稿しました。> まず第一に、MathGPT は数学の分野に焦点を当てた自社開発の大型モデルであり、作文関連のデータは含まれていません、第二に、「作文 AI アシスタント」は現在開発中であり、まだリリースされていません。 Penshen Combo からのデータ。![](https://img.gateio.im/social/moments-bab2147faf-f1f40067e4-dd1a6f-62a40f) しかし、Bishen Commission は、200 万回以上のデータがクロールされたと主張しており、Xueersi 氏は、契約書には「月額保証料金に含まれる通話回数は数百万回のオーダーである」と明記されており、そのインターフェースが呼び出されていると指摘しました。 「両当事者間の契約合意に属する。協力の通常の範囲」。Xueersiは回答の最後に、「常に知的財産権を尊重し、知的財産保護を非常に重視している」と強調し、すべての行動は契約に従って厳格に実行されており、当社はその名誉侵害を追求する権利を留保します。責任。"## **AI学習データの著作権問題**現時点での両当事者の発言から判断すると、この論争はまだ最終的な結論を導き出すことはできないが、最近ますます過熱するAI大規模モデル競争において見落とされがちだが非常に重要な盲点、つまりAI学習データも明らかになった。問題。実際、最近ネット上を騒がせている「米国版Tieba」であるRedditは、この理由からAPI料金の強制徴収を決定した。近年、Reddit で公開されたチャット コンテンツは、Google、OpenAI、Microsoft などの企業が AI 大型モデルをトレーニングして ChatGPT などの生成 AI 製品を開発するための素材となっています。このようなAIツールの人気を受けて、レディットの創設者兼最高経営責任者（CEO）は「レディットのデータコーパスは非常に価値があるが、このコンテンツを一部の巨大企業に無料で提供したくない」と述べた。Redditが率先してテクノロジー大手にデータ使用料の支払いを求めた後、有名なIT質疑応答WebサイトであるStack Overflowも、今年半ばから大規模なAI開発者にデータアクセス料を請求する計画を発表した（LLM） ）開発に貢献した場合には、その貢献も補償されなければなりません。」Reddit や Stack Overflow などの大規模サイトに加えて、開発者界でも一部のプログラマーが、Copilot によるコード著作権侵害の申し立てを理由に GitHub を放棄すると発表しました。![](https://img.gateio.im/social/moments-bab2147faf-1d59f27860-dd1a6f-62a40f)  ![](https://img.gateio.im/social/moments-bab2147faf-ee27c3535c-dd1a6f-62a40f) AIの大型モデルをより賢くする過程で、膨大な学習データが不可欠であることは間違いありませんが、現在の観点から見ると、今日のAI分野で「人気のフライドチキン」であるOpenAIには、著作権の問題はそれほど多くありませんトレーニングデータ用の良いソリューションです。しかし、AIブームがさらに進展すれば、この問題は必ず解決されるでしょう。北京大学コンピューターサイエンス学部の教授、Chen Zhong氏は次のように述べています。そして法制度はあなたの研究開発を制限するでしょう。行動。」それで、この問題についてどう思いますか?参考リンク：