6 年成果，被爬取200+ 萬次，僅索賠1 元？ AI 大模型被指控“偷”數據，學而思最新回應

Question

整理：鄭麗媛出售方：CSDN（ID：CSDNnews）上個月，學而思曾透露消息稱，目前其正在自研數學大模型MathGPT，即面向全球數學愛好者和科研機構，以數學領域的解題和講題算法為核心打造而成。彼時許多人感慨，“理科生”版的ChatGPT 終於要來了。不曾想，MathGPT 還未真正面世，有關它的“醜聞”就先一步爆發了：本週二，筆神作文App 指控學而思通過“爬蟲”技術，非法訪問、緩存其服務器數據多達258 萬次，以此開發MathGPT 的新產品“作文AI 助手”。## **6 年成果，一個週末被爬取超200 萬次**此次事件的主角之一，筆神作文，是一個成立於2017 年12 月的K12（從幼兒園到12 年級的教育）作文教育平台，隸屬於北京一筆兩劃科技有限公司。當時的AI 市場遠不如現在火爆，筆神作文卻憑藉其“用人工智能技術，幫助寫作者提升寫作能力”的特色，在2018 年1 月獲得了真格基金數百萬元種子輪融資，後來又在2019 年7 月完成了數百萬天使輪融資。根據官方資料顯示，筆神作文上線六年，每月會收到超過30 萬篇作文投稿和超過40 萬次的點贊評論，積累了數百萬篇作文素材，月批改作文量超3 萬篇。而伴隨著去年年底ChatGPT 的橫空出世，筆神作文的投資方之一世紀天鴻曾表示，“筆神”與ChatGPT 技術同源，都是採用基於Transformer 的最新算法作為AI 模型底層。筆神作文創始人宋嘉偉也曾介紹道：“一筆兩劃目前團隊有超過60% 為技術研發人員，在成立公司之前該團隊就曾創立過NLP 類公司，部分骨幹在自然語言理解領域合作並深耕多年。”因此整體而言，筆神作文的算法模型為一筆兩劃公司自研訓練，其平台的大數據來自於自身累積。因其在寫作方面的技術積累和顯著成果，三年前筆神作文與學而思达成了合作：與學而思旗下的學習工具App “題拍拍”簽約，主要負責提供作文素材查詢服務。而作為合作夥伴，本週筆神作文表示：在4 月13 日發生了一件我們都沒有預想的事情，我們團隊從創業以來的6 年成果，被合作多年的“學而思”在短短一個週末的時間爬取了超過兩百萬次！## **訴求：1 元賠償金，公開道歉並刪除數據**從筆神作文官方微博的聲明來看，本身它沒有完備的數據安全機制，而對於“合作夥伴”學而思，更是沒有設置全部的提防，從而導致三體雲聯公司（學而思子公司）利用這份信任，即：在未經筆神作文APP 授權許可的情況下，在2023 年4 月13 日至4 月17 日期間通過“爬蟲”技術非法訪問、緩存筆神作文APP 服務器數據多達258 萬次。對此，筆神作文主張該行為違反了雙方的合同條款，更違反了《數據保護法》第三十二條“任何組織、個人收集數據，應當採取合法、正當的方式，不得竊取或者以其他非法方式獲取數據”的規定，嚴重侵犯了筆神作文APP 的數據權益。事後，筆神作文向學而思進行了求證，對方直接承認是他們的算法組在爬取數據並作為己用。因此筆神作文發送了律師函，卻沒有得到對方的實質性回复，而此時學而思的AI 大模型MathGPT 卻即將上線新產品“作文AI 助手”。“我們作為一家體量遠小於'學而思'的公司已經別無他法，只能通過法律途徑來維護我們的權益。”但筆神作文在聲明中也指出，目前的法律法規並沒有【AI 大模型數據盜取】的判決先例，因此只能“勇敢地走出這第一步”。至於筆神作文的訴求，實際上也並非是索要大額賠償金：只想要學而思支付1 元賠償金，公開道歉並刪除已爬取的數據。對此，筆神作文解釋道：“數據是有價值的，但我們心血更是無價，索賠1 元是因為公平公正並不能用金錢衡量，我們希望通過訴訟告訴社會這種行為是錯誤的。人工智能行業的發展，靠的是共同創造，而非覬覦和剽竊他人的成果。”![](https://img.gateio.im/social/moments-bab2147faf-be0be09278-dd1a6f-62a40f) 確實正如筆神作文所說，其體量並不大，因此這封聲明也並未引起太多關注，不過僅有的幾條評論中都在譴責學而思的行為。## **學而思回應：均符合合同要求**經多家媒體報導後，這起事件逐漸發酵，於是昨晚學而思官方微博也對此發文回應：> 首先，MathGPT 是專注於數學領域的自研大模型，沒有任何作文相關數據；其次，“作文AI 助手”目前處於開發狀態，尚未發布，該服務並未使用筆神作文的任何數據。![](https://img.gateio.im/social/moments-bab2147faf-f1f40067e4-dd1a6f-62a40f) 而筆神作文聲稱被爬取二百多萬次的數據，學而思指出合同中明確過“每月保底費用包含的調用次數為百萬次量級”，其調用的接口“屬於雙方合同約定的正常合作範圍”。在回應的最後，學而思強調其“一直尊重知識產權、重視知識產權保護”，所有行為均嚴格按照合同約定履行，但是：“筆神作文的公開聲明已經對學而思品牌聲譽造成了傷害，我們將保留追究其名譽侵權責任的權利。”## **AI 訓練數據的版權問題**從目前雙方給出的聲明來看，此次糾紛還不能給出最終結論，但這也揭示了近來日益火熱的AI 大模型角逐下，一個容易被忽略卻又十分重要的盲點：AI 訓練數據的版權問題。事實上，最近在外網鬧得沸沸揚揚的“美版貼吧” Reddit 強制對API 進行收費的決定也出於這個原因。近年來Reddit 上發布的聊天內容，已成為谷歌、OpenAI 和微軟等企業訓練AI 大模型的素材，以此來開發ChatGPT 等生成式AI 產品。而伴隨著這類AI 工具的火爆，Reddit 創始人兼CEO 表示：“Reddit 的數據語料庫非常有價值，但我們不想把這些內容免費提供給一些巨頭公司了。”繼Reddit 帶頭表態要求科技巨頭付費使用數據後，知名IT 問答網站Stack Overflow 也宣布計劃從今年年中起，向大型AI 開發商收取數據訪問費用，其CEO 也指出：“社區平台推動了大語言模型（LLM）發展，所作出的貢獻也必須得到補償。”除了Reddit 和Stack Overflow 這類大型網站，甚至在開發者圈子中，部分程序員也因Copilot 涉嫌侵犯代碼版權宣稱要棄用GitHub：![](https://img.gateio.im/social/moments-bab2147faf-1d59f27860-dd1a6f-62a40f)  ![](https://img.gateio.im/social/moments-bab2147faf-ee27c3535c-dd1a6f-62a40f) 毫無疑問，AI 大模型在變得更智能的過程中，海量的訓練數據必不可少，但從目前來看，當今AI 領域的“當紅炸子雞”OpenAI，對於訓練數據的版權問題都沒有很好的解決方案。然而，伴隨著AI 熱潮進一步推進，這個問題又勢必要得到解決。正如北京大學計算機學院教授陳鍾所說：“可能在研發初期，大家對數據來源並不在意，但當你產生了巨大的經濟效益時，現實傳統的經濟模式、法律體係都將約束著你的行為。”那麼對於這個問題，你又是否有什麼看法？參考鏈接：