6 年成果,被爬取200+ 萬次,僅索賠1 元? AI 大模型被指控“偷”數據,學而思最新回應

整理:鄭麗媛

出售方:CSDN(ID:CSDNnews)

上個月,學而思曾透露消息稱,目前其正在自研數學大模型MathGPT,即面向全球數學愛好者和科研機構,以數學領域的解題和講題算法為核心打造而成。

彼時許多人感慨,“理科生”版的ChatGPT 終於要來了。

不曾想,MathGPT 還未真正面世,有關它的“醜聞”就先一步爆發了:本週二,筆神作文App 指控學而思通過“爬蟲”技術,非法訪問、緩存其服務器數據多達258 萬次,以此開發MathGPT 的新產品“作文AI 助手”。

6 年成果,一個週末被爬取超200 萬次

此次事件的主角之一,筆神作文,是一個成立於2017 年12 月的K12(從幼兒園到12 年級的教育)作文教育平台,隸屬於北京一筆兩劃科技有限公司。

當時的AI 市場遠不如現在火爆,筆神作文卻憑藉其“用人工智能技術,幫助寫作者提升寫作能力”的特色,在2018 年1 月獲得了真格基金數百萬元種子輪融資,後來又在2019 年7 月完成了數百萬天使輪融資。

根據官方資料顯示,筆神作文上線六年,每月會收到超過30 萬篇作文投稿和超過40 萬次的點贊評論,積累了數百萬篇作文素材,月批改作文量超3 萬篇。

而伴隨著去年年底ChatGPT 的橫空出世,筆神作文的投資方之一世紀天鴻曾表示,“筆神”與ChatGPT 技術同源,都是採用基於Transformer 的最新算法作為AI 模型底層。筆神作文創始人宋嘉偉也曾介紹道:“一筆兩劃目前團隊有超過60% 為技術研發人員,在成立公司之前該團隊就曾創立過NLP 類公司,部分骨幹在自然語言理解領域合作並深耕多年。”

因此整體而言,筆神作文的算法模型為一筆兩劃公司自研訓練,其平台的大數據來自於自身累積。

因其在寫作方面的技術積累和顯著成果,三年前筆神作文與學而思达成了合作:與學而思旗下的學習工具App “題拍拍”簽約,主要負責提供作文素材查詢服務。

而作為合作夥伴,本週筆神作文表示:在4 月13 日發生了一件我們都沒有預想的事情,我們團隊從創業以來的6 年成果,被合作多年的“學而思”在短短一個週末的時間爬取了超過兩百萬次!

訴求:1 元賠償金,公開道歉並刪除數據

從筆神作文官方微博的聲明來看,本身它沒有完備的數據安全機制,而對於“合作夥伴”學而思,更是沒有設置全部的提防,從而導致三體雲聯公司(學而思子公司)利用這份信任,即:在未經筆神作文APP 授權許可的情況下,在2023 年4 月13 日至4 月17 日期間通過“爬蟲”技術非法訪問、緩存筆神作文APP 服務器數據多達258 萬次。

對此,筆神作文主張該行為違反了雙方的合同條款,更違反了《數據保護法》第三十二條“任何組織、個人收集數據,應當採取合法、正當的方式,不得竊取或者以其他非法方式獲取數據”的規定,嚴重侵犯了筆神作文APP 的數據權益。

事後,筆神作文向學而思進行了求證,對方直接承認是他們的算法組在爬取數據並作為己用。因此筆神作文發送了律師函,卻沒有得到對方的實質性回复,而此時學而思的AI 大模型MathGPT 卻即將上線新產品“作文AI 助手”。

“我們作為一家體量遠小於'學而思'的公司已經別無他法,只能通過法律途徑來維護我們的權益。”但筆神作文在聲明中也指出,目前的法律法規並沒有【AI 大模型數據盜取】的判決先例,因此只能“勇敢地走出這第一步”。

至於筆神作文的訴求,實際上也並非是索要大額賠償金:只想要學而思支付1 元賠償金,公開道歉並刪除已爬取的數據。

對此,筆神作文解釋道:“數據是有價值的,但我們心血更是無價,索賠1 元是因為公平公正並不能用金錢衡量,我們希望通過訴訟告訴社會這種行為是錯誤的。人工智能行業的發展,靠的是共同創造,而非覬覦和剽竊他人的成果。”

確實正如筆神作文所說,其體量並不大,因此這封聲明也並未引起太多關注,不過僅有的幾條評論中都在譴責學而思的行為。

學而思回應:均符合合同要求

經多家媒體報導後,這起事件逐漸發酵,於是昨晚學而思官方微博也對此發文回應:

首先,MathGPT 是專注於數學領域的自研大模型,沒有任何作文相關數據;其次,“作文AI 助手”目前處於開發狀態,尚未發布,該服務並未使用筆神作文的任何數據。

而筆神作文聲稱被爬取二百多萬次的數據,學而思指出合同中明確過“每月保底費用包含的調用次數為百萬次量級”,其調用的接口“屬於雙方合同約定的正常合作範圍”。

在回應的最後,學而思強調其“一直尊重知識產權、重視知識產權保護”,所有行為均嚴格按照合同約定履行,但是:“筆神作文的公開聲明已經對學而思品牌聲譽造成了傷害,我們將保留追究其名譽侵權責任的權利。”

AI 訓練數據的版權問題

從目前雙方給出的聲明來看,此次糾紛還不能給出最終結論,但這也揭示了近來日益火熱的AI 大模型角逐下,一個容易被忽略卻又十分重要的盲點:AI 訓練數據的版權問題。

事實上,最近在外網鬧得沸沸揚揚的“美版貼吧” Reddit 強制對API 進行收費的決定也出於這個原因。

近年來Reddit 上發布的聊天內容,已成為谷歌、OpenAI 和微軟等企業訓練AI 大模型的素材,以此來開發ChatGPT 等生成式AI 產品。而伴隨著這類AI 工具的火爆,Reddit 創始人兼CEO 表示:“Reddit 的數據語料庫非常有價值,但我們不想把這些內容免費提供給一些巨頭公司了。”

繼Reddit 帶頭表態要求科技巨頭付費使用數據後,知名IT 問答網站Stack Overflow 也宣布計劃從今年年中起,向大型AI 開發商收取數據訪問費用,其CEO 也指出:“社區平台推動了大語言模型(LLM)發展,所作出的貢獻也必須得到補償。”

除了Reddit 和Stack Overflow 這類大型網站,甚至在開發者圈子中,部分程序員也因Copilot 涉嫌侵犯代碼版權宣稱要棄用GitHub:

毫無疑問,AI 大模型在變得更智能的過程中,海量的訓練數據必不可少,但從目前來看,當今AI 領域的“當紅炸子雞”OpenAI,對於訓練數據的版權問題都沒有很好的解決方案。

然而,伴隨著AI 熱潮進一步推進,這個問題又勢必要得到解決。正如北京大學計算機學院教授陳鍾所說:“可能在研發初期,大家對數據來源並不在意,但當你產生了巨大的經濟效益時,現實傳統的經濟模式、法律體係都將約束著你的行為。”

那麼對於這個問題,你又是否有什麼看法?

參考鏈接:

查看原文
本頁面內容僅供參考,非招攬或要約,也不提供投資、稅務或法律諮詢。詳見聲明了解更多風險披露。
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate.io APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)