算力之後,高質量語料數據集或決定大模型能力上限

robot
摘要生成中

2月21日至23日,上海市將舉辦2025全球開發者先鋒大會(Global Developer Conference,以下簡稱GDC)。上海市經信委介紹,Hugging Face、微軟開發者社區、CSDN、阿里魔搭社區、Linux基金會、阿帕奇基金會、華為社區等國內外100家開發者社區將參與本屆GDC;聚焦大模型、算力、語料、工具、軟件平臺等核心技術,參與的開發者群體涉及硬件開發、雲計算、大數據、物聯網、AI、機器人、區塊鏈和元宇宙等。

上海庫帕思科技有限公司是本次參會的公司之一。庫帕思是按照上海市委市政府要求專門設立的人工智能語料數據平臺型企業,公司定位是專業化的功能性語料服務運營平臺,致力於面向基模、垂類模型、中小創新創業者提供低成本、高質量的語料數據服務。

“我們整個團隊從大年初四開始就沒有休息了,都在對DeepSeek的創新做研究和跟進。”庫帕思CEO黃海清對界面新聞表示,DeepSeek的橫空出世,讓整個AI行業既興奮,又焦慮。焦慮的點主要在於,為什麼現有的大模型投入了這樣多的資金,卻沒有達到DeepSeek這樣的效果。

他認為,DeepSeek的成功核心除了原始算法的創新以外,還在於採用了高質量語料數據集,這樣可以大大節約算力和數據,這為中國大模型行業“彎道超車”提供了思路。黃海清表示,根據大模型目前的發展情況,高質量的語料數據集會決定大模型能力的上限,高質量的語料供給能極大降低大模型公司的訓練成本。

他介紹,庫帕思已經全面啟動具身智能、金融、製造、教育、醫療、文娛、城市治理等領域的行業語料庫建設,語料運營1.0平臺已投入運營,正加快佈局從真實世界到模擬仿真到數據合成平臺2.0研製。目前,該企業已經鏈接了超過50家語料生態合作伙伴,通過給合作伙伴提供高質量有效數據集降低大模型成本。

Scaling Law還在發揮作用,但是速度已經慢了下來,黃海清判斷。他認為今後,在語言大模型之外,多模態大模型的應用將開始爆發,而ToB(企業)和ToG(政府)的商業模式將會成為大模型公司主要的發展方向,現在很多基礎大模型公司都在轉向行業垂類,未來中國市場上能存活下來的基礎大模型只會有不到十個。

在具體行業中,他認為,目前金融、教育、醫療、工業已經優先擁抱了大模型。而在重點領域,比如說自動駕駛、具身智能、科學智能等也都在積極應用大模型。隨著時間的推進,未來的交通行業、零售業等行業都會應用大模型。相應也對垂直行業語料有更大、更高質量的需求。面向推理模型,還需要在原來的數據上構造推理過程,這也對語料生產提出了新的要求。

在語料數據的採集和生產上,黃海清還建議要在版權法方面做到與時俱進,對人工智能、大模型訓練語料數據的合理界定範圍做一些更新。

“這並非要改變過去(的規則),只是增加和更新,我認為這是一個比較適合和可以操作的路徑。”黃海清說,“在人工智能、大模型、語料數據領域,以前的版權法都是給人看的,大模型在訓練語料數據的時候,如果再用過去的標準來衡量機器學習的標準,就不一定那麼恰當。而且,這個問題已經給大模型公司的語料採購成本以及法律風險造成了影響。”

他建議,要加快明確大模型語料數據的合理使用規則,推動“文本與數據挖掘”在預訓練領域的適用;在國內推行鍼對機器學習的數據合理使用,平衡著作權人權利和科技發展需要,解決授權難的問題;政府要出臺鼓勵政策,支持語料數據企業加強自動化工具鏈平臺研發,降低語料數據成本;打造AI自動化清洗與標註工具鏈平臺,降低語料成本;加快人工智能生成物保護範圍的法律研究,制定規則明確的人工智能生成物的權屬與責任。

黃海清還表示,未來,AI將主導數據的標註和清洗,數據標註將從勞動密集型產業向知識型和技術型轉型。

(文章來源:界面新聞)

來源:東方財富網

作者:界面新聞

查看原文
本頁面內容僅供參考,非招攬或要約,也不提供投資、稅務或法律諮詢。詳見聲明了解更多風險披露。
  • 讚賞
  • 1
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate.io APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)