全球数千人正在出售自己的身份训练 AI,但代价是什么?

作者:The Guardian

編譯:深潮 TechFlow

深潮導讀:這篇調查報導揭示了一個正在快速成長的灰色產業:全球數千人透過出售自己的聲音、面孔、通話記錄和日常影片來賺取 AI 訓練費用。

這不是隱私爭議的泛泛討論,而是有真實人物、真實金額、真實後果的調查——一個賣了自己臉孔的演員,後來在 Instagram 上看到"自己"在替不明醫療產品做宣傳,評論區有人在評價他的"外貌"。

當 AI 公司的資料飢渴與全球經濟差距結合在一起,正在製造一場不對等的交易。

全文如下:

去年的一個早晨,住在南非開普敦的 Jacobus Louw 照例出門散步,沿途餵海鷗。但這次他錄了幾段影片——拍攝他走在人行道上的腳步和視野。這段影片讓他賺到 14 美元,大約是該國最低工資的 10 倍,也相當於這個 27 歲年輕人半週的食品開銷。

這是 Louw 在 Kled AI 上完成的一項"城市導航"任務。Kled AI 是一款付費給用戶上傳照片、影片等資料用於訓練 AI 模型的應用。在短短幾週內,Louw 透過上傳日常生活中的照片和影片,賺到了 50 美元。

數千英里之外,在印度蘭契,22 歲的學生 Sahil Tigga 定期靠 Silencio 賺錢——這款應用眾包音頻資料用於 AI 訓練,會存取他手機的麥克風,採集餐廳內部或繁忙路口的環境噪音。他還上傳自己的聲音錄音。Sahil 會專程前往獨特場景,比如 Silencio 地圖上尚未記錄的酒店大廳。他靠這個每月收入超過 100 美元,足以覆蓋全部餐飲開銷。

在芝加哥,18 歲的焊接學徒 Ramelio Hill 將自己與朋友和家人的私人手機聊天記錄賣給了 Neon Mobile——這是一個對話式 AI 訓練平台,每分鐘支付 0.50 美元——賺了幾百美元。對 Hill 來說,這筆帳很簡單:他認為科技公司本來就已經掌握了他大量的私人資料,不如自己也從中分一杯羹。

這些"AI 訓練零工"——上傳周遭場景、自身照片、影片和音訊——站在了一場全球新資料淘金熱的最前線。隨著矽谷對高品質人類資料的渴望超出了從開放互聯網上能夠抓取的範圍,一個蓬勃發展的資料市場行業應運而生,彌合這一缺口。从開普敦到芝加哥,數千人正在將自己的生物特徵身份和私密資料微授權給下一代 AI。

但這個新零工經濟伴隨著代價。用幾美元換來的背後,這些訓練者正在為一個可能最終讓他們的技能變得過時的行業提供燃料,同時讓自己暴露在深度偽造、身份盜竊和數位剝削的未來風險中——而他們对此才剛剛開始有所了解。

讓 AI 齒輪持續轉動

ChatGPT 和 Gemini 等 AI 語言模型需要海量學習材料才能持續改進,但它們正面臨資料荒。最常用的訓練資料源——C4、RefinedWeb 和 Dolma——佔據網路最高品質資料集的四分之一,如今正在限制生成式 AI 公司使用其資料訓練模型。研究人員估計,AI 公司最快將在 2026 年耗盡可用的新鮮高品質文本。儘管部分實驗室已經開始用 AI 自身生成的合成資料反饋訓練,但這種遞迴過程會導致模型產出充斥錯誤的"垃圾",進而引發崩潰。

Kled AI 和 Silencio 這類應用正是在這裡登場。在這些資料市場中,數以百萬計的人正在透過出售自己的身份資料來餵養和訓練 AI。除 Kled AI、Silencio 和 Neon Mobile 之外,AI 訓練者還有許多選擇:由著名孵化器 Y-Combinator 支持的 Luel AI,以每分鐘約 0.15 美元的價格取得多語言對話素材;ElevenLabs 允許你對自己的聲音進行數位克隆,並以每分鐘 0.02 美元的基礎費率供他人使用。

倫敦國王學院經濟學教授 Bouke Klein Teeselink 表示,AI 訓練零工是一個新興的工作類別,將會大幅成長。

AI 公司知道,向人們支付資料授權費,有助於規避完全依賴網路爬取內容可能引發的版權糾紛,Teeselink 說。AI 研究員 Veniamin Veselovsky 表示,這些公司還需要高品質資料來為系統建模新的、改進後的行為。“就目前而言,人類資料是從模型分布之外進行採樣的黃金標準,” Veselovsky 補充道。

驅動這些機器運轉的人類——尤其是發展中國家的人們——往往需要這筆錢,也幾乎別無選擇。對許多 AI 訓練零工來說,從事這份工作是對經濟差距的一種務實回應。在失業率高、本國貨幣貶值的國家,賺取美元往往比本地工作更穩定、更划算。一些人難以找到入門級工作,出於生計不得不做 AI 訓練。即便在較富裕的國家,生活成本的上升也讓出售自己變成了一種合乎邏輯的財務選擇。

開普敦的 AI 訓練者 Louw 清楚地知道其中的隱私代價。儘管收入不穩定,也不足以覆蓋他全部的月度開銷,但他願意接受這些條件來賺錢。他多年來饱受神經系統疾病困擾,無法找到工作,但在 AI 資料市場(包括 Kled AI)賺到的錢,讓他攢夠了 500 美元,報名參加了一門水療訓練課程,成為一名按摩師。

“作為南非人,收到美元比別人想像的更值,” Louw 說。

牛津大學網路地理學教授、《喂養機器》一書作者 Mark Graham 承認,對發展中國家的個人而言,這筆錢在短期內可能有實際意義,但他警告,“從結構上看,這份工作是不穩定的、沒有上升空間的,實際上是一條死路”。

Graham 補充說,AI 資料市場依賴"工資的競相壓低",以及"對人類資料的暫時性需求"。一旦這種需求轉移,“工人將沒有任何保障,沒有可轉移的技能,也沒有安全網”。

Graham 表示,唯一的贏家是"北半球的平台,它們攫取了所有持久的價值"。

全權授權

來自芝加哥的 AI 訓練者 Hill 對將私人手機通話賣給 Neon Mobile 一事心情複雜。約 11 小時的通話內容讓他賺了 200 美元,但他說這款應用經常下線、拖延付款。“Neon 在我眼裡一直很可疑,但我還是一直用,就為了多賺點零用錢付帳單,” Hill 說。

現在他開始重新考量這筆錢是否真的那麼輕鬆。去年 9 月,Neon Mobile 剛上線幾週後就下線了,此前 TechCrunch 發現了一個安全漏洞,任何人都可以存取用戶的電話號碼、通話錄音和文字記錄。Hill 說 Neon Mobile 從未通知他這一情況,現在他很擔心自己的聲音會在網路上被濫用。

斯坦福大學以人为中心人工智能研究所資料隱私研究員 Jennifer King 感到擔憂的是,AI 資料市場並不清楚用戶資料將如何及在何處被使用。她補充說,在不了解自身權利、也未能就此談判的情況下,“消費者面臨資料被以他們不喜歡、不理解或未曾預料的方式再利用的風險,且屆時幾乎沒有任何補救途徑”。

當 AI 訓練者在 Neon Mobile 和 Kled AI 上分享資料時,他們授予的是一份全權授權(全球範圍、獨佔、不可撤銷、可轉讓且免版稅),允許平台出售、使用、公開展示和存儲其肖像,甚至據此創作衍生作品。

Kled AI 創始人 Avi Patel 表示,他公司的資料協議將使用限定在 AI 訓練和研究目的。"整個商業模式依賴用戶信任。如果貢獻者認為他們的資料可能被濫用,平台就無法運轉。“他表示公司會在出售資料集前審核購買方,避免與"意圖可疑"的機構合作,例如色情行業,以及他們認為可能以違反該信任的方式使用資料的"政府機構”。

Neon Mobile 未回應置評請求。

倫敦城市聖喬治大學法學教授 Enrico Bonadio 指出,這些協議條款允許平台及其客戶"幾乎可以對該材料做任何事,永久有效,無需額外付款,貢獻者也沒有實際方式撤回同意或重新談判"。

更令人擔憂的風險包括:訓練者的資料被用於製作深度偽造和身份冒充。儘管資料市場聲稱在出售前會剝離資料中的身份識別資訊(如姓名和位置),但生物特徵規律從本質上就難以進行有實質意義的匿名化處理,Bonadio 補充道。

賣家的悔恨

即便 AI 訓練者能夠就資料使用方式談判出更細緻的保護條款,他們仍可能後悔。2024 年,來自紐約的演員 Adam Coy 以 1000 美元的價格將自己的肖像賣給了 Captions——一款 AI 影片編輯軟體,現已更名為 Mirage。他的協議規定,他的身份不會被用於任何政治目的,不會用於推銷酒精、煙草或色情內容,且授權期限為一年。

Captions 未回應置評請求。

不久之後,Adam 的朋友們開始轉發他們在網路上發現的影片,那些影片裡用著他的臉和聲音,播放量達數百萬次。其中一個 Instagram 影片中,Adam 的 AI 複製體自稱是"陰道醫生",為孕期和產後女性推廣未經證實的醫療補劑。

“向別人解釋這件事讓我感到難堪,” Coy 說。

“評論區很奇怪,因為他們在評價我的外貌,但那根本不是我,” Coy 補充道。“我當時做出(賣肖像)這個決定時的想法是,大多數模型反正都會在網路爬取資料和肖像,不如被付錢。”

Coy 說,他此後沒有再接任何 AI 資料零工。他說,只有在某個公司提供重大報酬的情況下,他才會考慮再做。

此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言