採訪 | 大型科技公司正在用垃圾數據訓練人工智能:直覺

AI模型正變得越來越強大,但它們所訓練的數據卻越來越差,直覺創始人比利·盧德克表示。 摘要

  • AI的表現完全取決於我們提供給它的數據,Intuition的創始人Billy Luedtke表示。
  • 我們正處於一個 “隨來隨走” 的時代,因爲人工智能變得遞歸
  • 去中心化模型在技術和用戶體驗方面具有優勢

隨着人工智能系統變得越來越普遍,用戶越來越多地遇到難以解決的局限性。盡管模型在不斷改進,但這些模型訓練所用的基礎數據卻保持不變。更重要的是,遞歸,或者說人工智能模型在其他人工智能生成的數據上進行訓練,實際上可能會使情況變得更糟。

關於人工智能的未來,crypto.news採訪了Intuition的創始人Billy Luedtke,Intuition是一個去中心化協議,專注於爲人工智能帶來可驗證的歸屬、聲譽和數據所有權。Luedtke解釋了爲什麼當前的人工智能數據集在本質上是有缺陷的,以及可以採取什麼措施來修復它。

Crypto.news:現在每個人都專注於 AI 基礎設施——GPU、能源、數據中心。人們是否低估了信任層在 AI 中的重要性?它爲什麼重要?

比利·呂特克:100%。人們確實低估了這一點——這有幾個原因很重要。

首先,我們正進入我所稱之爲的“混入,混出”時代。人工智能的能力取決於它所消耗的數據。但是這些數據——尤其是來自開放網路的數據——在很大程度上是被污染的。它並不幹淨。它並不反映人類的意圖。很多數據來自於在線的遊戲化行爲:點讚、評論、參與黑客——所有這些都經過關注優化算法的過濾。

所以,當人工智能抓取互聯網時,它看到的並不是我們是誰的整體畫面。它看到的是人們在玩這個平台。我在Twitter上的行爲與我在現實生活中的行爲不同。我們都不是。我們是在爲算法優化——而不是表達真實的想法。

這也是遞歸的。這些平台訓練我們,而我們又將更多扭曲的行爲反饋進去。這創造了一個反饋循環——一個螺旋——使得人工智能對人性的感知更加扭曲。我們並不是在教它我們所認爲的,而是在教它我們認爲會得到點贊的東西。

普通用戶並不在谷歌搜索、比較來源或進行批判性思考。他們只是問ChatGPT或其他模型,然後照單全收。

這很危險。如果模型是不透明的——一個黑箱——而控制它的公司也控制着你看到或沒看到的信息,那麼這就是完全的敘事控制。這是中心化的,不可追責的,且極其強大。

想象一下,問Grok哪個是最好的播客,答案是支付給Elon最多的人。這不是智能——這只是僞裝的廣告。

CN: 那我們該如何解決這個問題呢?我們如何構建優先考慮真相和價值而不是參與度的系統?

BL:我們需要改變激勵機制。這些系統應該服務於人們——而不是機構,不是股東,不是廣告商。這意味着爲互聯網構建一個新的層次:身分和聲譽原語。這就是我們在Intuition所做的。

我們需要可驗證的歸屬:誰在什麼時間、什麼背景下說了什麼。我們需要一種可移植的、去中心化的聲譽,幫助判斷我們對任何特定數據源的信任程度——這不是基於感覺,而是基於實際的上下文記錄。

Reddit 是一個完美的例子。它是模型訓練數據的最大來源之一。但是如果用戶諷刺地說:“就 k*** 自己吧”,這可能會被抓取並出現在向某人尋求醫療建議的模型推薦中。

這太可怕了 — 當模型沒有上下文、歸屬或聲譽加權時就會發生這種情況。我們需要知道:這個人在醫學領域是否可信?他們在金融領域是否享有聲譽?這是一個可信的來源,還是僅僅是另一個隨機評論?

CN: 當你談論歸屬和聲譽時,這些數據需要存儲在某個地方。你認爲在基礎設施方面應該如何處理這個問題 — 尤其是涉及版權和賠償等問題時?

BL: 這正是我們在 Intuition 所解決的問題。一旦你擁有可驗證的歸屬原語,你就知道誰創建了什麼數據。這使得知識的代幣化擁有成爲可能——並由此實現補償。

因此,您的數據不是存儲在谷歌的服務器或OpenAI的API上,而是存儲在一個去中心化的知識圖譜中。每個人都擁有他們所貢獻的內容。當您的數據被遍歷或用於AI輸出時,您將獲得其產生的價值的一部分。

這很重要,因爲現在我們是數字農奴。我們花費最寶貴的資源——時間、注意力和創造力——生成別人變現的數據。YouTube 並不是因爲它托管視頻而有價值;它的價值在於人們對其進行策展。如果沒有點讚、評論或訂閱,YouTube 就毫無價值。

所以我們希望一個每個人都能從他們創造的價值中獲益的世界——即使你不是一個影響者或外向的人。例如,如果你總是能提前發現新的藝術家,你的品味就有價值。你應該能夠圍繞這一點建立聲譽並將其貨幣化。

CN:但是即使我們獲得了透明度,這些模型仍然很難解釋。OpenAI 本身也無法完全解釋其模型是如何做出決策的。那麼會發生什麼呢?

BL:很好的觀點。我們無法完全解釋模型行爲——它們實在是太復雜了。但我們能控制的是訓練數據。這就是我們的槓杆。

我給你舉個例子:我聽說有一篇研究論文,其中一個人工智能癡迷於貓頭鷹,而另一個則擅長數學。他們只在與數學相關的任務上一起訓練。但最後,那個擅長數學的人工智能也開始喜歡貓頭鷹——僅僅是通過吸收另一個的模式。

這些模式是多麼潛意識和微妙,這真是瘋狂。因此,唯一真正的防御就是意圖。我們需要對我們提供給這些模型的數據保持謹慎。我們需要以某種方式“治愈自己”,以便在網上以更真實、更有建設性的方式出現。因爲人工智能將始終反映其創造者的價值觀和扭曲。

CN: 讓我們談談生意。OpenAI正在燒錢。他們的基礎設施非常昂貴。像Intuition這樣的去中心化系統如何在財務和技術上競爭?

BL:我們擁有兩個核心優勢:可組合性和協調性。

去中心化生態系統——尤其是在加密領域——在協調方面表現得非常出色。我們擁有全球分布的團隊,各自在爲同一個更大問題的不同組成部分而努力。與其讓一家公司花費數十億與世界對抗,不如讓數百位目標一致的貢獻者共同構建可互操作的工具。

這就像一個馬賽克。一個團隊專注於代理信譽,另一個團隊專注於去中心化存儲,還有一個團隊專注於身分原語——我們可以將這些拼接在一起。

那就是超能力。

第二個優點是用戶體驗。OpenAI 被鎖定在其護城河中。他們不能讓你將上下文從 ChatGPT 移植到 Grok 或 Anthropic——這會削弱他們的防御能力。但我們不在乎供應商鎖定。

在我們的系統中,您將能夠擁有您的上下文,隨身攜帶,並將其插入您想要的任何代理。這將帶來更好的體驗。人們會選擇它。

****CN:基礎設施成本如何?運行大型模型的費用非常高。你認爲會有一個小型模型在本地運行的世界嗎?

BL: 是的,100%。我實際上認爲這就是我們前進的方向——朝着許多小模型在本地運行,像分布式羣體中的神經元一樣相互連接。

與其擁有一個龐大的單一數據中心,不如有數十億個消費設備在貢獻計算力。如果我們能夠協調它們——這正是加密貨幣擅長的——那麼這將成爲一種更優越的架構。

這就是我們爲什麼還在構建代理聲譽層的原因。請求可以被引導到合適的專業代理來完成任務。你不需要一個龐大的模型來做所有事情。你只需要一個智能的任務路由系統——就像跨越數百萬代理的API層。

CN: 確定性怎麼樣?大型語言模型在數學等需要精確答案的任務上表現不佳。我們能將確定性代碼與人工智能結合嗎?

BL:這就是我想要的。我們需要把確定性帶回循環中。

我們從符號推理開始——完全確定性——然後我們猛然轉向深度學習,這是一種非確定性。這給了我們現在看到的爆炸性增長。但未來是神經符號學——結合了兩者的最佳優勢。

讓AI處理模糊推理。但也要讓它觸發確定性模塊——腳本、函數、邏輯引擎——在您需要精確度的地方。想想:“我的哪些朋友喜歡這家餐廳?”那應該是100%確定性的。

****CN:放眼未來:我們看到公司在其運營中整合了人工智能。但結果參差不齊。你認爲當前這一代大語言模型真的能提高生產力嗎?

BL:絕對如此。奇點已經到來——只是分布不均。

如果您在工作流程中不使用人工智能,尤其是用於代碼或內容,您工作的速度只是一小部分其他人的速度。技術是真實的,效率提升是巨大的。顛覆已經發生。人們只是還沒有完全意識到這一點。

CN:最後一個問題。很多人說這是一個泡沫。風險投資正在減少。OpenAI 正在燒錢。Nvidia 正在爲自己的客戶融資。這將如何結束?

BL:是的,確實存在泡沫——但技術是真實的。每個泡沫都會破裂,但留下來的都是基礎技術。人工智能將成爲其中之一。那些沒有真正創新的包裝應用——那些傻錢——正在被衝走。但深層基礎設施團隊?他們會生存下來。

事實上,這可能有兩種結果:我們經歷一次溫和的修正,回歸現實,但仍在不斷進步。或者,生產力的提升巨大到人工智能成爲經濟的通縮力量。GDP的產出能力可能增長10倍或100倍。如果那樣發生,支出就是值得的——我們作爲一個社會將會升級。

無論如何,我是樂觀的。確實會有混亂和工作流失——但如果我們建立正確的基礎,也有可能實現一個豐盈的、後稀缺的世界。

ON-14.34%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)