Berkeley GEPA 解析:不更新權重就能讓 AI 學會新任務、35 倍少訓練成本勝 RL

鏈新聞abmedia

加州大學柏克萊分校研究團隊提出新的 AI 訓練方法 GEPA、已被 ICLR 2026 接收為 Oral 論文。GEPA 不更新模型權重、不需 GPU 訓練,只用一個「讀取訓練紀錄」的 LLM 反覆改寫 AI 系統的提示詞,便在 6 項任務上平均勝過主流強化學習方法 GRPO 6%、最高勝出 20%、所需訓練嘗試次數(rollouts)少 35 倍。研究經 AI 工程社群整理擴散後在 X 平台引發討論,目前已整合進 DSPy 成為一等優化器。

GEPA 在做什麼:把訓練紀錄當教材、不再只看分數

傳統強化學習方法(如 GRPO)的工作流是:讓 AI 跑一次任務、根據結果給一個「+1 或 -1」的分數,再用這個分數反覆調整模型權重。問題是 AI 跑這一次任務的過程通常包含上千 token 的推理步驟、工具呼叫、錯誤訊息—這些豐富細節全被壓縮成一個分數,過程資訊被丟掉。所以 RL 需要跑成千上萬次才能收斂。

GEPA 的做法相反:每次 AI 跑完任務,把整段過程(reasoning、工具呼叫、報錯紀錄)原原本本交給另一個「反思 LLM」閱讀。反思 LLM 像個資深工程師讀程式 log,找出哪一步出錯、為何出錯、應該如何修改提示詞,然後直接重寫該模組的提示。同樣一次跑任務、GEPA 從中提取的訊號量遠多於 RL 的單一分數。

為何能贏:把「打分數」改成「讀整段過程」

GEPA 在 6 項任務上平均勝 GRPO 6%、最高勝 20%;對比另一個主流提示優化器 MIPROv2 也勝出 10% 以上(在 AIME-2025 數學題基準上提升 12%)。最關鍵的是訓練成本:GEPA 達到同等性能所需的 rollouts(一次完整跑任務)少 35 倍。

另一項數據是 GEPA 與 DSPy 整合後的「Full Program Adapter」可優化整個 DSPy 程式(包含 signature、模組、控制流),在 MATH 數學基準達 93% 準確率,大幅超過 DSPy 原本的 ChainOfThought 寫法的 67%。GEPA 也在 multi-module 工作流(多模組串接的 AI agent)上表現特別好—可精準鎖定某一個出錯的模組改寫提示,而不是調整整個系統。

誰會先用上:DSPy 一等公民、GitHub 已開源

GEPA 程式碼已開源於 GitHub,並以 dspy.GEPA 形式整合進 DSPy 框架、也獨立發布為 Python library。研究團隊跨 UC Berkeley、Stanford、Notre Dame、Anthropic 等機構,論文作者包含 Matei Zaharia(Databricks 共同創辦人、DSPy 主要作者)與 Omar Khattab(DSPy 主要作者)。

對開發者社群而言,GEPA 提供了「擁有大量 rollout 但不知如何利用」的新解法—多數團隊已累積成千上萬筆 agent 跑任務紀錄,但除了出錯時翻幾筆查 bug,並無系統性方法把這些紀錄轉成模型改進。下一個觀察點是 GEPA 在企業 agentic 工作流(如客服自動化、程式自動修復)的實際導入案例,以及是否會出現非 DSPy 框架的 GEPA 對應實作。

這篇文章 Berkeley GEPA 解析:不更新權重就能讓 AI 學會新任務、35 倍少訓練成本勝 RL 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

TipTip 在 AI 強化娛樂票務之下達到 EBITDA 獲利能力

印尼娛樂與體驗平台 TipTip 於 5 月 4 日宣布,公司在 2026 年初實現了全公司範圍的 EBITDA 獲利,這主要受惠於成本控制、單位經濟改善,以及與主要投資人 East Ventures 的合作。 娛樂票務成長 TipTip 的娛樂 t

Crypto Frontier31分鐘前

Astro 聯合創辦人開源 Rosie:在 10 個 AI 程式編寫代理之間同步技能

根據 Beating,Astro 前端框架的共同創辦人 Matthew Phillips 已將 Rosie 進行開源。Rosie 是一款用於管理 AI 代理技能套件的命令列工具。該工具會自動偵測本機已安裝的程式代理,並將技能同步至包含 Claude 在內的 10 個平台

GateNews3小時前

Particle Network 發布通用帳戶路線圖,推出通用存款 SDK 與 AI 代理帳戶

根據 ChainCatcher,Particle Network 今天發布了 Universal Accounts 的下一階段路線圖,並在未來幾個月推出兩款新產品:Universal Deposit SDK,讓開發者能以約 10 行程式碼新增跨鏈存款,以及 Universal Agent Accounts,

GateNews18小時前

Riot Platforms 2026 年第 1 季營收因資料中心啟動而上升至 1.672 億美元

比特幣礦企 Riot Platforms 先前表示,其在 2026 年第 1 季的季度總營收為 1.672 億美元,較 2025 年同期的 1.614 億美元成長,因為該公司透過新近推出的資料中心營運所產生的、用於提供 AI 基礎設施託管的收入達 3,320 萬美元。該里程碑促使執行長 Jason Les

Crypto Frontier19小時前

Roblox 推出 AI 軟體以挑戰 Unity 與 Epic Games

根據 Bloomberg 報導,Roblox 正在推出新的 AI 軟體,以與 Unity Technologies 和 Epic Games 展開競爭,後者的引擎主導了大型預算遊戲開發。執行長 Dave Baszucki 表示,該工具的目標是讓創作者更容易地打造具備照片級寫實畫面的多人遊戲,由 ar

GateNews23小時前

美國海軍與 Domino Data Lab 簽署近 1 億美元的 AI 合約,用於在荷姆茲海峽進行地雷探測

根據新華社報導,美國海軍資訊戰系統司令部近日與總部位於舊金山的 AI 公司 Domino Data Lab 簽署合約,採購並部署機器學習軟體解決方案。若合約全部執行,合約金額近 1 億美元,旨在

GateNews05-03 03:11
留言
0/400
暫無留言