OpenAI 推出 SWE-Lancer:一個用於現實世界自由職業編程的新 AI 標杆


探索頂尖金融科技新聞與活動!

訂閱金融科技週刊的電子報

由摩根大通、Coinbase、貝萊德、Klarna 等高層閱讀


在零工經濟中衡量人工智慧編碼能力的新標準

人工智慧正進入自由軟體開發的世界,並推出一個新的基準,用以測試其在實際任務中的編碼能力。該基準名為SWE-Lancer,由OpenAI推出,評估AI在超過1,400個來自Upwork的實際自由軟體工程任務中的表現,這些任務總價值達到100萬美元的支付金額

此舉旨在提供一個更清晰的AI在專業環境中的能力展現。與其依賴合成的編碼問題不同,SWE-Lancer使用已由真實公司完成並支付的任務,提供更貼近現實的AI效能衡量標準

真實自由工作,真實挑戰

大多數AI編碼基準專注於明確定義、解決方案可預測的問題。SWE-Lancer則不同。資料集涵蓋範圍廣泛,從50美元的錯誤修復到3萬2千美元的複雜功能實作。部分任務測試AI的寫碼能力,另一些則需要決策——模擬工程經理在不同技術方案中做出選擇的角色

為確保準確性,經驗豐富的工程師進行三重驗證端到端測試,而管理層的決策則與原聘用經理的判斷相對照。該基準不僅衡量AI是否能寫出程式碼,更評估該程式碼是否符合付費客戶的標準。

AI模型表現如何?

結果十分明確:即使是最先進的AI模型也難以應付這些任務。雖然AI已展現出生成程式碼片段和協助除錯的能力,但在處理自由工程工作的完整複雜性方面仍有不足。需要創意、解決問題和長期規劃的任務,仍是挑戰。

這一差距具有重大意義。AI在軟體開發中的角色日益擴大,但像SWE-Lancer這樣的基準顯示,完全自主的編碼仍遙遙無期。目前,人類工程師仍然不可或缺,尤其是在超越簡單程式碼生成的複雜專案中。

開源促進研究與經濟洞察

為了推動進一步研究,SWE-Lancer的團隊已公開關鍵資源。研究人員可以存取一個統一的Docker映像以及一個名為SWE-Lancer Diamond的子集基準,用於評估。透過將AI表現與實際金錢價值掛鉤,這個基準提供了關於AI如何影響經濟與軟體工程就業市場的新見解。

除了軟體開發,這些洞察對金融科技公司和依賴自由人才的企業也具有價值。隨著AI模型的進步,企業將需要更佳的方式來衡量自動化的財務與運營影響。SWE-Lancer為理解AI如何融入合約工作提供了基礎。

邁向AI在軟體開發未來的一步

SWE-Lancer的發布凸顯了一個重要現實:AI正在進步,但在應對自由軟體工程的現實需求方面仍有挑戰。雖然AI工具能協助開發者,但尚未能可靠取代技術熟練的專業人士

隨著AI研究的持續推進,像SWE-Lancer這樣的基準將幫助追蹤進展、優化模型,並引發關於自動化經濟影響的討論。AI是否能完全取代自由開發者仍未可知,但目前來說,軟體工程中的人性化元素仍不可或缺

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)