福利加碼,Gate 廣場明星帶單交易員二期招募開啟!
入駐發帖 · 瓜分 $20,000 月度獎池 & 千萬級流量扶持!
如何參與:
1️⃣ 報名成為跟單交易員:https://www.gate.com/copytrading/lead-trader-registration/futures
2️⃣ 報名活動:https://www.gate.com/questionnaire/7355
3️⃣ 入駐 Gate 廣場,持續發布交易相關原創內容
豐厚獎勵等你拿:
首帖福利:首發優質內容即得 $30 跟單体验金
雙周內容激勵:每雙周瓜分 $500U 內容獎池
排行榜獎勵:Top 10 交易員額外瓜分 $20,000 登榜獎池
流量扶持:精選帖推流、首頁推薦、周度明星交易員曝光
活動時間:2026 年 2 月 12 日 18:00 – 2 月 24 日 24:00(UTC+8)
詳情:https://www.gate.com/announcements/article/49849
OpenAI 推出 SWE-Lancer:一個用於現實世界自由職業編程的新 AI 標杆
探索頂尖金融科技新聞與活動!
訂閱金融科技週刊的電子報
由摩根大通、Coinbase、貝萊德、Klarna 等高層閱讀
在零工經濟中衡量人工智慧編碼能力的新標準
人工智慧正進入自由軟體開發的世界,並推出一個新的基準,用以測試其在實際任務中的編碼能力。該基準名為SWE-Lancer,由OpenAI推出,評估AI在超過1,400個來自Upwork的實際自由軟體工程任務中的表現,這些任務總價值達到100萬美元的支付金額。
此舉旨在提供一個更清晰的AI在專業環境中的能力展現。與其依賴合成的編碼問題不同,SWE-Lancer使用已由真實公司完成並支付的任務,提供更貼近現實的AI效能衡量標準。
真實自由工作,真實挑戰
大多數AI編碼基準專注於明確定義、解決方案可預測的問題。SWE-Lancer則不同。資料集涵蓋範圍廣泛,從50美元的錯誤修復到3萬2千美元的複雜功能實作。部分任務測試AI的寫碼能力,另一些則需要決策——模擬工程經理在不同技術方案中做出選擇的角色。
為確保準確性,經驗豐富的工程師進行三重驗證端到端測試,而管理層的決策則與原聘用經理的判斷相對照。該基準不僅衡量AI是否能寫出程式碼,更評估該程式碼是否符合付費客戶的標準。
AI模型表現如何?
結果十分明確:即使是最先進的AI模型也難以應付這些任務。雖然AI已展現出生成程式碼片段和協助除錯的能力,但在處理自由工程工作的完整複雜性方面仍有不足。需要創意、解決問題和長期規劃的任務,仍是挑戰。
這一差距具有重大意義。AI在軟體開發中的角色日益擴大,但像SWE-Lancer這樣的基準顯示,完全自主的編碼仍遙遙無期。目前,人類工程師仍然不可或缺,尤其是在超越簡單程式碼生成的複雜專案中。
開源促進研究與經濟洞察
為了推動進一步研究,SWE-Lancer的團隊已公開關鍵資源。研究人員可以存取一個統一的Docker映像以及一個名為SWE-Lancer Diamond的子集基準,用於評估。透過將AI表現與實際金錢價值掛鉤,這個基準提供了關於AI如何影響經濟與軟體工程就業市場的新見解。
除了軟體開發,這些洞察對金融科技公司和依賴自由人才的企業也具有價值。隨著AI模型的進步,企業將需要更佳的方式來衡量自動化的財務與運營影響。SWE-Lancer為理解AI如何融入合約工作提供了基礎。
邁向AI在軟體開發未來的一步
SWE-Lancer的發布凸顯了一個重要現實:AI正在進步,但在應對自由軟體工程的現實需求方面仍有挑戰。雖然AI工具能協助開發者,但尚未能可靠取代技術熟練的專業人士。
隨著AI研究的持續推進,像SWE-Lancer這樣的基準將幫助追蹤進展、優化模型,並引發關於自動化經濟影響的討論。AI是否能完全取代自由開發者仍未可知,但目前來說,軟體工程中的人性化元素仍不可或缺。