福利加码,Gate 广场明星带单交易员二期招募开启!
入驻发帖 · 瓜分 $20,000 月度奖池 & 千万级流量扶持!
如何参与:
1️⃣ 报名成为跟单交易员:https://www.gate.com/copytrading/lead-trader-registration/futures
2️⃣ 报名活动:https://www.gate.com/questionnaire/7355
3️⃣ 入驻 Gate 广场,持续发布交易相关原创内容
丰厚奖励等你拿:
首帖福利:首发优质内容即得 $30 跟单体验金
双周内容激励:每双周瓜分 $500U 内容奖池
排行榜奖励:Top 10 交易员额外瓜分 $20,000 登榜奖池
流量扶持:精选帖推流、首页推荐、周度明星交易员曝光
活动时间:2026 年 2 月 12 日 18:00 – 2 月 24 日 24:00(UTC+8)
详情:https://www.gate.com/announcements/article/49849
OpenAI 推出 SWE-Lancer:一个面向真实世界自由职业编码的新型 AI 基准测试
发现顶级金融科技新闻和事件!
订阅金融科技周刊的新闻通讯
由摩根大通、Coinbase、黑石、Klarna 等高管阅读
在零工经济中衡量人工智能编码技能的新标准
人工智能正以一种新的基准进入自由软件开发领域,旨在测试其在实际任务中的编码能力。该基准名为SWE-Lancer,由OpenAI推出,使用来自Upwork的超过1400个实际自由软件工程任务进行评估,累计价值达100万美元的支付。
此举旨在提供更清晰的人工智能在专业环境中的能力图景。SWE-Lancer不依赖合成编码问题,而是采用由真实公司完成并支付的任务,提供更贴近实际的AI软件工程效果衡量。
真实自由职业工作,真实挑战
大多数AI编码基准专注于定义明确、解决方案可预测的问题。而SWE-Lancer则不同。数据集涵盖范围广泛,从50美元的漏洞修复到复杂的3.2万美元功能实现。一些任务测试AI的编码能力,另一些则需要决策——模拟工程经理在不同技术方案中做出选择的角色。
为了确保准确性,由经验丰富的工程师进行三重验证的端到端测试,管理决策也会与原招聘经理的判断进行对比。该基准不仅衡量AI是否能写出代码,还评估这些代码是否达到付费客户的标准。
AI模型表现如何?
结果十分明确:即使是最先进的AI模型也难以胜任这些任务。虽然AI已证明能生成代码片段和协助调试,但在处理自由职业工程工作的全部复杂性时仍显不足。需要创造力、问题解决能力和长期规划的任务仍然具有挑战性。
这一差距具有重大意义。AI在软件开发中的角色不断扩大,但像SWE-Lancer这样的基准表明,完全自主编码仍然遥遥无期。目前,人类工程师仍然不可或缺,尤其是在超出简单代码生成的复杂项目中。
开源以促进研究和经济洞察
为了推动进一步研究,SWE-Lancer团队已将关键资源向公众开放。研究人员可以访问统一的Docker镜像和一部分基准,称为SWE-Lancer Diamond,用于评估。通过将AI表现与实际货币价值挂钩,该基准为AI如何影响经济和软件工程就业市场提供了新见解。
除了软件开发,这些洞察对金融科技公司和依赖自由人才的企业也具有价值。随着AI模型的不断改进,企业将需要更好的方式衡量自动化的财务和运营影响。SWE-Lancer为理解AI如何融入基于合同的工作提供了基础。
迈向AI在软件开发中未来的一步
SWE-Lancer的发布凸显了一个重要现实:AI在不断进步,但在应对自由软件工程的实际需求方面仍有困难。虽然AI工具可以协助开发者,但尚不能可靠地取代技术熟练的专业人士。
随着AI研究的持续推进,像SWE-Lancer这样的基准将帮助追踪进展、优化模型,并引导关于自动化经济影响的讨论。AI是否能完全取代自由开发者仍未可知,但目前,软件工程中的人类元素仍不可替代。