2026-04-24 04:43:45

#OpenAIReleasesGPT-5.5 GPT-5.5 是 #OpenAIReleasesGPT-5.5 从根本上为自主行动和真正的代理行为而设计的。与其前辈不同，它可以像一个不知疲倦的数字员工一样工作，接受模糊的指令并从头到尾执行。

该模型可以分析数据、编写和调试代码、操作软件、操作鼠标和键盘、进行在线研究，以及处理电子表格、文档和日历。这是自 GPT-4.5（内部代号“Spud”）以来公司第一个完全重新训练的基础模型，旨在以最少的人类指导处理复杂的多步骤任务，在代理编码、计算机使用和知识工作方面树立了新标准。

OpenAI 总裁 Greg Brockman 强调了其自主能力的飞跃，表示：“这个模型真正特别之处在于它能用更少的指导做更多的事情。它可以看出一个不清楚的问题，并弄清下一步到底需要做什么。”该模型还具有原生集成的计算机使用能力，能够看到屏幕、点击、打字和导航应用程序，标志着向自主数字工作者迈出了重要的一步。

主要差异点：

· 代理编码能力：OpenAI 最强的自主编码模型，在 Terminal-Bench 2.0 (82.7%) 和 SWE-Bench Pro (58.6%) 中表现出色，一次性解决更多任务。
· 效率优化：每个令牌的延迟与 GPT-5.4 相同，但每个任务使用的令牌显著减少。
· 大规模上下文窗口：通过 API 支持一百万个令牌，非常适合处理大型代码库或长文档。
· 真实世界测试：在 Tau2-bench Telecom 上达成 98% 的表现，无需提示调优。
· 内部采用：超过 85% 的 OpenAI 员工每周使用 Codex，实际成果包括审查 24,771 份税务文件，每周节省 5-10 小时。

结论很明确：GPT-5.5 不仅仅是一个更智能的聊天机器人——它是一个能够代表你行动的数字工作者。

#OpenAIReleasesGPT-5.5

🏆 基准测试主导地位与代理能力

该模型的能力在第三方基准测试中得到体现，始终领先竞争对手：

· GDPval：在 44 个职业中得分 84.9%，与行业专业人士持平或超越，超过 GPT-5.4 (83.0%) 和 Claude Opus 4.7 (80.3%)。
· Terminal-Bench 2.0：准确率 82.7%，远超 Claude Opus 4.7 (69.4%) 和 Gemini 3.1 Pro (68.5%)。
· SWE-Bench Pro：准确率 58.6%，在一次尝试中解决更多实际的 GitHub 问题。
· OSWorld-Verified：78.7% 的自主计算机环境操作能力，迈出了重大一步。
· FrontierMath：在 1-3 级别中得分 51.7%，优于 Claude Opus 4.7 (43.8%) 和 Gemini 3.1 Pro (36.9%)。
· 人工分析智能指数：OpenAI 重回榜首，打破之前与 Anthropic 和 Google 的三方平局。

---

💎 战略意义

GPT-5.5 在激烈竞争中亮相，Anthropic 的 B2B 年经常性收入从 $9 十亿跃升至 $30 十亿，内部“Code Red”紧迫感自 2025 年 12 月起持续升温。CEO Sam Altman 预计很快可以自动化 30-40% 的经济任务。

定价与可用性：

· 标准 API：每百万输入令牌 $5 ，每百万输出令牌 $30 。
· GPT-5.5 Pro：每百万输入令牌 $30 ，每百万输出令牌 $180 。
· 基于 NVIDIA GB200 和 GB300 NVL72 系统，提供比之前系统低 35 倍的每百万令牌成本和高 50 倍的每兆瓦输出效率。
· 现已向 ChatGPT Plus、Pro、Business 和 Enterprise 用户开放，API 访问因安全工作延后。
· 该模型的“高”网络风险评级 (第二高)。

GPT-5.5 不是一个渐进式更新——它是向自主代理系统的战略转变，能够完成真正的工作。凭借原生计算机使用能力、强大的编码能力，以及在 85% 的专业任务中媲美人类专家的表现，它代表了自 ChatGPT 以来最重要的进步之一。信息十分明确：AI 作为单纯对话伙伴的时代即将结束，真正的数字工作者时代已经开启。#OpenAIReleasesGPT-5.5

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

1人点赞了这条动态

赞赏
1
2
转发
分享

请输入评论内容

ybaser

· 10小时前

2026 GOGOGO 👊

ybaser

· 10小时前

直达月球 🌕

查看原文回复0

热门话题
查看更多
#
WCTC交易王PK
15.56万热度
#
加密市场行情震荡
22.08万热度
#
rsETH攻击事件后续进展
6.69万热度
#
美伊谈判陷入僵局
17.52万热度
#
ETH链Meme币FLORK拉升
3.57万热度

#OpenAIReleasesGPT-5.5 GPT-5.5 是 #OpenAIReleasesGPT-5.5 从根本上为自主行动和真正的代理行为而设计的。与其前辈不同，它可以像一个不知疲倦的数字员工一样工作，接受模糊的指令并从头到尾执行。

热门话题

WCTC交易王PK

加密市场行情震荡

rsETH攻击事件后续进展

美伊谈判陷入僵局

ETH链Meme币FLORK拉升

置顶