Qwen3.6-27B công bố mã nguồn mở "Openclaw, Hermes được ưu tiên" : Hiệu suất AI ngang bằng Claude Opus 4.5, chi phí giảm 14 lần

Alibaba Qwen系列最新旗艦 Qwen3.6-27B 于2026年4月22日晚正式开源,这颗27B密集模型在 Terminal-Bench 2.0 以59.3分平Claude 4.5 Opus,并以不到1/14的参数量,在 SWE-bench Verified 以77.2超越上一代397B MoE旗舰的76.2。完整模型55.6 GB、Q4_K_M 量化压缩到16.8 GB,可在消费级硬件上运行,让 OpenClaw、Hermes Agent 等本地 agent 框架首次拥有一颗真正好用的本地大脑。
(前情提要:被 Anthropic 点名封杀,OpenClaw 建议用户改用 API Key 或换用 Qwen、Kimi 等替代方案)
(背景补充:美国AI需要“审查”关进实验室!中国则全力抛开源模型,为什么?)

本文目录

Toggle

  • Benchmark 成绩:三个最亮眼的结论
  • 规格:消费级硬件装得下的千亿级性能
  • 为什么是 OpenClaw 与 Hermes Agent 的本地大脑?
  • 开源 vs 封闭:阿里的路线布局与地缘格局

2026年4月22日晚,阿里巴巴Qwen团队悄悄在 Hugging Face 推出了一颗炸弹:Qwen3.6-27B 正式开源,Apache 2.0 授权,任何人可自由商用。数字看似平凡,背后的意义非凡——27B密集架构(非MoE),在终端agent测试中首次追平Anthropic封闭旗舰Claude 4.5 Opus,同时以55.6 GB的体积,打败了需要807 GB视频内存才能完整运行的上一代397B MoE怪兽。本地部署、agent能跑、消费级硬件装得下,三个条件Qwen3.6-27B全部达成。

Benchmark 成绩:三个最亮眼的结论

Qwen团队选择了10项反映真实agent程序设计能力的基准测试,Qwen3.6-27B的成绩如下:

Benchmark
Qwen3.6-27B
Qwen3.5-27B
Qwen3.6-35B-A3B
Qwen3.5-397B-A17B
Claude 4.5 Opus
SWE-bench Verified
77.2
75.0
73.4
76.2
80.9
SWE-bench Pro
53.5
51.2
49.5
50.9
57.1
SWE-bench Multilingual
71.3
69.3
67.2
69.3
77.5
Terminal-Bench 2.0
59.3
41.6
51.5
52.5
59.3
SkillsBench Avg5
48.2
27.2
28.7
30.0
45.3
QwenWebBench
1487
1068
1397
1186
1536
NL2Repo
36.2
27.3
29.4
32.2
43.2
Claw-Eval Avg
72.4
64.3
68.7
70.7
76.6
Claw-Eval Pass^3
60.6
46.2
50.0
48.1
59.6
QwenClawBench
53.4
52.2
52.6
51.8
52.3

三个关键结论值得单独标出:第一,Terminal-Bench 2.0 59.3 平Claude 4.5 Opus——这是27B密集模型首次在终端agent任务追上Anthropic封闭旗舰,而Qwen3.5-27B旧版只有41.6,等于单代提升了17.7分。第二,SWE-bench Verified 77.2 超越Qwen3.5-397B-A17B的76.2——27B密集干掉上一代397B MoE旗舰,模型体积从807 GB缩到55.6 GB,缩小了14倍以上。第三,SkillsBench从27.2冲到48.2(+77%)、Claw-Eval Pass^3以60.6超越Claude 4.5 Opus的59.6——多轮、多步骤一致性是本次最大升级,代表模型在连续执行复杂agent任务时不易崩溃或跑偏。

知识与推理方面同样亮眼:MMLU-Pro 86.2、MMLU-Redux 93.5、GPQA Diamond 87.8、AIME 2026 94.1、LiveCodeBench v6 83.9,全面超越同参数量前代。

规格:消费级硬件装得下的千亿级性能

Qwen3.6-27B是纯密集架构,27B参数量并非MoE的激活参数,而是每次推理都完整启用的真实参数。原生context长度262,144 tokens,通过YaRN扩展最高可达1,010,000 tokens(约1M),对需要长文件分析或跨仓库理解的coding agent来说是刚需规格。完整精度模型55.6 GB,若采用Q4_K_M量化,体积压缩到16.8 GB,24 GB视频内存的Mac M系列或消费级GPU均可直接载入。授权为Apache 2.0,商业用途无需额外授权费。部署推荐SGLang ≥0.5.10或vLLM ≥0.19.0,KTransformers及HF Transformers亦支持。此外,Qwen3.6-27B整合了vision encoder,同时支持图片、文字、影片理解,并非纯文字模型。

为什么是 OpenClaw 与 Hermes Agent 的本地大脑?

原始快讯点名了两个agent框架:OpenClaw与Hermes Agent。OpenClaw是广受开发者欢迎的类龙虾(Claude Code-like)本地agent应用,今年4月初遭Anthropic点名封杀——Anthropic以违反服务条款为由限制账号后,OpenClaw官方建议用户改走API Key方案,或切换到Qwen、Kimi等本地替代模型。Qwen3.6-27B的开源,精准命中了这条替代路线的需求:本地跑得动、benchmark追到Claude级、Apache 2.0免费商用,三者缺一不可。

Hermes Agent则是NousResearch主导的开源agent框架,强调“自我学习技能”循环——execute、evaluate、extract、refine、retrieve五步骤让agent在执行任务后自动提炼技巧并存入记忆库,下次遇到类似问题时直接调用。相比OpenClaw偏向直觉操作,Hermes Agent更强调长期自主演化能力,支持NousPortal、OpenRouter、NVIDIA NIM、LM Studio、Ollama等多种后端接入。两个框架的共同痛点都是:在本地跑一颗真正够强的模型。Qwen3.6-27B在Claw-Eval(专为coding agent设计的评测集)以72.4平均分与60.6 Pass^3超越Claude 4.5 Opus,给了这两个框架一个可以认真考虑的本地选项。

开源 vs 封闭:阿里的路线布局与地缘格局

Qwen3.6-27B的开源并非孤立事件。阿里稍早于4月16日开源了Qwen3.6-35B-A3B(MoE架构,35B总参数、3B active),这次27B密集的开源则补齐了“本地可完整部署、无需MoE分片”的空缺;而Qwen3.6-Plus与Qwen3.5-Omni仍维持闭源,通过云端API商业化。一开一闭,阿里的策略轮廓清晰:用开源建立生态与信任,用闭源旗舰变现。

更大的背景是这场中美AI开源竞争的格局翻转。动区稍早报道,Meta祖克柏传下令放弃“开源AI”路线,转用阿里Qwen训练付费人工智能Avocado——美国科技巨头收缩开源、中国厂商全力抛开源,这个反向格局正在加速成型。对开发者与本地部署需求者而言,选择正在从“要不要开源”变成“哪个开源模型最够用”,Qwen3.6-27B给出了此刻看起来答案相当清晰的选项。

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim