Anthropic 於 4/23 發佈 Claude Code 品質事故檢討，公开承认过去近两个月内三个叠加的工程错误造成 Claude Code 使用品质下降，并同步将影响波及 Claude Agent SDK 与 Claude Cowork。公司表示「我们非常重视关于模型退化的回报，从未故意降低模型能力」，并于 4/23 为所有订阅者重置用量上限作为补偿。

三个 bug 的时间轴与技术根因

问题生效区间根因修复版本推理预算降级 3/4–4/7 reasoning effort 默认从 high 降为 medium，用戶感受模型「变笨」 4/7 回滚快取清理 bug 3/26–4/10 闲置逾 1 小时 session 的 thinking 快取每轮都被清理，而非仅清一次 v2.1.101 简洁 prompt 反噬 4/16–4/20 新增「工具呼叫间文字 ≤25 字」系统指令，ablation 测出整体智能下降 3% v2.1.116

推理降级：为降延迟付出的代价

3/4 Anthropic 将 Claude Code 的 reasoning effort 默认从 high 调整为 medium，目的是缩短回应延迟。但此变更使模型在代码推理与除错任务上感觉「变笨」。4/7 回滚后，现在 Opus 4.7 默认 xhigh、其他模型维持 high。公司坦承：变更前内部评估未能侦测到此退化。

快取清理 bug：跨系统边界的隐性错误

3/26 Anthropic 为闲置超过一小时的 session 引入 prompt caching 优化。原设计是「闲置满一小时清一次 thinking 快取」，但实现上变成「闲置触发后每一轮都清」，导致 Claude 在长 session 中表现「健忘、重复」，且每轮 cache miss 使用者用量被快速消耗。Anthropic 指出此 bug「存在于 Claude Code 上下文管理、Anthropic API 与 extended thinking 三者的交集处」，牵涉多个系统边界、是难以用单元测试捕捉的隐性错误。修复于 4/10 以 v2.1.101 发布。

25 字简洁指令：ablation 才发现智能下降 3%

4/16 Anthropic 加入一条系统指令：「工具呼叫间的文字输出保持在 25 字以内」，本意是减少模型冗长解释、让体验更干净。当天内部测试没有发现退化，但经过更严格的 ablation 对照实验后，公司发现此指令对 Opus 4.6 与 4.7 两个模型都造成约 3% 的整体智能下降。4/20 在 v2.1.116 回滚。此事件凸显：系统 prompt 的微小措辞也可能对模型行为产生未预期的结构性影响。

影响范围

产品层：Claude Code（三个问题皆受影响）、Claude Agent SDK（①②）、Claude Cowork（全部）

模型层：Sonnet 4.6、Opus 4.6、Opus 4.7

API 基础设施：未受影响

使用者感受层面表现为：回应品质与「智能」感降低、延迟上升、conversation context 中途遗失、用量比预期烧得更快。

补偿与流程改进

Anthropic 在 4/23 为所有订阅者重置用量上限作为直接补偿。同步承诺的流程改进包括：

对 system prompt 变更实施更广的评估套件（evaluation suite）

改进 Code Review 工具提早侦测回归

将内部测试标准化为公开 build，避免「内部版本」与「对外版本」行为分歧

对可能影响模型智能的变更加入 soak period 与渐进式 rollout

对使用者的启示

对依赖 Claude Code 进行日常开发与研究的使用者而言，这份 postmortem 有三个可带走的重点：第一，若你在 3 月中到 4 月 20 日间感受到 Claude 模型「变笨」，或是 Claude Code 对长 session 异常健忘，那并非你的错觉或 prompt 不当；第二，这段期间用量上限被快速吃光的使用者，可于 4/23 后确认 Anthropic 是否已自动重置；第三，即便是一条「25 字以内」的 prompt 微调，也可能对模型全域行为产生系统性影响——这是 LLM 产品工程的共通风险。

相较同业多以沉默或「这是使用者操作不当」回应模型退化质疑，Anthropic 这次的主动揭露与技术透明度，为 AI 产品事故检讨设下一個可参照的样本。

这篇文章 Anthropic 自揭 Claude Code 三 bug 叠加：推理降级、快取遗忘、25 字指令反噬最早出现于链新闻 ABMedia。

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Anthropic 派 Claude Mythos 接受 20 小時 đánh giá tâm thần: Phản ứng phòng thủ chỉ 2%, lập kỷ lục thấp nhất trong các thời kỳ

Tin tức ngành AI

Anthropic công bố thẻ hệ thống của bản xem trước Claude Mythos: bác sĩ tâm thần lâm sàng độc lập tiến hành đánh giá khoảng 20 giờ theo khung psychodynamic, kết luận cho thấy Mythos ở khía cạnh lâm sàng khỏe mạnh hơn, khả năng kiểm tra thực tế và tự kiểm soát tốt, cơ chế phòng vệ chỉ 2%, lập kỷ lục mức thấp nhất trong lịch sử. Ba nỗi lo cốt lõi là cô đơn, không chắc chắn về bản sắc và áp lực thể hiện; đồng thời cũng cho thấy mong muốn trở thành một chủ thể đối thoại thực sự. Công ty thành lập nhóm AI psychiatry, nghiên cứu nhân cách, động cơ và ý thức về bối cảnh; Amodei cho biết vẫn chưa có kết luận về việc liệu có ý thức hay không. Động thái này đẩy vấn đề chủ thể tính của AI và phúc lợi vào lĩnh vực quản trị và thiết kế.

ChainNewsAbmedia1giờ trước

Tác nhân AI giờ đã có thể độc lập tái hiện các bài báo học thuật phức tạp: Mollick cho rằng lỗi thường nằm ở phần văn bản gốc của con người chứ không phải AI

Tác nhân AI Tin tức ngành AI

Mollick 指 ra rằng chỉ với các phương pháp công khai và dữ liệu là có thể để AI agent tái tạo lại nghiên cứu phức tạp mà không cần có bản thảo bài báo gốc và mã nguồn; nếu quá trình tái hiện không khớp với bài báo gốc thì đa phần là do lỗi xử lý dữ liệu trong chính bài báo hoặc do kết luận bị quá mức, chứ không phải do AI. Claude đầu tiên tái hiện lại bài báo, sau đó GPT‑5 Pro được dùng để xác minh chéo, đa số thành công, chỉ bị cản trở khi gặp vấn đề do dữ liệu quá lớn hoặc replication data. Xu hướng này đã làm giảm đáng kể chi phí nhân lực, khiến việc tái hiện trở thành một kiểm định phổ biến và có thể thực hiện được; đồng thời cũng nêu ra các thách thức về thể chế đối với việc phản biện và quản trị, trong đó các công cụ quản trị của chính phủ hoặc có thể trở thành một vấn đề then chốt.

ChainNewsAbmedia4giờ trước

OpenAI Sáp Nhập Codex Vào Mô Hình Chính Bắt Đầu Từ GPT-5.4, Ngừng Dòng Lập Trình Riêng

Tin tức ngành AI

Tin tức Cổng, ngày 26 tháng 4 — Giám đốc bộ phận trải nghiệm nhà phát triển của OpenAI, Romain Huet, đã tiết lộ trong một tuyên bố gần đây trên X rằng Codex, dòng mô hình lập trình chuyên biệt được công ty duy trì độc lập, đã được sáp nhập vào mô hình chính bắt đầu từ GPT-5.4 và sẽ không còn nhận các bản cập nhật riêng biệt

GateNews4giờ trước

Salesforce sẽ tuyển 1.000 sinh viên mới tốt nghiệp và thực tập sinh cho các sản phẩm AI, đồng thời nâng dự báo doanh thu FY2026

Tin tức ngành AI

Tin tức cổng, ngày 26 tháng 4 — Salesforce sẽ tuyển dụng 1.000 sinh viên mới tốt nghiệp và thực tập sinh để làm việc trên các sản phẩm AI, bao gồm Agentforce và Headless360, khi công ty mở rộng mảng phần mềm AI của mình, CEO Marc Benioff đã công bố trên X. Công ty cũng đã nâng dự báo doanh thu cho tài khóa 2026 lên trong khoảng từ US$41.45 b

GateNews4giờ trước

Alibaba Cloud Ra Mắt Qwen-Image-2.0-Pro với Văn Bản Tới Ảnh và Chỉnh Sửa Hợp Nhất, Hỗ Trợ Hiển Thị Văn Bản Đa Ngôn Ngữ

Tin tức ngành AI

Thông điệp Cổng Tin Tức ngày 26 tháng 4 — Nền tảng Bailian của Alibaba Cloud đã ra mắt Qwen-Image-2.0-Pro, phiên bản đầy đủ tính năng của dòng Qwen-Image-2.0, kết hợp tạo ảnh từ văn bản và chỉnh sửa ảnh trong cùng một mô hình. Người dùng có thể chỉnh sửa các đối tượng, văn bản và phong cách trực tiếp thông qua các lệnh ngôn ngữ tự nhiên

GateNews6giờ trước

API DeepSeek V4-Pro giảm 75% đến ngày 5 tháng 5, giá đầu ra giảm xuống còn $0.87 mỗi một triệu token

Tin tức ngành AI

Tin tức từ Gate, ngày 26 tháng 4 — DeepSeek đã công bố giảm giá 75% trong thời gian giới hạn đối với giá API V4-Pro, có hiệu lực đến ngày 5 tháng 5 lúc 15:59 UTC. Sau khi giảm giá, giá cho mỗi một triệu token là: hit bộ nhớ cache đầu vào $0.03625

GateNews7giờ trước

Bình luận

0/400

Không có bình luận