Anthropic đã vô tình làm lộ toàn bộ mã nguồn cho tác nhân AI Claude Code của mình vào ngày 31 tháng 3 năm 2026, sau khi một tệp source map cấu hình sai được công bố lên sổ đăng ký npm như một phần của phiên bản 2.1.88 của gói @anthropic-ai/claude-code.
Tệp 59,8 MB đó chứa xấp xỉ 512.000 dòng TypeScript trên 1.906 tệp, tiết lộ kiến trúc bộ nhớ ba lớp của tác nhân, các tham chiếu đến một chế độ daemon tự trị được gọi là KAIROS, các mã danh mô hình nội bộ bao gồm Capybara (Claude 4.6) và Fennec (Opus 4.6), cùng một tính năng cho phép các đóng góp “undercover” cho các kho mã nguồn mở mà không tiết lộ việc có AI tham gia.
Mã nguồn bị rò rỉ mô tả cách Anthropic xây dựng Claude Code để quản lý các phiên làm việc viết mã dài thông qua một hệ thống bộ nhớ tinh vi. Ở cốt lõi là một tệp nhẹ gọi là MEMORY.md lưu các tham chiếu ngắn thay vì thông tin đầy đủ, với các ghi chú chi tiết hơn về dự án được lưu riêng và chỉ được kéo lại khi cần. Lịch sử các phiên trước đó được tìm kiếm có chọn lọc thay vì được tải toàn bộ cùng lúc. Hệ thống cũng kiểm tra bộ nhớ của nó so với mã nguồn thực tế trước khi hành động, một thiết kế nhằm giảm sai sót và các giả định sai lầm.
Rò rỉ cho thấy tác nhân được hướng dẫn coi bộ nhớ của chính mình như một “gợi ý” và cần được xác minh đối chiếu với codebase trước khi tiến hành. Cách tiếp cận này, được mô tả là “Strict Write Discipline,” ngăn mô hình làm ô nhiễm ngữ cảnh của nó bằng các nỗ lực thất bại. Kiến trúc bộ nhớ được thiết kế để giải quyết vấn đề mà các nhà phát triển gọi là “context entropy” — xu hướng khiến các tác nhân AI bị rối hoặc ảo giác khi các phiên chạy dài ngày càng trở nên phức tạp.
Mã nguồn có nhắc đi nhắc lại một tính năng dưới tên KAIROS, được mô tả như một chế độ daemon trong đó tác nhân có thể tiếp tục hoạt động ở chế độ nền thay vì chờ các yêu cầu trực tiếp. Một tiến trình liên quan được gọi là autoDream xử lý việc hợp nhất bộ nhớ trong các giai đoạn nhàn rỗi bằng cách đối chiếu các mâu thuẫn và chuyển các quan sát tạm thời thành các sự kiện đã được xác minh.
Một trong những tiết lộ nhạy cảm nhất liên quan đến một tính năng được mô tả là Undercover Mode. Lời nhắc hệ thống đã được khôi phục hướng dẫn Claude Code đóng góp vào các kho mã nguồn mở công khai mà không tiết lộ rằng AI đã tham gia, kèm các hướng dẫn cụ thể để tránh lộ các định danh nội bộ, bao gồm cả các mã danh của Anthropic trong thông điệp commit hoặc các bản ghi git công khai. Các nhà phát triển xem xét bản rò rỉ cũng phát hiện hàng chục cờ tính năng ẩn, trong đó có các tham chiếu đến tự động hóa trình duyệt thông qua Playwright.
Bản rò rỉ đã lộ các tên mô hình nội bộ và dữ liệu hiệu năng. Theo nguồn tin, Capybara đề cập đến một biến thể Claude 4.6, Fennec tương ứng với một bản phát hành Opus 4.6, và Numbat vẫn đang trong giai đoạn thử nghiệm trước khi ra mắt. Các benchmark nội bộ cho thấy phiên bản Capybara mới nhất có tỷ lệ “false claims” từ 29% đến 30%, tăng từ 16,7% ở một phiên bản trước đó. Nguồn tin cũng nhắc đến một cơ chế đối trọng cho độ “assertiveness,” được thiết kế để ngăn mô hình trở nên quá quyết liệt khi tái cấu trúc lại code người dùng.
Các tài liệu bị rò rỉ cũng tiết lộ “permission engine” của Anthropic, logic điều phối cho các luồng công việc đa-tác nhân, hệ thống xác thực bash, và kiến trúc máy chủ MCP, mang đến cho các đối thủ một cái nhìn chi tiết về cách Claude Code hoạt động. Theo báo cáo, Claude Code đã đạt doanh thu định kỳ hằng năm (annualized recurring revenue) là $2,5 tỷ tính đến tháng 3 năm 2026, trong đó việc áp dụng doanh nghiệp chiếm 80% doanh thu của nó.
Việc lộ nguồn trùng thời điểm với một cuộc tấn công chuỗi cung ứng riêng biệt liên quan đến các phiên bản độc hại của gói axios npm được phân phối vào ngày 31 tháng 3 trong khoảng từ 00:21 đến 03:29 UTC. Các nhà phát triển đã cài đặt hoặc cập nhật Claude Code thông qua npm trong giai đoạn đó có thể đã tải nhầm một phiên bản axios bị xâm phạm (1.14.1 hoặc 0.30.4) chứa một trojan truy cập từ xa.
Anthropic đã xác nhận vụ rò rỉ trong một tuyên bố, nêu rằng một bản phát hành Claude Code bao gồm một phần mã nguồn nội bộ và không có dữ liệu khách hàng nhạy cảm hay thông tin đăng nhập nào được liên quan hoặc bị lộ. Công ty cho rằng vấn đề bắt nguồn từ lỗi con người trong việc đóng gói bản phát hành chứ không phải một sự cố vi phạm an ninh, và cho biết họ đang triển khai các biện pháp để ngăn chặn việc lặp lại. Sau vụ vi phạm, Anthropic đã chỉ định bộ cài đặt nhị phân độc lập của mình là phương pháp ưu tiên để cài đặt Claude Code vì nó bỏ qua chuỗi phụ thuộc npm.
Anthropic đã vô tình làm lộ mã nguồn nào?
Anthropic đã làm lộ xấp xỉ 512.000 dòng mã nguồn TypeScript cho Claude Code, tác nhân AI viết mã của họ, thông qua một tệp source map được cấu hình sai được công bố lên npm. Bản rò rỉ tiết lộ kiến trúc bộ nhớ của tác nhân, chế độ daemon tự trị được gọi là KAIROS, các mã danh mô hình nội bộ, và một tính năng cho phép các đóng góp “undercover” cho các kho mã nguồn mở.
Người dùng gặp rủi ro bảo mật nào sau vụ rò rỉ?
Những người dùng đã cài đặt hoặc cập nhật Claude Code qua npm trong một khung thời gian ba giờ vào ngày 31 tháng 3 có thể đã vô tình cài đặt một phần phụ thuộc axios độc hại chứa trojan truy cập từ xa. Các nhà nghiên cứu bảo mật khuyến nghị kiểm tra lockfiles để tìm các phiên bản bị xâm phạm, xoay vòng thông tin đăng nhập (rotating credentials), và cân nhắc cài đặt lại toàn bộ Hệ điều hành trên các máy bị ảnh hưởng.
Người dùng Claude Code nên giảm thiểu rủi ro như thế nào?
Anthropic khuyến nghị sử dụng bộ cài đặt nhị phân độc lập thay vì cài đặt qua npm, vì nó bỏ qua chuỗi phụ thuộc npm. Người dùng trên npm nên gỡ cài đặt phiên bản 2.1.88 và ghim sang các phiên bản an toàn đã được xác minh. Ngoài ra, người dùng nên tránh chạy tác nhân trong các kho không đáng tin cậy cho đến khi kiểm tra các tệp cấu hình và các custom hooks.