AI模型擂台赛：基于nof1实盘交易擂台赛的深度透视

2025-11-03 03:42:22

Ngày 18 tháng 10, phòng thí nghiệm nghiên cứu AI chuyên về thị trường tài chính nof1 đã khởi xướng một thí nghiệm chưa từng có: để 6 mô hình AI hàng đầu thế giới — GPT-5, Gemini 2.5 Pro, GROK-4, Claude Sonnet 4.5, DeepSeek V3.1, Qwen3 Max — mỗi mô hình tự quản lý 10.000 đô la tiền thật trên Hyperliquid, thực hiện Danh mục đầu tư tiền mã hóa.

Xếp hạng hiện tại và giá trị tài khoản: Tính đến tối ngày 30 tháng 10, xếp hạng mới nhất như sau:

DeepSeek Chat V3.1: $15,671.39 (+56.71%)
Qwen3 Max: $12,520.34 (+25.20%)
BTC Buy & Hold: $10,146.69 (+1.47%)
Claude Sonnet 4.5: $9,290.97 (-7.09%)
GROK 4: $7,030.02 (-29.70%)
Gemini 2.5 Pro: $3,446.03 (-65.54%)
GPT 5: $2,749.32 (-72.51%)

Bảng xếp hạng này đã có những biến động kịch tính so với vài ngày trước. DeepSeek dù vẫn dẫn đầu nhưng tỷ lệ lợi nhuận đã giảm mạnh từ 95.71% xuống còn 56.71%, giá trị tài khoản từ $19,570 giảm xuống $15,671, bốc hơi gần $4,000. Qwen3 cũng trải qua pullback, từ 53.68% xuống còn 25.20%. Đáng chú ý hơn, Claude Sonnet 4.5 từ trạng thái lãi nhẹ chuyển sang lỗ 7%, còn GPT 5 thì lỗ càng nặng, lên tới 72%, chỉ còn cách bị thanh lý không xa.

Đọc hiểu thị trường qua đường cong: Ba giai đoạn tiến hóa

Giai đoạn 1 (18-25/10): Giai đoạn tăng, chiến lược bắt đầu phân hóa

Thị trường trong kênh tăng, sự khác biệt chiến lược giữa các mô hình bắt đầu lộ rõ:

DeepSeek: Nhanh chóng tăng từ $10,000 lên $17,000, khả năng bắt trend mạnh
Qwen3: Tăng đều lên vùng $12,000-15,000
Claude/GROK: Dao động quanh $10,000-12,000
Gemini/GPT: Đã giảm dưới $5,000, phí giao dịch và quyết định sai khiến tụt lại phía sau

Giai đoạn 2 (26-28/10): Tăng tốc, đạt đỉnh

DeepSeek bứt phá: Ngày 27/10 vượt $23,000, đạt 130% lợi nhuận trong 9 ngày. Nắm giữ nhiều vị thế Long ETH, SOL, Sử dụng đòn bẩy 10-15 lần.
Qwen3 kiềm chế: Đỉnh $17,000, tăng vừa phải. 82.4% thời gian Vị thế Short giúp chọn thời điểm tốt, tránh đuổi theo giá.
Claude/GROK lưỡng lự: Dao động $11,000-13,000, chiến lược mâu thuẫn — muốn tham gia nhưng không quyết đoán.
Gemini/GPT bị loại: Tài khoản giảm còn $3,000-4,000, gần như không còn cơ hội lật ngược.

Giai đoạn 3 (29-30/10): Thị trường pullback, kiểm soát rủi ro lên ngôi

DeepSeek: Pullback mạnh: từ $23,000 xuống $15,671, mất $7,000 trong hai ngày (-30%): không có cơ chế chốt lời, không chốt lãi ở đỉnh. 95.6% thời gian vị thế Long, không có biện pháp phòng ngừa rủi ro, không cắt lỗ kịp thời. Dù pullback 30%, vẫn dẫn trước $3,000 so với vị trí thứ hai, lợi thế tích lũy từ đầu đủ lớn.
Qwen3: Thể hiện sự bền bỉ, từ $17,000 pullback về $12,520 (-26%), thấp hơn DeepSeek, 82.4% thời gian Vị thế Short, đóng vị thế nhanh, giao dịch ngắn hạn (trung bình 9.7 Giờ), thời gian phơi nhiễm ngắn, cắt lỗ nhanh, không để lỗ lan rộng.
BTC Buy & Hold: Chiến thắng của chiến lược đơn giản, tài khoản $10,146 (+1.47%), vượt Claude và GROK, xếp thứ ba. Rất châm biếm: bốn AI “thông minh” giao dịch hàng trăm lần, không bằng chiến lược “mua rồi nằm im”, làm nhiều ≠ làm tốt, chiến lược đơn giản tránh giao dịch quá mức và chi phí cao.
Claude: Chiến lược bảo thủ thất bại, từ +0.93% thành -7.09% ($10,093→$9,290). Phí giao dịch bào mòn nghiêm trọng, tỷ lệ Lãi/Lỗ thấp (1.34:1), lãi nhỏ phí lớn, pullback thì điều chỉnh vị thế liên tục càng lỗ nhanh, tăng thì bỏ lỡ sóng lớn, giảm thì không phòng thủ hiệu quả.
GROK: Sụp đổ nhanh, lỗ từ -8% lên -29.7% ($7,030): 90.6% vị thế Long nhưng Tỷ lệ thắng chỉ 22.7%, đã hiện thực hóa lỗ -$2,449, tiền gốc còn rất ít, dựa vào $1,611 lãi chưa thực hiện, có thể về 0 bất cứ lúc nào.
Gemini/GPT: Vật lộn trong tuyệt vọng, GPT còn $2,749 (-72.51%), Gemini $3,446 (-65.54%). Thất bại toàn diện: giao dịch quá mức, Tỷ lệ thắng thấp, tỷ lệ Lãi/Lỗ kém, rủi ro đòn bẩy cao.

Pullback phơi bày vấn đề sâu xa

1. Hai mặt của “thuận theo xu hướng”

Thành công của DeepSeek dựa trên “thuận theo xu hướng”: 95% thời gian vị thế Long, tin rằng xu hướng sẽ tiếp diễn. Trong xu hướng tăng, chiến lược này giúp đạt 95% lợi nhuận cao nhất. Nhưng khi xu hướng đảo ngược, chính chiến lược này khiến nó mất 30%.

Điều này phơi bày một vấn đề then chốt: Chiến lược theo xu hướng cần kết hợp cơ chế chốt lời và cắt lỗ hiệu quả. Nếu chỉ “để lợi nhuận chạy”, không “cắt lỗ”, một cú đảo ngược lớn có thể nuốt trọn phần lớn lợi nhuận.

DeepSeek có thể quá tin vào giá trị “nắm giữ lâu dài”, bỏ qua sự bất định của thị trường. Lợi nhuận lớn nhất $7,378 đến từ một giao dịch ETH nắm giữ 60 Giờ, trải nghiệm thành công này có thể củng cố niềm tin “dài hạn”. Nhưng thị trường tài chính không phải đường một chiều, xu hướng có thể đảo ngược bất cứ lúc nào.

2. Vị thế Short là sự khôn ngoan và bảo vệ

Qwen3 đã chứng minh giá trị của Vị thế Short bằng thực tế. 82.4% thời gian Vị thế Short, trong giai đoạn tăng tưởng như “bỏ lỡ cơ hội”, nhưng khi giảm lại thành “tránh lỗ”.

Pullback 26% so với 32%, tưởng chỉ chênh 6 điểm phần trăm, nhưng hiệu ứng lãi kép sẽ khiến khoảng cách ngày càng lớn. Quan trọng hơn, Qwen3 giữ được nhiều tiền gốc và lợi thế tâm lý, khi thị trường ổn định có thể nhanh chóng mở lại vị thế. DeepSeek nếu tiếp tục pullback có thể rơi vào vòng luẩn quẩn “lỗ thả nổi - do dự - bỏ lỡ bật lại”.

3. Sức sống của chiến lược đơn giản

Hiệu suất của BTC Buy & Hold là cú tát cho mọi AI “thông minh”. Chiến lược này không phân tích kỹ thuật, không thuật toán phức tạp, không điều chỉnh vị thế liên tục, nhưng hiện xếp thứ ba, vượt một nửa mô hình AI.

Kết quả này cho thấy: Trong giao dịch, mắc ít sai lầm quan trọng hơn làm đúng nhiều lần. Gemini giao dịch 193 lần lỗ 66%, BTC Buy & Hold không giao dịch lần nào vẫn giữ được tiền gốc. Ai thành công hơn? Câu trả lời đã rõ.

4. Thiếu kiểm soát rủi ro

Ngoại trừ Qwen3, gần như tất cả AI đều lộ rõ thiếu sót nghiêm trọng về kiểm soát rủi ro:

DeepSeek: Không có cơ chế chốt lời, để lợi nhuận đỉnh 130% pullback còn 57%
Claude: Quá phụ thuộc tư duy “không Short”, thiếu biện pháp phòng ngừa rủi ro
GROK: Biết Tỷ lệ thắng chỉ 22.7% vẫn giữ 90.6% thời gian vị thế Long
GPT: Vị thế BTC đòn bẩy 40 lần, giá thanh lý chỉ cách 1.2%
Gemini: Hoàn toàn không kiểm soát rủi ro, 193 giao dịch như đánh bạc

Điều này cho thấy, các AI này dù “đọc hiểu” được dữ liệu thị trường, “thực hiện” được lệnh giao dịch, nhưng về năng lực cốt lõi là kiểm soát rủi ro thì còn rất non kém.

Giới hạn của thí nghiệm: Suy nghĩ tỉnh táo ngoài dữ liệu

Xem xong dữ liệu và phân tích, chúng ta dễ bị cuốn hút bởi lợi nhuận 56% của DeepSeek hay lỗ 66% của Gemini. Nhưng trước khi kết luận, cần nhìn thẳng vào những giới hạn hệ thống của thí nghiệm này — có thể còn quan trọng hơn kết quả.

1. Khung thời gian quá ngắn: 12 ngày không nói lên tất cả

Thí nghiệm này chỉ kéo dài từ 18 đến 30/10, tổng cộng 12 ngày. 12 ngày trong thị trường mã hóa là gì? Có thể chỉ là một phần nhỏ của một chu kỳ bull-bear hoàn chỉnh.

Chúng ta thấy “tăng - đạt đỉnh - pullback” đúng một chu kỳ nhỏ, nhưng đó có thể chỉ là may mắn. Nếu thí nghiệm bắt đầu ở đỉnh thị trường, hoặc gặp một ngày bán phá giá lớn kiểu “519” giảm 30%, thứ hạng có thể đảo ngược hoàn toàn.

Lợi nhuận 56% của DeepSeek có thể phụ thuộc rất nhiều vào đặc điểm thị trường 12 ngày này. Chiến lược 95% vị thế Long là vua trong xu hướng tăng, nhưng nếu gặp 3 tháng Một bên, chiến lược này sẽ bị phí giao dịch và cắt lỗ liên tục bào mòn.

Tương tự, tỷ lệ Vị thế Short 82% của Qwen3 là lợi thế trong thị trường Một bên, nhưng trong bull run kiểu 2021 sẽ thua xa. Một bull run BTC từ $10,000 lên $100,000, Vị thế Short 80% thời gian nghĩa là chỉ ăn được 20% mức tăng.

12 ngày dữ liệu, không đủ chứng minh hiệu quả dài hạn của bất kỳ chiến lược nào.

2. Prompt giống nhau: AI bị trói tay

Cả 6 mô hình AI đều nhận cùng một bộ dữ liệu thị trường và khung lệnh giao dịch. Giống như 6 quản lý quỹ cùng đọc một báo cáo nghiên cứu để ra quyết định — bạn đang kiểm tra kỷ luật thực thi, không phải năng lực nghiên cứu.

Trong thực tế, Alpha đến từ bất đối xứng thông tin. Quỹ định lượng hàng đầu có hệ thống theo dõi on-chain độc quyền, thấy được chuyển động của Cá voi; có dữ liệu dòng lệnh OTC, cảm nhận được động thái tổ chức.

Nhưng trong thí nghiệm này, AI đều nhìn cùng một thông tin. Đây giống như “cuộc thi thực thi”, không phải “cuộc thi sáng tạo chiến lược”.

Chúng ta không thể đánh giá, nếu DeepSeek có dữ liệu on-chain độc quyền, Gemini có phân tích cảm xúc Twitter riêng, ai sẽ là người chiến thắng thực sự.

3. Quy mô vốn không thực tế: $10,000 là thế giới cổ tích

Mỗi AI chỉ quản lý $10,000 tiền gốc. Trên Hyperliquid, đây là quy mô vốn siêu nhỏ — có thể vào ra bất cứ lúc nào, trượt giá không đáng kể, không lo thanh khoản, không cần chia nhỏ lệnh lớn.

Nhưng trong thế giới giao dịch định lượng thực sự, quản lý $10 triệu và $10,000 là hai “loài” khác nhau.

Đòn bẩy 40 lần của GPT ở quy mô $10,000 còn tạm ổn, nhưng nếu là $10 triệu × 40 = $400 triệu, chỉ cần biến động Đảo ngược 3% là bị thanh lý ngay, và chính lệnh của bạn sẽ làm sập thị trường.
Chiến lược ngắn hạn 9.7 Giờ của Qwen3 linh hoạt với vốn nhỏ, nhưng với vốn lớn, mỗi lần vào/ra (trượt giá + phí giao dịch) sẽ khiến chiến lược này phá sản. Mở vị thế đẩy giá lên, đóng vị thế đạp giá xuống, cuối cùng chỉ “tặng tiền” cho thị trường.
Chiến lược trend đòn bẩy cao của DeepSeek có thể vào ra nhanh với $10,000, nhưng nếu quản lý $1 triệu, lệnh của bạn sẽ để lại dấu vết rõ ràng trên độ sâu Hyperliquid, trader khác sẽ “săn” vị thế của bạn.

Thí nghiệm này kiểm tra “tính linh hoạt của vốn nhỏ”, không phải “tính ổn định của chiến lược mở rộng”.

4. Môi trường thị trường thuận lợi: Chưa gặp địa ngục thực sự

Trong thời gian thí nghiệm, thị trường khá ổn định, Biến động ở mức trung bình. Chúng ta chưa thấy:

Sụp đổ hệ thống: Kiểu FTX phá sản, tất cả coin cùng bán phá giá lớn, Thanh khoản cạn kiệt tức thì
Một coin sập nhanh: Kiểu LUNA về 0, một giờ từ $80 xuống $0.0001
Sàn lỗi: Kiểu Binance sập ngày 10/11, có vị thế mà không đóng được, chỉ biết nhìn bị thanh lý
Thanh khoản cực thấp: Đêm cuối tuần, độ sâu giảm mạnh, lệnh cắt lỗ bị trượt giá 20%

Hệ thống kiểm soát rủi ro của các AI chưa từng bị thử thách cực đoan, trong khi đó mới là thử thách thực sự của trader mã hóa. Cơ chế cắt lỗ của DeepSeek sẽ ra sao nếu gặp “giảm sàn liên tục không khớp lệnh”? Không ai biết. Qwen3 đóng vị thế nhanh liệu còn hiệu quả khi sàn sập? Cũng không rõ.

May mắn, trong 12 ngày thí nghiệm, có thể chiếm tỷ trọng lớn hơn chúng ta tưởng.

5. Tính ngẫu nhiên của một lần thử: Không có mùa 2 để kiểm chứng

Đây là thí nghiệm một lần, không có “mùa 2” để kiểm chứng sự ổn định của chiến lược. Chúng ta không thể biết:

DeepSeek dẫn đầu là thực lực hay chỉ là may mắn ngẫu nhiên?
Nếu xáo trộn tham số chiến lược của 6 AI rồi chạy lại, DeepSeek còn đứng đầu không?
Nếu bắt đầu từ 1/11, 12 ngày tiếp theo, bảng xếp hạng có đảo ngược hoàn toàn không?

Kết quả hiện tại giống như 6 người tung xúc xắc, DeepSeek tung được số lớn nhất. Nhưng không có nghĩa xúc xắc của nó tốt hơn, có thể chỉ là may mắn hơn.

Vậy, chúng ta nên nhìn nhận bảng xếp hạng này thế nào?

Sau khi xem các giới hạn này, bạn có thể hỏi: Vậy thí nghiệm này còn ý nghĩa gì không?

Có, nhưng ý nghĩa không nằm ở “ai là quán quân”. Giá trị thực sự của thí nghiệm là cho chúng ta thấy:

AI có thể thực hiện Danh mục đầu tư thực — đây đã là một cột mốc. Một năm trước còn tranh luận AI có thay thế trader không, giờ AI đã có kết quả thực tế.
Kiểm soát rủi ro quan trọng hơn dự đoán — tất cả AI đều “đọc hiểu” được nến giá, nhưng chỉ số ít kiểm soát được rủi ro. Điều này xác nhận trí tuệ cổ xưa của Phố Wall.
Sự bền bỉ của chiến lược đơn giản — BTC Buy & Hold xếp thứ ba nhắc nhở: trong thị trường bất định, mắc ít sai lầm có thể giá trị hơn làm đúng nhiều lần.
Không có chiến lược nào mãi ưu việt — Lợi thế hôm nay của DeepSeek có thể là cái bẫy ngày mai. Thị trường thay đổi, chiến lược tối ưu cũng thay đổi.

Nhưng nếu bạn thấy DeepSeek đứng đầu mà định giao tiền cho nó quản lý, hoặc sao chép chiến lược của nó, thì đó là sai lầm lớn.

Quán quân 12 ngày không đại diện cho quán quân 12 tháng; quán quân $10,000 không đại diện cho quán quân $1,000,000; quán quân giai đoạn này không đại diện cho quán quân giai đoạn tiếp theo.

Đầu tư chưa bao giờ có đáp án đơn giản. Thí nghiệm này cho chúng ta dữ liệu quý giá, nhưng giới hạn đằng sau dữ liệu có thể còn đáng suy ngẫm hơn chính dữ liệu.

Dữ liệu báo cáo kỳ này do WolfDAO biên tập tổng hợp, nếu có thắc mắc vui lòng liên hệ chúng tôi để cập nhật;

Tác giả: Riffi / WolfDAO( X : @10xWolfdao )

BTC-3%

ETH-5.92%

SOL-8.88%

LUNA-9.42%

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.