cuối cùng một tiêu chuẩn đánh giá thực sự quan trọng.


quên MMLU và điểm số toán học.. PinchBench kiểm tra xem mô hình AI nào tốt nhất trong việc thực hiện công việc thực tế.
không trả lời các câu đố vui. thực sự làm các việc:
→ tra cứu thông tin từ nhiều nguồn web
→ tạo và lên lịch các cuộc họp
→ tổ chức tệp trên máy tính của bạn
→ viết và quản lý email
nó kiểm tra các mô hình hoạt động như các đại lý thông qua OpenClaw.. nghĩa là AI phải sử dụng công cụ, chuỗi hành động, và hoàn thành nhiệm vụ từ đầu đến cuối.
kết quả rất thú vị:
> Gemini 3 Flash dẫn đầu với 95.1%
> MiniMax M2.1 đứng gần sau với 93.6%
> Kimi K2.5 với 93.4%
> Claude Sonnet với 92.7%
> Gemini 3 Pro với 91.7%
> Claude Haiku với 90.8%
> Claude Opus 4.6 với 90.6%
> GPT-5 Nano với 85.8%
khoảng cách giữa top và bottom chỉ khoảng ~10%.. điều này có nghĩa là hầu hết các mô hình tiên tiến đang trở nên khá tốt trong các nhiệm vụ đại lý.
nhưng điều thực sự đáng chú ý? Gemini Flash.. một mô hình nhẹ.. đang vượt qua mọi mô hình nặng về công việc thực tế của đại lý. tốc độ + sử dụng công cụ > trí tuệ thuần túy.
đây là loại tiêu chuẩn đánh giá nên quyết định mô hình bạn sử dụng hàng ngày.. chứ không phải một bài kiểm tra học thuật mà không ai quan tâm.
Xem bản gốc
post-image
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.43KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Vốn hóa:$2.51KNgười nắm giữ:2
    0.41%
  • Vốn hóa:$3.02KNgười nắm giữ:2
    4.74%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Ghim