金十データ11月8日付によると、月の暗面公式サイトによると、Kimi K2 Thinkingは推論、コーディング、エージェント能力のベンチマーク評価で新記録を達成しました。K2 ThinkingはHLEベンチマーク評価で44.9%のSOTA成績を収め、BrowseCompテストで60.2%、SWE-Bench Verifiedテストで71.3%を記録し、最先端の思考エージェントモデルとしての強力な汎用性を示しています。
14.32K 人気度
50.18K 人気度
250.34K 人気度
11.93K 人気度
5K 人気度
Kimi K2 Thinkingは、推論、コーディング、エージェント能力のベンチマーク評価において新記録を樹立しました
金十データ11月8日付によると、月の暗面公式サイトによると、Kimi K2 Thinkingは推論、コーディング、エージェント能力のベンチマーク評価で新記録を達成しました。K2 ThinkingはHLEベンチマーク評価で44.9%のSOTA成績を収め、BrowseCompテストで60.2%、SWE-Bench Verifiedテストで71.3%を記録し、最先端の思考エージェントモデルとしての強力な汎用性を示しています。