金十データ11月8日付によると、月の暗面公式サイトによると、Kimi K2 Thinkingは推論、コーディング、エージェント能力のベンチマーク評価で新記録を達成しました。K2 ThinkingはHLEベンチマーク評価で44.9%のSOTA成績を収め、BrowseCompテストで60.2%、SWE-Bench Verifiedテストで71.3%を記録し、最先端の思考エージェントモデルとしての強力な汎用性を示しています。
22.49K 人気度
58.08K 人気度
259.14K 人気度
14.11K 人気度
6.49K 人気度
Kimi K2 Thinkingは、推論、コーディング、エージェント能力のベンチマーク評価において新記録を樹立しました
金十データ11月8日付によると、月の暗面公式サイトによると、Kimi K2 Thinkingは推論、コーディング、エージェント能力のベンチマーク評価で新記録を達成しました。K2 ThinkingはHLEベンチマーク評価で44.9%のSOTA成績を収め、BrowseCompテストで60.2%、SWE-Bench Verifiedテストで71.3%を記録し、最先端の思考エージェントモデルとしての強力な汎用性を示しています。