金十データ2月23日、最近、OpenAIの1人の従業員が、イーロン・マスクの傘下のXAI社が公開した最新のAIモデルGrok3のベンチマークテスト結果が誤解を招くと非難しました。これに対し、XAIの共同創設者イゴール・バブシュキン(Igor Babushkin)氏は、会社に不正がないと主張しています。XAIの図によると、Grok3には2つのバージョンがあり、Grok3 Reasoning BetaとGrok3 mini Reasoningは、AIME 2025でOpenAIの現在利用可能な最強モデルo3-mini-highを上回っています。しかし、OpenAIの従業員はすぐにXプラットフォーム上で指摘しました、XAIの図にはo3-mini-highの“cons@64”条件でのAIME 2025スコアが含まれていないと。バブシュキン氏はXプラットフォーム上で反論し、OpenAIも過去に同様の誤解を招くベンチマークテスト図を公開したことがあると述べました。これらの図は、自社のモデルのパフォーマンスを比較するために使用されていましたが。
OpenAIの従業員は、Grok3のベンチマークテスト結果が誤解を招くと公然と非難しています
金十データ2月23日、最近、OpenAIの1人の従業員が、イーロン・マスクの傘下のXAI社が公開した最新のAIモデルGrok3のベンチマークテスト結果が誤解を招くと非難しました。これに対し、XAIの共同創設者イゴール・バブシュキン(Igor Babushkin)氏は、会社に不正がないと主張しています。XAIの図によると、Grok3には2つのバージョンがあり、Grok3 Reasoning BetaとGrok3 mini Reasoningは、AIME 2025でOpenAIの現在利用可能な最強モデルo3-mini-highを上回っています。しかし、OpenAIの従業員はすぐにXプラットフォーム上で指摘しました、XAIの図にはo3-mini-highの“cons@64”条件でのAIME 2025スコアが含まれていないと。バブシュキン氏はXプラットフォーム上で反論し、OpenAIも過去に同様の誤解を招くベンチマークテスト図を公開したことがあると述べました。これらの図は、自社のモデルのパフォーマンスを比較するために使用されていましたが。