Golden Ten Data, 23 Februari, baru-baru ini, seorang karyawan OpenAI secara terbuka menuduh perusahaan xAI Elon Musk, mengatakan bahwa hasil tes Benchmark dari model AI terbaru Grok3 yang dirilis olehnya menyesatkan. Sebagai tanggapan, salah satu pendiri xAI Igor Babushkin bersikeras bahwa perusahaan itu tidak salah. Grafik xAI menunjukkan bahwa dua versi Grok3 – Grok3 Reasoning Beta dan Grok3 mini Reasoning – mengungguli model OpenAI terkuat yang tersedia saat ini, o3-mini-high, di AIME 2025. Namun, karyawan OpenAI dengan cepat menunjukkan pada platform X bahwa bagan xAI tidak menyertakan skor AIME 2025 o3-mini-high dalam kondisi "cons@64". Babushkin berpendapat pada platform X bahwa OpenAI telah memposting grafik Benchmark menyesatkan serupa di masa lalu. Meskipun grafik ini digunakan untuk membandingkan kinerja model mereka sendiri.
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
Karyawan OpenAI secara terbuka menuduh hasil pengujian Benchmark Grok3 bersifat menyesatkan
Golden Ten Data, 23 Februari, baru-baru ini, seorang karyawan OpenAI secara terbuka menuduh perusahaan xAI Elon Musk, mengatakan bahwa hasil tes Benchmark dari model AI terbaru Grok3 yang dirilis olehnya menyesatkan. Sebagai tanggapan, salah satu pendiri xAI Igor Babushkin bersikeras bahwa perusahaan itu tidak salah. Grafik xAI menunjukkan bahwa dua versi Grok3 – Grok3 Reasoning Beta dan Grok3 mini Reasoning – mengungguli model OpenAI terkuat yang tersedia saat ini, o3-mini-high, di AIME 2025. Namun, karyawan OpenAI dengan cepat menunjukkan pada platform X bahwa bagan xAI tidak menyertakan skor AIME 2025 o3-mini-high dalam kondisi "cons@64". Babushkin berpendapat pada platform X bahwa OpenAI telah memposting grafik Benchmark menyesatkan serupa di masa lalu. Meskipun grafik ini digunakan untuk membandingkan kinerja model mereka sendiri.