Сотрудники OpenAI публично обвинили тесты Бенчмарк Grok3 в искажении результатов

GoldenOctober2024

Генерация тезисов в процессе

Golden Ten Data, 23 февраля, недавно сотрудник OpenAI публично обвинил компанию xAI Илона Маска, заявив, что результаты тестирования Бенчмарка последней модели искусственного интеллекта Grok3, выпущенные ею, вводят в заблуждение. В ответ сооснователь xAI Игорь Бабушкин настаивал на том, что компания не ошиблась. Графики xAI показывают, что две версии Grok3 — Grok3 Reasoning Beta и Grok3 mini Reasoning — превзошли самую сильную в настоящее время доступную модель OpenAI, o3-mini-high, на AIME 2025. Тем не менее, сотрудники OpenAI поспешили указать на платформе X, что график xAI не включает оценку AIME 2025 в размере o3-mini-high в условиях «cons@64». Бабушкин утверждает на платформе X, что OpenAI в прошлом публиковала подобные вводящие в заблуждение тестовые таблицы Бенчмарка. Хотя эти графики используются для сравнения производительности собственных моделей.

GROK-5.59%

XAI-3.32%

Посмотреть Оригинал

Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».

3 Лайков

Награда
3
2
Поделиться

комментарий

0/400

Нет комментариев

Тема
#BTC#
194k посты
#ETH#
121k посты
#PI#
104k посты
4#GateioInto11#
77k посты
5#ContentStar#
64k посты
6#BOME#
60k посты
7#GT#
57k посты
8#DOGE#
53k посты
9#MAGA#
52k посты
10#SLERF#
51k посты

Закрепить

Карта сайта