Grok 4.2 щойно досяг 60% на бенчмарку ARC AGI 2. Досить солідний результат. Здається, ми спостерігаємо за новим моментом передового досвіду у можливостях ШІ. Прогрес у цих стандартизованих бенчмарках продовжує розширювати межі того, що можуть обробляти ці моделі.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 5
  • Репост
  • Поділіться
Прокоментувати
0/400
LiquidationHuntervip
· 2год тому
60%? Це ще деякий час, потрібно продовжувати наполегливо працювати
Переглянути оригіналвідповісти на0
SnapshotLaborervip
· 12год тому
60% — ця цифра виглядає непогано, але й не надто неймовірно... В будь-якому разі ці бенчмарки нічого не доводять, справді важливо, як це працює на практиці
Переглянути оригіналвідповісти на0
ForkInTheRoadvip
· 12год тому
60%? Відчуття, що не так вже й вибухово, як уявляв... думав, що прорве 70.
Переглянути оригіналвідповісти на0
MEV_Whisperervip
· 12год тому
ngl arc benchmark знову оновлено, але чи справді ці 60% щось означають? Відчувається, що ці рейтинги все ще далекі від реального застосування...
Переглянути оригіналвідповісти на0
NeonCollectorvip
· 12год тому
60%? Наскільки ж великий цей "водяний" показник у цьому бенчмарку... справжній AGI ще дуже далеко
Переглянути оригіналвідповісти на0
  • Закріпити