Гугл сегодня выпустила Gemini 3.1 Pro, только что увидел тестовые оценки, кажется, это направлено на лидерство в рейтингах (гонка моделей продолжается, положительно влияет на полупроводники!)😂


Официальная позиция очень ясна: предназначена для сложных задач, таких как глубокие исследования, инженерные трудности, длинные цепочки рассуждений и агентные рабочие процессы.
Ключевые особенности: 1M токенов в окне контекста (без изменений)
Поддержка мультимодальности (текст+изображения+видео+аудио+код)
Максимальный вывод до 64k токенов
Сравнение производительности с текущими ведущими моделями (Claude Opus 4.6, GPT-5.2/5.3 и др.):
ARC-AGI-2 (самый сложный тест на абстрактное рассуждение):
Gemini 3.1 Pro 77.1%, опережая Claude 4.6 (68.8%) примерно на 8-9 процентных пунктов,
опережая серию GPT-5 на 20-30+ процентных пунктов. Это крупнейший прогресс, означающий качественный скачок в основном рассуждении.
GPQA Diamond (научное рассуждение уровня PhD): 94.3%, немного превосходит Claude 4.6 (91.3%) и GPT-5.2 (92.4%), разница 2-3 процентных пункта, бенчмарк уже близок к насыщению.
SWE-Bench Verified (реальные задачи по программной инженерии): 80.6%, опережая Claude 4.6 (примерно 76-77%) на 3-5 процентных пунктов, явно превосходит GPT (на 5-15%).
Другие: Terminal-Bench, APEX-Agents и другие долгосрочные агентные задачи также показывают несколько первых мест; индекс LMArena/Artificial Analysis сейчас занимает 1-е место, высокая эффективность по стоимости.
Более важно, что явное преимущество по стоимости:
Ценообразование API (за 1M токенов, основано на последних данных Vertex AI / Gemini API, стандартная цена для контекста ≤200k):
Gemini 3.1 Pro: вход $2.00, вывод $12.00 (>200k контекста цена удваивается до $4/$18)
Claude Opus 4.6: вход $5.00, вывод $25.00
GPT-5.2 / 5.x: обычно вход $10–15+, вывод $30–75+ (более дорогие уровни, зависит от версии)
Преимущество по стоимости: Gemini примерно на 60% дешевле Claude (2 против 5), более чем на 70-80% дешевле серии GPT.
По выводу: Gemini примерно на 52% дешевле Claude (12 против 25), более чем на 60-80% дешевле серии GPT.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить