Понимание GPT-5.5 за один раз: с сегодняшнего дня OpenAI «не продает» токены

Автор: Ли Хайлунь, Tencent Technology

Местное время 23 апреля, OpenAI официально выпустила новую флагманскую модель GPT-5.5, которая официально позиционируется как «новый уровень интеллекта, ориентированный на реальные задачи», а также является важным шагом на пути к новому способу работы с компьютерами.

В этом релизе основное внимание уделяется двум аспектам:

  • Первое — прорыв в эффективности: при одинаковой задержке модель стала больше, но скорость осталась такой же. Контекстное окно GPT-5.5 достигло 100 тысяч токенов, однако это не просто обновление возможностей GPT-5.4, а повышение интеллекта при той же задержке за счет эффективности.

  • Второе — GPT-5.5 во время обучения участвовала в оптимизации собственной инфраструктуры вывода. Проще говоря, ИИ впервые научился помогать себе в настройке параметров.

В тесте сложных командных рабочих процессов Terminal-Bench 2.0 GPT-5.5 набрала 82,7%, Claude Opus 4.7 — 69,4%, что на 13 пунктов выше; в тесте автономного управления реальным компьютером OSWorld-Verified успешность составила 78,7%, превзойдя человеческую базу; в тесте по 44 профессиональным областям GDPval 84,9% задач выполнены на уровне или выше уровня экспертов отрасли.

Однако цена GPT-5.5 заметно выросла.

Стоимость API составляет 5 долларов за миллион входных токенов и 30 долларов за вывод, что вдвое больше GPT-5.4 (2,50 и 15 долларов соответственно), однако официальные представители подчеркнули, что для выполнения одинаковых задач требуется значительно меньше токенов, поэтому совокупные затраты могут не увеличиться существенно. Цена GPT-5.5 Pro API — 30 долларов за миллион входных токенов и 180 долларов за вывод. При пакетной обработке и гибком ценообразовании действует скидка 50%, при этом приоритетная обработка стоит в 2,5 раза дороже стандартной.

В ChatGPT GPT-5.5 представлен в виде «GPT-5.5 Thinking», постепенно заменяя предыдущие версии.

Нововведение — перед началом размышлений модель дает краткое описание идеи, пользователь может в любой момент вставлять комментарии и корректировать направление.

Если кратко охарактеризовать значение GPT-5.5: предыдущие модели — это набор возможностей, а GPT-5.5 ближе к рабочей системе, умеющей планировать, проверять и постоянно продвигать работу вперед.

84,9% задач — уровень профессионала

Рисунок: сравнение GPT-5.5 с конкурентами по ключевым тестам Terminal-Bench 2.0, GDPval, OSWorld-Verified

Рассмотрим, как модели показывают себя в реальных профессиональных сценариях. OpenAI использовала бенчмарк под названием «GDPval», который требует выполнения полного набора профессиональных задач. Тест охватывает 44 сценария, включая финансовое моделирование, юридический анализ, научные отчеты, операционное планирование и др.

Результаты: GPT-5.5 достигла или превзошла уровень профессионала в 84,9% задач. Для сравнения, GPT-5.4 — 83,0%, Claude Opus 4.7 — 80,3%, Gemini 3.1 Pro — всего 67,3%.

Разница заметна не только по итоговым баллам. В задачах моделирования таблиц GPT-5.5 внутри тестирования набрала 88,5%; в моделировании уровня инвестиционного банка — тоже лидирует. Обратная связь ранних тестировщиков подтверждает: ответы GPT-5.5 Pro по полноте, структуре и практической ценности заметно превосходят GPT-5.4 Pro, особенно в бизнесе, праве, образовании и Data Science.

Глядя только на цифры, можно устать. Но OpenAI на этот раз прямо показала внутренние рабочие процессы.

Компания заявила, что более 85% сотрудников используют Codex еженедельно, охватывая финансы, коммуникации, маркетинг, продукт, Data Science и другие отделы. Команда коммуникаций использовала его для анализа шести месяцев данных о приглашениях на выступления, создав автоматизированный процесс сегментации; финансовая команда проверила 24 771 форму K-1 на 71 637 страниц — на две недели раньше запланированного срока; команда маркетинга автоматизировала подготовку еженедельных отчетов, экономя каждому по 5-10 часов в неделю.

Это уже не демонстрация из лаборатории, а часть ежедневной работы.

Самая мощная модель для самостоятельного программирования

OpenAI утверждает, что GPT-5.5 — сейчас их самая сильная модель для автономного программирования.

На Terminal-Bench 2.0 (тест сложных командных рабочих потоков, требующих планирования, итераций и координации инструментов) GPT-5.5 набрала 82,7%, по сравнению с 75,1% GPT-5.4 — рост почти на 8 пунктов, при этом расход токенов снизился. В SWE-Bench Pro (оценка способности решать реальные задачи на GitHub за один раз) GPT-5.5 получила 58,6%. В внутреннем тесте Expert-SWE (долгосрочные программные задачи, среднее время выполнения — около 20 часов человеком) GPT-5.5 также превосходит GPT-5.4.

Рисунок: диаграммы разброса Terminal-Bench 2.0 и Expert-SWE

Под управлением GPT-5.5 Codex уже способен самостоятельно, начиная с одного подсказки, завершать весь цикл разработки — от генерации кода и тестирования до визуальной отладки.

Показатели демонстрационных кейсов OpenAI показывают, что, например, космическая миссия, построенная на реальных данных NASA, поддерживает 3D-интерактивное управление, моделирование орбит достигает физической точности; сейсмограф подключен к реальным источникам данных и визуализирует информацию, что свидетельствует о полном вызове API, обработке динамических данных и рендеринге в реальном времени.

Что касается отзывов. Основатель и CEO Every, Dan Shipper, рассказал случай: он столкнулся с багом после запуска, не мог исправить его несколько дней, пришлось привлекать лучшего инженера компании, чтобы переписать часть системы. После выхода GPT-5.5 он провел эксперимент — вернул модель в состояние с неисправным багом и спросил, сможет ли она сама придумать решение, как инженер. GPT-5.4 не справилась, а GPT-5.5 — справилась. Он отметил: «Это первый программный модел, который я использовал, обладающий ясным концептуальным пониманием».

Более прямо оценил инженер NVIDIA: «Потерять доступ к GPT-5.5 — как ампутировать руку».

Соучредитель и CEO Cursor Michael Truell добавил: GPT-5.5 умнее и устойчивее GPT-5.4, может дольше держаться в сложных длительных задачах без преждевременной остановки — а это именно то, что нужно в инженерной работе.

Знаниевая работа: ИИ впервые реально умеет «использовать» компьютер

В тесте OSWorld-Verified (проверка способности модели управлять реальной компьютерной средой) GPT-5.5 достигла успешности 78,7%, превзойдя GPT-5.4 — 75,0%, и Claude Opus 4.7 — 78,0%.

Это не просто скриншоты или анализ, а реальное управление экраном: просмотр интерфейса, клики, ввод данных, переключение между инструментами — до завершения задачи. GPT-5.5 впервые показывает, что ИИ может реально работать с одним компьютером вместе с человеком.

В тесте Tau2-bench по автоматизации работы с телекоммуникационной службой точность без подсказок достигла 98,0%, у GPT-5.4 — 92,8%.

Это говорит о глубоком понимании задачи без необходимости специально подготовленных подсказок.

В области поиска инструментов GPT-5.5 показывает 84,4% в BrowseComp, а GPT-5.5 Pro — 90,1%, что свидетельствует о высокой способности к длительному поиску и объединению информации при исследовательских задачах.

Наука и исследования: помощь в открытии новых математических доказательств

В этом релизе особенно удивительно выступление GPT-5.5 в научной сфере.

Ранее ИИ использовался как вспомогательный инструмент — для поиска литературы, написания кода, обработки данных. Но теперь его роль явно вышла на передний план: он участвует в сложных рассуждениях и даже в открытии новых теорем.

На GeneBench (оценка анализа данных в генетике и биологии) GPT-5.5 набрала 25,0%, GPT-5.4 — 19,0%. Эти задачи обычно требуют нескольких дней работы экспертов, а модель должна без supervision делать выводы о возможных ошибках данных, скрытых факторах и правильно применять современные статистические методы.

Графики показывают, что с увеличением количества токенов результат GPT-5.5 растет быстрее, чем у GPT-5.4, и при около 15 000 токенов заметно отрывается — что говорит о преимуществах при решении длинных задач, требующих глубокого рассуждения.

На BixBench (база данных биоинформатики и анализа данных) GPT-5.5 набрала 80,5%, опередив GPT-5.4 — 74,0%, занимая лидирующие позиции среди моделей.

Особое внимание привлекает случай, когда внутри GPT-5.5 с пользовательским инструментарием была обнаружена новая математическая теорема о числе Рамзи, которая подтверждена в формализованной системе Lean. Число Рамзи — важнейший объект в комбинаторике, и такие результаты встречаются крайне редко, являясь сложнейшими. Это не просто код или объяснение, а реальный вклад в математику.

На практике тоже есть убедительные примеры. Профессор иммунологии из Jackson Laboratory, Derya Unutmaz, использовал GPT-5.5 Pro для анализа набора данных с 62 образцами и почти 28 000 генов, создав подробный отчет и выделив ключевые находки — обычно такую работу делают за несколько месяцев.

Ассистент профессора математики из Университета Адама Мицкевича в Познани, Bartosz Naskręcki, всего за 11 минут с помощью Codex и GPT-5.5 построил приложение для алгебраической геометрии, визуализирующее пересечение двух квадратичных поверхностей и преобразующее результат в модель Вейерштрасса. Коэффициенты уравнений отображаются в реальном времени и могут использоваться для дальнейших исследований.

Рисунок: скриншот приложения для алгебраической геометрии, построенного профессором Naskręcki — визуализация пересечения квадратичных поверхностей и интерфейс расчетов Вейерштрасса

Соучредитель и CEO Axiom Bio, Brandon White, дал очень прямую оценку: «Если OpenAI продолжит в таком духе, к концу года появится фундамент для новых открытий в области лекарств».

Эффективность рассуждений: ИИ впервые помогает оптимизировать собственную инфраструктуру

В этом релизе есть важный, но легко упускаемый из виду аспект — он может стать самым значительным технологическим прорывом.

GPT-5.5 — более крупная и мощная модель, но задержка на один токен в реальных условиях осталась такой же, как у GPT-5.4. Для достижения такой же скорости при большей мощности OpenAI полностью переработала систему вывода — и Codex, и GPT-5.5 участвовали в этой оптимизации.

На графике Artificial Analysis видно, что: по оси X — логарифм общего количества токенов вывода, по оси Y — комплексный индекс интеллекта. GPT-5.5 не только превосходит GPT-5.4, Claude Opus 4.7 и Gemini 3.1 Pro по баллам, но и показывает, что уже при меньшем расходе токенов достигает тех же результатов, что раньше требовали больше ресурсов — более высокая эффективность и меньшие затраты, что и есть «прямое проявление повышения эффективности».

Рисунок: график индекса искусственного интеллекта Artificial Analysis

Конкретная задача — балансировка нагрузки: ранее запросы делились на фиксированные блоки для равномерной загрузки GPU, но статическая сегментация не была оптимальной для всех типов трафика. Codex проанализировал недельные данные и создал собственный эвристический алгоритм, увеличивший скорость генерации токенов более чем на 20%.

GPT-5.5 совместно с системами NVIDIA GB200 и GB300 NVL72 — это не просто интеграция, а совместное проектирование, обучение и развертывание. Иными словами, эта модель участвовала в оптимизации собственной инфраструктуры вывода — это не метафора, а буквальный факт «ИИ улучшил свою систему».

Кибербезопасность: повышение возможностей и ужесточение контроля

В области кибербезопасности GPT-5.5 показывает явное улучшение. В тесте CyberGym модель набрала 81,8%, GPT-5.4 — 79,0%, Claude Opus 4.7 — 73,1%. В внутреннем соревновании «Capture the Flag» (CTF) GPT-5.5 получила 88,1%, GPT-5.4 — 83,7%.

Рисунок: графики CyberGym и CTF

OpenAI оценило уровень кибербезопасности и химико-биологических возможностей GPT-5.5 как «высокий» в рамках системы экстренного реагирования, хотя он еще не достиг «критического» уровня. Также отмечается, что новые более строгие системы оценки рисков «могут сначала казаться неудобными для некоторых пользователей», и их доработки продолжаются.

Для балансировки защиты и доступа введена программа «Доверенный доступ к кибербезопасности»: квалифицированные исследователи и ключевые инфраструктурные защитники могут подавать заявки на расширенные права, чтобы использовать расширенные возможности с меньшими препятствиями.

Логика такова: распространение возможностей — необратимый тренд, и более реалистичный путь — дать защитникам доступ к самым мощным инструментам раньше, чем злоумышленникам.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить