OpenAI выпустила GPT-5.5 с автономным режимом работы на NFT.RU

OpenAI 23 апреля запустила GPT-5.5 — флагманскую языковую модель, которая, согласно официальному пресс-релизу, превосходит GPT-5.4 по агентному программированию, работе с данными, научным исследованиям и управлению компьютером.

Модель уже доступна пользователям ChatGPT на тарифах Plus, Pro, Business и Enterprise, а также в среде Codex.

Что изменилось

Ключевое отличие от предыдущих версий — модель берет на себя многошаговые задачи без постоянного участия пользователя. Можно поставить размытую задачу с несколькими условиями, и GPT-5.5 сам распланирует шаги, воспользуется нужными инструментами, проверит результат и продолжит работу до завершения. Раньше модели на каком-то этапе останавливались и ждали уточнений.

Это проявляется и в работе с кодом, и в обычных рабочих задачах: анализ данных, составление документов, работа с таблицами, навигация по интерфейсам приложений. Модель видит экран, кликает, вводит текст и переключается между инструментами самостоятельно.

Бенчмарки

На Terminal-Bench 2.0, тестирующем сложные многоэтапные сценарии, GPT-5.5 набирает 82,7% против 75,1% у GPT-5.4 и 69,4% у Claude Opus 4.7. На OSWorld-Verified, где оценивается способность модели работать в реальных компьютерных средах, результат — 78,7%, что выше показателей Claude Opus 4.7.

Ранние тестировщики описывали модель как первую с «настоящей концептуальной ясностью» при работе с большими кодовыми базами: она сама находит, где нужна правка, и отслеживает последствия изменений по всему проекту.

Потенциал для науки

Внутренняя версия GPT-5.5 помогла найти новое математическое доказательство в теории чисел Рамсея — области комбинаторики, где результаты появляются редко и требуют серьезной экспертизы. Доказательство впоследствии верифицировали в системе Lean.

Кибербезопасность

OpenAI присвоила кибербезопасностным возможностям GPT-5.5 уровень «High» по собственному Preparedness Framework — выше, чем у GPT-5.4, хотя и ниже критического.

Компания ввела более строгие фильтры на потенциально опасные запросы, которые, по ее же признанию, поначалу могут раздражать часть пользователей.

Данный пост носит исключительно информационный характер и не является рекламой или инвестиционным советом. Пожалуйста, проводите собственное исследование, принимая какие-либо решения.

Что изменилось

Бенчмарки

Потенциал для науки

Кибербезопасность

Комментарии

0