В конце прошлой недели OpenAI представила закрытые превью-версии нового поколения моделей GPT-5.6. В семейство вошли три модели: Sol — полномасштабная флагманская версия, Terra — базовая версия для повседневной работы и Luna — компактная версия для быстрого решения задач.
Компания описывает Sol как свою самую мощную модель на данный момент. Она функционирует как ИИ-агент для решения задач в области программирования, биологии и поиска кибер-уязвимостей. Как сообщается в блоге OpenAI, Sol оснащена новыми мощными способностями к “рассуждению”, а также новым режимом “ultra”, который превращает ее из самостоятельного агента в объединение нескольких суб-агентов для выполнения комплексных многоуровневых задач.
Что касается оценок по бенчмаркам, Sol показала следующие результаты:
- 91,9% в режиме ultra и 88,8% в обычном режиме по бенчмарку TerminalBench 2.1, оценивающему работу в командной строке;
- Более 30% по бенчмарку GeneBenchv1 для оценки уровня решения задач по биологии и геному – обогнала все версии GPT-5.5, используя при этом меньше токенов;
- Чуть менее 80% по бенчмарку ExploitBench и около 35% по ExploitGym, оценивающим навыки поиска уязвимостей и решения задач по кибербезопасности – показала уровень наравне с Mythos от Anthropic, при этом используя в 3 раза меньше токенов.
Версии Terra и Luna также показали высокие результаты в рамках своих более ограниченных возможностей.
На данный момент официальный релиз инструментов ограничен по требованию правительства США — доступ к закрытой превью-версии предоставили только нескольким официальным компаниям. Когда будет разрешен публичный запуск моделей — пока неизвестно, однако компания планирует в конечном итоге добавить новую версию в сам ChatGPT.

