Компания OpenAI провела пред-рождественский марафон анонсов новых продуктов, в ходе которого представила новое поколение генеративных моделей о3, пришедшее на замену предыдущей версии о1.
В семейство вошли две модели: полноценная о3, и компактная о3-mini для менее сложных задач.
Являясь моделью со способностью рассуждения, o3 способна самостоятельно проверять свои же ответы, что увеличивает точность и качество выдаваемой пользователю информации. Однако такие модели обрабатывают запросы медленнее стандартных, поскольку проверка фактов немного тормозит процесс. В зависимости от сложности запроса, задержка ответа у o3 может составлять от нескольких секунд до нескольких минут.
Как описывается на портале TechCrunch, OpenAI обучала o3 «думать, прежде чем отвечать», с помощью технологии «частной цепочки мыслей». Модель может рассуждать о поставленной задаче и заранее распланировать ответ, выполняя ряд последовательных действий, помогающих ей найти решение. На практике, как пишет портал, после ввода запроса o3 делает паузу, рассматривая ряд связанных подсказок и «объясняя» свои рассуждения по ходу дела, а затем выделяет и группирует ту информацию, которую считает наиболее точной в конкретном случае, и выдаёт её в качестве ответа.
OpenAI также сообщила, что при обучении о3 использовалась новая технология «преднамеренного согласования», с помощью которой модель научилась проверять свои же ответы на соответствие принципам безопасности.
В отличие от предыдущей версии, в o3 есть опция регулирования времени, которое модель может тратить на рассуждения. В частности, можно выбрать низкий, средний или высокий уровень рассуждений – чем он выше, тем лучше o3 выполняет задачу.
Компания утверждает, что о3:
- превзошла свою предшественницу о1 на 22,8% по бенчмарку SWE-Bench Verified, оценивающему эффективность решения задач по программированию;
- получила высокий рейтинг 2727 на платформе олимпиад по программированию Codeforces;
- набрала 96,7% по математическому тесту AIME;
- набрала 87,7% по тесту GPQA c вопросами по биологии, физике и химии;
- установила рекорд по бенчмарку EpochAI Frontier Math, решив 25,2% задач.
Публичный доступ к продукту пока не открыт – на данный момент он доступен только в предварительной версии для исследовательских целей. Полноценный релиз ожидается в следующем году.
Источник: TechCrunch