Несколько дней назад OpenAI выпустила GPT-5 – новую версию своей флагманской ИИ-модели, на которой теперь будет работать ChatGPT. Инструмент сочетает в себе способности рассуждения моделей серии «о» и скорость обработки запросов серии GPT.
- В числе новых умений GPT-5 – генерация приложений, управление календарем пользователя и написание отчётов об исследованиях. Также инструмент научился понимать, нужен ли пользователю в каждом конкретном случае быстрый ответ или более продуманный за счёт специального встроенного «навигатора».
- Глава OpenAI Сэм Альтман заявил, что GPT-5 является «лучшей моделью в мире» и «важным шагом» на пути создания ИИ, способного превзойти человеческие возможности. Модель стала основой чат-бота ChatGPT, заменив собой предыдущую версию, и доступна для всех пользователей бесплатной версии бота.
- Разработчики утверждают, что GPT-5 показывает первоклассные результаты по некоторым тематикам, превосходя аналоги от Anthropic, Google и xAI. Главная из этих тем – программирование: модель обучили генерировать приложения на основе указанных в запросе характеристик.
- По бенчмарку SWE-bench Verified, оценивающему способность ИИ решать задачи по программированию, GPT-5 набрала 74,9%, обогнав Claude от Anthropic (74,5%) и Gemini от Google (59,6%).
- Тем временем, бенчмарк Humanity’s Last Exam, оценивающий навыки моделей в области математики, гуманитарных и точных наук, показал, что GPT-5 справилась чуть хуже, чем Grok 4 от xAI (42% против 44,4%).
- По результатам теста GPQA Diamond на решение научных задач, GPT-5 вновь обогнала конкурентов (89,4% против 80,9% от Claude и 88,9% от Grok).
- Компания заявляет, что новая версия также научилась качественнее отвечать на вопросы, касающиеся здоровья. Из результатов бенчмарка Health Bench следует, что модель даёт неправильные ответы по теме здоровья только в 1,6% случаев – у двух предыдущих версий этот показатель был выше 10%. Разработчики подчеркивают, что инструмент не заменяет собой медицинскую помощь, но может сообщить пользователю о возможных проблемах со здоровьем и необходимости обратиться к врачу, а также расшифровать результаты снимков и анализов.
- Кроме того, утверждается, что модель отличается повышенной безопасностью работы по сравнению с предыдущими версиями – она научилась качественнее распознавать запросы в злоумышленных целях и может отказывать в ответе на них. Также инструмент стал значительно меньше «галлюционировать» и выдавать неверные ответы – всего в 4,8% случаев от общего числа запросов по сравнению с 20,6% у GPT-4o.
После запуска модели пользователи столкнулись с некоторыми сложностями: в частности, оказалось, что в инструменте неправильно работает тот самый навигатор, отвечающий за выбор между быстрым или продуманным ответом. Из-за этого, по словам Альтмана, модель работала медленно и казалась «глупой».
Компанию также обвинили в публикации неверной графики, демонстрирующей результаты бенчмарков – шкала GPT-5 с более низким баллом по сравнению с конкурентными моделями была изображена выше других.
В разговоре с пользователями на Reddit Альтман сообщил, что навигатор будет исправлен в краткие сроки, а также пообещал рассмотреть возможность внедрения ручного выбора между GPT-4 и GPT-5 при работе с ChatGPT.
Источник: TechCrunch