Компания OpenAI выпустила новый тест GDPval, предназначенный для сравнения показателей эффективности работы ИИ-моделей и профессиональных работников в широком спектре профессий. На данный момент он находится на ранней стадии обучения, но в перспективе может помочь оценить, насколько ИИ в реальности близок к тому, чтобы заменить собой людей на рабочих местах.
- Как заявляет компания, первые результаты теста выявили, что у GPT-5 от OpenAI и Claude Opus от Anthropic качество решения задач находится на уровне, близком к опытным экспертам в той или иной сфере деятельности.
- GDPval заточен на девять самых распространенных рабочих сфер, включая медицину, экономику и техническое производство. Бенчмарк тестирует навыки ИИ-моделей в 44 профессиях из этих областей, от медсестёр до инженеров и программистов.
- Для обучения первой версии теста, OpenAI попросила опытных профессионалов сравнить два вида рабочих отчётов – сгенерированных ИИ и написанных людьми вручную, и сделать выбор в пользу более качественных вариантов. В результате отчёты, сгенерированные моделью GPT-5-high, были признаны более качественными в 40,6% случаев. Таким же образом была проверена модель Claude Opus 4.1 от Anthropic – она справилась лучше людей в 49% случаев. Такой высокий показатель, по объяснению OpenAI, мог быть достигнут за счет умения модели хорошо генерировать графические изображения вроде диаграмм. Более старая версия GPT-4o от OpenAI, при этом, набрала всего лишь 13,7%.
- В общей сложности тест сейчас состоит из 1320 заданий, каждое из которых составлено профессионалами с опытом работы более 15 лет. Все задания подобраны под реальные рабочие ситуации: например, модели нужно сгенерировать отчёт для совещания, составить план ухода за больным или поддержать беседу с клиентом тех.поддержки. Задания состоят не только из текста, но и включают в себя референсы, документы, слайды, таблицы и различные файлы. Набор данных у инструмента при этом состоит из 30 полностью проверенных профессионалами заданий – на их основе инструмент оценивает другие модели.
- Как отмечает компания, высокие результаты первых тестов не означают, что ИИ-модели способны в ближайшее время заменить человека: бенчмарк пока может оценивать только очень ограниченный спектр задач. На данный момент он способен в основном оценивать только выполнение текстовой части работы вроде составления отчётов и планов, что не отражает полный спектр действий человека на рабочем месте. Тем не менее, он является важной ступенью для создания подобных инструментов, изучающих эффективность использования ИИ-моделей в рабочей среде. В частности, он может помочь профессионалам понять, какие задачи можно делегировать нейросетям, чтобы освободить себе время для более важной или интересной работы.
Источник: TechCrunch