OpenAI выпустила новый бенчмарк для сравнения ИИ и ручного труда

Компания OpenAI выпустила новый тест GDPval, предназначенный для сравнения показателей эффективности работы ИИ-моделей и профессиональных работников в широком спектре профессий. На данный момент он находится на ранней стадии обучения, но в перспективе может помочь оценить, насколько ИИ в реальности близок к тому, чтобы заменить собой людей на рабочих местах. 

  • Как заявляет компания, первые результаты теста выявили, что у GPT-5 от OpenAI и Claude Opus от Anthropic качество решения задач находится на уровне, близком к опытным экспертам в той или иной сфере деятельности. 
  • GDPval заточен на девять самых распространенных рабочих сфер, включая медицину, экономику и техническое производство. Бенчмарк тестирует навыки ИИ-моделей в 44 профессиях из этих областей, от медсестёр до инженеров и программистов. 
  • Для обучения первой версии теста, OpenAI попросила опытных профессионалов сравнить два вида рабочих отчётов – сгенерированных ИИ и написанных людьми вручную, и сделать выбор в пользу более качественных вариантов. В результате отчёты, сгенерированные моделью GPT-5-high, были признаны более качественными в 40,6% случаев. Таким же образом была проверена модель Claude Opus 4.1 от Anthropic – она справилась лучше людей в 49% случаев. Такой высокий показатель, по объяснению OpenAI, мог быть достигнут за счет умения модели хорошо генерировать графические изображения вроде диаграмм. Более старая версия GPT-4o от OpenAI, при этом, набрала всего лишь 13,7%. 
  • В общей сложности тест сейчас состоит из 1320 заданий, каждое из которых составлено профессионалами с опытом работы более 15 лет. Все задания подобраны под реальные рабочие ситуации: например, модели нужно сгенерировать отчёт для совещания, составить план ухода за больным или поддержать беседу с клиентом тех.поддержки. Задания состоят не только из текста, но и включают в себя референсы, документы, слайды, таблицы и различные файлы. Набор данных у инструмента при этом состоит из 30 полностью проверенных профессионалами заданий – на их основе инструмент оценивает другие модели.
  • Как отмечает компания, высокие результаты первых тестов не означают, что ИИ-модели способны в ближайшее время заменить человека: бенчмарк пока может оценивать только очень ограниченный спектр задач. На данный момент он способен в основном оценивать только выполнение текстовой части работы вроде составления отчётов и планов, что не отражает полный спектр действий человека на рабочем месте. Тем не менее, он является важной ступенью для создания подобных инструментов, изучающих эффективность использования ИИ-моделей в рабочей среде. В частности, он может помочь профессионалам понять, какие задачи можно делегировать нейросетям, чтобы освободить себе время для более важной или интересной работы. 

Источник: TechCrunch