Новости

Разработан новый бенчмарк для оценки безопасности ИИ-моделей для ментального здоровья пользователей

Команда разработчиков и исследователей из Кремниевой долины представила новый бенчмарк HumaneBench. С его помощью можно оценить, гуманно ли ИИ-модель общается с пользователями, и не способна …

OpenAI выпустила новый бенчмарк для сравнения ИИ и ручного труда

Компания OpenAI выпустила новый тест GDPval, предназначенный для сравнения показателей эффективности работы ИИ-моделей и профессиональных работников в широком спектре профессий. На данный …