Китайская команда разработчиков Qwen, принадлежащая компании Alibaba, выпустила новое семейство ИИ-моделей Qwen2.5-VL. Инструменты могут выполнять различные задачи на основе текста, видео и изображений, а также служить в качестве ассистента на ПК и смартфонах.
Модели умеют:
- распознавать документы разного характера (печатный текст, сканы рукописей, нотные записи) на разных языках, извлекать из них данные;
- выявлять, распознавать и подсчитывать объекты на изображениях или в видео;
- понимать суть многочасовых видеороликов (в том числе определять первоисточник, по которому снят фильм или сериал), находить в них нужный сегмент или информацию за несколько секунд;
- считывать и анализировать таблицы, диаграммы, графики, химические формулы;
- выполнять различные действия на ПК и смартфонах в помощь пользователю.
По результатам проведённого командой сравнительного анализа, Qwen2.5-VL превосходит GPT-4o от OpenAI, Claude 3.5 Sonnet от Anthropic и Gemini 2.0 Flash от Google по ряду бенчмарков, оценивающих возможности моделей в понимании видео, решении математических задач, анализе документов и генерации ответов на общие вопросы.
Отличительной особенностью Qwen2.5-VL является способность взаимодействовать с программным обеспечением на ПК и мобильных устройствах. В демонстрационном видео, опубликованном в X, компания показала, как на смартфонах с Android инструмент запускает приложение для покупки билетов и бронирует места на авиарейс. В другом видео демонстрируется взаимодействие модели с ПК на Linux – но там инструмент только переключает между собой вкладки. Вероятно, модель ещё находится в процессе обучения работы на ПК, поскольку показывает низкие результаты по бенчмарку OSWorld, оценивающему эффективности модели в имитированной компьютерной среде.
Qwen2.5-VL выложена в открытый доступ в приложении Qwen Chat и на платформе Hugging Face.
В семейство также вошли две упрощенные модели Qwen2.5-VL-3B и Qwen2.5-VL-7B – они характеризуются меньшим размером и более ограниченным функционалом.
Источник: TechCrunch