Китайские разработчики представили новое семейство ИИ-моделей Qwen2.5-VL

Новости
28.01.2025

Китайская команда разработчиков Qwen, принадлежащая компании Alibaba, выпустила новое семейство ИИ-моделей Qwen2.5-VL. Инструменты могут выполнять различные задачи на основе текста, видео и изображений, а также служить в качестве ассистента на ПК и смартфонах.

Модели умеют:

распознавать документы разного характера (печатный текст, сканы рукописей, нотные записи) на разных языках, извлекать из них данные;
выявлять, распознавать и подсчитывать объекты на изображениях или в видео;
понимать суть многочасовых видеороликов (в том числе определять первоисточник, по которому снят фильм или сериал), находить в них нужный сегмент или информацию за несколько секунд;
считывать и анализировать таблицы, диаграммы, графики, химические формулы;
выполнять различные действия на ПК и смартфонах в помощь пользователю.

По результатам проведённого командой сравнительного анализа, Qwen2.5-VL превосходит GPT-4o от OpenAI, Claude 3.5 Sonnet от Anthropic и Gemini 2.0 Flash от Google по ряду бенчмарков, оценивающих возможности моделей в понимании видео, решении математических задач, анализе документов и генерации ответов на общие вопросы.

Отличительной особенностью Qwen2.5-VL является способность взаимодействовать с программным обеспечением на ПК и мобильных устройствах. В демонстрационном видео, опубликованном в X, компания показала, как на смартфонах с Android инструмент запускает приложение для покупки билетов и бронирует места на авиарейс. В другом видео демонстрируется взаимодействие модели с ПК на Linux – но там инструмент только переключает между собой вкладки. Вероятно, модель ещё находится в процессе обучения работы на ПК, поскольку показывает низкие результаты по бенчмарку OSWorld, оценивающему эффективности модели в имитированной компьютерной среде.

Qwen2.5-VL выложена в открытый доступ в приложении Qwen Chat и на платформе Hugging Face.

В семейство также вошли две упрощенные модели Qwen2.5-VL-3B и Qwen2.5-VL-7B – они характеризуются меньшим размером и более ограниченным функционалом.

Источник: TechCrunch