Тех.стартап Twelve Labs, занимающийся разработкой ИИ-моделей для работы с видеороликами, анонсировал выпуск новой мультимодальной модели Pegasus-1. В частности, она умеет анализировать видео и составлять отчеты на основе «увиденного», а также разбивать ролики на логические отрывки с временными метками.
Основная цель стартапа, по словам его соучредителя и генерального директора Джея Ли, заключается в обучении ИИ-моделей умению решать сложные проблемы в связке «видео – текст». В беседе с порталом TechCrunch он сообщил, что компания была основана «для создания инфраструктуры для мультимодального понимания видео». От больших языковых моделей вроде ChatGPT продукты стартапа отличаются тем, что они созданы и обучены специально для работы с видео, интегрируя в себе анализ визуальных, звуковых и текстовых компонентов видеороликов.
Модели Twelve Labs направлены на расшифровку и описание естественным языком содержимого видео, в том числе действий, объектов и фоновых звуков. Такие инструменты помогают разработчикам создавать программы для выполнения поиска по видео, расшифровки текста, авторезюмирования, извлечения необходимой информации, разбивания на отрывки и многих других задач.
Закрытая бета-версия модели Pegasus-1 была выпущена в мае этого года. Как следует из описания инструмента на сайте стартапа, модель имеет около 80 млрд параметров и состоит из трех взаимообучающихся компонентов: видеокодера, модели выравнивания текста с видеоизображением и языкового декодера. Для обучения Pegasus-1 инженеры использовали 300 миллионов вручную отобранных разноплановых видеороликов с расшифровкой текста, а также 1 миллиард изображений с описанием на естественном языке.
Как объясняет Ли, технология Twelve Labs может применяться в таких сферах, как модерация рекламы и видеоконтента — например, если в видеоролике показывают ножи, модель может определить, является ли ролик обучающим материалом (кулинарная программа и т.д.) или содержит в себе сцены жестокости (видео преступлений и т.д.). Помимо этого, инструмент можно использовать для аналитики видео и задач вроде автогенерации заголовков роликов.
Twelve Labs — не единственный стартап, разрабатывающий такие инструменты. Аналогичные мультимодальные модели разрабатывает Google, Microsoft и Amazon, а также разные более мелкие компании и стартапы. Однако, по утверждению Ли, модели Twelve Labs отличаются от конкурентных инструментов как качеством, так и более широким набором функций, которые позволяют клиентам производить более детальный анализ видео благодаря возможности дополнительного обучения на собственных данных. По информации с портала TechCrunch, сейчас со стартапом сотрудничает более 17 тысяч корпоративных клиентов из различных отраслей.
Вместе с анонсом выпуска Pegasus-1 стартап также объявил о закрытии раунда финансирования, в ходе которого было привлечено 10 миллионов долларов. В число инвесторов вошли Nvidia, Intel и Samsung Next.
На данный момент модель еще не доступна для общего пользования, но можно оставить заявку на попадание в лист ожидания для получения доступа к инструменту.