Google представил Gemini Omni – новую мультимодальную ИИ-модель

19 мая на ежегодной конференции Google I/O для разработчиков было представлено новое семейство мультимодальных моделей Gemini Omni. По словам генерального директора компании, в долгосрочной перспективе инструмент сможет «создавать что угодно на основе чего угодно».

  • При создании первой версии Gemini три года назад компания поставила цель со временем превратить её в модель, которая сможет генерировать контент в любом формате, включая текст, изображения, аудио и видео – и версия Omni уже близка к этому результату.
  • На данный момент инструмент обучен генерировать видео на основе изображений, аудио, видео и текст. Референсы в виде всех этих форматов можно загрузить в модель одновременно, на основе чего она не просто склеит их вместе, но преобразует в полноценный ролик в высоком качестве. Модель также научена учитывать при создании контента законы физики и других точных наук, исторические факты и культурные нормы в зависимости от контекста. 
  • Omni также сможет редактировать фотографии на уровне профессионального специализированного ПО – правда, разработчики предупреждают, что для этого нужно будет очень детально формулировать промпты, иначе модель может удалить или изменить не нуждающиеся в редактировании элементы. В ближайшие планы по развитию инструмента входит обучить его генерировать изображения на основе аудио и создавать аудио на основе видео.
  • С помощью модели пользователи смогут генерировать видеоролики со своим участием на основе собственных цифровых аватаров, которые можно будет создать по инструкции внутри инструмента. Для защиты от дипфейков и использования чьей-либо внешности без согласия, верификация аватаров будет проходить в несколько этапов. Все созданные моделью ролики будут помечаться вотермаркой, за счёт чего их нельзя будет выдать за реальную съёмку. 
  • Первой выпущенной моделью семейства стала Gemini Omni Flash. На данный момент её функционал ограничивается созданием 10-секундных видео (со временем тайминг планируется увеличить). Полученные ролики можно редактировать дополнительными промптами, вплоть до детальных изменений объектов, элементов интервьера, фона и ракурса.
  • Следующим шагом станет релиз версии Omni Pro – она будет выпущена после того, как разработчики обучат её более продвинутым функциям, нежели Flash.

Источник: TechCrunch