Google представил обновленную Imagen 2 — ИИ-модель для генерации текста и изображений

На прошлой неделе корпорация Google объявила о запуске Imagen 2 – улучшенной версии своей генеративной ИИ-модели, которая умеет создавать и редактировать изображения по текстовым подсказкам. На данный момент доступ к продукту открыт только для клиентов Google Cloud, использующих платформу для машинного обучения Vertex AI.

Бета-версия модели была представлена на конференции Google в мае этого года. При создании продукта применялись технологии DeepMind — ИИ-лаборатории корпорации. 

По сравнению с Imagen первого поколения, модель научилась генерировать значительно более качественные изображения, а также обзавелась новыми функциями — например, возможностью генерирования логотипов и наложения текстов на изображения. Благодаря этому, инструмент теперь может активно применяться в сфере создания визуальной рекламы. По информации из блога Google, Imagen 2 может генерировать эмблемы, буквенные знаки и абстрактные логотипы, а также накладывать эти элементы на продукты, одежду, визитные карточки и другие виды поверхностей.

Благодаря «новым методам обучения и моделирования» Imagen 2 также научилась распознавать объёмные подсказки с детальными описаниями и давать подробные ответы на вопросы о сгенерированных изображениях. Эти методы также улучшают многоязычное понимание модели, благодаря чему она может трансформировать подсказку на одном языке в выходные данные на другом языке (например, логотип). На данный момент инструмент работает с китайским, хинди, японским, корейским, португальским, английским и испанским языками, а в 2024 году этот список расширится. 

Imagen 2 наносит невидимые водяные знаки на сгенерированные ею изображения с помощью технологии SynthID от DeepMind. По информации от корпорации, эти знаки устойчивы к редактированию изображений, включая сжатие, фильтры и настройки цвета, а для их обнаружения требуется специальный инструмент Google, который недоступен широкой аудитории. 

Компания не раскрывает информацию о данных, которые использовались для обучения новой модели, что вызывает у критиков ряд вопросов. При разработке Imagen первого поколения сообщалось, что инструмент обучался на общедоступном наборе данных LAION, что также повлекло за собой критику, поскольку в этом наборе находили спорный контент, включая частные медицинские изображения, защищенные авторским правом картины и фейковые изображения знаменитостей интимного характера. В результате тестирований было выявлено, что при определенных запросах модель могла выдавать фотографии реальных людей или авторские работы художников за искусственно сгенерированный контент. Информации о тестировании новой версии модели по этому вопросу на данный момент нет. 

Источник: TechCrunch