Инновационные инструменты, генерирующие изображения, текст и аудио с помощью технологий искусственного интеллекта набирают сейчас огромную популярность. На их фоне появляются платформы, которые подходят к задаче генерирования контента с оригинальной стороны — одним из свежих примеров таких инструментов является Riffusion.

Riffusion — модель искусственного интеллекта, которая генерирует музыку на основе текстовых подсказок, создавая визуальное представление звука в виде сонограммы и преобразовывая его в аудио. Инструмент создан на основе модели преобразования текста в изображение Stable Diffusion 1.5 — разработчики доработали модель для применения скрытой диффузии к обработке звука.

Инструмент был создан инженерами Сетом Форсгреном и Айком Мартиросом в качестве хобби-проекта. Riffusion работает путем создания сонограмм, которые сохраняют звук в двумерном изображении. На сонограмме ось X представляет время (порядок воспроизведения частот слева направо), а ось Y — звуковые частоты. При этом цвет каждого пикселя представляет собой амплитуду звука в данный момент времени.

Image credit: Riffusion

Так как сонограмма представляет собой изображение, она поддается преобразованию с помощью модели Stable Diffusion. Разработчики составили сонограммы нескольких музыкальных композиций, пометили получившиеся изображения соответствующими терминами (например “блюз на гитаре”, “джаз на пианино” и тд). На основе коллекции этих изображений модель обучили тому, как “выглядят” определенные звуки и как она может их воссоздавать, преобразовывать или комбинировать. В конечном итоге Riffusion научился генерировать новую музыку на основе ключевых слов и текстовых подсказок, описывающих тип музыки или звука, который пользователь хочет услышать. После создания сонограммы инструмент преобразовывает её в звук, используя библиотеку Torchaudio, специализирующуюся на машинной обработке аудио.

Сайт с инструментом Riffusion позволяет ввести свой набор слов и поэкспериментировать с ИИ-моделью, а также беспрерывно генерирует случайные сонограммы в режиме реального времени, которые непрерывно визуализируются в левой части страницы. “Фишка” инструмента состоит в том, что он способен обрабатывать нестандартные запросы, сочетая элементы разных жанров и стилей для получения нового оригинального звука — например, на сайте встречаются примеры “тропикал-танцевального джаза” или “техно на скрипке”.

Разработчики Riffusion рассказали порталу TechCrunch, что они относятся к созданному ими инструменту как к любительскому демо-проекту, не претендуя на серьезный вклад в сферу преобразования музыки. Сейчас демо-версию модели может протестировать любой желающий.