Original size 577x769

Стиль Врубеля в генеративной нейросети

PROTECT STATUS: not protected

Рубрикатор

Рубрикатор проекта

1. Концепция проекта — Формулировка темы — Цели и задачи

2. Подготовка и обучение модели — Описание датасета — Подготовка модели к обучению — Обучение модели

3. Результаты генерации — Примеры изображений — Визуальный анализ результатов — Выводы

4. Ссылки

Концепция проекта

Формулировка темы

Генерация изображений в стиле Михаила Врубеля с помощью обученной модели Stable Diffusion.

Цель проекта

Исследовать, как генеративная нейросеть может воспроизводить особенности художественного стиля Врубеля.

Задачи проекта

— Собрать датасет из работ художника.

— Обучить модель на этом материале.

— Сгенерировать серию изображений.

— Проанализировать результат.

Подготовка и обучение модели

Описание датасета

Для обучения модели был собран датасет из 20 работ Михаила Врубеля. Изображения были отобраны с сайта artchive, все картины выполнены в технике масляной живописи. Все изображения приведены к квадратному формату (1:1) для соответствия требованиям модели генерации. Размеры изображений не нормировались, так как модель корректно обрабатывает разное разрешение.

Примеры изображений из датасета

Original size 800x800

Шестикрылый серафим (Азраил), Михаил Врубель, 1904

Original size 800x800

Сирень, Михаил Врубель, 1900

Original size 792x792

Полет Фауста и Мефистофеля, Михаил Врубель, 1896

Original size 800x800

Демон сидящий, Михаил Врубель, 1890

Original size 800x800

Портрет Константина Дмитриевича Арцыбушева, Михаил Врубель, 1897

0

Остальные работы Михаила Врубеля, использованные для обучения модели.

Подготовка модели к обучению

Для начала была проверена доступность GPU. После чего были установлены библиотеки diffusers, accelerate, transformers, peft и bitsandbytes, а также скачан обучающий скрипт train_dreambooth_lora_sdxl.py из официального репозитория Hugging Face.

Original size 1377x1121

Установка необходимых библиотек и скрипта обучения LoRA-модели

Далее в локальную папку Google Collab был загружен датасет. После чего были визуализированы несколько файлов оттуда, чтобы убедиться в корректном чтении перед запуском обучения.

Original size 1719x812

Загрузка изображений в локальную папку и их проверка с помощью визуализации.

На этом этапе модель BLIP (Salesforce/blip-image-captioning-base) автоматически сгенерировала текстовые описания ко всем картинам из датасета.

Для каждого изображения из папки images был сформирован промпт по шаблону photo collage in VRUBEL style, + описание.

Original size 1393x1157

Генерация описаний (captioning) с помощью BLIP и формирование обучающих промптов

Далее нужно было создать персональный токен (тип: Fine-grained) с необходимыми правами на сайте Hugging Face.

Original size 1696x452

Создание персонального токена авторизации Hugging Face для загрузки и сохранения модели

Финальным этапом подготовки стало удаление модели BLIP для освобождения видеопамяти, установка корректной кодировка UTF-8 и авторизация через notebook_login (), что позволило получить доступ к предобученным моделям, а также опубликовать результат обучения на Hugging Face Hub.

Original size 1392x702

Удаление BLIP для очистки памяти, установка кодировки UTF-8 и авторизация в Hugging Face

Обучение модели

Теперь можно было приступать к непосредственно обучению модели. Процесс обучения занял около 35 минут. Все настройки, которые были использованы, можно увидеть на скриншоте ниже.

Original size 1350x1014

Обучение модели с LoRA

После завершения обучения обученные LoRA-веса были загружены в Hugging Face Hub. По сути, было выполнено сохранение модели для дальнейшего использования.

Original size 1333x734

Загрузка модели в репозиторий

Последнее, что оставалось сделать, это ввести промпт и сгенерировать изображение.

Original size 1390x1114

Загрузка обученной модели и генерация изображения по промпту

Результаты генерации

Введение

Данная нейросеть должна была повторить стиль Михаила Врубеля. В процессе генерации было выявлено много общего, но также были и различия. Слева будет генерации, а справа оригинальные работы художника.

Композиция и центр внимания

Врубель часто использует центральную композицию, где главный персонаж статичен, но наполнен внутренним напряжением. Нейросеть старается повторить данный прием, но композиции все равно чаще выглядят как портретные и не проработанные.

Центр внимания у Врубеля подчёркивается позой, взглядом, обрамлением фона и многим другим, однако у нейросети центр внимания — лицо и верх тела, акценты создаются через резкие контрасты и детализированные элементы (глаза, украшения), что не так похоже на стиль художника.

Мазок и текстура

Врубелю характерен фрагментированный, кристаллический мазок, напоминающий мозаичную кладку. У нейросети же видна попытка воспроизвести «ломаные» мазки, но мазок не живописный, а стилизованно-цифровой и слишком гладкий.

То же самое можно сказать и про текстуру картин. У Врубеля поверхность картины выглядит намного живее, текстурированной.

Тематика / сюжет

К сожалению или к счастью, нейросети не удалось воспроизвести основные темы, которые поднимает художник в своих картинах, а именно: мифология, фольклор, демоническое и трагическое. Визуальные образы слишком много берут от оригинала, из-за чего отсутствует глубокая драматургия, характерная для Врубеля.

Колористика и свет

Тут мне кажется, нейросеть превзошла все остальные пункты, так как палитра приближена к тому, что использует Врубель. Однако все же видно различие, так как у художника палитра обычно более темная и холодная, где у нейросети более теплая и яркая.

0

Остальные генерации нейросети

Вывод

Генерации нейросети очень часто выдавали хорошие, а иногда и удивительные результаты, повторяя общие черты стиля Врубеля. Однако многие черты картин художника, которые делают их уникальными и по-настоящему выразительными, оказались недоступны нейросети — в первую очередь это глубина символизма, пластическая смелость форм и эмоциональное напряжение, присущее оригинальным работам Врубеля.

В целом модель показала себя уверенно и при дальнейшем дообучении с акцентом на сюжеты и драматургию Врубеля вполне сможет показывать по-истине схожие с художником результаты.

Ссылки

Arthive | Онлайн-галерея и база данных художников // Arthive URL: https://artchive.ru (дата обращения: 05.04.2025).

Hugging Face— хранения обученной модели, авторизации и загрузки LoRA-весов

Stable Diffusion — Стилистическая адаптация генеративной модели под стиль Врубеля.

Блокнот

Датасет

Генерации

Стиль Врубеля в генеративной нейросети
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more