
Концепция

По сюжету дополнения «Каменные Сердца» к игре «Ведьмак 3: Дикая Охота» главный герой сталкивается с призраком аристократки Ирис фон Эверек, которая навечно заточена в собственных картинах и желает освободиться. Для снятия проклятия с Ирис и выполнения основного квеста ведьмаку предстоит попасть в Нарисованный мир Ирис, обладающий своей стилистикой. Её трагичная история напрямую отражена в стиле её работ, в параллельном мире которых заточена душа героини. Картинам авторства Ирис присущи следующие особенности: приглушённые цвета и мрачные тона, имитация масляной живописи с грубыми мазками и подтёками краски. Это можно косвенно счесть импрессионизмом, если сравнивать живописный стиль с реально существовавшими художниками прошлых столетий. Целью проекта было расширить горизонт игровой графики и попробовать применить живописный стиль персонажа для обучения нейросети и генерации похожих изображений.
Исходные данные для обучения

Датасетом для обучения стали скриншоты из игры

Для обучения нейросети было подготовлено 106 изображений локации
Процесс обучения

Процесс обучения начался с подготовки метаданных изображений с помощью предобученной модели blip-image-captioning-base, которая формирует короткие описания к изображениям

После этого было запущено обучение модели LoRA для настройки базовой модели stable-diffusion-xl-base-1.0 с использованием DreamBooth под стиль нарисованного мира Ирис фон Эверек. Обучение происходило с помощью библиотеки accelerate, позволяющей запускать обучение на видеокарте тем самым ускоряя обучение. Модель обучается под базовый промпт «photo collage in IRIS VON EVEREC style»

Параметры обученной модели были загружены на hugging face для возможности в дальнейшем скачать готовую модель и без обучения с нуля.
Генерация изображений
photo collage in IRIS VON EVEREC style, Eiffel tower, Paris

photo collage in IRIS VON EVEREC style, times square, new york

photo collage in IRIS VON EVEREC style, red square, moscow
photo collage in IRIS VON EVEREC style, black cat lying in the field

photo collage in IRIS VON EVEREC style, Golden retriever on the field

photo collage in IRIS VON EVEREC style, Cherry blossoms, Tokyo

photo collage in IRIS VON EVEREC style, Cologne Cathedral

photo collage in IRIS VON EVEREC style, airplane in the skies
photo collage in IRIS VON EVEREC style, The canals of Venice
Выводы
В результате обучения модели удалось уловить стиль Нарисованного мира Ирис, однако на сгенерированных изображениях наблюдаются признаки переобучения: модель слишком сильно ориентируется на архитектуру, которая встречалась в изображениях для обучения, а также фиолетовые цвета при генерации растений. Для уменьшения данного эффекта в дальнейшем возможно попробовать разнообразить датасет различными сценами, а также изменить параметры learning rate и уменьшить число шагов при обучении.
Ссылки