Концепция
Иван Иванович Шишкин. Дорога во ржи. 1866 г.
Целью проекта было создание модели генерации изображений, способные создавать уникальные пейзажи в характерной манере великого русского художника Ивана Шишкина, используя современные методы дообучения нейросетей.
Модели Stable Diffusion (SDXL) являются мощными инструментами генерации изображений по текстовому описанию (промпту). Однако их знания о стиле конкретного художника могут быть ограничены или размыты. Дообучение на целевом наборе данных позволяет внедрить этот стиль в модель, добиваясь высокой точности и узнаваемости генерируемых изображений.
Цели:
Сбор и подготовка датасета: Собрать репрезентативную коллекцию картин Ивана Шишкина, привести их к единому формату и создать текстовые описания (подписи) для каждой.
Дообучение модели: Используя технику Low-Rank Adaptation (LoRA), дообучить предобученную модель SDXL на подготовленном датасете, чтобы модель научилась ассоциировать ключевые слова с визуальными характеристиками его работ (фактура, цветовая гамма, композиция).
Валидация и генерация: Оценить качество дообученной модели, генерируя изображения по различным промптам, и проанализировать, насколько успешно модель усвоила стиль Шишкина.
Датасет
Коллекция изображений картин Ивана Шишкина. В коде они были загружены через Google Colab.
Коллекция из 35 картин. Примеры: «Утро в сосновом лесу», «Рожь» и др.
Для каждого изображения было сгенерировано текстовое описание с помощью модели BLIP.
Префикс in the style of SHISHKIN — это ключевой триггер, который во время обучения свяжет стиль художника с содержимым подписи.
Процесс обучения
Параметры обучения
Используется официальный скрипт train_dreambooth_lora_sdxl.py от Hugging Face, что гарантирует корректность реализации.
Так же присутствует сохранение чекпоинтов (--checkpointing_steps=100), что позволяет отслеживать прогресс и в случае сбоя не потерять все обучение.
Директория после окончания обучения
Сохранение LoRA весов: Результатом обучения является файл pytorch_lora_weights.safetensors, который содержит только обученные LoRA-адаптеры.
Генерация картин
С помощью короткого кода мы теперь можем генерировать картины самого Ивана Шишкина!
prompt: «A wild forest thicket, morning mist, fallen trees covered in moss, young birch trees intertwined with old pines, silence of the wilderness, style of Shishkin, detailed botanical illustration style painting, muted green and brown palette, soft diffused light, realism.»
prompt: «Winter forest landscape, tall pine trees covered in snow, soft shadows on blue snowdrifts, winter sunlight, silence, style of Ivan Shishkin, realistic oil painting, Russian winter, delicate brushwork, frost on branches, cold atmosphere but warm sunlight.»
prompt: «Rocky seashore with old twisted pines, a view of a distant blue sea, stormy sky, dramatic lighting, resilience of nature, style of Ivan Shishkin, marine landscape realism, detailed rocks and needles, 19th century painting.»
prompt: «Close-up of ancient pine tree roots gripping the edge of a steep sandy cliff, intricate texture of rough bark and pine needles, deep forest ravine, sunlight filtering through leaves, style of Ivan Shishkin, academic realism, hyperdetailed texture, natural earth tones, masterpiece.»
У нас так же есть возможность вернуться к определенному чекпоинту.
Вернёмся к 300 и попробуем сгенерировать картины.
Забавные медведи
prompt: «A dense pine forest in the morning, style of Ivan Shishkin, realistic painting, oil on canvas, golden hour sunlight piercing through tall majestic pine trees, detailed bark texture, moss on rocks, a family of bears playing near a fallen tree, lush green ferns, hyperdetailed, epic scale, depth of field, Russian realism, 19th century art.»
Прослеживается стиль недообученной нейросети. То, как она пытается имитировать мазки, но получаются артефакты.
prompt: «A vast golden wheat field stretching to the horizon, a winding path through the grass, monumental centuries-old pine trees standing as sentinels, fluffy white clouds in a bright blue sky, style of Ivan Shishkin, oil painting, meticulous detail of every ear of wheat, summer afternoon, Russian landscape, realism, high resolution.»
Итоги
В ходе выполнения проекта была успешно решена задача дообучения модели Stable Diffusion XL для генерации изображений в стиле Ивана Шишкина.
Метод LoRA доказал свою эффективность, позволив обучить модель-стиль всего за 500 шагов на ограниченном датасете и с использованием ресурсов бесплатного уровня Google Colab.
Мы научили нейросеть подражать Шишкину. Она может создавать убедительные пейзажи, которые на первый взгляд сложно отличить от оригинала.
Но за этими изображениями не стоит ни капли того трепета, той любви и того титанического труда, которые вкладывал в свои полотна Иван Иванович.
Нейросеть — это гениальный имитатор, но искусство — это всегда про человека.
Материалы и ссылки
1. Материал проекта Датасет, блокнот и результаты генерации
2. DeepSeek — консультант и генерация промптов Использовался для консультаций по коду и создания промптов для генерации
3. Поиск картин Шишкина Для сбора датасета использовались изображения из открытых источников
4. Carbon Скриншоты кода для презентации




