
Идея и цели проекта
Настоящая осень с её дождями и пасмурным небом, время сессии, наполненное стрессом, наводят меня на мысли о художнике Эгоне Шиле, о его способе видеть мир сквозь искажённые формы и невротично-острые линии. Я мечтаю отправиться в настоящее кругосветное путешествие, чтобы отвлечься от всего этого, но пока это невозможно, я делаю это виртуально рука об руку с этим художником.
Используя возможности нейросети, я создаю серию иллюстраций узнаваемых мировых пейзажей и памятников, «отправляя» Шиле в путешествие.


Цели проекта:
(1) Исследовать, как визуальный стиль Эгона Шиле может применяться к пейзажам, создавая мост между реальностью, воспоминаниями и художественным взглядом художника.
(2) Проверить, сможет ли нейросеть сгенерировать узнаваемые пейзажи, используя LoRA, обученную исключительно на портретах Шиле.
(3) Посмотреть, как могли бы выглядеть пейзажи глазами портретиста и оценить влияние его характерной экспрессии на интерпретацию окружающего мира.
Работа с кодом
Сначала я подготовила окружение для работы с нейросетями. Установила нужные библиотеки для LoRA, Hugging Face, Diffusers и проверила, что всё корректно установлено.
Далее я занялась подготовкой датасета. Распаковала архив с изображениями Шиле, центрировала каждое изображение на квадратном холсте и изменила размер до 512×512 пикселей. Так я сделала все изображения одинаковыми, чтобы их было удобно использовать для обучения.
Чтобы убедиться, что датасет корректный, я взяла несколько первых изображений, уменьшила их и собрала в один ряд. Это позволило быстро проверить визуально, что все изображения выглядят правильно.
(Слайдер 1, скриншоты 1 и 2)
После этого я сгенерировала текстовые подписи для изображений с помощью модели BLIP. Эти подписи помогают LoRA понять, что изображения должны соответствовать стилю Эгона Шиле. Я добавила префикс, указывающий на экспрессионистский и искажённый стиль, и сохранила всё в метаданные для обучения.
Перед обучением я очистила память GPU, удалив ненужные объекты, чтобы освободить ресурсы для тренировки LoRA. Настроила accelerate для работы с GPU.
Далее я авторизовалась на Hugging Face, чтобы потом иметь возможность сохранять и публиковать обученную модель. После подготовила папку с изображениями, которые будут использоваться для обучения LoRA. Скопировала все подготовленные файлы туда, чтобы обучение работало с чистым набором данных.
(Скриншот 3)
Затем я запустила обучение LoRA на базе Stable Diffusion XL. Настроила параметры: размер батча, mixed precision, количество шагов обучения, использование градиентного чекпоинтинга и 8-bit Adam для экономии памяти. LoRA обучалась, чтобы перенять стиль Эгона Шиле с моих изображений. После завершения обучения я создала репозиторий на Hugging Face, сохранила model card с описанием проекта и загрузила все файлы обученной LoRA.
И наконец, я подключила LoRA к Stable Diffusion XL через pipeline и загрузила её на GPU. Теперь модель готова к генерации изображений в стиле Эгона Шиле, и я могу приступить к нашему с Эгоном виртуальному кругосветному путешествию!
(Слайдер 2, скриншоты 4 и 5)
Серия полученных изображений
Благодаря простым, однозначным промптам, качественному датасету (собранному мной лично) и использованию узнаваемых, ярких образов результатирующие изображения всегда получались с первого раза, не требовали доработки или уточнения деталей.
Я считаю, что обучение было результативным, но хочу отметить, что большинству изображений не хватает той авторской резкости и динамики, которая свойственна Шиле, хотя общая стилистика более чем отвечает моему запросу. Возможно, это связано с тем, что модель всего лишь обучается приему, но не достигает авторского видения, присущего исключительно человеку.
В завершении хочу сказать, что очень рада за моего нейросетевого Шиле-путешественника!