Original size 1144x1600

Шиле в отпуске (обучение стилю генеративной нейросети)

Идея и цели проекта

Настоящая осень с её дождями и пасмурным небом, время сессии, наполненное стрессом, наводят меня на мысли о художнике Эгоне Шиле, о его способе видеть мир сквозь искажённые формы и невротично-острые линии. Я мечтаю отправиться в настоящее кругосветное путешествие, чтобы отвлечься от всего этого, но пока это невозможно, я делаю это виртуально рука об руку с этим художником.

Используя возможности нейросети, я создаю серию иллюстраций узнаваемых мировых пейзажей и памятников, «отправляя» Шиле в путешествие.

Автопортреты Шиле, иллюстрация 1/15 моего датасета.

Цели проекта:

(1) Исследовать, как визуальный стиль Эгона Шиле может применяться к пейзажам, создавая мост между реальностью, воспоминаниями и художественным взглядом художника.

(2) Проверить, сможет ли нейросеть сгенерировать узнаваемые пейзажи, используя LoRA, обученную исключительно на портретах Шиле.

(3) Посмотреть, как могли бы выглядеть пейзажи глазами портретиста и оценить влияние его характерной экспрессии на интерпретацию окружающего мира.

Работа с кодом

Сначала я подготовила окружение для работы с нейросетями. Установила нужные библиотеки для LoRA, Hugging Face, Diffusers и проверила, что всё корректно установлено.

Далее я занялась подготовкой датасета. Распаковала архив с изображениями Шиле, центрировала каждое изображение на квадратном холсте и изменила размер до 512×512 пикселей. Так я сделала все изображения одинаковыми, чтобы их было удобно использовать для обучения.

Чтобы убедиться, что датасет корректный, я взяла несколько первых изображений, уменьшила их и собрала в один ряд. Это позволило быстро проверить визуально, что все изображения выглядят правильно.

(Слайдер 1, скриншоты 1 и 2)

Скриншоты кода 1 и 2. Подготовка среды и датасета

После этого я сгенерировала текстовые подписи для изображений с помощью модели BLIP. Эти подписи помогают LoRA понять, что изображения должны соответствовать стилю Эгона Шиле. Я добавила префикс, указывающий на экспрессионистский и искажённый стиль, и сохранила всё в метаданные для обучения.

Перед обучением я очистила память GPU, удалив ненужные объекты, чтобы освободить ресурсы для тренировки LoRA. Настроила accelerate для работы с GPU.

Далее я авторизовалась на Hugging Face, чтобы потом иметь возможность сохранять и публиковать обученную модель. После подготовила папку с изображениями, которые будут использоваться для обучения LoRA. Скопировала все подготовленные файлы туда, чтобы обучение работало с чистым набором данных.

(Скриншот 3)

Original size 1920x1080

Скриншот кода 3. Подготовка к обучению

Затем я запустила обучение LoRA на базе Stable Diffusion XL. Настроила параметры: размер батча, mixed precision, количество шагов обучения, использование градиентного чекпоинтинга и 8-bit Adam для экономии памяти. LoRA обучалась, чтобы перенять стиль Эгона Шиле с моих изображений. После завершения обучения я создала репозиторий на Hugging Face, сохранила model card с описанием проекта и загрузила все файлы обученной LoRA.

И наконец, я подключила LoRA к Stable Diffusion XL через pipeline и загрузила её на GPU. Теперь модель готова к генерации изображений в стиле Эгона Шиле, и я могу приступить к нашему с Эгоном виртуальному кругосветному путешествию!

(Слайдер 2, скриншоты 4 и 5)

Скриншоты кода 4 и 5. Сам процесс обучения, выгрузка модели

Серия полученных изображений

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, a detailed view of Big Ben clock tower»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Times Square with billboards and crowds»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Eiffel Tower from the Champ de Mars»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Colosseum in Rome with surrounding ruins»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Statue of Liberty on Liberty Island»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Mount Fuji with cherry blossoms in foreground»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Golden Gate Bridge in fog»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Taj Mahal with reflection in pool»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Sydney Opera House on the harbor»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Sagrada Familia cathedral with surrounding streets»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Machu Picchu ruins with mountains in background»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Kremlin towers and walls from Red Square»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Burj Khalifa skyscraper from street level»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Great Wall winding over mountains»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Great Pyramid of Giza under a clear sky with desert surroundings»

Благодаря простым, однозначным промптам, качественному датасету (собранному мной лично) и использованию узнаваемых, ярких образов результатирующие изображения всегда получались с первого раза, не требовали доработки или уточнения деталей.

Я считаю, что обучение было результативным, но хочу отметить, что большинству изображений не хватает той авторской резкости и динамики, которая свойственна Шиле, хотя общая стилистика более чем отвечает моему запросу. Возможно, это связано с тем, что модель всего лишь обучается приему, но не достигает авторского видения, присущего исключительно человеку.

В завершении хочу сказать, что очень рада за моего нейросетевого Шиле-путешественника!

Ссылка на код в Google Colab Ссылка на модель Hugging Face

Шиле в отпуске (обучение стилю генеративной нейросети)

Varvara Gnidenko

artificial intelligence

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...