Original size 1144x1600

Шиле в отпуске (обучение стилю генеративной нейросети)

PROTECT STATUS: not protected
3

Идея и цели проекта

Настоящая осень с её дождями и пасмурным небом, время сессии, наполненное стрессом, наводят меня на мысли о художнике Эгоне Шиле, о его способе видеть мир сквозь искажённые формы и невротично-острые линии. Я мечтаю отправиться в настоящее кругосветное путешествие, чтобы отвлечься от всего этого, но пока это невозможно, я делаю это виртуально рука об руку с этим художником.

Используя возможности нейросети, я создаю серию иллюстраций узнаваемых мировых пейзажей и памятников, «отправляя» Шиле в путешествие.

Автопортреты Шиле, иллюстрация 1/15 моего датасета.

Цели проекта:

(1) Исследовать, как визуальный стиль Эгона Шиле может применяться к пейзажам, создавая мост между реальностью, воспоминаниями и художественным взглядом художника.

(2) Проверить, сможет ли нейросеть сгенерировать узнаваемые пейзажи, используя LoRA, обученную исключительно на портретах Шиле.

(3) Посмотреть, как могли бы выглядеть пейзажи глазами портретиста и оценить влияние его характерной экспрессии на интерпретацию окружающего мира.

Работа с кодом

Сначала я подготовила окружение для работы с нейросетями. Установила нужные библиотеки для LoRA, Hugging Face, Diffusers и проверила, что всё корректно установлено.

Далее я занялась подготовкой датасета. Распаковала архив с изображениями Шиле, центрировала каждое изображение на квадратном холсте и изменила размер до 512×512 пикселей. Так я сделала все изображения одинаковыми, чтобы их было удобно использовать для обучения.

Чтобы убедиться, что датасет корректный, я взяла несколько первых изображений, уменьшила их и собрала в один ряд. Это позволило быстро проверить визуально, что все изображения выглядят правильно.

(Слайдер 1, скриншоты 1 и 2)

0

Скриншоты кода 1 и 2. Подготовка среды и датасета

После этого я сгенерировала текстовые подписи для изображений с помощью модели BLIP. Эти подписи помогают LoRA понять, что изображения должны соответствовать стилю Эгона Шиле. Я добавила префикс, указывающий на экспрессионистский и искажённый стиль, и сохранила всё в метаданные для обучения.

Перед обучением я очистила память GPU, удалив ненужные объекты, чтобы освободить ресурсы для тренировки LoRA. Настроила accelerate для работы с GPU.

Далее я авторизовалась на Hugging Face, чтобы потом иметь возможность сохранять и публиковать обученную модель. После подготовила папку с изображениями, которые будут использоваться для обучения LoRA. Скопировала все подготовленные файлы туда, чтобы обучение работало с чистым набором данных.

(Скриншот 3)

Original size 1920x1080

Скриншот кода 3. Подготовка к обучению

Затем я запустила обучение LoRA на базе Stable Diffusion XL. Настроила параметры: размер батча, mixed precision, количество шагов обучения, использование градиентного чекпоинтинга и 8-bit Adam для экономии памяти. LoRA обучалась, чтобы перенять стиль Эгона Шиле с моих изображений. После завершения обучения я создала репозиторий на Hugging Face, сохранила model card с описанием проекта и загрузила все файлы обученной LoRA.

И наконец, я подключила LoRA к Stable Diffusion XL через pipeline и загрузила её на GPU. Теперь модель готова к генерации изображений в стиле Эгона Шиле, и я могу приступить к нашему с Эгоном виртуальному кругосветному путешествию!

(Слайдер 2, скриншоты 4 и 5)

0

Скриншоты кода 4 и 5. Сам процесс обучения, выгрузка модели

Серия полученных изображений

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, a detailed view of Big Ben clock tower»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Times Square with billboards and crowds»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Eiffel Tower from the Champ de Mars»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Colosseum in Rome with surrounding ruins»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Statue of Liberty on Liberty Island»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Mount Fuji with cherry blossoms in foreground»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Golden Gate Bridge in fog»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Taj Mahal with reflection in pool»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Sydney Opera House on the harbor»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Sagrada Familia cathedral with surrounding streets»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Machu Picchu ruins with mountains in background»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Kremlin towers and walls from Red Square»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Burj Khalifa skyscraper from street level»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Great Wall winding over mountains»

Original size 1024x1024

Промпт — «painting in EGON-SCHIELE style, Great Pyramid of Giza under a clear sky with desert surroundings»

Благодаря простым, однозначным промптам, качественному датасету (собранному мной лично) и использованию узнаваемых, ярких образов результатирующие изображения всегда получались с первого раза, не требовали доработки или уточнения деталей.

Я считаю, что обучение было результативным, но хочу отметить, что большинству изображений не хватает той авторской резкости и динамики, которая свойственна Шиле, хотя общая стилистика более чем отвечает моему запросу. Возможно, это связано с тем, что модель всего лишь обучается приему, но не достигает авторского видения, присущего исключительно человеку.

В завершении хочу сказать, что очень рада за моего нейросетевого Шиле-путешественника!

Шиле в отпуске (обучение стилю генеративной нейросети)
3
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more