Original size 1140x1600

Обучение генеративной нейросети Stable Diffusion

PROTECT STATUS: not protected

[Описание идеи]

Главной задачей соответствия критериям проекта было избежание нарушения авторского права, что в разы сократило разнообразие тем, за основу обучения нейросети я выбрала свои работы, сделанные около пяти лет назад. Поскольку рисование никогда не было моим основным увлечением, работ, выполненных в схожем стиле, с использованием одного материала оказалось всего 10, что как раз подходило к объему задания.

0

Dataset // исходные изображения

Целью проекта является выделение наиболее ярких и узнаваемых черт собственного стиля и эксперимент с новыми формами изображений.

[Процесс обучения модели]

big
Original size 3000x798

1 этап // загрузка необходимых для работы библиотек

После установки необходимых библиотек я загрузила свои изображения в рабочую среду, проверив их корректное импортирование.

0

2 этап // загрузка датасета в Kaggle

Для обучения модели Stable Diffusion необходимо получить исходные промты загруженных изображений. С помощью модели BlipForConditionalGeneration и функции caption_images можно автоматизировать процесс описания. Для создания файла с подписями нужно задать имя специального токена и формулировку запроса на обучение нейросети стилю. Чтобы освободить место для обучения модели, необходимо удалить уже не нужную модель.

0

3 этап // генерация подписей для картинок

Далее необходимо провести проверку доступных графических процессов м помощью скрипта! accelerate, который так же позволит не только использовать модель локально, но и сохранить ее на портал huggingface. Для размещения модели в общее пользование необходимо зарегистрироваться на сайте и получить специальный токен, имеющий права записи.

Original size 3000x1882

4 этап // подготовка к обучению

Перед запуском модели обучения необходимо установить библиотеку datasets, чтобы использовать сгенерированные промпты изображений. Для более быстрого результата я уменьшила разрешение изображений.

0

5 этап // обучение модели

Загрузив исходную модель stable-diffusion-xl для использования lora, я начала писать необходимые промпты для генерации финальных изображений.

Original size 3000x2106

6этап // финальная генерация изображений

[Финальные изображения]

Поскольку обучение модели происходило на натюрмортных изображениях, мне стало интересно какой результат получится при написании простого промпта, чтобы понять какие стилевые особенности оказались наиболее важными и существенно повлиявшими на изображения.

Original size 3000x3000

// photo collage in MYOWN style, still life //

Я перезапускала обучение дважды, не ожидая сильного улучшения результатов, однако разница оказалась довольно существенной. Изображения стали гораздо четче, появилась большая проработка деталей и контрастность.

// photo collage in MYOWN style, still life and vase and flowers //

// photo collage in MYOWN style, landscape near the river //

После улучшения качества генераций, я решила посмотреть, как будут выглядеть изображения из уже заданных на моих рисунках предметов, будет ли схожа композиция картин, фон. Прописывая промпты, связанные тематикой, а не конкретными предметами, я ожидала увидеть использование распознанных объектов.

// photo collage in MYOWN style, still life of musical instruments // // photo collage in MYOWN style, kitchen table near the window //

Original size 3000x3000

// photo collage in MYOWN style, a writer’s desk with manuscripts and a typewriter //

// photo collage in MYOWN style, seashore with shells on the sand // // photo collage in MYOWN style, still life with metal objects //

Дальше мне стало интересно увидеть изображения совершенно не похожие на исходные. Я выбрала примеры крупных городов, их ключевых мест, чтобы увидеть большой масштаб деталировки, также, как дизайнеру среды, мне было интересно посмотреть на архитектуру и окружающее пространство, переведенные в мой стиль,

// photo collage in MYOWN style, big ben, london // // photo collage in MYOWN style, times square, new york //

Попробовав создать генерацию Санкт-Петербурга, я поняла, что подобные коричнево-серые оттенки, небрежные штрихи и неровные текстуры очень хорошо передают настроение города в пасмурные будни, поэтому решила сделать небольшую серию, посвященную достопримечательностям города, в которые неожиданно попали и его жители.

0

// st. isaac’s cathedral, saint petersburg // // hermitage, saint petersburg // // peter and paul Fortress, saint petersburg // // architecture of peter and paul Fortress, saint petersburg //

[Вывод]

Ключевыми особенностями стиля стали: коричневая подложка, легшая в основу всех изображений; текстура мытой бумаги и складок ткани, дополнявшая фон всех картин; градиентное изображение бликов и теней; карандашная штриховка; местами серые пятна от карандаша.

Хотя почти никакие объекты не были полностью скопированы при генерации из оригинальных работ, на изображениях можно часто увидеть формальное единство предметов, в особенности абстрактных форм.

Интересно, что композиция натюрмортов была полностью заимствована из предложенных картин, в то время как пейзажи и изображения города почти не были композиционно с ними связаны.

Stable Diffusion — обучение генеративной нейросети под свой стиль. Hugging Face — получения токена для обучения нейросети. Kaggle — выполнение кода и генераций

Обучение генеративной нейросети Stable Diffusion
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more