Original size 1140x1600

Обучение генеративной нейросети Stable Diffusion под рисование в моём стиле

Идея проекта

Я разработала иллюстрации и решила обучить генеративную нейросеть Stable Diffusion для создания рисунков в моём собственном стиле. Ежегодно, в день рождения, я рисую для себя вишлист — список подарков, оформленный как иллюстрации.

Мне показалось интересным и удобным создать бота, который смог бы делать такие изображения за меня, тем самым экономить время.

Главная цель проекта — проверить, насколько точно нейросеть сможет воспроизвести мой визуальный стиль и действительно ли использование генерации поможет сократить время работы. В перспективе я хотела бы применять этого бота и для других праздников, создавая персонализированные вишлисты автоматически.

Исходные изображения

Original size 1811x642

Мои иллюстрации

В стиле своих иллюстраций могу выделить следующие особенности, которые бы мне хотелось увидеть в итоговом результате: 1. Неровность изображения — нарочитая «неаккуратность», т. е. неровный контур 2. Использование ярких цветов 3. Специально заваленная перспектива 4. Плоская графика

Original size 1811x642

Мои иллюстрации

Процесс

Поэтапно: 1. Загрузила фото 2. Создала к ним описания 3. Создала свой личный префикс 4. Обучила модель 5. Загрузила модель на HF 6. Протестировала, создав изображения

Фото

Использованные программы: Stable Diffusion Google Colab Hugging Face Figma

Настройка Stable Diffusion XL (SDXL) с DreamBooth и LoRA на GPU T4.

Сначала я загрузила свой архив иллюстраций в Google Colab, создала для них описания.

После этого я создала префикс в Hugging Face. Я выбрала разрешение 512, шаг тренинга 500, чекпоинт 250.

После этого я сохранила обученную модель и начала генерировать изображения, чтобы её протестировать.

Фрагменты из кода, чтобы показать обучение

Написание промта

Original size 2344x1168

Сравнение точности. 1 — мой рисунок, 2 — генерация (промт: teapot art in my style)

Стиль я решила назвать «My style». Сначала я решила опробовать модель на несложных промтах.

Original size 2344x1168

Сравнение точности. 1 — мой рисунок, 2 — генерация (промт: in my style, coffee, donut)

С каждым следующим промтом, я понимала, что нейросеть считала мой стиль и уже готова к генерации похожих иллюстраций.

Original size 2344x1168

Сравнение точности. 1 — мой рисунок, 2 — генерация. (промт: TV art in my style)

Нейросеть с точностью улавливала цвета, формы, плоский стиль иллюстраций.

Original size 2344x1168

Промт 1: soft toy in the form of a bear

Промт 2: soft teddy bear in green background

Далее я пробовала сгенерировать различные вариации одного предмета — медведя

Не все генерации оказывались точными. В некоторых случаях появлялись нехарактерные для стиля элементы, например, градиентный объём, который нарушал общую плоскостность и графичность изображения.

Original size 2344x1168

Промт 1: vase with yellow flowers

Промт 2: рink dress with polka-dot buttons

В более сложных иллюстрациях сохранялся плоский стиль и яркая, чистая палитра, благодаря чему визуальный язык оставался цельным.

Сюжетные иллюстрации

Я пробовала усложнять генерации и пробовать сгенерировать людей, что тоже неплохо получалось.

Я пробовала генерировать сюжетные зарисовки, связанные с получением подарков и праздников.

Original size 2344x1168

Промт 1: a girl with short hair holds a gift with a ribbon

Промт 2: a Christmas tree and a gift lying under it in the snow

Генерации на отвлеченные темы для проверки стиля. Более сложные сюжетные иллюстрации получались чересчур детализированными, но стиль и цвета схожи.

Original size 2344x1168

Промт 1: A ginger cat with a bow on a head plays with a ball

Промт 2: A cook wearing an apron and a hat, holding a bowl of soup

Итог

Как мне кажется, удалось добиться, чтобы нейросеть копировала мой стиль: она достаточно точно копирует цветовую палитру, стиль иллюстраций и степень их детализации. Также заметно, что ей удалось уловить общие принципы композиции — использует однотонный фон, характерный для оригинальных изображений, и сохраняет общую атмосферу и структуру визуала.

Original size 1682x1080

В итоге, нейросеть действительно сократило время на создание иллюстраций. На общем овервью всех работ (вверху — генерации, внизу — мои отрисованные версии) хорошо видно, что нейросеть корректно передаёт основные принципы стиля.

Модель Hugging Face

Блокнот с кодом

Обучение генеративной нейросети Stable Diffusion под рисование в моём стиле

Mariya Dymchenko

artificial intelligence

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...