
Идея проекта
Я разработала иллюстрации и решила обучить генеративную нейросеть Stable Diffusion для создания рисунков в моём собственном стиле. Ежегодно, в день рождения, я рисую для себя вишлист — список подарков, оформленный как иллюстрации.
Мне показалось интересным и удобным создать бота, который смог бы делать такие изображения за меня, тем самым экономить время.
Главная цель проекта — проверить, насколько точно нейросеть сможет воспроизвести мой визуальный стиль и действительно ли использование генерации поможет сократить время работы. В перспективе я хотела бы применять этого бота и для других праздников, создавая персонализированные вишлисты автоматически.
Исходные изображения

Мои иллюстрации
В стиле своих иллюстраций могу выделить следующие особенности, которые бы мне хотелось увидеть в итоговом результате: 1. Неровность изображения — нарочитая «неаккуратность», т. е. неровный контур 2. Использование ярких цветов 3. Специально заваленная перспектива 4. Плоская графика

Мои иллюстрации
Процесс
Поэтапно: 1. Загрузила фото 2. Создала к ним описания 3. Создала свой личный префикс 4. Обучила модель 5. Загрузила модель на HF 6. Протестировала, создав изображения
Использованные программы: Stable Diffusion Google Colab Hugging Face Figma
Настройка Stable Diffusion XL (SDXL) с DreamBooth и LoRA на GPU T4.
Сначала я загрузила свой архив иллюстраций в Google Colab, создала для них описания.
После этого я создала префикс в Hugging Face. Я выбрала разрешение 512, шаг тренинга 500, чекпоинт 250.
После этого я сохранила обученную модель и начала генерировать изображения, чтобы её протестировать.
Фрагменты из кода, чтобы показать обучение
Написание промта
Сравнение точности. 1 — мой рисунок, 2 — генерация (промт: teapot art in my style)
Стиль я решила назвать «My style». Сначала я решила опробовать модель на несложных промтах.
Сравнение точности. 1 — мой рисунок, 2 — генерация (промт: in my style, coffee, donut)
С каждым следующим промтом, я понимала, что нейросеть считала мой стиль и уже готова к генерации похожих иллюстраций.
Сравнение точности. 1 — мой рисунок, 2 — генерация. (промт: TV art in my style)
Нейросеть с точностью улавливала цвета, формы, плоский стиль иллюстраций.
Промт 1: soft toy in the form of a bear
Промт 2: soft teddy bear in green background
Далее я пробовала сгенерировать различные вариации одного предмета — медведя
Не все генерации оказывались точными. В некоторых случаях появлялись нехарактерные для стиля элементы, например, градиентный объём, который нарушал общую плоскостность и графичность изображения.
Промт 1: vase with yellow flowers
Промт 2: рink dress with polka-dot buttons
В более сложных иллюстрациях сохранялся плоский стиль и яркая, чистая палитра, благодаря чему визуальный язык оставался цельным.
Сюжетные иллюстрации
Я пробовала усложнять генерации и пробовать сгенерировать людей, что тоже неплохо получалось.
Я пробовала генерировать сюжетные зарисовки, связанные с получением подарков и праздников.
Промт 1: a girl with short hair holds a gift with a ribbon
Промт 2: a Christmas tree and a gift lying under it in the snow
Генерации на отвлеченные темы для проверки стиля. Более сложные сюжетные иллюстрации получались чересчур детализированными, но стиль и цвета схожи.
Промт 1: A ginger cat with a bow on a head plays with a ball
Промт 2: A cook wearing an apron and a hat, holding a bowl of soup
Итог
Как мне кажется, удалось добиться, чтобы нейросеть копировала мой стиль: она достаточно точно копирует цветовую палитру, стиль иллюстраций и степень их детализации. Также заметно, что ей удалось уловить общие принципы композиции — использует однотонный фон, характерный для оригинальных изображений, и сохраняет общую атмосферу и структуру визуала.
В итоге, нейросеть действительно сократило время на создание иллюстраций. На общем овервью всех работ (вверху — генерации, внизу — мои отрисованные версии) хорошо видно, что нейросеть корректно передаёт основные принципы стиля.