Original size 1637x2340

Дообучение Stable Diffusion в стиле советских ковров

PROTECT STATUS: not protected

Цель проекта — дообучение генеративной нейросети Stable Diffusion XL создавать изображения в стиле советских ковров, сохраняя стиль, но видоизменяя их с применением метода LoRA (Low-Rank Adaptation). Итогом обучения должна стать модель, способная генерировать изображения по текстовому описанию в узнаваемом стиле советских ковров.

Подготовка модели

Original size 2856x1156

Установка зависимостей

Original size 2856x992

Создание папки для датасета и копирование изображений

Original size 2856x4036

Генерация кастомных подписей к картинкам

Original size 2856x2956

Устанавливаем главные настройки для тренировки модели

Подготовка датасета

Фотографии ковров были обрезаны до квадратной формы, в некоторых исправлен наклон или перспектива, изображения кадрированы с сохранением симметричного паттерна.

Конструктивно идея в том, чтобы оставить узнаваемые узорчатые геометрические границы ковра и добавить в середину изображения людей, животных или предметов.

Для обучения модели использовались изображения в формате 1:1, максимальное количество шагов тренировки — 500 с чекпоинтом в 250 шагов. Разрешение — 512×512 пикселей.

Original size 3500x1981

Исходный датасет изображений

Изначально изображений было 100, включая ковры с абстрактными и предметными узорами, гобелены с животными (олени, павлины) и сюжетные ковры, в том числе с портретами.

В результате первой попытки обучения результат получился не очень похожим на исходные изображения и не был виден узнаваемый стиль, пример — изображение совы ниже с базовыми настройками.

Original size 2050x2048

A photo in KOVER style, an owl

После этого были убраны гобелены из датасета и ковры, которые немного отличались по стилю и могли влиять на итоговый результат, делать его менее консистентным.

Original size 3884x1075

Часть итогового датасета изображений

Стиль изображений

Характерные черты ковров в датасете — осевая симметрия, геометрические и растительные орнаменты, рамки по краям, повторяющееся паттерны, яркие цвета, чаще всего встречается и обычно является фоном красный. Эти черты важно было передать в генерациях, чтобы стиль был узнаваемым.

Original size 3500x1724

An art in KOVER style, an owl / a cat

Применение генеративной модели

Блокнот с кодом в Kaggle

Модель на HuggingFace

Для улучшения качества изображений применялся Upscayl

Дообучение Stable Diffusion в стиле советских ковров
Project created at 08.04.2025
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more