Генеративная нейросеть для рисования питомца on Mediiia

Рубрикация

Идея проекта
Датасет
Источники
Процесс обучения
Генерация изображений
Анализ результатов
Итоги проекта
Ноутбук с кодом

Идея проекта

Цель моего проекта, обучить нейросеть генерировать изображения моего питомца в разных стилях, при этом сохраняя его индивидуальные черты и окрас. Основная задача, сделать так, чтобы на любых сгенерированных изображениях питомец оставался узнаваемым. Мотивация проекта, интерес к цифровому искусству и желание создавать новые изображения питомца, помещая его в необычные сцены и разные художественные стили. Также важной частью является изучение того, как нейросеть обучается на небольшом датасете и насколько качественный результат можно получить при ограниченном количестве данных.

Датасет

Для обучения был собран мной датасет, состоящий из 20–30 фотографий питомца. Изображения включают разные ракурсы, позы и условия освещения, что помогает модели лучше понять внешний вид объекта.

Датасет был структурирован следующим образом: исходные изображения помещены в архив dataset.zip и распакованы в папку /content/dataset_raw_files. Далее все изображения были обработаны, обрезаны до квадратного формата 1:1 и приведены к размеру 512×512 пикселей. Обработанные файлы сохранены в папку /content/dataset.

Для каждого изображения автоматически сгенерированы текстовые описания (captions), например: «photo of skscat cat, orange cat, realistic». Это помогает модели связать визуальные признаки с текстовым описанием.

При формировании датасета использовались только собственные фотографии питомца, что соответствует требованиям по соблюдению авторских прав и академической добросовестности.

Источники

Процесс обучения

В проекте использовалась модель Stable Diffusion v1.5. Обучение проводилось с применением методов DreamBooth / LoRA, которые позволяют дообучить модель на конкретном объекте. Основные параметры обучения: train_data_dir: /content/dataset instance_prompt: photo of skscat cat resolution: 512 train_batch_size: 1 learning_rate: 1e-4 max_train_steps: 1500

Генерация изображений

До обучения модель генерировала изображения по простому запросу «photo of a cat realistic». Результат представлял собой обычного кота без уникальных особенностей моего питомца. После обучения модель начала корректно реагировать на специальный токен skscat cat. Были использованы следующие промпты: «skscat cat as an astronaut cinematic lighting ultra detailed», «skscat cat in a fantasy forest soft lighting», «skscat cat cartoon style vibrant colors». Во всех случаях, я пыталась прийти к результату, чтобы узнаваемость питомца сохранилась и были минимальные погрешности.

Анализ результатов

Изображения отличаются ракурсам, освещением, фоном, степенью детализации. Это говорит о том, что модель не просто копирует датасет, а обобщает признаки. Несмотря на вариативность персонаж остаётся узнаваемым, стиль сохраняется это ключевой показатель успешного обучения. Но при сложных сценах появляются артефакты и возможна «потеря» деталей при сильных отклонениях промта. Также мы можем наблюдать разнообразие генераций в художественных стилях, которых не было в исходных данных. Это подтверждает, что даже небольшой датасет (около 20 изображений) может быть достаточным для обучения, если данные хорошо подготовлены. Методы DreamBooth и LoRA позволяют эффективно интегрировать уникальный объект в генеративную модель.

Если анализировать отдельно, каждую картинку, то можно увидеть, что начиная с третьего и четвёртого изображения, становятся заметны различия, например, появляется рыжий оттенок, что может говорить о разнице в результатах или влиянии настроек генерации. Эти изменения делают образ менее единым, но при этом дают больше вариантов.

На пятом изображении различия в основном касаются деталей, таких как глаза, а всё остальное остаётся почти таким же, как раньше. Это может означать, что генерация стала точнее или образ стал более стабильным.

Стоит отметить, что на некоторых изображениях позы персонажа выглядят не совсем естественно это обычная ошибка при генерации. Тем не менее, космическая тема, особенно шлем, сохраняется во всех вариантах, что показывает, что основная идея проекта остаётся неизменной.

Тем не менее качество изображений пришлось дополнительно исправлять и улучшать с помощью открытых ИИ-инструментов. Это позволило повысить четкость, детализацию и общее визуальное восприятие результатов.

Итоги проекта

В рамках моего проекта был собран и подготовлен датасет изображений питомца, проведено обучение нейросети и получена серия сгенерированных изображений с сохранением индивидуальных черт питомца и разными погрешностями. Результаты демонстрируют, что нейросеть способна воспроизводить уникального персонажа в разных условиях и стилях. Полученные изображения могут использоваться в цифровом арте, создании контента и дальнейших экспериментах с генеративными моделями.

Ноутбук с кодом