Original size 832x1248

Cat Impressionist // Обучение генеративной нейросети

PROTECT STATUS: not protected
3

Цель проекта

Цель проекта — обучить генеративную нейросеть Stable Diffusion XL (SDXL) с использованием методов DreamBooth и LoRA для создания изображений котов-космонавтов в шлемах, выполненных в стиле импрессионистической живописи Клода Моне. Я стремилась совместить фантастический образ кота в космическом скафандре с художественным стилем Моне, который характеризуется мягкими мазками кисти, яркими цветами, мягким освещением и общей атмосферой легкости и гармонии. Космическая тематика (звезды, планеты, космические фоны) должна быть сохранена, но обработана в импрессионистическом стиле, чтобы создать уникальный визуальный эффект.

Датасет состоял из 28 изображений (все 512×512 пикселей). Он был сбалансирован (14+14), чтобы модель могла одинаково хорошо обучиться как на стиле Клода Моне, так и на объекте (кот- космонавт).

Данные изображения представляют стиль импрессионизм. Художник — Клод Моне.

big
Original size 2013x661

Исходные изображения для обучения

Изображения представляют собой котов в шлемах и скафандрах, часто с космическими фонами.

big
Original size 2008x658

Исходные изображения для обучения

big
Original size 1280x512

Полученная серия изображений

Анализ итоговой серии изображений

Итоговая серия состоит из 10 изображений, на каждом из которых изображен кот-космонавт в шлеме, помещенный в космическую среду (фоны с планетами, звездами и яркими цветами). Коты одеты в скафандры, на некоторых видны американские флаги на плечах, что соответствует типичным изображениям астронавтов. Фоны насыщенные, с элементами космоса (планеты, звезды, туманности), выполненные в ярких оттенках красного, синего, фиолетового и оранжевого.

Связь с концепцией проекта

Проект был направлен на создание котов-космонавтов в стиле Клода Моне, с сохранением космической среды. Коты-космонавты: Модель успешно передала объект — котов в шлемах и скафандрах. Коты выглядят реалистично, с четкими мордашками, выразительными глазами и текстурой шерсти. Шлемы и скафандры детализированы, с отражениями и элементами, указывающими на космическую тематику. Космическая среда: Космические фоны (планеты, звезды) присутствуют на всех изображениях, как и было задумано. Фоны насыщенные, с яркими цветами, и имеют более выразительную текстуру, чем в серии исходных изображений. Стиль Клода Моне: В серии работ прослеживается вдохновение стилем Клода Моне. Размытые, живописные фоны. Тёплая, насыщенная палитра с вкраплениями синих, оранжевых и красных тонов создают атмосферу, близкую к импрессионизму. Отдельно стоит отметить световые акценты, которые местами придают работам ощущение мягкости и глубины, напоминая о солнечных бликах и прозрачном воздухе, характерных для Моне. Хотя образы котов и их скафандры выполнены с чуть большей чёткостью, это скорее добавляет серии контраст и выразительность.

Разбор характеристик изображений

Коты: Все коты объединены общей стилистикой — тёплая оранжево-коричневая шерсть и выразительные, живые глаза. Мордашки проработаны детально, что придаёт персонажам индивидуальность. Хотя такой уровень детализации не совсем характерен для импрессионизма, в ряде изображений (например, верхний ряд, третье слева) текстура шерсти передана с более мягким, размытым штрихом, что тонко отсылает к живописной манере Клода Моне.

Шлемы и скафандры: Шлемы прозрачные, с выразительными бликами и отражениями, в которых угадываются звёзды, планеты и другие космические элементы. Белые скафандры с американской символикой придают сериям единый визуальный стиль. В некоторых работах, например нижний ряд, второе слева изображение, отражения в шлеме выполнены более размыто, что добавляет ощущение художественности и сближает с импрессионистской техникой.

Фон: Фоны особенно выразительны и живописны — они насыщены яркими цветами и мягкими цветовыми переходами, что создаёт ощущение движения и глубины. Например, во втором изображении сверху слева фон передает пространство через размытые звёзды и планеты, а в нижнем ряду, первом слева, мягкие цветовые пятна особенно напоминают мазки Моне. Атмосфера создаётся очень поэтичная и эмоциональная.

Цветовая палитра: Использование ярких, насыщенных цветов придаёт сериям энергичность и выразительность. Несмотря на то, что палитра несколько ярче, чем классические пастельные тона Моне, она перекликается с его работами. Особенно в использовании синих, фиолетовых и оранжевых оттенков. Например, в верхнем левом изображении красно-оранжевая гамма динамична, а в нижнем ряду (третье слева) сине-фиолетовые тона ближе к палитре импрессионизма.

Соответствие первоначальной идее

Модель успешно передала котов-космонавтов в космической среде, что полностью соответствует нашему запросу. В серии удалось передать ряд характерных черт импрессионизма — особенно в мягкости фонов, яркости палитры и живописности цветовых переходов. Эти элементы создают атмосферу, близкую к стилю Моне. Образы котов и шлемов выполнены более чётко и графично, что придаёт работам современное звучание и интересное сочетание традиционной живописи с цифровой выразительностью.

Детали генерации

Обучение: Модель обучалась на датасете из 28 изображений (14 котов, 14 картин Моне) с использованием DreamBooth и LoRA. Мы применили 1500 шагов обучения (--max_train_steps=1500), что сократило время обучения до ~2–3 часов на Tesla T4. Единый instance_prompt="a painting of a cat astronaut in a helmet in the style of Claude Monet» объединял стиль и объект, что, вероятно, ослабило влияние стиля Моне, так как модель сосредоточилась на котах. Методы улучшения: Мы использовали параметры --gradient_checkpointing, --use_8bit_adam и --mixed_precision="fp16» для работы на T4 GPU с 15GB VRAM. negative_prompt исключал нежелательные элементы, такие как цветы, чтобы сосредоточиться на котах-космонавтах (в предыдущих сериях были получены цветы).

Обработка исходных данных: Исходные изображения котов-космонавтов изначально включали в себя выразительные космические фоны, что органично усилило и подчеркнуло фантастическую тематику в финальной серии. Благодаря этому, изображения обрели яркую индивидуальность и атмосферу, наполненную звёздной поэзией. Хотя картины Моне в оригинале чаще обращались к природным сюжетам — с полями, садами и водной гладью — их стиль в данной интерпретации был передан в большей степени через настроение, цвет и свет.

Визуальный анализ

Сходства: Все изображения показывают котов-космонавтов в шлемах и скафандрах на космических фонах. Коты имеют схожую цветовую палитру (оранжево-коричневая шерсть) и выражение глаз. Скафандры белые с американскими флагами. Вариации: ◦ Фоны: Различия в фонах заметны. Например, верхний ряд (первое слева) имеет ярко-красный фон с четкими планетами, а верхний ряд (третье слева) — более синий с размытыми звездами. Нижний ряд (второе слева) показывает больше оранжевых и желтых оттенков, с мягкими цветовыми пятнами, напоминающими импрессионизм. ◦ Освещение: В некоторых изображениях (например, верхний ряд, второе слева) освещение более резкое, с яркими отражениями в шлеме, в других (нижний ряд, третье слева) — мягче, с размытым светом.

Текстура котов: В ряде изображений, например в нижнем ряду (второе слева), текстура шерсти кота передана с лёгкой размытостью, что удачно перекликается с импрессионистской манерой. В других работах коты выполнены с большей чёткостью, что придаёт им выразительность и акцентирует внимание на их образе. Такое сочетание живописности и графичности добавляет серии разнообразие и визуальную глубину.


Общий стиль: Визуальная подача серии выстраивается на интересном сочетании — реалистичная детализация котов гармонирует с более мягкими, импрессионистскими фонами. Именно в фонах особенно чувствуется влияние Моне: размытые формы, живописные переходы и воздушная цветовая гамма создают впечатление света и пространства. Образы котов и шлемов, выполненные с большей чёткостью, вносят элемент контраста, придавая работам современное звучание и подчёркивая уникальное взаимодействие классической живописи с цифровой эстетикой.
 Стиль Моне более выражен в фонах, где имеются размытые текстуры и мягкие переходы цвета. Однако коты и шлемы остаются ближе к цифровой графике, чем к импрессионизму.

Описание процесса обучения

Настройка среды: ◦ Проверили доступность GPU (Tesla T4 с 15GB VRAM) с помощью! nvidia-smi. ◦ Установили зависимости: bitsandbytes, transformers, accelerate, peft, а также последнюю версию библиотеки diffusers через GitHub. ◦ Загрузили скрипт train_dreambooth_lora_sdxl.py от Hugging Face для обучения SDXL с DreamBooth и LoRA.

Подготовка датасета: ◦ Создали директорию monet_astronaut_cat/ для хранения датасета. ◦ Загрузили 28 изображений (14 котов-космонавтов и 14 картин Моне) через files.upload () в Colab. Все изображения были предварительно обрезаны до 512×512 пикселей. В прошлых версиях код был показан ИИ для уточнения непонятных деталей и были внесены правки, чтобы получить нужную серию изображений. Однако в последней удачной версии, остались отсылки к предыдущим по комментариям в выводе пользователю, но попыток уже не было чтобы перезапустить в чистом виде код. ◦ Сгенерировали подписи на основе имен файлов («a painting in the style of Claude Monet» для картин Моне, «a cat astronaut in a helmet» для котов) и использовали их для визуализации первых 6 изображений в сетке (dataset_preview_with_captions.jpg).

Original size 1280x597

Процесс обучения модели

Original size 1280x672

Процесс обучения модели

Обучение: ◦ Использовали скрипт train_dreambooth_lora_sdxl.py с параметрами: 1. --pretrained_model_name_or_path="stabilityai/stable-diffusion-xl-base-1.0»: базовая модель SDXL. 2. --instance_data_dir=»./monet_astronaut_cat»: папка с датасетом. 3. --instance_prompt="a painting of a cat astronaut in a helmet in the style of Claude Monet»: единый промпт, объединяющий стиль и объект. 4. --train_text_encoder: обучали текстовый энкодер для лучшего понимания промпта. 5. --resolution=512: размер изображений. 6. --train_batch_size=1, --gradient_accumulation_steps=4: оптимизация для T4 GPU. 7. --learning_rate=1e-4, --max_train_steps=1500: параметры обучения. 8. --mixed_precision="fp16», --gradient_checkpointing, --use_8bit_adam: оптимизации для работы с ограниченной памятью. 9. --rank=8: параметр LoRA для адаптации модели.

Original size 1280x514

Обучение модели

Генерация: ◦ Использовали StableDiffusionXLPipeline для генерации 10 изображений с промптом:

«prompt = „a painting of a cat astronaut in a helmet in the style of Claude Monet, vibrant colors, impressionistic brushstrokes, soft lighting“ negative_prompt = „low quality, blurry, realistic, modern style“»

Сгенерированные изображения собраны в сетку generated_series.jpg.

Original size 1280x908

Процесс обучения модели

Использование генеративного ИИ (ГенИИ)

•Генеративный ИИ для обучения: Основной генеративный ИИ в проекте — это Stable Diffusion XL (SDXL), которую мы обучали с помощью DreamBooth и LoRA для создания котов-космонавтов в стиле Моне. •Дополнительный ГенИИ: ChatGPT и Grok, использовались для рекомендаций по коду и анализа результатов. Например: 1. Помогал адаптировать код под наши запросы (изменение промптов, консультации по изображениям). 2. Анализировал сгенерированные изображения и объяснял, почему стиль Моне не был достаточно выражен.

•Генерация идеи: Также идея проекта (коты-космонавты в стиле Моне) была моей, но ИИ помогал развивать ее, предлагая способы улучшения (например, разделение данных, уточнение промптов).

Итог

Проект достиг частичного успеха: коты-космонавты в космической среде были сгенерированы, и стиль Клода Моне стал более выраженным по сравнению с предыдущей серией, особенно в фонах, где появились размытые текстуры и мягкие переходы цвета. Однако, коты и шлемы остаются местами слишком четкими для полного соответствия импрессионизму.

Полученный код

Cat Impressionist // Обучение генеративной нейросети
3
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more