
Цель проекта
Цель проекта — обучить генеративную нейросеть Stable Diffusion XL (SDXL) с использованием методов DreamBooth и LoRA для создания изображений котов-космонавтов в шлемах, выполненных в стиле импрессионистической живописи Клода Моне. Я стремилась совместить фантастический образ кота в космическом скафандре с художественным стилем Моне, который характеризуется мягкими мазками кисти, яркими цветами, мягким освещением и общей атмосферой легкости и гармонии. Космическая тематика (звезды, планеты, космические фоны) должна быть сохранена, но обработана в импрессионистическом стиле, чтобы создать уникальный визуальный эффект.
Датасет состоял из 28 изображений (все 512×512 пикселей). Он был сбалансирован (14+14), чтобы модель могла одинаково хорошо обучиться как на стиле Клода Моне, так и на объекте (кот- космонавт).
Данные изображения представляют стиль импрессионизм. Художник — Клод Моне.

Исходные изображения для обучения
Изображения представляют собой котов в шлемах и скафандрах, часто с космическими фонами.

Исходные изображения для обучения

Полученная серия изображений
Анализ итоговой серии изображений
Итоговая серия состоит из 10 изображений, на каждом из которых изображен кот-космонавт в шлеме, помещенный в космическую среду (фоны с планетами, звездами и яркими цветами). Коты одеты в скафандры, на некоторых видны американские флаги на плечах, что соответствует типичным изображениям астронавтов. Фоны насыщенные, с элементами космоса (планеты, звезды, туманности), выполненные в ярких оттенках красного, синего, фиолетового и оранжевого.
Связь с концепцией проекта
Проект был направлен на создание котов-космонавтов в стиле Клода Моне, с сохранением космической среды. Коты-космонавты: Модель успешно передала объект — котов в шлемах и скафандрах. Коты выглядят реалистично, с четкими мордашками, выразительными глазами и текстурой шерсти. Шлемы и скафандры детализированы, с отражениями и элементами, указывающими на космическую тематику. Космическая среда: Космические фоны (планеты, звезды) присутствуют на всех изображениях, как и было задумано. Фоны насыщенные, с яркими цветами, и имеют более выразительную текстуру, чем в серии исходных изображений. Стиль Клода Моне: В серии работ прослеживается вдохновение стилем Клода Моне. Размытые, живописные фоны. Тёплая, насыщенная палитра с вкраплениями синих, оранжевых и красных тонов создают атмосферу, близкую к импрессионизму. Отдельно стоит отметить световые акценты, которые местами придают работам ощущение мягкости и глубины, напоминая о солнечных бликах и прозрачном воздухе, характерных для Моне. Хотя образы котов и их скафандры выполнены с чуть большей чёткостью, это скорее добавляет серии контраст и выразительность.
Разбор характеристик изображений
Коты: Все коты объединены общей стилистикой — тёплая оранжево-коричневая шерсть и выразительные, живые глаза. Мордашки проработаны детально, что придаёт персонажам индивидуальность. Хотя такой уровень детализации не совсем характерен для импрессионизма, в ряде изображений (например, верхний ряд, третье слева) текстура шерсти передана с более мягким, размытым штрихом, что тонко отсылает к живописной манере Клода Моне.
Шлемы и скафандры: Шлемы прозрачные, с выразительными бликами и отражениями, в которых угадываются звёзды, планеты и другие космические элементы. Белые скафандры с американской символикой придают сериям единый визуальный стиль. В некоторых работах, например нижний ряд, второе слева изображение, отражения в шлеме выполнены более размыто, что добавляет ощущение художественности и сближает с импрессионистской техникой.
Фон: Фоны особенно выразительны и живописны — они насыщены яркими цветами и мягкими цветовыми переходами, что создаёт ощущение движения и глубины. Например, во втором изображении сверху слева фон передает пространство через размытые звёзды и планеты, а в нижнем ряду, первом слева, мягкие цветовые пятна особенно напоминают мазки Моне. Атмосфера создаётся очень поэтичная и эмоциональная.
Цветовая палитра: Использование ярких, насыщенных цветов придаёт сериям энергичность и выразительность. Несмотря на то, что палитра несколько ярче, чем классические пастельные тона Моне, она перекликается с его работами. Особенно в использовании синих, фиолетовых и оранжевых оттенков. Например, в верхнем левом изображении красно-оранжевая гамма динамична, а в нижнем ряду (третье слева) сине-фиолетовые тона ближе к палитре импрессионизма.
Соответствие первоначальной идее
Модель успешно передала котов-космонавтов в космической среде, что полностью соответствует нашему запросу. В серии удалось передать ряд характерных черт импрессионизма — особенно в мягкости фонов, яркости палитры и живописности цветовых переходов. Эти элементы создают атмосферу, близкую к стилю Моне. Образы котов и шлемов выполнены более чётко и графично, что придаёт работам современное звучание и интересное сочетание традиционной живописи с цифровой выразительностью.
Детали генерации
Обучение: Модель обучалась на датасете из 28 изображений (14 котов, 14 картин Моне) с использованием DreamBooth и LoRA. Мы применили 1500 шагов обучения (--max_train_steps=1500), что сократило время обучения до ~2–3 часов на Tesla T4. Единый instance_prompt="a painting of a cat astronaut in a helmet in the style of Claude Monet» объединял стиль и объект, что, вероятно, ослабило влияние стиля Моне, так как модель сосредоточилась на котах. Методы улучшения: Мы использовали параметры --gradient_checkpointing, --use_8bit_adam и --mixed_precision="fp16» для работы на T4 GPU с 15GB VRAM. negative_prompt исключал нежелательные элементы, такие как цветы, чтобы сосредоточиться на котах-космонавтах (в предыдущих сериях были получены цветы).
Обработка исходных данных: Исходные изображения котов-космонавтов изначально включали в себя выразительные космические фоны, что органично усилило и подчеркнуло фантастическую тематику в финальной серии. Благодаря этому, изображения обрели яркую индивидуальность и атмосферу, наполненную звёздной поэзией. Хотя картины Моне в оригинале чаще обращались к природным сюжетам — с полями, садами и водной гладью — их стиль в данной интерпретации был передан в большей степени через настроение, цвет и свет.
Визуальный анализ
Сходства: Все изображения показывают котов-космонавтов в шлемах и скафандрах на космических фонах. Коты имеют схожую цветовую палитру (оранжево-коричневая шерсть) и выражение глаз. Скафандры белые с американскими флагами. Вариации: ◦ Фоны: Различия в фонах заметны. Например, верхний ряд (первое слева) имеет ярко-красный фон с четкими планетами, а верхний ряд (третье слева) — более синий с размытыми звездами. Нижний ряд (второе слева) показывает больше оранжевых и желтых оттенков, с мягкими цветовыми пятнами, напоминающими импрессионизм. ◦ Освещение: В некоторых изображениях (например, верхний ряд, второе слева) освещение более резкое, с яркими отражениями в шлеме, в других (нижний ряд, третье слева) — мягче, с размытым светом.
Текстура котов: В ряде изображений, например в нижнем ряду (второе слева), текстура шерсти кота передана с лёгкой размытостью, что удачно перекликается с импрессионистской манерой. В других работах коты выполнены с большей чёткостью, что придаёт им выразительность и акцентирует внимание на их образе. Такое сочетание живописности и графичности добавляет серии разнообразие и визуальную глубину.
Общий стиль: Визуальная подача серии выстраивается на интересном сочетании — реалистичная детализация котов гармонирует с более мягкими, импрессионистскими фонами. Именно в фонах особенно чувствуется влияние Моне: размытые формы, живописные переходы и воздушная цветовая гамма создают впечатление света и пространства. Образы котов и шлемов, выполненные с большей чёткостью, вносят элемент контраста, придавая работам современное звучание и подчёркивая уникальное взаимодействие классической живописи с цифровой эстетикой. Стиль Моне более выражен в фонах, где имеются размытые текстуры и мягкие переходы цвета. Однако коты и шлемы остаются ближе к цифровой графике, чем к импрессионизму.
Описание процесса обучения
Настройка среды: ◦ Проверили доступность GPU (Tesla T4 с 15GB VRAM) с помощью! nvidia-smi. ◦ Установили зависимости: bitsandbytes, transformers, accelerate, peft, а также последнюю версию библиотеки diffusers через GitHub. ◦ Загрузили скрипт train_dreambooth_lora_sdxl.py от Hugging Face для обучения SDXL с DreamBooth и LoRA.
Подготовка датасета: ◦ Создали директорию monet_astronaut_cat/ для хранения датасета. ◦ Загрузили 28 изображений (14 котов-космонавтов и 14 картин Моне) через files.upload () в Colab. Все изображения были предварительно обрезаны до 512×512 пикселей. В прошлых версиях код был показан ИИ для уточнения непонятных деталей и были внесены правки, чтобы получить нужную серию изображений. Однако в последней удачной версии, остались отсылки к предыдущим по комментариям в выводе пользователю, но попыток уже не было чтобы перезапустить в чистом виде код. ◦ Сгенерировали подписи на основе имен файлов («a painting in the style of Claude Monet» для картин Моне, «a cat astronaut in a helmet» для котов) и использовали их для визуализации первых 6 изображений в сетке (dataset_preview_with_captions.jpg).
Процесс обучения модели
Процесс обучения модели
Обучение: ◦ Использовали скрипт train_dreambooth_lora_sdxl.py с параметрами: 1. --pretrained_model_name_or_path="stabilityai/stable-diffusion-xl-base-1.0»: базовая модель SDXL. 2. --instance_data_dir=»./monet_astronaut_cat»: папка с датасетом. 3. --instance_prompt="a painting of a cat astronaut in a helmet in the style of Claude Monet»: единый промпт, объединяющий стиль и объект. 4. --train_text_encoder: обучали текстовый энкодер для лучшего понимания промпта. 5. --resolution=512: размер изображений. 6. --train_batch_size=1, --gradient_accumulation_steps=4: оптимизация для T4 GPU. 7. --learning_rate=1e-4, --max_train_steps=1500: параметры обучения. 8. --mixed_precision="fp16», --gradient_checkpointing, --use_8bit_adam: оптимизации для работы с ограниченной памятью. 9. --rank=8: параметр LoRA для адаптации модели.
Обучение модели
Генерация: ◦ Использовали StableDiffusionXLPipeline для генерации 10 изображений с промптом:
«prompt = „a painting of a cat astronaut in a helmet in the style of Claude Monet, vibrant colors, impressionistic brushstrokes, soft lighting“ negative_prompt = „low quality, blurry, realistic, modern style“»
Сгенерированные изображения собраны в сетку generated_series.jpg.
Процесс обучения модели
Использование генеративного ИИ (ГенИИ)
•Генеративный ИИ для обучения: Основной генеративный ИИ в проекте — это Stable Diffusion XL (SDXL), которую мы обучали с помощью DreamBooth и LoRA для создания котов-космонавтов в стиле Моне. •Дополнительный ГенИИ: ChatGPT и Grok, использовались для рекомендаций по коду и анализа результатов. Например: 1. Помогал адаптировать код под наши запросы (изменение промптов, консультации по изображениям). 2. Анализировал сгенерированные изображения и объяснял, почему стиль Моне не был достаточно выражен.
•Генерация идеи: Также идея проекта (коты-космонавты в стиле Моне) была моей, но ИИ помогал развивать ее, предлагая способы улучшения (например, разделение данных, уточнение промптов).
Итог
Проект достиг частичного успеха: коты-космонавты в космической среде были сгенерированы, и стиль Клода Моне стал более выраженным по сравнению с предыдущей серией, особенно в фонах, где появились размытые текстуры и мягкие переходы цвета. Однако, коты и шлемы остаются местами слишком четкими для полного соответствия импрессионизму.
Полученный код