Концепция
В основу идеи данного проекта легла попытка воссоздать стиль французского живописца Клода Моне, одного из основоположников импрессионизма. Его произведения всегда завораживали меня своей воздушностью и техникой, поэтому именно его стиль написания картин и лег в основу концепции.
К. Моне «Belle Île» / К. Моне из серии „Кувшинки“
Однако, помимо характерной техники, важной чертой творчества Моне и других импрессионистов было умение передавать впечатление.
Сможет ли алгоритм нейросети не просто скопировать технику штрихов, но и запечатлеть хрупкие моменты жизни и природы?
К. Моне из серии «Тополя»
На примерах работ Клода Моне я обучила нейросеть Stable Diffusion XL, чтобы проверить это. Получится ли с помощью инструментов искусственного интеллекта передать всю воздушность и мягкость техники Моне, его знаковые образы и то, как художник чувствовал мир вокруг — вот главный вопрос и задача этого проекта.
Подготовка к работе
Для обучения я отобрала пейзажи Клода Моне, так как именно эти работы для меня являются самыми любимыми. Также, на мой взгляд, именно они лучше всего передают технику художник и его способность запечатлеть момент.
Примеры отобранных картин К. Моне
В число выбранных работ вошли такие знаковые произведения как: «Вестминстерский дворец», «Японский мостик», «Дорожка в саду Моне в Живерни», несколько «Кувшинок» из серии «Нимфеи» и многие другие.
Мне было важно, чтобы генерируемые изображения передавали основные черты стиля Клода Моне:
1. Отказ от черного, цветные тени;
2. Рассеянный свет, часто пастельный;
3. Небольшие дробные мазки, легкая небрежность;
4. Оптический эффект смешения с расстояния;
5. Изображение спокойствия, тишины в пейзажах.
Процесс обучения
Перед началом работы я проверила доступность GPU, установила ее как среду выполнения и установила дополнительные библиотеки и функции (torch, glob, accelerate, diffusers и др.)
Я выбрала 17 картин Клода Моне в квадратном формате (1:1) и загрузила их в папку на Google Drive. Внутри блокнота в Google Collab я дала разрешение на доступ к конкретной папке с изображениями.
К. Моне из серии «Тополя» / К. Моне из серии «Кувшинки» / К. Моне «Здание Парламента, грозовое небо»
Для извлечения описания каждой картины, я дополнительно установила модель BLIPP, которая сгенерировала краткую подпись к каждому изображению, которая включала ключевые слова о стиле, палитре и образах.
Затем эти подписи были дополнены единым стилевым префиксом, чтобы во время обучения модель связывала текстовый маркер с визуальными особенностями импрессионизма. Все подписи я собрала в единый файл metadata.jsonl, на основе которого в дальнейшем обучала модель.
painting in Monet style, alley with poplar trees, night time, blue mist, atmospheric perspective
В качестве базовой модели я использовала Stable Diffusion XL, дополнив ее VAE для стабилизации кодировки изображений, так как без него первоначально код выдавал ошибку. Также я использовала LoRA и DreamBooth для оптимизации генерации и экономии памяти. Для обучения указала файл с краткими описаниями и папку с изображениями, а так же основные параметры: разрешение, количество шагов, триггер активации стиля и другие.
Затем я автоматически создала папку с LoRA-весами и сохранила их в нее. Итоговый результат я опубликовала на платформе Hugging Face в публичном репозитории с прилагающимся README, чтобы обученную модель можно было использовать в будущем.
painting in Monet style, poplar trees along river Epte, autumn colors, atmospheric perspective / painting in Monet style, Venice Grand Canal, water reflections, misty atmosphere
После завершения обучения я протестировала работоспособность и сгенерировала для начала 4 изображения, прописав в для них промты со стилевым маркером «painting in Monet style». Я загрузила базовую SDXL, применила к ней мои LoRA-веса и получила изображения, которые мне понравились.
Далее я сгенерировала еще несколько, чтобы получить серию из 15 изображений.
painting in Monet style, rose garden in full bloom, golden hour glow, textured paint
painting in Monet style, water lilies pond at night, soft reflections, blue haze, impressionist brushstrokes / painting in Monet style, cliff at Étretat, Normandy coast, ocean waves, soft palette, loo
В процессе работы я столкнулась с непредвиденной проблемой, на второй день работы Google Collab не подключился к GPU из-за лимитов использования бесплатной версии. Мне пришлось временно переписать код, сместив нагрузку генерации на CPU и уменьшив размер изображений, количество шагов и качество. Однако таким способом генерация одного изображения занимала очень долгое время, а результат был плохого качества. Поэтому в итоге я вырезала эту часть тестирования и просто подождала, пока лимит ля бесплатной версии восстановится и сгенерировал а все изображения с помощью GPU.
Анализ результатов
К. Моне «Дорожка в саду Моне в Живерни» / painting in Monet style, garden in full bloom near house, grean leaves, soft shadows, textured brushstrokes
На мой взгляд, обученная модель смогла достаточно близко воспроизвести стиль оригинальных работ Клода Моне. Нейросеть хорошо научилась создавать мягкие, воздушные пейзажи, использовать мягкий рассеянный свет и цветные тени. Более того, она смогла достаточно качественно воспроизводить главную особенность техники: работы созданы отдельными мазками, которые при рассмотрении с расстояния создают оптический эффект смешения.
Также, нейросеть смогла достаточно качественно уловить впечатления моментов и природное спокойствие. Любопытно также то, что модель также старалась воспроизвести характерную подпись Клода Моне, хотя она получалась нечитаемой.
painting in Monet style, Grand Canal Venice, shimmering water, pastel reflections
Хотя небольшие различия также присутствуют, мазки на картинах Моне все же немного более текстурные. Также, в некоторых генерация нейросеть начинает повторять объекты, и это выдает то, что изображение создано с помощью искусственного интеллекта.
К. Моне из серии «Кувшинки» / painting in Monet style, water lilies pond at sunset, soft impressionist brushstrokes
Итог
Несмотря не некоторые замечания, я считаю, что мне удалось обучить нейросеть создавать пейзажи в стиле Клода Моне и запечатлевать характерное ощущение тишины и спокойствия от его работ.
Итоговые генерации
Вывод
Нейросеть хорошо научилась воссоздавать главные черты художественного стиля и техники Моне, его палитру, а также передавать воздушность и мягкость его работ. Итоговая серия показала, что модель может не только близко воспроизводить знаковые образы, такие как кувшинки и японский мост, но и создавать новые сюжеты по необходимым промтам.
Однако, я считаю, что настоящее искусство и творчество таких знаковых художников, как Клода Моне, нельзя заменить нейросетями. Несмотря на успешное обучение, генеративная модель является скорее любопытным инструментом и помощником для поиска вдохновения, нежели полноценным творцом.
painting in Monet style, poppy field in summer, vibrant colors, loose brushwork
Примеры итоговых генераций
Применение генеративных моделей
Изображения сгенерированы с помощью модели Stable Diffusion XL.
В ходе работы был также использован DeepSeek для написания промтов для генерации изображений. А также Qwen.AI для исправления ошибок в коде и поиска решений, когда я не могла справиться своими силами.