
Концепция проекта
За основу идеи проекта я взяла творчество одного из моих любимых художников — Винсента Ван Гога.
Вспоминая полученные эмоции во время посещения одного из арт пространства, посвящённого картинам Ван Гога, мне захотелось поэкспериментировать с нейросетями и посмотреть, как алгоритм сможет преобразовать современные фото под стиль легендарного художника и по промпту «нарисовать» новые картины.

Фото с выставки «Ван Гог. Ожившие полотна». 2025 год

Полученное изображение после обучения нейросети: интерпретация фотографии Times Square в Нью-Йорке под стиль Ван Гога
Обучение нейросети

Исходные изображения для обучения нейросети
Я обучала нейросеть Stable Diffusion XL base-1.0 на основе картин Ван Гога создавать изображения в его стиле.
В качестве датасета использован датасет boryanagm/van-gogh-style-dataset с платформы huggingface. В нём представлены картины художника. На google colab с помощью модуля datasets загружен этот датасет, и из него взяты первые 100 изображений:
Для начала каждому изображению из датасета генерируется описание через библиотеку BLIP и создаётся JSONL файл с описаниями:
Затем начинается обучение модели через accelerate run с установленными гиперпараметрами:
Обученная модель загружается на huggingface в мой аккаунт. С помощью индивидуального токена для подключения это выполнено прямо в google colab:
На вход модели подаётся промт из текста, на выходе мы получаем изображение:
Полученные генерации
Получившиеся изображения выглядят как реальные работы, написанные рукой Ван Гога. Благодаря тому, что нейросеть обучалась на ста референсных изображениях, генерации выглядят так, будто все они выполнялись в разных техниках, со своей особенностью мазка и манеры класть краску на холст.
Модель отлично распознала характерные особенности «почерка» художника, создав «живые» картины, практически точные копии оригинального стиля в техническом плане.
Например, Ван Гог использовал смелые и выразительные цвета, чтобы передать какую-то эмоцию и настроение. В данном случае это контрастные оттенки для создания глубины, динамики и акцентов (как на втором изображении).
Что интересно, нейросеть обучилась придавать лицам людей характерные черты, свойственные манере Ван Гога.
Например, одной из особенностей в портретах, написанных данным художником, является добавление каких-то символов и объектов, подчёркивающих настроение модели, её личностные черты.
На первой генерации это собака на руках мальчика, на втором — парадный костюм военного, украшенного различными орденами. Это даёт нам возможное объяснение тому, почему у мужчины на этой картине такой тяжёлый, суровый взгляд.
Вывод
В целом, полученный результат показывает, насколько удачно модель обучилась копировать характерные особенности «почерка» Ван Гога: это и динамичные витиеватые мазки, и контрастные цвета, и своеобразный стиль портрета, и создание сложных динамичных композиций с глубиной планов и т. д.
В процессе обучения нейросети не возникло сложностей, и это, я думаю, связано с тем, что датасет состоял из сотни изображений, что позволило модели качественно обучиться для выполнения поставленной задачи.
Описание применения генеративной модели
В ходе создания проекта использовалась стандартная библиотека для работы с нейросетями pytorch и библиотека для работы с генеративными моделями diffusers, из которой отдельно были загружены модули для пайплайна диффузионной модели и автоенкодера.
1. Stable Diffusion XL Base 1.0 Ссылка на модель генерации изображений https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0
2. BLIP image captioning base by Salesforce Ссылка на модуль генерации текстовых описаний к изображениям https://huggingface.co/Salesforce/blip-image-captioning-base
3. Diffusers Ссылка на библиотеку для работы с генеративными моделями SDXL и LoRA https://github.com/huggingface/diffusers.git
Дополнительные материалы
1. Ссылка на датасет картин Ван Гога: https://huggingface.co/datasets/boryanagm/van-gogh-style-dataset
2. Ссылка на файл .ipynb: https://colab.research.google.com/drive/1x4lUckUmrF6lhrD1JZ-DevUhaSQL921e#scrollTo=SNt9Kwd_W_Nt