Original size 2480x3500

Обучение генеративной нейросети под стиль картин Ван Гога

PROTECT STATUS: not protected
5

Концепция проекта

За основу идеи проекта я взяла творчество одного из моих любимых художников — Винсента Ван Гога.

Вспоминая полученные эмоции во время посещения одного из арт пространства, посвящённого картинам Ван Гога, мне захотелось поэкспериментировать с нейросетями и посмотреть, как алгоритм сможет преобразовать современные фото под стиль легендарного художника и по промпту «нарисовать» новые картины.

big
Original size 900x600

Фото с выставки «Ван Гог. Ожившие полотна». 2025 год

big
Original size 3500x1759

Полученное изображение после обучения нейросети: интерпретация фотографии Times Square в Нью-Йорке под стиль Ван Гога

Обучение нейросети

big
Original size 3126x1280
Original size 3500x1064
Original size 3500x944

Исходные изображения для обучения нейросети

Я обучала нейросеть Stable Diffusion XL base-1.0 на основе картин Ван Гога создавать изображения в его стиле.

В качестве датасета использован датасет boryanagm/van-gogh-style-dataset с платформы huggingface. В нём представлены картины художника. На google colab с помощью модуля datasets загружен этот датасет, и из него взяты первые 100 изображений:

Original size 629x531

Для начала каждому изображению из датасета генерируется описание через библиотеку BLIP и создаётся JSONL файл с описаниями:

Original size 755x278

Затем начинается обучение модели через accelerate run с установленными гиперпараметрами:

Original size 760x452

Обученная модель загружается на huggingface в мой аккаунт. С помощью индивидуального токена для подключения это выполнено прямо в google colab:

Original size 617x110

На вход модели подаётся промт из текста, на выходе мы получаем изображение:

Original size 1052x1225

Полученные генерации

Original size 3500x1125

Получившиеся изображения выглядят как реальные работы, написанные рукой Ван Гога. Благодаря тому, что нейросеть обучалась на ста референсных изображениях, генерации выглядят так, будто все они выполнялись в разных техниках, со своей особенностью мазка и манеры класть краску на холст.

Original size 2311x1125

Модель отлично распознала характерные особенности «почерка» художника, создав «живые» картины, практически точные копии оригинального стиля в техническом плане.

Например, Ван Гог использовал смелые и выразительные цвета, чтобы передать какую-то эмоцию и настроение. В данном случае это контрастные оттенки для создания глубины, динамики и акцентов (как на втором изображении).

Original size 2311x1125

Что интересно, нейросеть обучилась придавать лицам людей характерные черты, свойственные манере Ван Гога.

Например, одной из особенностей в портретах, написанных данным художником, является добавление каких-то символов и объектов, подчёркивающих настроение модели, её личностные черты.

На первой генерации это собака на руках мальчика, на втором — парадный костюм военного, украшенного различными орденами. Это даёт нам возможное объяснение тому, почему у мужчины на этой картине такой тяжёлый, суровый взгляд.

Вывод

В целом, полученный результат показывает, насколько удачно модель обучилась копировать характерные особенности «почерка» Ван Гога: это и динамичные витиеватые мазки, и контрастные цвета, и своеобразный стиль портрета, и создание сложных динамичных композиций с глубиной планов и т. д.

В процессе обучения нейросети не возникло сложностей, и это, я думаю, связано с тем, что датасет состоял из сотни изображений, что позволило модели качественно обучиться для выполнения поставленной задачи.

Описание применения генеративной модели

В ходе создания проекта использовалась стандартная библиотека для работы с нейросетями pytorch и библиотека для работы с генеративными моделями diffusers, из которой отдельно были загружены модули для пайплайна диффузионной модели и автоенкодера.

1. Stable Diffusion XL Base 1.0 Ссылка на модель генерации изображений https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

2. BLIP image captioning base by Salesforce Ссылка на модуль генерации текстовых описаний к изображениям https://huggingface.co/Salesforce/blip-image-captioning-base

3. Diffusers Ссылка на библиотеку для работы с генеративными моделями SDXL и LoRA https://github.com/huggingface/diffusers.git

Дополнительные материалы

1. Ссылка на датасет картин Ван Гога: https://huggingface.co/datasets/boryanagm/van-gogh-style-dataset

2. Ссылка на файл .ipynb: https://colab.research.google.com/drive/1x4lUckUmrF6lhrD1JZ-DevUhaSQL921e#scrollTo=SNt9Kwd_W_Nt

Обучение генеративной нейросети под стиль картин Ван Гога
5
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more