
Описание
Seas of AI-vazovsky — это проект, посвящённый попытке воссоздания стиля и духа картин мариниста Ивана Айвазовского с помощью нейросетевой модели Stable Diffusion. Представленная модель была обучена на десяти реальных картинах Айвазовского, после чего исходя из различных промптов генерировала изображения в его стиле.
Примеры материалов для обучения
Вот примеры реальных картин Ивана Айвазовского, использованных в датасете.
Результат
Как мы можем увидеть, хоть нейросеть и неидеально справляется с такими тонкостями, как формы волн и мелкие детали камней и кораблей, стиль Айвазовского узнаётся в композиции, нежной текстуре воды, неба, а так же в цветовой палитре, достаточно точно воссозданной и приближенной к оригинальным картинам художника.
Блокнот в Google Colab (клик), описание процесса обучения
Модель была обучена как LoRA-надстройка для Stable Diffusion XL 1.0 с использованием скрипта train_dreambooth_lora_sdxl.py из репозитория diffusers. В качестве базовой модели использовалась stabilityai/stable-diffusion-xl-base-1.0, а в качестве варианта VAE — madebyollin/sdxl-vae-fp16-fix. Обучение проходило в mixed precision режиме (fp16) с использованием 8-битного оптимизатора (8-bit Adam) и градиентного накопления (gradient accumulation steps = 3) для уменьшения потребления видеопамяти. Размер батча составлял 2, разрешение изображений — 512×512 пикселей. Обучение проводилось в течение 500 шагов, чекпоинты сохранялись на 250 и 500 шаге. В качестве входных данных использовался локальный датасет изображений без текстовых подписей. Instance prompt, по которому модель связывает визуальный стиль, был задан как «painting of sea in the style of aivazovsky». Модель сохранялась в формате safetensors в директорию cherakshin_style_LoRA, файл итоговых весов — pytorch_lora_weights.safetensors. LoRA может быть загружена и применена через DiffusionPipeline библиотеки diffusers с последующей генерацией изображений по пользовательским промптам.
Описание применения генеративной модели
Модель Stable Diffusion использовалась для генерации изображений. Языковая модель ChatGPT 4o была использована для консультации, а также для редактирования текстовых блоков.