
Концепция проекта
Цель проекта — исследовать, как великий художник Поль Гоген воспринимал бы современную визуальную составляющую современного мира: поп-культуру, бренды и медиа. Используя генеративную модель Stable Diffusion, я создала серию изображений, в которых узнаваемые образы (в частности, сцены из сериала «Друзья», Человек-паук, банка Coca-Cola, айфон, инфлюенсеры) соединяются с эстетикой постимпрессионизма и индивидуального стиля Гогена.

Жан Поль Гоген стремился к «утраченной подлинности» — к мифическому раю, где жизнь свободна от индустриализации и потребительства. Такой мир художник нашёл для себя на острове Таити.
В проекте «Гоген 2.0» этот нарратив обыгрывается через реалии современного общества: бренды, массовую культуру, цифровую зависимость. В основе концепции моего проекта — диалог между эпохами, где нейросеть становится медиумом, универсальным проводником между Гогеном и XXI веком.
Подготовка к процессу обучения генеративной нейросети Stable Diffusion
Я взяла картины Гогена и обрезала их до размера 512×512 (чем меньше размер — тем быстрее обучается модель). При обучении мне это было важно, так как ресурсы Google Colab ограничены. Когда обрезала картинки, то выделяла в них существенные части, так как 512×512 это квадрат и очевидно, что что-то не войдёт. Работы подобрала разные: портреты, натюрморты, пейзажи.

Для обучения необходимо сгенерировать подписи/промпты для изображений из моего датасета. На этом шаге я выбрала уникальный токен LAFOMIE (мой никнейм) для промптов. Важно было использовать уникальный промпт, который не ассоциируется с Гогеном, так как я хотела обучить нейросеть на изображениях, которые я подобрала сама.
Первая попытка обучения
Я взяла 30-35 картинок. Дообучила ее за «500 шагов» (это параметр обучения, от которого в основном зависит длительность обучения), чтобы посмотреть, работает ли обучение.
На примерах видно, что эта модель неплохо нарисовала темнокожую женщину и пейзажи с животными в стиле Гогена. А вот небоскребы (которых не было в датасете), получаются живописно, но совсем не в стиле художника.
Вторая попытка обучения и итоговый результат
Посмотрела на результаты и решила, что стоит попробовать расширить датасет, так как модель не очень удачно рисовала предметы, которых не было в картинках из датасета. Поэтому далее я подумала, что можно обучить модель подольше (1000 шагов) и запомнить промежуточные состояния модели, чтобы потом посмотреть на результаты для разных стадий обучений (20%, 40%, 60%, 80%, 100%).
В этот раз взяла около 50 картинок. Результат оказался гораздо лучше и качественнее. Более того, стиль становится виден даже на тех предметах, которых нет в датасете (банка колы, айфон, небоскребы и тд), что мне и требовалось получить для создания проекта, чтобы показать работы Поля Гогена ХХI века.
Потом я решила сравнить результаты работы обученных моделей из разных попыток. Как мне кажется, модель, обученная на большем количестве изображений и за большее число шагов выдает результаты намного ближе к стилю и эстетике Гогена.
Еще я сравнила результаты обучения моделей на промежуточных шагах, чтобы отследить развитие модели и их соответствие со стилем Гогена. Получилось, что чем большее количество шагов обучения проходит модель, тем качественнее получается результат.
В заключение хотелось бы отметить, что данный проект исследует не столько возможность сгенерировать изображения в стиле Гогена, сколько возможность изучить, как можно дообучить нейросеть на какой-то стиль/эстетику. Понять, какие в целом есть возможности и ограничения, чтобы в будущем применить в реальной жизни и на реальных проектах.
Все исходные изображения Поля Гогена были взяты с открытой лицензией семейства Creative Commons.