Original size 1882x2657

Обучение нейросети Stable Diffusion в стиле японской фотографии PROVOKE

Концепция проекта

Идея проекта — обучить Stable Diffusion на «Provoke-вдохновлённой» эстетике (are-bure-boke: зернистость, размытость, высокие контрасты, жёсткие ч/б тени). Provoke «Журнал, который был символом контркультуры Японии 60-х» Возглавляемый таким культовым бунтарем как Дайдо Морияма, Provoke был журналом андеграундной фотографии, который подарил антиавторитарную альтернативу послевоенной Японии.

Для этого была собрана база из фотографий представителей этого жанра. Главная идея не копировать фотографии, а создать атмосферу присущую данному течению.

Taki Koji

Дата Сет

Original size 2240x1324

Я собрала достаточно большую базу из 127 изображений. Выборка изображений была разнообразна, чтобы обученная модель могла воспроизводить более сложные сюжеты, при этом оставляя ядро стиля.

Применение генеративной модели

В проекте была использована генеративная модель Stable Diffusion XL для обучения её с помощью Dream Booth и LoRA для генерации изображений в стиле токийской уличной фотографии эры PROVOKE mag. BLIP для генерации промптов к исходникам. Hugging Face для того, дальнейшего обучения модели и её сохранения.

Генерации

Для проверки модели, я попробовала использовать разные пороки действия на промт обученного стиля.

Промт = «photo of young girl eating an watermelon while sitting on concrete photo»

Original size 1024x1024

«giant buddha statue photo»

«Taxi door half-open; a calf steps down; rain needles explode in flash photo»

Original size 1024x1024

«Face turned away; jawline clipped by frame; a tear looks like rain on glass photo "

Original size 1024x1024

«Station platform number painted wrong by a drip; a shoe stops on it photo»

Original size 1024x1024

«close up smiling man mouth photo»

«Two umbrellas colliding at a crosswalk»

«A coin drops into a vending machine, finger still on the button photo»

Original size 1024x1024

«close up rose photo»

Original size 1024x1024

«buddha statue on the background and man in suit standing in front photo»

Original size 1024x1024

«teenage girl in swimsuit sitting on the sand beach coast photo»

Многие фото достаточно хорошо смогли передать атмосферу, на стиль которой, я обучила модель. Порой выходят такие результаты изображения, части из которых выбиваются, и смотрятся странно, тем не менее, большинство результатов соответствуют промту и различимы.

Вывод

У модели обученной под стиль японской уличной фотографии очень хорошо получается изобразить атмосферу, людей, некоторые стилистические решения. Однако, если задавать более сложные промпты или непопулярные для генерации объекты, у модели не очень хорошо выходит создавать сложное изображение.

HuggingFace ссылка

Google Drive

Обучение нейросети Stable Diffusion в стиле японской фотографии PROVOKE

Alisa Vuylova

artificial intelligence

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...