
Концепция проекта
Идея проекта — обучить Stable Diffusion на «Provoke-вдохновлённой» эстетике (are-bure-boke: зернистость, размытость, высокие контрасты, жёсткие ч/б тени). Provoke «Журнал, который был символом контркультуры Японии 60-х» Возглавляемый таким культовым бунтарем как Дайдо Морияма, Provoke был журналом андеграундной фотографии, который подарил антиавторитарную альтернативу послевоенной Японии.
Для этого была собрана база из фотографий представителей этого жанра. Главная идея не копировать фотографии, а создать атмосферу присущую данному течению.
Taki Koji
Дата Сет
Я собрала достаточно большую базу из 127 изображений. Выборка изображений была разнообразна, чтобы обученная модель могла воспроизводить более сложные сюжеты, при этом оставляя ядро стиля.
Применение генеративной модели
В проекте была использована генеративная модель Stable Diffusion XL для обучения её с помощью Dream Booth и LoRA для генерации изображений в стиле токийской уличной фотографии эры PROVOKE mag. BLIP для генерации промптов к исходникам. Hugging Face для того, дальнейшего обучения модели и её сохранения.
Генерации
Для проверки модели, я попробовала использовать разные пороки действия на промт обученного стиля.
Промт = «photo of young girl eating an watermelon while sitting on concrete photo»
«giant buddha statue photo»
«Taxi door half-open; a calf steps down; rain needles explode in flash photo»
«Face turned away; jawline clipped by frame; a tear looks like rain on glass photo "
«Station platform number painted wrong by a drip; a shoe stops on it photo»
«close up smiling man mouth photo»
«Two umbrellas colliding at a crosswalk»
«A coin drops into a vending machine, finger still on the button photo»
«close up rose photo»
«buddha statue on the background and man in suit standing in front photo»
«teenage girl in swimsuit sitting on the sand beach coast photo»
Многие фото достаточно хорошо смогли передать атмосферу, на стиль которой, я обучила модель. Порой выходят такие результаты изображения, части из которых выбиваются, и смотрятся странно, тем не менее, большинство результатов соответствуют промту и различимы.
Вывод
У модели обученной под стиль японской уличной фотографии очень хорошо получается изобразить атмосферу, людей, некоторые стилистические решения. Однако, если задавать более сложные промпты или непопулярные для генерации объекты, у модели не очень хорошо выходит создавать сложное изображение.