Медузы. Обучение генеративной модели на Mediiia

Идея

Медуза — необычное и прекрасное существо. У нее нет чёткой формы, она постоянно меняется, как будто «растворяется» в воде. Её сложно зафиксировать: на каждом изображении она выглядит немного по-другому.

Мне стало интересно, как нейросеть будет работать с таким объектом. Обычно модели хорошо справляются с чем-то понятным и стабильным (лица, предметы), но медуза — наоборот, максимально неуловимая.

Исходный размер 726x244

Я поставила себе несколько задач:

обучить модель на изображениях медуз
проверить, сохранится ли узнаваемость объекта
посмотреть, как меняются изображения при генерации

Датасет

Для обучения я собрала набор изображений медуз. Я старалась взять разные варианты: с разным освещение, разной формы, разные цвета.

Но при этом все изображения объединяет одно — ощущение текучести и света. Важно было, чтобы модель не просто копировала одну конкретную медузу, а поняла общий образ.

Исходный размер 1951x1260

Фотографии с открытых фотостоков Unsplash и Pexels

Результат

В итоговой серии представлены изображения медузы, полученные после обучения модели на собранном датасете. Медуза изначально была выбрана как необычный и сложный объект: у неё нет жёсткой геометрии, она полупрозрачная, светящаяся и визуально очень выразительная. В проекте мне было важно посмотреть, сможет ли нейросеть передать эту хрупкость, мягкость формы и ощущение глубины.

Исходный размер 4136x2048

Исходный размер 2065x675

В результате модель достаточно хорошо передала основные характеристики: куполообразную форму, щупальца, мягкость линий и эффект свечения. При этом я специально усиливала яркость и цвет в промптах (использовала слова bright и colorful), чтобы получить более сочные и выразительные изображения. Также я изначально хотела добиться большего разнообразия форм и цветовых решений.

Исходный размер 1350x1350

Исходный размер 3146x1024

Примеры промптов: a photo of ONE big single brigth colorful MEDUZA jellyfish on dark-blue backgraund

a photo of blue brigth colorful MEDUZA jellyfish on black-blue backgraund

a photo of pink brigth colorful MEDUZA jellyfish

Исходный размер 2048x2048

Исходный размер 2068x1024

Изображения в серии отличаются по цвету, степени реалистичности и композиции: где-то медуза выглядит почти как фотография, а где-то — как более абстрактный и декоративный образ.

В итоге серия хорошо отражает исходную идею проекта. Получился набор разных ярких вариаций медуз. Это усиливает ощущение неуловимости: медуза здесь не фиксируется в одной форме, а постоянно меняется, что и было для меня главным в этом проекте.

Обучение

Я обучала модель Stable Diffusion XL с помощью LoRA, используя DreamBooth-скрипт. Такой способ позволяет не переобучать всю модель целиком, а «доучить» её на конкретном объекте — в моём случае на изображениях медузы.

На этом этапе я подготавливала среду: установила библиотеки, подключила инструменты Hugging Face и загрузила готовый скрипт для обучения LoRA на базе Stable Diffusion XL.

Исходный размер 1624x556

На этом этапе я подключила датасет с изображениями медуз. Код автоматически находил папку с файлами, чтобы использовать её как источник данных для обучения.

Исходный размер 1620x416

Это главный этап — запуск обучения.

Модель stable-diffusion-xl-base-1.0 берётся как базовая, а затем дообучается на моём датасете медуз. На основном этапе я запускала обучение LoRA-адаптера для Stable Diffusion XL на своём датасете.

Это главный этап — запуск обучения. Я запускала обучение LoRA-адаптера для Stable Diffusion XL на своём датасете.

В качестве текстовой привязки использовался специальный промпт с ключевым словом MEDUZA, чтобы модель запомнила именно образ медузы и её визуальные признаки.

Параметры обучения (resolution 768, 1000 шагов, learning rate 1e-4) позволили модели быстро зафиксировать общий силуэт и световые характеристики медузы

Исходный размер 1624x874

После обучения я загрузила базовую модель Stable Diffusion XL и подключила к ней полученные LoRA-веса. Это позволило перейти от этапа обучения к генерации новых изображений на основе усвоенного образа медузы.

Исходный размер 1638x1012

На этапе генерации я настраивала силу следования промпту, количество шагов и negative prompt, чтобы уменьшить вероятность нежелательных фонов и визуальных ошибок.

Исходный размер 1618x590

На финальном этапе модель генерировала изображения по заданному промпту. Полученные результаты автоматически выводились на экран и сохранялись как отдельные файлы для дальнейшего отбора и анализа.

Исходный размер 1616x658

Ссылка на код

Использование ИИ

В процессе работы над проектом я дополнительно использовала ChatGPT. Он помогал мне в решении технических проблем с кодом, а также в более глубоком понимании процесса обучения модели и настройки параметров.

Кроме того, я использовала его для формулировки концепции проекта и текстовой части, чтобы точнее выразить идею и результаты работы.