Original size 1860x2625

Медузы. Обучение генеративной модели

PROTECT STATUS: not protected
The project is taking part in the competition

Идея

Медуза — необычное и прекрасное существо. У нее нет чёткой формы, она постоянно меняется, как будто «растворяется» в воде. Её сложно зафиксировать: на каждом изображении она выглядит немного по-другому.

Мне стало интересно, как нейросеть будет работать с таким объектом. Обычно модели хорошо справляются с чем-то понятным и стабильным (лица, предметы), но медуза — наоборот, максимально неуловимая.

Original size 726x244

Я поставила себе несколько задач:

  1. обучить модель на изображениях медуз
  2. проверить, сохранится ли узнаваемость объекта
  3. посмотреть, как меняются изображения при генерации

Датасет

Для обучения я собрала набор изображений медуз. Я старалась взять разные варианты: с разным освещение, разной формы, разные цвета.

Но при этом все изображения объединяет одно — ощущение текучести и света. Важно было, чтобы модель не просто копировала одну конкретную медузу, а поняла общий образ.

Original size 1951x1260

Фотографии с открытых фотостоков Unsplash и Pexels

Результат

В итоговой серии представлены изображения медузы, полученные после обучения модели на собранном датасете. Медуза изначально была выбрана как необычный и сложный объект: у неё нет жёсткой геометрии, она полупрозрачная, светящаяся и визуально очень выразительная. В проекте мне было важно посмотреть, сможет ли нейросеть передать эту хрупкость, мягкость формы и ощущение глубины.

Original size 4136x2048
Original size 2065x675

В результате модель достаточно хорошо передала основные характеристики: куполообразную форму, щупальца, мягкость линий и эффект свечения. При этом я специально усиливала яркость и цвет в промптах (использовала слова bright и colorful), чтобы получить более сочные и выразительные изображения. Также я изначально хотела добиться большего разнообразия форм и цветовых решений.

Original size 1350x1350
Original size 3146x1024

Примеры промптов: a photo of ONE big single brigth colorful MEDUZA jellyfish on dark-blue backgraund

a photo of blue brigth colorful MEDUZA jellyfish on black-blue backgraund

a photo of pink brigth colorful MEDUZA jellyfish

Original size 2048x2048
Original size 2068x1024

Изображения в серии отличаются по цвету, степени реалистичности и композиции: где-то медуза выглядит почти как фотография, а где-то — как более абстрактный и декоративный образ.

В итоге серия хорошо отражает исходную идею проекта. Получился набор разных ярких вариаций медуз. Это усиливает ощущение неуловимости: медуза здесь не фиксируется в одной форме, а постоянно меняется, что и было для меня главным в этом проекте.

Обучение

Я обучала модель Stable Diffusion XL с помощью LoRA, используя DreamBooth-скрипт. Такой способ позволяет не переобучать всю модель целиком, а «доучить» её на конкретном объекте — в моём случае на изображениях медузы.

На этом этапе я подготавливала среду: установила библиотеки, подключила инструменты Hugging Face и загрузила готовый скрипт для обучения LoRA на базе Stable Diffusion XL.

Original size 1624x556

На этом этапе я подключила датасет с изображениями медуз. Код автоматически находил папку с файлами, чтобы использовать её как источник данных для обучения.

Original size 1620x416

Это главный этап — запуск обучения.

Модель stable-diffusion-xl-base-1.0 берётся как базовая, а затем дообучается на моём датасете медуз. На основном этапе я запускала обучение LoRA-адаптера для Stable Diffusion XL на своём датасете.

Это главный этап — запуск обучения. Я запускала обучение LoRA-адаптера для Stable Diffusion XL на своём датасете.

В качестве текстовой привязки использовался специальный промпт с ключевым словом MEDUZA, чтобы модель запомнила именно образ медузы и её визуальные признаки.

Параметры обучения (resolution 768, 1000 шагов, learning rate 1e-4) позволили модели быстро зафиксировать общий силуэт и световые характеристики медузы

Original size 1624x874

После обучения я загрузила базовую модель Stable Diffusion XL и подключила к ней полученные LoRA-веса. Это позволило перейти от этапа обучения к генерации новых изображений на основе усвоенного образа медузы.

Original size 1638x1012

На этапе генерации я настраивала силу следования промпту, количество шагов и negative prompt, чтобы уменьшить вероятность нежелательных фонов и визуальных ошибок.

Original size 1618x590

На финальном этапе модель генерировала изображения по заданному промпту. Полученные результаты автоматически выводились на экран и сохранялись как отдельные файлы для дальнейшего отбора и анализа.

Original size 1616x658

Использование ИИ

В процессе работы над проектом я дополнительно использовала ChatGPT. Он помогал мне в решении технических проблем с кодом, а также в более глубоком понимании процесса обучения модели и настройки параметров.

Кроме того, я использовала его для формулировки концепции проекта и текстовой части, чтобы точнее выразить идею и результаты работы.

Медузы. Обучение генеративной модели
Project created at 22.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more