Original size 1140x1600

Soft Forms

PROTECT STATUS: not protected
The project is taking part in the competition

01 Концепция

Мой проект посвящён исследованию визуального стиля bubble design. Основная задача заключалась в создании нейросетевой модели, которая способна воспроизводить не только форму объектов, но и их материальные свойства.

Мне было важно, чтобы модель понимала:

  1. глянец поверхности
  2. мягкие тени
  3. световые блики
  4. ощущение «надутости» и объёма

Таким образом, проект направлен на изучение того, может ли нейросеть усвоить визуальную логику материала, а не только форму объектов.

02 Исходные изображения

big
Original size 3000x726

Для обучения модели был собран датасет из 30 изображений, выполненных в эстетике bubble design. В него вошли как абстрактные формы, так и более прикладные объекты — 3D-буквы, логотипы и надувные скульптуры. При отборе изображений я ориентировалась не столько на сюжет, сколько на разнообразие визуальных характеристик материала и формы.

Для обучения использовались изображения из открытых источников с допустимыми лицензиями.

big
Original size 2487x1229
big
Original size 3746x1229

Основное внимание уделялось передаче свойств поверхности. В датасет были включены изображения с различной степенью глянца — от мягкого рассеянного блеска до ярко выраженных зеркальных отражений. Это позволило зафиксировать, как свет ведёт себя на «пластиковой» или силиконовой поверхности и как формируются характерные блики.

Отдельно учитывалась форма объектов. Были выбраны изображения с различными типами объёмов: от простых сфер и каплевидных элементов до более сложных, переплетённых и деформированных структур. Важно было показать не только «идеальный шар», но и вариативность мягких, надувных форм, которые меняют силуэт, но сохраняют общую логику пластичности.

Original size 2979x1483

03 Процесс обучения модели

После подготовки датасета я перешла к обучению модели. В качестве базовой архитектуры использовалась модель Stable Diffusion v1.5, позволяющая генерировать изображения на основе текстовых описаний.

Original size 1590x268

Для реализации обучения была использована библиотека diffusers от Hugging Face, а также дополнительные инструменты transformers, accelerate, bitsandbytes и xformers. Эти библиотеки обеспечивают работу с диффузионными моделями, ускорение вычислений и оптимизацию обучения.

Original size 1590x332

Для адаптации модели под выбранный визуальный стиль был использован подход DreamBooth в сочетании с технологией LoRA (Low-Rank Adaptation). Такой метод позволяет дообучать модель, не изменяя её полностью, а добавляя небольшие обучаемые веса, что делает процесс более быстрым и эффективным.

Original size 1590x262

В процессе обучения был введён специальный триггер-токен — bubblestyle, который использовался в текстовых запросах. Этот токен позволяет активировать обученный стиль и связывает текстовое описание с визуальными характеристиками bubble design.

Original size 1590x262

Перед запуском обучения были заданы основные параметры и подготовлены директории для хранения датасета и результатов. Данные размещались в отдельной папке, что позволило корректно передать их в обучающий скрипт.

Original size 1590x454

Обучение проводилось с использованием скрипта train_dreambooth_lora.py, который реализует подход DreamBooth с поддержкой LoRA. Были заданы ключевые параметры: разрешение 512×512, размер батча — 1, скорость обучения — 1e-4, количество шагов — 500, а также фиксированный seed для воспроизводимости.

Original size 1590x568

Несмотря на относительно небольшое количество шагов, модель продемонстрировала стабильное обучение. В процессе наблюдалось снижение функции потерь, что свидетельствует о том, что модель успешно усвоила основные визуальные характеристики стиля — глянцевость, мягкие отражения и объём.

Original size 1590x256

04 Результаты генераций

Original size 2047x669
Original size 2047x669
Original size 2047x669
Original size 2047x672
Original size 2047x673
Original size 2061x669

04 Комментарий результатов

В результате обучения была получена модель, способная воспроизводить визуальный стиль bubble design и адаптировать его к различным типам изображений — от абстрактных форм до более предметных и типографических решений.

Несмотря на относительно небольшой объём датасета и ограниченное количество шагов обучения, модель продемонстрировала устойчивость стиля, хорошую вариативность и визуальную выразительность. Это говорит о том, что даже при ограниченных ресурсах возможно обучить модель, способную не просто воспроизводить отдельные изображения, а усваивать и применять визуальную логику материала.

В сгенерированных изображениях отчётливо прослеживаются ключевые характеристики bubble design: глянцевые поверхности, мягкие переходы света и тени, округлые формы и выраженные блики. При этом стиль сохраняется независимо от содержания изображения, что указывает на успешное отделение визуального языка от конкретных объектов датасета.

Можно наблюдать различия в акцентах генерации: в одних изображениях модель фокусируется на форме и силуэте объектов, создавая более графичные композиции, в других — на передаче материала, уделяя внимание отражениям, прозрачности и световым эффектам. Это демонстрирует гибкость модели и её способность по-разному интерпретировать один и тот же стиль.

Отдельно важно отметить вариативность результатов: при изменении текстовых запросов модель создаёт различные композиции, сохраняя при этом единые стилистические признаки. Это подтверждает, что стиль был усвоен как система визуальных характеристик, а не как набор зафиксированных образов.

Среди ограничений можно выделить тенденцию к упрощению сложной геометрии: при генерации более детализированных или нестандартных форм модель иногда сглаживает структуру объектов. Тем не менее, даже в этих случаях сохраняются ключевые признаки материала — глянец, мягкость и характер освещения.

Таким образом, результаты демонстрируют, что модель успешно усвоила не только форму, но и материальность объектов, что было основной задачей проекта.

05 Описание применения генеративной модели

В проекте использовалась генеративная модель Stable Diffusion v1.5, дообученная с применением подхода DreamBooth и технологии LoRA (Low-Rank Adaptation).

На основе подготовленного датасета была обучена LoRA-модель, позволяющая воспроизводить характерные особенности визуального стиля bubble design и переносить их на новые объекты и сцены.

Обучение и генерация изображений осуществлялись с использованием библиотеки diffusers от Hugging Face, а также инструментов transformers, accelerate, bitsandbytes и xformers, обеспечивающих эффективную работу с диффузионными моделями и оптимизацию вычислений.

В качестве среды разработки использовалась платформа Google Colab, что позволило выполнять обучение модели и генерацию изображений без необходимости локальной настройки вычислительных ресурсов.

Для активации обученного стиля в процессе генерации применялся специальный триггер-токен «bubblestyle», связывающий текстовое описание с визуальными характеристиками, усвоенными моделью.

Дополнительно генеративный искусственный интеллект использовался на этапе разработки проекта для: — подбора и уточнения текстовых промптов — анализа визуальных результатов — формулирования текстового описания проекта

Используемая модель: Stable Diffusion v1.5 https://github.com/huggingface/diffusers

Soft Forms
Project created at 24.03.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more