Генерация питомца с помощью Stable Diffusion на Mediiia

Идея проекта

Главной целью проекта является обучение Stable Diffusion на генерацию своего персонажа. У меня в качестве персонажа будет выступать домашний котик.

Для этой задачи лучше всего подойдет метод LoRA. Он должен хорошо справиться с маленькими датасетами изображений, быстро учится и не так сильно перегружает бесплатный Google Colab.

Исходный материал

В качестве исходных изображений я взяла фотографии своей кошки, которые сама делала. Были отобраны фотографии в хорошем качестве.

Для дообучения модели был собран датасет из 17 фотографий милого питомца

Процесс обучения

По итогу эта часть выполнялась дольше всего. Используем базовую SD 1.5, она легче всего учится в Колабе, так как ресурсов для обучения мало.

ks — это редкий токен, чтобы модель не путала нашего котика с обычными. max_train_steps=500 это базовое значение. Если котик будет непохожим, можно будет увеличить до 800-1000.

Меня не устроило качество генерации с значением 500, поэтому было несколько попыток получить более-менее хорошую генерацию на 700 вроде неплохо получилось.

Генерации

Каждый из сгенерированных вариантов хорошо отражает особенности питомца, а значит нейросеть успешно запомнила характерные черты

ПРОМПТ «oil painting of ks cat in the style of van gogh»

Единственное, для чего использовался ИИ. Это для решения проблемы с совместимостью библиотек питона, так как постоянно возникали ошибки при установке или импорте. Получилось так, что самая сложная задача — подобрать версию библиотеки, а не обучить модель. ИИ использовался в рамках поисковой системы гугла.

Обученнная модель достаточно хорошо справилась с запоминанием ключевых особенностей домашнего питомца, цвет шерсти, глаза, форма ушек. Но дефекты есть.

Хотя нужно помнить, что модель использовалась небольшая и дообучалась на небольшом наборе данных.

Ноутбук с кодом