Идея проекта

Главной целью проекта является обучение Stable Diffusion на генерацию своего персонажа. У меня в качестве персонажа будет выступать домашний котик.
Для этой задачи лучше всего подойдет метод LoRA. Он должен хорошо справиться с маленькими датасетами изображений, быстро учится и не так сильно перегружает бесплатный Google Colab.
Исходный материал
В качестве исходных изображений я взяла фотографии своей кошки, которые сама делала. Были отобраны фотографии в хорошем качестве.

Для дообучения модели был собран датасет из 17 фотографий милого питомца
Процесс обучения
По итогу эта часть выполнялась дольше всего. Используем базовую SD 1.5, она легче всего учится в Колабе, так как ресурсов для обучения мало.
ks — это редкий токен, чтобы модель не путала нашего котика с обычными. max_train_steps=500 это базовое значение. Если котик будет непохожим, можно будет увеличить до 800-1000.
Меня не устроило качество генерации с значением 500, поэтому было несколько попыток получить более-менее хорошую генерацию на 700 вроде неплохо получилось.
Генерации


Каждый из сгенерированных вариантов хорошо отражает особенности питомца, а значит нейросеть успешно запомнила характерные черты
ПРОМПТ «oil painting of ks cat in the style of van gogh»
Единственное, для чего использовался ИИ. Это для решения проблемы с совместимостью библиотек питона, так как постоянно возникали ошибки при установке или импорте. Получилось так, что самая сложная задача — подобрать версию библиотеки, а не обучить модель. ИИ использовался в рамках поисковой системы гугла.
Обученнная модель достаточно хорошо справилась с запоминанием ключевых особенностей домашнего питомца, цвет шерсти, глаза, форма ушек. Но дефекты есть.
Хотя нужно помнить, что модель использовалась небольшая и дообучалась на небольшом наборе данных.













