Смешной котик на Mediiia

Концепция

Мой проект начался с формулирования ключевого вопроса: может ли нейронная сеть научиться распознавать конкретного персонажа и затем создавать его изображения в различных ситуациях и визуальных сценариях.

Мне стало интересно исследовать возможности генеративных нейросетей не только как инструмента для создания изображений по текстовому описанию, но и как технологии, способной обучаться на примере одного объекта, запоминать его внешний вид и воспроизводить индивидуальные особенности. В качестве такого объекта я выбрал кота, что позволило на практике проверить, насколько точно модель сможет сохранить его узнаваемые черты и передать характерные детали.

Генерации

Серия изображений, полученных в результате обучения нейросети для генерации изображений на основе фотографий моего кота Арчи.

Исходный размер 3152x1024

Промты: «photo in ARCHI style, one cat», «photo in ARCHI style, one cat next to computer», «photo in ARCHI style, one cat next to computer»

Исходный размер 2088x1024

Промпты: «photo in ARCHI style, one cat», «photo in ARCHI style, one cat»

Исходный размер 2088x1024

Промты: «photo in ARCHI style, one cat, on couch», «photo in ARCHI style, one cat, on couch»

Нейросети удалось успешно воспроизвести образ кота и создать несколько различных сюжетов с его участием. На полученных изображениях можно заметить отдельные характерные особенности моего кота, например его выразительные глаза, форму мордочки и особенности окраса, благодаря которым он остаётся узнаваемым в разных сценах.

Разумеется, полученные изображения пока нельзя назвать идеальными: в некоторых случаях заметны искажения анатомии, а также отдельные дефекты в проработке фона и деталей окружения.

Обучение

Обучения нейросети для генерации изображений:

Сбор базы изображений

Исходный размер 560x163

Загрузка изображений

Загрузка базы данных в подходящем формате.
Выбор архитектуры нейросети.

Исходный размер 1303x440

Превью изображений

Настройка параметров обучения (скорость обучения, функция потерь).
Обучение генератора и дискриминатора.

Исходный размер 627x433

Настройка нейронки перед обучением

Визуальная оценка качества полученных изображений, корректировка, если требуется.

Исходный размер 1706x145

Пример: промт и готовое изображение

Вывод

В рамках проекта мне удалось обучить нейросеть распознавать моего кота Арчи и генерировать новые изображения с его участием в разных ситуациях. Модель смогла сохранить его узнаваемые черты и частично передать особенности его поведения и характера. При этом в процессе работы стали заметны типичные ограничения генерации — ошибки в анатомии и деталях фона.

В целом цель проекта была достигнута: эксперимент показал, что даже на основе фотографий одного конкретного персонажа можно обучить нейросеть создавать новые сцены с ним и исследовать возможности персонализированной генерации изображений.

Для генерации промтов был использован ChatGPT.

Ссылка на блокнот