
ИДЕЯ ПРОЕКТА
Вы когда-то думали о том, как бы вы выглядели в том или ином мультфильме? Я задумывалась крайне часто, и когда появились нейросети, мы получили множество возможностей удовлетворить свое любопытство, даже не имея особых навыков рисования.
Некоторое время назад меня очень впечатлил мультфильм «Человек-паук: Через вселенные». Впервые на широкою аудиторию был представлен настолько масштабный проект, сочетающий в себе 2-д и 3-д стилистику разных художников. Восхищение осталось надолго, поэтому я решила посмотреть, как выглядели бы мои знакомые в данном стиле.
Идея перехода между вселенными в самом мультфильме перекликается с моей идеей перехода из реального мира в «мультяшный».
ДАТАСЕТ
Для дообучения Stable Diffusion XL я собрала 18 картинок с персонажами, стараясь отобрать их по принципу максимальной непохожести друг на друга.
Мужские персонажи
Женские персонажи
Для меня важно было собрать фотографии не только в паучьих образах, но и в школьных.
Все же не каждый может бороться со злом!
ОБУЧЕНИЕ НЕЙРОСЕТИ
Алгоритм работы:
1. Моделью BLIP создать исходные промты из датасета
2. Обучить нейросеть на изображениях из датасета
3. Сгенерировать новые изображения в обученной нейросети, используя исходные промты BLIP
Был использован открытый код обучения модели с помощью DreamBooth и LoRA из github по ссылке из предоставленного онлайн-курса. Процесс запуска и работы с кодом происходит пошагово, следуя лекции преподавателя с онлайн-курса.
Работа была выполнена в Colab, а не Kaggle, из-за отсутствия иностранного номера, который был необходим для правильной настройки gpu на сайте. По-моему мнению, Colab вполне удачно справился с поставленной задачей.
Результат работы BLIP
Токен стиля
Настройки обучения модели
РЕЗУЛЬТАТ ОБУЧЕНИЯ
Давайте сравним!










Нейросеть хорошо справляется с генерацией casual-образов для персонажей.
Черты лица и фигуры отличаются.
Нейросеть справляется как с крупным планом, так и с полным ростом.
Понимает разницу запросов в цветах изображения и черт персонажей.


Адаптация от Netflix


С мужскими персонажами нейросеть справилась чуть хуже, но все равно передает некоторые исключительные черты.
Spider version
Нейросеть хорошо считала цветовое решение оригинальной работы.
Есть небольшие проблемы с изображением людей на ярком динамичном фоне.
Нейросеть справляется с изображением нескольких персонажей.
Сохранены основные черты стилистики: крупные глаза, текстуры, сочетание 2-д и 3-д стиля.
ЗАКЛЮЧЕНИЕ
Мои ожидания почти полностью оправдались, всем было очень интересно участвовать в этом проекте.
Теперь, благодаря различным датасетам можно создавать образы в стиле любого мультфильма или черпать вдохновение из созданных нейросетью иллюстраций.