Original size 1140x1600

Обучение генеративной модели под стиль мультсериала BoJack Horseman

PROTECT STATUS: not protected

Концепция

Я люблю мультсериал BoJack Horseman, и особенно меня привлекает то, как нарочито детская рисовка сочетается в нём с серьёзными, взрослыми темами.

Мне стало интересно, сможет ли нейросеть уловить такой контраст — визуальную наивность и внутреннюю иронию. Поэтому я решила обучить её стилю Лизы Ханауолт, художницы-постановщицы сериала, чтобы посмотреть, насколько точно она сможет воспроизвести этот особенный вайб в иллюстрациях.

Исходные изображения

Для датасета были подготовлены 40 изображений — кадров из мультсериала — размером 800×800. На многих изображен главный герой в разных обстоятельствах и пейзажах.

big
Original size 1920x614

Но также в датасет были загружены изображения с другими персонажами — как с людьми, так и с антропоморфными животными.

big
Original size 1920x614
big
Original size 1920x614

Процесс обучения

Процесс обучения начался с выбора среды: бОльшую часть времени я работала в Гугл Collab и разбирала код, предоставленный преподавателем, именно там. Но в конечном итоге мощностей Collab не хватило и над итоговым кодом я работала в Kaggle Notebook.

После установки нужных моделей и библиотек, я загрузила подготовленный заранее датасет в Kaggle.

0

Подготовка датасета

Затем я сгенерировала подписи к изображениям с помощью модели BLIP и создала токен на Hugging Face.

Original size 2110x1262

Часть сгенерированных подписей для наглядности

Ну и наконец запустила само обучение.

Original size 2104x990
0

Выгрузка на HuggingFace

Результаты

Для того, чтобы проверить насколько нейросеть уловила стилистику, я генерировала персонажа-лошадь (главного героя), других животных, а также людей.

Также исключительно из соображений интереса я попробовала генерировать изображения без героев: абстракции и пейзажи, чтобы посмотреть, какие черты стиля отразятся в них.

photo collage in bo jack style, cartoon horse standing on a balcony, the city lights blurring / photo collage in bo jack style, horse in a suit crying alone in the rain

Original size 1024x1024

photo collage in bo jack style, TV screen showing a horse watching himself on TV, infinite recursion

Original size 1024x1024

photo collage in bo jack style, a horse character drowning in a pool of wine

photo collage in bo jack style, cartoon horse stares into the mirror, his reflection slightly distorted, neon lights casting a melancholic glow / photo collage in bo jack style, horse in a bar in red

Как можно заметить с генерацией главного героя нейросеть справляется довольно хорошо, она верно уловила его черты и выражения лица. Представленные изображения отражают характер мультсериала.

Однако при генерации других персонажей сериала меня ждало некоторое удивление: их, в отличие от главного героя, нейросеть генерировала далеко не так приближено к оригинальной стилистике.

pink cartoon cat character in a power suit, speaking confidently at a press conference / anthropomorphic golden retriever in a Hawaiian shirt, laughing

Были чуть более удачные примеры, вроде этих собак, однако в целом практика показала, что лучше всего нейросети удается генерация именно главного героя.

Original size 1024x1024

photo collage in bo jack style, a depressed dog in a trench coat walking in the rain

С персонажами-людьми получилась совсем неудачная история: их лица и в целом образы оказались для нейросети совсем непосильной на данном этапе задачей.

Original size 1024x1024

photo collage in bo jack style, cartoon woman stands at a party

Цели научить нейросеть рисовать пейзажи передо мной и не стояло, однако мне было просто интересно, как она интерпретирует мой запрос. Как можно видеть понятия «лес» и «город» нейросеть транслирует через образы людей (все таких же багнутых).

forest / big busy city

Интересной мне показалась абстрактная генерация, хотя конечно здесь мы снова видим бесконечные попытки переработать человеческие фигуры.

Original size 1024x1024

photo collage in bo jack style, a surreal dream sequence with floating objects and neon lights

Заключение

В целом нейросеть уловила атмосферу и настроение оригинального мультсериала. Однако видно, как ей сложно справляться с множеством деталей и проработкой оригинального контента. Поэтому в сгенерированных изображениях много неточностей и «артефактов».

*Для генерации промптов использовался чат GPT

Обучение генеративной модели под стиль мультсериала BoJack Horseman
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more