
Концепция
Я люблю мультсериал BoJack Horseman, и особенно меня привлекает то, как нарочито детская рисовка сочетается в нём с серьёзными, взрослыми темами.
Мне стало интересно, сможет ли нейросеть уловить такой контраст — визуальную наивность и внутреннюю иронию. Поэтому я решила обучить её стилю Лизы Ханауолт, художницы-постановщицы сериала, чтобы посмотреть, насколько точно она сможет воспроизвести этот особенный вайб в иллюстрациях.
Исходные изображения
Для датасета были подготовлены 40 изображений — кадров из мультсериала — размером 800×800. На многих изображен главный герой в разных обстоятельствах и пейзажах.

Но также в датасет были загружены изображения с другими персонажами — как с людьми, так и с антропоморфными животными.


Процесс обучения
Процесс обучения начался с выбора среды: бОльшую часть времени я работала в Гугл Collab и разбирала код, предоставленный преподавателем, именно там. Но в конечном итоге мощностей Collab не хватило и над итоговым кодом я работала в Kaggle Notebook.
После установки нужных моделей и библиотек, я загрузила подготовленный заранее датасет в Kaggle.
Подготовка датасета
Затем я сгенерировала подписи к изображениям с помощью модели BLIP и создала токен на Hugging Face.
Часть сгенерированных подписей для наглядности
Ну и наконец запустила само обучение.
Выгрузка на HuggingFace
Результаты
Для того, чтобы проверить насколько нейросеть уловила стилистику, я генерировала персонажа-лошадь (главного героя), других животных, а также людей.
Также исключительно из соображений интереса я попробовала генерировать изображения без героев: абстракции и пейзажи, чтобы посмотреть, какие черты стиля отразятся в них.


photo collage in bo jack style, cartoon horse standing on a balcony, the city lights blurring / photo collage in bo jack style, horse in a suit crying alone in the rain
photo collage in bo jack style, TV screen showing a horse watching himself on TV, infinite recursion
photo collage in bo jack style, a horse character drowning in a pool of wine


photo collage in bo jack style, cartoon horse stares into the mirror, his reflection slightly distorted, neon lights casting a melancholic glow / photo collage in bo jack style, horse in a bar in red
Как можно заметить с генерацией главного героя нейросеть справляется довольно хорошо, она верно уловила его черты и выражения лица. Представленные изображения отражают характер мультсериала.
Однако при генерации других персонажей сериала меня ждало некоторое удивление: их, в отличие от главного героя, нейросеть генерировала далеко не так приближено к оригинальной стилистике.


pink cartoon cat character in a power suit, speaking confidently at a press conference / anthropomorphic golden retriever in a Hawaiian shirt, laughing
Были чуть более удачные примеры, вроде этих собак, однако в целом практика показала, что лучше всего нейросети удается генерация именно главного героя.
photo collage in bo jack style, a depressed dog in a trench coat walking in the rain
С персонажами-людьми получилась совсем неудачная история: их лица и в целом образы оказались для нейросети совсем непосильной на данном этапе задачей.
photo collage in bo jack style, cartoon woman stands at a party
Цели научить нейросеть рисовать пейзажи передо мной и не стояло, однако мне было просто интересно, как она интерпретирует мой запрос. Как можно видеть понятия «лес» и «город» нейросеть транслирует через образы людей (все таких же багнутых).


forest / big busy city
Интересной мне показалась абстрактная генерация, хотя конечно здесь мы снова видим бесконечные попытки переработать человеческие фигуры.
photo collage in bo jack style, a surreal dream sequence with floating objects and neon lights
Заключение
В целом нейросеть уловила атмосферу и настроение оригинального мультсериала. Однако видно, как ей сложно справляться с множеством деталей и проработкой оригинального контента. Поэтому в сгенерированных изображениях много неточностей и «артефактов».
*Для генерации промптов использовался чат GPT