Обучение нейросети в стиле художника Robert Valley на Mediiia

Описание идеи

Robert Valley (далее — Роберт Вэлли) — художник, известный созданием нескольких серий для антологии «Love, Death&Robots», мультсериала «Трон: Восстание», а также короткометражного мультфильма «Грушевый сидр и сигареты». Во всех этих произведениях с легкостью читается авторский визуальный стиль Роберта Вэлли. Меня всегда восхищала способность художника растягивать пропорции персонажей, при этом не лишая их анатомической достоверности. Чтобы повторить стиль Роберта Вэлли нужно иметь многолетний опыт рисования, знаний анатомии и пропорций, а также длительная практика, так что у меня самой даже близко не получалось воссоздать рисунки, похожие на работы Р. Вэлли. Эта проблема натолкнула меня попробовать обучить нейросеть рисовать в стиле этого художника и выяснить, способна ли она повторить сложные визуальные приемы из оригинальных работ, выявить и соблюсти принципы рисования выбранного мной художника?

Исходные изображения

Исходная серия изображений для обучения представляет из себя сет из 47 рисунков художника и скриншотов из перечисленных ранее мультфильмов. Для загрузки в нейросеть все изображения были переведены в квадратный формат с помощью экшнов в программе Adobe Photoshop. Это было необходимо, так как при автоматическом кадрировании большинство важных деталей оказывались за границами изображения.

Процесс обучения

Исходный размер 614x426

Обучение нейросети проводилось в Google Colab с помощью кода с курса. Каких-то кардинальных изменений на данном этапе не было, но так как GPU очень быстро кончалось из-за неудачных попыток, большинство генераций делалось в отдельном блокноте, для этого я воспользовалась кодом интеграции модели в Google Colab со страницы моего проекта на сайте HuggingFace.

Исходный размер 1434x302

Итоговая серия изображений

prompt: portrait of blonde girl in a club, two big eyes, holding a sparkling drink in her arms

Первые сгенерированные в модели картинки поразили меня качеством стилизации. Нейросеть действительно справилась со сложными приёмами и верно исказила пропорции персонажей. На всех представленных картинках можно заметить уместные градиентные тени и черные заливки, которые часто применяет Роберт Вэлли, а также стройные угловатые силуэты с тонкими руками. Даже фон изображений очень похож на то, как Роберт Вэлли рисует ночной город и блики света. Меня впечатлило, как нейросеть справилась со структурой лиц у персонажей: ставила тени и блики на переходах между гранями лица, при этом учитывая сложную форму головы, расстановку черт лица, создавая очень четкую и читаемую иллюстрацию. Даже такая едва заметная деталь, как изменения толщины контура, реализовалась с успехом: это особенно заметно на волосах персонажей, где очень четко разделяются пряди, присутствует блик в нужном месте.

prompt [1]: portrait of cool cowboy in a hat riding a horse in city lights // prompt [2]: a gangster riding a fast horse through the night lights

Прежде всего обучение нейросети было нацелено на последующее создание изображений с персонажами-людьми, но я попыталась сгенерировать и ковбоя верхом на лошади. Результаты меня тоже порадовали, ведь с выбранным стилем даже столь «кривой» силуэт животного выглядит как нестандартное стилистическое решение и игра с пропорциями: такая характерна художнику.

prompt[1]: a group of girls sitting by the pool in summer // prompt [2]: a group of 2 girls sitting by the pool in summer

Вот так нейросеть справляется с многофигурными композициями. В промпте я специально задавала такую задачу, чтобы посмотреть, насколько цельным и адекватным выйдет изображение. Порой, получалось месиво из летающих голов и тел, но при более точном указании количества человек на картинке стало получаться довольно понятное изображение. Оптимальным я выделила 25-50 шагов генерации, результат выходит в целом очень похож на те случаи, когда задавалось 1000 шагов (но в такой ситуации чаще на картинке случался хаос из деталей, что не очень подходит моему желаемому стилю, где всё должно быть графично и четко).

Исходный размер 1024x1024

prompt: blackskinned man cyborg on a plain blue backgroung, no other faces on a picture

prompt: a boy in swimsuit flowing in water depths, no other objects

По какой-то причине нейросеть не захотела запоминать ярко-оранжевую и ярко-синюю палитру в некоторых работах Роберта Вэлли, но она всё же явно реализует изображения с остальными цветами, которые часто встречались в исходном сете: болотно-зелёный, красно-розовый и синий. Чаще всего сгенерированные картинки выходят зеленоватыми.

prompt [1]: a girl in an elegant long dress with stylish haircut // prompt [2]: black-skinned man holding a bouqet of rose flowers with a serious face

Конечно, нейросеть не идеально справляется с отрисовкой предметов, которых не было в изначальном сете. Например, я задала в промпте изобразить букет цветов, и на итоговом изображении эта деталь заметно выбивается из общего визуала. Тем не менее, букет явно выполнен с соблюдением основных принципов стиля: четкие контуры, черные заливки вместо теней. И, конечно же, на всех изображениях присутствуют сильные проблемы с отрисовкой кистей рук. На этом моменте появляется очень много артефактов, от которых нельзя избавиться. Причиной этому может быть как недостаток исходников с разными позами рук, так и общее неумение нейросетей реализовывать столь сложный объект.

Ссылки на код и HuggingFace

Ноутбуки с кодом: https://drive.google.com/drive/folders/1R5dFAwCsuZ-Fo224v6pvpgBlwkgn-TSM?usp=sharing Модель на HuggingFace: https://huggingface.co/risuyu/robertvalleyart_style_LoRA