
Выбирая датасет для анализа, я опиралась на собственные интересы и рассматривала данный проект, как возможность узнать что-то новое в любопытной для меня сфере. Прочитав не так много манги, мне захотелось погрузиться в аналитическую составляющую — выявить топ издательств по продаже, определить жанровое разнообразие, рассмотреть целевую аудиторию и так далее. Для этой цели я использовала два датасета, найденных на сайте Kaggle — Best selling manga и Manga. Работа разделена поэтапно на каждый датасет. В качестве графиков я использовала тепловую карту, как отличный способ продемонстрировать градацию, а также круговую и столбчатую диаграммы для наиболее опционального распределения данных. Диаграмма рассеяния использовалась для визуализации зависимости признаков.

Несмотря на чёрно-белое исполнение иллюстраций, я выбрала более красочное цветовое решение, дабы разнообразить графики и подчеркнуть вариативность самой манги.

Импорт библиотек и установка шрифта
Шрифт Arial Narrow довольно привычный и необычный одновременно, его вытянутые формы подчёркивают яркость палитры. Чтобы проверить его, я вывела простой график с заголовком.
Работа с датасетом Best Selling manga
В первую очередь я решила определить самые продаваемы издательства. Для этой цели подходит столбчатая диаграмма, визуализирующая данные по убыванию.
Ожидаемо, самым популярным издательством является корпорация Shueisha, издающая одни из самых популярных журналов манги Weekly Shonen Jump, Young Jump и прочие. За ним следует Kodansha Ltd, выпускающая ежемесячные журналы Nakayoshi и Afternoon, пользующиеся большой популярностью не только в Японии, но и за её пределами.
Затем мне захотелось узнать, как распределены доходы от продаж среди этих издательств, для этого я сгруппировала данные о издательствах и приблизительном объёме продаж и сформировала тепловую карту, чтобы отобразить градацию.
Так, наиболее прибыльными являются издательства, входящие в топ по популярности, а также не менее известная компания Square Enix, которая занимается не только дистрибуцией игр, но и выпуском манги (например, ежемесячный журнал Shonen Gangan). Также примечательно, что вторая по популярности компания Kodansha находится в нижней части шкалы (светло-розовый цвет).
Помимо уже выявленной информации, мне захотелось узнать распределение целевой аудитории. Всего есть 5 типов: кодомо, сёнэн, сёдзё, сэйнэн и дзёсэй. Все они предназначены для разных возрастных категорий и полов. Для визуализации этих данных я использовала круговую диаграмму.
Самым популярным жанром оказался сёнэн, предназначенный для юношей, однако, это неудивительно, так как манга этой категории любима не только подростками, но и взрослыми по всему миру благодаря своему динамичному сюжету. Вторым по востребованности жанром является сэйнен, характеризующийся более спокойным сюжетом и акцентом на психологии, персонажах. Третий в списке — сёдзё, жанр, предназначенный для юных девушек, в основе которого лежат романтические отношения или взаимоотношения между людьми в целом. Акцент также смещён на персонажей.
Дальнейшей целью было выяснить взаимосвязь между количеством томов манги и объёмом продаж. Для этого я использовала диаграмму рассеивания.
По графику можно определить слабую взаимосвязь этих переменных, что говорит о том, что многие читатели предпочитают не только покупку томов, но и чтение в электронном виде. Более того, сами японцы любят приходить в магазин и читать мангу прямо там, не покупая книгу.
Работа со вторым датасетом Manga
Первый датасет представляет информацию лишь о распределении манги по целевой аудитории, поэтому для определения наиболее популярных жанров по сеттингу (например, фэнтези, романтика и прочие) пришлось искать другой датасет. Так, я вновь сформировала тепловую карту для отображения среднего рейтинга каждого жанра.
Наиболее высокую оценку имеет жанр додзинси, представляющий собой любительскую мангу (чаще созданную на основе уже существующих произведений). Также высокие позиции занимают такие жанры как мистика, хоррор и фэнтези, что объясняется их сюжетным многообразием и желанием читателя испытать яркие эмоции от прочтения. Самый низкий рейтинг наблюдается у жанра гарем, суть которого заключается в множестве романтических отношений главного героя.
Заключение
Удовлетворив свой интерес, я обнаружила, что некоторые результаты анализа данных были ожидаемы мной, однако, мне удалось выявить интересные особенности, такие как снижение популярности чтения физических томов манги (оказалось, это свойственно не только для книг), а также результаты занимательного рейтинга жанров манги.
Описание применения генеративной модели
Для создания цветовой палитры использован сайт Adobe Color.
Для генерации изображений применена Leonardo AI модель Flux Dev (промпт для всех изображений и обложки: manga illustration of fantasy world). В качестве референса использовано изображение.
1. https://color.adobe.com/ru/create/color-wheel 2. https://leonardo.ai/