
Концепция
В настоящее время аниме стало значимым культурным феноменом, захватив внимание миллионов зрителей по всему миру. Раннее уникальная визуальная эстетика становится узнаваемой по всему миру, несмотря на различные стилистики и подходы разных мангак и анимационных студий. В настоящее время феномен аниме как формы искусства как в киноиндустрии, так и в иллюстрации и визуального повествования рассматривается достаточно серьезно — оно в полной мере отражает культурные изменения нашей эпохи.

Я искренне восхищаюсь данным феноменом анимационной культуры, так как оно оказало на меня и мое творчество огромное влияние. Однако спустя время и множество просмотренных анимационных фильмов и сериалов крайне трудно найти что-то действительно качественное и интересное, то, что вправду вовлечет в свою историю. Данная проблема затронула не только меня, но и множество моих знакомых, некоторые из которых по-настоящему искушенные зрители, ставшие перед проблемой выбора качественного материала.

Для анализа данных я использовала «Anime Recommendations Database» размещенный на сайте Kaggle. Датасет включает в себя информацию о более чем 12 000 произведений (полнометражные аниме, аниме-сериалы, спешелы и другие).
В проекте будут визуализировалы следующие типы диаграмм:
круговая диаграмма столбчатая диаграмма (гистограмма) точечная диаграмма горизонтальная столбчатая диаграмма (гистограмма)

Визуальный стиль графиков вдохновлен пастельной эстетикой аниме: нежные, мягкие цвета, присущие цветам распустившейся сакур и весеннего неба — традиционных символов японской культуры.
Для создания стиля проекта вначале была сгенерирована обложка с помощью инструмента Leonardo.AI. Затем она была обработана в графическом редакторе Adobe Photoshop и далее из нее были извлечены основные цвета, которые далее были использованы как палитра проекта.
Я решила взять шрифт из встроенной библиотеки matplotlib — «Liberation Mono». Он очень напомнил мне стилистику субтитров, которые присутствовали в ретро-аниме сериалах и фильмах.
Обработка данных и визуализация
Перед началом работы требовалось загрузить датасет и три основные библиотеки, необходимые для работы с крупными массивами данных:
Pandas Matplotlib.pyplot Numpy
Далее я начала подготавливать данные для создания круговой диаграммы, которая бы показала процентное соотношение жанров аниме по типу их выпуска — ТВ-сериалы, спешелы, OVA и ONA, музыкальные видео и полнометражные фильмы.
Чтобы создать круговую диаграмму для начала надо было подсчитать количество жанров аниме по типу выпуска: для этого нужно было определить переменные type_anime и anime_count_by_type, внутри которых содержится дата фрейминг столбов «type», соответствующие нужному нам параметру для определения.
Код для создания круговой диаграммы был изучен в базовой библиотеке matplotlib «Pie charts». Диаграмма была увеличена в размере с помощью инструмента Img.Upscaler.
Исходя из результатов, которые получилось визуализировать с помощью круговой диаграммы, можно заметить, что превалирующее число аниме предназначено для выпуска на телевидении в качестве сериалов. Это означает, что с большей вероятностью высокорейтинговые аниме будут относиться к данной группе из-за общего пропорционального количества.
Чтобы построить столбчатую диаграмму, я использовала информацию из базового справочника matplotlib в разделе «Lines, bars and markers». Для начала потребовалось подсчитать количество аниме по жанрам из столбца «genre» и записать это количество в переменную genre_counts.
Благодаря данным, полученным из датасета и визуализированным через столбчатый график, можно увидеть яркий перевес в сторону следующих трех жанров: комедии, экшена и сай-фая. Это означает, что вероятнее всего среди даных трех жанров получится отыскать самые высокорейтинговые аниме.
Затем следует определить количественное соотношение самого популярного количества эпизодов среди аниме. Для этого благодаря раннее использованной функции .nlargest в переменную episodes_count записывается значение, выявляющее топ 10 самых встречающихся количеств эпизодов среди количества тайтлов.
Изучив результат, данные которого были визуализированы в горизонтальной столбчатой диаграмме (гистограмме), стало понятно, что наибольшей популярностью пользуются полнометражные фильмы (один эпизод) и небольшие сериалы в 2 или 12 серий. Вероятнее всего, среди данных тайтлов можно найти самые высокорейтинговые и качественные работы.
Далее следует проанализировать данные конкретных тайтлов и выявить топ 30 произведений исходя из их рейтинга. Для этого я запросила у Chat GPT информацию о том, как выделить 30 ведущих элементов среди 12 000 аниме. Для этого потребовалось использовать функцию .nlargest. Информация о визуализации точечной диаграммы была получена из базового справочника библиотеки matplotlib раздела «Scatter plot».
Исходя из полученных данных, стало очевидно, что приведенные гипотезы подтвердились: самыми высокорейтинговыми тайтлами предстали полнометражные аниме и тв-сериалы в жанре комедии, экшена и приключений.
Заключение
Ссылка на блокнот — https://drive.google.com/drive/folders/1BtMibnHbbm6Im-ne2Rp0ltEoB7YjkKx0?usp=sharing
Ссылка на датасет — https://www.kaggle.com/datasets/CooperUnion/anime-recommendations-database
В данном исследовании использовались следующие генеративные модели:
Chat GPT — обращение с вопросом об использовании новых функций, таких как .nlargest для выделения наибольших элементов в массиве данных. https://chataibot.ru
Leonardo AI — для генерации оригинальной обложки и дополнительных иллюстраций в проекте.
Img.Upscaler — для улучшение качества графиков