Original size 1144x1640

Анализ рейтинга аниме

PROTECT STATUS: not protected
The project is taking part in the competition

Рубрикатор

• Ведение • Обработка и подготовка данных • Выбор типов визуализаций • Изучающий и объясняющий формат визуализации • Статистические методы, использованные в проекте • Стилизация • Вывод • Использование генеративной модели

Введение

Почему именно эти данные показались интересными

Этот датасет выбран потому, что он отражает массовое мнение пользователей о контенте, а не оценки экспертов. Меня заинтересовал вопрос: насколько жанровые особенности и формат произведения соотносятся с пользовательским рейтингом, и можно ли увидеть паттерны в этих данных. Кроме того, тема аниме хорошо подходит для визуального анализа: жанры, типы и рейтинги легко интерпретируются визуально и дают простор для объясняющих графиков.

Для анализа был выбран открытый датасет, посвящённый аниме, состоящий из двух таблиц:

• основной таблицы с метаданными тайтлов (тип, жанры, количество эпизодов, популярность и др.), • таблицы с пользовательскими рейтингами.

Данные представлены в формате CSV и подходят для программной обработки, так как содержат как числовые, так и категориальные признаки, а также достаточно большой объём наблюдений, чтобы выявлять устойчивые закономерности, а не случайные колебания.

Обработка и подготовка данных

Анализ данных выполнялся в среде Google Colab с использованием Python и библиотеки Pandas.

Работа с данными шла в три этапа:

• сбор и очистка: объединила таблицы и избавился от «мусора» (пустых строк и ошибок в форматах), • обработка категорий: раскрыла сложные списки жанров. Это позволило корректно подсчитать частоту каждого жанра, даже если они шли вперемешку, • обогащение данных: создала удобные категории рейтингов и объединила данные. Это гарантирует точность итоговых графиков, а не статистические ошибки.

Original size 1188x1565

Выбор типов визуализаций

Какие графики были выбраны и почему

Для анализа были использованы разные типы графиков, каждый из которых решает свою аналитическую задачу:

• точечная диаграмма — отражает взаимосвязь между пользовательским рейтингом аниме и его популярностью (количеством пользователей или участников), • столбчатая диаграмма — используется для сравнения средних пользовательских рейтингов между различными типами аниме, • линейный график — иллюстрирует изменение среднего пользовательского рейтинга в зависимости от количества эпизодов, • гистограмма — отображает распределение пользовательских рейтингов по всему датасету, • скрипичная диаграмма — отображает распределение пользовательских рейтингов по жанрам, включая плотность значений, медиану и разброс, • круговая диаграмма — отражает структуру датасета по жанрам или типам аниме в рамках выбранного поднабора данных, • облако слов — визуализирует частоту появления жанров в датасете: размер каждого слова пропорционален количеству упоминаний;

Такой набор позволяет рассмотреть данные с разных сторон: от общей структуры датасета до более глубокого сравнительного анализа.

Изучающий и объясняющий формат визуализации

Каждая визуализация строилась не как иллюстрация «того, что есть», а как инструмент объяснения:

• графики показывают не только средние значения, но и разброс, плотность и выбросы, • используются диапазоны рейтингов, чтобы избежать упрощения сложных распределений, • жанры анализируются как мультикатегориальные признаки, а не как единичные метки;

Этот метод помогает формировать обоснованные заключения, а не ограничиваться лишь поверхностными наблюдениями.

Статистические методы, использованные в проекте

• Слияние и очистка данных: все данные объединены в таблицу с характеристиками аниме и базу пользовательских оценок и некорректные значения. • Преобразование типов: все числовые показатели были приведены к форматам, пригодным для вычислений. • Нормализация категорий: так как у многих тайтлов указано сразу несколько жанров в одной строке, они были разделены их на отдельные записи. Это позволило честно посчитать популярность каждого жанра в отдельности. • Группировка и агрегация: сгруппированы данные по типам контента и жанрам, чтобы рассчитать средние показатели рейтинга и популярности для каждой категории. • Сегментация: выделен отдельный пласт «высокорейтингового аниме» (8+), чтобы детально изучить структуру жанров именно у топовых проектов. • Частотный анализ: были подсчитаны упоминания жанров и тегов, что легло в основу визуализации их востребованности.

Стилизация

Все визуализации были стилизованы не стандартными настройками Python, а через код:

• изменена цветовая палитра, • задан единый фон и сетка, • настроены подписи осей и заголовки, • соблюдён единый визуальный ритм между графиками.

Цель стилизации — сделать графики частью единого визуального повествования, а не разрозненными техническими иллюстрациями.

Original size 1024x248

Эти цвета были выбраны потому, что они позволяют совместить аналитическую строгость и визуальную выразительность. Светлый бежевый фон создаёт нейтральную основу для восприятия данных, синий и циановый подчёркивают структурность и цифровую природу анализа, а фиолетовые, жёлтые и розовые акценты добавляют ассоциации с аниме-культурой и эмоциональной стороной пользовательских оценок, не перегружая визуальное восприятие.

График 1

Original size 1272x678
Original size 849x556

График позволяет оценить, существует ли корреляция между популярностью и качеством восприятия контента. Видно, что высокая популярность не всегда гарантирует высокий рейтинг: встречаются как популярные, но средне оценённые тайтлы, так и менее массовые, но высоко оценённые произведения. Это подчёркивает, что пользовательский рейтинг формируется не только за счёт охвата аудитории.

График 2

Original size 1680x730
Original size 838x593

График наглядно демонстрирует различия между форматами. Некоторые типы аниме стабильно получают более высокие оценки, что может быть связано с особенностями производства, целевой аудиторией или длительностью формата. Диаграмма позволяет быстро сравнить категории и выявить лидеров и аутсайдеров.

График 3

Original size 1088x934
Original size 838x556

Можно проследить общую тенденцию и заметить, что увеличение количества эпизодов не приводит к линейному росту рейтинга. В некоторых диапазонах рейтинг стабилизируется или даже снижается, что может указывать на эффект «перегруженности» или снижение качества в слишком длинных проектах.

График 4

Original size 1032x628
Original size 854x556

График позволяет понять, какие значения рейтинга встречаются чаще всего, и оценить форму распределения. Видно, что большинство тайтлов концентрируется в среднем рейтинговом диапазоне, а крайне низкие и крайне высокие оценки встречаются значительно реже. Это даёт представление об общей структуре пользовательских оценок.

График 5 и 6

Скрипичная диаграмма позволяет сравнить не только средние рейтинги жанров, но и характер распределения оценок. Некоторые жанры демонстрируют более узкий и стабильный диапазон рейтингов, в то время как другие отличаются большим разбросом и наличием выбросов. Это подчёркивает различия в восприятии жанров аудиторией.

В то время как круговая диаграмма позволяет увидеть, какие жанры или форматы количественно доминируют, а какие представлены в меньшей степени. Она используется не для анализа зависимостей, а для демонстрации состава и баланса данных, что важно учитывать при интерпретации остальных графиков.

График 7:

Original size 1236x832
Original size 1097x559

Облако слов даёт быстрый интуитивный обзор тематического наполнения датасета. Сразу становятся заметны доминирующие жанры, которые формируют основную часть контента, а также менее распространённые направления. Этот график используется как инструмент первичного исследования данных.

Использование генеративной модели

В процессе работы использовались нейросети: ChatGPT — для проверки корректности логики обработки данных. Sora: генерация обложки и создание цветовой палитры. Kaggel: поиск датасета.

Вывод

В рамках проекта был проведён анализ пользовательских рейтингов аниме с использованием программных методов обработки данных и объясняющей визуализации. Разные типы графиков позволили рассмотреть данные с нескольких уровней: от общей структуры датасета до сравнительного анализа жанров и форматов.

Исследование показало, что пользовательский рейтинг формируется под влиянием множества факторов и не сводится к популярности или формату произведения. Жанры отличаются не только средними оценками, но и характером распределения рейтингов, что подчёркивает сложность пользовательского восприятия контента.

Проект демонстрирует, как данные могут использоваться не только для получения числовых выводов, но и как материал для визуального исследования и аналитического повествования.

Анализ рейтинга аниме
Confirm your ageProject contains information not suitable for individuals under the age of 18
I am already 18 years old
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more