Original size 2480x3500

Популярность ≠ качество

PROTECT STATUS: not protected
The project is taking part in the competition

«The Movies Dataset» (метаданные TMDB) — большой и достаточно «живой» набор данных о фильмах: в нём есть не только названия и даты релиза, но и жанры, зрительские оценки, число голосов, показатели популярности, а также финансовые метрики (бюджет и сборы). Мне было интересно взять именно эти данные, потому что в кино часто расходятся два понятия: популярность (что обсуждают и что массово смотрят) и качество/восприятие (насколько зрителям действительно понравилось). За счёт объёма и разнообразия признаков этот датасет хорошо подходит для анализа таких различий и поиска закономерностей.

В этом проекте я анализирую фильмы на основе movies_metadata.csv из Kaggle (The Movies Dataset). В ходе работы данные были очищены и подготовлены для анализа: я привела типы столбцов к корректным (даты и числа), выделила год релиза, обработала жанры и рассчитала взвешенный рейтинг, который учитывает не только среднюю оценку, но и количество голосов (чтобы отделить «случайно высокий рейтинг» от устойчивого). Далее я визуализировала результаты с помощью разных типов графиков (распределение рейтингов, сравнение жанров, связь бюджета и сборов, динамика по годам). Такой анализ позволяет увидеть, как связаны оценки, популярность и коммерческий успех, и сделать выводы о том, где «успех» действительно совпадает с «качеством», а где — нет.

Цель визуализации: объяснить различие между рейтингом, популярностью и коммерческим успехом. Выбранные виды графиков: 1. Гистограмма рейтингов Почему: показать распределение и «типичную» оценку, а не отдельные примеры. 2. Столбчатая диаграмма (горизонтальная) + доверительные интервалы: жанры vs взвешенный рейтинг Почему: сравнение групп + честно показываем неопределённость. 3. Линейный график по годам: медианный рейтинг и количество релизов Почему: тренды/динамика во времени.

Обработка данных

- загрузка CSV в Pandas - удаление дубликатов - приведение типов: дата/числа - фильтрация строк без ключевых полей (год, оценка, число голосов)

big
Original size 1113x337

Жанры хранятся строкой в формате JSON‑подобного списка.

Original size 1102x403

Статистическая идея проекта: «взвешенный рейтинг»

Фильм с 10 голосами и оценкой 9.5 нельзя сравнивать напрямую с фильмом с 50 000 голосов и оценкой 8.1. Использован IMDb‑style weighted rating: - R — vote_average - v — vote_count - C— средняя оценка по датасету - m — порог голосов (в проекте: 90‑й перцентиль)

Original size 1102x280

Стилизация графиков (единый стиль)

Цель стилизации: сделать консистентную «редакционную» инфографику: светлый фон, воздух, один акцентный цвет, аккуратные подписи. Что сделано кодом: - единый фон и сетка - палитра (accent + нейтральные) - единые размеры, шрифты - сохранение графиков в PNG для презентации

Original size 1105x256

Использование нейросетей

Я использовала ChatGPT как помощник: - чтобы собрать план анализа и список подходящих графиков - чтобы продумать единый стиль визуализации (палитра, сетка, подписи) - чтобы сделать структуру презентации и формулировки выводов

Примеры промптов (можно вставить 2–4 штуки): - «Предложи 4–6 разных типов графиков для анализа TMDB, чтобы был data‑story.» - «Сделай светлый редакционный стиль для matplotlib: фон, сетка, цвета, шрифт, сохранение PNG.» - «Как корректно сравнивать фильмы с разным числом голосов? Предложи метрику и объяснение для презентации.» - «Сгенерируй структуру презентации: вводная, этапы, методы, выводы.»

График 1: Гистограмма рейтингов

Original size 1965x1162

- Большинство фильмов имеют рейтинг в узком диапазоне. - Среднее и медиана близки, поэтому «типичный» фильм оценивают примерно одинаково. - Это объясняет, почему для сравнения важнее дополнительные факторы (жанр, число голосов, популярность).

График 2: Жанры и взвешенный рейтинг + 95% CI

Original size 1962x1162

- Средний взвешенный рейтинг различается между жанрами. - Доверительные интервалы показывают, что разница не всегда «абсолютна»: есть перекрытия. - Визуально это честнее, чем просто ранжировать жанры по среднему значению.

График 3: Бюджет vs сборы

Original size 1956x1162

- В среднем больший бюджет связан с большими сборами, но разброс огромный. - Лог‑шкала нужна, потому что распределение денег крайне неравномерно (редкие блокбастеры). - Вывод: инвестиции повышают «потолок», но успех не гарантирован.

График 4: Динамика по годам

Original size 1963x1162

- Количество фильмов по годам меняется сильнее, чем медианный рейтинг. - Рынок расширяется/сжимается, но оценки остаются относительно стабильными. - Для выводов о «качестве эпохи» важно учитывать, что меняется объём выпуска.

Корреляции Spearman

Original size 1526x1165

- vote_count и popularity обычно связаны сильнее, чем рейтинг и касса. - Spearman выбран как устойчивый к выбросам и нелинейным зависимостям.

Ссылки на ноутбук и датасет

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more