Original size 1140x1600

Анализ данных о лучших ТВ шоу

PROTECT STATUS: not protected
The project is taking part in the competition

Введение

Последнее время я стала чаще смотреть сериалы, и мне стало интересно узнать как они менялись с годами, и что делало их популярными.

В проекте я исследовала: - Зависимость количества сериалов от эпохи; - Как менялась оценка зрителей с годами; - Самые популярные жанры; - Самые популярные сюжеты.

Описание

Для исследования я взяла базу данных с ресурса Kaggle, которая называется «Top 2,000 Highest-Rated Web/TV Series from TMDB». В ней содержится информация о 2000 сериалах, которая включает в себя название (также на родном языке), краткий сюжет, дату выпуска, популярность по шкале TMDB, жанр, рейтинг и др.

В начале работы были импортированы необходимые библиотеки: pandas для работы с данными, matplotlib для визуализации, numpy для числовых операций и matplotlib.patheffects для стилизации текста на графиках. Затем в среде Google Colab был загружен CSV-файл с данными о сериалах, после чего данные были прочитаны в DataFrame. Оформление было сделано в стиле старых ретро экранов и подогнано под обложку проекта.

big
Original size 900x361

Анализ данных

Для начала был выполнен анализ количества сериалов по годам, который показал 15 лет с самым большим количеством сериалов в датасете. Отчётливо видно, что лидирует 2020 год, который пришёлся на разгар пандемии коронавируса, когда почти всё население находилось дома и требовало развлечения.

big
Original size 2074x1182

Также на графике отчётливо видно как постепенно увеличивалось количество сериалов с 2010 по 2020. Если сначала в топ входило 54-57 сериалов, к 2020 году их количество выросло до 173. Такая динамика объясняется ростом технологий, появлением стриминговых сервисов, и, в последствии, пандемии. Однако к 2024 количество уменьшается более чем в 2 раза. Это значит, что рынок перенасытился и интерес к сериалам снизился. Скорее всего в настоящий момент производство ТВ-шоу будет держаться относительно показателей 2024 года.

Original size 2379x1179

Далее я решила более подробно рассмотреть связь рейтинга с годами. Средний рейтинг колеблется в относительно узком диапазоне, преимущественно между 7.50 и 7.80 баллов. Это указывает на то, что качество сериалов, попадающих в исследуемый датасет, не претерпевало радикальных изменений на протяжении десятилетий. В то время, как средний рейтинг 1980х — 1990х держится достаточно высоко, к 2024 году он снижается, достигнув минимума (около 7.50). Это может быть связано с тем же эффектом насыщения, а также с ностальгией: зрители могут критичнее оценивать новые проекты, сравнивая их с классикой.

Original size 1696x1463

Следующим графиком представлен Топ-10 самых популярных жанров. Более четверти всего контента занимает драма, за ней следует комедия. Также предпочтение отдаётся динамичным, мистическим и семейным жанрам. Для меня было удивительным наличие мыльной оперы в графике, но оно показывает, что жанр влился в современную среду. Можно сделать вывод, что зрителю важен и взрослый, строгий жанр, и семейный контент, и нишевые, динамичные произведения вроде экшена, анимации и мистики.

Original size 2014x1481

Продолжая исследование конкретных жанров, был выведен график, показывающих какие жанры преобладали в определённое время. Интерес к драме рос, и также росло её производство с 2000 года. Криминал и мистика — самые быстрорастущие жанры в последнее десятилетие, возможно это связано с непростыми временами для всего мира. Семейные жанры также стабильно растут. Мыльные оперы постоянно снижаются. Рынок движется в сторону сложных и сюжетных жанров при сохранении стабильного семейного контента.

Original size 2372x1331

Наконец, был выведен код для анализа самых часто встречаемых слов в кратком описании сюжетов. Лидерами являются слова жизнь, мир, новый, что напрямую связывает сюжет с темой личной жизни и ценностей. Далее идут слова школа, семья, молодой, которые указывают на связь с молодыми персонажами и аудиторией. И также есть слова друзья, любовь, девочка. Из всех собранных слов можно собрать типичный сюжет сериала: история о молодом человеке или молодой семье, которые сталкиваются с переменами и проблемами в рамках новой обстановки.

Также для большей наглядности было сделано облако слов с помощью collections.counter, wordcloud и matplotlib.

Original size 2381x1548

Заключение

Исследование выявило то, как менялось производство сериалов за последние несколько десятилетий. Многие жанры смешались между собой, но доминирующим остался жанр драмы. Рынок перенасытился сериалами, а зритель стал более искушенным, выбирая более сложных персонажей с тяжелой судьбой, а также длинные сюжетные арки. С уверенностью можно сказать, что в будущем мы будем видеть больше гибридных форматов лучшего качества.

Применение генеративных моделей: 1. DeepSeek Для получения инструкций в кодинге, исправления ошибок, оптимизации кода, стилизации графиков и получения цветовых решений. 2. Gemini 2.5 Flash, встроенный в GoogleColab Для исправления ошибок в коде. 2. Reve Для генерации обложки проекта.

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more