
Введение
Последнее время я стала чаще смотреть сериалы, и мне стало интересно узнать как они менялись с годами, и что делало их популярными.
В проекте я исследовала: - Зависимость количества сериалов от эпохи; - Как менялась оценка зрителей с годами; - Самые популярные жанры; - Самые популярные сюжеты.
Описание
Для исследования я взяла базу данных с ресурса Kaggle, которая называется «Top 2,000 Highest-Rated Web/TV Series from TMDB». В ней содержится информация о 2000 сериалах, которая включает в себя название (также на родном языке), краткий сюжет, дату выпуска, популярность по шкале TMDB, жанр, рейтинг и др.
В начале работы были импортированы необходимые библиотеки: pandas для работы с данными, matplotlib для визуализации, numpy для числовых операций и matplotlib.patheffects для стилизации текста на графиках. Затем в среде Google Colab был загружен CSV-файл с данными о сериалах, после чего данные были прочитаны в DataFrame. Оформление было сделано в стиле старых ретро экранов и подогнано под обложку проекта.

Анализ данных
Для начала был выполнен анализ количества сериалов по годам, который показал 15 лет с самым большим количеством сериалов в датасете. Отчётливо видно, что лидирует 2020 год, который пришёлся на разгар пандемии коронавируса, когда почти всё население находилось дома и требовало развлечения.

Также на графике отчётливо видно как постепенно увеличивалось количество сериалов с 2010 по 2020. Если сначала в топ входило 54-57 сериалов, к 2020 году их количество выросло до 173. Такая динамика объясняется ростом технологий, появлением стриминговых сервисов, и, в последствии, пандемии. Однако к 2024 количество уменьшается более чем в 2 раза. Это значит, что рынок перенасытился и интерес к сериалам снизился. Скорее всего в настоящий момент производство ТВ-шоу будет держаться относительно показателей 2024 года.
Далее я решила более подробно рассмотреть связь рейтинга с годами. Средний рейтинг колеблется в относительно узком диапазоне, преимущественно между 7.50 и 7.80 баллов. Это указывает на то, что качество сериалов, попадающих в исследуемый датасет, не претерпевало радикальных изменений на протяжении десятилетий. В то время, как средний рейтинг 1980х — 1990х держится достаточно высоко, к 2024 году он снижается, достигнув минимума (около 7.50). Это может быть связано с тем же эффектом насыщения, а также с ностальгией: зрители могут критичнее оценивать новые проекты, сравнивая их с классикой.
Следующим графиком представлен Топ-10 самых популярных жанров. Более четверти всего контента занимает драма, за ней следует комедия. Также предпочтение отдаётся динамичным, мистическим и семейным жанрам. Для меня было удивительным наличие мыльной оперы в графике, но оно показывает, что жанр влился в современную среду. Можно сделать вывод, что зрителю важен и взрослый, строгий жанр, и семейный контент, и нишевые, динамичные произведения вроде экшена, анимации и мистики.
Продолжая исследование конкретных жанров, был выведен график, показывающих какие жанры преобладали в определённое время. Интерес к драме рос, и также росло её производство с 2000 года. Криминал и мистика — самые быстрорастущие жанры в последнее десятилетие, возможно это связано с непростыми временами для всего мира. Семейные жанры также стабильно растут. Мыльные оперы постоянно снижаются. Рынок движется в сторону сложных и сюжетных жанров при сохранении стабильного семейного контента.
Наконец, был выведен код для анализа самых часто встречаемых слов в кратком описании сюжетов. Лидерами являются слова жизнь, мир, новый, что напрямую связывает сюжет с темой личной жизни и ценностей. Далее идут слова школа, семья, молодой, которые указывают на связь с молодыми персонажами и аудиторией. И также есть слова друзья, любовь, девочка. Из всех собранных слов можно собрать типичный сюжет сериала: история о молодом человеке или молодой семье, которые сталкиваются с переменами и проблемами в рамках новой обстановки.
Также для большей наглядности было сделано облако слов с помощью collections.counter, wordcloud и matplotlib.
Заключение
Исследование выявило то, как менялось производство сериалов за последние несколько десятилетий. Многие жанры смешались между собой, но доминирующим остался жанр драмы. Рынок перенасытился сериалами, а зритель стал более искушенным, выбирая более сложных персонажей с тяжелой судьбой, а также длинные сюжетные арки. С уверенностью можно сказать, что в будущем мы будем видеть больше гибридных форматов лучшего качества.
Применение генеративных моделей: 1. DeepSeek Для получения инструкций в кодинге, исправления ошибок, оптимизации кода, стилизации графиков и получения цветовых решений. 2. Gemini 2.5 Flash, встроенный в GoogleColab Для исправления ошибок в коде. 2. Reve Для генерации обложки проекта.