Original size 1140x1600

Потерянные киноленты: анализ данных

PROTECT STATUS: not protected
The project is taking part in the competition

ВВЕДЕНИЕ

За время существования кинематографа было снято множество фильмов всевозможных жанров и направленности. Однако пока одни картины становятся мировыми хитами, а другие проваливаются в прокате, единицы из них оказываются безвозвратно утерянными. О них вспоминают нечасто, хотя подобные фильмы составляют значимый пласт в истории кино.

Для своего проекта я выбрала данные о более чем 11000 потерянных и редких фильмах с платформы Kaggle. Мне было интересно проследить, существует ли закономерности, приводящие к утрате киноматериалов, и какой прогноз статистически можно дать на будущее. Я работала с линейными, столбчатыми и точечными графиками, круговыми диаграммами с целью проследить динамику в годах, географию производства и паттерны в названиях. Такой подход позволил мне получить наглядную интерпретацию не только общих трендов, но и микроструктур.

ПОДГОТОВКА К РАБОТЕ

Цветовое решение для визуализации данных я получила с помощью платформы coolors.co. Генерируя палитру, мне было важно сделать выбор в пользу тех оттенков, которые отражали бы общую винтажную атмосферу потерянных кинолент.

big
Original size 1600x1200

палитра

Для работы с кодом я выбрала язык программирования Python, в качестве платформы — Google Colab. Перед тем как приступить к написанию кода для каждого из графиков я установила программную библиотеку Pandas, чтобы упростить свой дальнейший опыт взаимодействия с табличными данными. Кроме того, я воспользовалась Matplotlib, чтобы работать с винтажным шрифтом TwilightC вместо стандартного.

Original size 1803x3000

код

ГРАФИКИ

Динамика количества утерянных и редких фильмов по годам — столбчатый график

Original size 1389x590

график № 1

С помощью изучающего столбчатого графика я прослеживаю, сколько фильмов было утеряно в каждом году, начиная с 1912, как первой упомянутой в таблице дате. Самый высокий и низкий показатель выделяю отдельным цветом для наглядности. Используемые статистические методы включают в себя частотный анализ и выявление экстремумов.

0

код графика № 1

Распределение жанров утерянных и редких фильмов — круговая диаграмма

Original size 986x692

график № 2

Далее я отследила фильмы каких жанров чаще всего оказывались утерянными с помощью круговой диаграммы. Это изучающий график, для которого я также применила частотный анализ. Сначала каждому названию жанра на английском языке я присвоила русскоязычный аналог и устранила все неразрывные дефисы, препятствующие корректному отображению. После подсчёта числа фильмов для каждого из жанров я выделила 8 основных самых популярных категорий, а остальные объединила в категорию «Другое», чтобы диаграмма была визуально читаемой.

0

код графика № 2

Динамика количества фильмов: США и другие страны — линейный график

Original size 1389x590

график № 3

Для отслеживания закономерности в потерях между США — центром кинопроизводства — и другими странами, я составила объясняющий линейный график. Я привела все даты выхода фильмов к целочисленному формату и продемонстрировала различия в интенсивности потерь. Метод агрегации данных позволил мне сгруппировать все фильмы с одинаковой страной и датой выхода и привести их к одному общему показателю.

0

код графика № 3

Сложность названий утерянных фильмов по странам — точечный график

Original size 990x598

график № 4

Я визуализировала объясняющий точечный график для исследования соотношения стран-производителей фильмов и длин названий, которые им дают. Этот график также помог бы ответить на вопрос, влияет ли длина названия фильма на его потенциал быть утерянным. Все названия фильмов я преобразовала в строки, а названиям стран присвоила русскоязычный перевод. Топ-страны по числу потерь я вынесла в одну категорию, другие страны сгруппировала во вторую.

0

код графика № 4

ВЫВОД

Визуализация полученных данных показала, что интенсивность потери кинолент во временной шкале неравномерна: для большей части истории кинематографа характерны резкие колебания. Тем не менее, количество потерянных фильмов начинает стремительно снижаться после 1999-го года, что можно связать с развитием технологического прогресса. Хотя статистика демонстрирует, что чаще всего теряются именно драмы, высокий показатель обобщённой категории всех представителей микро-жанров подчёркивает разноплановость утерянных кинолент. Несмотря на то, что США гипотетически могли бы быть лидером по потерям в области кинематографа, исходя из линейного графика, количественный показатель после 1958-го года демонстрирует резкий спад, тем самым опровергая это утверждение. Наконец, чаще всего утерянными становятся ленты с короткими названиями в 3-4 слова.

Исходя из вышесказанного, вероятно, что в будущем с развитием технологий статус «утраченного наследия» будет получать всё меньше фильмов.

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more