Original size 896x1152

Анализ фильмов про Средиземье

The project is taking part in the competition

Описание проекта

big
Original size 2152x1015

С самого детства в нашей семье была традиция смотреть каждую весну «Властелина колец» и «Хоббита». Каждый год мы на целые выходные погружались в мир Средиземья, наблюдали за драконами, путешественниками, обителями эльфов и гномов.

Именно благодаря долгой истории, связанной с данными произведениями, мне захотелось глубже погрузиться в процесс создания фильма. Своё исследование я посвятила изучению данных, основанных на разных аспектах производства фильмов и их наполненности.

big
Original size 2224x1015

Информацию для анализа я брала с сайта kaggle. Там я смогла найти несколько походящих моему исследованию датасетов, которые изучали вопросы производства и системы персонажей в фильмах «Властелин колец» и «Хоббит».

Lord Of The Rings Data: Character and Movie Data Lord Of The Rings Data: Character Descriptions and Dialogue Lord of the Rings Data: Characters В ходе работы с данными я выявила ряд подходящих видов графиков, с помощью которых информацию можно было собрать в более понятный и интересный вид.

Гистограмма Облако частотности слов Круговая диаграмма Линейный график

Коды создавались частично с помощью чата GPT и дополнялись мною в Jupiter Notebook.

Визуальное оформление

post

Визуальное оформление проекта основано на одном из кадров из трилогии «Властелин колец», где эльфийка Галадриэль готовит чашу, чтобы показать Фродо Бэггинсу часть настоящего и будущего.

Мне показалось, что данный фрагмент передаёт атмосферу и философию всего мира Средиземья.

Именно из этого кадра была создана с помощью Adobe Color палитра проекта. В палитру вошли цвета представленные ниже на схеме.

Original size 2275x385
post

Обложка создавалась также на основе кадра из фильма. Нейростеть Leonardo Ai через добавленное фото и промт «Magic atmosphere, lord of the rings, forest» сгенерировала новое изображение.

Блок 1 • Производство фильмов

post

Начать свое исследование я решила с анализа базовой информации о фильмах: бюджет, хронометраж и награды. Мне было интересно выявить некоторые закономерности и неожиданные для себя факты.

С помощью чата GPT я формировала запрос в создании кода-каркаса, на основу которого добавляла необходимые мне параметры. Так я добавляла необходимы данные из дата сетов, меняла логику изображения информации и внешний вид графиков.

Промт каркаса кода 1: Write a code using pandas to create a column chart called «Movie Duration» based on the database from the table at the link https://docs.google.com/spreadsheets/d/1nWGqqFsTgFeLJbmNYOQwoich334KKVjZgSb433dzdQk/edit?gid=1608684857#gid=1608684857, for analysis use a comparison of the Name and Runtime In Minutes columns.

С помощью первого графика мне хотелось выяснить, какая самая длинная по хронометражу картина и как соотносятся объёмы трилогий между собой.

Хотелось бы отметить, что мой интерес к данному сравнению подпитывал факт, что между съёмками двух трилогий прошло около 10 лет и график мог наглядно показать, какая их «эпох» была более масштабная и проработанная.

Original size 2180x1078
Original size 1861x1420
Original size 1856x497
post

Первый график показал, что по сравнению друг с другом фильмы не слишком различаются по длине. Лишь небольшим преимуществом обладает фильм «Властелин колец: Возвращение короля» 2003 г.

Однако при сравнении общего хронометража трилогий «Хоббит» значительно уступает «Властелину колец». Не смотря на то, что первые три фильма о Средиземье были выпущены намного раньше, они были сделаны качественно и более подробно, чем «Хоббит».

Следующий график был создан с помощью похожей конструкции, что и первый, однако в него я добавила ещё один параметр и гистограмма превратилась в двухстолбную. На примере этого графика я изучила зависимость ранее исследованного хронометража от бюджета каждой картины. Для удобства я поместила все параметры в одну систему измерения, чтобы сравнить одновременно и одну часть информации, и вторую.

Оказалось, что зависимость далеко не прямая, а скорее обратная. В трёх частях «Властелина колец» выделенный бюджет колоссально меньше, чем в трилогии «Хоббит», однако в истории про Бильбо Бэггинса намного меньше хронометраж.

Оказалось, что при меньшем бюджете команда, создающая «Властелина колец», смогла отнять больше материала, чем команда «Хоббита».

Промт каркаса кода 2:

Write a code using pandas to create a histogram based on the database from the table at the link https://docs.google.com/spreadsheets/d/1nWGqqFsTgFeLJbmNYOQwoich334KKVjZgSb433dzdQk/edit?gid=1608684857#gid=1608684857. For each movie title from the Name column, create two columns, one based on RuntimeInMinutes information, the second on BudgetInMillions, write the name of the movie above the columns.

Original size 2182x925
Original size 1851x1572
Original size 1860x460
post

Следующим интересным аспектом стало изучение данных о наградах, которые получил каждый фильм. У меня была гипотеза, что с учетом новых технологий и масштаба пиарной компании «Хоббит» должен быть более оценённым, чем «Властелин колец».

Однако по результатам гистограммы, созданной на основе первого кода лишь с небольшими изменениями, можно увидеть, что даже один фильм из трилогии «Властелин колец» собрал больше наград, чем вся новейшая трилогия.

Original size 2183x925
Original size 1845x1506

Так было проведено исследование на основе одного блока базы данных с помощью создания гистограмм. Графики наглядно показали ряд неочевидных закономерностей среди информации о двух трилогиях.

Блок 2 • Герои

post

Следующая база данных дала простор в изучении героев вселенной. Мир Средиземья наполнен разными народами и мне было интересно изучить соотношение героев разных рас в фильмах. Чтобы немного сузить круг исследуемой информации, в данном блоке я использовала только данные по трилогии «Властелин колец».

Для более удобного анализа данных я перешла от гистограммы к круговой диаграмме, потому что именно с помощью неё можно визуально понятно изобразить соотношение разных частей.

С помощью чата GPT я создала каркас кода и дополнила его категориями из базы данных, а также использовала сделанную ранее палитру, чтобы выделить каждый блок.

Промт каркаса кода 3:

Write code to create a pie chart using the information in the table https://docs.google.com/spreadsheets/d/1VOY7Jo11KGbdMRDntd9tvDn43IKWJckd3M-PSeKS2JU/edit?usp=sharing. Compare the data specified in the Race column.

Original size 1221x1257
Original size 1849x1622

Неожиданно для себя я обнаружила, что подавляющее большинство героев из трилогии «Властелин колец» относятся к расе людей. И лишь 28,4% — это хоббиты.

Также для себя отметила, что в использовании круговая диаграмма является более удобной, чем гистограмма.

Блок 3 • Слова

post

В третьем блоке я решила рассмотреть наиболее загадочную для себя часть данных — это слова и реплики героев. Иногда в детстве в шутку считаешь, сколько раз скажешь одно слово за день, а здесь, благодаря собранным данным и кодам, можно выявить то же самое только в отношении героев с экрана. Также в третьем блоке я продолжила изучение данных о трилогии «Властелин колец».

Для анализа слов я использовала новый тип графика — облако частоты слов. Его особенностью является то, что мы невербально за счёт сопоставления размеров шрифтов воспринимаем более значимые (чаще упоминаемые) значения.

Чтобы познакомить программу с новым, более сложным типом оформления данных я использовала специальную строку кода. В ней содержится установка новой библиотеки.

pip install pandas matplotlib wordcloud numpy

Промт каркаса кода 4:

Write code to create a word frequency cloud for words spoken by Gandalf based on the information in the table https://docs.google.com/spreadsheets/d/1AtOniWejjtOLDY6X-1jm_ZVJKoOlwvIbGJmGEmyA6uM/edit?gid=1586291728#gid=1586291728. Analyze which words Gandalf spoke most often. For this analysis, take all the rows in which Gandalf is listed in the first column.

С помощью первого облака я решила изучить главного героя — Фродо Бэггинса. При написании кода я указала, что из обширной базы данных необходимо взять только те значения, которые связаны с его именем.

Original size 1254x671
Original size 1483x1541

Интересным оказалось то, что слово, которое чаще всего произносил Фродо было имя его друга Сэма. Как мне кажется это идеально описывает его как героя, для которого на первом месте стоит не власть (слово связанное с ней это кольцо — ring), а взаимоотношения с людьми.

Далее я решила исследовать точно таким же способом одного из своих любимых героев — Гэндэльфа. В трилогии он часто становился тем, что высказывает разные философские загадки и истины, поэтому было невероятно интересно узнать, из чего состояла его речь.

Каркас кода остался тем же самым, поменялись только некоторые части, которые отсылают программу к данным в таблице.

Original size 1261x671
Original size 1478x1557

Результат, как и в случае Фродо, получился интересным. Самым частым словом Гэндальфа стало «кольцо» — «ring». Это становится не удивительным, если мы вспомним, что именно Гэндальф организует поход с кольцом к вулкану и борьбу с Сауроном. Кольцо становится одним из самым волнующих предметов в его жизни.

post

Последним графиком стал линейный, с его помощью я решила дальше изучить тему слов в трилогии «Властелин колец» и узнать, кто из главных героев говорил больше всего слов и в каких частях.

Перед запуском кода мне также понадобилась дополнительная строка, которая ввела бы новую библиотеку в программу и дала бы корректный результат.

pip install pandas matplotlib

Промт каркаса кода 5:

Write code to create a line graph using the data from this spreadsheet: https://docs.google.com/spreadsheets/d/1egvp7XLLCRJfukQ2JV5ufZIcKJqffsJN1XflgnKxoL0/edit?gid=1759133709#gid=1759133709. Analyze how many words each character spoke in each film: Gandalf, Bilbo, Frodo, Sam, and Aragorn. Analyze the Film, Character, and Words columns.

Original size 1737x856
Original size 1482x1128
Original size 1487x1012

График показал, что Гэндальф преимущественно был самым «болтливым» героев из всей трилогии, но удивительно, что по количеству слов в последней части его обогнал Сэм — простой, добрый хоббит.

Original size 2918x480

Вывод

Анализ данных о мире Средиземья с помощью написания кодов и создания графиков оказался невероятно информативным и интересным процессом.

Оказалось, что «Властелин колец», снятый на 10 лет раньше «Хоббита» получился лучше, по мнению критиков, чем его продолжение, на которое было выделено больше денег.

Также исследование показало, что фэнтезийное пространство вселенной несколько обманчиво и преимущественно в нём обитают и фигурируют люди.

А анализ данных о словах героев обнаружил, что в трилогии «Властелин колец» даже использование лексики связано с характером и целью героя.

Формат работы с информацией через коды и графики помог структурировать прочитанное и сделать его более понятным.

Описание применения генеративной модели

Чат GPT — написание каркасов кода и правок для неработающих кодов.

Adobe Color — генерация палитры на основе изображения.

Leonardo Ai — генерация обложки

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more