Original size 1140x1600

Анализ данных фанфиков о Гарри Поттере

PROTECT STATUS: not protected
59

Концепция

В рамках исследования я решила проанализировать базу данных с фанфиками про Гарри Поттера, в которой собрана информация о работах с 2004 по 2019 год, опубликованных на специализированном сайте. Текстов в базе данных оказалось около 650 000, что позволило мне делать достаточно широкую выборку. Я очень люблю Гарри Поттера, а еще я читаю и пишу фанфики, поэтому эта тема показалась мне забавной и нетривиальной.

Я скачала БД в хранилище Google Colab и начала анализ. В процессе я столкнулась с рядом проблем, связанных с непроработанной БД, но мне удалось с ними справиться.

Я использовала следующие виды диаграмм:

— гистограмма; — круговая диаграмма; — линейные графики; — точечная диаграмма;

Ресурс с базой данных: https://www.kaggle.com/datasets/nehatiwari03/harry-potter-fanfiction-data/data. Там хранится информация о дате публикации работы, лайках, жанрах, героях и авторе.

Гистограмма

big
Original size 3840x2160

Здесь я сравнила количество публикаций фанфиков по годам. Пик пришелся на 2012 год — год выхода последней части фильмов, который разбил сердца многим фанатам. Как вы видите, далеко не все оказались согласны с таким положением дел, и решили переписать историю по-своему.

big
Original size 3840x2160

Круговая диаграмма

Original size 3840x2160

Далее я решила посмотреть на частоту упоминаний героев в авторских историях. Мне показалось забавным, что два главных героя, Гарри и Гермиона, встречаются в фанфиках чаще всего, а третий из них — Рон Уизли, по частоте едва набирает 4%. Вот что значит непопулярный персонаж.

Original size 3840x2160

Точечная диаграмма

Original size 3840x2160

Здесь я решила проанализировать частоту выхода фанфиков с определенными жанрами. Для меня оказалось неожиданным, что графики получились довольно похожими. Для всех четырех жанров из выборки самым популярным периодом публикации в году оказались июль, август, декабрь и январь. А вот весной и осенью фанфики публиковались куда реже.

Также можно проследить всплески активности в 2010-2011 и, чуть меньший, в 2015 году.

Original size 3840x2160
Original size 3840x2160

Линейный график

Original size 3840x2160

Меня не вполне удовлетворила информация, которую я получила после создания точечных графиков, поэтому я решила создать нечто подобное, но уже с использованием линейных и с тремя жанрами. Картина все еще достаточно схожая, но можно заметить: с период с 2006 по 2007 популярность жанра романтика росла, а жанра ангст —падала. 2006 код оказался очень позитивным для фанатов Гарри Поттера.

Original size 3840x2160

Немного о цветах

Original size 3840x2160

Фотография взята с сайта https://www.wizardingworld.com/

Здесь все просто. Цвета графиков соответствуют четырем факультетам Хогвартса: красный — Гриффендор, желтый — Пуффендуй, зеленый — Слизерин, синий — Когтевран.

Использование нейросетей

В процессе работы я обращалась к нейросетям. Chat GPT помог мне разобраться в трудностях работы с базой данных (она была не совсем корректно прочитана: данные жанров записались как тип float, перед датами и количеством лайков откуда-то взялись пробелы и тп). Примеры промптов я привела ниже. Также я воспользовалась нейросетью Ideogram для создания обложки.

Original size 3840x2160

Заключение

Все микровыводы по графикам я сформулировала выше, поэтому здесь я оставлю мои личные впечатления. Мне было очень интересно делать эту работу, несмотря на частые сложности, возникающие с кодом. Я поняла, что хочу углубиться в изучение анализа данных, и что это может быть очень увлекательным занятием.

Анализ данных фанфиков о Гарри Поттере
59
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more