
Концепция
В рамках исследования я решила проанализировать базу данных с фанфиками про Гарри Поттера, в которой собрана информация о работах с 2004 по 2019 год, опубликованных на специализированном сайте. Текстов в базе данных оказалось около 650 000, что позволило мне делать достаточно широкую выборку. Я очень люблю Гарри Поттера, а еще я читаю и пишу фанфики, поэтому эта тема показалась мне забавной и нетривиальной.
Я скачала БД в хранилище Google Colab и начала анализ. В процессе я столкнулась с рядом проблем, связанных с непроработанной БД, но мне удалось с ними справиться.
Я использовала следующие виды диаграмм:
— гистограмма; — круговая диаграмма; — линейные графики; — точечная диаграмма;
Ресурс с базой данных: https://www.kaggle.com/datasets/nehatiwari03/harry-potter-fanfiction-data/data. Там хранится информация о дате публикации работы, лайках, жанрах, героях и авторе.
Гистограмма

Здесь я сравнила количество публикаций фанфиков по годам. Пик пришелся на 2012 год — год выхода последней части фильмов, который разбил сердца многим фанатам. Как вы видите, далеко не все оказались согласны с таким положением дел, и решили переписать историю по-своему.

Круговая диаграмма
Далее я решила посмотреть на частоту упоминаний героев в авторских историях. Мне показалось забавным, что два главных героя, Гарри и Гермиона, встречаются в фанфиках чаще всего, а третий из них — Рон Уизли, по частоте едва набирает 4%. Вот что значит непопулярный персонаж.
Точечная диаграмма
Здесь я решила проанализировать частоту выхода фанфиков с определенными жанрами. Для меня оказалось неожиданным, что графики получились довольно похожими. Для всех четырех жанров из выборки самым популярным периодом публикации в году оказались июль, август, декабрь и январь. А вот весной и осенью фанфики публиковались куда реже.
Также можно проследить всплески активности в 2010-2011 и, чуть меньший, в 2015 году.
Линейный график
Меня не вполне удовлетворила информация, которую я получила после создания точечных графиков, поэтому я решила создать нечто подобное, но уже с использованием линейных и с тремя жанрами. Картина все еще достаточно схожая, но можно заметить: с период с 2006 по 2007 популярность жанра романтика росла, а жанра ангст —падала. 2006 код оказался очень позитивным для фанатов Гарри Поттера.
Немного о цветах
Фотография взята с сайта https://www.wizardingworld.com/
Здесь все просто. Цвета графиков соответствуют четырем факультетам Хогвартса: красный — Гриффендор, желтый — Пуффендуй, зеленый — Слизерин, синий — Когтевран.
Использование нейросетей
В процессе работы я обращалась к нейросетям. Chat GPT помог мне разобраться в трудностях работы с базой данных (она была не совсем корректно прочитана: данные жанров записались как тип float, перед датами и количеством лайков откуда-то взялись пробелы и тп). Примеры промптов я привела ниже. Также я воспользовалась нейросетью Ideogram для создания обложки.
Заключение
Все микровыводы по графикам я сформулировала выше, поэтому здесь я оставлю мои личные впечатления. Мне было очень интересно делать эту работу, несмотря на частые сложности, возникающие с кодом. Я поняла, что хочу углубиться в изучение анализа данных, и что это может быть очень увлекательным занятием.