Original size 1750x2625

Анализ крипипаст

PROTECT STATUS: not protected

Вводная часть

Для данного проекта был выбран датасет, содержащий более 3500 крипипаст (коротких хоррор-историй, публикуемых в интернете). Для каждой крипипасты в датасете указаны название, рейтинг, жанровые категории и тематические теги, дата публикации и примерное время прочтения. Помимо этого, в датасете присутствует полный текст каждой крипипасты, что позволяет анализировать структуру самих историй и повторяющиеся приёмы.

Я выбрала именно эту тему для анализа, поскольку крипипасты можно считать своеобразной формой современного фольклора, в котором отражены коллективные страхи, тревожные образы и нарративные мотивы.

Ввиду того, что датасет достаточно подробно характеризует каждую крипипасту и содержит как жанровые, так и количественные показатели, он позволяет перейти от субъективного восприятия крипипаст к их сравнительному анализу. Это даёт возможность проследить, какие типы историй получают более высокие рейтинги, как меняется популярность жанров со временем и как соотносятся тематические теги с рейтингом.

Для анализа жанров и тематических тегов были выбраны столбчатые диаграммы, так как они наглядно показывают, какие мотивы и категории встречаются чаще всего. Такой тип визуализации позволяет сразу увидеть доминирующие темы и сопоставить их между собой.

Линейные графики используются для анализа публикаций по годам, поскольку крипипасты тесно связаны с интернет-культурой и её изменениями во времени. Данный тип графика позволяет проследить, как меняется интерес к жанру со временем.

Для изучения пользовательских рейтингов применяются гистограммы, которые помогают понять, какие оценки являются типичными, а какие встречаются реже. Это важно для выявления стандартного уровня восприятия крипипасты, а также зафиксировать отклонения от него.

Точечные диаграммы использованы для анализа связи между рейтингом крипипасты и её характеристиками (например, время прочтения или теги). Такой подход позволяет проверить, какие факторы могут влиять на восприятие истории читателями или же популярность определяется прежде всего атмосферой.

Этапы работы

В первую очередь необходимо было подготовить окружение и подключить нужные библиотеки. В проекте использован pandas для загрузки и обработки таблицы, numpy для вспомогательных вычислений, matplotlib и seaborn для построения графиков. Дополнительно был подключен matplotlib.font_manager для установки шрифта в визуализациях.

Original size 960x640

Подключение библиотек

Далее я загрузила датасет, лежащий на Google Drive рядом с блокнотом с кодом. После этого был задан полный путь к файлу creepypastas.xlsx, расположенному в папке проекта на диске, а дальше датасет был загружен в DataFrame с помощью pd.read_excel ().

После импорта данных была выполнена первичная очистка. Сначала удалены лишние пробелы в названиях колонок, затем все строковые столбцы приведены к строковому типу и очищены от пробелов по краям. После этого пустые значения и технические маркеры (» «, „nan“, „None“) были заменены на NaN, чтобы пропуски корректно учитывались в дальнейшем анализе и не возникало ошибок в коде.

Original size 1770x976

Импорт датасета и первичная очистка

Следующим этапом стала настройка единого визуального стиля графика, были подключены шрифты (заголовочный и наборный). Заголовочный шрифт подбирался под настроение проекта, а наборный был подобран так, чтобы обеспечить хорошую читаемость.

Шрифты были зарегистрированы в matplotlib через font_manager.

Original size 2048x864

Импорт и подключение шрифтов

Финальным этапом стала стилизация графиков. В качестве базовой темы использовалась тёмная тема библиотеки seaborn с помощью функции sns.set_theme (style="dark»). Через словарь plt.rcParams.update () были вручную переопределены цвета осей, цвета текста, подписей осей и делений.

Для удаления лишних декоративных элементов была создана вспомогательная функция clean_axes (), которая скрывает верхнюю и правую рамки осей с помощью ax.spines[].set_visible (False), задаёт нейтральный цвет для оставшихся осей и отключает сетку через ax.grid (False).

Отдельно была реализована функция set_title (), отвечающая за оформление заголовков. Текст заголовка автоматически приводится к верхнему регистру с помощью text.upper (). Дополнительно используется параметр bbox, с помощью которого была отрисована плашку за заголовком, что повышает читаемость текста на тёмном фоне.

Original size 2480x1750

Стилизация графиков

Визуализация данных в проекте использовалась как инструмент изучающего и объясняющего анализа.

Работа с датасетом начиналась с изучения его структуры и основных характеристик, после чего отдельные аспекты выносились в визуальную форму, что позволило перейти к анализу конкретных закономерностей. Использование различных типов графиков дало возможность сопоставить между собой группы историй и наглядно продемонстрировать, какие характеристики чаще всего связаны с более высоким откликом аудитории.

В ходе анализа использовались методы описательной статистики. Сначала подсчитывалось, как часто встречаются разные жанры и теги крипипаст, а также как меняется количество публикаций со временем. Для числовых показателей (рейтинг и время прочтения) рассматривалось их распределение и типичные значения. Кроме того, с помощью визуализаций анализировалась связь между рейтингом истории и её длиной.

Итоговые графики

0

Столбчатая диаграмма. Количество крипипаст в каждой категории

Столбчатая диаграмма показывает, что в крипипастах чаще всего встречаются категории, связанные с паранормальными существами и необъяснимыми явлениями, так как наибольшее количество историй приходится на Beings and Entities и Strange and Unexplained.

Заметно меньшую долю занимают истории о смертях, убийствах и исчезновениях, которые формируют промежуточную группу по частоте.

Категории, связанные с психологическими заболеваниями, локациями и объектами, встречаются реже, что позволяет сделать вывод о том, что крипипасты чаще строятся вокруг конкретных необъяснимых фигур и событий, нежели вокруг среды или предметов, выступающих в роли вторичного фона повествования.

0

Линейный график. Количество публикаций крипипаст по годам

Этот линейный график отражает изменение количества опубликованных крипипаст по годам и позволяет проследить динамику интереса к жанру.

Заметно, что активность публикаций распределена неравномерно и имеет периоды роста и спада, что может быть связано с общими изменениями в интернет-культуре и популярности формата коротких хоррор историй.

0

Гистограмма. Распределение рейтинга крипипаст

Это позволяет говорить о наличии условного типичного уровня восприятия крипипаст читателями и использовать его как точку отсчёта для анализа отклонений и более необычных историй.

Гистограмма показывает, что большинство крипипаст получает достаточно высокие оценки. Основная масса сосредоточена в диапазоне примерно от 7 до 9 баллов, тогда как низкие оценки почти не встречаются. Это говорит о том, что читатели в целом положительно воспринимают публикуемые истории, а низко оценённые тексты составляют совсем маленькую часть датасета. Таким образом, можно выделить условный средний уровень качества историй, относительно которого уже можно выделить как более сильные, так и более слабые истории.

0

Точечная диаграмма. Зависимость времени прочтения от оценки истории

Точечная диаграмма показывает, что между временем чтения крипипасты и её пользовательским рейтингом нет ярко выраженной зависимости. Истории как небольшой, так и большей длины могут получать схожие оценки. Это свидетельствует о том, что восприятие крипипаст определяется не столько объёмом текста, сколько атмосферой, идеей и подачей сюжета.

Итоговый вывод

Использование различных типов визуализаций позволило рассмотреть крипипасты с разных сторон и выявить основные закономерности в распределении тем, динамике публикаций и пользовательском восприятии.

Анализ показал, что наиболее распространёнными являются категории, связанные с сущностями, необъяснимыми явлениями и насильственными сюжетами, что указывает на устойчивый интерес целевой аудитории к определённым мотивам хоррора. Распределение рейтингов демонстрирует в целом положительное восприятие историй читателями, а дополнительный анализ связи рейтинга с формальными характеристиками текста показал, что длина истории и время её чтения не оказывают решающего влияния на оценку.

Использованные ресурсы и нейросети

1. Carbon

для визуального оформления написанного кода

2. ChatGPT

для исправления возникающих ошибок и уточнения непонятных моментов.

Промпты: - На этом графике минуты сильно наложились друг на друга, их matplotlib видимо сжал. Как пофиксить? - FileNotFoundError: [Errno 2] No such file or directory. Выдало такую ошибку, хотя файл лежит в той же папке, что и блокнот. Почему вылезла ошибка?

3. ChatGPT

для генерации обложки.

Промпт:

A dark, unsettling creepypasta-style portrait inspired by early internet horror imagery. A pale human-like face emerging from deep shadow, with unnatural wide eyes and a faint, disturbing smile. Harsh low lighting, heavy contrast, grainy texture, slight blur and digital noise, as if taken with an old low-quality camera. Black background, muted grayscale tones, no bright colors. The image should feel raw, eerie and uncomfortable, resembling classic early creepypasta visuals rather than polished horror art. No text, no logos, no modern cinematic lighting.

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more