Original size 330x489

Анализ всех существующих SCP

PROTECT STATUS: not protected
The project is taking part in the competition

Введение

В рамках данного исследования я провела анализ базы данных проекта SCP Foundation — крупного интернет-сообщества, посвящённого созданию и документированию вымышленных аномальных объектов в формате псевдонаучных отчётов. Проект SCP Foundation представляет собой значимое культурное явление, сформировавшее собственную мифологию, стилистику и активное сообщество авторов и читателей.

Целью исследования является изучение структуры базы SCP-объектов, анализа рейтингов и выявления общих закономерностей популярности контента с помощью методов анализа данных и визуализации.

big
Original size 2400x1612

Для анализа была использована база данных SCP Foundation, содержащая информацию об объектах с номерами от SCP-001 до SCP-6999.

Данные были загружены с платформы Kaggle из датасета: «czzzzzzz/scp1to7»

Датасет включает 6999 записей и содержит следующие поля: code — идентификационный номер SCP-объекта title — название объекта text — полный текст статьи image captions — описания изображений rating — рейтинг статьи, формируемый сообществом state — статус статьи (active, deleted, blocked) tags — тематические теги link — ссылка на оригинальную статью

Для анализа распределения SCP-объектов по состояниям я использовала столбчатую диаграмму, поскольку данные о статусах являются категориальными. Распределение рейтингов SCP анализировала с помощью гистограммы, так как рейтинги представляют собой количественные непрерывные данные.

Этапы работы

Для начала я загрузила датасет с Kaggle и импортировала его в Google Colab для дальнейшего изучения. Затем, использовала Pandas для анализа и визуализация загруженных данных.

В качестве стиля для визуализации я взяла за основу темную и пугющую эстетику SCP обьектов, поэтому в качестве цветов были выбраны темные оттенки: черный, серый, красный.

Original size 3432x1458

Цвета и шрифт для графиков я настроила с помощью следующего кода:

Графики

Original size 1839x1351
Original size 1784x1636
Original size 1882x1351
Original size 1762x1350

Вывод

В ходе исследования базы данных SCP Foundation были получены следующие результаты:

Выявлено значительное преобладание активных статей над удалёнными и заблокированными. Обнаружено неравномерное распределение рейтингов с наличием небольшого числа крайне популярных статей.

Используемый датасет обладает высокой исследовательской ценностью и может быть использован в дальнейшем для:

анализа текстов научной фантастики; изучения онлайн-сообществ и пользовательских предпочтений; исследования факторов популярности пользовательского контента.

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more