Original size 330x489

Анализ всех существующих SCP

The project is taking part in the competition

Введение

В рамках данного исследования я провела анализ базы данных проекта SCP Foundation — крупного интернет-сообщества, посвящённого созданию и документированию вымышленных аномальных объектов в формате псевдонаучных отчётов. Проект SCP Foundation представляет собой значимое культурное явление, сформировавшее собственную мифологию, стилистику и активное сообщество авторов и читателей.

Целью исследования является изучение структуры базы SCP-объектов, анализа рейтингов и выявления общих закономерностей популярности контента с помощью методов анализа данных и визуализации.

Original size 2400x1612

Для анализа была использована база данных SCP Foundation, содержащая информацию об объектах с номерами от SCP-001 до SCP-6999.

Данные были загружены с платформы Kaggle из датасета: «czzzzzzz/scp1to7»

Датасет включает 6999 записей и содержит следующие поля: code — идентификационный номер SCP-объекта title — название объекта text — полный текст статьи image captions — описания изображений rating — рейтинг статьи, формируемый сообществом state — статус статьи (active, deleted, blocked) tags — тематические теги link — ссылка на оригинальную статью

Для анализа распределения SCP-объектов по состояниям я использовала столбчатую диаграмму, поскольку данные о статусах являются категориальными. Распределение рейтингов SCP анализировала с помощью гистограммы, так как рейтинги представляют собой количественные непрерывные данные.

Этапы работы

Для начала я загрузила датасет с Kaggle и импортировала его в Google Colab для дальнейшего изучения. Затем, использовала Pandas для анализа и визуализация загруженных данных.

В качестве стиля для визуализации я взяла за основу темную и пугющую эстетику SCP обьектов, поэтому в качестве цветов были выбраны темные оттенки: черный, серый, красный.

Original size 3432x1458

Цвета и шрифт для графиков я настроила с помощью следующего кода:

Графики

Original size 1839x1351

Original size 1784x1636

Original size 1882x1351

Original size 1762x1350

Вывод

В ходе исследования базы данных SCP Foundation были получены следующие результаты:

Выявлено значительное преобладание активных статей над удалёнными и заблокированными. Обнаружено неравномерное распределение рейтингов с наличием небольшого числа крайне популярных статей.

Используемый датасет обладает высокой исследовательской ценностью и может быть использован в дальнейшем для:

анализа текстов научной фантастики; изучения онлайн-сообществ и пользовательских предпочтений; исследования факторов популярности пользовательского контента.

Блок с кодом

Darya Slabzhennikova

data visualization