
Введение
В рамках данного исследования я провела анализ базы данных проекта SCP Foundation — крупного интернет-сообщества, посвящённого созданию и документированию вымышленных аномальных объектов в формате псевдонаучных отчётов. Проект SCP Foundation представляет собой значимое культурное явление, сформировавшее собственную мифологию, стилистику и активное сообщество авторов и читателей.
Целью исследования является изучение структуры базы SCP-объектов, анализа рейтингов и выявления общих закономерностей популярности контента с помощью методов анализа данных и визуализации.

Для анализа была использована база данных SCP Foundation, содержащая информацию об объектах с номерами от SCP-001 до SCP-6999.
Данные были загружены с платформы Kaggle из датасета: «czzzzzzz/scp1to7»
Датасет включает 6999 записей и содержит следующие поля: code — идентификационный номер SCP-объекта title — название объекта text — полный текст статьи image captions — описания изображений rating — рейтинг статьи, формируемый сообществом state — статус статьи (active, deleted, blocked) tags — тематические теги link — ссылка на оригинальную статью
Для анализа распределения SCP-объектов по состояниям я использовала столбчатую диаграмму, поскольку данные о статусах являются категориальными. Распределение рейтингов SCP анализировала с помощью гистограммы, так как рейтинги представляют собой количественные непрерывные данные.
Этапы работы
Для начала я загрузила датасет с Kaggle и импортировала его в Google Colab для дальнейшего изучения. Затем, использовала Pandas для анализа и визуализация загруженных данных.


В качестве стиля для визуализации я взяла за основу темную и пугющую эстетику SCP обьектов, поэтому в качестве цветов были выбраны темные оттенки: черный, серый, красный.
Цвета и шрифт для графиков я настроила с помощью следующего кода:


Графики
Вывод
В ходе исследования базы данных SCP Foundation были получены следующие результаты:
Выявлено значительное преобладание активных статей над удалёнными и заблокированными. Обнаружено неравномерное распределение рейтингов с наличием небольшого числа крайне популярных статей.
Используемый датасет обладает высокой исследовательской ценностью и может быть использован в дальнейшем для:
анализа текстов научной фантастики; изучения онлайн-сообществ и пользовательских предпочтений; исследования факторов популярности пользовательского контента.