
Выбор базы данных
Хоррор-фильмы — один из моих самых любимых жанров: я смотрю их на протяжении многих лет и часто ловлю себя на ощущении, что уже пересмотрела практически всё значимое в этом направлении.
Именно поэтому мне стало интересно взглянуть на жанр не как на зритель, а как на объект анализа данных. Датасет IMDb с информацией о хоррор-фильмах позволяет исследовать жанр системно: проследить его развитие во времени, понять, какие поджанры и форматы оказываются наиболее востребованными, и увидеть, какие факторы могут влиять на зрительское восприятие.
Для меня этот проект стал способом совместить личный интерес к хоррору с аналитическим и визуальным исследованием.
Визуализация
Для анализа данных были использованы несколько типов визуализаций, каждый из которых отвечает на отдельный исследовательский вопрос.
- Линейный график показывает, как менялось количество хоррор-фильмов по годам, и помогает проследить динамику развития жанра во времени.
- Гистограмма используется для анализа распределения рейтингов IMDb и позволяет понять, какие оценки являются типичными для хоррор-фильмов.
- Столбчатая диаграмма отражает наиболее распространённые поджанры хоррора и даёт представление о жанровых предпочтениях индустрии.
- Точечный график визуализирует связь между длительностью фильма и его рейтингом, помогая оценить наличие или отсутствие зависимости между этими параметрами.
Все графики выполнены в едином визуальном стиле с тёмной цветовой палитрой и красными акцентами, отсылающими к эстетике хоррор-жанра и создающими цельное визуальное повествование.
Стилистика визуализации
Визуальная стилистика проекта основана на эстетике хоррор-жанра. Визуальная палитра проекта вдохновлена световыми решениями в хоррор-фильмах: холодные сине-бирюзовые оттенки используются для аналитических и временных графиков, тогда как красные цвета акцентируют внимание на эмоциональных аспектах жанра. Такое цветовое разделение помогает структурировать информацию и усиливает атмосферу визуального повествования.
черный = «#0b0b0b» темно-красный = «#7a0c0c» кровавый = «#b11226» темно-голубой = «#14213d» глубокий синий = «#1f3a5f» бирюзовый = «#0fa3b1» голубой = «#20c997» белый = «#ffffff»
референс цветов
Начало работы с данными
В начале работы я импортировала библиотеку pandas для анализа данных и библиотеку matplotlib для построения визуализаций. После этого я загрузила датасет с информацией о хоррор-фильмах из CSV-файла в среду Google Colab.
Далее, чтобы убедиться, что данные были загружены корректно, я вывела первые строки таблицы и изучила её структуру. Это позволило увидеть названия столбцов, типы данных и наличие пропущенных значений.
Подготовка и очистка данных. Перед построением визуализаций я выполнила базовую очистку данных. Я удалила строки без рейтинга и года выхода фильма, а также привела ключевые столбцы к числовому формату.
Перед созданием графиков я задала единый визуальный стиль проекта. Были определены основные цвета, вдохновлённые эстетикой хоррор-фильмов, а также настроены фон, цвета текста и осей, чтобы все визуализации выглядели единообразно.
График № 1
Для начала я выбираю столбец Movie Year, так как он содержит информацию о годе выхода фильма и позволяет анализировать данные во временной динамике. Анализ изменений во времени является важной частью исследования эволюции жанра хоррор.
Я группирую все фильмы по году выхода и считаю количество фильмов в каждом году. Это позволяет перейти от списка отдельных фильмов к точным данным, удобным для анализа тенденций.
В результате группировки получается серия, где индексом является год, а значениями — количество фильмов. Эти данные напрямую используются для построения графика.
Для визуализации я выбираю линейный график, так как он лучше всего подходит для отображения непрерывных изменений во времени и позволяет наглядно увидеть рост или спад.
Я строю линейный график, задавая цвет линии и толщину, чтобы график был хорошо различим на тёмном фоне.
Я добавляю заголовок графика и подписи осей, чтобы зрителю было понятно, что именно отображается и какие данные используются.
Получившийся график позволяет сделать вывод о том, что количество хоррор-фильмов со временем увеличивается, особенно в последние десятилетия.
График № 2
Для данного графика я использую столбец Rating, так как он отражает среднюю зрительскую оценку фильма и позволяет проанализировать общее восприятие жанра.
Гистограмма является наиболее подходящим способом визуализации распределения числовых данных, так как она показывает, какие значения встречаются чаще всего.
Я разбиваю значения рейтингов на равные интервалы (bins), чтобы увидеть форму распределения.
Я задаю цвет столбцов и цвет границ, чтобы значения были чётко различимы на тёмном фоне и соответствовали общей стилистике проекта.
Добавляю заголовок и подписи осей для пояснения содержания графика.
Гистограмма показывает, что большинство хоррор-фильмов имеют средние значения рейтинга, в то время как высокие оценки встречаются значительно реже.
График № 3
Для анализа жанровой структуры я использую столбец Genre, который содержит информацию о поджанре каждого фильма.
Я считаю, сколько раз каждый поджанр встречается в датасете. Это позволяет определить наиболее популярные категории.
Я выбираю только 10 самых распространённых поджанров, чтобы визуализация оставалась читаемой и не перегруженной.
Для сравнения категорий между собой я использую столбчатую диаграмму, так как она наглядно показывает различия в количестве.
Строю столбцы для каждого поджанра и задаю цвет, соответствующий визуальной стилистике проекта.
Поворачиваю подписи по оси X, чтобы длинные названия поджанров не перекрывали друг друга. Добавляю заголовок и подписи осей.
Диаграмма позволяет сделать вывод о том, какие поджанры доминируют в хоррор-кинематографе.
График № 4
Для анализа я выбираю два числовых столбца: Runtime (длительность фильма) и Rating (рейтинг IMDb). Точечный график лучше всего подходит для анализа взаимосвязи между двумя числовыми переменными и позволяет выявить возможные зависимости. Каждая точка на графике соответствует одному фильму.
Я добавляю параметр alpha, чтобы точки не перекрывали друг друга и было видно плотность распределения данных.
Значение коэффициента корреляции близко к нулю, что подтверждает отсутствие сильной линейной зависимости.
Выводы
В ходе анализа данных IMDb о хоррор-фильмах удалось проследить динамику развития жанра во времени. Линейный график показал устойчивый рост количества хоррор-фильмов, особенно заметный в последние десятилетия. Это может свидетельствовать о возросшем интересе аудитории к жанру, а также о расширении возможностей производства и распространения фильмов, в том числе за счёт стриминговых платформ. Анализ жанровой структуры показал, что хоррор представлен большим количеством поджанров, однако некоторые из них доминируют, формируя основной визуальный и сюжетный язык современного хоррор-кинематографа.
Распределение рейтингов IMDb продемонстрировало, что большинство хоррор-фильмов получают средние оценки, в то время как фильмы с очень высокими рейтингами встречаются значительно реже. Это подчёркивает противоречивость жанра: хоррор часто вызывает сильную эмоциональную реакцию, но не всегда получает высокое одобрение широкой аудитории. Анализ точечного графика и корреляции между длительностью фильма и рейтингом показал отсутствие выраженной зависимости, что позволяет сделать вывод о том, что продолжительность фильма не является ключевым фактором его зрительского успеха.
В целом проделанная работа позволила не только выявить количественные закономерности в развитии хоррор-фильмов, но и продемонстрировать возможности анализа и визуализации данных с использованием Pandas и Python. Проект сочетает аналитический и объясняющий подход, а единая визуальная стилистика, вдохновлённая эстетикой хоррор-жанра, усиливает восприятие информации и делает графики частью целостного визуального повествования. Таким образом, анализ данных становится не просто инструментом исследования, но и способом выразить тему через форму визуализации.
Для обложки использовала нейросеть Ideogram
Промпт: Мрачные коллажи в стиле хоррор. Множество старых телевизоров, каждый из которых показывает разное пугающее изображение или сцену из фильмов ужасов — призрачные фигуры, тревожные крупные планы, наводящие ужас существа. Все иллюстрации выполнены на сплошном черном фоне. Цветовая гамма строго следующая: темно-красный, кроваво-красный, глубокий темно-синий, насыщенный темно-синий, яркий бирюзовый, светло-голубой и белый. Изображение должно вызывать чувство страха.
не мультяшное, никаких ярких цветов, кроме указанных