
Описание проекта
В рамках проекта я хочу провести анализ данных о фильмах с целью понять, какие факторы связаны с их популярностью и рейтингами. Кино является важной частью массовой культуры, а рейтинги на платформах вроде IMDb отражают коллективное мнение зрителей. Использование количественных методов анализа позволяет выявить закономерности, которые не всегда очевидны при субъективном восприятии фильмов.
Датасет был получен с платформы Kaggle, где он размещён как открытый набор данных для исследовательских и образовательных целей. Использование публичного источника обеспечивает прозрачность исследования и возможность воспроизведения результатов.
Данный набор данных интересен тем, что объединяет как финансовые показатели фильмов, так и оценки зрителей, что позволяет сравнить коммерческий успех и субъективное восприятие качества. Кроме того, наличие жанровой информации даёт возможность проанализировать различия между типами фильмов.
Таким образом, датасет позволяет рассмотреть кино как культурный продукт одновременно с экономической и социальной точек зрения.

Цель и задачи исследования
Целью проекта является анализ факторов, влияющих на рейтинг и популярность фильмов, а также выявление взаимосвязей между бюджетом, жанром и зрительскими оценками. Проект направлен не на поиск универсальной формулы успеха, а на выявление общих тенденций и закономерностей, характерных для большого массива данных.
Для достижения поставленной цели были сформулированы следующие задачи: - изучить распределение рейтингов фильмов; - сравнить средние рейтинги фильмов разных жанров; - проанализировать связь бюджета фильма и его рейтинга; - выявить корреляции между ключевыми параметрами фильмов. Каждая из задач решается с помощью отдельного типа визуализации.
Подготовка и обработка данных
Перед проведением анализа данные были предварительно обработаны. Из датасета были удалены записи с пропущенными значениями в ключевых столбцах, а числовые параметры приведены к корректному формату. Также для упрощения анализа был выделен основной жанр каждого фильма, что позволило избежать дублирования и корректно агрегировать данные по жанровым категориям.
Инструменты анализа
Для анализа данных использовалась библиотека Pandas, а для визуализации — библиотека Matplotlib. Эти инструменты позволяют эффективно работать с большими объёмами табличных данных и создавать кастомные визуализации с единым визуальным стилем. Все этапы анализа и визуализации были реализованы программно, кроме ручной постобработки поясняющих графиков.
Подход к визуализации
Для исследования использовались различные типы графиков, каждый из которых решает свою аналитическую задачу: анализ распределений, сравнение категорий, выявление взаимосвязей и корреляций. Все визуализации выполнены в едином стиле, однако различаются по методике построения, что позволяет рассмотреть данные с разных аналитических точек зрения. Для оформления графиков я взяла желтый цвет с логотипа IMDb и красный, ассоциирующийся с театральными шторами и ковровыми дорожками премьер.


В процессе выполнения проекта использовалась генеративная модель ChatGPT (OpenAI). Модель применялась в качестве вспомогательного инструмента для формулирования исследовательских вопросов, помощи при работе с библиотекой Pandas и уточнения формулировок аналитических выводов. Также в нем были сгенерированы иллюстрации для оформления проекта.
Использование ИИ не заменяло самостоятельный анализ данных и носило исключительно поддерживающий характер.
После предварительной обработки данных и формулировки исследовательских задач был выполнен визуальный анализ, позволяющий наглядно продемонстрировать выявленные закономерности и зависимости между параметрами фильмов.
1. Распределение рейтингов фильмов
Гистограмма показывает распределение рейтингов фильмов на платформе IMDb. По графику видно, что основная масса фильмов сосредоточена в диапазоне примерно от 5 до 7 баллов (середина значений выделена красным в графическом редакторе), где наблюдается наибольшая плотность столбцов. Это означает, что большинство фильмов получает средние оценки.
Фильмы с очень низкими рейтингами (ближе к 0–2) и с очень высокими (выше 8) встречаются заметно реже. Таким образом, можно сделать вывод, что экстремальные оценки — скорее исключение, а не правило, и аудитория IMDb в целом склонна к умеренной оценке контента.
2. Средний рейтинг фильмов по жанрам (топ-10)
Столбчатая диаграмма отображает топ-10 жанров по среднему рейтингу фильмов. На графике видно, что различия между жанрами существуют, но они не радикальны — значения средних рейтингов находятся в относительно узком диапазоне. При этом некоторые жанры, такие как анимационные и военные, визуально выделяются более высокими средними оценками по сравнению, например, с комедией или приключениями.
Это позволяет предположить, что фильмы определённых жанров чаще воспринимаются зрителями как более качественные или значимые, что отражается в их рейтингах.
3. Связь бюджета фильма и его рейтинга
Точечная диаграмма показывает зависимость между бюджетом фильма и его рейтингом. Каждая точка соответствует отдельному фильму. По горизонтальной оси отложен бюджет в логарифмической шкале, что позволяет одновременно видеть фильмы с малыми и крупными бюджетами. Основное скопление точек для наглядности обведено в графическом редакторе.
На графике хорошо заметно, что фильмы с большими бюджетами распределены по всему диапазону рейтингов — от низких до высоких. Аналогично, среди малобюджетных фильмов встречаются работы с высокими оценками. Это наглядно демонстрирует, что прямой зависимости между бюджетом и рейтингом нет, и крупные финансовые вложения не гарантируют высокое качество фильма с точки зрения зрителей.
4. Корреляция параметров фильмов
Тепловая карта визуализирует корреляции между ключевыми параметрами фильмов: бюджетом, сборами, рейтингом, количеством голосов и длительностью. Цветовая шкала позволяет быстро определить силу связей между показателями.
На графике отчётливо видно, что бюджет и сборы имеют сильную положительную корреляцию, что логично с точки зрения киноиндустрии. Также заметна связь между количеством голосов и популярностью фильма. При этом рейтинг демонстрирует более слабую связь с финансовыми показателями, что подчёркивает различие между коммерческим успехом фильма и его оценкой зрителями.
Заключение
Визуальный анализ показывает, что рейтинги фильмов в основном сосредоточены в среднем диапазоне, жанр оказывает влияние на среднюю оценку, а бюджет и коммерческий успех не гарантируют высокого рейтинга. Использование разных типов графиков позволило рассмотреть данные с нескольких аналитических точек зрения и выявить ключевые закономерности.
Киноиндустрия сегодня переходит от оценки сиюминутных кассовых сборов к анализу долгосрочной вовлеченности зрителей. Ключевым показателем успеха становится алгоритмическое одобрение: высокий рейтинг завершения просмотра и удержание аудитории на стриминговых платформах важнее для будущего проекта, чем разовый коммерческий результат или даже оценка на агрегаторах.