Original size 1140x1600

Что влияет на успех фильмов?

PROTECT STATUS: not protected
The project is taking part in the competition

Описание проекта

В рамках проекта я хочу провести анализ данных о фильмах с целью понять, какие факторы связаны с их популярностью и рейтингами. Кино является важной частью массовой культуры, а рейтинги на платформах вроде IMDb отражают коллективное мнение зрителей. Использование количественных методов анализа позволяет выявить закономерности, которые не всегда очевидны при субъективном восприятии фильмов.

Описание датасета

Для анализа был выбран открытый датасет The Movies Dataset, содержащий информацию о фильмах, представленных на платформе IMDb. В датасете собраны данные о бюджете, кассовых сборах, рейтингах, количестве голосов, жанрах и длительности фильмов. Данные представлены в табличном формате CSV, что делает их удобными для обработки и анализа с использованием библиотеки Pandas.

Датасет был получен с платформы Kaggle, где он размещён как открытый набор данных для исследовательских и образовательных целей. Использование публичного источника обеспечивает прозрачность исследования и возможность воспроизведения результатов.

Данный набор данных интересен тем, что объединяет как финансовые показатели фильмов, так и оценки зрителей, что позволяет сравнить коммерческий успех и субъективное восприятие качества. Кроме того, наличие жанровой информации даёт возможность проанализировать различия между типами фильмов.

Таким образом, датасет позволяет рассмотреть кино как культурный продукт одновременно с экономической и социальной точек зрения.

big
Original size 1536x1024

Цель и задачи исследования

Целью проекта является анализ факторов, влияющих на рейтинг и популярность фильмов, а также выявление взаимосвязей между бюджетом, жанром и зрительскими оценками. Проект направлен не на поиск универсальной формулы успеха, а на выявление общих тенденций и закономерностей, характерных для большого массива данных.

Исследовательские задачи

Для достижения поставленной цели были сформулированы следующие задачи: - изучить распределение рейтингов фильмов; - сравнить средние рейтинги фильмов разных жанров; - проанализировать связь бюджета фильма и его рейтинга; - выявить корреляции между ключевыми параметрами фильмов. Каждая из задач решается с помощью отдельного типа визуализации.

Подготовка и обработка данных

Перед проведением анализа данные были предварительно обработаны. Из датасета были удалены записи с пропущенными значениями в ключевых столбцах, а числовые параметры приведены к корректному формату. Также для упрощения анализа был выделен основной жанр каждого фильма, что позволило избежать дублирования и корректно агрегировать данные по жанровым категориям.

Original size 2950x1964

Инструменты анализа

Для анализа данных использовалась библиотека Pandas, а для визуализации — библиотека Matplotlib. Эти инструменты позволяют эффективно работать с большими объёмами табличных данных и создавать кастомные визуализации с единым визуальным стилем. Все этапы анализа и визуализации были реализованы программно, кроме ручной постобработки поясняющих графиков.

Original size 2437x426

Подход к визуализации

Для исследования использовались различные типы графиков, каждый из которых решает свою аналитическую задачу: анализ распределений, сравнение категорий, выявление взаимосвязей и корреляций. Все визуализации выполнены в едином стиле, однако различаются по методике построения, что позволяет рассмотреть данные с разных аналитических точек зрения. Для оформления графиков я взяла желтый цвет с логотипа IMDb и красный, ассоциирующийся с театральными шторами и ковровыми дорожками премьер.

Original size 2950x1300

Использование генеративной модели

В процессе выполнения проекта использовалась генеративная модель ChatGPT (OpenAI). Модель применялась в качестве вспомогательного инструмента для формулирования исследовательских вопросов, помощи при работе с библиотекой Pandas и уточнения формулировок аналитических выводов. Также в нем были сгенерированы иллюстрации для оформления проекта.

Использование ИИ не заменяло самостоятельный анализ данных и носило исключительно поддерживающий характер.

После предварительной обработки данных и формулировки исследовательских задач был выполнен визуальный анализ, позволяющий наглядно продемонстрировать выявленные закономерности и зависимости между параметрами фильмов.

1. Распределение рейтингов фильмов

0

Гистограмма показывает распределение рейтингов фильмов на платформе IMDb. По графику видно, что основная масса фильмов сосредоточена в диапазоне примерно от 5 до 7 баллов (середина значений выделена красным в графическом редакторе), где наблюдается наибольшая плотность столбцов. Это означает, что большинство фильмов получает средние оценки.

Фильмы с очень низкими рейтингами (ближе к 0–2) и с очень высокими (выше 8) встречаются заметно реже. Таким образом, можно сделать вывод, что экстремальные оценки — скорее исключение, а не правило, и аудитория IMDb в целом склонна к умеренной оценке контента.

2. Средний рейтинг фильмов по жанрам (топ-10)

0

Столбчатая диаграмма отображает топ-10 жанров по среднему рейтингу фильмов. На графике видно, что различия между жанрами существуют, но они не радикальны — значения средних рейтингов находятся в относительно узком диапазоне. При этом некоторые жанры, такие как анимационные и военные, визуально выделяются более высокими средними оценками по сравнению, например, с комедией или приключениями.

Это позволяет предположить, что фильмы определённых жанров чаще воспринимаются зрителями как более качественные или значимые, что отражается в их рейтингах.

3. Связь бюджета фильма и его рейтинга

0

Точечная диаграмма показывает зависимость между бюджетом фильма и его рейтингом. Каждая точка соответствует отдельному фильму. По горизонтальной оси отложен бюджет в логарифмической шкале, что позволяет одновременно видеть фильмы с малыми и крупными бюджетами. Основное скопление точек для наглядности обведено в графическом редакторе.

На графике хорошо заметно, что фильмы с большими бюджетами распределены по всему диапазону рейтингов — от низких до высоких. Аналогично, среди малобюджетных фильмов встречаются работы с высокими оценками. Это наглядно демонстрирует, что прямой зависимости между бюджетом и рейтингом нет, и крупные финансовые вложения не гарантируют высокое качество фильма с точки зрения зрителей.

4. Корреляция параметров фильмов

0

Тепловая карта визуализирует корреляции между ключевыми параметрами фильмов: бюджетом, сборами, рейтингом, количеством голосов и длительностью. Цветовая шкала позволяет быстро определить силу связей между показателями.

На графике отчётливо видно, что бюджет и сборы имеют сильную положительную корреляцию, что логично с точки зрения киноиндустрии. Также заметна связь между количеством голосов и популярностью фильма. При этом рейтинг демонстрирует более слабую связь с финансовыми показателями, что подчёркивает различие между коммерческим успехом фильма и его оценкой зрителями.

Заключение

Визуальный анализ показывает, что рейтинги фильмов в основном сосредоточены в среднем диапазоне, жанр оказывает влияние на среднюю оценку, а бюджет и коммерческий успех не гарантируют высокого рейтинга. Использование разных типов графиков позволило рассмотреть данные с нескольких аналитических точек зрения и выявить ключевые закономерности.

Киноиндустрия сегодня переходит от оценки сиюминутных кассовых сборов к анализу долгосрочной вовлеченности зрителей. Ключевым показателем успеха становится алгоритмическое одобрение: высокий рейтинг завершения просмотра и удержание аудитории на стриминговых платформах важнее для будущего проекта, чем разовый коммерческий результат или даже оценка на агрегаторах.

Original size 1536x1024