
Описание
Киноиндустрия сочетает в себе творчество и бизнес. Интересно исследовать, всегда ли крупные бюджеты приводят к финансовому и зрительскому успеху и как менялось восприятие фильмов со временем. Я киноман и не представляю свою жизнь без просмотра фильмов и сериалов, поэтому эта тема для меня интересна. Для проекта был выбран датасет с информацией о фильмах IMDb, содержащий данные о рейтингах, годе выхода, бюджете, кассовых сборах, жанрах и режиссёрах. Данные представлены в формате CSV.
финансовый успех → кассовые сборы
зрительский успех → рейтинг IMDb
Целью данного проекта является исследование взаимосвязи между бюджетом фильма и показателями его успеха — кассовыми сборами и рейтингами IMDb — с помощью анализа данных и визуализации.
В рамках проекта ставится задача определить, увеличивает ли высокий бюджет вероятность коммерческого и зрительского успеха фильма, а также выявить возможные ограничения и исключения из данной зависимости.

Как выглядит один из рейтингов IMDb
Цветовая палитра и стиль
При создании графиков были использованы следующая цветовая палитра, вдохновленная атмосферой кинотеатра, в моем представлении именно эти цвета подходят для образа кинопоказа:
Для визуализации был выбран кинематографичный стиль, вдохновлённый атмосферой кинотеатра. Тёмный фон отсылает к экрану в зале, красный цвет — к бархатным креслам и афишам, а янтарные акценты — к свету проектора. В качестве основного шрифта используется Montserrat, сочетающий современность и хорошую читаемость.
#0B132B темно-синий #C1121F красный #FCA311 янтарный #4CC9F0 голубой #E5E5E5 серый для шрифта
Код
#0B132B, #C1121F, #FCA311, #4CC9F0, #E5E5E5
Для визуализации данных были использованы следующие графики:
- гистограмма - scatter plot - столбчатая диаграмма + линейный график - столбчатая диаграмма
Очистка данных
Очистка данных позволила устранить пропуски и некорректные значения, повысить точность статистических расчётов и обеспечить корректную визуализацию. Это сделало выводы исследования более надёжными и напрямую связанными с поставленной целью проекта.
График 1
1 — гистограмма о рейтингах
Этот график задаёт базовый контекст качества фильмов в выборке. Он позволяет понять, какой рейтинг является типичным, и насколько часто встречаются фильмы с очень высокими или очень низкими оценками.
Большинство фильмов сосредоточено в диапазоне 8.0–8.4, что говорит о высокой средней оценке выборки. По мере роста рейтинга выше 8.6 количество фильмов заметно снижается — очень высокие рейтинги (9.0+) встречаются редко. Распределение асимметричное, с «хвостом» вправо, что типично для отобранных качественных фильмов.
Вывод: выборка состоит преимущественно из хорошо оценённых фильмов, но по-настоящему выдающиеся оценки — исключение.
График 2
Код
4 — scatter plot
Средний рейтинг остаётся стабильно высоким (≈8.1–8.3) на протяжении всего периода с 1920-х до 2020-х годов. Нет резких спадов или подъёмов — колебания минимальны. Это говорит о том, что качество фильмов (по оценке зрителей) не сильно зависит от эпохи.
Вывод: хорошие фильмы выходили во все десятилетия, и «золотой эпохи» с точки зрения среднего рейтинга явно не выделяется.
График 3
Код
Наблюдается общая положительная тенденция: фильмы с большим бюджетом чаще собирают больше в прокате. При этом разброс очень большой: некоторые фильмы с небольшим бюджетом показывают высокие сборы, а дорогие проекты могут проваливаться. Есть выбросы — мегабюджетные фильмы с огромными сборами, которые сильно влияют на общую картину.
Вывод: большой бюджет повышает потенциал кассового успеха, но не гарантирует его.
График 4
Код 1 часть
Код 2 часть
04 — столбчатая диаграмма
Фильмы со средним и высоким бюджетом показывают наибольшую среднюю прибыль. Категория «очень высокий бюджет» имеет более низкую среднюю прибыль — вероятно, из-за высоких рисков и затрат. Низкобюджетные фильмы в среднем приносят минимальную прибыль.
Вывод: оптимальным с точки зрения прибыли выглядит средний или высокий бюджет, тогда как сверхдорогие проекты не всегда окупаются лучше.
Вывод
Анализ данных IMDb показывает, что бюджет фильма оказывает влияние на его финансовый успех, однако не является определяющим фактором зрительского признания. Высокобюджетные фильмы чаще собирают большую кассу, но не всегда получают высокие рейтинги. Успех фильма формируется сочетанием экономических, культурных и временных факторов.
Использование генеративной модели
CHat-GPT использовался для запросов, связанных с структурированием и оптимизацией компьютерного кода, выяснения внезапных ошибок у кода и решение проблем.