Original size 1140x1600

IMDb Top 1000: что движет рейтингами фильмов?

PROTECT STATUS: not protected
The project is taking part in the competition

Глубокий анализ данных о кино — от жанров до популярности.

big
Original size 1503x784

IMDb Top 1000

Кино принято обсуждать эмоционально. «Этот фильм великий», «тот переоценён», «раньше снимали лучше». Но если отложить споры и посмотреть на данные, возникает вопрос: можно ли увидеть закономерности в зрительских оценках?

В этом проекте я анализирую датасет IMDb Top 1000 — выборку из фильмов с самыми высокими пользовательскими рейтингами на платформе IMDb — чтобы понять, как жанры, время и популярность связаны с восприятием качества кино.

Используемые графики: 01 — гистограмма 02 — bar chart 03 — линейный график 04 — scatter plot 05 — boxplot

Почему изучать IMDb-рейтинги важно?

Глобальные рейтинги отражают не только вкусы зрителей, но и культурные ожидания, жанровые особенности, тренды во времени.

Ключевые вопросы: Насколько различается рейтинг между жанрами?

Есть ли связь между рейтингом и популярностью (голосами)?

Как менялись рейтинги с годами?

Original size 1200x1500

IMDb Top Horror

«Рейтинг — это не просто число. Это коллективное восприятие целой аудитории.» (Pull-quote)

IMDb — одна из крупнейших платформ пользовательских оценок фильмов. Рейтинг здесь формируется не экспертами, а массовой аудиторией, что делает его интересным объектом анализа: это не канон, а коллективное мнение миллионов зрителей.

Однако рейтинг — это не просто число. За ним скрываются жанровые предпочтения, культурный контекст, эффект времени и разница между массовой популярностью и художественной ценностью.

IMDb Top 1000: структура данных

Original size 628x100

01 — код

Для анализа был использован датасет «IMDb Top 1000 Movies в формате CSV.»

Он содержит информацию примерно о тысяче фильмов, включая:

год выпуска жанры рейтинг IMDb количество голосов продолжительность валовую выручку

Эти данные позволяют рассматривать кино одновременно как культурный продукт и объект массового потребления.

Приведение данных к анализу

Original size 1054x76

02 — код

Перед анализом данные были очищены: удалены пропуски в ключевых полях, год выпуска приведён к числовому формату, а жанры — нормализованы. Это важно, потому что один фильм может относиться сразу к нескольким жанрам, и без корректной обработки статистика искажается.

Единый визуальный язык

Original size 959x630

#0b1c2d // #e63746 // #f4d35d // #f9fafb

Тёмно-синий цвет используется для текста и осей, акцентный розово-красный — для ключевых элементов, жёлтый — для вторичных акцентов. Фон остаётся светлым, чтобы визуализация была читабельной и не перегруженной.

Все параметры оформления задавались программно, без ручной постобработки. Это принципиально важно: стиль — часть анализа, а не декоративное дополнение.

Как оценивают фильмы в выборке

Original size 571x455

01 — гистограмма

Гистограмма показывает, что большинство фильмов в выборке имеют рейтинг от 7.5 до 8.5. Это ожидаемо: датасет уже представляет собой отбор «лучших» фильмов, поэтому низкие оценки почти отсутствуют.

Тем не менее, даже внутри этой элитной группы заметен разброс, что говорит о различиях в восприятии качества.

Какие жанры любимы зрителями

Original size 554x513

02 — bar chart

Для каждого жанра был рассчитан средний рейтинг. Результаты показывают, что жанры различаются не случайно: документальные, военные и биографические фильмы в среднем оцениваются выше, чем более массовые жанры.

Это может говорить о том, что зрители склонны оценивать выше фильмы, которые воспринимаются как «серьёзные» или социально значимые.

Как менялись рейтинги во времени

Original size 567x455

03 — линейный график

Фильмы прошлых десятилетий часто имеют более высокие оценки, чем современные. При этом современные фильмы демонстрируют большую стабильность: разброс рейтингов у них меньше.

Это может быть связано с эффектом времени: остаются только те старые фильмы, которые «прошли проверку временем», тогда как новые ещё не прошли культурный отбор.

Популярность и качество

Original size 576x455

04 — scatter plot

Диаграмма рассеяния, показывающая связь между количеством голосов и рейтингом, демонстрирует слабую зависимость. Фильмы с высоким рейтингом могут иметь как огромное, так и относительно небольшое количество голосов.

Это подчёркивает важную мысль: массовая популярность не равна воспринимаемому качеству.

Более глубокий взгляд на жанры

Original size 592x445

05 — boxplot

Boxplot по популярным жанрам позволяет сравнить не только медиану рейтинга, но и разброс оценок. Например, жанр «драма» демонстрирует высокую вариативность: внутри него есть как очень высоко оценённые фильмы, так и более спорные.

Это указывает на жанровую неоднородность и подтверждает, что среднее значение не всегда достаточно для анализа.

Корреляционный анализ

Original size 1704x107

01 — таблица

Для количественной оценки связи между рейтингом и популярностью был рассчитан коэффициент корреляции.

Результат показывает слабую корреляцию, что статистически подтверждает наблюдение: количество голосов не определяет рейтинг напрямую.

Следовательно, зрительская оценка качества и массовое внимание — это связанные, но разные измерения.

Итоги исследования

Анализ IMDb Top 1000 показывает, что:

жанры фильмов заметно различаются по уровню и разбросу рейтингов

популярность не является надёжным индикатором качества

фильмы прошлых десятилетий часто оцениваются выше из-за эффекта культурного отбора

объясняющая визуализация помогает увидеть закономерности, которые неочевидны в таблицах

Проект демонстрирует, как с помощью Pandas и визуализации можно перейти от сырых данных к осмысленным выводам о зрительском восприятии кино.

Original size 1127x569