
В рамках проекта был проведён анализ датасета, посвящённого фильмам из рейтинга «Топ-250» Кинопоиска. Исследование направлено на изучение того, какие жанры наиболее представлены в рейтинге, как распределяются оценки зрителей и существуют ли различия между фильмами разных лет. Визуализация данных позволяет наглядно проследить эти зависимости и лучше понять структуру одного из самых популярных пользовательских кинотопов.

Кадры фильмов из топа рейтинга Кинопоиска. Мудборд
Стилистика проекта основана на визуальных образах кино. В качестве источника вдохновения были использованы кадры из фильмов, представленных в рейтинге «Топ-250» Кинопоиска, отобранные и приведённые к единой цветовой гамме. Эти визуальные ориентиры помогли задать настроение и палитру визуализаций данных, сохранив связь между темой исследования и внешним видом графиков.

Кадры фильмов из топа рейтинга Кинопоиска. Мудборд
В исследовании использованы данные о фильмах, входящих в рейтинг «Топ-250» Кинопоиска. Датасет содержит информацию о названии фильма, годе выпуска, стране производства, пользовательском рейтинге, а также данные о режиссёрах и актёрском составе. Эти данные позволяют рассмотреть структуру рейтинга и сравнить фильмы между собой по нескольким параметрам.
Для анализа были выбраны такие показатели, как год выпуска фильма, страна производства и пользовательский рейтинг. Это позволило изучить распределение оценок, выявить, какие страны наиболее часто представлены в рейтинге, а также проследить изменения средних значений пользовательского рейтинга во времени.
Визуализация данных включает несколько типов графиков, каждый из которых решает свою аналитическую задачу. Столбчатые диаграммы используются для сравнения категориальных данных (например, стран производства), гистограммы — для анализа распределения пользовательских рейтингов, линейная диаграмма — для отображения временных тенденций, а диаграмма размаха — для сравнения распределений рейтингов фильмов разных стран.
Обработка данных и статистические методы
Для анализа и визуализации данных использовались библиотеки Python: Pandas — для загрузки, предварительного анализа и подготовки данных, и Matplotlib — для построения графиков. На этапе обработки данных был изучен состав датасета, отобраны ключевые признаки (год выпуска фильма, страна производства и пользовательский рейтинг), а также выполнена базовая очистка и приведение данных к корректным типам, что обеспечило корректность последующего анализа и визуализации.
рамках исследования применялись методы описательной статистики. Были рассчитаны средние значения пользовательских рейтингов, выполнен подсчёт количества фильмов по странам производства и годам выпуска, а также проанализированы распределения значений с помощью гистограмм и сравнительных диаграмм.
Визуализация
На столбчатой диаграмме показано распределение стран производства фильмов, входящих в рейтинг «Топ-250» Кинопоиска. Для анализа учитывались все указанные страны производства, включая случаи, когда фильм был создан в копродукции. График наглядно демонстрирует доминирование американского кинопроизводства в рейтинге, а также позволяет сравнить вклад других стран и выявить заметный разрыв между лидером и остальными участниками.
На линейной диаграмме показано изменение среднего пользовательского рейтинга фильмов, входящих в рейтинг «Топ-250» Кинопоиска, в зависимости от года их выпуска. Для каждого года был рассчитан средний рейтинг всех фильмов, попавших в рейтинг. График демонстрирует относительную стабильность пользовательских оценок во времени, а также отдельные колебания, связанные с тем, что в некоторые годы в рейтинг входит ограниченное количество фильмов, что усиливает влияние отдельных значений на средний рейтинг.
На гистограмме показано распределение пользовательских рейтингов фильмов, входящих в рейтинг «Топ-250» Кинопоиска. Большинство фильмов сосредоточено в диапазоне высоких оценок, примерно от 8.0 до 8.4, что отражает принцип отбора фильмов в данный рейтинг. Более высокие значения рейтингов встречаются значительно реже и образуют правый «хвост» распределения. График наглядно демонстрирует, что фильмы с низкими пользовательскими оценками в выборке практически отсутствуют, а распределение рейтингов смещено в сторону высоких значений.
На диаграмме размаха показано распределение пользовательских рейтингов фильмов в рейтинге «Топ-250» Кинопоиска для трёх стран производства: США, СССР и Великобритании. График позволяет сравнить медианные значения рейтингов и степень разброса оценок. Фильмы советского производства демонстрируют более высокую медиану рейтинга по сравнению с США и Великобританией, что указывает на стабильно высокие оценки зрителей. Американские фильмы имеют более широкий разброс значений и большее количество выбросов, что отражает разнообразие оценок внутри рейтинга. Великобритания занимает промежуточное положение как по медиане, так и по вариативности рейтингов.
Описание применения генеративной модели
В процессе работы над проектом использовалась генеративная модель для консультаций по техническим вопросам, связанным с работой в среде Python, использованием библиотек Pandas и Matplotlib, а также для уточнения синтаксиса и параметров функций при построении визуализаций. Генеративная модель применялась как вспомогательный инструмент при отладке кода и проверке корректности реализованных решений.
Источники
{1} Выгрузка данных «Kinopoisk Top-250 Russian Dataset». (URL: https://www.kaggle.com/datasets/alexandertesemnikov/kinopoisktop250russiandataset) Просмотрено: 23.12.2025.