Original size 1140x1600

Две тысячи самых высоко оценённых сериалов по версии TMDB

PROTECT STATUS: not protected
The project is taking part in the competition

Введение

Современную культуру сложно представить без сериалов. С течением времени они превратились в глобальное явление, которое формирует тренды, обсуждается в социальных сетях и конкурирует по масштабам производства с большим кино.

«Золотой век телевидения», и последующая «платформенная революция» (появление Netflix, HBO Max, Disney+ и др.) привели к взрывному росту количества и разнообразия контента. В этом изобилии зритель очень часто полагается на рейтинги (такие как IMDb, Kinopoisk или Rotten Tomatoes), которые становятся ключевым фактором для его выбора и косвенным индикатором качества.

Для анализа был выбран датасет из двух тысяч самых высоко оценённых сериалов, найденный на Kaggle. Интересно было проанализировать самые востребованные жанры, определить лидирующие страны, проанализировать взаимосвязь между популярностью среди зрителей, рейтингом критиков и временем релиза сериалов.

big
Original size 1200x357

Баннер «Очень странные дела»

Выбор графиков

В рамках проекта были использованы изучающий и объясняющий формат визуализации данных.

Изучающий формат применялся на начальном этапе анализа для объективного исследования структуры данных и выявления закономерностей (например, распределение сериалов по жанрам, языкам и годам выпуска).

Объясняющий формат использовался для финальных визуализаций, чтобы интерпретировать результаты и прийти к выводам. Этот подход позволил перейти от сухой констатации фактов к аналитическим утверждениям («культурный контекст страны определяет жанровое предпочтение: в Японии доминирует анимация, в других странах — драма»).

big
Original size 2048x1020

Кадр из сериала «Очень странные дела»

Для проекта было реализовано шесть графиков пяти разных типов.

Две столбчатые диаграммы для определения самых популярных жанров и языков, поскольку такой формат позволяет наглядно распределить лидирующие и отстающие позиции. Одна тепловая карта, демонстрирующая связь между странами и жанрами, поскольку другие варианты визуализации этих данных были бы более громоздкими.

Один линейный график, отражающий взаимосвязь популярности сериала с датой его выхода, так как такая визуализация позволяет проследить рост или спад интереса. Одна точечная диаграмма, показывающая связь рейтинга и популярности, поскольку она даёт возможность проследить корреляцию или её отсутствие между двумя этими значениями. И одно «облако слов» для анализа наиболее популярных слов в описаниях сериалов, так как является наиболее интуитивно понятным вариантом для визуализации этих данных.

Этапы работы

Первым этапом была загрузка всех необходимых библиотек и обработка данных. Для работы с Google Colab был предварительно загружен и прочитан CSV файл с Kaggle и написан код.

Статистические методы на данном этапе:

1. проверка структуры данных: df.shape, df.info () 2. оценка полноты данных: df.isnull ().sum () 3. базовая описательная статистика: df.describe ()

Original size 2560x936
Original size 1400x2073

Обложка сериала «Очень странные дела»

Далее создавались графики в едином визуальном стиле. В качестве референса был выбран наиболее популярный сериал в таблице по версии TMDB, Stranger Things. Была выбрана схожая с обложкой сериала цветовая палитра. Шрифт выбирался исходя из его читаемости.

Original size 2517x1245

Цветовая палитра проекта, сгенерированная Deepseek-R1 и перенесённая после в Adobe Color.

Столбчатые диаграммы

Первые два графика представляют собой столбчатые диаграммы. Для построения первого графика с наиболее популярными жанрами использовались данные из столбца «genre».

Было выбрано топ-10 значений, из которых на основе выбранной цветовой палитры были созданы графики. Наиболее популярным жанром в топе оказалась драма, а наименее популярным — мыльные оперы.

Original size 1189x590
Original size 2416x1718

Для второго графика с наиболее популярными языками сериалов использовались данные из столбца «original_language». Для сохранения стилистического единства оформление осталось тем же.

Наиболее распространённым оригинальным языком в топе оказался английский, наименее распространённым — китайский.

Original size 1189x590
Original size 1920x1756

Статистические методы:

1. подсчёт частот; 2. ранжирование; 3. определение процентилей.

Тепловая карта

Original size 1193x789

Для создания тепловой карты были задействованы столбцы «genre» и «country_origin». Самым распространённым жанром в Японии оказалась анимация, а во всех остальных странах из топа — драма.

Статистические методы:

1. анализ долей; 2. нормализация; 3. кросс-табуляция.

Original size 2560x3278

Линейный график

Original size 1389x790

Для создания линейного графика были задействованы столбцы «premiere_date» и «popularity». График показывает, как со временем менялась средняя популярность сериалов, с выделением периода бума их производства (2000–2020 гг.)

Статистические методы:

1. агрегирование по годам: groupby ('premiere_year')['popularity'].mean () 2. сглаживание данных: скользящее среднее с окном 5 лет; 3. анализ трендов: визуальная оценка роста/спада.

Точечная диаграмма

Original size 1709x1200

Для создания точечной диаграммы использовались столбцы «popularity» и «rating». График демонстрирует слабую положительную корреляцию (r=0.15) между оценкой зрителей и массовой популярностью.

Статистические методы:

1. корреляционный анализ Пирсона; 2. линейная регрессия для построения линии тренда; 3. квадрантный анализ для классификации сериалов.

0

Облако слов

Original size 1665x941

Для создания облака слов использовались текстовые описания из столбца «overview». Были удалены стоп-слова и проанализирована частотность оставшихся слов.

Статистические методы:

1. токенизация текста; 2. частотный анализ; 3. удаление стоп-слов и лемматизация (упрощённая через список исключений).

Original size 2560x2570

Вывод

Проведённый анализ позволил выявить глобальные тренды. Несмотря на культурные различия, доминирующим жанром в большинстве стран была драма, а английский язык оставался наиболее распространённым оригинальным языком среди двух тысяч сериалов. Интересным оказался тот факт, что популярность сериала не всегда коррелировала с высоким рейтингом. Полученная информация может быть полезна для понимания предпочтений современного зрителя.

Original size 2048x1152

Постер «Очень странные дела»

Использованные сервисы. Описание применения генеративной модели

Для визуализации кода использовался Carbon с кастомной темой, выполненной в ранее выбранной цветовой палитре проекта. В процессе работы над проектом активно использовалась нейросеть DeepSeek-R1 (режим глубокого мышления) для следующих задач:

1. Помощь с кодом, оптимизация и исправление ошибок в нём.  В промпте указывались конкретные фрагменты кода, где возникали трудности, прописывался запрос на исправление возникших ошибок и оптимизацию.

2. Подбор цветовой палитры. Промпт: «Нужно создать цветовую палитру в стиле сериала Stranger Things. Основные цвета: тёмный фон, красные и синие акценты. Предложи HTML-коды цветов»

3. Решение проблем с визуализацией. Пример промпта: «Текст на графике сливается с точками, как улучшить читаемость?»

Для генерации обложки проекта использовался Recraft. Промпт: «Create a Stranger Things stylized cover design using the color palette of its original poster»