Original size 1140x1600

Анализ фильмов и сериалов Netflix

PROTECT STATUS: not protected
The project is taking part in the competition

Концепция

Я выбрала для анализа датасет Netflix Movies and TV Shows, так как всегда любила смотреть сериалы и фильмы на Netflix. Мне интересно, какие жанры самые популярные, как меняются тренды во времени, и какие страны производят больше всего контента. Исследование этих данных позволяет лучше понять глобальные тенденции в индустрии развлечений и выявить закономерности, которые не всегда заметны на первый взгляд.

big
Original size 3168x1344

Датасет был взят с платформы Kaggle и содержит информацию о более чем 8 000 фильмах и сериалах Netflix. Он включает такие характеристики, как названия, жанры, страны производства, даты релиза и добавления на платформу, продолжительность, возрастной рейтинг и ключевых актёров.

big
Original size 3168x1344

Для визуализации данных я выбрала различные виды графиков, которые помогают наглядно отразить структуру и тенденции контента Netflix:

Круговая диаграмма — показывает соотношение фильмов и сериалов на платформе; Гистограмма — демонстрирует распределение контента по годам выпуска; Точечная диаграмма — отражает зависимость длительности фильмов от года выпуска; Тепловая карта — подчеркивает популярность жанров по десятилетиям; Облако слов — показывает актёров, наиболее часто встречающихся в контенте Netflix; Диаграмма размаха — позволяет сравнить распределение длительности фильмов по возрастному рейтингу; Линейные графики — демонстрируют среднее количество сезонов сериалов по годам.

Использование этих визуализаций позволяет одновременно показать динамику изменений во времени, выявить популярные жанры и страны-производители, а также понять, как развивался контент Netflix на протяжении последних десятилетий.

Original size 3168x1344

Загрузка и обработка данных

Original size 3500x848

установка и импорт библиотек и файла

Для начала я импортировала необходимые библиотеки: pandas и numpy для работы с таблицами и числовыми данными, matplotlib.pyplot для визуализации и wordcloud для создания облака слов. После чего считала CSV-файл с данными Netflix Movies and TV Shows.

После загрузки данных я провела первичный анализ: проверила типы данных и количество пропусков в каждой колонке. Это помогло понять, какие колонки нуждаются в обработке, а какие можно использовать сразу для визуализации.

Original size 3500x217

первичный анализ данных

Далее я обработала дату добавления контента на платформу. Колонка date_added была преобразована в формат datetime, а на её основе созданы отдельные колонки с годом и месяцем добавления. Эти данные пригодятся для анализа динамики появления новых фильмов и сериалов.

Original size 3500x285

обработка дат

Следующим шагом я обработала колонку duration, которая содержит информацию о продолжительности фильмов (в минутах) или сезонов сериалов. Для этого написала функцию parse_duration, которая разделяет числовое значение и единицу измерения.

Original size 3500x521

обработка длительности контента

Чтобы анализировать тренды по времени, я создала колонку decade, отражающую десятилетие выпуска контента. Также было необходимо преобразовать колонки, содержащие несколько значений через запятую — такие как country, listed_in (жанры) и cast (актеры). Для этого я использовала функцию explode_column, которая разбивает такие строки на отдельные элементы.

Original size 3500x702

десятилетия и разбиение колонок

Для удобства анализа я перевела названия стран и жанров на русский язык с помощью словарей country_translation и genre_translation. Также создала колонку genre_ru с русскими названиями жанров. Это необходимо для того, чтобы визуализации были понятны русскоязычной аудитории.

Original size 3500x2064

перевод стран и жанров

Наконец, я подготовила отдельные датасеты для фильмов и сериалов. Для фильмов создала колонку с русским возрастным рейтингом (rating_ru) и сохранила топ рейтингов. Для сериалов извлекла количество сезонов и рассчитала среднее количество сезонов по годам, включая скользящее среднее для сглаживания тренда.

Original size 3500x1379

подготовка данных для фильмов и рейтингов

Original size 3500x255

обработка данных для сериалов

Original size 3168x1344

Стилизация

Для того чтобы визуализации выглядели аккуратно и были единообразными, я настроила стиль графиков в matplotlib. Основная цель — сделать графики читаемыми и приятными для восприятия, с контрастной цветовой схемой, подходящей под тему Netflix.

Original size 3500x1460

В качестве шрифта я подключила Onest, чтобы тексты на графиках выглядели современно и гармонировали с общей стилистикой проекта. Кроме того, была установлена тёмная тема для фона графиков и белый цвет текста, что делает визуализации контрастабельными и лёгкими для восприятия.

Также я определила фирменные цвета Netflix: NETFLIX_RED — основной красный цвет, использованный для акцентов и ключевых элементов; NETFLIX_GRAY — серый цвет для второстепенных элементов.

Original size 3500x1302

Визуализация данных

0

круговая диаграмма соотношение фильмов и сериалов на Netflix

Круговая диаграмма показывает, что на платформе Netflix количество фильмов и сериалов имеет значительную разницу, фильмов в два раза больше. Такой график позволяет сразу визуально оценить структуру контента и понять, на что больше ориентирована платформа в данный момент.

0

горизонтальная столбчатая диаграмма топ-15 стран по количеству контента

Столбчатая диаграмма наглядно показывает, какие страны производят больше всего фильмов и сериалов для Netflix. Лидерами являются США и Индия, что отражает глобальные тренды в индустрии развлечений и ориентацию платформы на аудиторию этих стран.

0

гистограмма распределение контента по годам выпуска

Гистограмма демонстрирует динамику выпуска фильмов и сериалов. Видно, что с течением времени количество контента постепенно увеличивается, особенно после 2000-х годов, что связано с ростом популярности потокового видео и экспансией Netflix на новые рынки.

0

точечная диаграмма зависимость длительности фильмов от года выпуска

Диаграмма показывает, что длительность фильмов сильно варьируется. В среднем, фильмы последних лет имеют тенденцию к большей длительности, а также наблюдается широкое распределение продолжительности в 1980–2000-х годах. Этот график помогает увидеть, как менялись стандарты длительности фильмов во времени.

0

тепловая карта популярность жанров по десятилетиям

Карта демонстрирует, какие жанры были наиболее популярны в разные десятилетия. Например, драмы и комедии стабильно занимают лидирующие позиции, а международные фильмы и аниме стали набирать популярность в последние десятилетия. График позволяет увидеть исторические тренды и смену предпочтений аудитории.

0

облако слов актёры, наиболее часто встречающиеся в контенте Netflix

Облако слов наглядно показывает, какие актёры чаще всего появляются в фильмах и сериалах Netflix. Чем крупнее имя, тем больше контента с участием данного актёра. Такой график позволяет быстро определить «звёзд» платформы.

0

диаграмма размаха длительность фильмов по возрастному рейтингу

Диаграмма помогает сравнить распределение длительности фильмов в разных возрастных категориях. Например, фильмы для всех возрастов обычно короче, а фильмы с рейтингом 16+ или 18+ имеют большую вариативность и в среднем более длинные.

0

линейный график среднее количество сезонов сериалов по годам

Линейный график показывает, как изменялось среднее количество сезонов сериалов с течением времени. Скользящее среднее позволяет видеть долгосрочные тенденции и сглаживает резкие колебания. Например, видно, что количество сезонов медленно увеличивается, что отражает очередное изменение трендов формата сериалов на Netflix. Конечно, это ещё меньше чем количество сезонов в 90-х, но определённая тенденция есть.

Вывод

Проведённый анализ показывает, как индустрия развлечений эволюционировала под влиянием глобальных тенденций, технологий и предпочтений аудитории. Netflix постепенно расширяла свой каталог, увеличивая количество сериалов и фильмов, а также разнообразие жанров и стран-производителей.

Жанры не просто сменяют друг друга с течением времени — они адаптируются к интересам зрителей и культурным трендам. Например, драмы и комедии остаются базовыми, но появляются международные фильмы, аниме и документальные проекты, отражающие глобализацию и мультикультурность контента. Возрастные категории также влияют на длительность и формат контента: фильмы для взрослых обычно длиннее, а детские и семейные — короче и динамичнее.

Особое внимание зрителей привлекают ключевые актёры и популярные сериалы, что делает контент узнаваемым и создает устойчивую аудиторию. Среднее количество сезонов сериалов постепенно растёт, что отражает изменение формата сериалов и тренд на более глубокое раскрытие сюжетов.

Original size 3168x1344

В целом, анализ подчёркивает, что Netflix не просто предоставляет контент — платформа адаптируется к запросам аудитории, экспериментирует с жанрами и форматами, создавая уникальный глобальный каталог, который удовлетворяет интересы зрителей разных возрастов и культур. Именно эта постоянная трансформация делает платформу такой популярной и объясняет, почему мы продолжаем следить за новыми релизами и сериалами год за годом.

Описание применения генеративных моделей

ChatGPT В качестве основного помощника для работы с данными я выбрала ChatGPT версии 5.2. Использование ChatGPT позволило ускорить процесс анализа, сделать код более читаемым, повысить наглядность визуализаций и разработать промпты для Nano Banana Pro.

Higgsfield Nano Banana Pro Для создания визуального оформления проекта и обложек я использовала генеративную модель Higgsfield Nano Banana Pro. С её помощью были сгенерированы атмосферные изображения, вдохновлённые процессом просмотра фильмов и сериалов.

Посмотреть использованные промпты можно по ссылке: https://docs.google.com/document/d/17XvO8SmhCtJDZS5BIu9ePWOhBCNfJemPTuPWG4wS328/edit?usp=sharing

Original size 3168x1344