Original size 2480x3500

Анализ датасета Netflix

PROTECT STATUS: not protected
The project is taking part in the competition

Описание проекта

Стриминговые сервисы стали одной из ключевых форм потребления медиа-контента в XXI веке. Миллионы людей по всему миру ежедневно смотрят фильмы и сериалы, выбирая удобный формат просмотра и широкий выбор жанров.

Для проекта по анализу данных я выбрала датасет с информацией о контенте платформы Netflix, размещённый в открытом доступе (Kaggle). Данные содержат информацию о фильмах и сериалах: тип контента, год выпуска, дату добавления на платформу, страну производства, жанры и длительность.

Мне стало интересно проанализировать:

- как менялся объём контента Netflix со временем, - какое соотношение фильмов и сериалов преобладает, - какие страны и жанры представлены сильнее всего, - как менялась длительность фильмов в разные периоды.

Этапы работы с данными:

1. Датасет был загружен, преобразован в Excel к нормальному виду

2. Были очищены и преобразованы данные: - поле «date_added» приведено к формату даты; - извлечён год добавления контента; - из списка стран выделена основная страна производства; - длительность фильмов переведена в числовой формат; - данные сгруппированы по годам, жанрам и типу контента

3. Для визуализации использовались библиотеки Matplotlib и Seaborn.

Цветовое и визуальное решение

Для визуального оформления графиков я использовала фирменный стиль Netflix.

Основные цвета:

- чёрный — фон графиков NETFLIX_BLACK = «#000000» - красный Netflix (#E50914) — основной цвет визуализаций - белый — текст и подписи TEXT_WHITE = «#FFFFFF»

Для диаграмм с несколькими категориями применялись оттенки тёмно-алого цвета, чтобы сохранить единый стиль, при этом оставив визуальные различия между элементами.

Визуализация данных

0

(01) Круговая диаграмма

На платформе Netflix преобладают фильмы, однако сериалы также занимают значительную долю каталога (и сейчас как будет понятно по следующему анализу растут в популярности).

0

(02) Сложенная диаграмма

По графику видно рост общего объёма контента на платформе, а также постепенное увеличение доли сериалов в последние годы. Это отражает глобальный тренд на сериализацию контента.

0

(03) Столбчатая диаграмма

Наибольшее количество контента производится в США, что неудивительно, учитывая масштаб американской киноиндустрии. Однако также заметен вклад других стран, что говорит о глобализации Netflix.

0

(04) Линейная диаграмма

График наглядно показывает резкий рост добавления контента начиная с середины 2010-х годов — периода активного развития стриминговых сервисов.

0

(04.1) Линейная диаграмма

По этой диаграмме мы можем отследить, что со временем средняя продолжительность фильмов начала падать. В связи с этим можно сделать вывод, что наше поколение нацелено на потребление большего количества контента нежели раньше. Это приводит к сокращению продолжительности фильмов ради увеличения количества просмотров.

0

(05) Горизонтальная столбчатая диаграмма

Средняя длительность фильмов по жанрам, вопреки ожиданиям, довольно близка. При этом драмы стабильно длиннее комедий в среднем на 20 минут — видимо, из-за особенностей повествования и эмоционального окраса.

Заключение

В процессе работы с датасетом Netflix я проанализировала структуру каталога, динамику добавления контента, распределение по странам, жанрам и форматам. На основе этих данных были построены 5 визуализаций, которые наглядно показывают, как за последние годы Netflix превратился из сервиса с ограниченной библиотекой в глобальную платформу с контентом со всего мира.

Netflix — это не просто стриминговый сервис, а отражение того, как сегодня потребляется медиа-контент: быстро, массово и глобально. Анализ данных позволяет увидеть за привычным интерфейсом реальные тенденции индустрии и понять, в каком направлении она развивается.

Описание применения генеративной модели

DeepSeek — обращалась с целью генерации инструкций и рекомендаций по улучшению кода.