
Описание проекта
Стриминговые сервисы стали одной из ключевых форм потребления медиа-контента в XXI веке. Миллионы людей по всему миру ежедневно смотрят фильмы и сериалы, выбирая удобный формат просмотра и широкий выбор жанров.
Для проекта по анализу данных я выбрала датасет с информацией о контенте платформы Netflix, размещённый в открытом доступе (Kaggle). Данные содержат информацию о фильмах и сериалах: тип контента, год выпуска, дату добавления на платформу, страну производства, жанры и длительность.
Мне стало интересно проанализировать:
- как менялся объём контента Netflix со временем, - какое соотношение фильмов и сериалов преобладает, - какие страны и жанры представлены сильнее всего, - как менялась длительность фильмов в разные периоды.
Этапы работы с данными:
1. Датасет был загружен, преобразован в Excel к нормальному виду
2. Были очищены и преобразованы данные: - поле «date_added» приведено к формату даты; - извлечён год добавления контента; - из списка стран выделена основная страна производства; - длительность фильмов переведена в числовой формат; - данные сгруппированы по годам, жанрам и типу контента
3. Для визуализации использовались библиотеки Matplotlib и Seaborn.
Цветовое и визуальное решение
Для визуального оформления графиков я использовала фирменный стиль Netflix.
Основные цвета:
- чёрный — фон графиков NETFLIX_BLACK = «#000000» - красный Netflix (#E50914) — основной цвет визуализаций - белый — текст и подписи TEXT_WHITE = «#FFFFFF»
Для диаграмм с несколькими категориями применялись оттенки тёмно-алого цвета, чтобы сохранить единый стиль, при этом оставив визуальные различия между элементами.
Визуализация данных
(01) Круговая диаграмма
На платформе Netflix преобладают фильмы, однако сериалы также занимают значительную долю каталога (и сейчас как будет понятно по следующему анализу растут в популярности).
(02) Сложенная диаграмма
По графику видно рост общего объёма контента на платформе, а также постепенное увеличение доли сериалов в последние годы. Это отражает глобальный тренд на сериализацию контента.
(03) Столбчатая диаграмма
Наибольшее количество контента производится в США, что неудивительно, учитывая масштаб американской киноиндустрии. Однако также заметен вклад других стран, что говорит о глобализации Netflix.
(04) Линейная диаграмма
График наглядно показывает резкий рост добавления контента начиная с середины 2010-х годов — периода активного развития стриминговых сервисов.
(04.1) Линейная диаграмма
По этой диаграмме мы можем отследить, что со временем средняя продолжительность фильмов начала падать. В связи с этим можно сделать вывод, что наше поколение нацелено на потребление большего количества контента нежели раньше. Это приводит к сокращению продолжительности фильмов ради увеличения количества просмотров.
(05) Горизонтальная столбчатая диаграмма
Средняя длительность фильмов по жанрам, вопреки ожиданиям, довольно близка. При этом драмы стабильно длиннее комедий в среднем на 20 минут — видимо, из-за особенностей повествования и эмоционального окраса.
Заключение
В процессе работы с датасетом Netflix я проанализировала структуру каталога, динамику добавления контента, распределение по странам, жанрам и форматам. На основе этих данных были построены 5 визуализаций, которые наглядно показывают, как за последние годы Netflix превратился из сервиса с ограниченной библиотекой в глобальную платформу с контентом со всего мира.
Netflix — это не просто стриминговый сервис, а отражение того, как сегодня потребляется медиа-контент: быстро, массово и глобально. Анализ данных позволяет увидеть за привычным интерфейсом реальные тенденции индустрии и понять, в каком направлении она развивается.
Описание применения генеративной модели
DeepSeek — обращалась с целью генерации инструкций и рекомендаций по улучшению кода.