Original size 1750x2480

netflix titles

PROTECT STATUS: not protected
The project is taking part in the competition

анализ открытого датасета с помощью pandas и визуализации данных учебный проект по анализу данных и инфографике

для анализа был выбран датасет Netflix Titles, содержащий информацию о фильмах и сериалах, доступных на платформе Netflix.

датасет включает следующие параметры:

тип контента (фильм / сериал)

страна производства

дата добавления на платформу

год релиза

возрастной рейтинг

длительность

данный датасет представляет интерес как пример культурной и медиа-аналитики: он позволяет исследовать, как формируется и изменяется глобальный медиакаталог крупной стриминговой платформы.

анализ этих данных даёт возможность проследить:

географическое распределение контента

изменения в стратегии добавления тайтлов со временем

различия между фильмами и сериалами по формальным характеристикам

датасет достаточно объёмный и структурированный, что делает его подходящим для анализа с использованием Python и Pandas.

в рамках проекта были сформулированы следующие вопросы:

какие страны представлены в каталоге Netflix наиболее активно?

как менялось количество добавляемых тайтлов со временем?

существуют ли различия между фильмами и сериалами по возрастным рейтингам?

как распределяется длительность фильмов и какие значения можно считать типичными?

работа с данными включала несколько этапов:

загрузка CSV-файла с помощью pandas

удаление дубликатов

приведение даты добавления к формату datetime

извлечение года добавления

разбор поля duration на числовое значение и единицу измерения

выделение фильмов и сериалов в отдельные подтаблицы

все этапы обработки выполнялись программно, без ручного редактирования данных.

для визуализаций был выбран единый минималистичный стиль:

тёмный фон

ограниченная цветовая палитра с акцентными цветами

отсутствие рамок у графиков

сетка только по оси Y

единый шрифт (Inter), подключённый напрямую через код

цвета и шрифты задавались исключительно средствами Python (matplotlib), без постобработки в графических редакторах.

страны производства

тип графика: горизонтальная столбчатая диаграмма

график показывает топ-10 стран по количеству тайтлов в каталоге Netflix. учёт велся по первой указанной стране производства; пропущенные значения были объединены в категорию Unknown.

вывод: каталог Netflix имеет выраженную концентрацию контента, произведённого в ограниченном числе стран, при этом значительная доля тайтлов не содержит информации о стране производства.

Original size 884x583

динамика добавлений

тип графика: линейный график

отображает количество тайтлов, добавленных на платформу по годам на основе поля date_added.

вывод: видны периоды активного расширения каталога и периоды относительной стабилизации, что позволяет рассматривать добавление контента как динамический процесс, а не равномерный поток.

Original size 884x584

возрастные рейтинги

тип графика: сложенная столбчатая диаграмма (stacked bar)

график сравнивает распределение возрастных рейтингов между фильмами и сериалами.

вывод: структура рейтингов различается в зависимости от типа контента: фильмы и сериалы ориентированы на разные возрастные аудитории, что отражает особенности форматов и длительности потребления.

Original size 884x583

длительность фильмов

тип графика: гистограмма

показано распределение длительности фильмов в минутах. в качестве описательных характеристик использованы медиана и межквартильный размах.

вывод: распределение асимметрично, поэтому медиана является более устойчивой характеристикой типичной длительности фильма, чем среднее значение.

Original size 884x584

используемые статистические методы

в проекте применялись следующие методы анализа данных:

описательная статистика (count, median, quartiles)

агрегация и группировка данных (groupby, value_counts)

анализ распределений с помощью гистограмм

временная агрегация по годам

данные методы позволили не только визуализировать исходную информацию, но и получить интерпретируемые выводы.

описание применения генеративной модели

в ходе работы использовалась генеративная модель ChatGPT (OpenAI).

модель применялась для:

помощи в структурировании этапов анализа

генерации и отладки кода на Python (pandas, matplotlib)

формулировки кратких аналитических выводов

генеративная модель не использовалась для создания или изменения данных. все вычисления и визуализации выполнены самостоятельно в среде Google Colab.

ссылка на модель: https://openai.com/chatgpt/

источник данных — открытый датасет с платформы Kaggle, также доступный в формате CSV через Zenodo.

ссылки: https://www.kaggle.com/datasets/shivamb/netflix-shows

https://zenodo.org/records/13925131