
анализ открытого датасета с помощью pandas и визуализации данных учебный проект по анализу данных и инфографике
для анализа был выбран датасет Netflix Titles, содержащий информацию о фильмах и сериалах, доступных на платформе Netflix.
датасет включает следующие параметры:
тип контента (фильм / сериал)
страна производства
дата добавления на платформу
год релиза
возрастной рейтинг
длительность
данный датасет представляет интерес как пример культурной и медиа-аналитики: он позволяет исследовать, как формируется и изменяется глобальный медиакаталог крупной стриминговой платформы.
анализ этих данных даёт возможность проследить:
географическое распределение контента
изменения в стратегии добавления тайтлов со временем
различия между фильмами и сериалами по формальным характеристикам
датасет достаточно объёмный и структурированный, что делает его подходящим для анализа с использованием Python и Pandas.
в рамках проекта были сформулированы следующие вопросы:
какие страны представлены в каталоге Netflix наиболее активно?
как менялось количество добавляемых тайтлов со временем?
существуют ли различия между фильмами и сериалами по возрастным рейтингам?
как распределяется длительность фильмов и какие значения можно считать типичными?
работа с данными включала несколько этапов:
загрузка CSV-файла с помощью pandas
удаление дубликатов
приведение даты добавления к формату datetime
извлечение года добавления
разбор поля duration на числовое значение и единицу измерения
выделение фильмов и сериалов в отдельные подтаблицы
все этапы обработки выполнялись программно, без ручного редактирования данных.
для визуализаций был выбран единый минималистичный стиль:
тёмный фон
ограниченная цветовая палитра с акцентными цветами
отсутствие рамок у графиков
сетка только по оси Y
единый шрифт (Inter), подключённый напрямую через код
цвета и шрифты задавались исключительно средствами Python (matplotlib), без постобработки в графических редакторах.
страны производства
тип графика: горизонтальная столбчатая диаграмма
график показывает топ-10 стран по количеству тайтлов в каталоге Netflix. учёт велся по первой указанной стране производства; пропущенные значения были объединены в категорию Unknown.
вывод: каталог Netflix имеет выраженную концентрацию контента, произведённого в ограниченном числе стран, при этом значительная доля тайтлов не содержит информации о стране производства.
динамика добавлений
тип графика: линейный график
отображает количество тайтлов, добавленных на платформу по годам на основе поля date_added.
вывод: видны периоды активного расширения каталога и периоды относительной стабилизации, что позволяет рассматривать добавление контента как динамический процесс, а не равномерный поток.
возрастные рейтинги
тип графика: сложенная столбчатая диаграмма (stacked bar)
график сравнивает распределение возрастных рейтингов между фильмами и сериалами.
вывод: структура рейтингов различается в зависимости от типа контента: фильмы и сериалы ориентированы на разные возрастные аудитории, что отражает особенности форматов и длительности потребления.
длительность фильмов
тип графика: гистограмма
показано распределение длительности фильмов в минутах. в качестве описательных характеристик использованы медиана и межквартильный размах.
вывод: распределение асимметрично, поэтому медиана является более устойчивой характеристикой типичной длительности фильма, чем среднее значение.
используемые статистические методы
в проекте применялись следующие методы анализа данных:
описательная статистика (count, median, quartiles)
агрегация и группировка данных (groupby, value_counts)
анализ распределений с помощью гистограмм
временная агрегация по годам
данные методы позволили не только визуализировать исходную информацию, но и получить интерпретируемые выводы.
описание применения генеративной модели
в ходе работы использовалась генеративная модель ChatGPT (OpenAI).
модель применялась для:
помощи в структурировании этапов анализа
генерации и отладки кода на Python (pandas, matplotlib)
формулировки кратких аналитических выводов
генеративная модель не использовалась для создания или изменения данных. все вычисления и визуализации выполнены самостоятельно в среде Google Colab.
ссылка на модель: https://openai.com/chatgpt/
источник данных — открытый датасет с платформы Kaggle, также доступный в формате CSV через Zenodo.
ссылки: https://www.kaggle.com/datasets/shivamb/netflix-shows