
ВВЕДЕНИЕ
Для анализа я выбрала набор данных «Netflix Movies and TV Shows», который представляет собой полный каталог платформы Netflix на момент его выгрузки. Этот датасет был найден на платформе Kaggle — крупнейшем международном сообществе специалистов по Data Science, где разработчики и аналитики со всего мира делятся наборами данных и готовыми решениями. Набор содержит 8 807 позиций контента (фильмов и сериалов) и 12 характеристик для каждой из них, включая тип, страну производства, дату добавления на платформу, год выпуска, возрастной рейтинг и жанры. Период охвата данных впечатляет: от самых ранних картин 1915 года до новинок 2021 года, что позволяет проследить не только текущую стратегию стриминга, но и исторические тренды в индустрии развлечений.
Характеристики датасета:
- Объём: 8,807 строк, 12 столбцов - Период: контент с 1915 по 2021 год -Источник: https://www.kaggle.com/datasets/shivamb/netflix-shows - Ключевые поля: тип контента (фильм/сериал), название, страна производства, дата добавления на платформу, год выпуска, возрастной рейтинг, продолжительность, жанры, описание.

Мне было интересно проанализировать именно эти данные, потому что Netflix давно перестал быть просто видеосервисом и превратился в глобальный культурный и медийный феномен, в то, как мир потребляет контент. Этот датасет обладает особой ценностью: он представляет собой редкий случай, когда стратегические бизнес-данные одной из самых влиятельных медиакомпаний мира находятся в открытом доступе. Анализ позволяет заглянуть «за кулисы» контентной стратегии, понять логику инвестиций в производство и приобретение прав, а также выявить глобальные и локальные тренды.
С практической точки зрения, данные являются идеальным учебным полигоном: они достаточно объёмны, содержат реальные проблемы вроде пропущенных значений и нестандартных форматов, что позволяет отработать критически важные для любого аналитика навыки data cleaning и предобработки. На личном уровне, как активный пользователь платформы, я хотела разобраться, какие закономерности и решения формируют мой собственный выбор и рекомендации, которые я получаю каждый день.
ЭТАПЫ РАБОТЫ
Для визуализации выводов я решила использовать комбинацию из четырёх основных типов графиков, каждый из которых был выбран для решения конкретной аналитической задачи и максимально наглядной передачи информации.
Во-первых, это сложенная столбчатая диаграмма (Stacked Bar Chart), которая идеально подошла для демонстрации распределения контента по типам (фильмы и сериалы) в разрезе различных возрастных рейтингов. Этот тип графика позволяет одномоментно сравнить две ключевые категории и увидеть их пропорциональный вклад в каждую группу, например, понять, какие рейтинги больше характерны для сериалов, а какие — для фильмов.
Во-вторых, для отображения динамики выпуска контента по десятилетиям я выбрала линейный график с заливкой (Line Chart with Area Fill). Он не просто соединяет точки данных, но и визуально акцентирует объём изменений с течением времени, что делает очевидным экспоненциальный рост производства контента для платформы, начавшийся в 1990-е годы.
В-третьих, чтобы наглядно представить топ-10 стран — крупнейших производителей контента для Netflix, я использовала горизонтальную столбчатую диаграмму (Horizontal Bar Chart). Такая ориентация удобна для чтения длинных названий стран и позволяет легко сравнивать величины, сразу определяя абсолютного лидера.
Наконец, для демонстрации того, как контент распределён по количеству присвоенных ему жанров, была создана кольцевая диаграмма (Donut Chart) — более современная и стильная альтернатива традиционной круговой. Она наглядно показывает доли целого (контент с одним, двумя, тремя и более жанрами), а её центральное пространство можно эффективно использовать для вывода ключевого вывода, например, о преобладании гибридных жанров. Такое разнообразие типов визуализации обеспечивает комплексный взгляд на данные и соответствует требованию задания о создании консистентной инфографики.
Работа над проектом велась последовательно, начиная с изучения и очистки исходных данных. Первым делом я загрузила датасет в среду Google Colab с помощью библиотеки Pandas и выполнила базовый exploratory data analysis (EDA). На этом этапе стало ясно, что данные требуют предварительной подготовки: в столбцах director, cast, country и date_added присутствовали пропущенные значения, а формат даты добавления был строковым. Для решения этих проблем я написала и выполнила следующий код:
df = pd.read_csv ('/content/netflix_titles.csv')
df['country'].fillna ('Unknown', inplace=True) df['rating'].fillna ('Not Rated', inplace=True) df['date_added'] = pd.to_datetime (df['date_added'], errors='coerce') df['year_added'] = df['date_added'].dt.year
df['decade'] = (df['release_year'] // 10) * 10 df['genres_list'] = df['listed_in'].str.split (', ') df['genre_count'] = df['genres_list'].apply (lambda x: len (x) if isinstance (x, list) else 0)
Этот этап был критически важен, так как позволил привести данные к структурированному виду, создать новые аналитические признаки (например, десятилетие выпуска и количество жанров) и заложить основу для всех последующих визуализаций.
Ключевым требованием задания была оригинальная стилизация графиков, отличная от стандартного вида matplotlib. За основу я взяла фирменный стиль самого бренда Netflix. Моим главным источником вдохновения стал официальный сайт и интерфейс приложения Netflix, где доминируют глубокий чёрный фон (000000), яркий киноварно-красный акцентный цвет (E50914) и нейтральные серые (564D4D) и бежевые (F5F5F1) оттенки. Вдохновляясь минималистичным и контрастным дизайном платформы, я создала собственную цветовую палитру и применил её ко всем графикам. Для полного контроля над стилем я вручную настроила параметры через rcParams, что позволило задать единый шрифт, размеры заголовков и меток на всех осях, добившись целостного и профессионального вида инфографики.
В проекте я сознательно использовала два подхода к визуализации: изучающий (exploratory) и объясняющий (explanatory). Изучающая визуализация была применена на начальном этапе: простые гистограммы распределения лет выпуска и проверочные графики служили лично мне, чтобы понять структуру данных, обнаружить аномалии и сформировать гипотезы. Например, первичный анализ показал невероятный рост количества контента после 2010 года. Затем, для презентации, я перешла к объясняющей визуализации. Каждый из четырёх итоговых графиков был создан с чёткой целью — донести до зрителя конкретный вывод. Графики были очищены от лишней информации, снабжены ясными заголовками-выводами (например, «Динамика выпуска контента по десятилетиям»), аннотациями к ключевым точкам (пиковым значениям) и аккуратной легендой, что превратило сырые данные в понятную историю.
Для получения количественных выводов я использовала набор базовых, но мощных статистических методов. Дескриптивная (описательная) статистика, рассчитанная с помощью методов .describe () и .value_counts (), позволила получить общую картину: среднее количество жанров на контент, процентное соотношение фильмов и сериалов, модальные рейтинги. Анализ временных рядов был применён к данным, сгруппированным по десятилетиям, чтобы выявить и визуализировать основной тренд — экспоненциальный рост. Частотный (категориальный) анализ лег в основу диаграмм, показывающих распределение контента по рейтингам и странам, где ключевыми метриками были абсолютные частоты и проценты. Наконец, элементы корреляционного анализа помогли интуитивно оценить взаимосвязь между признаками, например, между количеством жанров и типом контента. Этот комплекс методов обеспечил не поверхностное описание, а содержательный анализ данных, подкреплённый числами.
ИТОГОВЫЕ ГРАФИКИ
БЛОКНОТ И БАЗА ДАННЫХ
Блокнот с кодом и датасет: https://disk.yandex.ru/d/gD3nF0gbMG7mng
ОПИСАНИЕ ПРИМЕНЕНИЯ ГЕНЕРАТИВНОЙ МОДЕЛИ
https://ideogram.ai/ — создание обложки https://chatgpt.com — создание изображений
https://chat.deepseek.com/ — использовался для вопросов по кастомизации графиков, уточнений работы отдельных частей кода.