Original size 1140x1600

За кадром данных: что скрывает главный экран Netflix

PROTECT STATUS: not protected
The project is taking part in the competition

ВВЕДЕНИЕ

Для анализа я выбрала набор данных «Netflix Movies and TV Shows», который представляет собой полный каталог платформы Netflix на момент его выгрузки. Этот датасет был найден на платформе Kaggle — крупнейшем международном сообществе специалистов по Data Science, где разработчики и аналитики со всего мира делятся наборами данных и готовыми решениями. Набор содержит 8 807 позиций контента (фильмов и сериалов) и 12 характеристик для каждой из них, включая тип, страну производства, дату добавления на платформу, год выпуска, возрастной рейтинг и жанры. Период охвата данных впечатляет: от самых ранних картин 1915 года до новинок 2021 года, что позволяет проследить не только текущую стратегию стриминга, но и исторические тренды в индустрии развлечений.

Характеристики датасета:

- Объём: 8,807 строк, 12 столбцов - Период: контент с 1915 по 2021 год -Источник: https://www.kaggle.com/datasets/shivamb/netflix-shows - Ключевые поля: тип контента (фильм/сериал), название, страна производства, дата добавления на платформу, год выпуска, возрастной рейтинг, продолжительность, жанры, описание.

big
Original size 1536x1024

Мне было интересно проанализировать именно эти данные, потому что Netflix давно перестал быть просто видеосервисом и превратился в глобальный культурный и медийный феномен, в то, как мир потребляет контент. Этот датасет обладает особой ценностью: он представляет собой редкий случай, когда стратегические бизнес-данные одной из самых влиятельных медиакомпаний мира находятся в открытом доступе. Анализ позволяет заглянуть «за кулисы» контентной стратегии, понять логику инвестиций в производство и приобретение прав, а также выявить глобальные и локальные тренды.

С практической точки зрения, данные являются идеальным учебным полигоном: они достаточно объёмны, содержат реальные проблемы вроде пропущенных значений и нестандартных форматов, что позволяет отработать критически важные для любого аналитика навыки data cleaning и предобработки. На личном уровне, как активный пользователь платформы, я хотела разобраться, какие закономерности и решения формируют мой собственный выбор и рекомендации, которые я получаю каждый день.

ЭТАПЫ РАБОТЫ

Original size 1412x772

Для визуализации выводов я решила использовать комбинацию из четырёх основных типов графиков, каждый из которых был выбран для решения конкретной аналитической задачи и максимально наглядной передачи информации.

Original size 1412x772

Во-первых, это сложенная столбчатая диаграмма (Stacked Bar Chart), которая идеально подошла для демонстрации распределения контента по типам (фильмы и сериалы) в разрезе различных возрастных рейтингов. Этот тип графика позволяет одномоментно сравнить две ключевые категории и увидеть их пропорциональный вклад в каждую группу, например, понять, какие рейтинги больше характерны для сериалов, а какие — для фильмов.

Во-вторых, для отображения динамики выпуска контента по десятилетиям я выбрала линейный график с заливкой (Line Chart with Area Fill). Он не просто соединяет точки данных, но и визуально акцентирует объём изменений с течением времени, что делает очевидным экспоненциальный рост производства контента для платформы, начавшийся в 1990-е годы.

В-третьих, чтобы наглядно представить топ-10 стран — крупнейших производителей контента для Netflix, я использовала горизонтальную столбчатую диаграмму (Horizontal Bar Chart). Такая ориентация удобна для чтения длинных названий стран и позволяет легко сравнивать величины, сразу определяя абсолютного лидера.

Original size 1412x772
Original size 1412x772

Наконец, для демонстрации того, как контент распределён по количеству присвоенных ему жанров, была создана кольцевая диаграмма (Donut Chart) — более современная и стильная альтернатива традиционной круговой. Она наглядно показывает доли целого (контент с одним, двумя, тремя и более жанрами), а её центральное пространство можно эффективно использовать для вывода ключевого вывода, например, о преобладании гибридных жанров. Такое разнообразие типов визуализации обеспечивает комплексный взгляд на данные и соответствует требованию задания о создании консистентной инфографики.

Original size 1412x772

Работа над проектом велась последовательно, начиная с изучения и очистки исходных данных. Первым делом я загрузила датасет в среду Google Colab с помощью библиотеки Pandas и выполнила базовый exploratory data analysis (EDA). На этом этапе стало ясно, что данные требуют предварительной подготовки: в столбцах director, cast, country и date_added присутствовали пропущенные значения, а формат даты добавления был строковым. Для решения этих проблем я написала и выполнила следующий код:

1. Загрузка данных

df = pd.read_csv ('/content/netflix_titles.csv')

2. Базовая очистка: заполнение пропусков и преобразование типов

df['country'].fillna ('Unknown', inplace=True) df['rating'].fillna ('Not Rated', inplace=True) df['date_added'] = pd.to_datetime (df['date_added'], errors='coerce') df['year_added'] = df['date_added'].dt.year

3. Создание новых признаков для анализа

df['decade'] = (df['release_year'] // 10) * 10 df['genres_list'] = df['listed_in'].str.split (', ') df['genre_count'] = df['genres_list'].apply (lambda x: len (x) if isinstance (x, list) else 0)

Этот этап был критически важен, так как позволил привести данные к структурированному виду, создать новые аналитические признаки (например, десятилетие выпуска и количество жанров) и заложить основу для всех последующих визуализаций.

Original size 1412x772

Ключевым требованием задания была оригинальная стилизация графиков, отличная от стандартного вида matplotlib. За основу я взяла фирменный стиль самого бренда Netflix. Моим главным источником вдохновения стал официальный сайт и интерфейс приложения Netflix, где доминируют глубокий чёрный фон (000000), яркий киноварно-красный акцентный цвет (E50914) и нейтральные серые (564D4D) и бежевые (F5F5F1) оттенки. Вдохновляясь минималистичным и контрастным дизайном платформы, я создала собственную цветовую палитру и применил её ко всем графикам. Для полного контроля над стилем я вручную настроила параметры через rcParams, что позволило задать единый шрифт, размеры заголовков и меток на всех осях, добившись целостного и профессионального вида инфографики.

Original size 1412x772

В проекте я сознательно использовала два подхода к визуализации: изучающий (exploratory) и объясняющий (explanatory). Изучающая визуализация была применена на начальном этапе: простые гистограммы распределения лет выпуска и проверочные графики служили лично мне, чтобы понять структуру данных, обнаружить аномалии и сформировать гипотезы. Например, первичный анализ показал невероятный рост количества контента после 2010 года. Затем, для презентации, я перешла к объясняющей визуализации. Каждый из четырёх итоговых графиков был создан с чёткой целью — донести до зрителя конкретный вывод. Графики были очищены от лишней информации, снабжены ясными заголовками-выводами (например, «Динамика выпуска контента по десятилетиям»), аннотациями к ключевым точкам (пиковым значениям) и аккуратной легендой, что превратило сырые данные в понятную историю.

Original size 1412x772
Original size 1412x772
Original size 1280x720
Original size 1412x772

Для получения количественных выводов я использовала набор базовых, но мощных статистических методов. Дескриптивная (описательная) статистика, рассчитанная с помощью методов .describe () и .value_counts (), позволила получить общую картину: среднее количество жанров на контент, процентное соотношение фильмов и сериалов, модальные рейтинги. Анализ временных рядов был применён к данным, сгруппированным по десятилетиям, чтобы выявить и визуализировать основной тренд — экспоненциальный рост. Частотный (категориальный) анализ лег в основу диаграмм, показывающих распределение контента по рейтингам и странам, где ключевыми метриками были абсолютные частоты и проценты. Наконец, элементы корреляционного анализа помогли интуитивно оценить взаимосвязь между признаками, например, между количеством жанров и типом контента. Этот комплекс методов обеспечил не поверхностное описание, а содержательный анализ данных, подкреплённый числами.

Original size 1412x772

ИТОГОВЫЕ ГРАФИКИ

Original size 1660x1226
Original size 1412x772

БЛОКНОТ И БАЗА ДАННЫХ

Блокнот с кодом и датасет: https://disk.yandex.ru/d/gD3nF0gbMG7mng

ОПИСАНИЕ ПРИМЕНЕНИЯ ГЕНЕРАТИВНОЙ МОДЕЛИ

https://ideogram.ai/ — создание обложки https://chatgpt.com — создание изображений

https://chat.deepseek.com/ — использовался для вопросов по кастомизации графиков, уточнений работы отдельных частей кода.

Original size 1536x1024