Original size 1523x2048

Анализ фильмов и сериалов Netflix

PROTECT STATUS: not protected
The project is taking part in the competition

Введение

Основная часть фильмов и сериалов, которые я смотрю, были выпущены на Netflix, поэтому для данной работы я выбрала датасет фильмов и сериалов с этой платформы с сайта Kaggle и решила определить, какой формат видеоматериала встречается чаще всего.

В анализе был использован линейный график и гистограммы, так как они хорошо визуализируют количественные данные.

Из статистических методов были использованы сводка и группировка данных.

Этапы работы

Для начала нужно было импортировать необходимые библиотеки и данные.

big
Original size 1785x161

Далее данные нужно было предобработать: удалить строки с пропущенными значениями в некоторых колонках (date_added, rating и duration), преобразовать колонку даты добавления и создать две новые колонки: для длительности видео и единиц измерения (минуты или сезоны).

big
Original size 1771x410

Далее нужно было стилизовать все последующие графики. Для этого использовались цвета, соответствующие логотипу Netflix: чёрный, оттенки красного и серого.

big
Original size 1754x371

Для начала нужно было выявить самый популярный формат медиа на Netflix: фильмы или сериалы. Однако в итоге было решено использовать объясняющий формат визуализации данных: данная линейная диаграмма позволяет сделать вывод, что со временем у платформы сформировался больший спрос на фильмы, чем на сериалы.

Сначала данные были сгруппированы по году и формату для подсчёта количества. Затем с помощью seaborn были построены линейные диаграммы, где разные цвета обозначают тип контента, а по осям отложены год и количество.

Original size 1668x281
Original size 1018x553

Дальнейшая визуализация данных была в основном изучающая, чтобы продолжить выявлять самый распространённый формат видеоматериалов на выбранной платформе.

Например, далее были отобраны 10 стран, чаще всего производивших фильмы для Netflix.

Сначала данные были отфильтрованы: убраны параметры unknown, исключены сериалы, подсчитано количество фильмов по страно и отобраны первые 10. Затем на основе этих данных была создана столбчатая диаграмма с необходимыми подписями и форматированием.

Original size 1666x276
Original size 990x590

Так было выявлено, что большинство фильмов на Netflix были произведены в США.

Далее был определён наиболее часто встречающийся диапазон длительности фильмов. Снова из данных были взяты только фильмы, а затем была построена гистограмма, основанная на сведениях об их продолжительности.

Original size 1672x247
Original size 989x590

Можно заметить, что большинство фильмов Netflix имеют продолжительность в диапазоне 90-100 минут.

Последним был выявлен наиболее часто встречающийся возрастной рейтинг среди фильмов. Снова из данных были исключены сериалы, затем было подсчитано количество фильмов каждого рейтинга, которое визуализировалось в гистограмме.

Original size 1677x307
Original size 989x590

По данной гистограмме видно, что чаще всего встречаются фильмы рейтинг TV-MA (17+).

Итого портрет наиболее часто встречающегося медиа на Netflix: фильмы продолжительностью 90-100 минут и рейтингом TV-MA, произведённые в США.