
Описание проекта

Кино всегда было моим увлечением, и я хочу исследовать его разнообразие, чтобы понять, какие факторы делают фильмы успешными и запоминающимися.
Датасет я брала с платформы Kaggle.
Стилизация

Для графиков я подобрала тематическую палитру цветов.
Она сочетает в себе глубокие и насыщенные оттенки, которые создают атмосферу драматизма, напряжения и энергии, идеально подходящую для проекта о кино. Более светлый цвет вносит баланс и элегантность, создавая гармонию с яркими акцентами, что отражает разнообразие эмоций и жанров, присущих киноиндустрии.

Times New Roman был выбран для графиков, так как это классический и универсальный шрифт, который ассоциируется с формальностью и читаемостью. Он широко используется в академических и профессиональных документах, что придает графикам строгость и официальность. Этот шрифт легко воспринимается на любых устройствах, а его традиционность делает его хорошим выбором для анализа данных, особенно в контексте исследования.
Загрузка, анализ и подготовка данных
Импорт необходимых библиотек

Сначала мы импортировали необходимые библиотеки:
Затем мы прочитали csv файл, а также удалили лишнюю колонку и в конце вывели первые 5 строчек.
Так выглядят первые 5 наблюдений в наших данных
Просмотр данных

В датасете представлены следующие признаки:
• Title — название фильма • Release Date — дата релиза • Description — описание фильма • Rating — средняя оценка на Metacritic, дающая представление о том, как фильм был воспринят критиками • No of Persons Voted — количество людей, оценивших фильм на Metacritic • Directed by — режиссер (ы) фильма • Written by — сценарист (ы), ответственный (ые) за сценарий фильма • Duration — продолжительность фильма • Genres — жанры фильма
Всего в наборе данных 16290 наблюдений и 9 признаков.
Очистка данных

В данных содержится 1117 дубликатов и достаточное число пропусков.
Я решила, что заменять их на медиану неправильно, так как у них слишком высокая доля.
Поэтому удалила пропуски и дубликаты, тем самым оставив для анализа 11447 наблюдений.
Графики
1. Круговая диаграмма

Сначала я написала функцию, которая создает новый признак — Rating Category, значение которого зависит от рейтинга фильма.
Функция разделяет фильмы на три категории: Высокий, Средний и Низкий рейтинги.
Мне стало интересно, фильмов какого рейтинга в данных больше всего представлено.
График 1. Круговая диаграмма

На круговой диаграмме показано распределение фильмов по категориям рейтинга. Большинство фильмов имеют средний рейтинг (72.3%), в то время как высокий рейтинг имеют 16,2% фильмов, а низкий рейтинг — 11,5%. Это свидетельствует о том, что большинство фильмов в выборке имеют достаточно средние оценки, с меньшей долей как высоких, так и низких оценок.
2. Линейный график
График 2. Линейный

На линейном графике показано, как изменялось количество фильмов по категориям рейтинга с 1970 по 2020 год. Явно видно, что количество фильмов с высоким рейтингом значительно увеличилось в последние десятилетия, особенно после 2010 года. В то время как количество средних и низких рейтингов остается относительно стабильным, но с небольшим ростом. Это может свидетельствовать о росте качества фильмов в киноиндустрии за последние годы.
Линейный график идеально подходит для отображения изменений во времени, так как он позволяет наглядно увидеть тренды и динамику изменения количества фильмов в разных категориях рейтинга по годам. Он помогает сравнивать изменения в каждой категории и видеть, как они развиваются на протяжении времени.
3. Столбчатая диаграмма
График 3. Столбчатая диаграмма

На графике видно, что наиболее популярный жанр кино — это драма, затем идут комедия и триллер.
Столбчатая диаграмма — это наиболее удачный вариант для демонстрации распределения категориальных данных.
4. Ящик-с-усами
График 4. Ящик-с-усами

График показывает, что у Clint Eastwood и Ron Howard есть фильмы с низким рейтингом (выбросы), в то время как у Steven Soderbergh, Steven Spielberg и Woody Allen рейтинги более стабильные и высокие.
Ящичная диаграмма идеально визуализирует распределение рейтингов, показывая медиану, разброс и выбросы, что позволяет легко сравнить режиссеров по этим характеристикам.
Выводы

Благодаря навыкам в области анализа данных я смогла исследовать интересующую меня тему!