Original size 406x533

Магия кино: анализ 16000 фильмов

PROTECT STATUS: not protected
The project is taking part in the competition

Описание проекта

post

Я решила анализировать кино, потому что люблю фильмы и считаю, что они способны передавать мощные эмоции и важные послания.

Кино всегда было моим увлечением, и я хочу исследовать его разнообразие, чтобы понять, какие факторы делают фильмы успешными и запоминающимися.

Датасет я брала с платформы Kaggle.

Стилизация

post

Для графиков я подобрала тематическую палитру цветов.

Она сочетает в себе глубокие и насыщенные оттенки, которые создают атмосферу драматизма, напряжения и энергии, идеально подходящую для проекта о кино. Более светлый цвет вносит баланс и элегантность, создавая гармонию с яркими акцентами, что отражает разнообразие эмоций и жанров, присущих киноиндустрии.

Палитра:

винный: 651335 бежевый: ECCEC3 красный: DE4343 оранжевый: E8890A
post

Times New Roman был выбран для графиков, так как это классический и универсальный шрифт, который ассоциируется с формальностью и читаемостью. Он широко используется в академических и профессиональных документах, что придает графикам строгость и официальность. Этот шрифт легко воспринимается на любых устройствах, а его традиционность делает его хорошим выбором для анализа данных, особенно в контексте исследования.

Загрузка, анализ и подготовка данных

Импорт необходимых библиотек

post

Сначала мы импортировали необходимые библиотеки:

  • pandas — для работы с датафреймами
  • matplotlib.pyplot — для создания визуализаций
  • модуль font_manager для установки шрифта

Затем мы прочитали csv файл, а также удалили лишнюю колонку и в конце вывели первые 5 строчек.

Original size 1498x392

Так выглядят первые 5 наблюдений в наших данных

Просмотр данных

post

В датасете представлены следующие признаки:

• Title — название фильма • Release Date — дата релиза • Description — описание фильма • Rating — средняя оценка на Metacritic, дающая представление о том, как фильм был воспринят критиками • No of Persons Voted — количество людей, оценивших фильм на Metacritic • Directed by — режиссер (ы) фильма • Written by — сценарист (ы), ответственный (ые) за сценарий фильма • Duration — продолжительность фильма • Genres — жанры фильма

Всего в наборе данных 16290 наблюдений и 9 признаков.

Очистка данных

post

В данных содержится 1117 дубликатов и достаточное число пропусков.

Я решила, что заменять их на медиану неправильно, так как у них слишком высокая доля.

Поэтому удалила пропуски и дубликаты, тем самым оставив для анализа 11447 наблюдений.

Графики

1. Круговая диаграмма

post

Сначала я написала функцию, которая создает новый признак — Rating Category, значение которого зависит от рейтинга фильма.

Функция разделяет фильмы на три категории: Высокий, Средний и Низкий рейтинги.

Мне стало интересно, фильмов какого рейтинга в данных больше всего представлено.

Original size 640x503

График 1. Круговая диаграмма

post

На круговой диаграмме показано распределение фильмов по категориям рейтинга. Большинство фильмов имеют средний рейтинг (72.3%), в то время как высокий рейтинг имеют 16,2% фильмов, а низкий рейтинг — 11,5%. Это свидетельствует о том, что большинство фильмов в выборке имеют достаточно средние оценки, с меньшей долей как высоких, так и низких оценок.

2. Линейный график

Original size 684x471

График 2. Линейный

post

На линейном графике показано, как изменялось количество фильмов по категориям рейтинга с 1970 по 2020 год. Явно видно, что количество фильмов с высоким рейтингом значительно увеличилось в последние десятилетия, особенно после 2010 года. В то время как количество средних и низких рейтингов остается относительно стабильным, но с небольшим ростом. Это может свидетельствовать о росте качества фильмов в киноиндустрии за последние годы.

Линейный график идеально подходит для отображения изменений во времени, так как он позволяет наглядно увидеть тренды и динамику изменения количества фильмов в разных категориях рейтинга по годам. Он помогает сравнивать изменения в каждой категории и видеть, как они развиваются на протяжении времени.

3. Столбчатая диаграмма

Original size 854x581

График 3. Столбчатая диаграмма

post

На графике видно, что наиболее популярный жанр кино — это драма, затем идут комедия и триллер.

Столбчатая диаграмма — это наиболее удачный вариант для демонстрации распределения категориальных данных.

4. Ящик-с-усами

Original size 570x516

График 4. Ящик-с-усами

post

График показывает, что у Clint Eastwood и Ron Howard есть фильмы с низким рейтингом (выбросы), в то время как у Steven Soderbergh, Steven Spielberg и Woody Allen рейтинги более стабильные и высокие.

Ящичная диаграмма идеально визуализирует распределение рейтингов, показывая медиану, разброс и выбросы, что позволяет легко сравнить режиссеров по этим характеристикам.

Выводы

post

Python отлично подходит для анализа данных и визуализации благодаря мощным библиотекам, таким как pandas для обработки данных и matplotlib для создания графиков. Он позволяет эффективно очищать, обрабатывать и анализировать большие объемы данных, а также создавать разнообразные визуализации для их представления.

Благодаря навыкам в области анализа данных я смогла исследовать интересующую меня тему!