
Описание проекта
В эпоху цифровой трансформации и расцвета искусственного интеллекта кинематограф остается не только видом искусства, но и богатейшим источником структурированных данных, отражающих культурные тенденции, зрительские предпочтения и эволюцию творческих индустрий. Для данного проекта я выбрала датасет оценок фильмов с портала Internet Movie Database (IMDB) — крупнейшей в мире базы данных о кинематографе, содержащей информацию о более чем 8 миллионов названий. Конкретно использовалась коллекция данных IMDB Datasets, включающая такие показатели, как средние рейтинги, количество голосов, жанровые категории, продолжительность фильмов, год производства и другие метаданные. Стоит отметить, что данные включают в себя исследования до 2020 года. Типы диограмм: — столбчатые диаграммы — линейные диаграммы — пайчарт Выбор пал на диаграммы, наиболее наглядно визуализирующие разницу между данными, чтобы все было сразу понятно!
Цветовое решение
Для создание цветовой палитры диограмм я решила обратиться к фирменному цвету сайта IMDb — #F5C618 (или солнечно-жёлтому)

Визуализация данных
(1) Динамика количества релизов по годам
На этом графике мы видим как с годами и с развитием технологий, кино из экзотического развлечения превратилось в огромную и очень продуктивную индустрию, выпускающую тысячи новинок каждый год. Важно отметить, что резкий спад в самом конце графика, после 2020 года — это не реальное падение, а просто обрыв данных.
(2) Топ жанров по количеству (горизонтальная, столбчатая)
Этот график показывает, какие жанры кинематограф любит больше всего. Можно сделать вывод, что киноиндустрия в первую очередь удовлетворяет базовые и самые массовые запросы зрителя: эмоции и смех, а уже потом — более специфические вкусы.
(3) Пайчарт возрастных рейтингов
Этот график показывает, для какой аудитории чаще всего снимают фильмы и сериалы. Абсолютно лидирует рейтинг R — это контент для взрослых, который составляет больше трети всего производства. Вместе с рейтингами PG-13 и TV-14 (для подростков от 13-14 лет) они формируют подавляющее большинство. Это значит, что киноиндустрия в основном ориентируется на взрослую и подростковую аудиторию, а не на детскую или семейную.
(4) Топ-10 по количеству голосов
Этот график показывает самые обсуждаемые и популярные фильмы и сериалы среди зрителей по количеству оставленных оценок. Лидером с огромным отрывом стал «Побег из Шоушенка», что подтверждает его статус всенародно любимой классики. В топ также входят культовые блокбастеры вроде «Тёмного рыцаря», «Начала» и «Матрицы», а также сериал «Игра престолов». Это говорит о том, что наибольший отклик у зрителей вызывают масштабные, сложные и философские истории, которые остаются в памяти на долгие годы.
(5) Сериалы VS Фильмы
Этот график показывает соотношение фильмов и сериалов в базе данных. Абсолютное большинство — 72% — составляют полнометражные фильмы. Это подтверждает, что традиционный формат кино долгое время был и остаётся основой индустрии. Однако сериалы, занимая уже больше четверти всего контента (28%), демонстрируют значительное влияние нового формата, популярность которого стремительно росла в последние десятилетия, особенно с появлением стриминговых платформ.
Заключение
В процессе изучения датасета, содержащего информацию о сайте с кинофильмами IMBD, я создала 5 диаграмм, наглядно иллюстрирующих тенденции в мире кино: от популярных жанров, до количества релизов в год. В настоящее время кино превратилось в глобальную и мощнейшую индустрию, которая каждый год производит тысячи фильмов. Она росла на протяжении всего XX века и достигла невероятных масштабов к нашему времени. Эта индустрия формирует наши общие культурные ценности и интересы. Таким образом, кино — это гигантское зеркало общества: оно отражает то, какие истории мы хотим видеть, что нас волнует, смешит и пугает. Его влияние на наше восприятие мира, манеру общения и даже на наши мечты поистине огромно.
Описание применения генеративной модели
DeepSeek (https://www.deepseek.com/) — обращения с целью генерации инструкций и рекомендаций по улучшению кода.
Блокнот с кодом и датасет