
Концепция и выбор данных
С самого детства я обожаю мультфильмы Pixar. Поэтому для проекта я выбрала именно их: это студия, которая подарила кучу историй, которые помнят и обсуждают годами. У Pixar фильмы выходят уже много десятилетий, и на них всегда есть реакция — кто-то ставит высокие оценки, кто-то спорит, какие-то картины становятся любимыми, а какие-то неожиданно проваливаются. Мне стало интересно посмотреть на Pixar не только через призму детства, но и через цифры: как зрители и критики оценивают фильмы, какие мультфильмы заходят лучше всего и как менялось восприятие студии со временем.


В ходе исследования были использованы данные с сайта Kaggle. Датасет представляет собой таблицу, где 1 строка = 1 фильм (всего 28 фильмов) и 16 столбцов, включающие в себя оценки критиков и зрителей, возрастной рейтинг, информацию о бюджете и сборах мультфильмов по всему миру.
На графиках ко всем элементам визуализации применялся единый стиль, все цвета взяты с выбранной мною палитры.
Цели и исследовательские вопросы
У меня был достаточно большой простор для изучения и исследования, так как выбранный датасет предлагал большой объем информации о мультфильмах Pixar. Я постаралась собрать всю информацию воедино и максимально ее систематизировать, разбив на группы вопросов: 1. Чем отличаются оценки критиков и зрителей у фильмов Pixar? 2. На какие MPAA-рейтинги Pixar получает более высокие оценки? 3. Как связаны бюджет и кассовые сборы у фильмов Pixar? 4. Какие фильмы окупались лучше всего (ROI) и что это показывает про стратегию студии? 5. Как менялось среднее качество фильмов Pixar по годам?
Начало работы
Для начала я импортировала все нужные библиотеки для работы с графиками, датасетами и массивами, ChatGPT помог написать код для разархивирования zip-файла с шрифтом в мою программу.
Далее загружается датасет из файла pixar_films new.csv в таблицу DataFrame (df). После этого рассчитываются несколько новых столбцов, которые нужны для анализа: оценка зрителей приводится к шкале 0–100 (audience_score_100 = imdb_score * 10), оценка критиков берётся как среднее Rotten Tomatoes и Metacritic (critics_score_100). Также высчитаем здесь разрыв мнений зрителей и критиков — gap, а также его модуль abs_gap, чтобы находить самые «спорные» фильмы независимо от знака.
Ниже записываю все коды цветов для удобства и задаю некоторые элементы для будущих графиков (размер шрифта, цвет, положение и тд).
Графики и исследование
Теперь перейдём к основной части исследования — к визуализациям. С самого начала мне было интересно узнать как отличаются оценки критиков и зрителей у фильмов Pixar. Для этого я сравнила среднюю оценку критиков (Rotten Tomatoes и Metacritic) с оценкой зрителей (IMDb×10) и посмотрела на фильмы с наибольшим разрывом между двумя группами. Такой график сразу показывает, где мнения совпадают, а где аудитория и профессиональная критика видят один и тот же мультфильм совершенно по-разному.
По графику видно, что в большинстве случаев критики оценивают фильмы Pixar выше, чем зрители. Ситуации, когда разрыв положительный (то есть зрители ставят выше критиков), встречаются существенно реже и представлены меньшим числом картин. В рамках этого датасета складывается устойчивое впечатление, что критическое сообщество в среднем более благосклонно к Pixar, чем массовая аудитория.
Следующий график, который я построила, показывает распределение оценок фильмов Pixar в зависимости от MPAA-рейтинга (G — все возраста, PG — 13+). Визуализация включает несколько слоёв. Полупрозрачное «облако» вокруг центральной части (violin) показывает форму распределения: где оно шире, там больше фильмов с такими значениями, а где уже — таких фильмов меньше. Прямоугольник внутри облака (boxplot) отображает основную зону значений, а линия внутри прямоугольника показывает медиану — наиболее типичную оценку в данной категории. Точки на графике обозначают отдельные фильмы, благодаря чему видно, насколько оценки внутри каждой группы однородны или, наоборот, сильно разбросаны. Чтобы распределения читались лучше, шкала оценок ограничена диапазоном 40–100, так как ниже этого уровня значений в данных практически нет. В данной выборке MPAA-рейтинг действительно связан с оценками: фильмы с рейтингом G в среднем и по медиане оцениваются чуть выше, чем фильмы PG, причём это видно и у критиков, и у зрителей.
Для общей картины, я решила добавить круговую диаграмму, показывающую количество мультфильмов с рейтингом G и PG. Как показывает график, Pixar ориентируется на семейную аудиторию, но при этом часть историй делает максимально универсальными для самых маленьких (G), а часть — с чуть более сложными темами, юмором и эмоциональными моментами, которые лучше подходят для просмотра с родителями (PG).
Следующий сделанный мною график показывает связь между бюджетом и мировыми кассовыми сборами фильмов Pixar. Самым кассовым мультфильмом Pixar за все время является фильм «Головоломка 2», собравший свыше 1,68 миллиарда долларов, тем самым став еще и самым кассовым мультфильмом в истории. Также на графике подписаны 2 самых провальных мультфильма Pixar по сборам — «Лука» и «Я краснею». Низкие кассовые сборы скорее всего связаны не с качеством самих мультфильмов, а с тем, что оба проекта пришлись на пандемийный период и выходили без широкого театрального проката в США. Стоит отметить, что в датасете для «Лука» в колонке budget стоит 0, скорее всего автор датасета не нашел информацию о бюджете фильма и поставил 0.
По этому графику также видно, что возрастной рейтинг (G или PG) сам по себе не даёт заметного преимущества по сборам: точки двух категорий сильно перемешаны, и внутри каждого рейтинга встречаются как очень кассовые, так и относительно слабые по сборам фильмы.
Посмотрим на кассовые сборы под другим углом. Если на предыдущем графике мы сравнивали фильмы по абсолютным значениям бюджета и мировых сборов, то здесь оцениваем их через коэффициент окупаемости (ROI): ROI = сборы / бюджет, то есть во сколько раз касса превышает вложения. Так мы сможем увидеть самые эффективные фильми с точки зрения окупаемости.
По результатам видно, что на верхних позициях оказываются фильмы, которые при относительно умеренном бюджете смогли собрать очень много — именно такие проекты дают максимальную отдачу на вложения. Лидер рейтинга — «История игрушек» (1995) преумножил вложения в 13 раз, что определенно положительно сказалось на развитии студии в своей время.
Подводим итоги
Для подведения итогов и завершения моего исследования я захотела построить последний график, на котором покажу как менялся средний уровень качества фильмов Pixar по годам.
Каждая точка на графике — это средняя сводная оценка фильмов, вышедших в конкретный год, а линия, соединяющая эти значения, показывает чередование более удачных и более слабых периодов. Полупрозрачная линия тренда (скользящее среднее) сглаживает резкие скачки и помогает увидеть общую динамику «жизни» студии. К сожалению, по тренду заметно, что в последние годы средний уровень оценок постепенно снижается: если раньше у Pixar чаще встречались высокие пики, то ближе к современному периоду линия держится ниже и стабильных подъёмов меньше. Это можно интерпретировать как признак того, что студии всё сложнее удерживать прежний уровень качества на длинной дистанции — хотя отдельные сильные работы всё равно появляются и формируют локальные подъёмы на графике.
Описание применения генеративной модели
ChatGPT — Генерация обложки. Промт: «Create a vertical 1140×1600 cover with a deep blue/purple starry night sky. A soft spotlight beam shines from the top center down onto the scene. In the middle, place the word ‘PIXAR’ in large white serif letters. Below it, add a glowing line chart made of star-like points connected by thin lines, with a subtle grid and simple x/y axis numbers. Add a bit of soft clouds near the bottom. Clean, cinematic, minimalist mood.» — Помощь с распаковкой zip-архива с шрифтом (см. п. «Начало работы») — Выявление ошибок в коде, оптимизация, а также небольшие дополнения к коду для защиты от ошибок
Adobe Colour — Определение цветов в используемую мною палитру