
Вводная часть
Для проекта я использовал открытый датасет Letterboxd Movies Dataset, который доступен на платформе Kaggle. Он собран на основе данных с Letterboxd — социальной сети для любителей кино, в которой пользователи отмечают просмотренные ими фильмы, ставят им оценки и добавляют теги и жанры.
Мне было интересно анализировать именно эти данные, потому что Letterboxd — это не «официальная» киноистория и не мнение критиков, а взгляд обычных зрителей со всего мира. Такой источник позволяет увидеть, как кино воспринимается людьми сегодня, а не только как оно принято в академическом каноне. Кроме того, в международных обсуждениях кино российские фильмы часто остаются на периферии. Мне показалось важным посмотреть, как российское кино выглядит на фоне мирового: какие темы и жанры в нём преобладают, как оно оценивается, и чем отличается его структура.
Я использовал 5 разных видов графиков для визуализации данных:
1. Круговая диаграмма — чтобы наглядно показать, какую долю в датасете занимает российское кино по сравнению с мировым.
2. Гистограмма распределения — чтобы увидеть, как распределяются пользовательские оценки.
3. Столбчатая диаграмма — чтобы сравнить популярность конкретных жанров в мировом и отечественном кино.
4. Горизонтальная столбчатая диаграмма — чтобы удобно сравнить частоту тем фильмов.
5. Линейный график — чтобы проследить, как менялся средний рейтинг фильмов со временем.
За основу визуального кода графиков был взят фирменный шрифт и цвета сервиса Letterboxd.
Итоговые графики
Перед созданием графиков мне надо было пройти этап предобработки данных. Сначала я взял основной датасет movies и последовательно присоединил к нему связанные таблицы (страны, жанры и темы) по идентификатору фильма. Так как один фильм может относиться к нескольким странам, жанрам и темам, я агрегировал эти значения в списки. После этого я добавил бинарную колонку is_russia, которая показывает, относится ли фильм к российскому кино, чтобы упростить сравнение российского и мирового кино в дальнейших графиках.
Какой процент данных составляет российское кино?
График № 1 и его код
Российское кино занимает очень небольшую долю датасета — около 1%, тогда как подавляющее большинство фильмов относится к мировому кино. Я буду учитывать это при дальнейшем сравнительном анализе, так как российская выборка значительно меньше и менее репрезентативна.
Как распределены рейтинги мирового кино и российского?
График № 2 и его код
Распределения рейтингов российского и мирового кино имеют схожую форму и близкие моды, сосредоточенные в диапазоне 3.0–3.5. При этом распределение мирового кино характеризуется большей дисперсией и более выраженным правым хвостом, что указывает на большее число фильмов с высокими полученными рейтингами. Распределение российского кино более сконцентрировано вокруг среднего значения, с меньшей вариативностью оценок.
Какие жанры наиболее популярны в мировом и российском кино?
График № 3 и его код
Жанровые распределения российского и мирового кино демонстрируют схожую структуру, однако отличаются по относительным частотам в отдельных жанрах. В российском кино наблюдается более высокая доля драмы, документального кино и анимации, тогда как в мировом кино сравнительно выше представлены хоррор, триллер, экшен и криминал.
Какие темы чаще всего раскрываются в мировом и российском кино?
График № 4 и его код
В российской выборке значительно выше концентрация тем, связанных с политикой, войной, патриотизмом и историческим героизмом. В мировом кино более равномерно представлены темы ужасов, чёрного юмора и психологических триллеров, что говорит нам о большей тематической диверсификации. В целом, распределения имеют разные «профили», отражающие различия в культурных и нарративных приоритетах.
Как менялся средний рейтинг фильмов всего мира и России на протяжении последнего столетия?
График № 5 и его код
В XX–XXI веках средние рейтинги мирового и российского кино демонстрируют различную динамику: мировое кино после резко низких оценок восстанавливается к концу XXI века и выходит на относительно плоские показатели, тогда как российское кино характеризуется резкими колебаниями в отдельные периоды. Плоская линия российского кино в XX веке наблюдается из-за малой выборки фильмов в датасете, поэтому усреднение приводит к сглаживанию вариаций.
Вывод
Анализ данных Letterboxd показал, что российское кино занимает небольшую долю в общем массиве фильмов, что влияет на устойчивость статистических выводов, особенно для ранних периодов. В целом распределения рейтингов российского и мирового кино близки по форме, однако мировое кино демонстрирует большую вариативность и более выраженные «хвосты» высоких оценок.
Жанровая и тематическая структура российского кино смещена в сторону исторических, военных и драматических сюжетов, тогда как мировое кино отличается большей жанровой диверсификацией. Динамика средних рейтингов во времени отражает не только изменения в кинопроизводстве, но и ограничения самих данных, что важно учитывать при интерпретации результатов.
Описание применения генеративной модели
Для совершенствования внешнего вида графиков использовался GPT-5.2