Original size 1240x1750

Сравнение российского и мирового кино на основе данных Letterboxd

PROTECT STATUS: not protected
The project is taking part in the competition

Вводная часть

Для проекта я использовал открытый датасет Letterboxd Movies Dataset, который доступен на платформе Kaggle. Он собран на основе данных с Letterboxd — социальной сети для любителей кино, в которой пользователи отмечают просмотренные ими фильмы, ставят им оценки и добавляют теги и жанры.

Мне было интересно анализировать именно эти данные, потому что Letterboxd — это не «официальная» киноистория и не мнение критиков, а взгляд обычных зрителей со всего мира. Такой источник позволяет увидеть, как кино воспринимается людьми сегодня, а не только как оно принято в академическом каноне. Кроме того, в международных обсуждениях кино российские фильмы часто остаются на периферии. Мне показалось важным посмотреть, как российское кино выглядит на фоне мирового: какие темы и жанры в нём преобладают, как оно оценивается, и чем отличается его структура.

Я использовал 5 разных видов графиков для визуализации данных:

1. Круговая диаграмма — чтобы наглядно показать, какую долю в датасете занимает российское кино по сравнению с мировым.

2. Гистограмма распределения — чтобы увидеть, как распределяются пользовательские оценки.

3. Столбчатая диаграмма — чтобы сравнить популярность конкретных жанров в мировом и отечественном кино.

4. Горизонтальная столбчатая диаграмма — чтобы удобно сравнить частоту тем фильмов.

5. Линейный график — чтобы проследить, как менялся средний рейтинг фильмов со временем.

За основу визуального кода графиков был взят фирменный шрифт и цвета сервиса Letterboxd.

Original size 2480x290
Original size 2480x365

Итоговые графики

Перед созданием графиков мне надо было пройти этап предобработки данных. Сначала я взял основной датасет movies и последовательно присоединил к нему связанные таблицы (страны, жанры и темы) по идентификатору фильма. Так как один фильм может относиться к нескольким странам, жанрам и темам, я агрегировал эти значения в списки. После этого я добавил бинарную колонку is_russia, которая показывает, относится ли фильм к российскому кино, чтобы упростить сравнение российского и мирового кино в дальнейших графиках.

Какой процент данных составляет российское кино?

0

График № 1 и его код

Российское кино занимает очень небольшую долю датасета — около 1%, тогда как подавляющее большинство фильмов относится к мировому кино. Я буду учитывать это при дальнейшем сравнительном анализе, так как российская выборка значительно меньше и менее репрезентативна.

Как распределены рейтинги мирового кино и российского?

0

График № 2 и его код

Распределения рейтингов российского и мирового кино имеют схожую форму и близкие моды, сосредоточенные в диапазоне 3.0–3.5. При этом распределение мирового кино характеризуется большей дисперсией и более выраженным правым хвостом, что указывает на большее число фильмов с высокими полученными рейтингами. Распределение российского кино более сконцентрировано вокруг среднего значения, с меньшей вариативностью оценок.

Какие жанры наиболее популярны в мировом и российском кино?

0

График № 3 и его код

Жанровые распределения российского и мирового кино демонстрируют схожую структуру, однако отличаются по относительным частотам в отдельных жанрах. В российском кино наблюдается более высокая доля драмы, документального кино и анимации, тогда как в мировом кино сравнительно выше представлены хоррор, триллер, экшен и криминал.

Какие темы чаще всего раскрываются в мировом и российском кино?

0

График № 4 и его код

В российской выборке значительно выше концентрация тем, связанных с политикой, войной, патриотизмом и историческим героизмом. В мировом кино более равномерно представлены темы ужасов, чёрного юмора и психологических триллеров, что говорит нам о большей тематической диверсификации. В целом, распределения имеют разные «профили», отражающие различия в культурных и нарративных приоритетах.

Как менялся средний рейтинг фильмов всего мира и России на протяжении последнего столетия?

0

График № 5 и его код

В XX–XXI веках средние рейтинги мирового и российского кино демонстрируют различную динамику: мировое кино после резко низких оценок восстанавливается к концу XXI века и выходит на относительно плоские показатели, тогда как российское кино характеризуется резкими колебаниями в отдельные периоды. Плоская линия российского кино в XX веке наблюдается из-за малой выборки фильмов в датасете, поэтому усреднение приводит к сглаживанию вариаций.

Вывод

Анализ данных Letterboxd показал, что российское кино занимает небольшую долю в общем массиве фильмов, что влияет на устойчивость статистических выводов, особенно для ранних периодов. В целом распределения рейтингов российского и мирового кино близки по форме, однако мировое кино демонстрирует большую вариативность и более выраженные «хвосты» высоких оценок.

Жанровая и тематическая структура российского кино смещена в сторону исторических, военных и драматических сюжетов, тогда как мировое кино отличается большей жанровой диверсификацией. Динамика средних рейтингов во времени отражает не только изменения в кинопроизводстве, но и ограничения самих данных, что важно учитывать при интерпретации результатов.

Описание применения генеративной модели

Для совершенствования внешнего вида графиков использовался GPT-5.2