
ВВЕДЕНИЕ
За время существования кинематографа было снято множество фильмов всевозможных жанров и направленности. Однако пока одни картины становятся мировыми хитами, а другие проваливаются в прокате, единицы из них оказываются безвозвратно утерянными. О них вспоминают нечасто, хотя подобные фильмы составляют значимый пласт в истории кино.
Для своего проекта я выбрала данные о более чем 11000 потерянных и редких фильмах с платформы Kaggle. Мне было интересно проследить, существует ли закономерности, приводящие к утрате киноматериалов, и какой прогноз статистически можно дать на будущее. Я работала с линейными, столбчатыми и точечными графиками, круговыми диаграммами с целью проследить динамику в годах, географию производства и паттерны в названиях. Такой подход позволил мне получить наглядную интерпретацию не только общих трендов, но и микроструктур.
ПОДГОТОВКА К РАБОТЕ
Цветовое решение для визуализации данных я получила с помощью платформы coolors.co. Генерируя палитру, мне было важно сделать выбор в пользу тех оттенков, которые отражали бы общую винтажную атмосферу потерянных кинолент.

палитра
Для работы с кодом я выбрала язык программирования Python, в качестве платформы — Google Colab. Перед тем как приступить к написанию кода для каждого из графиков я установила программную библиотеку Pandas, чтобы упростить свой дальнейший опыт взаимодействия с табличными данными. Кроме того, я воспользовалась Matplotlib, чтобы работать с винтажным шрифтом TwilightC вместо стандартного.
код
ГРАФИКИ
Динамика количества утерянных и редких фильмов по годам — столбчатый график
график № 1
С помощью изучающего столбчатого графика я прослеживаю, сколько фильмов было утеряно в каждом году, начиная с 1912, как первой упомянутой в таблице дате. Самый высокий и низкий показатель выделяю отдельным цветом для наглядности. Используемые статистические методы включают в себя частотный анализ и выявление экстремумов.
код графика № 1
Распределение жанров утерянных и редких фильмов — круговая диаграмма
график № 2
Далее я отследила фильмы каких жанров чаще всего оказывались утерянными с помощью круговой диаграммы. Это изучающий график, для которого я также применила частотный анализ. Сначала каждому названию жанра на английском языке я присвоила русскоязычный аналог и устранила все неразрывные дефисы, препятствующие корректному отображению. После подсчёта числа фильмов для каждого из жанров я выделила 8 основных самых популярных категорий, а остальные объединила в категорию «Другое», чтобы диаграмма была визуально читаемой.
код графика № 2
Динамика количества фильмов: США и другие страны — линейный график
график № 3
Для отслеживания закономерности в потерях между США — центром кинопроизводства — и другими странами, я составила объясняющий линейный график. Я привела все даты выхода фильмов к целочисленному формату и продемонстрировала различия в интенсивности потерь. Метод агрегации данных позволил мне сгруппировать все фильмы с одинаковой страной и датой выхода и привести их к одному общему показателю.
код графика № 3
Сложность названий утерянных фильмов по странам — точечный график
график № 4
Я визуализировала объясняющий точечный график для исследования соотношения стран-производителей фильмов и длин названий, которые им дают. Этот график также помог бы ответить на вопрос, влияет ли длина названия фильма на его потенциал быть утерянным. Все названия фильмов я преобразовала в строки, а названиям стран присвоила русскоязычный перевод. Топ-страны по числу потерь я вынесла в одну категорию, другие страны сгруппировала во вторую.
код графика № 4
ВЫВОД
Визуализация полученных данных показала, что интенсивность потери кинолент во временной шкале неравномерна: для большей части истории кинематографа характерны резкие колебания. Тем не менее, количество потерянных фильмов начинает стремительно снижаться после 1999-го года, что можно связать с развитием технологического прогресса. Хотя статистика демонстрирует, что чаще всего теряются именно драмы, высокий показатель обобщённой категории всех представителей микро-жанров подчёркивает разноплановость утерянных кинолент. Несмотря на то, что США гипотетически могли бы быть лидером по потерям в области кинематографа, исходя из линейного графика, количественный показатель после 1958-го года демонстрирует резкий спад, тем самым опровергая это утверждение. Наконец, чаще всего утерянными становятся ленты с короткими названиями в 3-4 слова.
Исходя из вышесказанного, вероятно, что в будущем с развитием технологий статус «утраченного наследия» будет получать всё меньше фильмов.