Original size 1080x1528

Анализ диалогов и персонажей из кино-трилогии LOTR

PROTECT STATUS: not protected
The project is taking part in the competition

Концепция

В рамках данного проекта был проведён анализ и визуализация табличного датасета по персонажам легендариума Дж. Р. Р. Толкина (формат CSV), включающего сведения о расе, поле, росте, а также отметки о рождении и смерти в привязке к эпохам.

big
Original size 1200x1200

Выбор темы обусловлен тем, что мир Средиземья представляет собой хорошо структурированную культурную вселенную с большим количеством персонажей и устойчивыми категориальными признаками (народы, эпохи, родословные), что делает его удобным материалом для учебного анализа данных и демонстрации методов описательной статистики и сравнительной визуализации.

С методологической точки зрения работа опиралась на базовые инструменты анализа данных в Pandas, группировки, сводные таблицы, а также на описательную статистику (частотные распределения, средние значения, сравнение групп).

Таким образом, проект демонстрирует, как на основе относительно простого табличного набора можно построить объясняющую аналитику: выделить доминирующие категории, сравнить распределения между группами и одновременно оценить качество данных через долю пропусков и дисбаланс заполненности. В качестве материала для анализа использован датасет персонажей по миру Толкина в формате CSV.

Гистограмма распределения персонажей по росту

Original size 735x880

Это гистограмма, показывающая распределение роста отдельно для мужских и женских персонажей.

На графике видно, что у мужских персонажей выборка заметно шире и выше по числу наблюдений, а распределение растянуто от 110 до 270 см, также есть редкий экстремум около 450 см.

Original size 1627x957

Для женских персонажей значений намного меньше, поэтому их показатели редкие и не образуют плотного распределения.

Пунктирные линии показывают средние значения: у мужских персонажей средний рост около 184.1 см, у женских около 141.5 см — но из-за малого героинь этот вывод нельзя считать полностью показательным.

Original size 1097x821

Кольцевая диаграмма общей доли рас среди персонажей

На данной диаграмме самые частые расы вынесены отдельно, остальные же собраны в «Other».

Original size 1199x506

Наибольшая группа — люди (42.6%), то есть почти половина всех записей.

Следом идет «Unknown» (15.4%) — это важный индикатор, указывающий на то, что у многих персонажей раса не указана или не распознана.

Далее — хоббиты (13.8%) и эльфы (11.3%), а затем гномы (4.6%).

Original size 990x966

Категория «Other» (7.1%) собирает мелкие группы.

А далее идут самые маленькие сегменты, относящиеся к расам Айнур и на половину эльфам.

Original size 1173x716

Линейная диаграмма, сравнивающая эпохи

Эта диаграмма иллюстрирует у скольких персонажей в датасете известен период рождения и смерти.

Ось X — эпохи, а ось Y — количество персонажей. Подписи рядом с точками показывают число и долю относительно всех «известных рождений» или «известных смертей» в данных.

Original size 736x920

Самый заметный пик — Третья эпоха: там наблюдается больше всего рождений (369, 52%) и смертей (234, 39%).

Это сходится с событиями Третьей Эпохи, которые больше всего описаны и чаще всех встречаются в источниках.

Original size 1627x938

Для Четвертой эпохи рождений почти нет, зато смертей заметно больше (49, 8%) — возможно, потому что многие линии персонажей «заканчиваются» уже после основных событий «Властелина Колец».

Original size 1240x885

Большая доля смертей, которые неизвестны, уходят в «Unknown» (129, 22%) — это след неполных/неструктурированных записей первоисточника, где смерть указана, но эпоха не распознана или записана нестандартно.

Таблица гендерного состава внутри шести рас

График сравнивает гендерный состав внутри шести самых многочисленных рас: люди, неизвестные виды, хоббиты, эльфы, гномы, Айнур.

Каждый столбик — это 100% персонажей данной расы, а цветные сегменты показывают долю мужского, женского и неизвестного гендеров.

Original size 1622x873

По таблице видно, что перевес идет в сторону мужских персонажей (334, 86%), женских заметно меньше (51, 13%).

Original size 948x1080

У хоббитов соотношение женского гендера к мужскому уже существенно больше относительно общей численности (36, 29%), у эльфов можно заметить похожий показатель (24, 23%), а у гномов, напротив, почти все записи — мужские (41, 98%).

Интересно, что у Айнур распределение больше уравновешено (примерно 14, 58% мужских и 10, 42% женских).

Original size 1107x931

Заключение

В ходе работы был выполнен разведочный анализ (EDA) датасета персонажей мира Толкина в формате CSV и построен набор сравнительных визуализаций в единой стилистике.

Использование методов группировки и сводных таблиц, расчёт долей и описательная статистика позволили выявить структуру данных и ключевые закономерности, а также оценить качество заполнения признаков. В целом проект демонстрирует, что даже при наличии пропусков и неоднородных полей табличные данные можно привести к аналитическому виду и использовать для объясняющих визуализаций.

Итоговые графики не только дают представление о распределении персонажей по расам, эпохам и полу, но и фиксируют ограничения датасета, что является важной частью корректной интерпретации результатов и возможной отправной точкой для дальнейшего расширения и очистки данных.

Нейросети

В работе над исследовательским проектом была использована модель Chat GPT 5.2 для стилизации проекта и исправления ошибок кода.