Original size 3644x5200

May the Dataset Be with You: анализ персонажей «Звёздных войн»

PROTECT STATUS: not protected
The project is taking part in the competition

Концепция

Вселенная Звёздные войны кажется тщательно продуманным миром, где у каждого персонажа есть своя история, происхождение и место в общем повествовании. Мы запоминаем героев по их поступкам и характеру, но за кадром остаётся другой слой — набор чисел, описывающих их физические параметры и биологические особенности. Рост, вес, пол, раса, планета происхождения — всё это редко воспринимается как данные, хотя именно они формируют структуру вымышленной галактики.

В этом проекте я обращаюсь к «Звёздным войнам» как к набору данных и пытаюсь взглянуть на знакомых персонажей с аналитической точки зрения. Мне интересно, существуют ли закономерности в физических характеристиках жителей разных планет, отличаются ли герои различных рас по росту и массе, и насколько разнообразной на самом деле является эта вселенная, если измерять её цифрами, а не сюжетами.

Интуитивно кажется, что ключевые персонажи франшизы довольно похожи друг на друга — большинство из них гуманоиды со схожими пропорциями. Однако анализ данных позволяет проверить это ощущение и посмотреть, не скрывается ли за визуальным сходством более сложная картина. Визуализация помогает вынести эти различия на поверхность, превращая сухие таблицы в наглядные образы и сравнения.

Данные для анализа

Для анализа в проекте используется датасет с платформы Kaggle, содержащий данные о персонажах вселенной Звёздные войны. Набор данных представляет собой таблицу с описательными характеристиками персонажей и включает информацию об их росте и весе, поле, виде, планете происхождения, цвете кожи, глаз и волос, а также дополнительных атрибутах, связанных с появлением в фильмах и использовании транспорта.

ВОПРОС ИССЛЕДОВАНИЯ:

Можно ли с помощью анализа и визуализации данных о персонажах вселенной Звёздные войны выявить закономерности в их физических характеристиках и происхождении и понять, насколько разнообразной и структурированной является эта вымышленная галактика?

Для визуализации данных о персонажах вселенной Звёздные войны были выбраны несколько типов графиков, позволяющих рассмотреть набор данных с разных сторон.

Круговые диаграммы (pie charts) используются для отображения долей категориальных признаков, таких как распределение персонажей по полу, видам или планетам происхождения. Такой формат наглядно показывает, какие группы доминируют в датасете и насколько он сбалансирован.

Столбчатые диаграммы применяются для сравнения количественных показателей между категориями — например, среднего роста или веса персонажей разных видов и планет. Они позволяют быстро выявить различия и сопоставить группы между собой.

Гистограммы используются для анализа распределения числовых характеристик. С их помощью можно оценить типичные значения, разброс данных и наличие экстремальных или выбивающихся наблюдений.

Точечная диаграмма применяется для исследования взаимосвязи между числовыми параметрами, в частности между ростом и весом персонажей. Она помогает визуально определить наличие корреляций, кластеров и аномалий внутри набора данных.

В визуализации и оформлении проекта использован фирменный жёлтый цвет #FFE81F, вдохновлённый культовыми титрами вселенной «Звёздные войны», а также фанатский креолизированный шрифт Star Wars Demolition Level, который имитирует стиль оригинальных заголовков фильмов и придаёт проекту атмосферу галактики.

Original size 1280x774

Анализ и визуализация данных

Импорт библиотек и загрузка данных

Импорт библиотек (pandas, numpy, matplotlib, seaborn) и модулей для работы с путями и шрифтами. Отключение предупреждений. В Google Colab загружается CSV-файл с данными и читается в DataFrame. Затем загружается файл шрифта и формируется путь к нему для использования в визуализациях.

Original size 1068x448

Предобработка данных

Копирование исходного DataFrame, преобразование столбцов height и mass в числовой формат с обработкой ошибок, заполнение пропусков медианными значениями. Создание словарей для перевода на русский язык категорий species, homeworld, gender и eye_color, с применением их для новых столбцов (_ru). Добавление столбца creature_type для разделения на дроидов и биологические виды, а также force_affiliation для маркировки пользователей Силы на основе списка имён.

Original size 1071x752

Настройка стиля визуализации

Импорт matplotlib и добавление кастомного шрифта из ранее загруженного файла. Определение словаря цветов в тематике Star Wars (например, золото джедаев, красный ситхов). Обновление глобальных параметров rcParams для фигур: размер, цвета фона, отсутствие сетки и осей, белые метки. Создание функции style_starwars_plot для кастомизации осей графика: установка заголовка и меток с заданными шрифтами, цветами и отступами, скрытие тиков, тёмный фон.

Original size 1067x696

Визуализация распределения типов существ и аффилиации с Силой

Подсчёт значений в столбцах creature_type и force_affiliation. Создание фигуры с двумя подграфиками для круговых диаграмм (pie charts): слева — доля биологических видов vs дроидов, справа — пользователей Силы vs обычных существ. Применение кастомных цветов, автотекстов с процентами и количествами, жирных шрифтов, тёмного фона и общего супертитула на русском. Отображение графика.

Original size 1087x724
Original size 2141x1110

Визуализация топ-8 самых распространенных видов

Подсчёт топ-8 видов из species_ru, создание горизонтальной бар-чарты с кастомными цветами (синий мятежников, золотой джедаев), метками значений на барах. Добавление текста с общим числом уникальных видов и долей людей, применение стиля style_starwars_plot, тёмный фон и отображение.

Original size 1071x444
Original size 2235x1185

Анализ корреляции роста и массы персонажей

Фильтрация данных на персонажей с массой >500 кг и ростом <250 см (возможно, для выделения outliers). Создание scatter plot с точками по видам (Человек, Дроид, Вуки и другие), кастомными цветами, размерами и альфой. Добавление легенды, расчёт корреляции роста и массы, отображение её в тексте с боксом, применение стиля style_starwars_plot и показ графика.

Original size 1070x560
Original size 2085x1185

Визуализация топ-7 родных миров персонажей

Подсчёт топ-7 значений из homeworld_ru, создание бар-чарты с кастомными цветами (зелёный световой меч, песок Татуина и т. д.), белыми краями, поворотом меток осей. Добавление текстовых меток значений на барах золотым цветом, применение стиля style_starwars_plot с заголовком и метками осей на русском, отображение графика.

Original size 1071x426
Original size 2085x1035

Визуализация распределения персонажей по росту

Создание гистограммы распределения значений роста из height с 20 бинами, синим цветом светового меча, золотыми краями и прозрачностью. Вычисление и добавление линий среднего (красный, пунктир) и медианного (зелёный, пунктир) роста с метками на русском. Применение стиля style_starwars_plot с заголовком и метками осей на русском, добавление легенды в чёрно-золотом стиле, сжатие макета и отображение графика.

Original size 1074x368
Original size 2085x1035

Выводы из анализа

Выводы из анализа

Два ключевых вида среди галактического населения Пай-чарты сравнивают биологию и дроидов, а также пользователей Силы и обычных. Биологические виды — 93,1% (80 персонажей), дроиды — 6,9% (6). Фокус саги на органической жизни. Пользователи Силы — 6,9% (6), обычные — 93,1% (80). Мистические способности редки. Большинство — «обычные» жители без сверхсил.

Топ-8 самых распространенных видов Анализ видов выявляет лидерство дроидов (42) и людей (35) из 87 персонажей. Они составляют около 90%. Остальные: дрона (6), вуки (2), родянец (1), хатт (1) и другие. Уникальных видов — 6. Люди — 35 из 87. Вселенная антропоцентрична. Биологические и механические формы сосуществуют, но humanoid-подобные доминируют.

Связь между ростом и массой тела Scatter plot показывает корреляцию 0.689 между ростом и массой. Высокие чаще тяжелее. Люди (желтые) и дроиды (зеленые) — в средних диапазонах (150–200 см, 50–100 кг). Вуки (коричневые) и другие (оранжевые) — outliers сверху. Зависимость биологическая, но с вариациями по видам. Нет строгой линейности.

Родные миры персонажей Бар-чарт топ-7 миров доминирует «Другой планетой» (56 персонажей). Это отражает разнообразие или неизвестность происхождения. Лидируют Набу (11) и Татуин (10). Далее — Альдераан (3), Корусант (3), Кашиик (2), Кореллия (2). Ключевые персонажи сосредоточены на немногих планетах. Это типично для саги, с акцентом на периферию и центр Галактики.

Распределение персонажей по росту Гистограмма роста показывает концентрацию персонажей Star Wars в диапазоне 150–200 см. Пик приходится на 175 см. Средний рост — 174.7 см, медиана — 180 см. Это указывает на асимметрию в сторону высоких значений. Крайние росты (ниже 125 см или выше 225 см) редки. Большинство видов имеют «человеческий» рост.

Заключение

Вселенная «Звёздных войн» предстает как богатая и многогранная галактика, где персонажи, словно звёзды, группируются вокруг типичных антропоморфных черт, подчёркивая баланс между органической жизнью и механикой.

Распределение роста показывает гармоничную симметрию: большинство героев укладываются в «человеческий» диапазон от 150 до 200 см, с пиком у 175 см. Средний рост 174,7 см слегка ниже медианы 180 см, намекая на лёгкую асимметрию в пользу величественных фигур. Крайние значения редки, как далёкие планеты за горизонтом, подчёркивая разнообразие видов без нарушения общей гармонии.

Родные миры добавляют глубины: «другие планеты» доминируют с 56 персонажами, отражая бесконечность космоса и тайны происхождения. В то же время ключевые локации вроде Набу и Татуина (по 11 и 10 жителей) сияют как центры гравитации саги, где периферия и сердце Галактики сплетаются в эпических конфликтах.

Виды населения усиливают антропоцентричность: дроиды (42) и люди (35) из 87 фигур составляют около 90%. Редкие экзотические формы, такие как вуки или дроны, добавляют разнообразия, но не затмевают доминанту. Пай-чарты подчёркивают редкость чудес: биологические существа составляют 93,1% (80 персонажей), оставляя дроидам и пользователям Силы всего 6,9%. Это напоминает, что сверхъестественное — элитарный дар, а большинство — обычные жители, борющиеся за судьбу миров.

Связь роста и массы тела, с умеренной корреляцией 0,689, рисует биологическую логику: высокие чаще массивны, но вариации по видам — от компактных людей и дроидов до мощных вуки — добавляют нюансов, без жёсткой линейности, словно эволюция в действии.

В целом, анализ раскрывает «Звёздные войны» как зеркало человеческого опыта в космическом масштабе: разнообразное, но упорядоченное, где редкие исключения подчёркивают правило. Фокус на органике и редкости Силы усиливает вечные темы идентичности, конфликта и единства в бесконечности.

Описание применения генеративной модели

Генеративная модель ChatGPT 5.2 применялась как вспомогательный инструмент на всех этапах исследования. Она использовалась для формулирования исследовательских гипотез, структурирования аналитических шагов, а также для помощи в обработке данных и написании кода на Python с использованием библиотек Pandas, Matplotlib и Seaborn. Модель также помогала проверять корректность синтаксиса и предлагала оптимальные подходы к визуализации данных, облегчая интерпретацию результатов.

Ссылки