Original size 537x819

Анализ данных о пассажирах «Титаника»

PROTECT STATUS: not protected
The project is taking part in the competition

Крушение «Титаника» стало одним из самых трагичных событий в морской истории.

15 апреля 1912 года, во время своего первого рейса, знаменитый лайнер, считавшийся «непотопляемым», столкнулся с айсбергом и ушел на дно. Увы, количество спасательных шлюпок оказалось недостаточным для всех пассажиров и членов экипажа, что привело к гибели 1502 человек из 2224.

Концепция

Проект, посвященный анализу данных о пассажирах «Титаника», направлен на исследование факторов, влияющих на выживаемость в ходе этой трагедии. Хотя элемент удачи, безусловно, имел значение, предварительные исследования предполагают, что определенные группы людей могли обладать преимуществами, способствующими их выживанию.

В рамках данного исследования будет разработана прогностическая модель, целью которой является ответ на вопрос: «Какие группы людей имели наибольшие шансы на выживание?».

Визуальное оформление

big
Original size 3500x543

Цветовая палитра данного проекта разработана с использованием темных холодных оттенков синего, которые создают атмосферу глубины и таинственности. Эти цвета формируют ощущение трагедии, ассоциируемой с крушением «Титаника».

В рамках этой палитры выделяется один теплый акцентный цвет, который привлекает внимание и подчеркивает ключевые элементы. Цветовая палитра не только обладает эстетической привлекательностью, но и насыщена глубоким смыслом, отражая сложные эмоции, связанные с историей «Титаника» и его пассажирами.

Методология

В качестве объекта исследования был выбран открытый датасет Titanic Dataset с сайта Kaggle https://www.kaggle.com, содержащий информацию о пассажирах лайнера «Титаник». Данные представлены в табличном формате (CSV) и включают демографические характеристики пассажиров (пол, возраст), социальные признаки (класс билета), а также целевую переменную — факт выживания.

Для обработки данных, выполнения расчетов и создания визуализаций был применен язык Python с библиотеками Pandas и Matplotlib. В качестве среды разработки использовался Google Colab.

Для представления результатов анализа были использованы различные типы графиков:

-круговые и кольцевые диаграммы — для отображения долей и структуры выживших; -столбчатые диаграммы — для сравнения категорий; -распределительные графики — для анализа количественных признаков.

Выбор каждого типа визуализации был обусловлен характером данных и задачей интерпретации.

Подготовка данных

В начале работы в Google Colab были импортированы необходимые библиотеки и выполнены их настройки. Затем был загружен датасет Titanic Dataset (CSV). Также на стартовом этапе была произведена установка и регистрация шрифта Podkova, а также создана цветовая палитра для дальнейших визуализаций данных.

0

Далее осуществляется проверка на наличие пропусков в данных. Для заполнения недостающих значений возраста используется медианное значение. Также производится преобразование категориальных данных.

post

На этапе анализа данных была проверена структура датасета с помощью методов head (), info () и describe (), что позволило ознакомиться с типами данных, выявить пропуски и получить базовые статистические характеристики. Этот этап необходим для корректной интерпретации данных и выбора методов анализа и визуализации.

Визуализация данных

График 1

0

Круговая диаграмма показывает общее соотношение выживших и погибших пассажиров на борту «Титаника». Большая часть пассажиров погибла — около 61,6%, в то время как выжили лишь 38,4%. Это указывает на масштаб катастрофы и подчёркивает, что вероятность выживания была значительно ниже 50%. Данный график задаёт общий контекст исследования и служит отправной точкой для дальнейшего анализа факторов, влияющих на выживаемость.

График 2

0

На графике видно, что среди выживших значительно преобладают женщины по сравнению с мужчинами. Это подтверждает исторически известный принцип эвакуации «женщины и дети — вперёд», который оказал существенное влияние на шансы на выживание. Пол пассажира являлся одним из ключевых факторов, определяющих вероятность спасения.

График 3

0

Основная часть пассажиров находилась в возрасте от 20 до 40 лет, при этом также присутствуют дети и пожилые люди. Распределение имеет выраженную асимметрию, а наличие редких значений указывает на широкий возрастной диапазон пассажиров. Данный график позволяет оценить демографический состав пассажиров и служит основой для анализа выживаемости по возрастным группам.

График 4

0

Диаграмма выживаемости по возрастным группам показывает, что наибольшая доля выживших наблюдается среди детей и подростков, тогда как у пассажиров среднего и пожилого возраста вероятность выживания ниже. Это подтверждает приоритет эвакуации младших пассажиров и указывает на возраст как важный социально-демографический фактор, влияющий на исход катастрофы.

График 5

0

Разброс цен на билеты у выживших и погибших пассажиров не слишком различается: большинство цен находится в низком и среднем диапазонах. Однако у выживших чаще встречаются более дорогие билеты, в то время как у погибших преобладают дешевые. Это говорит о том, что высокая цена билета и социальный статус повышают шансы на выживание, хотя не являются единственным фактором.

График 6

0

Кольцевая диаграмма иллюстрирует распределение выживших пассажиров по классам билетов. Наибольшую долю среди выживших составляют пассажиры первого класса, тогда как пассажиры второго и третьего классов представлены в меньшей степени. Это отражает социальное неравенство, проявившееся во время катастрофы: пассажиры более высокого класса имели лучший доступ к спасательным средствам и информации, что увеличивало их шансы на выживание.

Заключение

Анализ данных показал, что выживаемость пассажиров «Титаника» в наибольшей степени зависела от пола и класса билета.

Женщины и пассажиры первого класса имели значительно более высокие шансы на спасение, что отражает приоритеты эвакуации. Стоимость билета у выживших в среднем была выше, однако разброс значений у выживших и погибших оказался схожим, поэтому влияние этого фактора можно считать незначительным. В целом выживание определялось сочетанием социальных и демографических характеристик пассажиров.

Описание применения генеративной модели

В рамках проекта была использована генеративная модель. Для исправления опечаток и небольших ошибок в коде применялся ChatGPT 5.1, доступный по ссылке https://chat.openai.com/.