
Крушение «Титаника» стало одним из самых трагичных событий в морской истории.
15 апреля 1912 года, во время своего первого рейса, знаменитый лайнер, считавшийся «непотопляемым», столкнулся с айсбергом и ушел на дно. Увы, количество спасательных шлюпок оказалось недостаточным для всех пассажиров и членов экипажа, что привело к гибели 1502 человек из 2224.
Концепция
Проект, посвященный анализу данных о пассажирах «Титаника», направлен на исследование факторов, влияющих на выживаемость в ходе этой трагедии. Хотя элемент удачи, безусловно, имел значение, предварительные исследования предполагают, что определенные группы людей могли обладать преимуществами, способствующими их выживанию.
В рамках данного исследования будет разработана прогностическая модель, целью которой является ответ на вопрос: «Какие группы людей имели наибольшие шансы на выживание?».
Визуальное оформление

Цветовая палитра данного проекта разработана с использованием темных холодных оттенков синего, которые создают атмосферу глубины и таинственности. Эти цвета формируют ощущение трагедии, ассоциируемой с крушением «Титаника».
В рамках этой палитры выделяется один теплый акцентный цвет, который привлекает внимание и подчеркивает ключевые элементы. Цветовая палитра не только обладает эстетической привлекательностью, но и насыщена глубоким смыслом, отражая сложные эмоции, связанные с историей «Титаника» и его пассажирами.
Методология
В качестве объекта исследования был выбран открытый датасет Titanic Dataset с сайта Kaggle https://www.kaggle.com, содержащий информацию о пассажирах лайнера «Титаник». Данные представлены в табличном формате (CSV) и включают демографические характеристики пассажиров (пол, возраст), социальные признаки (класс билета), а также целевую переменную — факт выживания.
Для обработки данных, выполнения расчетов и создания визуализаций был применен язык Python с библиотеками Pandas и Matplotlib. В качестве среды разработки использовался Google Colab.
Для представления результатов анализа были использованы различные типы графиков:
-круговые и кольцевые диаграммы — для отображения долей и структуры выживших; -столбчатые диаграммы — для сравнения категорий; -распределительные графики — для анализа количественных признаков.
Выбор каждого типа визуализации был обусловлен характером данных и задачей интерпретации.
Подготовка данных
В начале работы в Google Colab были импортированы необходимые библиотеки и выполнены их настройки. Затем был загружен датасет Titanic Dataset (CSV). Также на стартовом этапе была произведена установка и регистрация шрифта Podkova, а также создана цветовая палитра для дальнейших визуализаций данных.
Далее осуществляется проверка на наличие пропусков в данных. Для заполнения недостающих значений возраста используется медианное значение. Также производится преобразование категориальных данных.



На этапе анализа данных была проверена структура датасета с помощью методов head (), info () и describe (), что позволило ознакомиться с типами данных, выявить пропуски и получить базовые статистические характеристики. Этот этап необходим для корректной интерпретации данных и выбора методов анализа и визуализации.
Визуализация данных
График 1
Круговая диаграмма показывает общее соотношение выживших и погибших пассажиров на борту «Титаника». Большая часть пассажиров погибла — около 61,6%, в то время как выжили лишь 38,4%. Это указывает на масштаб катастрофы и подчёркивает, что вероятность выживания была значительно ниже 50%. Данный график задаёт общий контекст исследования и служит отправной точкой для дальнейшего анализа факторов, влияющих на выживаемость.
График 2
На графике видно, что среди выживших значительно преобладают женщины по сравнению с мужчинами. Это подтверждает исторически известный принцип эвакуации «женщины и дети — вперёд», который оказал существенное влияние на шансы на выживание. Пол пассажира являлся одним из ключевых факторов, определяющих вероятность спасения.
График 3
Основная часть пассажиров находилась в возрасте от 20 до 40 лет, при этом также присутствуют дети и пожилые люди. Распределение имеет выраженную асимметрию, а наличие редких значений указывает на широкий возрастной диапазон пассажиров. Данный график позволяет оценить демографический состав пассажиров и служит основой для анализа выживаемости по возрастным группам.
График 4
Диаграмма выживаемости по возрастным группам показывает, что наибольшая доля выживших наблюдается среди детей и подростков, тогда как у пассажиров среднего и пожилого возраста вероятность выживания ниже. Это подтверждает приоритет эвакуации младших пассажиров и указывает на возраст как важный социально-демографический фактор, влияющий на исход катастрофы.
График 5
Разброс цен на билеты у выживших и погибших пассажиров не слишком различается: большинство цен находится в низком и среднем диапазонах. Однако у выживших чаще встречаются более дорогие билеты, в то время как у погибших преобладают дешевые. Это говорит о том, что высокая цена билета и социальный статус повышают шансы на выживание, хотя не являются единственным фактором.
График 6
Кольцевая диаграмма иллюстрирует распределение выживших пассажиров по классам билетов. Наибольшую долю среди выживших составляют пассажиры первого класса, тогда как пассажиры второго и третьего классов представлены в меньшей степени. Это отражает социальное неравенство, проявившееся во время катастрофы: пассажиры более высокого класса имели лучший доступ к спасательным средствам и информации, что увеличивало их шансы на выживание.
Заключение
Анализ данных показал, что выживаемость пассажиров «Титаника» в наибольшей степени зависела от пола и класса билета.
Женщины и пассажиры первого класса имели значительно более высокие шансы на спасение, что отражает приоритеты эвакуации. Стоимость билета у выживших в среднем была выше, однако разброс значений у выживших и погибших оказался схожим, поэтому влияние этого фактора можно считать незначительным. В целом выживание определялось сочетанием социальных и демографических характеристик пассажиров.
Описание применения генеративной модели
В рамках проекта была использована генеративная модель. Для исправления опечаток и небольших ошибок в коде применялся ChatGPT 5.1, доступный по ссылке https://chat.openai.com/.