Original size 468x630

Анализ данных: выживаемость пассажиров «Титаника»

PROTECT STATUS: not protected

КОНЦЕПЦИЯ

Катастрофа «Титаника» — одно из самых известных исторических событий XX века, которое наглядно показывает, как социальные и демографические факторы могут влиять на исход экстремальных ситуаций. Благодаря сохранившимся данным о пассажирах, это событие представляет особый интерес для анализа и визуализации, позволяя выявить закономерности, скрытые за индивидуальными историями.

Для проекта был выбран датасет Titanic с сайта соревнований для специалистов по Data Science Kaggle., широко используемый в учебных и исследовательских задачах по анализу данных. Он содержит информацию о поле, возрасте, классе билета, стоимости проезда и факте выживания пассажиров. Основным фокусом анализа стала выживаемость в зависимости от социального статуса и демографических характеристик, так как именно эти аспекты чаще всего обсуждаются в популярной и научной интерпретации катастрофы.

ВЫБРАННЫЕ ТИПЫ ВИЗУАЛИЗАЦИИ

В проекте я использоваласледующие виды графиков: столбчатые диаграммы — для сравнения долей выживших в разных группах; гистограммы — для анализа распределения возраста пассажиров; ящики с усами — для исследования распределения стоимости билетов и выявления выбросов; сложенные столбчатые диаграммы — для сопоставления количества выживших и погибших по классам билетов.

Выбор этих типов графиков обусловлен их наглядностью и способностью эффективно передавать сравнительные и распределительные характеристики данных.

ЭТАПЫ РАБОТЫ:

Загрузка данных

big
Original size 621x152

На этом этапе был выполнен первичный осмотр данных и проверена корректность загрузки таблицы.

Первичный анализ и структура данных

Original size 204x97

Были выявлены: пропущенные значения в столбце Age; числовые и категориальные признаки; различия в масштабах данных (например, стоимость билетов).

Очистка и обработка данных

Основные этапы обработки: заполнение пропусков в возрасте медианным значением; удаление строк с отсутствующими значениями в категориальных переменных; проверка типов данных.

Original size 611x56

Медиана была выбрана вместо среднего значения, так как распределение возраста является асимметричным и содержит выбросы.

ИСПОЛЬЗОВАНИЕ НЕЙРОСЕТЕЙ

В процессе работы использовалась генеративная модель ChatGPT (OpenAI).

ИИ применялся для: помощи в структурировании проекта; формулировки концепции и аналитических выводов; уточнения формулировок и логики объяснений; поддержки при описании статистических методов.

ИИ не использовался для автоматического анализа данных или генерации графиков.

СТИЛИЗАЦИЯ ВИЗУАЛИЗАЦИЙ

Для визуализации использовались библиотеки Matplotlib и Seaborn. Был выбран минималистичный стиль с нейтральной цветовой палитрой и едиными параметрами оформления.

Original size 620x155

ИЗУЧАЮЩИЙ И ОБЪЯСНЯЮЩИЙ ФОРМАТ ВИЗУАЛИЗАЦИИ

Каждая визуализация в проекте отвечает на конкретный исследовательский вопрос: кто имел больше шансов на выживание; как социальный статус отражался на исходе катастрофы; какие группы пассажиров были наиболее уязвимы.

ИТОГОВЫЕ ГРАФИКИ

1. Выживаемость в зависимости от пола

Original size 1387x1019

Тип: столбчатая диаграмма Вывод: женщины выживали значительно чаще мужчин.

  1. Распределение возраста пассажиров

Тип: гистограмма Вывод: основную часть пассажиров составляли взрослые люди в возрасте от 20 до 40 лет.