Original size 1596x2000

Анализ данных о выживаемости пассажиров Титаника

PROTECT STATUS: not protected
The project is taking part in the competition

Описание проекта

Я выбрала датасет «Titanic: Machine Learning from Disaster» с платформы Kaggle. Данные содержат информацию о 891 пассажире Титаника: - Демографические данные (пол, возраст) - Социально-экономический статус (класс билета, стоимость) - Информация о посадке (порт) - Факт выживания

Этот датасет представляет историческую и социологическую ценность: - Позволяет исследовать социальное неравенство в экстремальной ситуации - Даёт понимание факторов, влиявших на шансы выживания

1. Столбчатые диаграммы — для сравнения категориальных данных 2. Гистограммы — для распределения непрерывных переменных 3. Boxplot — для анализа распределений с учётом выбросов 4. Тепловая карта — для визуализации корреляций 5. FacetGrid — для многомерного анализа

Основные цвета — голубой и синий, цвета моря, холода и ночи, сопровождавших трагедию Титаника

1CC2E0

1F389D

Анализ данных выбранной темы

1. Диаграмма типа boxplot демонстрирует распределение возраста пассажиров отдельно для выживших и погибших.

Original size 684x543
Original size 635x339

Наблюдения: Медианный возраст выживших ниже, чем у погибших. Также заметно, что среди выживших присутствует большее количество детей и подростков.

2. Столбчатая диаграмма отображает среднюю вероятность выживания пассажиров, сгруппированных по возрастным интервалам с шагом 10 лет.

Original size 987x590

Наблюдения: Наибольшая вероятность выживания наблюдается в младших возрастных группах. С увеличением возраста вероятность выживания последовательно снижается.

3. Столбчатая диаграмма показывает среднюю вероятность выживания пассажиров для каждого класса каюты

Original size 790x590
Original size 624x195

Наблюдения: Вероятность выживания максимальна у пассажиров первого класса, ниже у пассажиров второго класса и минимальна у пассажиров третьего класса.

4. Диаграмма рассеяния отражает связь между возрастом пассажира и стоимостью приобретённого билета.

Original size 789x588
Original size 638x231

Явной линейной зависимости между возрастом и стоимостью билета не наблюдается. Однако более высокие тарифы чаще встречаются у взрослых пассажиров, тогда как у детей стоимость билетов, как правило, ниже.

5. Столбчатая диаграмма отображает абсолютное количество пассажиров, выживших и погибших в результате катастрофы.

Original size 789x588
Original size 638x219

Число погибших существенно превышает число выживших, что указывает на выраженный дисбаланс классов в целевой переменной

Выводы

1.Социальное неравенство было ключевым фактором выживаемости 2. Дети имели приоритет при спасении 3. Пассажиры первого класса имели в 2.5 раза больше шансов выжить

Использование нейросетей ChatGPT для: - Создания аннотаций - Формулировки статистических выводов - Корректировки в коде