Original size 1140x1600

Анализ данных о балансе между работой, жизнью и продолжительностью жизни

PROTECT STATUS: not protected
The project is taking part in the competition

Введение

Мною были выбраны данные на тему баланса работы, личной жизни и жизненной продолжительности. Они представляют интерес, так как такие данные заставляют задуматься о своих ежедневных привычках и здоровье.

Для анализа этих данных мною были выбраны: столбчатая диаграмма, «ящик с усами», скрипичную диаграмму и диаграмму рассеивания. эти типы диаграмм были наиболее удобны для анализа материала в виде: возраста, количества рабочих часов, количество сна, пол.

Данные я загрузила с сайта kaggle.com. Этот датасет представляет наблюдение о балансе жизни и работы (а так же продолжительности жизни) на большой выборке в 10,000 человек.

Ссылка на данные здесь

Загрузка данных

Данные были скачаны по ссылке выше и загружены с помощью модуля pandas

big
Original size 1046x112
big
Original size 1036x136
big
Original size 1054x656
Original size 1032x100

Всего наблюдений в датасете: 10000

Original size 1036x124

Представлено 7 различных признаков для данных.

Типы данных

Original size 1074x454
Original size 1076x442

Пропуски в данных

Original size 1070x446

Все 10,000 записей полные и не имеют пропусков.

Распределение в данных

Оценим сбалансированность данных по кол-ву наблюдений в зависимости от пола:

Часть датасета для группы женщин:

Original size 1038x126

Часть датасета для группы мужчин:

Original size 1034x122

Вывод: датасет сбалансирован по половому признаку

Посмотрим, на представленные сферы деятельности:

Original size 1048x700

Каждая сфера представлена 600-700 наблюдениями, что является сбалансированным.

Инфографика

Распределение продолжительности жизни в зависимости от пола

Original size 1070x170

Так как датасет сбалансирован, можно воспользоваться столбчатой диаграммой для анализа распределения по полу:

Original size 1066x404
Original size 694x547

Вывод: распределение продолжительности жизни у женщин слега смещено вправо относительно того же распределения для мужчин, что подтверждает более долгую жизнь у женщин в среднем.

Распределение кол-во рабочих часов в день (в среднем)

Для визуализации такого распределения будем использовать ящик с усами. Он поможет выявить выбросы и указать тенденцию данных.

Original size 1074x318
Original size 531x682

Вывод: основная масса наблюдений работает (в среднем) от 3 до 14 часов в день.

Зависимость продолжительности жизни в зависимости от часов в тренировке

Для визуализации такого распределения будем использовать scatter plot. Так можно будет оценить насколько выраженная взаимосвязь.

Original size 1056x320
Original size 730x547

Вывод: зависимость есть (положительная), но очень умеренная. Проверим с помощью коэффицента корреляции:

Original size 1068x206

Подтверждается умеренная поположительнее взаимосвязь

Сравнение продолжительности жизни у предпринимателей и рабочих

Для сравнения, будем использовать violin plot.

Original size 1076x198
Original size 1064x366
Original size 640x701

Вывод: в среднем, рабочие живут долше предпринимателей, вероятно из-за повышеннего стресса у последних.

Заключение

В процессе проведения исследования был проведен анализ данных, позволяющий сделать выводы, такие, например, как:

Большая часть людей работает в диапазоне от 3 до 14 часов в день

Люди, занимающиеся спортом, имеют большую продолжительность жизни, чем предприниматели

Таким образом можно сделать вывод, что физические нагрузки, образ жизни и профессия напрямую влияют на продолжительность жизни.

Блокнот с кодом и датасет

Спасибо за внимание