Original size 2632x3644

No time to relax:

PROTECT STATUS: not protected
The project is taking part in the competition

Описание проекта

Work–Life Balance and Longevity

Датасет:

Work-Life Balance and Longevity Dataset (10 000 строк, синтетические данные).

Источник:

Kaggle (Quality of Life Data).

Задача:

посмотреть, как распределение времени в сутках (работа, отдых, сон, спорт) связано с возрастом смерти.

Что я хочу получить в конце:

1. гистограмма распределения возраста смерти 2. boxplot по профессиям 3. scatter (сон vs возраст смерти) + тренд 4. тепловая карта корреляций 5. stacked bar: средние часы (работа/отдых/сон/спорт) по профессиям 6. «цена часа работы»: как меняется ожидаемый возраст смерти при +1 часу работы 7. кластеризация образов жизни (режимы работы/сна)

big
Original size 1536x1024

мудборд проекта, созданный с помощью нейросети ChatGPT.

Подготовка

big
Original size 4392x1608

Работаем в Pandas, визуализация Matplotlib.

Загрузка данных

Original size 4659x1712

Что лежит в таблице Ключевые поля:

1. gender — пол 2. occupation_type — тип профессии 3. avg_work_hours_per_day, avg_rest_hours_per_day, avg_sleep_hours_per_day, avg_exercise_hours_per_day — средние часы в день 4. age_at_death — возраст смерти

Проверки и обработка

Проверяю:

1. пропуски 2. дубликаты 3. «правило суток»: сумма часов должна быть около 24

Дальше сделаю две версии данных:

1. df — исходная таблица 2. df_clean — строки, где сумма часов близка к 24

Original size 2736x1592
Original size 2736x2705
Original size 2736x2383
Original size 2736x1220

Статистические методы

Описательная статистика, чтобы понять диапазоны и типичные значения.

Корреляция Пирсона быстро показывает линейную связь между числовыми признаками.

t-test для сравнения двух групп (по полу). Проверяет, отличается ли средний age_at_death у двух групп.

ANOVA для сравнения нескольких групп (по профессиям). Проверяет, есть ли различия в среднем age_at_death между профессиями.

Полиномиальная регрессия (2-й степени) применяется для моделирования нелинейных зависимостей (например, между продолжительностью сна или рабочими часами и возрастом смерти).

Кластеризация K-means применяется для выделения устойчивых режимов образа жизни на основе времени работы и сна

Original size 1329x698
Original size 1329x488
Original size 1329x418
Original size 1329x229

Настройка оформления графиков

Для визуализации я использую только возможности Matplotlib: фон, линии, шрифт и сетку. Все параметры оформления задаются кодом, без постобработки.

При выборе стиля я опиралась на эстетику business punk, связанную с темой корпоративной среды, регламента и контроля. Такой визуальный язык хорошо подходит к данным о работе и распределении времени.

В качестве визуальных ориентиров использовались игра The Stanley Parable и сериал «Разделение» (Severance) — образы офисной среды, где работа становится замкнутой системой.

Original size 1329x1289

Визуализации

Ниже — несколько разных типов графиков. Я строю их на df_clean, чтобы сумма часов была близка к 24.

Original size 1318x1030
Original size 889x490
Original size 1318x883
Original size 1089x590
Original size 1318x1541
Original size 889x590
Original size 1318x1566
Original size 724x589
Original size 1318x1431
Original size 1189x589
Original size 1318x1058
Original size 890x490
Original size 1318x1077
Original size 789x590

Выводы

1. Гистограмма показывает, что большинство значений сосредоточено в диапазоне примерно 70–90 лет, при этом присутствуют крайние случаи с очень низким и очень высоким возрастом смерти. Это подтверждает наличие выбросов, заложенных в датасет.

2. Boxplot по профессиям показывает различия в медианах и разбросе age_at_death. Результаты ANOVA (F = 42.325, p < 0.001) подтверждают, что различия между профессиями статистически значимы и не являются случайными.

3. Scatter с полиномиальным трендом показывает, что максимальные значения возраста смерти наблюдаются в диапазоне примерно 7–8 часов сна. При меньшем и большем количестве сна ожидаемая продолжительность жизни снижается.

4. График «цена часа работы» показывает, что при увеличении рабочего времени эффект на возраст смерти становится отрицательным. Это означает, что после некоторого количества рабочих часов каждый дополнительный час ассоциируется с уменьшением ожидаемой продолжительности жизни.

5. Кластеризация по времени работы и сна выделяет несколько режимов образа жизни. Эти режимы различаются по балансу между работой и восстановлением, что указывает на существование типичных паттернов.

6. Средний возраст смерти для женщин выше, чем для мужчин (81.36 против 78.28 лет). t-test показывает статистически значимое различие (t = 12.948, p < 0.001), при этом размер эффекта по Коэну (d = 0.259) указывает на небольшой, но устойчивый эффект.

Использование нейросети в работе

Нейросеть помогала в следующих задачах:

Нейросеть использовалась для генерации и уточнения цветовой палитры, соответствующей выбранной визуальной эстетике. Палитра затем была адаптирована и применена вручную при настройке графиков в Matplotlib.

prompt:

«Подбери ограниченную цветовую палитру для инфографики в эстетике business punk, связанной с темой работы, офиса и контроля.»

Нейросеть использовалась для получения простых, интуитивных объяснений статистических методов, которые затем были переформулированы и использованы при описании анализа.

Методы:

t-test ANOVA размер эффекта d Коэна

prompts:

«Объясни простым языком, что такое t-test и зачем он используется»

«Объясни, что показывает ANOVA»

«Что означает размер эффекта d Коэна и как его интерпретировать?»

Источники

Источники изображений

1. Авторские визуализации данных и генерации (автор: Власкова София; дата обращения: 23.12.2025). 2. Генерация изображений https://chatgpt.com/