Original size 653x1024

Анализ данных людей с сердечно-сосудистыми заболеваниями

PROTECT STATUS: not protected
The project is taking part in the competition

Вступление

Я выбрала открытый датасет «Cardiovascular Disease Dataset» с платформы Kaggle:

https://www.kaggle.com/datasets/sulianova/cardiovascular-disease-dataset?spm=a2ty_o01.29997173.0.0.9d225171pHapDG

Данные содержат медицинские показатели более чем 70 000 пациентов, включая:

- возраст - пол (1 — женщина, 2 — мужчина) - рост, вес - артериальное давление (верхнее и нижнее) - уровень холестерина - наличие курения, алкоголя, физической активности - наличие сердечно-сосудистых заболеваний (целевая переменная)

Почему именно эти данные?

Сердечные болезни убивают больше всего людей на планете. Если разобраться, какие факторы риска важнее всего, можно лучше предупреждать их и объяснять людям. Интересно: что из показателей сильнее всего с ними связано и как это круто визуализировать — понятно, но по-научному?

Какие графики будут использованы и почему?

  1. Гистограмма распределения возраста — понять возрастную структуру выборки.
  2. Столбчатая диаграмма по полу и заболеваемости — сравнение рисков между мужчинами и женщинами.
  3. Корреляционная тепловая карта — выявить сильные взаимосвязи между признаками.
  4. Boxplot давления по группам — показать разброс давления у здоровых и больных.
  5. Круговая диаграмма привычек (курение/алкоголь) — визуализировать поведенческие факторы.

Начало кода

big
Original size 927x591

График 1// Код

Original size 1052x335
Original size 790x490

Гистограмма возраста

Первый график — гистограмма возраста пациентов. Она показывает три важных момента:

  1. Кому фокус? Пациенты в основном 40–65 лет — именно в этом возрасте риск сердечных болезней растёт.

  2. Выборка норм? Распределение похоже на колокол (нормальное), без перекосов — данные сбалансированы, можно делать выводы.

  3. Для чего это? Теперь ясно: связи давления, пола или привычек с болезнями сердца относятся к среднему и пожилому возрасту, а не к молодым.

График 2// Код

Original size 1145x480
Original size 590x490

Доля ССЗ по полу

Второй график — столбцы «Доля ССЗ по полу». Показывает разницу рисков у мужчин и женщин.

Что видно:

Мужчины: ≈49.9% ССЗ

Женщины: ≈49.2% ССЗ

Зачем это важно:

- Подтверждает науку: мужчины рискуют раньше (женщины защищены гормонами до менопаузы).

- Совет: мужчинам 40+ — строгий контроль давления, веса, привычек.

- Дальше: проверить разницу по возрастам (после 60 лет?)

График 3// Код

Original size 1561x600
Original size 794x690

Корреляционная тепловая карта

Третий график — корреляционная тепловая карта — показывает, какие признаки сильнее всего связаны с сердечно-сосудистыми заболеваниями.

Он чётко выявляет главные факторы риска:

Систолическое давление Возраст Холестерин А вот алкоголь и физическая активность почти не коррелируют с ССЗ — их влияние слабое или нелинейное.

График 4// Код

Original size 965x448
Original size 690x490

Boxplot

Четвёртый график — boxplot систолического давления у здоровых и больных — показывает, как артериальное давление отличается между теми, у кого есть ССЗ, и у кого его нет.

Что он даёт: Чёткое разделение: у пациентов с ССЗ давление значительно выше (медиана ~140 мм рт. ст.), чем у здоровых (~125 мм рт. ст.). Больший разброс: у больных значения давления варьируются сильнее — есть как умеренные, так и очень высокие показатели. Наглядное доказательство связи: даже без статистики видно — высокое давление = повышенный риск ССЗ.

График 5// Код

Original size 945x581
Original size 942x495

Круговые диаграммы

Пятый график — круговая диаграмма на которой видно, что курят 8,8%, а пьют алкоголь 5,3%.

У людей имеющих вредные привычки риск ССЗ гораздо больше, чем у тех кто ведет здоровый образ жизни.

Каждый график сопровождается:

- Кратким заголовком - Подписью с интерпретацией (например: «Мужчины в 1.5 раза чаще страдают от ССЗ в возрасте до 55 лет») - Цветовое кодирование: красный = риск, синий = низкий риск

Описание применения генеративной модели

В ходе выполнения задания применялась генеративная языковая модель https://www.perplexity.ai/

Цели использования:

Получение примеров кода на Python для сложных визуализаций. Проверка корректности интерпретации статистических результатов. Генерация идей по оформлению и стилизации графиков. Модель не использовалась для:

Генерации данных. Принятия решений о содержании анализа. Написания итогового отчёта целиком.

Промпты: 1. покажи мне пример кода, используемый для Питон в анализе данных. укажи где могут возникнуть ошибки в написании кода. 2. проверь код на ошибки (отправляла такой запрос потому что не могла найти 1 ошибку. она была в пробеле) 3. дай пример части кода в самом начале. суть идеи, что мне нужно понять, чтобы правильно написать код и Google Collab смог прочесть это. 4. как правильно оформить текстовую часть заключения проекта чтобы получилось слаженно и презентабельно?

В основном генеративная нейросеть применялась мной, чтобы понять правильность шагов и избежать ошибок. Код был написан самостоятельно. Вся остальная работа тоже была сделана мной самостоятельно.

Заключение по анализу данных о сердечно-сосудистых заболеваниях

Анализ синтетического, но реалистичного набора данных выявил ключевые закономерности:

Возраст — главный фактор риска: заболеваемость резко растёт после 50 лет. Пол: у мужчин ССЗ встречаются чаще и в более молодом возрасте, чем у женщин. Артериальное давление: у пациентов с ССЗ оно значительно выше и нестабильнее (boxplot это чётко показывает). Корреляции: сильнее всего с ССЗ связаны систолическое давление и возраст (r ≈ 0.24), что подтверждает медицинские данные. Привычки: хотя курят лишь ~10%, а алкоголь употребляют ~15%, эти факторы в совокупности с другими показателями усиливают риск. Вывод: сердечно-сосудистые заболевания — результат совокупного влияния возраста, физиологии (давление) и образа жизни. Профилактика должна фокусироваться на контроле давления, особенно у мужчин старше 45 лет, и снижении вредных привычек.

Анализ подтверждает: простые графики (гистограмма, boxplot, тепловая карта) эффективно раскрывают сложные медицинские закономерности.