
Вступление
Я выбрала открытый датасет «Cardiovascular Disease Dataset» с платформы Kaggle:
Данные содержат медицинские показатели более чем 70 000 пациентов, включая:
- возраст - пол (1 — женщина, 2 — мужчина) - рост, вес - артериальное давление (верхнее и нижнее) - уровень холестерина - наличие курения, алкоголя, физической активности - наличие сердечно-сосудистых заболеваний (целевая переменная)
Почему именно эти данные?
Сердечные болезни убивают больше всего людей на планете. Если разобраться, какие факторы риска важнее всего, можно лучше предупреждать их и объяснять людям. Интересно: что из показателей сильнее всего с ними связано и как это круто визуализировать — понятно, но по-научному?
Какие графики будут использованы и почему?
Начало кода

График 1// Код
Гистограмма возраста
Первый график — гистограмма возраста пациентов. Она показывает три важных момента:
Кому фокус? Пациенты в основном 40–65 лет — именно в этом возрасте риск сердечных болезней растёт.
Выборка норм? Распределение похоже на колокол (нормальное), без перекосов — данные сбалансированы, можно делать выводы.
Для чего это? Теперь ясно: связи давления, пола или привычек с болезнями сердца относятся к среднему и пожилому возрасту, а не к молодым.
График 2// Код
Доля ССЗ по полу
Второй график — столбцы «Доля ССЗ по полу». Показывает разницу рисков у мужчин и женщин.
Что видно:
Мужчины: ≈49.9% ССЗ
Женщины: ≈49.2% ССЗ
Зачем это важно:
- Подтверждает науку: мужчины рискуют раньше (женщины защищены гормонами до менопаузы).
- Совет: мужчинам 40+ — строгий контроль давления, веса, привычек.
- Дальше: проверить разницу по возрастам (после 60 лет?)
График 3// Код
Корреляционная тепловая карта
Третий график — корреляционная тепловая карта — показывает, какие признаки сильнее всего связаны с сердечно-сосудистыми заболеваниями.
Он чётко выявляет главные факторы риска:
Систолическое давление Возраст Холестерин А вот алкоголь и физическая активность почти не коррелируют с ССЗ — их влияние слабое или нелинейное.
График 4// Код
Boxplot
Четвёртый график — boxplot систолического давления у здоровых и больных — показывает, как артериальное давление отличается между теми, у кого есть ССЗ, и у кого его нет.
Что он даёт: Чёткое разделение: у пациентов с ССЗ давление значительно выше (медиана ~140 мм рт. ст.), чем у здоровых (~125 мм рт. ст.). Больший разброс: у больных значения давления варьируются сильнее — есть как умеренные, так и очень высокие показатели. Наглядное доказательство связи: даже без статистики видно — высокое давление = повышенный риск ССЗ.
График 5// Код
Круговые диаграммы
Пятый график — круговая диаграмма на которой видно, что курят 8,8%, а пьют алкоголь 5,3%.
У людей имеющих вредные привычки риск ССЗ гораздо больше, чем у тех кто ведет здоровый образ жизни.
Каждый график сопровождается:
- Кратким заголовком - Подписью с интерпретацией (например: «Мужчины в 1.5 раза чаще страдают от ССЗ в возрасте до 55 лет») - Цветовое кодирование: красный = риск, синий = низкий риск
Описание применения генеративной модели
В ходе выполнения задания применялась генеративная языковая модель https://www.perplexity.ai/
Цели использования:
Получение примеров кода на Python для сложных визуализаций. Проверка корректности интерпретации статистических результатов. Генерация идей по оформлению и стилизации графиков. Модель не использовалась для:
Генерации данных. Принятия решений о содержании анализа. Написания итогового отчёта целиком.
Промпты: 1. покажи мне пример кода, используемый для Питон в анализе данных. укажи где могут возникнуть ошибки в написании кода. 2. проверь код на ошибки (отправляла такой запрос потому что не могла найти 1 ошибку. она была в пробеле) 3. дай пример части кода в самом начале. суть идеи, что мне нужно понять, чтобы правильно написать код и Google Collab смог прочесть это. 4. как правильно оформить текстовую часть заключения проекта чтобы получилось слаженно и презентабельно?
В основном генеративная нейросеть применялась мной, чтобы понять правильность шагов и избежать ошибок. Код был написан самостоятельно. Вся остальная работа тоже была сделана мной самостоятельно.
Заключение по анализу данных о сердечно-сосудистых заболеваниях
Анализ синтетического, но реалистичного набора данных выявил ключевые закономерности:
Возраст — главный фактор риска: заболеваемость резко растёт после 50 лет. Пол: у мужчин ССЗ встречаются чаще и в более молодом возрасте, чем у женщин. Артериальное давление: у пациентов с ССЗ оно значительно выше и нестабильнее (boxplot это чётко показывает). Корреляции: сильнее всего с ССЗ связаны систолическое давление и возраст (r ≈ 0.24), что подтверждает медицинские данные. Привычки: хотя курят лишь ~10%, а алкоголь употребляют ~15%, эти факторы в совокупности с другими показателями усиливают риск. Вывод: сердечно-сосудистые заболевания — результат совокупного влияния возраста, физиологии (давление) и образа жизни. Профилактика должна фокусироваться на контроле давления, особенно у мужчин старше 45 лет, и снижении вредных привычек.
Анализ подтверждает: простые графики (гистограмма, boxplot, тепловая карта) эффективно раскрывают сложные медицинские закономерности.
Ссылка на код и визуализации:
https://colab.research.google.com/drive/1nY1Ck2hH-ph70tkfholkFKqcebOZGVrL?usp=sharing
Ссылка на файл для загрузки: https://drive.google.com/file/d/1CL-4-fRtbikWjUhYLYi0OOvuC4c-NpVg/view?usp=sharing