Original size 593x847

Медицинские данные: анализ показателей риска приступов

PROTECT STATUS: not protected
The project is taking part in the competition

Описание

В рамках данной работы был проведён анализ датасета, посвящённого заболеваниям и медицинским показателям пациентов. Данные были получены не из открытого источника: ими со мной поделилась моя подруга, профессионально занимающаяся анализом данных. Датасет содержит информацию о демографических характеристиках пациентов, наличии сопутствующих заболеваний и медицинских факторов риска.

Выбор именно этих данных обусловлен личным интересом к теме. Заболевания, представленные в датасете, напрямую связаны с моим ближайшим окружением, поэтому анализ данной информации имеет для меня не только учебную, но и практическую и личную значимость. Работа с такими данными позволяет лучше понять возможные факторы риска и взаимосвязи между различными показателями здоровья.

Цель проекта — выявить факторы, связанные с повышенным риском приступов, и на основе анализа построить простую предиктивную модель.

Визуализация данных

Для визуального анализа данных были выбраны различные типы графиков: гистограммы, столбчатые диаграммы, boxplot-диаграммы и диаграммы распределения.

Такой выбор обусловлен тем, что разные типы визуализаций позволяют по-разному взглянуть на данные: изучить распределения признаков, сравнить группы между собой и выявить возможные зависимости между переменными.

Исходный датасет загружен через Dropbox. Формально — это данные частной клиники.

Этапы работы

Провести обработку: переименовать столбцы, убрать пропуски, привести типы данных в порядок. Изучить распределения признаков. Сравнить пациентов с приступами и без по ключевым параметрам. Построить простую модель для прогнозирования риска приступа. Визуализировать значимые выводы. Сформулировать общие выводы и рекомендации.

Вопросы исследования:

1. Какие признаки чаще всего встречаются у людей, перенёсших приступ? 2. Есть ли существенные отличия по возрасту, глюкозе, болезням, образу жизни? 3. Какие группы риска можно выделить? 4. Можно ли на основе имеющихся данных предсказать вероятность приступа? 5. Какие параметры являются наиболее важными для прогнозирования?

Импорт библиотек

На первом этапе были подключены основные библиотеки для анализа и визуализации данных.

Original size 737x117

Настройка цветовой палитры

На данном этапе была создана пользовательская цветовая палитра, состоящая из пяти оттенков. Она применяется ко всем графикам автоматически, что обеспечивает единый визуальный стиль и повышает читаемость визуализаций.

Original size 553x111
Original size 605x203

Загрузка датасета

Происходит загрузка датасета из файла в формате CSV и сохранение его в объект DataFrame, с которым далее проводится анализ.

Первичное изучение данных

На первом этапе были загружены исходные данные и выполнено первичное ознакомление с датасетом. Были изучены структура данных, типы переменных и основные статистические характеристики. Также была проведена проверка на наличие пропущенных значений. Для работы использовались библиотеки pandas и numpy, обеспечивающие удобную обработку и анализ табличных данных.

Original size 1436x361
Original size 1067x450

Данные команды позволяют ознакомиться со структурой датасета, типами данных, количеством строк и столбцов, а также получить основные статистические характеристики числовых признаков.

Проверка и обработка пропусков

Построение гистограммы распределения

Анализ параметров пациентов с приступами

Original size 750x560
Original size 798x153
Original size 747x565

Средний уровень глюкозы по возрасту

Original size 645x152
Original size 1060x701
Original size 632x152
Original size 755x556

Сердечные заболевания

Original size 667x168
Original size 805x557
Original size 810x628
Original size 5120x1864

Для всех графиков был выбран единый визуальный стиль. Использовалась ограниченная цветовая палитра приглушённых оттенков, что снижает визуальную перегруженность и повышает читаемость. Для оформления заголовков, подписей осей и легенд применялся единый шрифт, а размеры элементов графиков были согласованы между собой. Такой подход делает визуализации цельными и аккуратными, приближая их к формату аналитических и исследовательских работ.

Выводы

Самые значимые графики:

Взаимодействие наличия приступа с возрастом и с уровнем глюкозы. Именно по этим показателям данные показывают четкие паттерны. На основе этого я выяснила: у пациентов с приступами чаще наблюдаются пожилой возраст и высокий уровень глюкозы.

Другие графики были менее репрезентативными: большинство выводов было проблематично сформировать однозначно.

С точки зрения индекса массы тела:

Можно увидеть, что однозначной корелляции не присутствует — у обеих групп пациентов наблюдается, в основном, более низкий индекс. Повышение индекса не ведет к повышению вероятности приступа. С точки зрения наличия сердечных заболеваний можно увидеть, что вероятность приступа увеличивается и уменьшается в схожей пропорции — вывод состоит в том, что людей, у которых нет сердечных заболеваний, просто больше, а у них тоже может быть или не быть наличие сердечного приступа. Схожие выводы касаются и типа занятости, курения и наличия гипертонии. Вероятности варьируются в примерно схожих пропорциях, не выявляя определенных паттернов.

Заметно, что пожилые люди более подвержены риску сердечного приступа; У пациентов с высоким риском сердечного приступа более выражен высокий уровень глюкозы. В комплексном анализе также выявлено, что высокий уровень глюкозы опасен для возрастных пациентов.

Описание применения генеративной модели

ChatGPT5 (помогал мне исправлять ошибки в коде, и помогал структурировать текст для презентации). Для создания обложки проекта я использовала сервис Ideogram Для подбора цветовой палитры графиков я воспользовалась Adobe Color, чтобы цвета были гармоничными и соответствовали единому стилю презентации.