
Описание проекта
Сердечно-сосудистые заболевания — это группа патологий, поражающих сердце и кровеносные сосуды.
Сердечно-сосудистые заболевания являются одной из ведущих причин смертности и инвалидности пожилых людей. Анализ таких данных может дать информацию для оценки состояния здоровья пожилого населения и поможет молодому поколению в планировании медицинской помощи в будущем.

Минималистичная палитра проекта
Для анализа я выбрала данные по заболеваемости пожилых людей в России с 2011 по 2023 год, представленные проектом «Если быть точным». Датасет содержит в себе данные об общей заболеваемости граждан старше трудоспособного возраста в разбивке по группам болезней и отдельным заболеваниям, а также регионам России.
В своем анализе я использовала только данные о возрасте, регионе проживания и показателям заболеваемости по основным сердечно-сосудистым болезням — ишемическая болезнь сердца, инфаркт миокарда, кардиомиопатия и гипертоническая болезнь.

Поиски стилистического решения проекта, выполненные в Imagine.Art
Данные представлены в виде:
Линейного графика — чтобы показать динамику заболеваемости по годам и увидеть рост или снижение болезней.
Столбчатой диаграммы — для сравнения уровня каждой болезни отдельно по годам.
Круговой диаграммы — чтобы выявить наиболее распространенную сердечно-сосудистую болезнь среди пожилых.
Точечной диаграммы — для отображения уровня заболеваемости для топ-5 регионов за несколько лет.
Обработка данных
В начале своей работы я импортировала необходимые мне библиотеки: pandas, numpy и matplotlib.pyplot для построения линейных, столбчатых и круговых диаграмм. После чего загрузила скачанный xlsx-файл датасета.
После подготовки я приступила к загрузке данных. Так как данный датасет включает в себя большое количество болезней, я отформатировала файл под ограниченный список основных сердечно-сосудистых заболеваний — гипертензивная болезнь сердца, ишемическая болезнь сердца, острый инфаркт миокарда и кардиомиопатия.
В процессе составления графиков я обнаружила ошибку в составленных данных: в столбце «Значение показателя», заместо точек были использованы запятые, а формат данных не соответствовал числу.
Данную проблему я решила при помощи кода.
Визуализация данных
Линейный график
Был построен линейный график суммарной динамики заболеваемости по годам. Для этого нужно было отфильтровать таблицу по критерию «Значение показателя» и объединить все заболевания.
Для оформления и более легкого чтения графика были добавлены оси с надписями и сетка в цвет палитры проекта.
Из данных графика можно сделать вывод, что с каждым годом прослеживается повышение заболеваемости у пожилого поколения, что негативно сказывается на продолжительности жизни.
Столбчатый график
Далее был построен столбчатый график для более детального сравнения уровня заболеваемости по каждой болезни и году отдельно. Для этого нужно было назначить список болезней и сгруппировать данные по году и болезни и вычислить среднее по всем регионам.
Для легкого понимания графика была сделана легенда обозначений и названий заболеваний, а также сетка.
Из графика можно понять, что во все года гипертензивная болезнь сердца была более распространенной среди остальных. На последнем месте оказалась кардиомиопатия.
Также можно увидеть динамику распространения гипертензивной болезни у пожилых с каждым годом.
Круговая диаграмма
Также была построена круговая диаграмма чтобы выявить наиболее распространенную сердечно-сосудистую болезнь во все года. Для этого нужно было назначить также список болезней, суммировать значения показателей, и рассчитать процент каждого заболевания.
Для более наглядного и легкого прочтения диаграммы была создана легенда со значениями, а также назначены цвета для разграничения.
Из диаграммы понятно, что преобладает гипертензивная болезнь сердца. Ее часть составляет — 59,6%, когда самым редким оказался острый инфаркт миокарда со значением в 0,3%.
Точечная диаграмма
Для последнего анализа была выбрана точечная диаграмма для того, чтобы подвести итоги и выявить топ-5 регионов страны, где больше всего пожилое поколение страдает от сердечно-сосудистых заболеваний.
Для создания диаграммы были отфильтрованы данные по столбцу «Название региона» и определены регионы по наибольшим значениям заболеваний за все года.
Однако при попытке сделать данную диаграмму, возникла проблема из-за того, что в столбце «Название региона» есть значение — Российская федерация, которая включает в себя сумму всех значений и искажает полную картину в диаграмме.
Решением стало убрать данное значение при помощи кода.
Также была добавлена легенда и сетка для более легкого чтения диаграммы.


Из данных диаграммы можно понять, что преобладающее количество сердечно-сосудистых заболеваний было зафиксировано в Центральном федеральном округе во все года. Самое минимальное количество было зафиксировано в Южном федеральном округе.
Заключение
Благодаря анализу приведенного датасета и визуализации результатов исследования через графики и диаграммы, можно сделать вывод, что заболеваемость сердечно-сосудистыми заболеваниями среди пожилого населения имеет устойчивую тенденцию к росту, что негативно отражается на продолжительности жизни людей.
В совокупности полученные данные отражают актуальность проблемы сердечно-сосудистых заболеваний у пожилых и необходимость усиления профилактики и лечения, особенно в Центральном федеральном округе, где видна наибольшая заболеваемость.
Описание применения генеративной модели
Для сокращения кода и решения проблем, возникших во время анализа датасета, я использовала Chat GPT, который помогал мне найти все ошибки и устранить их.
Для генерации мудборда и обложки я воспользовалась нейросетью — imagine.art.