
Концепция
Сердечный приступ — одно из наиболее серьезных заболеваний, оказывающих значительное влияние на здоровье и качество жизни людей. В Индонезии, как и во многих других странах, случаи сердечно-сосудистых заболеваний становятся все более распространенными, что подчеркивает необходимость глубокого анализа факторов, способствующих их возникновению.

В своем анализе я использовала Heart Attack Prediction in Indonesia dataset, предоставленный на Kaggle. Датасет содержит в себе данные о причинах появления сердечного приступа у лиц, проживающих в Индонезии. В своем анализе я использовала все данные датасета.

Свое вдохновение я нашла в чувствах, ощущаемых в момент сердечного приступа. Я использовала абстрактные изображение с наложенным шумом. В своих графиках я хотела показать медицинскую составляющую, поэтому выбрала основными цветами синий и красный, а также бордовый.

Для визуализации данных я выбрала круговую диаграмму (наглядно показывает распределение случаев сердечных приступов), столбчатую диаграмму (барчарт, показывающий распределение по возрасту), гистограмму (для сравнения возраста по группам) и корреляционную матрицу (для выявления связи между переменными).
Обработка данных
Для начала я импортировала необходимые мне библиотеки: numpy, matplotlib.pyplot, pandas, seaborn и plotly.express. После чего считала скачанный csv-файл датасета.
Далее я приступила к подготовке данных для круговой диаграммы. Переменную name использовала для информации о статусе сердечного приступа (no heart attack/heart attack), а value — для подсчета распределения случаев сердечного приступа.
Для демографического анализа я обработала данные для столбчатой диаграммы. Методом value_counts (): подсчитываю количество уникальных значений в столбце age, а методом sort_index (): сортирую результаты по возрасту (индексу).
После чего перешла к созданию гистограммы, основываясь на данных, полученных при помощи столбчатой диаграммы при демографическом анализе.
Дальше я перешла к подготовке данных для корреляционной матрицы. При помощи select_dtypes (include='number'): выбрала столбцы, которые имеют числовой вид данных.
Использовав numeric_df.corr ():, вычислила матрицу корреляции для всех числовых столбцов в numeric_df
Визуализация данных
Круговая диаграмма. Распределение случаев сердечных приступов
Круговая диаграмма показывает, что количество людей с сердечным приступом примерно совпадает с количеством людей без сердечного приступа. Однако количество людей без сердечного приступа все же выше на 19,8%.
Столбчатая диаграмма. Распределение людей по возрасту
С помощью столбчатой диаграммы понятно, что больше всего сердечным приступам подвержены люди от 50 до 60 лет.
Корреляционная матрица. Смотрим связи между переменными
Корреляционная матрица позволяет выявить связи между переменными. Наибольшую корреляцию с heart_attack демонстрируют следующие переменные:
previous_heart_disease — наличие в анамнезе medication_usage — приём медикаментов age — возраст Отрицательная корреляция наблюдается у переменной exercise (если есть).
Благодаря этой матрице можно составить портрет пациента с высоким риском сердечного приступа.
Портрет пациента:
Также можно сделать следующие выводы: 1. Вероятность сердечного приступа увеличивается с возрастом. 3. Мужчины в среднем имеют больший риск, чем женщины. 4. Наиболее значимый фактор — наличие сердечно-сосудистых заболеваний в прошлом. 5. Пациенты, принимающие медикаменты, находятся в зоне риска. 6. Плохое общее здоровье и отказ от участия в бесплатных обследованиях повышают риски. 7. Существует сильная положительная корреляция между предыдущими диагнозами и текущими рисками. Демографические характеристики (пол, возраст) оказывают существенное влияние. 8. Уровень дохода, образование и доступ к интернету могут быть дополнительными детерминантами. 9. Комбинация факторов (возраст + анамнез + медикаменты) даёт наивысший риск. 10. Профилактические меры должны быть нацелены на выявление этих групп населения.
Гистограмма. Показывает какие пациенты имеют более высокий риск сердечного приступа, в зависимости от вредной привычки
Диаграмма показывает, что пациенты, употребляющие алкоголь чаще, имеют более высокий риск сердечного приступа.
Гистограмма. Показывает какие пациенты имеют более высокий риск сердечного приступа, в зависимости от вредной привычки
Как видно, курящие люди чаще подвержены сердечным заболеваниям. Однако также важно учитывать возраст и другие факторы.
Гистограмма. Показывает факторы положительно влияющие на сердце
График показывает, что пациенты, занимающиеся регулярной физической активностью, реже страдают от сердечных приступов.
Гистограмма. Показывает факторы, положительно влияющие на сердце
Пациенты, придерживающиеся здорового питания, также имеют меньший риск сердечного приступа.
Гистограмма. Показывает влияние стресса на сердце
Выводы из исследования
Общие выводы: 1. Самый сильный фактор риска — наличие сердечно-сосудистых заболеваний. 2. Вредные привычки, такие как курение и алкоголь, увеличивают вероятность приступов. 3. Физическая активность и здоровое питание снижают риск заболеваний. 4. Высокий уровень стресса значительно повышает вероятность сердечного приступа. 5. Профилактика должна включать контроль вредных привычек, физическую активность и управление стрессом.
Список источников
Скачать блокнот с кодом и датасет