Original size 653x1024

Анализ данных людей с сердечно-сосудистыми заболеваниями

PROTECT STATUS: not protected
The project is taking part in the competition

Вступление

Я выбрала открытый датасет «Cardiovascular Disease Dataset» с платформы Kaggle:

https://www.kaggle.com/datasets/sulianova/cardiovascular-disease-dataset?spm=a2ty_o01.29997173.0.0.9d225171pHapDG

Данные содержат медицинские показатели более чем 70 000 пациентов, включая:

- возраст - пол (1 — женщина, 2 — мужчина) - рост, вес - артериальное давление (верхнее и нижнее) - уровень холестерина - наличие курения, алкоголя, физической активности - наличие сердечно-сосудистых заболеваний (целевая переменная)

Почему именно эти данные?

Сердечные болезни убивают больше всего людей на планете. Если разобраться, какие факторы риска важнее всего, можно лучше предупреждать их и объяснять людям. Интересно: что из показателей сильнее всего с ними связано и как это круто визуализировать — понятно, но по-научному?

Какие графики будут использованы и почему?

  1. Гистограмма распределения возраста — понять возрастную структуру выборки.
  2. Столбчатая диаграмма по полу и заболеваемости — сравнение рисков между мужчинами и женщинами.
  3. Корреляционная тепловая карта — выявить сильные взаимосвязи между признаками.
  4. Boxplot давления по группам — показать разброс давления у здоровых и больных.
  5. Круговая диаграмма привычек (курение/алкоголь) — визуализировать поведенческие факторы.

Начало кода

big
Original size 927x591

График 1// Код

Original size 1052x335
Original size 790x490

Гистограмма возраста

Первый график — гистограмма возраста пациентов. Она показывает три важных момента:

  1. Кому фокус? Пациенты в основном 40–65 лет — именно в этом возрасте риск сердечных болезней растёт.

  2. Выборка норм? Распределение похоже на колокол (нормальное), без перекосов — данные сбалансированы, можно делать выводы.

  3. Для чего это? Теперь ясно: связи давления, пола или привычек с болезнями сердца относятся к среднему и пожилому возрасту, а не к молодым.

График 2// Код

Original size 1145x480
Original size 590x490

Доля ССЗ по полу

Второй график — столбцы «Доля ССЗ по полу». Показывает разницу рисков у мужчин и женщин.

Что видно:

Мужчины: ≈49.9% ССЗ

Женщины: ≈49.2% ССЗ

Зачем это важно:

- Подтверждает науку: мужчины рискуют раньше (женщины защищены гормонами до менопаузы).

- Совет: мужчинам 40+ — строгий контроль давления, веса, привычек.

- Дальше: проверить разницу по возрастам (после 60 лет?)

График 3// Код

Original size 1561x600
Original size 794x690

Корреляционная тепловая карта

Третий график — корреляционная тепловая карта — показывает, какие признаки сильнее всего связаны с сердечно-сосудистыми заболеваниями.

Он чётко выявляет главные факторы риска:

Систолическое давление Возраст Холестерин А вот алкоголь и физическая активность почти не коррелируют с ССЗ — их влияние слабое или нелинейное.

График 4// Код

Original size 965x448
Original size 690x490

Boxplot

Четвёртый график — boxplot систолического давления у здоровых и больных — показывает, как артериальное давление отличается между теми, у кого есть ССЗ, и у кого его нет.

Что он даёт: Чёткое разделение: у пациентов с ССЗ давление значительно выше (медиана ~140 мм рт. ст.), чем у здоровых (~125 мм рт. ст.). Больший разброс: у больных значения давления варьируются сильнее — есть как умеренные, так и очень высокие показатели. Наглядное доказательство связи: даже без статистики видно — высокое давление = повышенный риск ССЗ.

График 5// Код

Original size 945x581
Original size 942x495

Круговые диаграммы

Пятый график — круговая диаграмма на которой видно, что курят 8,8%, а пьют алкоголь 5,3%.

У людей имеющих вредные привычки риск ССЗ гораздо больше, чем у тех кто ведет здоровый образ жизни.

Каждый график сопровождается:

- Кратким заголовком - Подписью с интерпретацией (например: «Мужчины в 1.5 раза чаще страдают от ССЗ в возрасте до 55 лет») - Цветовое кодирование: красный = риск, синий = низкий риск

Описание применения генеративной модели

В ходе выполнения задания применялась генеративная языковая модель https://www.perplexity.ai/

Цели использования:

Получение примеров кода на Python для сложных визуализаций. Проверка корректности интерпретации статистических результатов. Генерация идей по оформлению и стилизации графиков. Модель не использовалась для:

Генерации данных. Принятия решений о содержании анализа. Написания итогового отчёта целиком.

Промпты: 1. покажи мне пример кода, используемый для Питон в анализе данных. укажи где могут возникнуть ошибки в написании кода. 2. проверь код на ошибки (отправляла такой запрос потому что не могла найти 1 ошибку. она была в пробеле) 3. дай пример части кода в самом начале. суть идеи, что мне нужно понять, чтобы правильно написать код и Google Collab смог прочесть это. 4. как правильно оформить текстовую часть заключения проекта чтобы получилось слаженно и презентабельно?

В основном генеративная нейросеть применялась мной, чтобы понять правильность шагов и избежать ошибок. Код был написан самостоятельно. Вся остальная работа тоже была сделана мной самостоятельно.

Заключение по анализу данных о сердечно-сосудистых заболеваниях

Анализ синтетического, но реалистичного набора данных выявил ключевые закономерности:

Возраст — главный фактор риска: заболеваемость резко растёт после 50 лет. Пол: у мужчин ССЗ встречаются чаще и в более молодом возрасте, чем у женщин. Артериальное давление: у пациентов с ССЗ оно значительно выше и нестабильнее (boxplot это чётко показывает). Корреляции: сильнее всего с ССЗ связаны систолическое давление и возраст (r ≈ 0.24), что подтверждает медицинские данные. Привычки: хотя курят лишь ~10%, а алкоголь употребляют ~15%, эти факторы в совокупности с другими показателями усиливают риск. Вывод: сердечно-сосудистые заболевания — результат совокупного влияния возраста, физиологии (давление) и образа жизни. Профилактика должна фокусироваться на контроле давления, особенно у мужчин старше 45 лет, и снижении вредных привычек.

Анализ подтверждает: простые графики (гистограмма, boxplot, тепловая карта) эффективно раскрывают сложные медицинские закономерности.

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more