Original size 2480x3500

Анализ факторов сердечно-сосудистых заболеваний

PROTECT STATUS: not protected
The project is taking part in the competition
big
Original size 1024x671

Концепция проекта

Проект основан на образе медицинского оборудования: тёмное поле представляет собой загадочность внутреннего мира человека, где клинические нормы (определяются белым цветом) резко противопоставляются зоне отклонений и потенциальных проблем (обозначенной ярко-красным). Такой выразительный, лаконичный дизайн устраняет всё постороннее внимание, преобразуя обычные цифры в легко воспринимаемую схему вероятностей, в которой каждый цветовой нюанс сигнализирует об угрозе и побуждает к срочному исследованию.

Цель

Необходимо обнаружить неочевидные связи в медицинской информации и установить, какие факторы (возраст пациента, характер болевых ощущений, уровень холестерина) оказывают наибольшее влияние на вероятность развития сердечного заболевания.

Для привлечения внимания к наиболее важным параметрам мы применяем сочетание красного и белого цветов на темном фоне.

Original size 1024x671

Подготовка данных

Прежде чем строить графики, я загрузил нужные библиотеки.

0

Первые шаги.

Графики

Определение возраста, когда опасность достигает пика — ключевая задача.

Анализ выявил: значительное увеличение числа случаев приходится на период после 55 лет, а возрастной диапазон 55–65 лет характеризуется максимальной подверженностью риску.

0

Столбчатая диаграмма. (Возраст и Риск) Этот график показывает, в какой возрастной группе больше всего «красных» случаев.

Определение возраста наибольшей подверженности заболеванию стало ключевым этапом. Был разработан код, который классифицирует пациентов по возрастным группам и визуализирует данные в виде столбчатой диаграммы. Стиль графика выполнен в духе медицинского оборудования: черный фон контрастирует с белыми надписями. Анализ этой диаграммы позволяет быстро определить возрастную группу с наименьшим количеством случаев заболевания и выявить те возрастные категории, где диагностируемость приобретает тревожный характер.

Я сгруппировал данные по категориям (например, 20–45, 45–55 лет) и построил sns.countplot (). Это позволило сравнить количество больных и здоровых в каждом возрасте «плечом к плечу».

ㅤㅤㅤㅤㅤ

Повышенный уровень холестерина часто является скрытым фактором риска. Анализ концентрации этого вещества помогает выявить различия между нормальным состоянием и болезнью. У пациентов с уже установленным диагнозом график его уровня демонстрирует выраженное увеличение в области высоких значений, что явно указывает на значительные отклонения от нормы здоровых людей.

0

«Скрипичный» график (Холестерин). Он показывает плотность данных — где «раздуто», там больше всего людей с таким уровнем холестерина.

Был применен график типа sns.violinplot (). Визуализация, напоминающая форму скрипки, позволяет оценить распределение данных: ширина корпуса указывает на количество пациентов с определенным уровнем холестерина. Добавленные линии, обозначающие квартили (inner="quartile"), позволяют определить границы нормального диапазона значений.

ㅤㅤㅤㅤㅤㅤ

Перед анализом отдельных проявлений необходимо разобраться во взаимосвязях факторов риска. Данная визуализация отображает неочевидные закономерности: например, как изменения в электрокардиограмме соотносятся с возрастом и физическими нагрузками. Интенсивность красного цвета квадрата отражает силу связи между этими параметрами.

0

Тепловая карта корреляции. Показывает связи между всеми числами. Чем краснее квадрат, тем сильнее связь.

Чтобы выявить взаимосвязи между различными параметрами, я создал тепловую карту. Для этого в программе была применена функция корреляции, которая позволяет определить наличие зависимости между переменными. Визуальное представление основано на цветовой схеме: интенсивность окраски каждой клетки отражает силу связи между соответствующими показателями. Благодаря этому методу я оперативно определил наиболее значимые факторы, влияющие на заболевание, и исключил из анализа незначительные параметры.

Корреляция между всеми переменными была рассчитана с использованием метода .corr () и представлена в виде тепловой карты посредством функции sns.heatmap (). Для облегчения интерпретации результатов сложные английские обозначения переменных были заменены на более понятные русские аналоги с использованием словаря rename_dict.

ㅤㅤㅤㅤㅤㅤ

Каким образом меняется работа сердца с течением времени? Детальное рассмотревание данных позволяет оценить состояние каждого пациента отдельно. Разделение точек на графике выделяет проблемную область: сочетание пожилого возраста и повышенной частоты сердечных сокращений при физической активности наиболее вероятно свидетельствует о заболевании, формируя отчетливую группу риска.

0

Точечный график (Пульс и Возраст). Показывает каждого пациента отдельно. Красные точки — наличие болезни.

Я использовал sns.scatterplot (), где каждая точка — это человек. Белым цветом я отметил здоровых, а красным — людей с диагнозом.

ㅤㅤㅤㅤㅤㅤ

Оценка распространенности проблемы в исследованной группе пациентов. Важно отметить: более сорока четырех процентов (44.4%) имеют признаки заболевания. Это существенный процент, обосновывающий необходимость поиска ключевых факторов риска.

0

Соотношение больных и здоровых пациентов.

Метод value_counts () был применен к колонке «Heart Disease» для определения частоты встречаемости каждого значения. Полученные результаты были визуализированы в форме круговой диаграммы с использованием функции plt.pie ().

Для первичного ознакомления со структурой данных я отобразил информацию в виде круговой диаграммы, часто называемой «пирогом». С помощью функции value_counts () я автоматически получил количество записей о пациентах с разными статусами здоровья — здоровых и имеющих диагноз. График оформлен двумя вариациями одного оттенка красного для создания лаконичного и профессионального вида. Этот этап позволил оценить общее соотношение категорий и определить баланс представленных пациентов в выборке.

Вывод

Результаты исследования указывают на наличие явных биохимических и физиологических характеристик сердечно-сосудистых заболеваний: важную роль играет возраст (свыше 55 лет), который в комбинации с высоким содержанием холестерина и отклонениями в сегменте ST на электрокардиограмме создает надежный индикатор риска. Анализ данных обнаружил опасную особенность — самые сложные ситуации нередко связаны с отсутствием ощутимых симптомов, что подчеркивает сложность диагностики и требует внимания к косвенным признакам, таким как уменьшение максимальной частоты сердечных сокращений при физической активности. Следовательно, полученные данные показывают, что своевременная диагностика должна основываться не на субъективном восприятии состояния пациентом, а на всестороннем анализе взаимодействия возраста, состава крови и объективных показателей функционирования сердца.

Источники

Датасет: https://www.kaggle.com/datasets/neurocipher/heartdisease?resource=download

Нейросеть используемая для подбора цветов и генерирования картинок: Google Gemini V3. https://gemini.google.com

Помощь в написании кода: Google Gemini V3. https://gemini.google.com

Написание кода: Google Collab. https://colab.research.google.com

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more