

Концепция проекта
Проект основан на образе медицинского оборудования: тёмное поле представляет собой загадочность внутреннего мира человека, где клинические нормы (определяются белым цветом) резко противопоставляются зоне отклонений и потенциальных проблем (обозначенной ярко-красным). Такой выразительный, лаконичный дизайн устраняет всё постороннее внимание, преобразуя обычные цифры в легко воспринимаемую схему вероятностей, в которой каждый цветовой нюанс сигнализирует об угрозе и побуждает к срочному исследованию.
Цель
Необходимо обнаружить неочевидные связи в медицинской информации и установить, какие факторы (возраст пациента, характер болевых ощущений, уровень холестерина) оказывают наибольшее влияние на вероятность развития сердечного заболевания.
Для привлечения внимания к наиболее важным параметрам мы применяем сочетание красного и белого цветов на темном фоне.
Подготовка данных
Прежде чем строить графики, я загрузил нужные библиотеки.
Первые шаги.
Графики
Определение возраста, когда опасность достигает пика — ключевая задача.
Анализ выявил: значительное увеличение числа случаев приходится на период после 55 лет, а возрастной диапазон 55–65 лет характеризуется максимальной подверженностью риску.
Столбчатая диаграмма. (Возраст и Риск) Этот график показывает, в какой возрастной группе больше всего «красных» случаев.
Определение возраста наибольшей подверженности заболеванию стало ключевым этапом. Был разработан код, который классифицирует пациентов по возрастным группам и визуализирует данные в виде столбчатой диаграммы. Стиль графика выполнен в духе медицинского оборудования: черный фон контрастирует с белыми надписями. Анализ этой диаграммы позволяет быстро определить возрастную группу с наименьшим количеством случаев заболевания и выявить те возрастные категории, где диагностируемость приобретает тревожный характер.
Я сгруппировал данные по категориям (например, 20–45, 45–55 лет) и построил sns.countplot (). Это позволило сравнить количество больных и здоровых в каждом возрасте «плечом к плечу».
ㅤㅤㅤㅤㅤ
Повышенный уровень холестерина часто является скрытым фактором риска. Анализ концентрации этого вещества помогает выявить различия между нормальным состоянием и болезнью. У пациентов с уже установленным диагнозом график его уровня демонстрирует выраженное увеличение в области высоких значений, что явно указывает на значительные отклонения от нормы здоровых людей.
«Скрипичный» график (Холестерин). Он показывает плотность данных — где «раздуто», там больше всего людей с таким уровнем холестерина.
Был применен график типа sns.violinplot (). Визуализация, напоминающая форму скрипки, позволяет оценить распределение данных: ширина корпуса указывает на количество пациентов с определенным уровнем холестерина. Добавленные линии, обозначающие квартили (inner="quartile"), позволяют определить границы нормального диапазона значений.
ㅤㅤㅤㅤㅤㅤ
Перед анализом отдельных проявлений необходимо разобраться во взаимосвязях факторов риска. Данная визуализация отображает неочевидные закономерности: например, как изменения в электрокардиограмме соотносятся с возрастом и физическими нагрузками. Интенсивность красного цвета квадрата отражает силу связи между этими параметрами.
Тепловая карта корреляции. Показывает связи между всеми числами. Чем краснее квадрат, тем сильнее связь.
Чтобы выявить взаимосвязи между различными параметрами, я создал тепловую карту. Для этого в программе была применена функция корреляции, которая позволяет определить наличие зависимости между переменными. Визуальное представление основано на цветовой схеме: интенсивность окраски каждой клетки отражает силу связи между соответствующими показателями. Благодаря этому методу я оперативно определил наиболее значимые факторы, влияющие на заболевание, и исключил из анализа незначительные параметры.
Корреляция между всеми переменными была рассчитана с использованием метода .corr () и представлена в виде тепловой карты посредством функции sns.heatmap (). Для облегчения интерпретации результатов сложные английские обозначения переменных были заменены на более понятные русские аналоги с использованием словаря rename_dict.
ㅤㅤㅤㅤㅤㅤ
Каким образом меняется работа сердца с течением времени? Детальное рассмотревание данных позволяет оценить состояние каждого пациента отдельно. Разделение точек на графике выделяет проблемную область: сочетание пожилого возраста и повышенной частоты сердечных сокращений при физической активности наиболее вероятно свидетельствует о заболевании, формируя отчетливую группу риска.
Точечный график (Пульс и Возраст). Показывает каждого пациента отдельно. Красные точки — наличие болезни.
Я использовал sns.scatterplot (), где каждая точка — это человек. Белым цветом я отметил здоровых, а красным — людей с диагнозом.
ㅤㅤㅤㅤㅤㅤ
Оценка распространенности проблемы в исследованной группе пациентов. Важно отметить: более сорока четырех процентов (44.4%) имеют признаки заболевания. Это существенный процент, обосновывающий необходимость поиска ключевых факторов риска.
Соотношение больных и здоровых пациентов.
Метод value_counts () был применен к колонке «Heart Disease» для определения частоты встречаемости каждого значения. Полученные результаты были визуализированы в форме круговой диаграммы с использованием функции plt.pie ().
Для первичного ознакомления со структурой данных я отобразил информацию в виде круговой диаграммы, часто называемой «пирогом». С помощью функции value_counts () я автоматически получил количество записей о пациентах с разными статусами здоровья — здоровых и имеющих диагноз. График оформлен двумя вариациями одного оттенка красного для создания лаконичного и профессионального вида. Этот этап позволил оценить общее соотношение категорий и определить баланс представленных пациентов в выборке.
Вывод
Результаты исследования указывают на наличие явных биохимических и физиологических характеристик сердечно-сосудистых заболеваний: важную роль играет возраст (свыше 55 лет), который в комбинации с высоким содержанием холестерина и отклонениями в сегменте ST на электрокардиограмме создает надежный индикатор риска. Анализ данных обнаружил опасную особенность — самые сложные ситуации нередко связаны с отсутствием ощутимых симптомов, что подчеркивает сложность диагностики и требует внимания к косвенным признакам, таким как уменьшение максимальной частоты сердечных сокращений при физической активности. Следовательно, полученные данные показывают, что своевременная диагностика должна основываться не на субъективном восприятии состояния пациентом, а на всестороннем анализе взаимодействия возраста, состава крови и объективных показателей функционирования сердца.
Источники
Датасет: https://www.kaggle.com/datasets/neurocipher/heartdisease?resource=download
Нейросеть используемая для подбора цветов и генерирования картинок: Google Gemini V3. https://gemini.google.com
Помощь в написании кода: Google Gemini V3. https://gemini.google.com
Написание кода: Google Collab. https://colab.research.google.com