Диабет: анализ и визуализация on Mediiia
Original size 1140x1600

Диабет: анализ и визуализация

PROTECT STATUS: not protected
5

Выбор датасета

Для анализа и визуализации данных я выбрала датасет на Kaggle «Diabetes Dataset» (https://www.kaggle.com/datasets/akshaydattatraykhare/diabetes-dataset). Он содержит информацию о разных медицинских показателях (уровень глюкозы, артериальное давление, возраст, ИМТ и др.) и показывает, есть ли у человека диабет или нет.

Я решила работать именно с этим датасетом, потому что у меня самой диабет 1 типа, и эта тема для меня очень личная. Хотя в датасете не указано, о каком типе диабета идёт речь, он всё равно даёт возможность посмотреть, какие факторы могут быть связаны с риском заболевания.

Данные хорошо структурированы и подходят для анализа и визуализации. Мне интересно разобраться, как разные параметры могут влиять на здоровье, и визуально это показать. Это полезно и как способ лучше понять своё состояние, и как способ поговорить о важной теме — понятно и наглядно.

Цель исследования — изучить взаимосвязи между медицинскими показателями и наличием сахарного диабета, а также проанализировать, какие факторы могут влиять на риск заболевания. Исследование направлено на то, чтобы выявить важные признаки и представить их наглядно не только для специалистов, но и для широкой аудитории.

Я использовала несколько видов визуализаций, чтобы наглядно показать ключевые взаимосвязи. Графики, которые я выбрала на мой взгляд больше всего подходят для выявления закономерностей, сравнения и распределения данных.

Столбчатая диаграмма помогла сравнить количество людей с диабетом и без него. Ящики с усами позволили увидеть, как различаются показатели, такие как уровень глюкозы и ИМТ, у больных и здоровых. Тепловая карта корреляций показала, какие признаки тесно связаны между собой и с наличием диабета. Диаграмма рассеяния помогла визуализировать, как сочетаются возраст и ИМТ у разных групп людей.

Описание применения генеративной модели

Для создания обложки я использовала Recraft (https://www.recraft.ai/)

Промт: «A modern, editorial-style flat lay photograph for a personal data analysis project. A stylish minimal composition on a soft neutral background (white or beige) featuring elements like a glucose meter, a pen, a paper with simple graphs or data charts, a cup of coffee or water, and abstract paper cutouts. The setting feels calm, clean, and thoughtful — not medical, but subtly themed around self-tracking, data, and daily life with diabetes.Use a gentle color palette: powder pink, and deep brown as accents in objects or shadows. No people».

Для помощи в написании кода при анализе я использовала ChatGPT 4 от OpenAI (https://chat.openai.com).

Обработка данных

Для работы с данными использовалась библиотека Pandas, а для визуализации — Matplotlib и Seaborn. Обработка данных проходила в несколько этапов. Сначала были проверены типы данных и структура таблицы, выделены ключевые переменные для анализа — такие как уровень глюкозы, возраст, индекс массы тела, артериальное давление и др.

На следующем этапе были удалены строки с пропущенными значениями в важных колонках, чтобы избежать искажений в результатах.

Отдельное внимание уделялось подготовке данных к визуализации: столбцы были переименованы для читаемости, категорические значения — перекодированы. В итоговом анализе рассматривались только полные и репрезентативные записи, обеспечивающие корректные визуальные выводы.

0

Стилизация графики

Стилизация графиков была направлена на создание целостной, визуально аккуратной инфографики. Оттенки хотелось сделать отсылающими к медицине, но не больничными, поэтому основу визуального языка составил пыльно розовый цвет и светло-серый оттенок.

Для обеспечения визуального единства были вручную настроены параметры графиков в библиотеках Matplotlib и Seaborn: отключены лишние оси, настроены фон, сетка, подписи. Использовался стиль whitegrid с кастомизацией.

Весь текст на графиках приведён к единому шрифту Vremena Grotesk одного кегля, что поддерживает минималистичную и современную эстетику анализа.

0

Столбчатая диаграмма

Я разбила столбец age на три возрастные группы: младше 30 лет, 30–50 лет, старше 50 лет. Посчитала количество положительных и отрицательных диагнозов в каждой группе. Нормализовала значения по группам, чтобы видеть доли, а не абсолютные числа. Построила диаграмму, где каждая колонка — возрастная группа, а цветовая заливка — доля положительных и отрицательных диагнозов.

0

Эта диаграмма показывает долю положительных и отрицательных диагнозов диабета в трёх возрастных категориях: до 30, от 30 до 50, после 50 лет, что позволяет понять, в какой возрастной группе риск диабета выше, не просто по количеству, а именно по пропорции заболевших внутри каждой группы. Это особенно важно для выявления уязвимых возрастов и построения профилактики.

Результаты: Доля больных диабетом значительно выше среди пожилых (50+). Молодые люди имеют самую низкую долю диагнозов. Это подтверждает, что возраст — один из ключевых факторов риска.

Boxplot (глюкоза и BMI)

Я создала категориальные признаки: возрастные группы и категории BMI, построила boxplot, где ось X — группы BMI, ось Y — уровень глюкозы, а цвет отражает возрастную категорию, добавила параметр showfliers=False, чтобы убрать выбросы и сделать график чище.

0

Boxplot визуализирует распределение уровня глюкозы в зависимости от возраста и категории ИМТ, что даёт наглядное представление о медианах, диапазонах и выбросах, помогая увидеть, как повышается глюкоза при увеличении массы тела и возраста. Благодаря этому можно выявить взаимодействие двух факторов риска.

Результаты: Уровень глюкозы стабильно увеличивается с возрастом и индексом массы тела. Особенно высокие показатели у пожилых людей с ожирением. Это подтверждает накопительный эффект риска при сочетании возраста и лишнего веса.

Тепловая карта

Я сгруппировала данные по тем же возрастным и BMI-категориям. Для каждой группы посчитала среднее значение инсулина и построила тепловую карту с аннотациями значений и фирменными цветами.

0

Тепловая карта показывает средний уровень инсулина в каждой группе по возрасту и весу в виде сетки. Чем выше значение — тем насыщеннее цвет. Она даёт возможность оценить, в каких группах наблюдаются аномальные показатели инсулина. Это важно для ранней диагностики инсулинорезистентности, которая часто предшествует диабету.

Результаты: Уровень инсулина тоже растёт у пожилых и при ожирении. Особенно высокие значения наблюдаются у пожилых с избыточным весом или ожирением. Это сигнализирует о возможной инсулинорезистентности в этих группах.

Диаграмма рассеяния

Я отфильтровала только строки с адекватными значениями Glucose и Insulin и построила диаграмму рассеяния, где: ось X — уровень глюкозы, ось Y — уровень инсулина, цвет точек — наличие/отсутствие диагноза.

0

Диаграмма рассеяния сравнивает уровень глюкозы и инсулина у всех участников, при этом цвет точек указывает на наличие диабета. Это позволяет выявить скопления больных в определённой зоне и установить визуальную границу между здоровыми и больными.

Результаты: У больных диабетом точки сгущаются в области высокого глюкозы и высокого инсулина. У здоровых — больше разброс, значения чаще ниже. Это показывает взаимосвязь между гипергликемией и гиперинсулинемией как маркерами болезни.

Вывод

В ходе анализа были выявлены чёткие зависимости между физиологическими параметрами и вероятностью диабета. Исследование показало, что возраст и вес — важнейшие факторы, напрямую влияющие на уровень глюкозы и инсулина в крови.

Столбчатая диаграмма показала, что риск значительно увеличивается с возрастом, особенно после 50 лет. Это согласуется с данными о возрастной уязвимости. Boxplot подтвердил, что избыточный вес и ожирение усиливают рост глюкозы, особенно у пожилых. Тепловая карта позволила убедиться, что уровень инсулина также растёт в группах с ожирением и возрастом, указывая на возможную инсулинорезистентность. Диаграмма рассеяния визуально отделила больных от здоровых: большинство больных сконцентрированы в зонах высокой глюкозы и инсулина, а здоровые — в более умеренных значениях.

Диабет: анализ и визуализация
5
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more