Описание
Туберкулёз — серьёзное инфекционное заболевание, с которым человечество борется из покон веков. Огромное количество людей, поражённое этой болезнью, гибло, не в силах побороть её, и даже в наши дни, когда медицина вышла на новый уровень, поражение этой инфекцией может иметь смертельный исход, если вовремя не начать лечение. Я выбрала именно эту тему, так как сама проходила через лечение от данного заболевания. Это оставило отпечаток на всю мою жизнь. Из-за чего я решила поглубже погрузиться в неё и исследовать некоторые данные.
Для представления результатов анализа я выбрала несколько типов графиков:
- Столбчатые диаграммы для сравнения количественных показателей между различными группами.
- Составные (stacked) диаграммы для отображения пропорций в разных категориях.
- Тепловые карты для визуализации взаимосвязей между различными факторами.
- Комбинированные графики для одновременного представления нескольких аспектов данных.
Я решила, что такой набор графиков позволит наиболее полно и наглядно представить результаты анализа, делая их доступными даже для людей без специальной подготовки.
Выбор данных
Для анализа был выбран датасет, который содержит подробную информацию о пациентах, их симптомах и диагнозах. Этот набор данных особенно интересен, поскольку позволяет исследовать взаимосвязи между различными факторами риска и вероятностью положительного диагноза туберкулеза. Данные включают такие параметры как:
- Возраст и пол пациентов 2.Тяжесть симптомов (кашель, одышка, усталость, потеря веса)
- Наличие крови в мокроте
- История курения
- Предыдущая история туберкулеза
- Наличие ночной потливости
- И многие другие показатели
Основной целью данного проекта является выявление ключевых закономерностей и взаимосвязей между различными факторами и диагнозом туберкулеза с помощью представления результатов в виде понятных и информативных визуализаций.
Оформление
Особое внимание было уделено стилизации визуализаций для создания единого визуального языка:
- Была выбрана единая цветовая схема с основными цветами: #3498db (синий), #e74c3c (красный), #2ecc71 (зеленый), #f39c12 (оранжевый), #9b59b6 (фиолетовый)
- Все графики имеют одинаковый фоновый цвет и стиль сетки
- Подписи осей и заголовки оформлены в едином стиле
- На всех графиках добавлены числовые значения для лучшего восприятия данных
- Высокое разрешение (600 DPI) обеспечивает четкость изображений даже при печати.
#3498db (синий), #e74c3c (красный), #2ecc71 (зеленый), #f39c12 (оранжевый), #9b59b6 (фиолетовый)
Для стилизации я не стала использовать готовые шаблоны, а создал собственный стиль, который лучше всего подходит для визуализации медицинских данных.
График 1: Распределение пациентов по возрасту и диагнозу
Этот график показывает, как возраст пациентов связан с вероятностью положительного или отрицательного диагноза туберкулеза. Можно видеть, что определенные возрастные группы имеют повышенный риск заболевания.
График 2: Средняя тяжесть симптомов при различных диагнозах
Визуализация сравнивает среднюю тяжесть основных симптомов (кашель, одышка, усталость, потеря веса) у пациентов с положительным и отрицательным диагнозом. Это позволяет выявить наиболее характерные симптомы для туберкулеза.
График 3: Распределение наличия крови в мокроте по диагнозу
Стековая диаграмма показывает процентное соотношение пациентов с наличием или отсутствием крови в мокроте в зависимости от диагноза. Кровь в мокроте является одним из важнейших симптомов при диагностике туберкулеза.
График 4: Влияние курения на тяжесть кашля при разных диагнозах
Этот график иллюстрирует, как история курения влияет на тяжесть кашля у пациентов с положительным и отрицательным диагнозом. Можно увидеть, усугубляет ли курение тяжесть симптомов при туберкулезе.
График 5: Комбинированный анализ симптомов и истории ТБ
Двойная визуализация показывает:
- Влияние предыдущей истории туберкулеза на тяжесть симптомов.
- Распределение интенсивности ночной потливости в зависимости от диагноза.
Этот комбинированный график позволяет выявить важные взаимосвязи, которые могут помочь в более точной диагностике заболевания.
Выводы
Проведенный анализ данных о туберкулезе выявил несколько важных закономерностей:
- Тяжесть симптомов действительно коррелирует с положительным диагнозом, особенно это касается кашля и кровохарканья.
- История курения значительно влияет на тяжесть симптомов, особенно у пациентов с положительным диагнозом.
- Наличие предыдущего опыта заболевания туберкулезом увеличивает вероятность положительного диагноза в текущем обследовании.
- Ночная потливость является важным индикатором для диагностики, существенно чаще встречаясь у пациентов с положительным диагнозом.
Подобный анализ может иметь практическую ценность для медицинских работников, помогая им выявлять пациентов с повышенным риском туберкулеза и более точно интерпретировать комбинации симптомов.
Описание применения генеративной модели
В данном проекте была использована генеративная модель Claude от компании Anthropic. Модель применялась для создания Python-кода для обработки и визуализации данных, а также для разработки единого стиля оформления графиков. Вот основные задачи, которые я решала с её помощью:
- Написание эффективного и чистого кода для обработки данных
- Подбор оптимальных параметров для визуализации
- Создание универсального кода, который корректно работает с разными форматами входных данных
- Повышение читаемости графиков и общего качества визуализаций
Основными промптами были:
- «Создай код для анализа данных о туберкулезе с использованием Python»
- «Улучши визуализацию данных, повысив разрешение и читаемость графиков»
- «Сделай универсальный код, работающий с английскими названиями колонок»
- «Упрости код, убрав лишние комментарии и сохранив функциональность»
Основным преимуществом использования Claude было значительное ускорение процесса разработки кода и повышение его качества. Модель помогла создать универсальный код, который корректно работает с различными форматами входных данных и автоматически адаптируется к ним.
Кроме того, Claude помог в оптимизации визуальных параметров графиков, повышении их четкости и информативности, что сделало результаты анализа более понятными и доступными.
Заключение
Проект демонстрирует, как визуализация данных может помочь в медицинских исследованиях, делая сложные взаимосвязи более наглядными и понятными. Созданные графики могут быть полезны как для медицинских работников, так и для образовательных целей.
Ссылки
Ссылка на используемую генеративную модель: https://claude.ai
Блокнот и Датасет: https://drive.google.com/drive/folders/1RyAPCbaZOgGYtxmAheJTT1s1RVN31Cti?usp=drive_link
Colored x-ray of the chest patient with lung cancer // motion elements URL: https://www.motionelements.com/ru/stock-image-25368476-colored-x-ray-of-the-chest-patient-with-lung-cancer (дата обращения: 23.03.2025).



