
Концепция
Болезнь Паркинсона — это хроническое прогрессирующее заболевание, которое влияет на двигательную систему и качество жизни пациентов. Оно является вторым по распространенности нейродегенеративным заболеванием после болезни Альцгеймера. Болезнь Паркинсона чаще всего развивается у людей старше 60 лет, но в некоторых случаях может проявляться и в более раннем возрасте.
Какие данные я выбрала?
Для анализа я использовала датасет [1], содержащий информацию о пациентах с болезнью Паркинсона. В датасете представлены следующие данные:
1. Возраст пациентов
2. Пол
3. Уровень образования
4. Наличие привычки курения
Эти данные позволяют изучить, как различные факторы могут быть связаны с развитием болезни Паркинсона.
Для стилизации графиков я вдохновлялась медицинскими инфографиками, которые часто используют минималистичный дизайн с акцентом на четкость и читаемость данных. Я планирую использовать мягкие, но контрастные цвета, чтобы выделить ключевые моменты. В графиках и оформлении лонгрида за основные цвета я взяла розовый и синий на контрасте: #F98298, #342E8E.

Для визуализации я выбрала вертикальную гистограмму (хорошо показывает распределение пациентов в соотношении количества и возраста), горизонтальную гистограмму (можно легко заметить разницу сколько пациентов курят, а сколько не курят), диаграмму (для наглядности, чтобы сравнить сколько женщин и мужчин) и точечную диаграмму (для определения образования пациентов эта диаграмма сразу акцентирует внимание на нужной информации).
Обработка данных
Для начала я импортировала необходимые библиотеки: pandas для работы с данными, seaborn и matplotlib.pyplot для визуализации, а также отключила предупреждения с помощью warnings, чтобы избежать лишних сообщений в выводе. После этого я установила стиль графиков seaborn на whitegrid, чтобы диаграммы выглядели более аккуратно и читаемо. Затем загрузила данные из CSV-файла, используя библиотеку pandas. Указала путь к файлу и задала кодировку MacRoman, чтобы корректно прочитать данные. После загрузки данных я вывела весь датафрейм на экран с помощью метода to string (), чтобы убедиться, что данные загружены корректно и отображаются полностью.
Для анализа распределения пациентов по возрасту я начала с создания возрастных групп. Используя метод pd.cut, я разделила возраст пациентов на интервалы с шагом 3 года, начиная с 50 лет и заканчивая 100 годами. Это позволило мне сгруппировать данные по возрастным категориям. Затем я подсчитала количество пациентов в каждой возрастной группе и отсортировала результаты по индексу. Для настройки визуализации я определила шрифты и цвета. Заголовок графика был оформлен с использованием шрифта sans-serif, размера 16 и жирного начертания. Подписи осей и метки также были настроены с использованием шрифта sans-serif, размера 12, курсивного начертания и жирного шрифта. Основной цвет текста был установлен на #342E8E. Я создала столбчатую диаграмму с использованием библиотеки matplotlib. Размер графика был установлен на 10×6, а цвет столбцов — на #f98298. Заголовок графика и подписи осей были оформлены с использованием ранее заданных шрифтов и цвета. Метки на оси X были повернуты на 45 градусов для лучшей читаемости.
Для анализа распределения пациентов по курению я начала с подсчета количества пациентов в каждой категории (курят и не курят). Затем я настроила шрифты и цвета для графика. Заголовок был оформлен с использованием шрифта sans-serif, размера 14 и жирного начертания. Подписи осей и метки также были настроены с использованием шрифта sans-serif, размера 12, курсивного начертания и жирного шрифта. Основной цвет текста был установлен на #342E8E. Я создала горизонтальную столбчатую диаграмму с использованием библиотеки matplotlib. Размер графика был установлен на 8×4, а цвета столбцов — на #342E8E и #f98296. Заголовок графика и подписи осей были оформлены с использованием ранее заданных шрифтов и цвета.
Для анализа распределения пациентов по полу я начала с подсчета количества пациентов в каждой категории (мужчины и женщины). Затем я настроила шрифт для заголовка и создала круговую диаграмму с использованием библиотеки matplotlib. Размер графика был установлен на 6×6, а цвета секторов — на #f98296 и #342E8E. Проценты на диаграмме были оформлены с использованием шрифта размера 20.
Для анализа распределения пациентов по уровню образования я начала с подсчета количества пациентов в каждой категории. Затем я настроила шрифты и цвета для графика. Заголовок был оформлен с использованием шрифта serif, размера 16 и жирного начертания. Подписи осей и метки также были настроены с использованием шрифта sans-serif, размера 12 и жирного шрифта. Основной цвет текста был установлен на #342E8E, а специальный цвет — на #f98298. Я создала точечную диаграмму с использованием библиотеки matplotlib. Размер графика был установлен на 8×6, а цвет точек — на #342E8E. Заголовок графика и подписи осей были оформлены с использованием ранее заданных шрифтов и цвета. Метки на оси X были заменены на «Нет», «Средняя школа», «Бакалавр» и «Высшее», а также оформлены с использованием заданного шрифта и специального цвета #f98298. Цвет меток на оси Y также был установлен на #f98298.
Визуализация данных
Вертикальная гистограмма. Возраст пациентов
Вертикальная гистограмма показывает, что чаще всего заболевание встречается у людей 71-74 лет, но при этом часто встречается даже в возрасте 50-53 лет.
Горизонтальная гистограмма. Курение
Причина заболевания не установлена, но горизонтальная гистограмма показывает, что большинство пациентов не курят.
Круговая диаграмма. Пол пациентов
Круговая диаграмма помогает понять, что данная болезнь касается как мужчин, так и женщин в равной степени. Мужчин больше всего на 1,4%.
Точечная диаграмма. Уровень образования
С помощью точечной диаграммы мы можем заметить, что болезнь касается людей меньше с высшим образованием и больше всего людей, кто имеет среднее образование.
Описание применения генеративной модели
С помощью сайта Recraft была создана обложка. URL: https://www.recraft.ai/projects
Список источников
[1] Rabie El Kharoua, «Parkinson’s Disease Dataset Analysis», 2024. URL: https://www.kaggle.com/datasets/rabieelkharoua/parkinsons-disease-dataset-analysis?resource=download
Ссылка на блокнот и базу данных: https://drive.google.com/drive/folders/14lNOxsehi09FmpH2va-SvFpB_7sEeMae?usp=sharing