Original size 1240x1750

Анализ и визуализация данных по депрессии у студентов

PROTECT STATUS: not protected

ВВЕДЕНИЕ

Данные для этого задания были взяты с сайта kaggle.com в разделе Datasets. Среди исследований с параметром Usability 10.0 мной было выбрано исследование под названием Student Depression Dataset (данные о студенческой депрессии), которое содержит следующие данные: • возраст; • пол; • город; • средний балл; • продолжительность сна; • профессия; • рабочее давление; • академическое давление.

Тема была выбрана в связи с интересом к области изучения расстройств депрессивного спектра, которые, как известно, особенно распространены среди представителей моего поколения.

Многие современные студенты, независимо от места проживания, сталкивались с данной проблемой лично или через близкое окружение, что делает изучение депрессии особенно актуальным.

Исходя из предоставленных данных я решила проследить взаимосвязь между депрессией и такими факторами, как продолжительность сна, пищевое поведение и академическое давление. Вышеперечисленные факторы актуальны для большинства студентов. Самым опасным проявлением депрессии является суицидальный риск, в связи с чем было интересно узнать, представители какого пола наиболее подвержены данному риску.

В работе мной были использованы следующие виды графиков: • горизонтальный и вертикальный барчарт — потому что он наилучшим образом демонстрирует соотношение разных величин между собой; • линейная диаграмма — лучше показывает зависимость одной переменной от другой; • пайчарт — потому что этот вид графика лучше показывает соотношение долей в исследованиях.

Изображение для обложки данной работы было сгенерировано с помощью нейросети Leonardo.AI

ЭТАПЫ РАБОТЫ

ПОДГОТОВКА СРЕДЫ К РАБОТЕ:

• импортирую библиотеку Pandas для работы с таблицами; • импортирую библиотеку Matplotlib для построения графиков; • загружаю данные в DataFrame из файла формата csv; • русифицирую название колонки Depression для отображения на графиках; • выборочно просматриваю записи в полученном фрейме, для понимания того, какие данные и в каком объёме у меня есть.

big
Original size 1729x215

Просматриваю данные в первой строке для наглядного отображения структуры и содержания записей.

Original size 1781x776

ОБЩИЕ АЛГОРИТМЫ

Для создания сводной таблицы я использовала алгоритм, которым вдохновилась в работах на сайте kaggle.com.

Далее группирую значения по полям с данными о наличии депрессии и исследуемым параметром. В качестве результирующего значения использую метод подсчета количества для каждой пары группировки «size», учитывающий пустые значения.

Преобразую таблицу в сводную таблицу методом unstack с заполнением пустых значений нулем.

Для перевода значений столбца на русский язык применяю алгоритм, который нашла на сайте stackoverflow.

Создаю словарь качества питания для перевода на русский язык, где ключ — это английское название, а значение — русское. При помощи метода replace заменяю в колонке английский текст на русский.

АНАЛИЗ ДАННЫХ

ВЛИЯНИЕ ДЕПРЕССИИ НА ПРОДОЛЖИТЕЛЬНОСТЬ СНА:

• переводим значения в колонке «Sleep Duration» на русский язык; • создаём новый DataFrame с нужными нам полями для анализа; • удаляем значения, которые нельзя интерпретировать (Others); • применяем алгоритм создания сводной таблицы.

Original size 1604x446
Original size 1680x699

ВЛИЯНИЕ ДЕПРЕССИИ НА ПИЩЕВОЕ ПОВЕДЕНИЕ:

• переводим значения в колонке «Dietary Habits» на русский язык; • создаём новый DataFrame с нужными нам полями для анализа; • удаляем значения, которые нельзя интерпретировать (Others); • применяем алгоритм создания сводной таблицы.

Original size 1719x475
Original size 1680x699

ВЛИЯНИЕ УРОВНЯ АКАДЕМИЧЕСКОГО ДАВЛЕНИЯ НА ДЕПРЕССИЮ:

• группируем данные в DataFrame по полю Academic Pressure; • рассчитываем какой процент студентов с депрессией выявлен для данного уровня академического давления в поле с результатом группировки.

Original size 1699x244
Original size 1680x699

ВЛИЯНИЕ ПОЛА НА СУИЦИДАЛЬНЫЕ МЫСЛИ:

• переводим значения в колонке «Gender» на русский язык; • переименовываем поле со значениями для удобства, оставляем только студентов с депрессией; • создаём новый DataFrame с нужными нам полями для анализа; • группируем по полю Gender и подсчитываем количество студентов для каждого пола.

Original size 1709x459
Original size 1680x699

РЕЗУЛЬТАТ

В итоге я получила 4 разных графика, для стилизации которых меняла цветовую палитру, расположение надписей, также добавляла сетку, где это было уместно.

Original size 1680x429

ССЫЛКА НА DATASET И БЛОКНОТ

Анализ и визуализация данных по депрессии у студентов
Project created at 30.12.2024
Confirm your ageProject contains information not suitable for individuals under the age of 18
I am already 18 years old
Cancel
Confirm
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more