Original size 1140x1600

Анализ факторов, влияющих на успеваемость студентов

PROTECT STATUS: not protected
7

Введение

Образование — один из ключевых факторов, определяющих будущий успех человека. Однако академическая успеваемость студентов зависит не только от их интеллектуальных способностей, но и от множества внешних факторов: семейного окружения, уровня подготовки, учебных привычек, социально-экономического положения и даже вовлеченности в дополнительные занятия.

Цель этого исследования — выявить ключевые закономерности, которые оказывают наибольшее влияние на академические результаты студентов.

Для анализа мы используем датасет «Students Performance Dataset», содержащий информацию о студентах, их учебных привычках и оценках.

Выбор графиков

Тепловая карта корреляций используется для выявления линейных связей между переменными, в нашем случае мы можем отследить, как факторы обучения влияют на успеваемость.

Точечная диаграмма с трендом и плотностью распределения используется, потому что мы имеем большое количество числовых непрерывных величин, поэтому лучше всего использовать точечную диаграмму, но для наблюдения роста, добавляем линию тренда (Зависимость GPA от родительской поддержки).

Диаграмму с усами мы используем, чтобы сравнить средние величины, а также разброс наших целевых групп (Влияние внеучебной активности на оценки). Аналогично прошлому пункту — чтобы сравнить средние величины, а также разброс наших целевых групп, но с разбиением по бинарному признаку, чтобы проверить его влияние на целевую переменную.

График — упорядоченная столбчатая диаграмма — пропуски — конечная величина, измеряемая в целых числах, поэтому точечная диаграмма не подходит, но тренд нужно отследить, поэтому мы используем разбиаение на группы и строим столбчатую диаграмму.

Датасет

Для анализа мы используем датасет Students Performance Dataset, скоторый содержит 2392 записи о студентах и их успеваемости.

Этот датасет включает широкий спектр факторов, которые могут влиять на академические результаты, начиная от семейного окружения и заканчивая количеством часов, проведенных за учебой. Он позволяет провести комплексный анализ и выявить, какие аспекты наиболее значимо коррелируют с высокими или низкими оценками.

1. Идентификационные данные StudentID — уникальный идентификатор студента. 2. Демографические характеристики Age — возраст студента. Gender — пол студента (0 = женский, 1 = мужской). Ethnicity — этническая принадлежность студента. 3. Академическая подготовка и учебные привычки ParentalEducation — уровень образования родителей. StudyTimeWeekly — количество часов, проведённых за учёбой в неделю. Absences — количество пропущенных занятий. Tutoring — получал ли студент дополнительное обучение (0 = нет, 1 = да). 4. Социальные и семейные факторы ParentalSupport — уровень поддержки со стороны родителей (шкала 1-5). 5. Внеурочная активность Extracurricular — участие во внеурочных активностях (0 = нет, 1 = да). Sports — участие в спортивных мероприятиях (0 = нет, 1 = да). Music — занятия музыкой (0 = нет, 1 = да). Volunteering — участие в волонтерской деятельности (0 = нет, 1 = да). 6. Академическая успеваемость GPA — средний балл студента (от 0.0 до 4.0). GradeClass — итоговый класс студента (0 — неудовлетворительно, 1-4 — уровни успеваемости).

Этапы анализа

1. Загрузка, первичный осмотр и предобработка данных 2. Анализ ключевых факторов, влияющих на успеваемость и визуализация данных: выявление закономерностей 3. Формирование итоговых выводов

Палитра цветов

Original size 393x152

Зелёный для меня — это про гармонию, природу и спокойствие, он сразу создаёт ощущение свежести и баланса. Глазам на нём легко задержаться, потому что он находится прямо в центре видимого спектра и не утомляет. Дополнительные оттенки я подбирала так, чтобы всё смотрелось гармонично и глубоко, также с использованием цветовой палитры — в итоге получилось довольно неплохо: цвета приятны и дружелюбны к восприятию.

Загрузка, первичный осмотр и предобработка данных

Original size 2156x262

Палитра цветов

Original size 2156x260

Загрузим данные и посмотрим на них

Original size 2978x512
Original size 2156x892

Проверим на пропуски

Original size 2156x1202

Пропусков нет, проверим на дубликаты

Original size 2156x154

Дубликатов нет, удалим неинформативную колонку StudentID

Original size 2156x74

Посмотрим на распределение данных и на выбросы

Original size 2156x484
Original size 1159x918
Original size 2156x522
Original size 1125x558

В распределениях и на боксплотах нет никаких аномалий, данные предобработки не требуют, можно приступать к анализу.

Анализ ключевых факторов, влияющих на успеваемость и визуализация данных: выявление закономерностей

Матрица корреляции факторов с успеваемостью

Прежде чем углубляться в анализ отдельных факторов, важно понять, какие из них вообще имеют сильное влияние на успеваемость. Для этого построим корреляционную матрицу, которая покажет, какие переменные наиболее связаны с GPA.

График — тепловая карта корреляций.

Original size 2156x218
Original size 1045x658

Вывод: Пропуски занятий имеют сильную отрицательную корреляцию с GPA (-0.92), тогда как время на учёбу (+0.18) и родительская поддержка (+0.19) оказывают положительное влияние.

Влияние времени учебы на GPA

Логично предположить, что чем больше времени студент тратит на учебу, тем выше его успеваемость. Однако есть вероятность, что после определённого количества часов дополнительное время перестаёт давать значительный эффект. Посмотрим, как обстоят дела в наших данных.

График — Точечная диаграмма с трендом и плотностью распределения.

Original size 2156x558
Original size 1013x713

Вывод: Чем больше времени студент тратит на учебу, тем выше его GPA, но рост не является резким, а положительная зависимость слабая.

Зависимость GPA от родительской поддержки

Семейная среда играет важную роль в образовательных достижениях. Мы проверим, влияет ли уровень родительской поддержки на успеваемость студентов.

Original size 2156x340
Original size 855x558

Вывод: Студенты, имеющие высокий уровень родительской поддержки, в среднем показывают лучшие академические результаты, чем те, кто не получает её вовсе.

Влияние внеучебной активности на оценки

Образование — это не просто учеба, но и активное участие в жизни школы или университета. Посмотрим, как разные внеурочные активности (репетиторство, спорт, музыка, волонтёрство и внеурочные занятия) связаны с успеваемостью (GPA).

График — несколько диаграмм с усами.

Original size 2156x596
Original size 1483x784

Вывод: Репетиторство, внеурочные занятия и музыка положительно коррелируют с более высокими GPA, тогда как занятия спортом и волонтёрство не оказывают значимого влияния на успеваемость.

Пропуски и успеваемость

Когда мы смотрели на карту корреляций, сразу бросилась в глаза сильная отрицательная связь между количеством пропущенных занятий и GPA. Это значит, что чем чаще студент пропускает занятия, тем ниже у него средний балл. Но одно дело — сухие цифры, и совсем другое — увидеть всё это наглядно. Давайте разберёмся, как количество пропусков реально влияет на оценки, разделив студентов на 10 групп по числу пропущенных уроков.

График — упорядоченная столбчатая диаграмма.

Original size 2156x640
Original size 855x620

Вывод: Чем больше пропусков, тем ниже средний балл, и особенно сильный спад наблюдается при превышении 12-15 пропущенных занятий.

Формирование итоговых выводов

Кажется, что хорошие оценки — это просто больше учёбы, но на самом деле на GPA влияет намного больше факторов. Мы разобрали, что действительно помогает студентам учиться лучше, а что мешает.

Во-первых, если верить корреляционной матрице, самый большой враг хороших оценок — это пропуски. Чем их больше, тем ниже GPA, и это видно не только в цифрах, но и на графике: студенты, которые пропускают больше 12-15 занятий, теряют академическую успеваемость очень резко.

Во-вторых, дополнительное время на учёбу действительно помогает, но не так сильно, как можно было бы ожидать.

В-третьих, очень важную роль играет поддержка семьи. Студенты, которым помогают родители, заметно реже оказываются в нижних границах GPA, что говорит о мотивации и создании благоприятной атмосферы для учёбы.

В-четвёртых, участие во внеучебных активностях может помогать, но не всем. Те, кто занимается музыкой и ходит к репетитору, чаще показывают более высокие результаты, а вот спорт и волонтёрство — не всегда гарантия хороших оценок, но точно развивают другие полезные навыки.

Подводим итоги

Лучшая стратегия для успеваемости — не пропускать занятия, уделять время учебе, заручиться поддержкой семьи и при необходимости заниматься с репетитором. А спорт, музыка и волонтёрство — это крутые вещи, но их стоит совмещать с учёбой так, чтобы они помогали, а не мешали.

Использование LLM моделей

Для всех запросов использовалась модель GPT-4o Ссылка: https://chatgpt.com/?model=gpt-4o

Запросы:

Цель: Генерация описания переменных; promt: Сгенерируй описание переменных из датасета.

Цель: Отключение предупреждений; promt: Сгенерируй код для отключения варнингов.

Цель: Построение графика плотности на точечной диаграмме; promt: Добавь на мою точечную диаграмму плотность распределения.

Обложка

Для генерации обложки использовала https://www.midjourney.com/home

Запрос: /Imagine Create a girl who sits at her desk at school. Let her have dark hair and green eyes. Make it real --s 50 — style raw

Анализ факторов, влияющих на успеваемость студентов
7
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more