
Введение
Образование — один из ключевых факторов, определяющих будущий успех человека. Однако академическая успеваемость студентов зависит не только от их интеллектуальных способностей, но и от множества внешних факторов: семейного окружения, уровня подготовки, учебных привычек, социально-экономического положения и даже вовлеченности в дополнительные занятия.
Цель этого исследования — выявить ключевые закономерности, которые оказывают наибольшее влияние на академические результаты студентов.
Для анализа мы используем датасет «Students Performance Dataset», содержащий информацию о студентах, их учебных привычках и оценках.
Выбор графиков
Тепловая карта корреляций используется для выявления линейных связей между переменными, в нашем случае мы можем отследить, как факторы обучения влияют на успеваемость.
Точечная диаграмма с трендом и плотностью распределения используется, потому что мы имеем большое количество числовых непрерывных величин, поэтому лучше всего использовать точечную диаграмму, но для наблюдения роста, добавляем линию тренда (Зависимость GPA от родительской поддержки).
Диаграмму с усами мы используем, чтобы сравнить средние величины, а также разброс наших целевых групп (Влияние внеучебной активности на оценки). Аналогично прошлому пункту — чтобы сравнить средние величины, а также разброс наших целевых групп, но с разбиением по бинарному признаку, чтобы проверить его влияние на целевую переменную.
График — упорядоченная столбчатая диаграмма — пропуски — конечная величина, измеряемая в целых числах, поэтому точечная диаграмма не подходит, но тренд нужно отследить, поэтому мы используем разбиаение на группы и строим столбчатую диаграмму.
Датасет
Для анализа мы используем датасет Students Performance Dataset, скоторый содержит 2392 записи о студентах и их успеваемости.
Этот датасет включает широкий спектр факторов, которые могут влиять на академические результаты, начиная от семейного окружения и заканчивая количеством часов, проведенных за учебой. Он позволяет провести комплексный анализ и выявить, какие аспекты наиболее значимо коррелируют с высокими или низкими оценками.
1. Идентификационные данные StudentID — уникальный идентификатор студента. 2. Демографические характеристики Age — возраст студента. Gender — пол студента (0 = женский, 1 = мужской). Ethnicity — этническая принадлежность студента. 3. Академическая подготовка и учебные привычки ParentalEducation — уровень образования родителей. StudyTimeWeekly — количество часов, проведённых за учёбой в неделю. Absences — количество пропущенных занятий. Tutoring — получал ли студент дополнительное обучение (0 = нет, 1 = да). 4. Социальные и семейные факторы ParentalSupport — уровень поддержки со стороны родителей (шкала 1-5). 5. Внеурочная активность Extracurricular — участие во внеурочных активностях (0 = нет, 1 = да). Sports — участие в спортивных мероприятиях (0 = нет, 1 = да). Music — занятия музыкой (0 = нет, 1 = да). Volunteering — участие в волонтерской деятельности (0 = нет, 1 = да). 6. Академическая успеваемость GPA — средний балл студента (от 0.0 до 4.0). GradeClass — итоговый класс студента (0 — неудовлетворительно, 1-4 — уровни успеваемости).
Этапы анализа
1. Загрузка, первичный осмотр и предобработка данных 2. Анализ ключевых факторов, влияющих на успеваемость и визуализация данных: выявление закономерностей 3. Формирование итоговых выводов
Палитра цветов
Зелёный для меня — это про гармонию, природу и спокойствие, он сразу создаёт ощущение свежести и баланса. Глазам на нём легко задержаться, потому что он находится прямо в центре видимого спектра и не утомляет. Дополнительные оттенки я подбирала так, чтобы всё смотрелось гармонично и глубоко, также с использованием цветовой палитры — в итоге получилось довольно неплохо: цвета приятны и дружелюбны к восприятию.
Загрузка, первичный осмотр и предобработка данных
Палитра цветов
Загрузим данные и посмотрим на них
Проверим на пропуски
Пропусков нет, проверим на дубликаты
Дубликатов нет, удалим неинформативную колонку StudentID
Посмотрим на распределение данных и на выбросы
В распределениях и на боксплотах нет никаких аномалий, данные предобработки не требуют, можно приступать к анализу.
Анализ ключевых факторов, влияющих на успеваемость и визуализация данных: выявление закономерностей
Матрица корреляции факторов с успеваемостью
Прежде чем углубляться в анализ отдельных факторов, важно понять, какие из них вообще имеют сильное влияние на успеваемость. Для этого построим корреляционную матрицу, которая покажет, какие переменные наиболее связаны с GPA.
График — тепловая карта корреляций.
Вывод: Пропуски занятий имеют сильную отрицательную корреляцию с GPA (-0.92), тогда как время на учёбу (+0.18) и родительская поддержка (+0.19) оказывают положительное влияние.
Влияние времени учебы на GPA
Логично предположить, что чем больше времени студент тратит на учебу, тем выше его успеваемость. Однако есть вероятность, что после определённого количества часов дополнительное время перестаёт давать значительный эффект. Посмотрим, как обстоят дела в наших данных.
График — Точечная диаграмма с трендом и плотностью распределения.
Вывод: Чем больше времени студент тратит на учебу, тем выше его GPA, но рост не является резким, а положительная зависимость слабая.
Зависимость GPA от родительской поддержки
Семейная среда играет важную роль в образовательных достижениях. Мы проверим, влияет ли уровень родительской поддержки на успеваемость студентов.
Вывод: Студенты, имеющие высокий уровень родительской поддержки, в среднем показывают лучшие академические результаты, чем те, кто не получает её вовсе.
Влияние внеучебной активности на оценки
Образование — это не просто учеба, но и активное участие в жизни школы или университета. Посмотрим, как разные внеурочные активности (репетиторство, спорт, музыка, волонтёрство и внеурочные занятия) связаны с успеваемостью (GPA).
График — несколько диаграмм с усами.
Вывод: Репетиторство, внеурочные занятия и музыка положительно коррелируют с более высокими GPA, тогда как занятия спортом и волонтёрство не оказывают значимого влияния на успеваемость.
Пропуски и успеваемость
Когда мы смотрели на карту корреляций, сразу бросилась в глаза сильная отрицательная связь между количеством пропущенных занятий и GPA. Это значит, что чем чаще студент пропускает занятия, тем ниже у него средний балл. Но одно дело — сухие цифры, и совсем другое — увидеть всё это наглядно. Давайте разберёмся, как количество пропусков реально влияет на оценки, разделив студентов на 10 групп по числу пропущенных уроков.
График — упорядоченная столбчатая диаграмма.
Вывод: Чем больше пропусков, тем ниже средний балл, и особенно сильный спад наблюдается при превышении 12-15 пропущенных занятий.
Формирование итоговых выводов
Кажется, что хорошие оценки — это просто больше учёбы, но на самом деле на GPA влияет намного больше факторов. Мы разобрали, что действительно помогает студентам учиться лучше, а что мешает.
Во-первых, если верить корреляционной матрице, самый большой враг хороших оценок — это пропуски. Чем их больше, тем ниже GPA, и это видно не только в цифрах, но и на графике: студенты, которые пропускают больше 12-15 занятий, теряют академическую успеваемость очень резко.
Во-вторых, дополнительное время на учёбу действительно помогает, но не так сильно, как можно было бы ожидать.
В-третьих, очень важную роль играет поддержка семьи. Студенты, которым помогают родители, заметно реже оказываются в нижних границах GPA, что говорит о мотивации и создании благоприятной атмосферы для учёбы.
В-четвёртых, участие во внеучебных активностях может помогать, но не всем. Те, кто занимается музыкой и ходит к репетитору, чаще показывают более высокие результаты, а вот спорт и волонтёрство — не всегда гарантия хороших оценок, но точно развивают другие полезные навыки.
Подводим итоги
Лучшая стратегия для успеваемости — не пропускать занятия, уделять время учебе, заручиться поддержкой семьи и при необходимости заниматься с репетитором. А спорт, музыка и волонтёрство — это крутые вещи, но их стоит совмещать с учёбой так, чтобы они помогали, а не мешали.
Использование LLM моделей
Для всех запросов использовалась модель GPT-4o Ссылка: https://chatgpt.com/?model=gpt-4o
Запросы:
Цель: Генерация описания переменных; promt: Сгенерируй описание переменных из датасета.
Цель: Отключение предупреждений; promt: Сгенерируй код для отключения варнингов.
Цель: Построение графика плотности на точечной диаграмме; promt: Добавь на мою точечную диаграмму плотность распределения.
Обложка
Для генерации обложки использовала https://www.midjourney.com/home
Запрос: /Imagine Create a girl who sits at her desk at school. Let her have dark hair and green eyes. Make it real --s 50 — style raw