Original size 2480x3508

Анализ данных деятельности школьников и студентов

PROTECT STATUS: not protected

Выбор данных

Я решила провести анализ данных о деятельности школьников и студентов, чтобы выяснить, чем учащиеся занимаются вне учёбы, насколько часто пропускают занятия и как это влияет на их успеваемость. Мне кажется, анализ этих данных поможет создать картину жизни современного обучающегося. Для анализа я использовала датасет с Kaggle.com

Этапы работы

Первым шагом в моём анализе было скачивание базы данных в формате .csv.

Для начала я решила посмотреть на возраст респондентов, чтобы определить, каких данных в датабазе больше — от школьников или от студентов ВУЗов. Для этой задачи я выбрала график типа pie, чтобы наглядно рассмотреть соотношение респондентов всех возрастов.

Для создания графика использовался Google Colab, а для превращения его в тип pie была использована нейросеть Replit.

Original size 1500x1500

График соотношения возрастов респондентов

Из графика понятно, что респонденты старше 18-ти лет в меньшинстве, что значит, что большинство из них — школьники.

Далее я решила посмотреть на соотношение возраста и свободного времени, чтобы выяснить, у больше времени на занятия, не связанные с учёбой — у школьников или у студентов.

Я использовала график вида pie, чтобы наглядно рассмотреть количество респондентов в каждой возрастной категории.

Original size 1500x1500

Статистика количества свободного времени по возрастным категориям

Для этого и всех последующих графиков я выбрала вид basic bar, как так такой вид графика наглядно показывает соотношение двух параметров. График показывает, что свободного времени у студентов (респондентов старше 18 лет) значительно меньше, чем у школьников. Можно предположить, что количество свободного времени напрямую влияет на успеваемость ученика — чем меньше свободного времени, тем усерднее респондент учится. Однако так ли это на самом деле? Студенты, например, могут работать параллельно с учёбой, что будет отнимать у них свободное время и время на учёбу.

Я решила проверить свою гипотезу, сопоставив статистику свободного времени с количеством пересдач (проваленных курсов) у респондентов.

Original size 1500x1500

График соотношения пересдач и свободного времени

График показывает, что пересдачи не распространены среди респондентов в принципе, а если пересдачи есть, то чаще всего только по одному курсу. Большинство пересдач, тем не менее, происходит респондентов, имеющих больше свободного времени (3 и 4 часа), что значит, что те, у кого времени на внеучебные занятия меньше, на самом деле тратят его в основном на учёбу, а не на подработку или что-либо другое.

Помимо свободного времени, я решила проанализировать посещаемость. Моей целью было выяснить, прогуливают ли респонденты занятия или пропускают их по состоянию здоровья.

Original size 1500x1500

График соотношения состояния здоровья и количества пропущенных занятий

По вертикали отмечено количество пропущенных занятий — для лучшей читаемости графика я ограничила их количество до 10. Горизонтальные столбцы обозначают категории состояния здоровья респондентов от 1 до 5, где 5 — самое высокое значение.

График показывает, что в большинстве случаев школьники и студенты, пропустившие занятия — те, чьё состояние лучше всех. Это значит, что большинство респондентов прогуливают занятия, а не пропускают их по причине болезни.

Выводы

Из рассмотренных графиков можно сделать несколько выводов о данных академической занятости школьников и студентов.

Во-первых, количество свободного времени у обучающегося напрямую зависит от того, на какой ступени образования он находится, поскольку у студентов ВУЗов свободного времени гораздо меньше, чем у школьников.

Во-вторых, было рассмотрено распределение времени на учёбу и сторонние занятия. Как оказалось, большинство обучающихся, не имеющих большого количества свободного времени, в основном занимаются учёбой, а не подработкой или иной деятельностью. Это напрямую отражается в успеваемости, поскольку эта категория обучающихся почти не имеет пересдач по каким-либо предметам.

Большинство пересдач приходится на тех респондентов, кто выделяет себе большее количество свободного времени.

Также я выяснила, что большинство пропусков занятий у обучающихся происходит по причинам, не связанным с плохим состоянием здоровья. Следственно, можно предположить, что большинство пропущенных занятий являются прогулами.

Описание применения генеративной модели

В качестве начальных графиков я использовала графики, предложенные Google Colab. Код для создания этих графиков был также предложен Google Colab. Для изменения вида графиков я использовала нейросеть на Replit.com. Промпты состояли из кода, открывающего датасет, и кода, создающего определённый вид графиков из данных. Затем я просила нейросеть превратить исходный вид графика в другой, например график типа heatmap в график типа basic bar. Ссылка: https://replit.com

Original size 866x374

Ответ на промпт

Также я задавала промпты для того, чтобы вывести определённый параметр на нужную ось графика. Я также предоставляла код, открывающий датасет, и код от Google Colab, создающий график определённого вида, после чего просила нейросеть преобразовать график так, чтобы по оси Y были значения одного параметра, а по оси X — другого.

Original size 865x405

Ответ на промпт

Для генерации обложки использовалась нейросеть Stable Diffusion XL. Использованный промпт: «school student in pink, purple and blue».

Для стилизации графиков использовалась палитра, сгенерированная случайно с помощью coolors.co. Я выбрала такую палитру, поскольку хотела, чтобы графики были яркими и выделялись на белом фоне. Ссылка на палитру: https://coolors.co/c19ab7-9c95dc-228cdb-0b7189-170a1c

Сами графики создавались с помощью DesignCap. Ссылка: https://www.designcap.com/

Датасет для анализа был взят с Kaggle. Ссылка на датасет: https://www.kaggle.com/datasets/larsen0966/student-performance-data-set?resource=download Блокнот с кодом: https://disk.yandex.ru/d/CZD6CIQ2qt9DUg

Анализ данных деятельности школьников и студентов
Project created at 25.09.2024
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more