
Описание
Для анализа я выбрала датасет с платформы Kaggle, содержащий информацию о студентах, их образовании, навыках и карьерных достижениях. Этот датасет заинтересовал меня, так как он позволяет исследовать, какие факторы (например, количество стажировок, уровень soft skills, рейтинг университета) влияют на успех в карьере.
В процессе визуализации данных я использовала различные типы графиков: boxplot, линейный график, столбчатую диаграмму, круговую диаграмму. Такой подход позволил наиболее наглядно представить закономерности в данных.
Этапы работы
1. Подключение к Google Drive и загрузка датасета. 2. Проверка наличия пропущенных значений и очистка данных. 3. Группировка данных и создание новых признаков для удобства анализа.
Для стилизации я выбрала пастельные тона, которые делают визуализацию приятной и удобной для восприятия. Плюс мне понравилось как это выглядит, так как обычно графики на такую тему довольно монотонные и неяркие. Также был использован шрифт Anonymous Pro, загруженный из Google Fonts.
Описание применения генеративной модели
В процессе работы я использовала нейросеть ChatGPT (версия GPT-4-turbo) для написания и корректировки кода на Python. Это помогло мне оптимизировать код, выбрать наиболее подходящие методы визуализации и устранить возникающие ошибки. В частности, я обращалась к ChatGPT для следующих задач:
1. Оптимизация кода и исправление ошибок при загрузке и обработке данных.
2. Выбор наиболее подходящих типов диаграмм для разных аспектов анализа и создания кода для них.
3. Улучшение визуального оформления графиков, включая выбор цветовой палитры и стилизацию элементов.
4. Добавление элементов оформления.
Вот несколько примеров промптов, которые я использовала:
1. «Как исправить ошибку KeyError в pandas, если колонка присутствует в датасете?» 2. «Как сделать столбчатую диаграмму более читаемой, если категории сливаются?» 3. «Как задать пастельную цветовую схему для графиков в matplotlib?» 4. «Как добавить обводку к сегментам круговой диаграммы в matplotlib?» 5. «У меня высветилась в твоём коде ошибка (текст ошибки), как её исправить?»
Более подробно ознакомиться с инструментом можно по ссылке: ChatGPT
Так же для генерации обложки проекта была использована нейросеть Leonardo.Ai
Вот использованный промпт: «A modern, geometric abstract cover design representing student success and career growth. The design should feature soft pastel colors, clean lines, and minimalistic shapes, symbolizing data analysis, education, and professional development. Incorporate elements such as subtle graduation caps, books, or abstract figures of students in a professional setting. The background should be light and airy, with a well-balanced composition. High resolution (1140×1600px), no text.»
Распределение начальной зарплаты по гендеру
график
код
Влияние soft skills на количество предложений о работе
график
код
Средняя зарплата выпускников в зависимости от рейтинга университета
график
код
Распределение студентов по сферам обучения
график
код
Заключение
Проведённый анализ помог выявить закономерности, влияющие на карьерный рост студентов. Использование различных методов визуализации позволило лучше понять данные и сделать наглядные выводы.
Вот ссылка на блокнот с кодом
Вот ссылка на датасет