
Выбор данных
Я выбрала датасет «Exam Score Prediction Dataset» с платформы Kaggle, который содержит информацию о 20,000 студентов и факторах, влияющих на их экзаменационные баллы.
Ссылка на датасет: https://www.kaggle.com/datasets/kundanbedmutha/exam-score-prediction-dataset
Ценность данных
Данные представляют интерес, потому что:
1. Реальная практическая значимость:
Понимание факторов успеваемости полезно для образовательных учреждений, студентов и преподавателей
2. Мультифакторный подход:
Включает академические, поведенческие, бытовые и средовые факторы (учеба, сон, посещаемость, интернет и др.)
3. Чистота и готовность к анализу:
Данные уже очищены, нет пропусков, что позволяет сосредоточиться на анализе
Выбор типов графиков
Я выбрала следующие виды визуализаций:
Тепловая карта (heatmap) — для показа взаимодействия двух категориальных факторов
Групповая столбчатая диаграмма — для сравнения средних значений по группам
Гистограмма — для анализа распределения оценок
Точечная диаграмма (scatter plot) — для выявления корреляций
Этапы работы
Обработка данных
Этап 1 Загрузка и первоначальный осмотр данных
Этап 2 Проверка данных
Для помощи в анализе использовала DeepSeek AI с промптами:
«Упрости код, оставив только необходимое» «Помоги исправить ошибку»
Что нейросеть помогла сделать:
1. Предложить темы для анализа 2. Оптимизировать код визуализации 3. Подобрать цветовую палитру 4. Решить технические проблемы (KeyError)
Этап 3 Стилизация графиков
Вдохновлялась принципами Data-Ink Ratio (минимализм в визуализации данных)
Шрифт DejaVu Sans (доступен в Google Colab)
Изучающая визуализация
Объясняющая визуализация
Статистические методы
1. Описательная статистика: Среднее, стандартное отклонение
2. Агрегация: Группировка по категориям
3. Корреляционный анализ: Визуальная оценка взаимосвязей
4. Сравнение средних: Между разными группами
Итоговые графики