
Описание проекта
1. гистограмма распределения возраста смерти 2. boxplot по профессиям 3. scatter (сон vs возраст смерти) + тренд 4. тепловая карта корреляций 5. stacked bar: средние часы (работа/отдых/сон/спорт) по профессиям 6. «цена часа работы»: как меняется ожидаемый возраст смерти при +1 часу работы 7. кластеризация образов жизни (режимы работы/сна)

мудборд проекта, созданный с помощью нейросети ChatGPT.
Подготовка

Работаем в Pandas, визуализация Matplotlib.
Загрузка данных
1. gender — пол 2. occupation_type — тип профессии 3. avg_work_hours_per_day, avg_rest_hours_per_day, avg_sleep_hours_per_day, avg_exercise_hours_per_day — средние часы в день 4. age_at_death — возраст смерти
Проверки и обработка
1. пропуски 2. дубликаты 3. «правило суток»: сумма часов должна быть около 24
1. df — исходная таблица 2. df_clean — строки, где сумма часов близка к 24
Статистические методы
Описательная статистика, чтобы понять диапазоны и типичные значения.
Корреляция Пирсона быстро показывает линейную связь между числовыми признаками.
t-test для сравнения двух групп (по полу). Проверяет, отличается ли средний age_at_death у двух групп.
ANOVA для сравнения нескольких групп (по профессиям). Проверяет, есть ли различия в среднем age_at_death между профессиями.
Полиномиальная регрессия (2-й степени) применяется для моделирования нелинейных зависимостей (например, между продолжительностью сна или рабочими часами и возрастом смерти).
Кластеризация K-means применяется для выделения устойчивых режимов образа жизни на основе времени работы и сна
Настройка оформления графиков
Для визуализации я использую только возможности Matplotlib: фон, линии, шрифт и сетку. Все параметры оформления задаются кодом, без постобработки.
При выборе стиля я опиралась на эстетику business punk, связанную с темой корпоративной среды, регламента и контроля. Такой визуальный язык хорошо подходит к данным о работе и распределении времени.
В качестве визуальных ориентиров использовались игра The Stanley Parable и сериал «Разделение» (Severance) — образы офисной среды, где работа становится замкнутой системой.
Визуализации
Ниже — несколько разных типов графиков. Я строю их на df_clean, чтобы сумма часов была близка к 24.
Выводы
1. Гистограмма показывает, что большинство значений сосредоточено в диапазоне примерно 70–90 лет, при этом присутствуют крайние случаи с очень низким и очень высоким возрастом смерти. Это подтверждает наличие выбросов, заложенных в датасет.
2. Boxplot по профессиям показывает различия в медианах и разбросе age_at_death. Результаты ANOVA (F = 42.325, p < 0.001) подтверждают, что различия между профессиями статистически значимы и не являются случайными.
3. Scatter с полиномиальным трендом показывает, что максимальные значения возраста смерти наблюдаются в диапазоне примерно 7–8 часов сна. При меньшем и большем количестве сна ожидаемая продолжительность жизни снижается.
4. График «цена часа работы» показывает, что при увеличении рабочего времени эффект на возраст смерти становится отрицательным. Это означает, что после некоторого количества рабочих часов каждый дополнительный час ассоциируется с уменьшением ожидаемой продолжительности жизни.
5. Кластеризация по времени работы и сна выделяет несколько режимов образа жизни. Эти режимы различаются по балансу между работой и восстановлением, что указывает на существование типичных паттернов.
6. Средний возраст смерти для женщин выше, чем для мужчин (81.36 против 78.28 лет). t-test показывает статистически значимое различие (t = 12.948, p < 0.001), при этом размер эффекта по Коэну (d = 0.259) указывает на небольшой, но устойчивый эффект.
Использование нейросети в работе
Нейросеть использовалась для генерации и уточнения цветовой палитры, соответствующей выбранной визуальной эстетике. Палитра затем была адаптирована и применена вручную при настройке графиков в Matplotlib.
«Подбери ограниченную цветовую палитру для инфографики в эстетике business punk, связанной с темой работы, офиса и контроля.»
Нейросеть использовалась для получения простых, интуитивных объяснений статистических методов, которые затем были переформулированы и использованы при описании анализа.
t-test ANOVA размер эффекта d Коэна
«Объясни простым языком, что такое t-test и зачем он используется»
«Объясни, что показывает ANOVA»
«Что означает размер эффекта d Коэна и как его интерпретировать?»
Источники
Источники изображений
1. Авторские визуализации данных и генерации (автор: Власкова София; дата обращения: 23.12.2025). 2. Генерация изображений https://chatgpt.com/