
Введение
Как студенты, мы часто находимся в поиске баланса между учёбой, работой и личной жизнью.
Мы задаём себе вопросы: • Сколько часов в день нужно учиться, чтобы остаться здоровым? • Может ли недостаток отдыха реально повлиять на мою жизнь? • Насколько важен спорт, если я много учусь?
Этот проект рождён из желания найти ответы в данных. Я проанализировала данные о стилях жизни разных профессий и их связи с продолжительностью жизни, чтобы понять, как наши привычки сегодня влияют на нас завтра.
Источник данных
Данные взяты с сайта kaggle.com Work-Life Balance and Longevity Dataset
Размер выборки: 10 000 человек Количество признаков: 8
Основные переменные: • Профессия (14 категорий) • Пол (Male / Female) • Среднее количество часов работы в день • Среднее количество часов отдыха в день • Среднее количество часов сна в день • Среднее количество часов физической активности в день • Возраст смерти (25–100 лет)
Методология визуализации
Я выбрала разные типы графиков, чтобы рассказать полную историю:
1. Столбчатая диаграмма (профессии × гендер): показывает структуру выборки и возможные гендерные перекосы 2. Гистограммы распределения (работа, отдых, сон, спорт): выявляет экстремальные случаи и нормальные паттерны 3. Boxplot (возраст смерти по профессиям): показывает медиану, разброс и выбросы, позволяет сравнивать группы 4. Scatter plot с регрессией (сон/работа vs возраст смерти): визуализирует корреляцию и тренд между переменными 5. Stacked bar chart (распределение 24 часов по профессиям): наглядно показывает баланс дня в разных профессиях 6. Boxplot по полу (сон и работа): выявляет гендерные различия в образе жизни 7. Heatmap корреляций: показывает все взаимосвязи в одной матрице
Этапы работы
Загрузка данных
Для анализа я использовала pandas для работы с данными, numpy для математических операций, а также matplotlib и seaborn для визуализации.
Я загрузила датасет quality_of_life_data.csv из Kaggle, содержащий 10 000 наблюдений о стилях жизни разных профессий: количество часов работы, отдыха, сна и спорта в день, а также возраст смерти. Эти данные позволяют выявить закономерности между образом жизни и продолжительностью жизни. Все графики оформлены в единой цветовой палитре для создания консистентного дизайна.
Информация о данных
Первичный анализ помогает нам понять размер и структуру датасета: сколько наблюдений и переменных, какие типы данных мы используем, есть ли пропуски, и каков диапазон значений для каждого показателя.
Это необходимо, чтобы убедиться в качестве данных перед началом анализа.
Оформление данных
Для визуализации я применила единую стилизацию со всеми графиками. Я выбрала элегантную палитру в розово-коричневой гамме: Cordovan (основной цвет), Baby Pink (вторичный) и Black Bean (акценты). Светлый бежевый фон с тёплым оттенком и sans-serif шрифт создают мягкий, профессиональный стиль, который соответствует теме здоровья и баланса. Эта консистентная визуальная система делает все графики единым целым и облегчает восприятие информации.
Итоговые графики
1. Профессии и гендер
2. Распределение времени (4 гистограммы)
3. Возраст смерти по профессиям
4. Сон/работа vs возраст смерти
5. Распределение занятости в 24 часах
6. Гендерные различия
7. Матрица корреляций
Заключение
Таким образом, в рамках проекта я провела комплексный анализ данных о влиянии стиля жизни на продолжительность жизни. Работа включала несколько ключевых этапов: выбор и загрузку данных, предобработку, статистический анализ и создание инфографики в единой визуальной палитре.
По итогам анализа я выявила несколько важных закономерностей: 1. Избыток рабочих часов — главный фактор риска. Корреляция между количеством часов работы и возрастом смерти составляет –0.43, что указывает на умеренно отрицательную связь. Люди, работающие 12+ часов в день, живут в среднем короче. Это критически важно для студентов, которые часто перегружают себя учёбой и работой.
2. Отдых — инвестиция в долголетие. Корреляция между часами отдыха и возрастом смерти составляет +0.31. Люди, уделяющие достаточно времени отдыху (не работе), демонстрируют более высокую продолжительность жизни.
3. Физическая активность имеет значение. Спорт показывает положительную корреляцию с долголетием (+0.28). Даже при плотном графике регулярная физическая активность может частично компенсировать негативные эффекты переработок.
4. Количество сна менее критично, чем баланс работы-отдыха. Несмотря на распространённое мнение, количество часов сна практически не коррелирует с возрастом смерти (коэффициент близок к нулю). Это может означать, что важнее качество сна и общий баланс жизни, а не просто длительность.
5. Профессия влияет менее, чем образ жизни. Анализ по профессиям показал, что различия в средней продолжительности жизни между группами невелики. Это подтверждает, что не сама профессия определяет долголетие, а то, как человек её проживает: сколько часов работает, успевает ли отдыхать и занимается ли спортом.
Этот проект позволил мне применить навыки анализа данных к теме, которая касается каждого: как мы живём и как долго мы живём.
На примере получившихся графиков видно, что долголетие — это не случайность, а результат последовательных выборов. Данные подтверждают: баланс между работой, отдыхом и физической активностью — это не лозунг, а статистически доказанная формула здоровья.
Для меня этот проект стал не просто упражнением в анализе данных, но и личным напоминанием: забота о собственном здоровье — это не роскошь, а необходимость.
Инструменты, используемые в работе
1. Google Colab — импорт данных, написание аналитического кода, создание и стилизация визуализаций
2. Perplexity — диагностика и исправление ошибок в коде, глубокий анализ полученных графиков и выводов