Original size 1140x1600

Анализ данных о влиянии работы, сна, спорта на продолжительность жизни

PROTECT STATUS: not protected
The project is taking part in the competition

Введение

Как студенты, мы часто находимся в поиске баланса между учёбой, работой и личной жизнью.

Мы задаём себе вопросы: • Сколько часов в день нужно учиться, чтобы остаться здоровым? • Может ли недостаток отдыха реально повлиять на мою жизнь? • Насколько важен спорт, если я много учусь?

Этот проект рождён из желания найти ответы в данных. Я проанализировала данные о стилях жизни разных профессий и их связи с продолжительностью жизни, чтобы понять, как наши привычки сегодня влияют на нас завтра.

Источник данных

Данные взяты с сайта kaggle.com Work-Life Balance and Longevity Dataset

Размер выборки: 10 000 человек Количество признаков: 8

Основные переменные: • Профессия (14 категорий) • Пол (Male / Female) • Среднее количество часов работы в день • Среднее количество часов отдыха в день • Среднее количество часов сна в день • Среднее количество часов физической активности в день • Возраст смерти (25–100 лет)

Методология визуализации

Я выбрала разные типы графиков, чтобы рассказать полную историю:

1. Столбчатая диаграмма (профессии × гендер): показывает структуру выборки и возможные гендерные перекосы 2. Гистограммы распределения (работа, отдых, сон, спорт): выявляет экстремальные случаи и нормальные паттерны 3. Boxplot (возраст смерти по профессиям): показывает медиану, разброс и выбросы, позволяет сравнивать группы 4. Scatter plot с регрессией (сон/работа vs возраст смерти): визуализирует корреляцию и тренд между переменными 5. Stacked bar chart (распределение 24 часов по профессиям): наглядно показывает баланс дня в разных профессиях 6. Boxplot по полу (сон и работа): выявляет гендерные различия в образе жизни 7. Heatmap корреляций: показывает все взаимосвязи в одной матрице

Этапы работы

Загрузка данных

Для анализа я использовала pandas для работы с данными, numpy для математических операций, а также matplotlib и seaborn для визуализации.

Я загрузила датасет quality_of_life_data.csv из Kaggle, содержащий 10 000 наблюдений о стилях жизни разных профессий: количество часов работы, отдыха, сна и спорта в день, а также возраст смерти. Эти данные позволяют выявить закономерности между образом жизни и продолжительностью жизни. Все графики оформлены в единой цветовой палитре для создания консистентного дизайна.

Original size 658x276

Информация о данных

Первичный анализ помогает нам понять размер и структуру датасета: сколько наблюдений и переменных, какие типы данных мы используем, есть ли пропуски, и каков диапазон значений для каждого показателя.

Это необходимо, чтобы убедиться в качестве данных перед началом анализа.

Original size 658x276

Оформление данных

Для визуализации я применила единую стилизацию со всеми графиками. Я выбрала элегантную палитру в розово-коричневой гамме: Cordovan (основной цвет), Baby Pink (вторичный) и Black Bean (акценты). Светлый бежевый фон с тёплым оттенком и sans-serif шрифт создают мягкий, профессиональный стиль, который соответствует теме здоровья и баланса. Эта консистентная визуальная система делает все графики единым целым и облегчает восприятие информации.

Original size 658x676

Итоговые графики

1. Профессии и гендер

Original size 1220x500
Original size 1389x590

2. Распределение времени (4 гистограммы)

Original size 1300x762
Original size 1189x789

3. Возраст смерти по профессиям

Original size 1300x502
Original size 1390x590

4. Сон/работа vs возраст смерти

Original size 1300x852
Original size 1189x490

5. Распределение занятости в 24 часах

Original size 1300x1158
Original size 1389x590

6. Гендерные различия

Original size 1300x794
Original size 989x490

7. Матрица корреляций

Original size 1300x730
Original size 678x590

Заключение

Таким образом, в рамках проекта я провела комплексный анализ данных о влиянии стиля жизни на продолжительность жизни. Работа включала несколько ключевых этапов: выбор и загрузку данных, предобработку, статистический анализ и создание инфографики в единой визуальной палитре.

По итогам анализа я выявила несколько важных закономерностей: 1. Избыток рабочих часов — главный фактор риска. Корреляция между количеством часов работы и возрастом смерти составляет –0.43, что указывает на умеренно отрицательную связь. Люди, работающие 12+ часов в день, живут в среднем короче. Это критически важно для студентов, которые часто перегружают себя учёбой и работой.

2. Отдых — инвестиция в долголетие. Корреляция между часами отдыха и возрастом смерти составляет +0.31. Люди, уделяющие достаточно времени отдыху (не работе), демонстрируют более высокую продолжительность жизни.

3. Физическая активность имеет значение. Спорт показывает положительную корреляцию с долголетием (+0.28). Даже при плотном графике регулярная физическая активность может частично компенсировать негативные эффекты переработок.

4. Количество сна менее критично, чем баланс работы-отдыха. Несмотря на распространённое мнение, количество часов сна практически не коррелирует с возрастом смерти (коэффициент близок к нулю). Это может означать, что важнее качество сна и общий баланс жизни, а не просто длительность.

5. Профессия влияет менее, чем образ жизни. Анализ по профессиям показал, что различия в средней продолжительности жизни между группами невелики. Это подтверждает, что не сама профессия определяет долголетие, а то, как человек её проживает: сколько часов работает, успевает ли отдыхать и занимается ли спортом.

Практический вывод для студентов:

Если ты хочешь прожить долгую и здоровую жизнь, не жертвуй настоящим ради будущего. Данные показывают, что перегруз работой и учёбой сейчас может серьёзно повлиять на твоё здоровье. Здоровый баланс (8-9 часов работы, 5-6 часов отдыха, 7-8 часов сна и минимум 30-60 минут физической активности) — это не пустые слова, а статистически подтверждённая формула долголетия.
Original size 720x405

Этот проект позволил мне применить навыки анализа данных к теме, которая касается каждого: как мы живём и как долго мы живём.

На примере получившихся графиков видно, что долголетие — это не случайность, а результат последовательных выборов. Данные подтверждают: баланс между работой, отдыхом и физической активностью — это не лозунг, а статистически доказанная формула здоровья.

Для меня этот проект стал не просто упражнением в анализе данных, но и личным напоминанием: забота о собственном здоровье — это не роскошь, а необходимость.

Данные и блокнот с кодом

Инструменты, используемые в работе

1. Google Colab — импорт данных, написание аналитического кода, создание и стилизация визуализаций

2. Perplexity — диагностика и исправление ошибок в коде, глубокий анализ полученных графиков и выводов

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more