Original size 1140x1600

Анализ данных о балансе между работой, жизнью и продолжительностью жизни

PROTECT STATUS: not protected
The project is taking part in the competition

Введение

Мною были выбраны данные на тему баланса работы, личной жизни и жизненной продолжительности. Они представляют интерес, так как такие данные заставляют задуматься о своих ежедневных привычках и здоровье.

Для анализа этих данных мною были выбраны: столбчатая диаграмма, «ящик с усами», скрипичную диаграмму и диаграмму рассеивания. эти типы диаграмм были наиболее удобны для анализа материала в виде: возраста, количества рабочих часов, количество сна, пол.

Данные я загрузила с сайта kaggle.com. Этот датасет представляет наблюдение о балансе жизни и работы (а так же продолжительности жизни) на большой выборке в 10,000 человек.

Ссылка на данные здесь

Загрузка данных

Данные были скачаны по ссылке выше и загружены с помощью модуля pandas

big
Original size 1046x112
big
Original size 1036x136
big
Original size 1054x656
Original size 1032x100

Всего наблюдений в датасете: 10000

Original size 1036x124

Представлено 7 различных признаков для данных.

Типы данных

Original size 1074x454
Original size 1076x442

Пропуски в данных

Original size 1070x446

Все 10,000 записей полные и не имеют пропусков.

Распределение в данных

Оценим сбалансированность данных по кол-ву наблюдений в зависимости от пола:

Часть датасета для группы женщин:

Original size 1038x126

Часть датасета для группы мужчин:

Original size 1034x122

Вывод: датасет сбалансирован по половому признаку

Посмотрим, на представленные сферы деятельности:

Original size 1048x700

Каждая сфера представлена 600-700 наблюдениями, что является сбалансированным.

Инфографика

Распределение продолжительности жизни в зависимости от пола

Original size 1070x170

Так как датасет сбалансирован, можно воспользоваться столбчатой диаграммой для анализа распределения по полу:

Original size 1066x404
Original size 694x547

Вывод: распределение продолжительности жизни у женщин слега смещено вправо относительно того же распределения для мужчин, что подтверждает более долгую жизнь у женщин в среднем.

Распределение кол-во рабочих часов в день (в среднем)

Для визуализации такого распределения будем использовать ящик с усами. Он поможет выявить выбросы и указать тенденцию данных.

Original size 1074x318
Original size 531x682

Вывод: основная масса наблюдений работает (в среднем) от 3 до 14 часов в день.

Зависимость продолжительности жизни в зависимости от часов в тренировке

Для визуализации такого распределения будем использовать scatter plot. Так можно будет оценить насколько выраженная взаимосвязь.

Original size 1056x320
Original size 730x547

Вывод: зависимость есть (положительная), но очень умеренная. Проверим с помощью коэффицента корреляции:

Original size 1068x206

Подтверждается умеренная поположительнее взаимосвязь

Сравнение продолжительности жизни у предпринимателей и рабочих

Для сравнения, будем использовать violin plot.

Original size 1076x198
Original size 1064x366
Original size 640x701

Вывод: в среднем, рабочие живут долше предпринимателей, вероятно из-за повышеннего стресса у последних.

Заключение

В процессе проведения исследования был проведен анализ данных, позволяющий сделать выводы, такие, например, как:

Большая часть людей работает в диапазоне от 3 до 14 часов в день

Люди, занимающиеся спортом, имеют большую продолжительность жизни, чем предприниматели

Таким образом можно сделать вывод, что физические нагрузки, образ жизни и профессия напрямую влияют на продолжительность жизни.

Блокнот с кодом и датасет

Спасибо за внимание

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more