
Введение
Мною были выбраны данные на тему баланса работы, личной жизни и жизненной продолжительности. Они представляют интерес, так как такие данные заставляют задуматься о своих ежедневных привычках и здоровье.
Для анализа этих данных мною были выбраны: столбчатая диаграмма, «ящик с усами», скрипичную диаграмму и диаграмму рассеивания. эти типы диаграмм были наиболее удобны для анализа материала в виде: возраста, количества рабочих часов, количество сна, пол.
Данные я загрузила с сайта kaggle.com. Этот датасет представляет наблюдение о балансе жизни и работы (а так же продолжительности жизни) на большой выборке в 10,000 человек.
Ссылка на данные здесь
Загрузка данных
Данные были скачаны по ссылке выше и загружены с помощью модуля pandas



Всего наблюдений в датасете: 10000
Представлено 7 различных признаков для данных.
Типы данных
Пропуски в данных
Все 10,000 записей полные и не имеют пропусков.
Распределение в данных
Оценим сбалансированность данных по кол-ву наблюдений в зависимости от пола:
Часть датасета для группы женщин:
Часть датасета для группы мужчин:
Вывод: датасет сбалансирован по половому признаку
Посмотрим, на представленные сферы деятельности:
Каждая сфера представлена 600-700 наблюдениями, что является сбалансированным.
Инфографика
Распределение продолжительности жизни в зависимости от пола
Так как датасет сбалансирован, можно воспользоваться столбчатой диаграммой для анализа распределения по полу:
Вывод: распределение продолжительности жизни у женщин слега смещено вправо относительно того же распределения для мужчин, что подтверждает более долгую жизнь у женщин в среднем.
Распределение кол-во рабочих часов в день (в среднем)
Для визуализации такого распределения будем использовать ящик с усами. Он поможет выявить выбросы и указать тенденцию данных.
Вывод: основная масса наблюдений работает (в среднем) от 3 до 14 часов в день.
Зависимость продолжительности жизни в зависимости от часов в тренировке
Для визуализации такого распределения будем использовать scatter plot. Так можно будет оценить насколько выраженная взаимосвязь.
Вывод: зависимость есть (положительная), но очень умеренная. Проверим с помощью коэффицента корреляции:
Подтверждается умеренная поположительнее взаимосвязь
Сравнение продолжительности жизни у предпринимателей и рабочих
Для сравнения, будем использовать violin plot.
Вывод: в среднем, рабочие живут долше предпринимателей, вероятно из-за повышеннего стресса у последних.
Заключение
В процессе проведения исследования был проведен анализ данных, позволяющий сделать выводы, такие, например, как:
Большая часть людей работает в диапазоне от 3 до 14 часов в день
Люди, занимающиеся спортом, имеют большую продолжительность жизни, чем предприниматели
Таким образом можно сделать вывод, что физические нагрузки, образ жизни и профессия напрямую влияют на продолжительность жизни.
Блокнот с кодом и датасет
Спасибо за внимание