
Концепция
Для своего проекта я выбрала датасет World Happiness, который я взяла с популярного сайта Kaggle. Эти данные заинтересовали меня, поскольку в них присутствует информация не только о степени счастья в различных странах, но также о различных факторах, влияющих на уровень счастья. Этот объем данных представляется мне достаточно интересным, поскольку благодаря нему можно выяснить, какие факторы оказывают особое влияние на общую оценку счастья в различных регионах.
Я изначально создавала графики с определенными стилистическими характеристиками, поскольку заранее определилась с ними. Выбранные цвета ассоциируются у меня с притоком эндорфина, то есть истинного счастья.
Виды графиков
— Гистограмма уровня счастья, представляющая изначальные данные; — Скрипичная диаграмма, показывающая распределение данных по каждому показателю, используемому при расчете уровня счастья; — Линейный график с множественными сериями, показывающий средние значения отдельных показателей по регионам; — Корреляционная матрица уровня счастья и составляющих его показателей; — Диаграмма рассеяния с линией тренда, показывающая зависимость продолжительности жизни населения от благосостояния граждан (ВВП на душу населения).
Этапы работы
Первым делом я импортировала необходимые мне библиотеки и загрузила датасет с данными. Для своего проекта я взяла данные World Happiness Report за 2015 год, чтобы сравнить показатели регионов (после 2016 года в датасет перестали включать данные о принадлежности государств к тому или иному региону).

Гистограмма, репрезентирующая уровень счастья
В первую очередь я решила отразить уровень счастья в разных странах. На гистограмме видно, что самая счастливая страна — Швейцария (её показатель счастья превышает 7,5), а самая грустная — Того (показатель счастья — менее 3).
Скрипичная диаграмма
Помимо этого, представляя изначальные данные, я построила скрипичные диаграммы показателей, составляющих уровень счастья. Эта диаграмма показывает распределение данных по каждому показателю, демонстрирует, в каких пределах изменяется показатель и какие наиболее популярные значения он принимает.
Линейный график с множественными сериями
На следующем этапе я произвела обработку данных, чтобы найти средние значения показателей для каждого региона. После этого я изобразила полученные результаты при помощи линейного графика, наглядно показывающего региональную специфику.
Корреляционная матрица
Также я заинтересовалась возможной взаимозависимостью показателей составляющих уровень счастья. Чтобы понять какие из них с большей вероятностью могут быть связаны, я построила корреляционную матрицу уровня счастья и всех показателей. Как видим из получившейся матрицы, больше всех коррелируют показатели здоровья (продолжительности жизни) и экономического благосостояния (ВВП на душу населения).
Построение модели линейной регрессии
Заметив высокую корреляцию между показателями здоровья (продолжительности жизни) и благосостояния (ВВП на душу населения), я выдвинула гипотезу, что значение показателя здоровья зависит от значения показателя благосостояния (что в целом было бы логично). Выше я привожу код, в котором обучаю модель линейной регрессии и оцениваю её качество. На основе проделанных действий можно сделать вывод, что показатель здоровья действительно зависят от показателя благосостояния, а модель обладает высоким качеством.
Представленная диаграмма рассеяния демонстрирует зависимость здоровья от благосостояния, а линия тренда — обученную модель. Мы можем убедиться, что модель достаточно хорошо отражает фактическую ситуацию.
Ссылки