Original size 1140x1600

Анализ данных

PROTECT STATUS: not protected
8

1. Данные

Данные были взяты из соревнования Kaggle House price prediction — прогнозирование цен домов. Ценность исследования заключается в определении атрибутов оказывающих наибольшее влияние в ценообразовании дома. Это может быть полезно для адекватной оценки стоимости помещения для последующей продажи или же покупки.

big
Original size 1387x277

2. Этапы работы

Первым этапом я проинтегрировала необходимые библиотеки. Затем идет этапом чтение датасета train.csv с помощью библиотеки pandas, методом info () я определила типы колонок и заполненность атрибутов для исключения лишних и неинформативных атрибутов, например атрибут Alley не является информативным, так как он содержит только 91 непустое значение из 1460 записей. Также поступаем и с другими неинформативными атрибутами.

Следующим этапом идет отбор численных атрибутов, так как сложно работать с категориальными атрибутами в решении задачи прогнозировании цены. Для этого нужно использовать специальные методы для перевода категориальных атрибутов в численные, например OneHotEncoding, поэтому я выделила только численные атрибуты.

Далее построила несколько графиков, чтобы проверить гипотезы о закономерности и определения тренда. Построила два scatter графика первый для атрибутов MSSubClass, SalePrice, второй для LotFrontage и SalePrice. Стало очевидно, что хоть атрибут MSSubClass и имеет численный тип, но он является категориальным атрибутом. Второй график же показывает, что большинство наблюдений имеют тренд на увеличение стоимости дома с увеличением количество квадратных метров, что логично. Но также у нас есть два наблюдения, которые имеют довольно низкую цены, но при этом большую площадь, стоит их исключить так как они будут негативно влиять на прогноз.

3. Итоговые графики

0

Так как количество атрибутов достаточно большое и как мы убедились не все атрибуты соответсвуют типам, то для выделенных численных атрибутов мы можем рассчитать коэффициент корреляции. Построим график, чтобы было легко выделить наиболее значащие атрибуты

Original size 1287x858

На графике мы можем увидеть какие атрибуты имеют наиболее тесную связь с нашей целевой переменной — ценой дома. Выделим их условием, коэффициент корреляции больше 0.5

Original size 1299x868

https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/data — Ссылка на соревнование Kaggle c описанием и архивом датасета

https://colab.research.google.com/drive/10Bi3EAQT1elY3ib6DVcfTgn2L4Foyrnk?usp=sharing — Ссылка на ноутбук

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more