Original size 1140x1600

Анализ данных House Prices

PROTECT STATUS: not protected
3

Данные были взяты из соревнования Kaggle House price prediction — прогнозирование цен домов. Ценность исследования заключается в определении атрибутов оказывающих наибольшее влияние в ценообразовании дома. Это может быть полезно для адекватной оценки стоимости помещения для последующей продажи или же покупки.

Я решила выбрать датасет, в котором показана цены продажи недвижимости, в зависимости от ее характеристик, метоположения и т. д.

big
Original size 1152x230

Всего в датасете содержится 81 колонка, для анализа я решила оставить только наиболее интересные на мой взгляд.

Для начала посмотрим, как распределена цена на объекты недвижимости.

big
Original size 571x432

распределение цены на объекты недвижимости

Теперь построим это распределение, но только для домов в состоянии выше среднего и лучше.

big
Original size 563x432

Теперь построим тоже самое, но только для домов, проданных до 2008 года

Original size 563x432

Новые признаки

Посмотрим на года строительства домов

Original size 389x389

Только 26 процентов проданных домов были новыми

Теперь посмотрим еще какое количество одноэтажных и двухэтажных домов было среди новых и старых. Для этого сгенерируем новый признак, в котором будет 4 варианта, старый и одноэтажный, старый и двухэтажный, новый и одноэтажный, новый и двухэтажный

Original size 537x389

Можем заметить, что одноэтажных домов больше, как среди новых, так и среди старых.

Сводные таблицы

Гистограмма количества продаж от состояния дома

Original size 622x472

Гистограмма количества продаж от состояния дома по годам продажи

Original size 786x472

Графики срелней и медианной цены продажи по годам

Original size 1032x853

Проверка пропусков

Целевой переменной будет являться цена продажи дома. Предиктором — Жилая площадь

Original size 598x432

Удаление выбросов

Использование метода N стандартных отклонений для целевой переменной

Original size 579x473

Расчет границ выбросов целевой переменной методом N стандартных отклонений

Original size 853x509

22 значения являются выбросами

Удаление выбросов и построение гистограммы

Original size 594x473

Использование метода 1.5IQR для предиктора или другого количественного признака (не целевого)

Original size 568x454
Original size 582x454

Описательные статистики

Меры центральной тенденции целевого признака

Original size 571x472

Квартили целевого признака

нулевой квартиль показывает минимальную цену продажи, она составляет 34900 долларов

первый квартиль говорит о том, что 25 процентов домов продавались дешевле 129 тысяч долларов, остальные дороже

второй квартиль, тоже что и медиана, половина всех домов продавались дешевле 160 тысяч долларов, половина дороже

третий квартиль говорит о том, что 75 процентов домов продавались дешевле 207 тысяч долларов, остальный дороже

четвертый квартиль, максимальная цена продажи среди всех домов, 415298 долларов

Original size 578x413

Меры разброса целевого признака

Размах — разница между минимальным и максимальным значением, составляет в данном случае 380398 долларов Интерквартильный размах — это статистическая мера разброса данных, которая показывает диапазон, в котором сосредоточена средняя 50% выборки Интерквартильный размах оставляет 78500 долларов

Дисперсия — это мера разброса данных, которая показывает, насколько значения отклоняются от среднего Дисперсия составляет 4376904824

Стандартное отклонение — корень из дисперсии. Стандартное отклонение составляет 66158

Описание категориального признака

Посмотрим на распределение признака, отвечающего за общее состояние дома.

Original size 1081x196

9 уникальных значений признака

10 Very Excellent 9 Excellent 8 Very Good 7 Good 6 Above Average 5 Average 4 Below Average 3 Fair 2 Poor 1 Very Poor

Original size 1060x116

мода, или самое часто встречающееся значение, равна 5, то есть среднее состояние дома

Корреляция Пирсона

Не все признаки, имеющие числовой формат данных являются количественными. Поэтому вручную выберем количественные признаки.

Original size 597x488

Чем теплее цвет на тепловой карте, тем больше коэффициент корелляции. Мы видим, что здесь он больше всего между признаками, отвещающими за общую жилую площадь дома и площадь второго этажа.

Original size 739x472

На диаграмме рассеяния видим, что часть домов не имеют второго этажа (точки в левой части диаграммы)

Линейная регрессия

Целевой переменной будет являться цена продажи дома. Предиктором — Жилая площадь

Original size 598x432

Коэффициента детерминации составляет 0.4784

Среднеквадратичная ошибка 2281068658

Средняя абсолютная ошибка 34276

https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques — Ссылка на соревнование Kaggle c описанием и архивом датасета

https://drive.google.com/drive/folders/144lu5-sOHCE1ZR6LzsWTUdK-y8t-w72R?usp=sharing — Ссылка на ноутбук

Анализ данных House Prices
3
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more