
Данные были взяты из соревнования Kaggle House price prediction — прогнозирование цен домов. Ценность исследования заключается в определении атрибутов оказывающих наибольшее влияние в ценообразовании дома. Это может быть полезно для адекватной оценки стоимости помещения для последующей продажи или же покупки.
Я решила выбрать датасет, в котором показана цены продажи недвижимости, в зависимости от ее характеристик, метоположения и т. д.

Всего в датасете содержится 81 колонка, для анализа я решила оставить только наиболее интересные на мой взгляд.
Для начала посмотрим, как распределена цена на объекты недвижимости.

распределение цены на объекты недвижимости
Теперь построим это распределение, но только для домов в состоянии выше среднего и лучше.

Теперь построим тоже самое, но только для домов, проданных до 2008 года
Новые признаки
Посмотрим на года строительства домов
Только 26 процентов проданных домов были новыми
Теперь посмотрим еще какое количество одноэтажных и двухэтажных домов было среди новых и старых. Для этого сгенерируем новый признак, в котором будет 4 варианта, старый и одноэтажный, старый и двухэтажный, новый и одноэтажный, новый и двухэтажный
Можем заметить, что одноэтажных домов больше, как среди новых, так и среди старых.
Сводные таблицы
Гистограмма количества продаж от состояния дома
Гистограмма количества продаж от состояния дома по годам продажи
Графики срелней и медианной цены продажи по годам
Проверка пропусков
Целевой переменной будет являться цена продажи дома. Предиктором — Жилая площадь
Удаление выбросов
Использование метода N стандартных отклонений для целевой переменной
Расчет границ выбросов целевой переменной методом N стандартных отклонений
22 значения являются выбросами
Удаление выбросов и построение гистограммы
Использование метода 1.5IQR для предиктора или другого количественного признака (не целевого)
Описательные статистики
Меры центральной тенденции целевого признака
Квартили целевого признака
нулевой квартиль показывает минимальную цену продажи, она составляет 34900 долларов
первый квартиль говорит о том, что 25 процентов домов продавались дешевле 129 тысяч долларов, остальные дороже
второй квартиль, тоже что и медиана, половина всех домов продавались дешевле 160 тысяч долларов, половина дороже
третий квартиль говорит о том, что 75 процентов домов продавались дешевле 207 тысяч долларов, остальный дороже
четвертый квартиль, максимальная цена продажи среди всех домов, 415298 долларов
Меры разброса целевого признака
Размах — разница между минимальным и максимальным значением, составляет в данном случае 380398 долларов Интерквартильный размах — это статистическая мера разброса данных, которая показывает диапазон, в котором сосредоточена средняя 50% выборки Интерквартильный размах оставляет 78500 долларов
Дисперсия — это мера разброса данных, которая показывает, насколько значения отклоняются от среднего Дисперсия составляет 4376904824
Стандартное отклонение — корень из дисперсии. Стандартное отклонение составляет 66158
Описание категориального признака
Посмотрим на распределение признака, отвечающего за общее состояние дома.
9 уникальных значений признака
10 Very Excellent 9 Excellent 8 Very Good 7 Good 6 Above Average 5 Average 4 Below Average 3 Fair 2 Poor 1 Very Poor
мода, или самое часто встречающееся значение, равна 5, то есть среднее состояние дома
Корреляция Пирсона
Не все признаки, имеющие числовой формат данных являются количественными. Поэтому вручную выберем количественные признаки.
Чем теплее цвет на тепловой карте, тем больше коэффициент корелляции. Мы видим, что здесь он больше всего между признаками, отвещающими за общую жилую площадь дома и площадь второго этажа.
На диаграмме рассеяния видим, что часть домов не имеют второго этажа (точки в левой части диаграммы)
Линейная регрессия
Целевой переменной будет являться цена продажи дома. Предиктором — Жилая площадь
Коэффициента детерминации составляет 0.4784
Среднеквадратичная ошибка 2281068658
Средняя абсолютная ошибка 34276
https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques — Ссылка на соревнование Kaggle c описанием и архивом датасета
https://drive.google.com/drive/folders/144lu5-sOHCE1ZR6LzsWTUdK-y8t-w72R?usp=sharing — Ссылка на ноутбук