Original size 3584x4800

Цены на квартиры в Москве

PROTECT STATUS: not protected
The project is taking part in the competition

Вводная часть

Источник данных: Kaggle Dataset «Moscow Flats Prices» Формат данных: CSV файл Размер данных: ~213 МБ, 1,001,076 записей Структура данных: segment — сегмент рынка (массовый, бизнес, премиум и др.) date — дата сбора данных jk_name — название жилого комплекса rooms — количество комнат square — площадь квартиры (м²) price — цена квартиры (руб.) price_m2 — цена за квадратный метр (руб.) floor — этаж finishing_id — тип отделки И другие атрибуты

Почему интересно анализировать именно эти данные

Актуальность и масштаб: - Более 1 миллиона записей о квартирах в Москве - Данные собраны с реальных сайтов недвижимости - Охватывает 499 жилых комплексов - Представляет 6 различных сегментов рынка

Практическая значимость: - Помогает понять структуру рынка недвижимости Москвы - Позволяет выявить ценовые закономерности - Полезно для инвесторов, застройщиков и покупателей - Демонстрирует сегментацию рынка

Аналитическая ценность: - Богатый набор признаков для анализа - Возможность изучения корреляций между параметрами - Подходит для статистического тестирования гипотез - Позволяет применить различные методы визуализации

Образовательная ценность: -Идеальный датасет для демонстрации EDA (Exploratory Data Analysis) - Позволяет показать различные типы визуализаций - Подходит для применения статистических методов - Демонстрирует обработку больших объемов данных

Какие виды графиков решено сделать и почему

Гистограмма + Box Plot (Визуализация 1): - Гистограмма показывает форму распределения цен - Box Plot позволяет сравнить распределения между сегментами

Scatter Plot с линией тренда (Визуализация 2): - Показывает зависимость между двумя непрерывными переменными - Линия тренда визуализирует общую тенденцию

Комплексная панель из 4 графиков (Визуализация 3): - Сравнивает несколько аспектов одновременно - Эффективно использует пространство

Тепловая карта корреляций (Визуализация 4): - Позволяет быстро выявить сильные связи между переменными

Статистическая панель из 4 графиков (Визуализация 5): - Q-Q Plot проверяет нормальность распределения - Гистограмма и Box Plot показывают разброс данных - Столбчатая диаграмма показывает влияние отделки

Сравнительная панель из 3 графиков (Визуализация 6): - Violin Plot сравнивает распределение данных по сегментам - Scatter Plot с группировкой по сегментам выявляет кластеры

Этапы работы

Этап 1: Загрузка и предобработка данных

Импорт библиотек и настройка окружения

Original size 3168x673

Определение цветовой схемы

Original size 3181x495

Загрузка данных

Original size 3165x158

Преобразование типов данных

Original size 3177x223

Очистка данных

Original size 3159x234

Создание дополнительных признаков

Original size 3179x433

Этап 2: Создание визуализаций

Original size 3261x1000
Original size 4168x2954
Original size 3349x724
Original size 3813x2370
Original size 3308x1912
Original size 4761x3541
Original size 3370x708
Original size 3282x3010
Original size 3370x708
Original size 4768x3541
Original size 3483x1945
Original size 1793x593

Этап 3: Статистический анализ

1. Базовые статистики: Всего записей: 1,001,076 Уникальных ЖК: 499 Сегментов: 6

2. Статистика по ценам: Средняя цена за м²: 405,002 руб. Медианная цена за м²: 351,920 руб. Стандартное отклонение: 258,950 руб. Минимальная цена за м²: 53,712 руб. Максимальная цена за м²: 12,591,993 руб. Коэффициент вариации: 63,94%

3. Статистика по площади: Средняя площадь: 54.20 м² Медианная площадь: 47.60 м² Минимальная площадь: 4.00 м² Максимальная площадь: 1161.00 м²

4. Корреляция: Корреляция цена за м² и площадь: 0.4441

5. Статистические тесты: Тест Шапиро-Уилка (нормальность цен): Статистика: 0.5791, p-value: 0.0000 Вывод: Распределение не является нормальным (p < 0.05)

ANOVA тест (различия между сегментами): F-статистика: 292367.8789, p-value: 0.0000 Вывод: Существуют статистически значимые различия между сегментами (p < 0.05)

Этап 4: Описание используемых статистических методов

Описательная статистика: Среднее, медиана, стандартное отклонение, коэффициент вариации Корреляционный анализ: Метод Пирсона для анализа зависимости между ценой и площадью Тест Шапиро-Уилка: Для проверки нормальности распределения ANOVA: Для проверки различий между сегментами Линейная регрессия: Для построения линии тренда между ценой и площадью

Выводы

- Рынок характеризуется четким разделением на сегменты, каждый из которых имеет свои уникальные особенности. - Коэффициент вариации цен за м составляет 63.94%, что указывает на значительную неоднородность рынка. - Компактные квартиры имеют более высокую цену за кв.м, в то время как крупные квартиры обладают более высокой общей ценой.

Описание применения генеративной модели

Для прототипирования кода на python использовалась система cursor.ai Обложка сгенерирована при помощи нейросети NanoBanana Pro

Блокнот и датасет

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more