
Вводная часть
Источник данных: Kaggle Dataset «Moscow Flats Prices» Формат данных: CSV файл Размер данных: ~213 МБ, 1,001,076 записей Структура данных: segment — сегмент рынка (массовый, бизнес, премиум и др.) date — дата сбора данных jk_name — название жилого комплекса rooms — количество комнат square — площадь квартиры (м²) price — цена квартиры (руб.) price_m2 — цена за квадратный метр (руб.) floor — этаж finishing_id — тип отделки И другие атрибуты
Почему интересно анализировать именно эти данные
Актуальность и масштаб: - Более 1 миллиона записей о квартирах в Москве - Данные собраны с реальных сайтов недвижимости - Охватывает 499 жилых комплексов - Представляет 6 различных сегментов рынка
Практическая значимость: - Помогает понять структуру рынка недвижимости Москвы - Позволяет выявить ценовые закономерности - Полезно для инвесторов, застройщиков и покупателей - Демонстрирует сегментацию рынка
Аналитическая ценность: - Богатый набор признаков для анализа - Возможность изучения корреляций между параметрами - Подходит для статистического тестирования гипотез - Позволяет применить различные методы визуализации
Образовательная ценность: -Идеальный датасет для демонстрации EDA (Exploratory Data Analysis) - Позволяет показать различные типы визуализаций - Подходит для применения статистических методов - Демонстрирует обработку больших объемов данных
Какие виды графиков решено сделать и почему
Гистограмма + Box Plot (Визуализация 1): - Гистограмма показывает форму распределения цен - Box Plot позволяет сравнить распределения между сегментами
Scatter Plot с линией тренда (Визуализация 2): - Показывает зависимость между двумя непрерывными переменными - Линия тренда визуализирует общую тенденцию
Комплексная панель из 4 графиков (Визуализация 3): - Сравнивает несколько аспектов одновременно - Эффективно использует пространство
Тепловая карта корреляций (Визуализация 4): - Позволяет быстро выявить сильные связи между переменными
Статистическая панель из 4 графиков (Визуализация 5): - Q-Q Plot проверяет нормальность распределения - Гистограмма и Box Plot показывают разброс данных - Столбчатая диаграмма показывает влияние отделки
Сравнительная панель из 3 графиков (Визуализация 6): - Violin Plot сравнивает распределение данных по сегментам - Scatter Plot с группировкой по сегментам выявляет кластеры
Этапы работы
Этап 1: Загрузка и предобработка данных
Импорт библиотек и настройка окружения
Определение цветовой схемы
Загрузка данных
Преобразование типов данных
Очистка данных
Создание дополнительных признаков
Этап 2: Создание визуализаций
Этап 3: Статистический анализ
1. Базовые статистики: Всего записей: 1,001,076 Уникальных ЖК: 499 Сегментов: 6
2. Статистика по ценам: Средняя цена за м²: 405,002 руб. Медианная цена за м²: 351,920 руб. Стандартное отклонение: 258,950 руб. Минимальная цена за м²: 53,712 руб. Максимальная цена за м²: 12,591,993 руб. Коэффициент вариации: 63,94%
3. Статистика по площади: Средняя площадь: 54.20 м² Медианная площадь: 47.60 м² Минимальная площадь: 4.00 м² Максимальная площадь: 1161.00 м²
4. Корреляция: Корреляция цена за м² и площадь: 0.4441
5. Статистические тесты: Тест Шапиро-Уилка (нормальность цен): Статистика: 0.5791, p-value: 0.0000 Вывод: Распределение не является нормальным (p < 0.05)
ANOVA тест (различия между сегментами): F-статистика: 292367.8789, p-value: 0.0000 Вывод: Существуют статистически значимые различия между сегментами (p < 0.05)
Этап 4: Описание используемых статистических методов
Описательная статистика: Среднее, медиана, стандартное отклонение, коэффициент вариации Корреляционный анализ: Метод Пирсона для анализа зависимости между ценой и площадью Тест Шапиро-Уилка: Для проверки нормальности распределения ANOVA: Для проверки различий между сегментами Линейная регрессия: Для построения линии тренда между ценой и площадью
Выводы
- Рынок характеризуется четким разделением на сегменты, каждый из которых имеет свои уникальные особенности. - Коэффициент вариации цен за м составляет 63.94%, что указывает на значительную неоднородность рынка. - Компактные квартиры имеют более высокую цену за кв.м, в то время как крупные квартиры обладают более высокой общей ценой.
Описание применения генеративной модели
Для прототипирования кода на python использовалась система cursor.ai Обложка сгенерирована при помощи нейросети NanoBanana Pro
Блокнот и датасет