
Вводная часть Данные и источник
Для анализа использовался датасет Supermarket Sales.csv, содержащий информацию о продажах супермаркета за первые три месяца 2019 года в трёх городах Мьянмы — Янгоне, Мандалае и Нейпьидо. В наборе представлены данные о покупателях, товарах, способах оплаты, времени покупок, рейтингах и финансовых показателях. Файл взят из открытых источников (платформа Kaggle) и отражает реалистичные транзакционные данные розничной торговли.
Почему эти данные интересны?
Этот датасет представляет практическую ценность, поскольку содержит реальные бизнес-данные, на основе которых можно изучить особенности покупательского поведения, выявить наиболее популярные товары и проследить временные тенденции продаж. Он сочетает в себе как категориальные признаки (пол, тип клиента, город), так и числовые (цена, количество, налог, доход), что делает анализ более глубоким и разнообразным. Кроме того, данные позволяют проводить сегментацию по различным признакам — например, по локации, полу, типу клиента или категории товара. Полученные результаты могут помочь в оптимизации ассортимента, разработке маркетинговых стратегий и улучшении работы магазинов.
Типы визуализаций
Тепловая карта корреляций — для выявления взаимосвязей между числовыми переменными Гистограммы распределения — для анализа частоты продаж по категориям Линейные графики трендов — для анализа продаж по времени Круговые диаграммы — для отображения долей категорий
1. Импорт библиотек и загрузка данных
2. Предварительный анализ данных
3. Очистка и подготовка данных
4. Статистический анализ
5. Визуализация данных
График 1: Тепловая карта корреляций
График 2: Распределение продаж по категориям продуктов
График 3: Динамика продаж по месяцам
График 4: Распределение рейтингов по городам
График 5: Круговая диаграмма методов оплаты
График 6: Анализ продаж по времени суток
Используемые статистические методы В ходе анализа данных были применены несколько ключевых статистических подходов. Для общего понимания структуры данных использовались методы описательной статистики — функция помогла получить основные показатели, такие как среднее значение, медиана и стандартное отклонение. Чтобы выявить взаимосвязи между числовыми переменными, была рассчитана корреляционная матрица Пирсона. Дополнительно применялась группировка данных с помощью groupby (), что позволило провести более детальный анализ по различным категориям. Для наглядности результатов использовались визуальные методы — гистограммы, линейные графики и круговые диаграммы показали распределения и основные тенденции. При анализе временных рядов данные были разделены по месяцам, дням и часам, что помогло проследить динамику и сезонность продаж. Стилизация графиков Особое внимание уделялось визуальной составляющей. В качестве цветовой палитры использовались оттенки «husl» и кастомные цвета