Original size 832x1248

Визуализация статистики продаж супермаркета

PROTECT STATUS: not protected
The project is taking part in the competition

Вводная часть Данные и источник

Для анализа использовался датасет Supermarket Sales.csv, содержащий информацию о продажах супермаркета за первые три месяца 2019 года в трёх городах Мьянмы — Янгоне, Мандалае и Нейпьидо. В наборе представлены данные о покупателях, товарах, способах оплаты, времени покупок, рейтингах и финансовых показателях. Файл взят из открытых источников (платформа Kaggle) и отражает реалистичные транзакционные данные розничной торговли.

Почему эти данные интересны?

Этот датасет представляет практическую ценность, поскольку содержит реальные бизнес-данные, на основе которых можно изучить особенности покупательского поведения, выявить наиболее популярные товары и проследить временные тенденции продаж. Он сочетает в себе как категориальные признаки (пол, тип клиента, город), так и числовые (цена, количество, налог, доход), что делает анализ более глубоким и разнообразным. Кроме того, данные позволяют проводить сегментацию по различным признакам — например, по локации, полу, типу клиента или категории товара. Полученные результаты могут помочь в оптимизации ассортимента, разработке маркетинговых стратегий и улучшении работы магазинов.

Типы визуализаций

Тепловая карта корреляций — для выявления взаимосвязей между числовыми переменными Гистограммы распределения — для анализа частоты продаж по категориям Линейные графики трендов — для анализа продаж по времени Круговые диаграммы — для отображения долей категорий

1. Импорт библиотек и загрузка данных

Original size 770x594

2. Предварительный анализ данных

Original size 1022x320

3. Очистка и подготовка данных

Original size 1670x558

4. Статистический анализ

Original size 1428x218

5. Визуализация данных

График 1: Тепловая карта корреляций

Original size 1944x1572
Original size 1848x1054

График 2: Распределение продаж по категориям продуктов

Original size 1970x1096
Original size 1830x746

График 3: Динамика продаж по месяцам

Original size 2006x1104
Original size 1392x1122

График 4: Распределение рейтингов по городам

Original size 1988x1352
Original size 1470x1538

График 5: Круговая диаграмма методов оплаты

Original size 2292x1994
Original size 1452x1164

График 6: Анализ продаж по времени суток

Original size 2016x1104
Original size 1420x1506

Используемые статистические методы В ходе анализа данных были применены несколько ключевых статистических подходов. Для общего понимания структуры данных использовались методы описательной статистики — функция помогла получить основные показатели, такие как среднее значение, медиана и стандартное отклонение. Чтобы выявить взаимосвязи между числовыми переменными, была рассчитана корреляционная матрица Пирсона. Дополнительно применялась группировка данных с помощью groupby (), что позволило провести более детальный анализ по различным категориям. Для наглядности результатов использовались визуальные методы — гистограммы, линейные графики и круговые диаграммы показали распределения и основные тенденции. При анализе временных рядов данные были разделены по месяцам, дням и часам, что помогло проследить динамику и сезонность продаж. Стилизация графиков Особое внимание уделялось визуальной составляющей. В качестве цветовой палитры использовались оттенки «husl» и кастомные цвета

2E86AB,

A23B72, #F18F01. Для удобства восприятия были настроены шрифты Matplotlib — изменены их размер и насыщенность. Все графики снабжены информативными подписями и аннотациями, а полупрозрачная сетка делает визуализацию более читаемой. Легенды оформлены чётко и лаконично, а размеры графиков (12×8 и 14×8 дюймов) подобраны для комфортного просмотра и презентации результатов. Результаты анализа Исследование позволило выявить несколько ключевых тенденций: Самые прибыльные категории — Food and Beverages и Sports and Travel. Пик продаж наблюдается в феврале. Наивысшие средние рейтинги отмечены в регионе Yangon. Среди способов оплаты лидирует Ewallet. Активнее всего покупки совершаются во второй половине дня — с 14 до 16 часов. Использование генеративной модели Для оптимизации работы над проектом применялась модель DeepSeek AI (deepseek.com). Она помогла с поиском и исправлением ошибок в коде, а также предоставила консультации по применению статистических методов.

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more