Original size 1140x1600

Анализ датасета из kaggle Mall_Customers

PROTECT STATUS: not protected

Вступление

Выбор данного датасета неслучаен. Я очень часто хожу по магазинам и было всегда интересно, зачем меня просят заводить скидочные карты или карты лояльности, теперь я поняла, что как раз таки для аналитики и для построения стратегий!

Типы графиков

  1. Pairplot график
  2. Линейный график
  3. Boxplot
  4. Интерактивный Boxplot при помощи библиотеки plotly.express
  5. 3D график при помощи библиотеки scatter_3d
  6. Dendrogram при помощи библиотеки scipy.cluster.hierarchy

Этапы работы

  1. Выбор данных, которые интересно проанализировать, предобработка данных
  2. Анализ данных
  3. Визуализация

Оформление графиков

В оформлении графиков я разделила цвета, чтобы не путаться и видеть статистику мужчин и женщин. Также использовала много интерактивных элементов, чтобы интереснее было работать и анализировать данные.

Описание датасета

Данные посетителей магазина: — id, — пол, — возраст, — доход, — рейтинг трат.

Я сделала общую предобработку: импорт библиотек, поверхностный анализ и тд.

big
Original size 499x206
Original size 523x363
Original size 617x273

Графики

Посмотрела на визуализацию даты по всем признакам, попросила ChatGPT стилизовать график и «сделать его красивым» (промт), он предложил визуализацию с кругами и квадратами на pairplot с использование розового и голубого цветов (что действительно напомнило гендер пати) я выбрала для визуализации pairplot, так как он выводит все признаки в одном графике, что очень полезно и удобно.

Original size 1003x275
Original size 1242x1140

Я решила взять предложенный график из гугл коллаба и преобразовать его (зависимость customer id и spending score). В промте я указала свой график и попросила «покрасить линии в неоновые цвета"(промт ChatGpt)

Original size 700x438
Original size 1800x952

Boxplot — это статистический график, который позволяет наглядно представить распределение числовых значений и выявить наличие выбросов. В данном случае, boxplot используется для визуализации связи между годовым доходом и показателем трат, что помогает понять, как распределены и связаны эти данные внутри набора данных.

Original size 1146x143
Original size 1922x716
  1. Существует разнообразие показателей трат у клиентов с разным годовым доходом. Это видно по разбросу значений внутри каждого уровня дохода.

  2. Наблюдается тенденция к увеличению показателя трат у клиентов с более высоким годовым доходом, что может свидетельствовать о том, что люди с более высоким доходом склонны тратить больше.

Теперь я построю такой же график, но с интерактивными элементами. Я закинула в промт ChatGpt свою строку кода и попросила «построить из этого интерактивный график» (промт).

Original size 743x106
Original size 2212x1450

Далее следует рассмотреть общую зависимость трех признаков, вместо группировки я выбрала наиболее релевантным вариантом создать 3D график, чтобы посмотреть на визуализацию.

Original size 803x72
Original size 782x592

Немного затрону кластеризацию, ведь при работе с данными это одна и основополагающих целей, сначала преобразую категориальные переменные в формат, который можно использовать для обучения модели машинного обучения без создания ложной упорядоченности в данных.

Original size 1158x238
Original size 2294x1310

Выбор данного типа графика обусловлен возможностью визуализации иерархической кластеризации, что позволяет обнаружить структуру данных, выделять кластеры объектов и делать выводы о схожести между ними, что может быть полезным в работе с неструктурированными данными или при анализе группировки объектов.

Исходники

Ноутбук и дататест: https://drive.google.com/drive/folders/1EFRO-AAEQHLZw5MznxLag_Fmsg7BrDF0?usp=sharing

Обложка сделана нейросетью «Леонардо»

Анализ датасета из kaggle Mall_Customers
Project created at 25.09.2024
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more