
Я выбрала датасет «Предпочтения покупателей», который содержит информацию о поведении и паттернах покупок клиентов. Этот датасет включает в себя различные данные.
Полный список колонок:
1. Customer ID — Уникальный идентификатор для каждого клиента. 2. Age — Возраст клиента. 3. Gender — Пол клиента (Мужчина/Женщина). 4. Item Purchased — Товар, купленный клиентом. 5. Category — Категория купленного товара. 6. Purchase Amount (USD) — Сумма покупки в долларах США. 7. Location — Местоположение, где была совершена покупка. 8. Size — Размер купленного товара. 9. Color — Цвет купленного товара. 10. Season — Сезон, в который была совершена покупка. 11. Review Rating — Оценка, данная клиентом за купленный товар. 12. Subscription Status — Указывает, есть ли у клиента подписка (Да/Нет). 13. Shipping Type — Тип доставки, выбранный клиентом. 14. Discount Applied — Указывает, была ли применена скидка к покупке (Да/Нет). 15. Promo Code Used — Указывает, был ли использован промо-код для покупки (Да/Нет). 16. Previous Purchases — Общее количество завершенных клиентом транзакций в магазине, за исключением текущей. 17. Payment Method — Наиболее предпочитаемый клиентом метод оплаты. 18. Frequency of Purchases — Частота, с которой клиент делает покупки (например, еженедельно, раз в две недели, ежемесячно).

Для своего вдохновения я использовала изображения с токсичной обработкой.
Для визуализации данных я выбрала круговую диаграмму, столбчатые диаграммы, боксплот.
Загрузка библиотек
Для начала я импортировала необходимые мне библиотеки: numpy, matplotlib, pandas и т. д. После чего считала скачанный csv-файл датасета.
Визуализация данных
Тут видно, что мужчины в рамках этого датасета чаще делали покупки.
Круговая диаграмма
На диаграмме видно, что категория «Clothing» (одежда) является самой распространенной с 1737 товарами, что указывает на высокий спрос или широкий ассортимент. «Accessories» (аксессуары) занимают второе место по распространенности с 1240 позициями, также указывая на их популярность. «Footwear» (обувь) имеет 599 товаров, что свидетельствует о более узкой нише или меньшем разнообразии. Наконец, «Outerwear» (верхняя одежда) представлена наименее (324 позиции), что может быть связано со спецификой ассортимента или сезонными колебаниями спроса. В целом, основное внимание уделяется одежде и аксессуарам.
Столбчатая диаграмма
Диаграмма показывает, что PayPal является самым популярным методом оплаты с 677 случаями, за ним следуют кредитные карты (671) и наличные (670). Хотя различия небольшие, дебетовые карты (636), Venmo (634) и банковские переводы (612) встречаются реже. Это может свидетельствовать о предпочтении более традиционных и широко используемых методов оплаты среди пользователей.
Столбчатая диаграмма
Диаграмма размаха показывает распределение цен в USD, где медиана находится около 60. Большая часть данных (межквартильный размах) сосредоточена между 50 и 80, что указывает на значительную вариативность цен внутри этого диапазона. Верхняя и нижняя усы означают наличие более высоких и низких цен, соответственно. Это может свидетельствовать о разнообразии ценовых категорий в наборе данных.
Боксплот
График показывает, что одежда является наиболее популярной категорией в любой сезон, занимая лидирующие позиции. Аксессуары тоже демонстрируют значительную популярность, особенно в зимний и осенний сезоны. Обувь и верхняя одежда значительно менее популярны и варьируются незначительно в зависимости от сезона.
Столбчатая диаграмма
Описание применения генеративной модели
Для своей работы я использовала Chat-GPT. Он помог мне кастомизировать цветовую палитру.
Ссылка на модель: https://chatgpt.com
Скачать блокнот с кодом и датасет: https://drive.google.com/drive/folders/1d4RWxVrYjgOKEepydmnl1ASr7v65lwVf?usp=sharing