
Анализ бизнес-данных приложения для доставки еды: Исследование факторов, влияющих на доход и активность пользователей
Цель анализа заключается в исследовании факторов, влияющих на поведение пользователей и их покупки в приложении для доставки еды.
Данные и их источник:
Я использовала датасет, взятый с сайта https://www.kaggle.com/datasets/ybifoundation/food-app-business?resource=download
Для начала загрузим данные и посмотрим на их структуру
Основные признаки из данных:
1. MonthlyIncome: Ежемесячный доход (int64) 2. ActiveSinceDays: Количество дней, сколько пользователь активен (int64) 3. Age: Возраст пользователя (int64) Graduate: Наличие высшего образования (1 — да, 0 — нет) (int64) 4. Married: Состоит в браке (1 — да, 0 — нет) (int64) 5. NoOfChildren: Количество детей (int64) 6. NoOfDaysSinceLastPurchase: Количество дней с момента 7. последней покупки (int64) 8. AmountSpendOnWines: Сумма, потраченная на вино (int64) 9. AmountSpentOnFruits: Сумма, потраченная на фрукты (int64) 10. AmountSpentOnMeat: Сумма, потраченная на мясо (int64) 11. AmountSpentOnFish: Сумма, потраченная на рыбу (int64) 12. AmountSpentOnSweet: Сумма, потраченная на сладости (int64) 13. NoOfDealsWithDiscount: Количество сделок со скидкой (int64) 14. NoOfWebPurchase: Количество покупок через интернет (int64) 15. NoOfCatalogPurchase: Количество покупок через каталог (int64) 16. NoOfStorePurchase: Количество покупок в магазине (int64) 17. NoOfWebVisitsMonth: Количество посещений веб-сайта в месяц (int64) 18. CustomerComplain: Жалобы клиентов (1 — да, 0 — нет) (int64)
Непрерывные признаки
MonthlyIncome ActiveSinceDays Age NoOfDaysSinceLastPurchase AmountSpendOnWines AmountSpentOnFruits AmountSpentOnMeat AmountSpentOnFish AmountSpentOnSweet AmountSpentOnGold
Дискретные признаки
NoOfChildren NoOfTeenager NoOfDealsWithDiscount NoOfWebPurchase NoOfCatalogPurchase NoOfStorePurchase NoOfWebVisitsMonth PurchasedIn1stCampaign PurchasedIn2ndCampaign PurchasedIn3rdCampaign PurchasedIn4thCampaign PurchasedIn5thCampaign TotalNoOfCampaignAccepted CustomerComplain
Категориальные признаки
Graduate (0: Нет, 1: Да) Married (0: Нет, 1: Да) Single (0: Нет, 1: Да)
Пропуски в данных
После выполнения разведочного анализа данных, я получила общее представление о структуре и характеристиках данных.
Теперь настало время перейти к следующему важному этапу анализа данных — визуализации. Графики помогут нам наглядно представить ключевые инсайты и выявить скрытые зависимости и закономерности в данных.
Визуализация данных
Зависимость количества покупок от количества визитов магазина через интернет
На диаграмме рассеяния показана взаимосвязь между количеством интернет-визитов в месяц и количеством покупок через интернет и в магазинах.
График включает два типа точек: Синие точки: Покупки через интернет. Зеленые точки: Покупки в магазинах.
Цель этого графика — проанализировать, как количество визитов сайта связано с покупками, сделанными через интернет и в магазинах. Это может помочь понять поведение пользователей и их предпочтения в выборе канала для покупок.
Наибольшее количество визитов на сайт — высокое число покупок как через интернет, так и в магазинах. Это указывает на активное использование веб-сайта пользователями для обоих типов покупок.
Когда у пользователей 0-10 визитов в месяц видно, что чем больше интернет-визитов, тем больше у них покупок через интернет, что предполагает наличие корреляции между количеством визитов и интернет-покупками.
Также в данных присутствуют выбросы (синие точки выше отметки 15 покупок)
Суммы расходов на каждую категорию продуктов
На графике представлена гистограмма, отображающая суммарные расходы пользователей на разные категории продуктов. По оси X расположены категории продуктов, по оси Y — суммарные расходы на каждую категорию.
Этот график позволит понять, на какие продукты пользователи тратят больше всего денег.
Категория «AmountSpentOnWines» имеет самые высокие суммарные расходы, что указывает на то, что пользователи тратят значительные суммы на покупку вина.
Вторая категория — «AmountSpentOnMeat». Это показывает, что мясо также является одной из основных категорий продуктов, на которые тратят деньги пользователи.
Категория «AmountSpentOnGold» занимает третье место по суммарным расходам.
Категории «AmountSpentOnFish», «AmountSpentOnSweet» и «AmountSpentOnFruits» имеют самые низкие расходы. Возможно, эти продукты не так популярны или просто пользователи тратят меньшие суммы на покупку этих продуктов.
Распределение трат на мясо по возрасту, женат/неженат и образованию
Код для создания этого графика я написала не сама. Я использовала ChatGPT, которая сгенерировала для меня код и я его немного изменила. До этого я использовала Google для того, чтобы найти интересные графики, которые можно создать на python.
Запрос для чата: «Сделай график Sunburst распределения трат на мясо по трем категориям»
Этот график показывает, сколько люди тратят на мясо в зависимости от их возраста, семейного положения (женат или неженат) и наличия высшего образования.
Видно, что в каждом возрасте есть как женатые, так и неженатые люди, и у всех них разные траты на мясо. В графике можно заметить, что люди с высшим образованием и без него тратят на мясо по-разному. Самые большие траты на мясо чаще встречаются у людей с высшим образованием.
Новые обозначения на графике: M — married, NM — not married G — graduated, NG — not graduated
Распределение доходов по возрасту, женат/неженат, образованию
Этот график Treemap (древовидная диаграмма) визуализирует ежемесячный доход пользователей приложения в зависимости от их возраста, семейного положения и уровня образования.
Клетки, соответствующие различным возрастам, делятся на более мелкие клетки, показывающие семейное положение. Размер и цвет клеток соответствуют ежемесячному доходу пользователей. Более тёмные и крупные клетки — более высокий доход.
График позволяет визуально оценить, как семейное положение и образование влияют на уровень дохода пользователей в разных возрастных группах.
Наибольшие доходы у людей в возрасте около 40-50 лет. Женатые люди с высшим образованием тоже имеют более высокие доходы.
Взаимосвязь между покупками вина, возрастом и семейным положением клиентов
Этот 3D-график показывает данные о тратах на вино по возрасту и семейному положению. Синие точки на графике — женатые клиенты, красные — неженатые.
X: Количество покупок вина Y: Женат/неженат (1 — женат, 0 — не женат) Z: Возраст пользователя
Видно, что количество покупок вина варьируется значительно среди клиентов, независимо от их семейного положения.
Возраст пользователей, которые совершают покупки вина, распределен равномерно и не сильно зависит от их семейного положения.
Корреляционный анализ
Сильная положительная корреляция:
TotalNoOfCampaignAccepted (общее количество принятых кампаний связано с каждым из отдельных покупок в кампаниях) NoOfStorePurchase и NoOfCatalogPurchase (схожее поведение клиентов в выборе метода покупок)
Умеренная положительная корреляция:
AmountSpentOnMeat и AmountSpendOnWines (клиенты, тратящие деньги на мясо, также склонны тратить на вино) MonthlyIncome положительно коррелирует с AmountSpendOnWines и AmountSpentOnGold, что логично, так как более высокий доход позволяет больше тратить на дорогие продукты
Отрицательная корреляция:
NoOfWebVisitsMonth имеет сильную корреляцию с AmountSpendOnWines и AmountSpentOnMeat. (клиенты, которые больше посещают веб-сайт меньше тратят на эти продукты)
NoOfDealsWithDiscount имеет умеренную корреляцию с MonthlyIncome (клиенты с более низким доходом чаще используют скидки)