
Концепция
Кофе для меня является не просто напитком, а частью повседневного ритуала, который помогает расслабиться. Он сопровождает работу, учёбу, отдых и часто становится фоном для общения или уединения. За чашкой кофе скрывается множество параметров, от вкуса и цены до времени покупки и способа оплаты, которые формируют общий пользовательский опыт. Именно это сочетание повседневности и структуры делает данные о кофе интересными для анализа.

Отправной точкой для проекта стал набор данных о покупках кофе от Tasty Coffee, в котором зафиксированы информация о напитках, времени покупки, стоимости и способе оплаты. Эти данные показались мне ценными, потому что они отражают реальные поведенческие паттерны покупателей и позволяют посмотреть на привычное действие с аналитической точки зрения. Мне стало интересно понять, как распределяются покупки в течение дня, какие напитки выбирают чаще всего и существуют ли различия в цене в зависимости от способа оплаты.

В рамках проекта я решила проанализировать данные с помощью методов описательной статистики и визуализации. В качестве материала используется датасет с платформы Kaggle, содержащий информацию о покупках кофе Tasty Coffee. Перед началом анализа данные были очищены и приведены к удобному для работы виду, так как исходный файл содержал лишние и некорректные значения.
Для визуального анализа я использовала несколько типов графиков, каждый из которых решает свою задачу. Столбчатые диаграммы применялись для сравнения популярности напитков и распределения покупок. Линейные графики позволили проследить изменения активности во времени. Круговые диаграммы использовались для обобщённого представления структуры данных, а облако слов помогло зафиксировать наиболее часто встречающиеся названия и категории напитков. Такой набор визуализаций позволяет рассмотреть данные с разных сторон и сделать выводы на основе наглядных и объясняющих графиков.
Процесс работы и графики
Перед построением графиков я сначала подготовила данные к работе. На этом этапе я подключила необходимые библиотеки, загрузила файлы с данными и объединила их в одну таблицу. Далее я привела столбцы с датой и временем к единому формату и создала дополнительные признаки, такие как час и день недели, которые в дальнейшем использовались при анализе.
Код установки библиотек и импорта данных.
Этот этап был важен для того, чтобы структурировать данные и сделать их удобными для изучения, а также заложить основу для последующих визуализаций. Подготовка данных и предварительная обработка позволяют избежать искажений в графиках и корректно применять базовые методы анализа, такие как группировка и подсчёт значений.
Линейный график
В рамках анализа я начала с изучения того, как распределяются покупки кофе в течение суток. Для этого был построен линейный график, так как данный тип визуализации лучше всего подходит для отображения изменений показателя во времени. Он позволяет последовательно проследить динамику активности покупателей по часам и сразу заметить периоды роста и спада.
Перед построением графика данные были предварительно обработаны. Я сгруппировала заказы по часам суток и подсчитала количество покупок для каждого часа. Такой способ обработки данных относится к методам описательной статистики и основан на группировке и подсчёте частот. Это позволяет изучать поведение данных без использования сложных статистических моделей и делает результат понятным для интерпретации.
Код для генерации линейного графика количества покупок кофе по часам.
На основе построенной диаграммы можно увидеть, что активность покупателей распределена неравномерно. Минимальное количество покупок приходится на ночные часы, тогда как резкий рост начинается утром. Наиболее выраженные пики наблюдаются в первой половине дня и ближе к вечернему времени, что может быть связано с началом рабочего дня и перерывами. После вечернего пика количество покупок постепенно снижается.
Количество покупок кофе по часам.
Данный график выполняет изучающую и объясняющую функцию, так как он не только показывает количественные значения, но и помогает понять временные паттерны потребления кофе. Линейный формат позволяет легко считать общую динамику и делает визуализацию удобной для анализа повседневного поведения покупателей.
Столбчатая диаграмма
Перед построением столбчатой диаграммы я сначала подготовила данные о напитках. На этом этапе я привела названия кофе к единому виду и перевела их на русский язык. Это было необходимо, чтобы избежать дублирования позиций из-за различий в написании и сделать итоговую визуализацию более читаемой. Такая обработка данных относится к этапу очистки и нормализации и позволяет корректно применять дальнейшие методы анализа, в частности подсчёт частоты значений.
Код для подготовки и перевода названий напитков.
После подготовки данных я перешла к формированию набора для визуализации. Для этого я подсчитала, сколько раз каждый напиток встречается в данных, отобрала десять самых популярных позиций и отсортировала их по количеству покупок. Данный шаг основан на методах описательной статистики, а именно на подсчёте частоты и сравнении категориальных данных. Это позволяет выявить наиболее востребованные напитки без усложнения анализа.
Код для генерации столбчатой диаграммы топ-10 самых популярных напитков.
На основе полученных данных была построена горизонтальная столбчатая диаграмма. Такой тип визуализации выбран, потому что он наглядно показывает различия между категориями и позволяет легко сравнить популярность напитков между собой. Горизонтальный формат делает диаграмму удобной для восприятия, так как названия напитков хорошо читаются, а разница в длине столбцов сразу бросается в глаза.
Топ-10 самых популярных напитков.
По диаграмме видно, что несколько напитков явно выделяются по количеству покупок, в то время как остальные позиции из топ-10 имеют более близкие значения. Это указывает на наличие устойчивых предпочтений у покупателей и позволяет сделать вывод о том, какие напитки формируют основу спроса. Данная визуализация выполняет объясняющую функцию, так как помогает быстро понять структуру предпочтений и служит наглядным итогом анализа категориальных данных.
Гистограмма
После анализа временной динамики покупок я перешла к изучению стоимости кофе. Для этого была построена гистограмма, так как данный тип визуализации подходит для анализа распределения числовых данных и позволяет понять, в каких ценовых диапазонах совершается наибольшее количество покупок. В отличие от столбчатых диаграмм, гистограмма не сравнивает отдельные категории, а показывает общую структуру распределения значений.
Код для генерации гистограммы распределения цен на кофе.
Перед построением графика я использовала метод описательной статистики, основанный на группировке значений стоимости покупки по интервалам и подсчёте количества наблюдений в каждом из них. Такой подход помогает выявить характер распределения цен и оценить, сосредоточены ли покупки вокруг определённых значений или распределены более равномерно.
Распределение цен на кофе.
На полученной гистограмме видно, что большинство покупок сосредоточено в среднем ценовом диапазоне. Более дешёвые и более дорогие позиции встречаются заметно реже, что указывает на наличие устойчивого ценового сегмента, в котором совершается основная часть заказов. Это позволяет сделать вывод о том, что покупатели чаще выбирают напитки с умеренной стоимостью, избегая крайних значений.
Данная визуализация выполняет изучающую и объясняющую функцию, так как она помогает наглядно понять структуру цен и распределение покупок без углубления в сложные расчёты. Гистограмма дополняет предыдущие графики и позволяет рассмотреть данные с другой стороны, сосредоточившись не на времени или категориях, а на числовых характеристиках покупок.
Диаграмма распределения
Для анализа различий в стоимости покупок я решила сравнить распределение цен в зависимости от способа оплаты. Перед построением визуализации я подготовила данные, приведя значения способа оплаты к читаемому виду и выделив две категории: оплата наличными и оплата картой. Этот этап необходим для корректного сравнения групп и относится к предварительной обработке данных.
Код для генерации диаграммы распределения стоимости покупки в зависимости от способа оплаты.
После подготовки данных была построена диаграмма распределения в формате boxplot. Такой тип визуализации используется для сравнения числовых данных между несколькими группами и позволяет увидеть медианное значение, разброс цен и возможные выбросы. В основе данного графика лежат методы описательной статистики, включая анализ медианы и квартилей, что делает его удобным инструментом для изучения структуры распределений без применения сложных расчётов.
На диаграмме видно, что распределение стоимости покупок при оплате картой и наличными имеет схожую форму, однако при оплате картой диапазон значений выглядит более широким. Это может указывать на то, что более дорогие покупки чаще совершаются именно с использованием карты. При этом медианные значения позволяют сравнить типичную стоимость покупки для каждого способа оплаты.
Стоимость покупки в зависимости от способа оплаты.
Данная визуализация выполняет объясняющую и изучающую функцию, так как она помогает не только сравнить средние значения, но и оценить устойчивость цен и наличие крайних значений. Использование boxplot дополняет предыдущие графики и позволяет глубже рассмотреть различия в поведении покупателей в зависимости от выбранного способа оплаты.
Заключение
В ходе работы над проектом мне удалось рассмотреть данные о покупках кофе от Tasty Coffee не просто как набор отдельных значений, а как отражение повседневных привычек и поведения покупателей. Использование методов визуализации позволило поэтапно изучить данные с разных сторон и увидеть закономерности, которые сложно заметить без аналитического подхода.
Анализ временного распределения покупок с помощью линейного графика показал, что спрос на кофе в течение суток распределён неравномерно и имеет выраженные пики. Это указывает на связь потребления кофе с распорядком дня и подтверждает, что покупки чаще совершаются в утренние и дневные часы. Такой результат был получен за счёт группировки данных по времени и подсчёта частоты покупок, что относится к базовым методам описательной статистики и позволяет изучать временные паттерны без усложнения анализа.
Столбчатая диаграмма популярных напитков помогла выявить устойчивые предпочтения покупателей. Предварительная очистка и нормализация данных позволили корректно сравнить категории и избежать искажений, связанных с разным написанием названий. В результате стало видно, что часть напитков заметно выделяется по количеству покупок, формируя основу спроса. Этот этап показал, что даже простые методы подсчёта частоты и сравнения категорий могут дать наглядные и содержательные выводы.
Гистограмма распределения цен позволила сместить фокус с категорий и времени на числовые характеристики данных. Анализ показал, что большинство покупок сосредоточено в среднем ценовом диапазоне, а крайние значения встречаются реже. Такой результат помогает лучше понять структуру цен и предпочтения покупателей, а также подтверждает, что основная масса заказов формируется в устойчивом ценовом сегменте. Использование группировки по интервалам позволило наглядно изучить форму распределения без сложных вычислений.
Дополнение анализа диаграммой распределения в формате boxplot дало возможность сравнить стоимость покупок в зависимости от способа оплаты. Этот график позволил оценить медианные значения, разброс и наличие выбросов, что добавило глубины анализу. Сравнение распределений показало, что способ оплаты может быть связан с диапазоном стоимости покупок, и дало более детальное представление о поведении покупателей.
В целом проект показал, что даже на основе относительно простого датасета можно получить содержательные выводы, если использовать визуализацию осознанно и сочетать её с базовыми методами описательной статистики. Графики в работе выполняют не декоративную, а объясняющую функцию и помогают поэтапно разобраться в структуре данных. Такой подход позволяет рассматривать повседневные действия, такие как покупка кофе, как объект для анализа и исследования, а визуализация данных становится инструментом понимания, а не просто способом представления информации.
Описание применения генеративной модели
Chat-GPT использовался для запросов, связанных с разработкой и оптимизацией компьютерного кода.