Original size 929x1238

Вкус качества: как география, цена и профили формируют лучший кофе

PROTECT STATUS: not protected
11

Введение

В этом проекте я выбрала для анализа датасет, посвящённый оценке сортов кофе, данные «Coffee Reviews Dataset» я нашла на платформе Kaggle. Датасет включает информацию о более чем 2000 сортах кофе: от страны происхождения и стиля обжарки до текстового описания вкуса, цены за 100 грамм и итоговой экспертной оценки в баллах. Эти данные были найдены в открытом доступе в формате CSV, подготовленном для анализа. Кофе, как объект исследования, представляет собой не только повседневный напиток, но и глобальный культурный феномен, тесно связанный с географией, климатом, рынками справедливой торговли и гастрономическим вкусом. Интерес к этой теме обусловлен как личной заинтересованностью, так и стремлением понять, как складывается восприятие «качества» в такой субъективной области, как вкусовая оценка.

Цель исследования — определить, какие факторы оказывают наибольшее влияние на высокую оценку сорта кофе: страна происхождения, цена, стиль обжарки или вкусовые характеристики, зафиксированные в описании. Возникает исследовательская задача: Существует ли устойчивая взаимосвязь между оценкой сорта кофе и его объективными параметрами, такими как страна происхождения, цена и стиль обжарки, или субъективные описания вкуса играют более значимую роль?

Для ответа на этот вопрос я использую визуальный анализ данных. Я выбрала следующие виды графиков: 1. Фасетная гистограмма оценок по годам — для анализа распределения оценок с 2017 по 2022 годы и выявления динамики доли высокооценённых сортов (рейтинг ≥94), чтобы понять эволюцию качества кофе. 2. Боксплот стилей обжарки по годам — для изучения связи стилей обжарки (светлая, средняя, тёмная) с оценками и их изменений во времени, чтобы оценить влияние обжарки на восприятие качества. 3. Тепловая карта вкусовых категорий по странам — для визуализации частоты вкусовых профилей (фруктовый, шоколадный, цветочный, ореховый, пряный) в топ-10 странах, чтобы выявить географические вкусовые паттерны. 4. Диаграмма рассеяния цены vs. оценки — для проверки, влияет ли цена за 100 грамм на экспертные оценки, с цветовой кодировкой по странам, чтобы понять экономическую ценность качества. 5. Облако слов из описаний высокооценённых сортов — для анализа лексики, используемой в описаниях сортов с рейтингом ≥94, чтобы выявить доминирующие вкусовые термины и паттерны в кофейной критике.

Таким образом, моя цель — не просто визуализировать данные, а использовать визуализацию как инструмент для постановки и частичного решения аналитической задачи. Это позволит продвинуться в понимании того, как формируется восприятие качества кофе в индустрии, где субъективные и объективные критерии тесно переплетены.

Фасетная гистограмма оценок по годам с выделением высокооценённых сортов

Цель фасетной гистограммы оценок по годам с выделением высокооценённых сортов — проанализировать, как распределение оценок (rating) в датасете coffee_analysis.csv менялось со временем, и выявить динамику доли премиальных сортов, которые мы сами определяем как сорта с рейтингом ≥94. Я извлекаю год из колонки review_date и создаём столбец is_high_rated (рейтинг ≥94), чтобы подсчитать долю таких сортов и ответить на вопрос: как эволюционировало качество кофе в выборке Coffee Review? Визуализация помогает понять, растёт ли средняя оценка и доля премиальных сортов, что может быть связано с развитием индустрии specialty coffee, появлением новых регионов или методов обработки (например, анаэробной ферментации). Порог ≥94 для премиальных сортов выбран нами на основе стандартов кофейной индустрии, где такие оценки ассоциируются с исключительным качеством (например, сорта Geisha). Эта визуализация закладывает основу для дальнейшего анализа влияния факторов, таких как страна происхождения или стиль обжарки, на высокие оценки.

Original size 1992x274

Фасетная гистограмма выбрана, потому что она позволяет одновременно отобразить распределение оценок для каждого года, обеспечивая наглядное сравнение их формы и центральной тенденции (например, смещение к более высоким оценкам). В отличие от простой гистограммы, которая показывает только общее распределение, фасетная структура добавляет временной контекст, позволяя выявить тренды, такие как рост качества или стандартизация оценок. Мы решили не усложнять форму визуализации (например, избегали тепловых карт или скрипичных диаграмм), сосредоточившись на содержательности: аннотации с долей премиальных сортов (≥94) в каждом году подчёркивают их значимость без перегрузки графика. Порог ≥94, определённый нами как индикатор премиальности, отражен в аннотациях, что делает визуализацию логичной и целенаправленной для исследования эволюции качества кофе.

0

Анализ фасетной гистограммы и предоставленной статистики по годам (2017–2022) показывает, что качество кофе в выборке Coffee Review демонстрирует умеренный рост, с увеличением средней оценки и доли премиальных сортов (рейтинг ≥94) в более поздние годы. Средняя оценка колеблется в диапазоне 92.93–93.33, с заметным повышением с 92.93 в 2019 году до 93.33 в 2022 году, что указывает на постепенное улучшение воспринимаемого качества. Доля высокооценённых сортов, определённых нами как премиальные (≥94), варьируется от 33,0% в 2019 году до максимума 45,5% в 2021 году, с небольшим снижением до 45,1% в 2022 году. Это говорит о том, что в 2020–2022 годах в выборку включалось больше исключительных сортов, возможно, из-за роста популярности экзотических регионов (например, Эфиопии или Панамы), новых методов обработки (таких как анаэробная ферментация) или повышения стандартов оценки в индустрии specialty coffee.

Однако снижение доли высокооценённых сортов в 2018–2019 годах (с 38,2% до 33,0%) может указывать на временное ужесточение критериев Coffee Review или меньшее количество премиальных сортов в эти годы. В целом, тренд роста доли сортов ≥94 в 2020–2022 годах подтверждает гипотезу о развитии рынка высококачественного кофе. Для дальнейшего анализа стоит исследовать, какие факторы (страна происхождения, стиль обжарки или цена) связаны с увеличением премиальных сортов, особенно в 2021–2022 годах. Например, можно проверить, связан ли рост оценок с популярностью светлой обжарки или сортов, таких как Geisha. Эта визуализация заложила основу для таких исследований, показав, что качество кофе в выборке улучшается, но требует углублённого изучения причин этого тренда.

Boxplot обжарки по годам

Целью данной визуализации является проанализировать, как стиль обжарки влияет на итоговую оценку кофе, и меняется ли это влияние с течением времени. Это позволит понять, существует ли устойчивая связь между технологическими параметрами (обжаркой) и качеством, а также проследить возможные тренды и смещения вкусов индустрии в разные годы.

Ящик с усами позволяет сравнить распределения оценок внутри каждой категории (обжарки) за разные годы, выявить медианные значения, разброс, выбросы и тенденции с течением времени. Это особенно важно для визуализации вариативности вкуса и оценки, а не только средних значений.

0

Независимо от года, кофе со средней обжаркой чаще всего получает более высокие и стабильные оценки, что может говорить о сбалансированности вкуса и предпочтении этого стиля среди дегустаторов. Тёмнообжаренные сорта демонстрируют не только меньшую медиану, но и более широкий разброс оценок. Это может быть связано с поляризованным восприятием: часть дегустаторов оценивает насыщенный вкус и «дымные» ноты высоко, другие — снижают оценку за потерю тонких вкусовых. В ряде лет можно заметить общее повышение медианы оценок, что может указывать как на улучшение качества представленных образцов, так и на изменение критериев оценки. Особенно интересен период, в котором оценки тёмной обжарки начинают «догонять» светлую — возможно, речь идёт о технологических улучшениях или изменении вкусовой моды. Светлая обжарка показывает умеренные оценки с относительно узким разбросом, но редко занимает лидирующую позицию. Это может указывать на нишевую популярность и стабильное качество, но меньший вау-эффект по сравнению со средней обжаркой.

Диаграмма подтверждает, что технологический выбор стиля обжарки оказывает существенное влияние на итоговую оценку кофе. Более того, эта зависимость не статична во времени: стиль, получающий высокие оценки в одном году, может быть менее успешен в другом. Это подчеркивает значимость контекста времени, рыночных вкусов и развития стандартов дегустации. Таким образом, визуализация помогает глубже понять взаимодействие между объективными параметрами (стиль обработки) и субъективными оценками в динамике.

Тепловая карта вкусовых категорий по странам

Цель тепловой карты — визуализировать связь между странами происхождения (origin_1) и субъективными вкусовыми характеристиками кофе, извлечёнными из описаний (desc_1, desc_2, desc_3), чтобы выявить, какие вкусовые категории (фруктовый, шоколадный, цветочный, ореховый, пряный) чаще ассоциируются с кофе из определённых регионов. Мы создаём столбец taste_category, классифицируя описания по ключевым словам, и фокусируемся на топ-10 странах по количеству сортов для репрезентативности. Эта визуализация отвечает на вопрос: как география влияет на воспринимаемые вкусовые профили кофе? Она позволяет выявить паттерны, например, преобладание фруктовых нот в африканском кофе (Эфиопия, Кения) или шоколадных в южноамериканском (Колумбия, Бразилия), углубляя понимание влияния терруара и субъективной лексики кофейной критики.

Original size 1766x980

Тепловая карта выбрана за её способность компактно и наглядно отображать частоту вкусовых категорий для нескольких стран одновременно, подчёркивая интенсивность связей между географией и вкусами через цветовую градацию. Используются топ-10 стран, чтобы избежать перегрузки и сосредоточиться на значимых кофейных регионах, а аннотации с числовыми значениями повышают точность интерпретации. Эта визуализация идеально подходит для исследования субъективных описаний в контексте географии, создавая основу для дальнейшего анализа вкусовых паттернов.

0

Тепловая карта, отображающая частоту вкусовых категорий (фруктовый, шоколадный, цветочный, ореховый, пряный) для топ-10 стран и регионов происхождения кофе, выявляет ярко выраженные географические различия в субъективных вкусовых профилях, подчёркивая влияние терруара и методов обработки на восприятие кофе в выборке Coffee Review. Африканские регионы, особенно Эфиопия (включая Guji Zone, Yirgacheffe, Gedeb District, Sidamo), доминируют по фруктовым нотам, с экстремально высокой частотой этой категории: Guji Zone (129 сортов), Yirgacheffe (107 сортов), и Sidamo (38 сортов) практически исключительно ассоциируются с фруктовыми вкусами, что отражает популярность натуральных методов обработки и уникальные почвенно-климатические условия этих зон. Nyeri Growing Region (Кения) также показывает сильное присутствие фруктовых нот (40 сортов), но дополняется цветочными (7 сортов) и шоколадными (11 сортов), указывая на более разнообразный профиль. Южноамериканские регионы, такие как Колумбия и Бразилия, демонстрируют более сбалансированный вкусовой спектр: Колумбия выделяется фруктовыми (22 сорта) и шоколадными (9 сортов) нотами, а Бразилия — фруктовыми (15 сортов) и шоколадными (10 сортов), что может быть связано с мытой обработкой и сортами, такими как Бурбон. Boquete (Панама) и Holualoa (Гавайи) также склоняются к фруктовым нотам (34 и 36 сортов соответственно), но Holualoa добавляет шоколадные (4 сорта) и цветочные (1 сорт) оттенки. Ореховые и пряные ноты крайне редки, с единичными случаями в Колумбии и Эфиопии (по 1 сорту), что подчёркивает их второстепенную роль в описаниях.

Эти данные подтверждают, что африканские регионы, особенно эфиопские, воспринимаются как лидеры по ярким, фруктовым вкусам, тогда как южноамериканские регионы предлагают более сбалансированные профили. Визуализация подчёркивает субъективную природу кофейной критики, где лексика описаний тесно связана с географией, и открывает путь для дальнейшего анализа.

Диаграмма рассеяния: цена vs. оценка

Цель диаграммы рассеяния — исследовать взаимосвязь между ценой за 100 грамм кофе (100g_USD) и экспертными оценками (rating), чтобы определить, является ли цена фактором, определяющим качество кофе, и проверить месседж: дорогой кофе всегда лучший, или связь более сложная? Используется цветовая кодировка по топ-10 странам происхождения (origin_1) по количеству сортов, чтобы выявить, как география влияет на соотношение цены и качества, и добавляется линия регрессии для количественной оценки корреляции. Визуализация отвечает на вопрос: оправдывает ли высокая цена высокие оценки, и связаны ли дорогие сорта с определёнными регионами (например, Эфиопией или Панамой)? Это углубляет анализ качества кофе, начатый предыдущими визуализациями (фасетная гистограмма по годам, столбчатая диаграмма оценок по странам, тепловая карта вкусов), добавляя экономический аспект и проверяя субъективное восприятие ценности кофе. Визуализация помогает сформулировать гипотезы, например, связаны ли дорогие высокооценённые сорта с экзотическими регионами или уникальными методами обработки.

Диаграмма рассеяния выбрана за её способность наглядно отображать взаимосвязь двух непрерывных переменных (цена и оценка), позволяя выявить как общие тенденции, так и выбросы (например, дорогой кофе с низким рейтингом). Цветовая кодировка по странам добавляет географический контекст, показывая, какие регионы производят дорогие или высокооценённые сорта, что делает визуализацию более содержательной, чем простая диаграмма рассеяния. Линия регрессии предоставляет количественную оценку корреляции, помогая ответить на вопрос: «дорогой кофе = лучший кофе?». Фокус на топ-10 странах, чтобы избежать перегрузки графика и сохранить репрезентативность. Эта визуализация логично продолжает исследование, связывая экономические (цена), субъективные (оценки) и географические (страны) аспекты качества кофе, подчёркивая сложность восприятия ценности.

0

Диаграмма рассеяния, отображающая взаимосвязь между ценой за 100 грамм кофе (100g_USD) и экспертными оценками (rating) для топ-10 стран и регионов происхождения, выявляет сложную картину, где высокая цена не всегда гарантирует высокое качество, но определённые регионы демонстрируют устойчивую связь между дороговизной и высокими оценками. Статистика показывает, что регионы Boquete (Панама) и Holualoa (Гавайи) лидируют по средней цене ($35.92 и $23.78 соответственно) и оценкам (94.59 и 94.32), что подтверждает их репутацию производителей премиального кофе, возможно, благодаря редким сортам, таким как Geisha, и ограниченному производству (39 и 41 сорт). Эфиопские регионы (Guji Zone, Yirgacheffe, Gedeb District, Sidamo, Эфиопия) демонстрируют умеренные цены ($5.76–$12.43) при стабильно высоких оценках (92.79–93.43), с большим количеством сортов (от 30 до 133), что указывает на их экономическую доступность и высокое качество, вероятно, обусловленное натуральными методами обработки и уникальным терруаром. Nyeri (Кения) также выделяется высокой средней оценкой (93.98) при относительно доступной цене ($6.91), подчёркивая конкурентоспособность кенийского кофе. В то же время Колумбия и Бразилия имеют самые низкие средние цены ($4.98 и $4.44) и оценки (92.00 и 91.78), что может быть связано с массовым производством и менее эксклюзивными сортами. Линия регрессии на графике, вероятно, показывает слабую положительную корреляцию между ценой и оценками, так как высокие оценки встречаются как у дорогого (Boquete, Holualoa), так и у доступного кофе (Эфиопия, Nyeri). Выбросы, такие как дорогой кофе с умеренными оценками или дешёвый с высокими, подчёркивают, что цена не является единственным фактором качества.

Месседж «дорогой кофе ≠ лучший кофе» подтверждается: хотя премиальные регионы оправдывают высокую цену, эфиопские и кенийские сорта предлагают сопоставимое качество за меньшую стоимость. Эта визуализация подчёркивает роль географии в формировании восприятия ценности кофе.

Облако слов из описаний высоко оценённых сортов

Цель здесь становится создать лексический образ высокооценённых сортов кофе (рейтинг ≥94), анализируя описания вкуса (desc_1, desc_2, desc_3), чтобы выявить наиболее часто используемые слова и определить, какие вкусовые или сенсорные характеристики ассоциируются с премиальным качеством. Мы объединяем описания высокооценённых сортов, очищаем текст от стоп-слов и фокусируемся на ключевых дескрипторах, чтобы ответить на вопрос: какие слова формируют восприятие «хорошего» кофе, и есть ли в них вкусовой паттерн, например, преобладание фруктовых, цветочных или других нот? Визуализация завершает исследование качества кофе, начатое предыдущими визуализациями (фасетная гистограмма, столбчатая диаграмма, тепловая карта, диаграмма рассеяния), добавляя качественный анализ субъективной лексики экспертов Coffee Review. Она помогает понять, какие термины (например, «citrus», «floral», «silky») доминируют в описаниях лучших сортов, и проверить, связаны ли высокие оценки с определёнными сенсорными профилями, такими как яркость или сложность вкуса.

Original size 1766x1184

Облако слов выбрано за его способность наглядно и компактно представить частотность слов, где размер или цвет слова отражает его значимость, делая лексический анализ интуитивно понятным. В отличие от исходного облака слов, которое могло включать все описания, эта визуализация сосредоточена только на высокооценённых сортах (≥94), что делает её более целенаправленной и содержательной, подчёркивая характеристики премиального кофе. Эта визуализация логично завершает анализ, переводя фокус на субъективную лексику и позволяя сформулировать месседж: высокие оценки связаны с яркими, сложными и специфическими вкусовыми описаниями, которые формируют уникальный образ «хорошего» кофе.

0

Облако слов, построенное на основе описаний высокооценённых сортов кофе (рейтинг ≥94), раскрывает лексический образ премиального кофе, подчёркивая как вкусовые, так и технические аспекты, которые формируют восприятие качества в оценках Coffee Review. Среди топ-10 наиболее частых слов доминируют термины, связанные с сенсорными характеристиками и производственным контекстом. Слова «fruit» (1096 упоминаний) и «chocolate» (737 упоминаний) указывают на яркие вкусовые профили, где фруктовые и шоколадные ноты являются ключевыми дескрипторами высокооценённых сортов, что согласуется с предыдущими визуализациями, показавшими преобладание фруктовых вкусов в африканских регионах (например, Эфиопия) и шоколадных в южноамериканских (например, Колумбия). Однако значительная частота слов, таких как «coffees» (1220 упоминаний), «produced» (728 упоминаний), «arabica» (724 упоминания), «processed» (621 упоминание) и «method» (565 упоминаний), отражает акцент на технических деталях — происхождении, сорте и способе обработки (например, натуральная или мытая). Это подчёркивает, что эксперты не только описывают вкус, но и ценят прозрачность информации о производстве, что может быть связано с популярностью specialty coffee, где история происхождения играет важную роль. Неожиданно высокая частота слов «visit» (873 упоминания) и «information» (859 упоминаний) может указывать на упоминания веб-сайтов или справочных данных в описаниях, что требует дополнительной очистки текста в будущем анализе, чтобы сосредоточиться исключительно на вкусовых терминах. Слово «structure» (682 упоминания) намекает на оценку сбалансированности и сложности вкуса, что часто ассоциируется с премиальными сортами.

Месседж «какие слова формируют образ хорошего кофе?» частично подтверждается: высокие оценки связаны с яркими фруктовыми и шоколадными вкусами, но также с прозрачностью происхождения и метода обработки, что делает премиальный кофе не только сенсорным, но и интеллектуальным опытом. Эта визуализация завершает анализ, подчёркивая сложность лексики качества и побуждая к дальнейшему исследованию, например, связи конкретных вкусовых терминов с регионами или ценой.

Заключение

Исследование, проведённое на основе датасета Coffee Reviews Dataset с данными о более чем 2000 сортах кофе, позволило глубже понять, какие факторы формируют восприятие качества кофе, и ответить на вопрос: существует ли устойчивая взаимосвязь между экспертными оценками и объективными параметрами (страна происхождения, цена, стиль обжарки) или субъективными характеристиками (вкусовые описания)? Через серию визуализаций — фасетной гистограммы оценок по годам, боксплота стилей обжарки по годам, тепловой карты вкусовых категорий по странам, диаграммы рассеяния цены vs. оценки и облака слов из описаний высокооценённых сортов — удалось выявить ключевые закономерности, которые подчёркивают сложное взаимодействие объективных и субъективных аспектов в оценке кофе.

Фасетная гистограмма оценок по годам (2017–2022) показала устойчивый рост качества кофе: средние оценки увеличились с 92.93 в 2019 году до 93.33 в 2022 году, а доля высокооценённых сортов (рейтинг ≥94) достигла пика в 45,5% в 2021 году. Это указывает на развитие индустрии specialty coffee, возможно, благодаря новым методам обработки (например, анаэробной ферментации) или появлению экзотических регионов. Однако временные колебания (например, спад в 2019 году до 33%) намекают на изменчивость стандартов оценки, что подчёркивает субъективный элемент в оценке качества.

Боксплот стилей обжарки по годам выявил, что светлая и средняя обжарка доминируют среди высокооценённых сортов, с тенденцией к увеличению вариативности оценок для светлой обжарки в 2022 году. Это подтверждает связь светлой обжарки с восприятием сложных вкусовых профилей, но также показывает, что стиль обжарки сам по себе не является определяющим фактором — качество зерна и регион играют более значимую роль.

Тепловая карта вкусовых категорий по странам продемонстрировала сильную географическую обусловленность вкусовых профилей. Эфиопские регионы (Guji Zone, Yirgacheffe, Sidamo) почти исключительно ассоциируются с фруктовыми нотами (например, 129 сортов в Guji), что связано с натуральными методами обработки и уникальным терруаром. Колумбия и Бразилия предлагают сбалансированные профили с шоколадными и фруктовыми нотами, тогда как Кения (Nyeri) добавляет цветочные оттенки. Эти паттерны подчёркивают, что география формирует субъективные вкусовые описания, которые тесно связаны с высокими оценками.

Диаграмма рассеяния цены vs. оценки показала, что высокая цена не всегда гарантирует высокое качество. Boquete (Панама) и Holualoa (Гавайи) с высокими ценами ($35.92 и $23.78) и оценками (94.59 и 94.32) подтверждают репутацию премиальных регионов, но эфиопские регионы и Кения (Nyeri) предлагают сопоставимые оценки (92.79–93.98) при значительно меньших ценах ($5.76–$6.91). Слабая корреляция между ценой и оценками указывает, что качество определяется не только стоимостью, но и терруаром, сортом или обработкой, опровергая идею «дорогой кофе = лучший кофе».

Облако слов из описаний высокооценённых сортов (≥94) выявило лексический образ премиального кофе, где «fruit» (1096 упоминаний) и «chocolate» (737 упоминаний) доминируют среди вкусовых дескрипторов, подтверждая связь высоких оценок с яркими и сложными профилями. Однако частые технические термины, такие как «produced» (728 упоминаний), «arabica» (724 упоминания) и «method» (565 упоминаний), подчёркивают важность прозрачности происхождения и обработки в индустрии specialty coffee. Неожиданное присутствие слов «visit» и «information» (873 и 859 упоминаний) требует дальнейшей очистки данных, но не умаляет значимости вкусовых паттернов.

В совокупности исследование показало, что качество кофе определяется сложным взаимодействием объективных и субъективных факторов. Страна происхождения, особенно африканские регионы (Эфиопия, Кения), играет ключевую роль, обеспечивая высокие оценки благодаря уникальному терруару и фруктовым профилям. Цена лишь частично коррелирует с качеством, подчёркивая ценность доступных сортов. Стиль обжарки влияет на восприятие вкуса, но не является решающим. Субъективные описания, богатые фруктовыми и шоколадными нотами, формируют образ премиального кофе, но их значимость усиливается прозрачностью производственных деталей. Таким образом, восприятие качества в кофейной индустрии — это переплетение географии, экономики и субъективной лексики, где высокие оценки отражают не только вкус, но и историю происхождения. Исследование открывает путь для дальнейшего анализа, например, влияния конкретных методов обработки или сортов на оценки, и подчёркивает уникальность кофе как культурного и гастрономического феномена.

Вкус качества: как география, цена и профили формируют лучший кофе
11
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more