Original size 2480x3500

Анализ сырной индустрии: Разбор данных

PROTECT STATUS: not protected
3

Описание проекта

Сыры — это удивительный продукт, который всегда привлекал мое внимание своей уникальностью, разнообразием вкусов и способами производства. Моя цель в этом проекте — проанализировать данные о сырах и визуализировать их в различных формах, чтобы понять, какие особенности влияют на популярность различных видов сыров, а также на их особенности по типам молока, жирности и производителям.

В ходе анализа данных я решил использовать следующие виды графиков, которые помогут наглядно представить информацию и выявить основные закономерности:

Гистограммы (показывают распределение и частотность данных, например, по странам производства сыра).

Коробчатые диаграммы (помогают визуализировать диапазон значений и выбросы, например, для распределения жирности по цвету сыра).

Столбчатые диаграммы (отображают распределение данных по категориям, например, для анализа популярности разных производителей или типов сыра).

Точечные диаграммы (демонстрируют взаимосвязь между двумя переменными, например, распределения сыра по типу молока).

Круговые диаграммы (показывают долю каждого типа в общей выборке, например, распределение типов корки в сырах, что помогает наглядно увидеть пропорции и доли различных категорий).

big
Original size 4500x584

Цветовая палитра

Для визуализации я использовал палитры, подобранные с учетом натуральных оттенков желтого и оранжевого, что ассоциируется с сыром и молочными продуктами. Эти цвета я выбрал с помощью Adobe Color и использовал их для создания единого и гармоничного визуального стиля.

В процессе работы над кодом мне оказал помощь Chat-GPT, который помог с написанием, оптимизацией и исправлением ошибок, а также предложил эффективные решения для работы с данными и их визуализацией.

Предварительная подготовка

В рамках исследования я использовал базу данных о сырах, которую нашел на платформе Kaggle. Это набор данных, содержащий разнообразную информацию о сырах со всего мира, включая такие характеристики, как тип молока, страна происхождения, тип сыра, жирность и текстура. Базу данных можно найти по ссылке: Global Cheese Dataset

Этот источник оказался очень полезным для моего проекта, так как он предоставляет разнообразную информацию о сырной продукции, что позволило провести глубокий анализ.

В ходе работы над проектом я использовал библиотеки Pandas, NumPy, Matplotlib и Seaborn для обработки и визуализации данных о сырах. Для создания облака слов я применил библиотеку WordCloud, а для более сложной визуализации использовал Plotly. Эти инструменты позволили мне эффективно работать с данными, очищать их и создавать графики, отражающие ключевые аспекты информации о сырах.

Итоговые графики

График № 1

Этот график отображает распределение сыров по странам. Мы видим, что страны Европы, такие как Франция и Италия, занимают ведущие позиции. Это логично, ведь именно эти регионы традиционно ассоциируются с сырной культурой. Другие страны, например, США, имеют меньшее количество сыров, что может говорить о меньшем разнообразии или о более позднем вступлении на рынок сырной продукции.

Original size 1787x1186

Гистограмма распределения сыров по странам.

Original size 819x604

Код для гистограммы распределения сыров по странам.

График № 2

Этот график показывает, какие страны лидируют в производстве сыра. Страны Европы, такие как Франция и Италия, занимают высокие позиции, что ожидаемо. Интересно, что США начинают активно набирать популярность в сырной индустрии, что свидетельствует о росте производства и потребления сыра в этой стране.

Original size 1040x792

Топ-20 стран в сырной индустрии.

Original size 784x764

Код для топа-20 стран в сырной индустрии.

График № 3

Мне было интересно, как сильно веганские и вегетарианские сыры составляют конкуренцию традиционным.

На графике представлено количество вегетарианских сыров в зависимости от их типа. Использование двух цветов позволяет визуализировать различие между сырами, которые являются вегетарианскими (True) и не являются (False). Это помогает понять, какие виды сыров производятся с использованием только растительных ингредиентов, что важно для потребителей, следящих за своей диетой.

Original size 1552x787

Вегетарианские сыры по типам.

График аналогичен предыдущему, но с акцентом на веганские сыры. Веганские сыры, как и вегетарианские, не содержат животных ингредиентов, и этот график помогает увидеть, какие типы сыра наиболее популярны среди веганов.

Original size 1552x787
0

1. Код для графика вегетарианских сыров, 2. Код для графика веганских сыров

График № 4

Этот график визуализирует текстуры и вкусы сыров, которые встречаются наиболее часто. Облако слов помогает определить, какие качества сыра наиболее популярны и важны для покупателей. Например, мы можем увидеть, что сыры часто характеризуются такими словами, как «кремовый», «мягкий» или «острый», что помогает лучше понять вкусовые предпочтения в данной категории.

Original size 794x430

Облако слов — текстуры и вкусы сыров.

Original size 1119x755

Код для облака слов.

График № 5

Этот график показывает, как распределяются различные типы корки в сырах. Видно, что типы корок, такие как natural (естественная) и washed (вымытая), занимают лидирующие позиции в выборке, в то время как другие, менее распространенные типы, попадают в категорию «Прочее». Это подтверждает популярность традиционных сыров, таких как Камамбер и Бри, с мягкой коркой, которые любимы по всему миру.

Original size 1139x694

Круговая диаграмма распределения типов корки в сырах.

0

Код для круговой диаграммы распределения типов корки в сырах.

Бар-график позволяет более детально исследовать процентное распределение типов корки в сырах. Сортировка по процентам дает четкое представление о популярности каждого типа корки и помогает выявить основные тенденции в производстве сыров.

Original size 897x497

Бар-график распределения типов корки в сырах

Original size 824x503

Код для бар-графика распределения типов корки в сырах.

График № 6

Этот график визуализирует распределение сыров в зависимости от типа молока. Он помогает понять, какие виды молока чаще всего используются для производства сыра, и это может быть полезно для потребителей, имеющих предпочтения по молоку, например, из-за аллергий или вкусовых предпочтений.

Original size 1587x786

Распределение сыров по типу молока.

Original size 1013x933

Код для точечной диаграммы распределения сыров по типу молока.

График № 7

Этот график помогает понять, как цвет сыра может коррелировать с его жирностью. Я заметил, что более яркие сыры, такие как желтые и оранжевые, чаще всего более калорийные. Однако и среди более светлых, белых и бежевых сыров встречаются разные уровни жирности. Это заставляет задуматься, насколько разнообразным может быть вкус сыра даже внутри одной цветовой категории, и как важно, чтобы производители обращали внимание на восприятие цвета при маркетинге своих продуктов.

Original size 1986x1387

Коробчатая диаграмма распределения жирности по цвету сыра.

0

Код для коробчатой диаграммы распределения жирности по цвету сыра.

График № 8

Этот график показал, что в сырной индустрии доминируют такие категории, как «кремовые сыры» и «полутвердые сыры». Круговая диаграмма дает представление о распределении сыров по различным семействам. Это позволяет понять, какие семейства преобладают в сырной продукции, что может быть полезным для анализа классификации сыров по типам и традициям производства.

Original size 900x700

Круговая диаграмма распределения сыров по семействам.

0

Код для круговой диаграммы распределения сыров по семействам.

График № 9

Этот столбчатый график отображает 20 крупнейших производителей сыра. Мне стало любопытно кто является основными игроками на рынке сыра, что может быть полезно для анализа трендов в сырной индустрии и выявления ведущих производителей в глобальном контексте.

Original size 1187x587

Топ-20 производителей сыра.

Original size 655x544

Код для топа-20 производителей сыра

Заключение

Этот проект дал мне возможность более глубоко исследовать разнообразие сыров и их характеристики, такие как молоко, жирность и производители. Анализ данных и визуализация графиков позволили мне не только понять особенности распределения сыров по различным критериям, но и сделать выводы о том, как эти параметры взаимосвязаны.

Описание применения генеративной модели

В рамках проекта я использовал Chat-GPT для обработки запросов, связанных с разработкой кода на языке Python.

Анализ сырной индустрии: Разбор данных
3
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more