
Вступление
Для анализа я выбрала данные с сайте Kaggle. Этот датасет содержит информацию о шоколадных продуктах, включая такие переменные, как процент содержания какао, рейтинг, страна-производитель и цена.
Эти данные было интересно проанализировать по нескольким причинам. Во-первых, шоколад всеми любимая сладость, и многие потребители стремятся понимать, какие факторы влияют на его качество и восприятие. Во-вторых, можно отследить зависимость между процентом содержания какао и рейтингом шоколада, это полезно, так как возрастает интерес к более качественному и натуральному шоколаду.
Для визуализации я выбрала следующие виды графиков: круговая диаграмма, линейный график и два столбчатых.
Столбчатый график — помогает наиболее лучшим образом увидеть разницу между количеством шоколадных компаний и странами. Наглядно видно какие страны какую позицию занимают, а также проследить разницу в преимуществе.
Круговая диаграмма — лучше всего передает соотношение частей к целому. В моем примере этот график отражает какую долю занимает каждая страна-производитель в общем объеме шоколада. Также она дает возможность быстро охватить информацию и понять лидеров рынка.
Линейный график — наиболее эффективно показывает взаимосвязь между двумя количественными переменными. Этот тип графика отлично мне подошел, так как можно просмотреть корреляцию между рейтингом и процентом какао.
Второй столбчатый график — я использовала второй раз такой тип графика, поскольку он интуитивно понятен. Чем выше столбец, тем выше значение, и наоборот.
Подготовка
Первым шагом была загрузка данных из scv файла. Была использована библиотека pandas, в которой удобно работать с таблицами.
Далее проводилась очистка имён столбцов для устранения лишних пробелов и символов и было изменено название некоторых столбцов.


Анализ данных
Для анализа данных были использованы столбцы Rating и Company Location, по моему мнению они представляют наибольший интерес.
Визуализация данных
Далее переходим к визуализации данных и создаем графики. Первый это горизонтальный столбчатый график, который отображает 10 стран с наибольшим количеством компаний.


Затем отфильтровываем данные по оценкам и создаем круговую диаграмму для визуализации стран, которые производят наиболее высоко оцененные шоколадные изделия.
Также создаем столбчатую диаграмму, которая показывает распределение стран-выращивателей лучших какао-бобов, исключая те, которые составляют менее 1% от общего количества.
Затем рассмотрим, как процент содержания какао влияет на рейтинг шоколада. Это отчетливо прослеживается на графике с линейной регрессией.


Референс


цвета для графика
Как источник вдохновения я использовала цвета, которые ассоциируются с шоколадом, а графики выполнены в минималистичном стиле, без ярких цветов, так как хотелось сделать акцент на информации, при этом цвета графика я заменила на те, что ассоциируются с темой, а также заменен шрифт, который выделяет заголовки и делает их более акцентными.
Итог
Исходя из всех визуализаций представленных выше, можно сделать вывод о том, что существует тенденция к высоким стандартам качества в индустрии шоколада, на это влияет содержание какао в шоколаде, а также происхождение какао-бобов.
Также результаты проведенного анализа демонстрируют статистические особенности рынка шоколада.
Использование нейросетей
Я использовала chatgpt для решения технических проблем, которые возникали при написании кода, например, исправление ошибок.
Также был использован LeonardoAI для создания обложки
Ссылки на модели: https://chatgpt.com/ https://leonardo.ai/
Промпт: create a cover similar to this picture in brown colors with (использовалась фотография как пример, и на ее основе сгенерирована обложка)
Датасет и блокнот