Original size 768x1152

Анализ данных сыров по их различным характеристикам

PROTECT STATUS: not protected

Концепция

Недавно мне попалась новостная статья о том, что американская активистка и студентка юридического факультета Адела Кохаб была вынуждена пройти лечение в соответствующем учреждении из-за своей сырной зависимости. Девушка сильно поправилась от этого продукта и была буквально одержима им, поэтому ей пришлось отдать немалую сумму на оздоровительный курс в Южной Каролине.

Признаться честно, я тоже безумно люблю сыр. Закупиться разными его видами, мёдом и ещё всяким разным, с чем он сочетается — это просто невероятно. Помимо этого, блюда, в которых содержится сыр — почти с наибольшей вероятностью то, что будет безмерно вкусным… В общем, как можно понять из вышенаписанного, я тоже одержима сыром.

Именно поэтому я решила поискать базу данных о разных видах сыра, о странах их происхождения, о том, какое молоко используется для изготовления, и т. д. Выбор подобного направления поиска связан не только с моей безграничной любовью к сыру, но и с желанием узнать для себя что-нибудь новое и, возможно, неочевидное об этом продукте, разобраться, в какой стране стоит брать тот или иной его вид.

Итак, после просмотренного курса о программировании в креативных индустриях я узнала о полезном ресурсе kaggle, в котором хранятся работы специалистов по Data Science. По поисковому слову «cheese» мне выпала база данных 2024 года о сырах (Global Cheese Dataset), их сортах, происхождении и характеристиках.

Использованные графики:

(01) /Столбчатая и точечная диаграммы/. (02) /Линейный график/. (03) /Столбчатая диаграмма/. (04) /Столбчатая диаграмма/. (05) /Круговая диаграмма/.

О каждом из них более подробно ниже в разделе «Процесс работы».

Процесс работы

В начале работы я импортировала в среде программирования Google Collab несколько библиотек Python, которые часто используются для анализа данных и визуализации.

Ниже показано импортирование трёх библиотек: pandas (предоставляет структуру данных DataFrame, которая является таблицей с индексами, строками и столбцами, аналогично таблице в Excel), matplotlib (предоставляет инструменты для создания различных типов графиков и визуализаций) и seaborn (библиотека, построенная на основе matplotlib и обеспечивающая более эстетичный и интуитивно понятный способ создания графиков статистических данных). Для этих библиотек задаются специальные сокращения, чтобы в дальнейшем код был удобнее и не нужно было писать полное их название. Следующим шагом является загрузка базы данных из CSV-файла, чтобы на её основе программа рисовала графики, используя параметры, которые в дальнейшем будут заданы.

Original size 1280x141

01 // Столбчатая диаграмма //

Показывает количество сортов сыра в определённых странах происхождения. По оси Х названия стран было решено визуализировать под углом 90 градусов, так как данных много и нужно всё уместить.

Original size 1280x747
Original size 1280x155

Далее я решила попробовать на основе этих же данных создать точечную диаграмму. Для этого я просто поменяла название графика в коде (с bar plot на scatter plot). Вероятно, из-за большого количества данных по странам, столбики в первой диаграмме плохо видны из0за того, что, например в той или иной стране не распространено много видов сыра, а точки, получевшиеся во втором варианте, более заметны в данном случае.

Original size 1280x855

02 // Линейный график //

В этом графике анализируется небольшое количество данных о соотношении количества видов сыров с видами молока, из которых они изготавливаются. Почему ограниченное количество данных? Потому что возникла мысль о том, чтобы взять наиболее популярные виды молока и посмотреть среди них, из каких именно изготавливается наибольшее количество сыров. Подобный график иллюстрирует разнообразие видов, которое можно изготовить из того или иного молока.

Original size 1280x983
Original size 1280x125

03 // Столбчатая диаграмма //

Эта визуализации о соотношении сыров с разными типами корки. Показывает, сколько сыров имеет тот или иной вид корки. На столбцах чётко прослеживается, какая корка наиболее часто существующая среди большого количества сыров. Названия корки по оси X расположены диагонально, чтобы их было легче считывать и нижнее поле не выглядело перегруженным.

Original size 1280x917
Original size 1280x151

04 // Столбчатая диаграмма //.

Показывает соотношение видов сыров с разными их цветами. В данном случае берётся три наиболее популярных цвета по оси Х, столбцы получаются довольно широкие, поэтому название цветов ставить как-то иначе, под другим углом и т. д., смысла нет.

Original size 1280x969
Original size 1280x140

05 // Круговая диаграмма //.

Подобная визуализация наглядно показывает, насколько популярен тот или иной аспект. Это удобно представлять в виде «кусочков» круга, так лучше видно процентное соотношение. В данном случае диаграмма визуализирует топ-5 самых распространённых вкусов у сыров среди разных сран.

Original size 1102x902
Original size 1280x98

Генерация обложки

Для создания обложки я воспользовалась нейросетью Ideogram. В промпте (см. ниже) задала нужные характеристики и формат изображения.

Промпт: «Create a contrasting realistic image of a composition of different types of cheeses. Make a studio light and the image size is 1140 by 1600 pixels»

Заключение

Анализ данных и их визуализация позволяют нам проще и понятнее воспринимать тот или иной массив данных, делают его нагляднее. Таким образом, в этом проекте я старалась по-разному предсавить информацию, взятую из базы данных о сырах, делая акценты на разных характеристиках, по которым можно рассмотреть сыры.

Анализ данных сыров по их различным характеристикам
Project created at 25.09.2024
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more