Original size 800x1200

Анализ датасета FruitFusion

PROTECT STATUS: not protected
The project is taking part in the competition

Вводная часть

Для анализа я выбрала датасет FruitFusion на сайте Kaggle. Он представляет собой набор данных, содержащий пищевые и физические характеристики различных фруктов. Данные включают такие параметры, как содержание сахара, калорий, воды и другие измеряемые признаки для каждого фрукта.

Меня привлек этот датасет по двум причинам: 1). Он компактный, но довольно насыщенный информацией: всего 38 видов фруктов, но по каждому представлено несколько характеристик — это удобно для визуализации и глубокого анализа. 2). Я увлекаюсь темой здорового питания и, на мой взгляд, не только мне, но и другим людям со здоровым образом жизни интересны данные о том, какие фрукты наиболее питательны, какие содержат больше сахара или воды, чтобы делать правильный выбор в магазине.

Хочу подчеркнуть, что датасет хорошо подходит для сравнения разных питательных характеристик и сезонности фруктов.

В ходе анализа я буду применять следующие виды графиков: 1). Столбчатая диаграмма (показывает ранжирование фруктов по одному из показателей) 2). Точечная диаграмма (используется для анализа связи между двумя признаками, например между содержанием сахара и калорий) 3). Гистограмма (показывает распределение одного показателя по всем фруктам). 4). Круговая диаграмма (показывает доли категорий в общем объёме данных, например распределение фруктов по сезонам).

Этапы работы

(01) Работа с библиотекой

На первом этапе данные были загружены в Google Colab из CSV-файла датасета FruitFusion, размещённого на платформе Kaggle. Для анализа использовалась библиотека Pandas, которая позволяет удобно работать с табличными данными.

Коды для загрузки файла с датасетом и входа в библиотеку

Далее я проверила данные на наличие пропусков. Проверка показала, что в числовых признаках пропусков не обнаружено. В категориальном признаке season встречались отсутствующие значения, которые были заменены на «Не указано» для корректной визуализации.

big
Original size 628x297

Код для выявления пропусков в датасете

(02) Выбор цветовой палитры и шрифта

Визуальный стиль вдохновлён натуральной цветовой палитрой фруктов: зелёные оттенки (яблоко, груша), жёлто-оранжевые (банан, цитрусовые), красные (вишня), фиолетовые (слива).

С помощью Adobe Color я собрала цветовую палитру, загрузив туда фотографии фруктов и выбрав наиболее красивые и сочетающиеся оттенки.

0

Выявление необходимых цветов в Adobe Color

Original size 968x559

Итоговая палитра для графиков

Шрифт Montserrat выбран для визуализации данных. Это современный гротеск, который легко читается, что очень важно для графиков.

Шрифт применён в настройках matplotlib, чтобы все графики были в едином стиле.

(03) Построение графиков

Итак, первый график: столбчатая диаграмма. Она позволяет выявить топ-10 фруктов по содержанию сахара и сразу определить наиболее сладкие.

В графике лидеры будут выделены цветом для наглядности.

Original size 707x1082

Код для столбчатой диаграммы

Original size 1505x841

Столбчатая диаграмма: топ-10 фруктов по содержанию сахара

В графике сразу отражен изучающий и объясняющий формат визуализации данных. Читатель с легкостью понимает, что:

1). Лидеры значительно превышают медианное значение по датасету, в то время как большинство фруктов имеет умеренную сладость. 2). В тройку лидеров вошли финик (Date), джекфрут (Jackfruit) и инжир (Fig) (видно благодаря красным, желтым и зеленым цветам) 3). Абсолютным лидером по содержанию сахара является финик (Date) — 66.0 г/100 г. 4). Медианное значение по всем фруктам составляет 9.5 г/100 г, что позволяет сравнить лидеров со средним уровнем сладости.

Переходим ко второму графику: точечная диаграмма. Она была использована для анализа связи между содержанием сахара и калорийностью фруктов: каждая точка соответствует отдельному фрукту, а линия тренда и коэффициент корреляции Пирсона позволяют оценить характер и силу зависимости.

Original size 692x1056

Код для точечной диаграммы

Для точечной диаграммы был выбран единый цвет точек, чтобы не перегружать визуализацию, а линия тренда выделена контрастным цветом для акцента на общей зависимости.

Original size 1034x503

Точечная диаграмма: связь содержания сахара и калорийности фруктов

В этом графике тоже отражен изучающий и объясняющий формат визуализации данных. Читатель сразу понимает, что: 1). Между содержанием сахара и калорийностью фруктов наблюдается положительная связь (коэффициент корреляции Пирсона со знаком плюс). В целом, с увеличением количества сахара возрастает и калорийность фрукта. 2). Единичный разброс значений указывает на то, что калорийность определяется не только количеством сахара. В данных присутствуют отдельные отклоняющиеся значения.

Следующий график: гистограмма, которая показывает распределение калорийности фруктов. Она позволяет понять, какие уровни калорийности встречаются чаще всего, а также увидеть, где находятся крайние значения.

Столбец с наименее калорийными значениями выделен цветом, что позволяет визуально отделить фрукты с минимальной энергетической ценностью от основной массы данных.

0

Код для гистограммы (один код на двух слайдах)

Original size 829x377

Гистограмма: распределение калорийности фруктов

Глядя на данный график, читатель осознает, что: 1). Большинство фруктов имеет умеренную калорийность. Основная часть значений сосредоточена в центральных столбцах распределения. 2). Минимальная калорийность в датасете составляет 40 ккал на 100 г, этот диапазон выделен цветом

Итак, последним графиком будет круговая диаграмма. Она демонстрирует, как все фрукты делятся на части по одному категориальному признаку — сезону. Каждый сектор круга — это: одна категория сезона (весна, лето, осень, зима, круглый год).

Хочу отметить, что ранее было представлено четыре оттенка для визуализации данных, однако из-за того, что в датасете представлено 5 характеристик для анализа, пришлось ввести дополнительный цвет: #A6658F

0

Код для круговой диаграммы (один код на двух слайдах)

Original size 1129x719

Круговая диаграмма: распределение фруктов по сезонам

График показывает, что: 1). Самым распространенным сезоном для фруктов является лето 2). Датасет включает разнообразие сезонных характеристик. В данных представлены фрукты как с ограниченной сезонностью, так и с постоянной доступностью. 3). Фрукты распределены по сезонам неравномерно. Одни сезоны представлены заметно большей долей, чем другие.

Используемые статистические методы

Хочу обобщить все статистические методы, которые были использованы мной в анализе.

1). Описательная статистика. Медиана использовалась для сравнения типичных значений с экстремальными.

2). Ранжирование данных. Сортировка позволила выявить фрукты-лидеры по содержанию сахара.

3). Корреляционный анализ (коэффициент Пирсона). Оценка силы и направления связи между содержанием сахара и калорийностью.

4). Линейная регрессия. Линия тренда использовалась для визуализации общей зависимости между признаками.

5). Анализ распределения. Гистограмма позволила оценить распределение калорийности по всему датасету.

6). Анализ категориальных данных. Круговая диаграмма использовалась для оценки распределения фруктов по сезонам.

Выводы

Проведённый анализ показал, что датасет FruitFusion обладает разнообразной структурой, что делает его удобным для изучения как количественных, так и категориальных характеристик фруктов. Использование разных типов визуализаций позволило рассмотреть данные с нескольких точек зрения и получить комплексное представление о наборе данных.

В целом, сочетание разных типов графиков и единого визуального стиля позволило не только проанализировать данные, но и представить результаты в наглядном, изучающем и объясняющем формате, делая выводы понятными для широкой аудитории.

Еще раз подытожу, что мы узнали из графиков выше.

Анализ содержания сахара выявил наличие ярко выраженных лидеров, значительно превышающих медианные значения по датасету, в то время как большинство фруктов характеризуется умеренным уровнем сладости. Это указывает на неоднородность распределения сахара среди фруктов.

Точечная диаграмма показала умеренную положительную связь между содержанием сахара и калорийностью, при этом разброс значений подтвердил, что, оказывается, калорийность определяется не только сахаром, но и другими характеристиками фруктов.

Гистограмма калорийности позволила оценить общее распределение энергетической ценности фруктов и выявить диапазон наименее калорийных значений, визуально отделённый от основной массы данных. Такой подход помогает перейти от анализа отдельных объектов к пониманию структуры всего датасета в целом.

Круговая диаграмма хорошо дополнила анализ, показав распределение фруктов по сезонам и продемонстрировав, что датасет включает как сезонные, так и круглогодичные фрукты, при этом сезоны представлены довольно неравномерно.

Описание применения генеративной модели

Chat GPT 5.2: помощь в доработке кода и генерирование обложки Ссылка: https://openai.com/index/introducing-gpt-5-2/ Recraft: помощь в генерировании обложки Ссылка: https://www.recraft.ai/ Adobe Color: создание палитры для визуализации данных Ссылка: https://color.adobe.com/ru/create/image

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more