
Почему вино? Я люблю красное вино, и поэтому мне интересно проанализировать именно эти данные
Что сначала делаем? Считываем данные и ознакамливаемся с распределением/аномалиями
Для чего мы все это делаем? Хочу понять, от каких физико-химических признаков зависит качество вина, чтобы приходя в магазин и смотря на этикетку очередного зелья, выбрать самую крутую бутылочку для счастливого и вкусного вечера под какой-нибудь сериальчик.
Как стилизованы графики? Я анализирую именно красные вина, поэтому во всех графиках присутствуют бордово-красные оттенки



В наборе данных 1599 объектов и 12 признаков. Описание каждого признака:
Fixed acidity: Фиксированная кислотность Большинство кислот, присутствующих в вине, являются фиксированными или неволатильными (не испаряются легко). Volatile acidity: Летучая кислотность Количество уксусной кислоты в вине, которая при слишком высоких уровнях может привести к неприятному вкусу уксуса. Citric acid: Лимонная кислота Находится в небольших количествах, может добавлять «свежесть» и аромат в вина. Residual sugar: Остаточный сахар Количество сахара, оставшегося после окончания ферментации; редко встречаются вина с менее чем 1 граммом/литром, а вина с более чем 45 граммами/литром считаются сладкими. Chlorides: Хлориды Количество соли в вине. Free sulfur dioxide: Свободный диоксид серы Свободная форма SO2 находится в равновесии между молекулярным SO2 (в виде растворенного газа) и ионом бисульфита; предотвращает размножение микроорганизмов и окисление вина.
Total sulfur dioxide: Общий диоксид серы Количество свободной и связанной формы SO2; при низких концентрациях SO2 в вине практически не обнаруживается, но при концентрациях свободного SO2 свыше 50 ppm, SO2 становится заметным по запаху и вкусу вина. Density: Плотность Плотность воды близка к плотности вина, в зависимости от содержания процента алкоголя и сахара. pH: Уровень pH Описывает кислотность или щелочность вина на шкале от 0 (очень кислотное) до 14 (очень щелочное); большинство вин находятся в диапазоне 3-4 на шкале pH. Sulphates: Сульфаты Добавка к вину, которая может способствовать уровню диоксида серы (SO2), который действует как антимикробное и антиоксидантное вещество. Alcohol: Алкоголь процентное содержание алкоголя в вине. Quality: Качество выходная переменная (на основе сенсорных данных, оценка от 0 до 10).
Коэффициент корреляции
Может можно понять что от чего зависит сразу же? Конечно да! Так как все характеристики числовые можно посмотреть на зависимости между их значениями. Можно очень просто отследить линейную зависимость (пример: чем больше содержание алкоголя тем больше содержание сульфатов). Это называется корелляция.
Между какими признаками наблюдается линейная зависимость (корреляция)?
Для вычисления коэффициента корреляции между каждой парой признаков можно воспользоваться функцией corr () в pandas. Результатом будет матрица корреляций, в которой каждый элемент показывает коэффициент корреляции между соответствующими признаками. Можно визуализировать матрицу корреляций в виде тепловой карты с помощью библиотеки seaborn.
Таким образом, делаем следующие выводы:
1. Сильные линейные зависимости отсутствуют. 2. Между (fixed acidity и pH) (volatile acidity и citric acid) (volatile acidity и quality) (citric acid и pH) (density и pH) (density и alcohol) имеются слабые отрицательные линейные зависимости. 3. Между (fixed acidity и citric acid) (fixed acidity и density) (сitric acid и density) (сitric acid и sulphates) (residual sugar и density) (chlorides и sulphates) (free sulfur dioxide и total sulfur dioxide) (alcohol и quality) имеются слабые положительные линейные зависимости. 4. Между остальными парами признаков линейные зависимости отсутствуют.
Анализ признаков
Приступаем к более детальному анализу. Пройдемся по каждому признаку. Хочется понять, как он распределен по данным (нагляднее всего с помощью гистограммы распределения). Я сделала ее стакающейся, чтобы можно было наглядно отследить количество вин разного качества для каждого значения признака.
Справа так же представлен другой взгляд на те же самые распределения в виде точечного графика, более детально отращающий различные вариации качества вина в зависимости от значения признака. По нему можно попытаться отследить линейную зависимость качества (значение коэффициента которой приводилось в тепловой карте выше). Она поможет для формирования выводов.
Распределение веществ в вине
Изучив различные варианты графиков библиотеки pyplot, я увидела тот, который наглядно покажет вина разного качества со стороны их состава. Это круговые диаграммы? Но как же быть, если вин разного качества у нас так много. Все просто. Группируем все вина по качеству. На итоговых диаграммах порцентное содержание каждого признака будет усреднено, что покажет нам эталенный состав (написанный на этикетке) вина качества 3, 4, 5…
Так как содержание некоторых веществ в винах может быть кране малым, я решила вынести признаки на расстояние при помощи метода параметра explode.
Анализ зависимости между признаками
Для получения более значимых результатов я прибегну к методу анализа данных, который изучила с помощью хендбука яндекса по машинному обучению — линейная регрессия. На основе линейной зависимости (о которой я писала выше) она помогает провести линию регрессии, отражающую зависимость одного признака (в нашем случае качества) от другого. Оценить вклад каждого признака при помощи регрессии очень просто. Достаточно посмотреть на метрики, которые я привела в таблице.
При этом строить саму линию регрессии я посчитала нецелесеобразным, так как каку-либо информацию, кроме того, является ли зависимость восходящей или нисходящей (это мы уже знаем из матрицы корелляций), эта линия нам не даст. Гораздо лучше будет построить ящики с усиками для каждого признака. Это не только поможет скомпановать данные и более четко увидеть в них регрессионную теденцию, но и покажет количество выбросов в них, что поможет в оценке каждого признака на объективность (в дополнении к метрикам линейной регрессии)
Сформирую выводы о каждой компоненте и ее влиянии на качество вина, основываясь на представленных графиках/таблицах:
alcohol — по данным гитограммы видно, что вина низкой крепости преобладают над крепкими в наборе данных. Ящики с усиками показывают заметное число выбросов в 5ой и 6ой категориях. Это значит, что не все крепкие вина можно отнести к премиальным. Крепкие вина редки, а их качество оценено высоко. На это указывает положительный коэффициент признака alcohol и восходящая зависимость на графике ящиков с усиками. Доверительный интервал не включает 0, что говорит о значимости этого признака. Таким образом, между признаком alcohol и качеством вина имеется сильная восходящая зависимость.
sulphates — по данным гитограммы видно, что вина с низким содержанием сульфатов преобладают над винами с высоким содержанием сульфатов в наборе данных. В каждом классе заметны большие количества выбросов, однако в классах 7 и 8 их не так много. Это указывает на то, что в винах не премиального качества эта добавка может встречаться случайным образом и не влиять на оценку. Вина с этой добавкой (когда она добавлена намеренно и в правильной пропорции) редки, а их качество оценено высоко. На это указывает положительный коэффициент признака sulphates и восходящая зависимость на графике ящиков с усиками. Доверительный интервал не включает 0, что говорит о значимости этого признака. Таким образом, между признаком sulphates и качеством вина имеется сильная восходящая зависимость.
volatile acidity — по данным гитограммы видно относительно нормальное распределение вин с различным содержанием летучих кислот. В каждом классе заметны небольшие количества выбросов, однако все они расположены плотно и все еще могут указывать на пренадлежность к какому-либо классу (кроме аномально высоких значений, которые не поддаются объяснению). Вина с высоким содержанием летучих кислот имеют неприятный запах, из- за чего их оценка не может быть высокой. На это также указывает отрицательный коэффициент признака volatile acidity и нисходящая зависимость на графике ящиков с усиками. Доверительный интервал не включает 0, что говорит о значимости этого признака. Таким образом, между признаком volatile acidity и качеством вина имеется сильная нисходящая зависимость.
density — по данным гитограммы видно нормальное распределение вин с различной плотности. Это объясняет наличие плотных выбросов у ящиков с усиками (в виду большого количества данных в каждом классе). Премиальные вина почти не имеют выбросов по плотности. Вина с высокой плотностью более вязкие и тяжелые, в больших количествах их употребеление затруднительно, из-за чего их оценка может быть невысокой. На это также указывает отрицательный коэффициент признака density и нисходящая зависимость на графике ящиков с усиками. Доверительный интервал не включает 0, что говорит о значимости этого признака. Таким образом, между признаком density и качеством вина имеется заметная нисходящая зависимость.
citric acid — по данным гитограммы видно, что вина, в которых не содержится лимонная кислота, и вина с низким ее содержанием сильно преобладают над винами с высоким содержанием лимонной кислоты. Классы практически не содержат выбросов. Вина с этой добавкой обладают пикантностью и душистостью. Те вина, в которые эта добавка была добавлена привильно (так, чтобы в итоге вкусы ощущались в резонансе) редки, а их качество оценено высоко. На это указывает положительный коэффициент признака citric acid и восходящая зависимость на графике ящиков с усиками. Доверительный интервал не включает 0, что говорит о значимости этого признака. Таким образом, между признаком citric acid и качеством вина имеется заметная восходящая зависимость.
total sulfur dioxide — по данным гитограммы видно, что вин с низким содержанием общего диоксида серы в наборе данных больше всего. Это объясняет наличие выбросов у ящиков с усиками, ведь все высокие значения этого показателя считаются аномальными. Этот компонент вина предотвращает развитие бактерий и окисление, однако может негативно сказываться на вкусе и в итоге терять баллы оценки. На это также указывает отрицательный коэффициент признака total sulfur dioxide и слабо заметная нисходящая зависимость на графике ящиков с усиками. Доверительный интервал не включает 0, что говорит о значимости этого признака. Таким образом, между признаком total sulfur dioxide и качеством вина имеется слабая нисходящая зависимость.
fixed acidity — по данным гитограммы видно, что вина, в которых фиксированные кислоты содержатся в малом или среднем количестве, преобладают над винами с высоким содержанием этого компонента. Все классы кроме крайних содержат выбросы, а больше всего их у оценки 5. По данным графика тяжело определить восходящю зависимость, на которую указывает положительный коэффициент признака и доверительный интервал, не включающий 0, ведь P-значение относительно низкое. Действительно, кислые вина тяжело разбивать на классы в виду того, что они могут быть кислыми по разным причинам. Точно можно сказать, что лучшие вина содержат умеренное количество кислоты, которе идет на пользу вкусу и не затмевает сладость и аромат винограда. Исходя из всего вышеперечисленного 49 можно заключить, что между признаком fixed acidity и качеством вина имеется слабая восходящая зависимость.
chlorides — по данным гитограммы видно, что подавляющую часть составляют вина с низким содержанием солей. Другое количество соли расценивается как аномальное и приводит к выбросам почти во всех классах. Действительно тяжело найти соленое вино. По данным графиков очень тяжело отследить какую-либо зависимость, на которую указывает отрицательный коэффициент. Доверительный интервал компоненты chlorides включает 0, а его P-значение высоко. Таким образом, между признаком chlorides и качеством вина отсутствует зависимость, и он не влияет на конечную оценку.
residual sugar — по данным гитограммы видно, что подавляющую часть составляют вина с низким содержанием остаточного сахара. Это показывает, что в выборке принимали участие в основном сухие и полусухие вина. Такое высокое количество схожих вин привело к выбросам во всех классах. По данным графиков очень тяжело отследить какую-либо зависимость, на которую указывает положительный коэффициент. Доверительный интервал компоненты residual sugar включает 0, а его P-значение очень высоко. Таким образом, между признаком residual sugar и качеством вина отсутствует зависимость, и он не влияет на конечную оценку для данного набора.
free sulfur dioxide — по данным гитограммы видно, что подавляющую часть составляют вина с низким содержанием свободного диоксида серы. Такое высокое количество схожих вин привело к выбросам во всех классах. По данным графиков очень тяжело отследить какую-либо зависимость, на которую указывает отрицательный коэффициент. Доверительный интервал компоненты free sulfur dioxide включает 0, а его P-значение очень высоко. Таким образом, между признаком free sulfur dioxide и качеством вина отсутствует зависимость, и он не влияет на конечную оценку для данного набора.
pH — по данным гитограммы видно хорошее распределение вин, все вина набора в основном более кислотные. Почти в каждом классе присутствуют плотные выбросы в малых количествах. По данным графиков очень тяжело отследить какую-либо зависимость, на которую указывает отрицательный коэффициент, ведь значения признака почти одинаковые в каждом классе. Доверительный интервал компоненты pH включает 0, а его P-значение очень высоко. Таким образом, между признаком pH и качеством вина отсутствует зависимость, и он не влияет на конечную оценку для данного набора.
Заключение
К винам премиум классов можно отнести крепкие вина, с высоким содержанием сульфатов и низким содержанием летучих кислот. На принадлежность к премиальным винам также указывает низкая плотность вина и повышенное содержание лимонной кислоты в нем. Последние признаки, определяющие принодлежность экземпляра к винам премиум класса, это общее содержание диоксида серы (должно быть на низком уровне) и фиксированная кислотность (должна быть на высоком уровне).