Original size 1140x1600

Популярные сорта вин по регионам Франции

PROTECT STATUS: not protected

Введение

В этом проекте мы анализируем данные о популярных сортах вин Франции по регионам и годам. Цель — понять, какие сорта наиболее распространены, какие регионы производят больше всего вина, а также визуализировать эту информацию в удобной и наглядной форме.

Данные были взяты из открытых источников и представлены в виде CSV-файла с колонками: Region, Wine Variety, Production Volume, Year.

Проект интересен тем, что позволяет соединить культуру Франции, её традиции виноделия и современные методы анализа данных.

Этапы работы

1. Загрузка и подготовка данных Данные загружены в Python с помощью библиотеки Pandas. Были убраны пустые строки и переименованы колонки для удобства анализа.

import pandas as pd df = pd.read_csv («french_wine.csv») df = df.dropna () df.rename (columns={'Wine Variety': 'Variety', 'Production Volume': 'Volume'}, inplace=True)

Анализ данных

Топ-10 сортов вин по объёму производства. Производство по регионам — суммарный объём. Динамика производства по годам — как менялись объёмы для разных сортов.

top_varieties = df.groupby ('Variety')['Volume'].sum ().sort_values (ascending=False).head (10) region_volume = df.groupby ('Region')['Volume'].sum ().sort_values (ascending=False) yearly_trends = df.groupby (['Year', 'Variety'])['Volume'].sum ().unstack ()

Визуализация данных

Для визуализации использовались графики с библиотекой Matplotlib:

1. Гистограмма топ-10 сортов вин

top_varieties.plot (kind='bar', color='orange', title="Топ-10 популярных сортов вин Франции»)

Original size 1600x1000

2. Круговая диаграмма по регионам

region_volume.plot (kind='pie', autopct='%1.1f%%', title="Доля регионов по объёму производства»)

Original size 1200x1200

3. Линейный график динамики производства по годам

for variety in top_varieties.index: plt.plot (yearly_trends.index, yearly_trends[variety], label=variety)

Original size 2000x1000

4. Scatter plot — объём производства по регионам и сортам

plt.scatter (df['Region'], df['Volume'], c='green', alpha=0.6)

Original size 1600x1000

5. Boxplot — сравнение объёмов по регионам

df.boxplot (column='Volume', by='Region', grid=False)

Original size 2000x1200

Стилизация графиков

• Единый стиль: читаемый и простой.

• Цвета: оранжевый для гистограммы, зелёный для scatter, остальные графики стандартные.

• Подписи и легенды присутствуют на всех графиках.

• Вдохновение: Visual Capitalist — простые, наглядные инфографики.

Итоги

• Наибольший объём производства сосредоточен в регионах Bordeaux и Burgundy.

• Самые популярные сорта: Merlot, Cabernet Sauvignon, Pinot Noir, Chardonnay.

• Динамика по годам показывает стабильность популярных сортов и небольшие колебания в объёмах.

• Визуализация позволяет быстро оценить распределение производства по регионам и сортам, что удобно для дальнейшего анализа.

Датасет и блокнот

Датасет: french_wine.csv — скачать CSV

Популярные сорта вин по регионам Франции
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more