
Вводная часть / Описание
В своем проекте я решила проанализировать статистику игроков Премьер-лиги по футболу за все время. Именно эти данные я выбрала по двум причинам: первое — мне хотелось проанализировать что-либо, связанное со спортом. Второе — подобный анализ позволяет выявить некоторые закономерности в мире футбола, что может быть полезным, например, при попытке предугадать и составить прогнозы на исход новой игры, изменения в составе команд и т. д.
Подобные данные я нашла на сайте Kaggle — платформе, предназначенной для всех интересующихся Data Science.
В своей работе я сделала следующие виды графиков: столбчатые диаграммы, круговые диаграммы и точечные диаграммы. При выборе типа диаграммы я в первую очередь обращала внимание на то, насколько релевантен подобный тип диаграммы анализируемому типу данных, и насколько понятным и наглядным в результате получится отображение.
Этапы работы
Проект включал в себя следующие этапы: для начала я выбрала, какой набор данных хочу проанализировать и по каким критериям, далее, соответственно, шел сам анализ и итоговая визуализация.
Нейросети в своем проекте я не использовала.
В проекте использованы следующие цвета (представлены ниже с кодовыми значениями), и шрифт Ysabeau.

Обработка данных и итоговые графики
plt.figure (figsize=(10, 6)) sns.barplot (data=df, x="Club», y="Wins», hue="Position») plt.xticks (rotation=90) plt.title («Кол-во побед у клуба с позициями игроков») plt.xlabel («Клуб») plt.ylabel («Кол-во побед») l = plt.legend () for text in l.get_texts (): text.set_color («white») plt.show ()
top_pos = df['Position'].value_counts ()
plt.figure (figsize=(10, 6)) plt.pie (top_pos, labels=top_pos.index, colors=palette, autopct='%1.1f%%', wedgeprops={"width»: 0.7}) plt.title («Доля игроков по позициям») plt.show ()
plt.figure (figsize=(10, 6)) sns.scatterplot (data=df, x="Wins», y="Losses», hue="Club») plt.title («Зависимость кол-ва побед от кол-ва поражений») plt.xlabel («Кол-во побед») plt.ylabel («Кол-во поражений») plt.legend (loc='upper left', bbox_to_anchor=(1, 1)) plt.show ()
top_10_clubs = df['Club'].value_counts ().head (10)
plt.figure (figsize=(10, 6)) sns.barplot (y=top_10_clubs.index, x=top_10_clubs.values, palette=palette) plt.title («Топ 10 клубов по кол-ву игроков») plt.ylabel («Клуб») plt.xlabel («Кол-во игроков») plt.show ()
top_1o_club_goals = df.groupby ('Club')['Goals'].sum ().nlargest (10) top_1o_club_goals
plt.figure (figsize=(10, 6)) sns.barplot (x=top_1o_club_goals.index, y=top_1o_club_goals.values, palette=palette) plt.title («Топ 10 клубов по кол-ву голов») plt.ylabel («Клуб») plt.xlabel («Кол-во голов»)
for i, val in enumerate (top_1o_club_goals.values): plt.text (i, val, str (val), ha='center', va='bottom')
plt.show ()
Ссылки