
датасет
Название: Titanic passengers Источник: публичный датасет библиотеки seaborn (репозиторий на GitHub) Прямая ссылка: https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv
почему эти данные интересны
1.Исторически известная катастрофа, связанная с человеческим фактором. 2.Есть много категориальных и числовых признаков (пол, класс, возраст, стоимость билета и т. д.). 3.Удобно демонстрировать базовые статистические методы и интерпретируемые визуализации.
типы графиков (минимум 4 разных вида)
1. Столбчатая диаграмма (barplot) — общая выживаемость. 2. Составленная (stacked) столбчатая диаграмма — выживаемость по классам. 3. Гистограмма + KDE — распределение возраста по группам выживаемости. 4. Boxplot (ящик с усами) — возраст по полу и классу. 5. Тепловая карта (heatmap) — матрица корреляций числовых признаков.
используемые статистические методы
- Описательная статистика: среднее, медиана, стандартное отклонение (df.describe ()). - Частоты и доли (value_counts, normalize=True) для категориальных признаков. - Группировка и агрегация (groupby + agg, mean как оценка вероятности выживания). - Сводные таблицы (pivot_table). - Корреляция Пирсона для числовых признаков (df.corr ()).
import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns
plt.rcParams['figure.figsize'] = (10, 6) plt.rcParams['axes.titlesize'] = 16 plt.rcParams['axes.labelsize'] = 12 plt.rcParams['xtick.labelsize'] = 10 plt.rcParams['ytick.labelsize'] = 10
def set_custom_style ():
Настройка единого стиля инфографики. Здесь создаём минималистичный «журнальный» стиль: — светлый фон — приглушённая палитра — единый шрифт без засечек
sns.set_theme (style="whitegrid») custom_palette = [«
def load_data ():
Загрузка датасета Titanic из GitHub (seaborn-data). Возвращает DataFrame.
url = «<a rel="noopener" href="https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv" data-target="blank" target="_blank">https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv"</a>
df = pd.read_csv (url)
return df
def preprocess_data (df):
предобработка данных
- Переименование столбцов для удобства (русские названия в отдельных столбцах) — Создание новых признаков (family_size, is_child, age_group) — Обработка пропусков (возраст, класс и т. д. оставляем как есть, но можем фильтровать по необходимости) «»» df = df.copy ()
переименуем некоторые переменные для ясности при визуализации (создадим дубли-столбцы на русском)
df[«Пол»] = df[«sex»].map ({"male»: «Мужчина», «female»: «Женщина"}) df[«Класс»] = df[«class»].map ({"First»: «1 класс», «Second»: «2 класс», «Third»: «3 класс"}) df[«Выжил»] = df[«survived»].map ({0: «Нет», 1: «Да"})
новый признак: размер семьи (чем больше семья, тем потенциально сложнее эвакуация)
df[«family_size»] = df[«sibsp»] + df[«parch»] + 1
новый признак: ребёнок/взрослый (возраст < 16 лет)
df[«is_child»] = np.where (df[«age»] < 16, 1, 0)
группы возраста для более «объясняющего» анализа
bins = [0, 12, 18, 30, 50, 80] labels = [«0-12 (дети)», «13-18 (подростки)», «19-30 (молодые)», «31-50 (взрослые)», «51+ (старшие)»] df[«age_group»] = pd.cut (df[«age»], bins=bins, labels=labels, right=True)
return df
def descriptive_statistics (df):
показ описательной статистики и базовых частот
Это демонстрация использования статистических методов: — describe () для числовых колонок — value_counts () и доли (normalize=True) для категорий «»» print («=== Описательная статистика числовых признаков ===») print (df[[«survived», «pclass», «age», «sibsp», «parch», «fare», «family_size»]].describe (), «\n»)
print («=== Распределение по полу ===»)
print (df[«Пол»].value_counts (), «\n»)
print («=== Распределение по полу (доли) ===»)
print (df[«Пол»].value_counts (normalize=True), «\n»)
print («=== Общий уровень выживаемости (доля выживших) ===»)
survival_rate = df[«survived»].mean ()
print (f"Доля выживших: {survival_rate:.2%}\n»)
print («=== Уровень выживаемости по полу ===»)
print (df.groupby («Пол»)[«survived»].mean ().apply (lambda x: f"{x:.2%}»), «\n»)
print («=== Уровень выживаемости по классам ===»)
print (df.groupby («Класс»)[«survived»].mean ().apply (lambda x: f"{x:.2%}»), «\n»)
print («=== Уровень выживаемости по возрастным группам ===»)
print (
df.groupby («age_group»)[«survived»]
.mean ()
.dropna ()
.apply (lambda x: f"{x:.2%}»)
)
def plot_overall_survival (df):
график 1 (столбчатая диаграмма)
Общий уровень выживаемости на Титанике (количество и доля). Показывает изучающий и объясняющий формат: — понятные подписи — подписи процентов на столбиках
set_custom_style ()
surv_counts = df[«Выжил»].value_counts ().reindex ([«Да», «Нет»])
surv_rate = df[«survived»].mean ()
fig, ax = plt.subplots ()
sns.barplot (x=surv_counts.index, y=surv_counts.values, ax=ax)
ax.set_title («Выживаемость на Титанике (общее распределение)»)
ax.set_xlabel («Выжил»)
ax.set_ylabel («Количество пассажиров»)
# Подпишем значения на столбиках
for i, v in enumerate (surv_counts.values):
ax.text (i, v \+ 5, str (v), ha="center», va="bottom», fontweight="bold»)
# Добавим текстовое пояснение с общим процентом выживаемости
ax.text (
0.5, -0.2,
f"Общая доля выживших: {surv_rate:.1%}»,
transform=ax.transAxes,
ha="center»,
va="center»,
fontsize=12
)
plt.tight_layout ()
plt.savefig («plot1_overall_survival.png», dpi=300)
plt.show ()
def plot_survival_by_class_stacked (df):
график 2 (составленная столбчатая диаграмма)
Выживаемость по классам (1, 2, 3) — stacked bar. Используется сводная таблица (pivot_table) как статистический метод. «»» set_custom_style ()
pivot = pd.crosstab (df[«Класс»], df[«Выжил»], normalize="index») * 100
pivot = pivot[[«Да», «Нет»]] # порядок столбцов
ax = pivot.plot (
kind="bar»,
stacked=True,
figsize=(10, 6),
)
ax.set_title («Выживаемость по классам (в процентах)»)
ax.set_xlabel («Класс»)
ax.set_ylabel («Доля пассажиров, %»)
# Подпишем проценты внутри столбиков
for c in ax.containers:
ax.bar_label (c, fmt="%.1f%%», label_type="center»)
plt.legend (title="Выжил»)
plt.tight_layout ()
plt.savefig («plot2_survival_by_class_stacked.png», dpi=300)
plt.show ()
def plot_age_distribution_by_survival (df):
изучающий формат: средний билет и выживаемость по полу и классу
Комментарий: - Видно, что пассажиры 1 класса платили больше и имели более высокий шанс выживания. - Женщины в среднем выживали чаще мужчин во всех классах.
график 3 (гистограмма + KDE)
Распределение возраста в зависимости от выживания. Используется: — гистограмма (распределение частот) — оценка плотности (KDE) как изучающий метод «»» set_custom_style ()
# Фильтруем строки с известным возрастом
age_df = df.dropna (subset=[«age»])
fig, ax = plt.subplots ()
sns.histplot (
data=age_df,
x="age»,
hue="Выжил»,
element="step»,
kde=True,
stat="density»,
common_norm=False,
ax=ax,
bins=25,
)
ax.set_title («Распределение возраста по статусу выживания»)
ax.set_xlabel («Возраст»)
ax.set_ylabel («Плотность»)
plt.tight_layout ()
plt.savefig («plot3_age_distribution_by_survival.png», dpi=300)
plt.show ()
def plot_box_age_by_class_and_sex (df):
график 4 (boxplot)
Возраст пассажиров по полу и классу. Позволяет изучить распределение (медиана, квартили, выбросы). «»» set_custom_style ()
age_df = df.dropna (subset=[«age»])
fig, ax = plt.subplots ()
sns.boxplot (
data=age_df,
x="Класс»,
y="age»,
hue="Пол»,
ax=ax,
)
ax.set_title («Возраст пассажиров по полу и классу»)
ax.set_xlabel («Класс»)
ax.set_ylabel («Возраст»)
plt.legend (title="Пол»)
plt.tight_layout ()
plt.savefig («plot4_box_age_by_class_and_sex.png», dpi=300)
plt.show ()
def plot_correlation_heatmap (df):
график 5 (тепловая карта корреляций)
Матрица корреляций числовых признаков. Используется коэффициент корреляции Пирсона (corr ()). «»» set_custom_style ()
numeric_cols = [«survived», «pclass», «age», «sibsp», «parch», «fare», «family_size», «is_child»]
corr = df[numeric_cols].corr ()
fig, ax = plt.subplots ()
sns.heatmap (
corr,
annot=True,
fmt=».2f»,
cmap="coolwarm»,
vmin=-1,
vmax=1,
square=True,
ax=ax,
)
ax.set_title («Корреляция числовых признаков (Пирсон)»)
plt.tight_layout ()
plt.savefig («plot5_correlation_heatmap.png», dpi=300)
plt.show ()
def exploring_and_explaining_examples (df):
примеры «изучающего» и «объясняющего» форматa
Изучающий: — Посмотрим, как меняется средняя цена билета и шанс выживания в зависимости от класса и пола.
print («\n=== Изучающий формат: средний билет и выживаемость по полу и классу ===») group_stats = ( df.groupby ([«Пол», «Класс»]) .agg ( mean_fare=(«fare», «mean»), survival_rate=(«survived», «mean»), count=(«survived», «size»), ) .reset_index () )
group_stats[«survival_rate»] = group_stats[«survival_rate»].apply (lambda x: f"{x:.1%}»)
group_stats[«mean_fare»] = group_stats[«mean_fare»].round (2)
print (group_stats.to_string (index=False))
print («\nКомментарий:»)
print (» — Видно, что пассажиры 1 класса платили больше и имели более высокий шанс выживания.»)
print (» — Женщины в среднем выживали чаще мужчин во всех классах.»)
print («\n=== Объясняющий формат: ключевые выводы ===»)
print («1. Общая доля выживших на Титанике около "
f"{df['survived'].mean ():.1%}.»)
print («2. Наибольшая выживаемость наблюдается у женщин и у пассажиров 1 класса.»)
print («3. Размер семьи и факт, что пассажир ребёнок, также связаны с выживаемостью.»)
print («4. Корреляционная матрица показывает, что класс билета и стоимость билета "
«связаны между собой и с вероятностью выживания (через социальный статус).»)
def main (): # 1. Загрузка данных df_raw = load_data ()
# 2. Предобработка данных и создание новых признаков
df = preprocess_data (df_raw)
# 3. Описательная статистика и базовый анализ
descriptive_statistics (df)
# 4. Визуализации (минимум 4 разных вида графиков)
plot_overall_survival (df) # График 1: barplot
plot_survival_by_class_stacked (df) # График 2: stacked bar
plot_age_distribution_by_survival (df) # График 3: histogram \+ KDE
plot_box_age_by_class_and_sex (df) # График 4: boxplot
plot_correlation_heatmap (df) # График 5: heatmap
# 5. Примеры изучающего и объясняющего форматов
exploring_and_explaining_examples (df)
print («\nГотово! Графики также сохранены в файлы:»)
print (» — plot1_overall_survival.png»)
print (» — plot2_survival_by_class_stacked.png»)
print (» — plot3_age_distribution_by_survival.png»)
print (» — plot4_box_age_by_class_and_sex.png»)
print (» — plot5_correlation_heatmap.png»)
if name == «main»: main ()
описательная статистика числовых признаков
/tmp/ipython-input-4227034227.py: 125: FutureWarning: The default of observed=False is deprecated and will be changed to True in a future version of pandas. Pass observed=False to retain current behavior or observed=True to adopt the future default and silence this warning. df.groupby («age_group»)[«survived»]
объясняющий формат: ключевые выводы
1. Общая доля выживших на Титанике около 38,4%. 2. Наибольшая выживаемость наблюдается у женщин и у пассажиров 1 класса. 3. Размер семьи и факт, что пассажир ребёнок, также связаны с выживаемостью. 4. Корреляционная матрица показывает, что класс билета и стоимость билета связаны между собой и с вероятностью выживания (через социальный статус).
В рамках проекта применялась генеративная модель ChatGPT (OpenAI) для помощи в структурировании проекта, формулировке аналитических выводов и оптимизации визуального оформления графиков. ИИ использовался как вспомогательный инструмент и не заменял самостоятельный анализ данных.