Original size 468x630

Анализ данных: выживаемость пассажиров «Титаника»

PROTECT STATUS: not protected

КОНЦЕПЦИЯ

Катастрофа «Титаника» — одно из самых известных исторических событий XX века, которое наглядно показывает, как социальные и демографические факторы могут влиять на исход экстремальных ситуаций. Благодаря сохранившимся данным о пассажирах, это событие представляет особый интерес для анализа и визуализации, позволяя выявить закономерности, скрытые за индивидуальными историями.

Для проекта был выбран датасет Titanic с сайта соревнований для специалистов по Data Science Kaggle., широко используемый в учебных и исследовательских задачах по анализу данных. Он содержит информацию о поле, возрасте, классе билета, стоимости проезда и факте выживания пассажиров. Основным фокусом анализа стала выживаемость в зависимости от социального статуса и демографических характеристик, так как именно эти аспекты чаще всего обсуждаются в популярной и научной интерпретации катастрофы.

ВЫБРАННЫЕ ТИПЫ ВИЗУАЛИЗАЦИИ

В проекте я использоваласледующие виды графиков: столбчатые диаграммы — для сравнения долей выживших в разных группах; гистограммы — для анализа распределения возраста пассажиров; ящики с усами — для исследования распределения стоимости билетов и выявления выбросов; сложенные столбчатые диаграммы — для сопоставления количества выживших и погибших по классам билетов.

Выбор этих типов графиков обусловлен их наглядностью и способностью эффективно передавать сравнительные и распределительные характеристики данных.

ЭТАПЫ РАБОТЫ:

Загрузка данных

big
Original size 621x152

На этом этапе был выполнен первичный осмотр данных и проверена корректность загрузки таблицы.

Первичный анализ и структура данных

Original size 204x97

Были выявлены: пропущенные значения в столбце Age; числовые и категориальные признаки; различия в масштабах данных (например, стоимость билетов).

Очистка и обработка данных

Основные этапы обработки: заполнение пропусков в возрасте медианным значением; удаление строк с отсутствующими значениями в категориальных переменных; проверка типов данных.

Original size 611x56

Медиана была выбрана вместо среднего значения, так как распределение возраста является асимметричным и содержит выбросы.

ИСПОЛЬЗОВАНИЕ НЕЙРОСЕТЕЙ

В процессе работы использовалась генеративная модель ChatGPT (OpenAI).

ИИ применялся для: помощи в структурировании проекта; формулировки концепции и аналитических выводов; уточнения формулировок и логики объяснений; поддержки при описании статистических методов.

ИИ не использовался для автоматического анализа данных или генерации графиков.

СТИЛИЗАЦИЯ ВИЗУАЛИЗАЦИЙ

Для визуализации использовались библиотеки Matplotlib и Seaborn. Был выбран минималистичный стиль с нейтральной цветовой палитрой и едиными параметрами оформления.

Original size 620x155

ИЗУЧАЮЩИЙ И ОБЪЯСНЯЮЩИЙ ФОРМАТ ВИЗУАЛИЗАЦИИ

Каждая визуализация в проекте отвечает на конкретный исследовательский вопрос: кто имел больше шансов на выживание; как социальный статус отражался на исходе катастрофы; какие группы пассажиров были наиболее уязвимы.

ИТОГОВЫЕ ГРАФИКИ

1. Выживаемость в зависимости от пола

Original size 1387x1019

Тип: столбчатая диаграмма Вывод: женщины выживали значительно чаще мужчин.

  1. Распределение возраста пассажиров

Тип: гистограмма Вывод: основную часть пассажиров составляли взрослые люди в возрасте от 20 до 40 лет.

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more