
КОНЦЕПЦИЯ
Катастрофа «Титаника» — одно из самых известных исторических событий XX века, которое наглядно показывает, как социальные и демографические факторы могут влиять на исход экстремальных ситуаций. Благодаря сохранившимся данным о пассажирах, это событие представляет особый интерес для анализа и визуализации, позволяя выявить закономерности, скрытые за индивидуальными историями.
Для проекта был выбран датасет Titanic с сайта соревнований для специалистов по Data Science Kaggle., широко используемый в учебных и исследовательских задачах по анализу данных. Он содержит информацию о поле, возрасте, классе билета, стоимости проезда и факте выживания пассажиров. Основным фокусом анализа стала выживаемость в зависимости от социального статуса и демографических характеристик, так как именно эти аспекты чаще всего обсуждаются в популярной и научной интерпретации катастрофы.
ВЫБРАННЫЕ ТИПЫ ВИЗУАЛИЗАЦИИ
В проекте я использоваласледующие виды графиков: столбчатые диаграммы — для сравнения долей выживших в разных группах; гистограммы — для анализа распределения возраста пассажиров; ящики с усами — для исследования распределения стоимости билетов и выявления выбросов; сложенные столбчатые диаграммы — для сопоставления количества выживших и погибших по классам билетов.
Выбор этих типов графиков обусловлен их наглядностью и способностью эффективно передавать сравнительные и распределительные характеристики данных.
ЭТАПЫ РАБОТЫ:
Загрузка данных

На этом этапе был выполнен первичный осмотр данных и проверена корректность загрузки таблицы.
Первичный анализ и структура данных
Были выявлены: пропущенные значения в столбце Age; числовые и категориальные признаки; различия в масштабах данных (например, стоимость билетов).
Очистка и обработка данных
Основные этапы обработки: заполнение пропусков в возрасте медианным значением; удаление строк с отсутствующими значениями в категориальных переменных; проверка типов данных.
Медиана была выбрана вместо среднего значения, так как распределение возраста является асимметричным и содержит выбросы.
ИСПОЛЬЗОВАНИЕ НЕЙРОСЕТЕЙ
В процессе работы использовалась генеративная модель ChatGPT (OpenAI).
ИИ применялся для: помощи в структурировании проекта; формулировки концепции и аналитических выводов; уточнения формулировок и логики объяснений; поддержки при описании статистических методов.
ИИ не использовался для автоматического анализа данных или генерации графиков.
СТИЛИЗАЦИЯ ВИЗУАЛИЗАЦИЙ
Для визуализации использовались библиотеки Matplotlib и Seaborn. Был выбран минималистичный стиль с нейтральной цветовой палитрой и едиными параметрами оформления.
ИЗУЧАЮЩИЙ И ОБЪЯСНЯЮЩИЙ ФОРМАТ ВИЗУАЛИЗАЦИИ
Каждая визуализация в проекте отвечает на конкретный исследовательский вопрос: кто имел больше шансов на выживание; как социальный статус отражался на исходе катастрофы; какие группы пассажиров были наиболее уязвимы.
ИТОГОВЫЕ ГРАФИКИ
1. Выживаемость в зависимости от пола
Тип: столбчатая диаграмма Вывод: женщины выживали значительно чаще мужчин.
Тип: гистограмма Вывод: основную часть пассажиров составляли взрослые люди в возрасте от 20 до 40 лет.