
Вводная часть
Для данного прокта я выбрала список баз данных о пассажирах Титаника на сайте Kaggle
Я выбрала именно эту тему для анализа, поскольку фильм Джеймса Кэмерона «Титаник» является одним из моих любимых. Мне интересно рассмотреть эту историческую катастрофу через призму статистики, чтобы открыть для себя эту историю с новой стороны.

Изображение из 4K-реставрации фильма Джеймса Кэмерона «Титаник». (Paramount Pictures)
Титаник (англ. Titanic) — британский трансатлантический пассажирский пароход, крупнейшее судно в мировой истории начала XX века. Во время первого рейса, в ночь с 14 на 15 апреля 1912 года, столкнулся с айсбергом и затонул в Северной Атлантике. Крушение произошло на 5 день плавания во время первого рейса парохода, следовавшего по маршруту Саутгемптон-Шербур-Квинстаун-Нью-Йорк.

Датасет на Kaggle.com
Для анализа и визуализации данных я использую библиотеку Seaborn, так как это наиболее удобная библеотека по созданию графиков по сравнению с matplotlib. Она позволяет создавать привлекательные и информативные графики, а также способна легко отобразить сложные зависимости пежду различными показателями.
База данных имеет в себе 1309 строк, каждая из которых — соотвествует одному пассажиру Титаника. Каждая строчка имеет такие характеристики, как — имя, пол, статус выжил/погиб, класс, номер каюты, а также стоимость каюты.
Анализ данных
Для начала мне нужно было написать код, который описывает основные статистические характеристики данных и показывает информацию о типах данных и количестве непустых значений. Это важно для первоначального анализа и понимания структуры данных. Выполнение этих шагов помогает подготовить данные для дальнейшего анализа и визуализации.
Код № 1
Далее я получаю статистические данные и вижу, в каких столбцах присутвуют пропуски. Отмечаю, что в столбце «Cabin» более ¾ ячеек пустые, в столбцах «Age» и «Fare» также присутствуют пропуски.
Выдача кода № 1
Выдача кода № 1
Чтобы очистить данные и привести их к удобному виду для оформления в базу данных, я делаю следующие действия:
○ Проверяю наличия пропущенных значений ○ Заполняю ’Age’ средним значением ○ Удаляю столбец ’Cabin’, в связи с тем, что там отсутвует больше половины значений ○ Заполняю пропущенные значения в ’Embarked’ модой ○ Заполняю пропущенные значения в ’Fare’ медианой ○ Преобразую ’Sex’ в категориальный тип
Код № 2
Даллее я анализирую полученную выборку. Для определения фактора, являющегося ключевым в смертности человека на титанике, требуется наглядно изобразить ряд взаимосвязей:
○ Коэффициенты выживаемости по полу ○ Коэффициенты выживаемости по классу ○ Распределения возраста по выживаемости ○ Точечная диаграмма для возраста и стоимости билета (Fare), разделенная по выживаемости
Для рачета коэфициентов будем использовать библеотеку matplotlib, а для визуализации диаграм библеотеку seaborn.
Код № 3
Код № 4
Код № 5
После исполнения кода мы получаем следующие диаграммы —
Коэффициенты выживаемости по полу
По данной гистограмме можно сделать вывод, что более 75% выживших людей на Титанике были женщинами.
График № 1
Коэффициенты выживаемости по классу
На данной гистограмме видно, что для пассажиров первого класса шанс выживания составлял более 50%, для пассажиров второго — более 40%, для пассажиров третьего — менее 30%. Данная статистика может обьясняться разными предположениями. Одно из самых общепринятых — это то, что каюты низших классов находились почти у ватерлинии, связи с чем этой категории пассажиров было крайне сложно подняться на врхние палубы в короткий срок.
График № 2
Гистограмма распределения возраста по выживаемости
Проанализировав эту гистограмму, я могу сделать вывод о том, что возраст пассажиров почти никак не повлиял на их выживаемоть на борту Титаника, так как в большая часть результатов накладываются друг на друга.
График № 3
Точечная диаграмма, анализирующая категорию возраста и стоимости билета (fare), разделенная по выживаемости
Проанализировав взаимодействие между возрастом, стоимостью билета и выживаемостью, я заметила, что сильнее всего выделятся группа людей в возрасте от 20 до 50. При росте цены за билет среди пассажиров можно заметить увеличение выживаемости. Также очевидно, что пассажирам из более старшей или младшей возрастной группы удавалась выжить с большей вероятностью, вне зависимости от их социального положения.
График № 4
Для дальнейшего анализа данных я решила статистичеки подтвердить выделеные наблюдения.
Для этого я использовала: Хи-квадрат тест для проверки наличия зависимости между двумя категориальными переменными
Код № 6
Так, я получила следующие данные —
Выдача кода № 6
Анализ:
Выводы
○ Существует значимая зависимость между полом и выживаемостью пассажиров. ○ Существует значимая зависимость между классом и выживаемостью пассажиров. ○ Корреляция между возрастом и выживаемостью пассажиров не является статистически значимой, что означает, что возраст пассажира не оказывает значительного влияния на вероятность его выживания.
Оформление графиков
Для оформления графиков я выбрала синий и розовый цвета. Яркие оттенки создают контраст и привлекают внимание, что очень важно для эффективной передачи информации.
Синий цвет символизирует море и путешествия, что непосредственно связано с Титаником.
Розовый цвет ассоциируется с роскошью и социальным статусом, что отражает разнообразие пассажиров Титаника, представлявших различные социальные классы.
В качестве дополнительного цвета также появился песочный желтый. Этот оттенок также подчеркивает исторический контекст и атмосферу начала 20 века.
Цветовая палитра
В итоге я составила цветовую палитру, представленную выше, которая используется в оформлении всех графиков.
Используемый шрифт: Averta CY Regular
Цвет текста:
#000000
Цвета графиков:
#e45271
#37509e
#f5f0a1
Шрифт
Описание применения генеративной модели
Иллюстрация для обложки создана с использованием DALL-E в ChatGPT и дополнительно обработана в Photoshop для соответствия нужной цветовой палитре. В этом случае я решила воспользоваться искусственным интеллектом для создания уникального графического изображения, которое бы полностью отвечало моим требованиям и выделялось на фоне других типовых картинок.
промт, использованный для генерации: «a minimalistic graphic design of the upper section of a ship, similar to the Titanic, colored in solid black with white line accents, three iconic funnels rise, each striped in red and black, set against a clear sky with soft white clouds, the composition focuses on bold colors, simplified forms, and a clean, modern aesthetic»