Анализ смертности на Титанике по классу и демографии on Mediiia
Original size 1431x2020

Анализ смертности на Титанике по классу и демографии

PROTECT STATUS: not protected
39

Вводная часть

Для данного прокта я выбрала список баз данных о пассажирах Титаника на сайте Kaggle

Я выбрала именно эту тему для анализа, поскольку фильм Джеймса Кэмерона «Титаник» является одним из моих любимых. Мне интересно рассмотреть эту историческую катастрофу через призму статистики, чтобы открыть для себя эту историю с новой стороны.

big
Original size 2183x927

Изображение из 4K-реставрации фильма Джеймса Кэмерона «Титаник». (Paramount Pictures)

Титаник (англ. Titanic) — британский трансатлантический пассажирский пароход, крупнейшее судно в мировой истории начала XX века. Во время первого рейса, в ночь с 14 на 15 апреля 1912 года, столкнулся с айсбергом и затонул в Северной Атлантике. Крушение произошло на 5 день плавания во время первого рейса парохода, следовавшего по маршруту Саутгемптон-Шербур-Квинстаун-Нью-Йорк.

big
Original size 2183x386

Датасет на Kaggle.com

Для анализа и визуализации данных я использую библиотеку Seaborn, так как это наиболее удобная библеотека по созданию графиков по сравнению с matplotlib. Она позволяет создавать привлекательные и информативные графики, а также способна легко отобразить сложные зависимости пежду различными показателями.

База данных имеет в себе 1309 строк, каждая из которых — соотвествует одному пассажиру Титаника. Каждая строчка имеет такие характеристики, как — имя, пол, статус выжил/погиб, класс, номер каюты, а также стоимость каюты.

Анализ данных

Для начала мне нужно было написать код, который описывает основные статистические характеристики данных и показывает информацию о типах данных и количестве непустых значений. Это важно для первоначального анализа и понимания структуры данных. Выполнение этих шагов помогает подготовить данные для дальнейшего анализа и визуализации.

Original size 2183x353

Код № 1

Далее я получаю статистические данные и вижу, в каких столбцах присутвуют пропуски. Отмечаю, что в столбце «Cabin» более ¾ ячеек пустые, в столбцах «Age» и «Fare» также присутствуют пропуски.

Original size 2183x712

Выдача кода № 1

Original size 2183x785

Выдача кода № 1

Чтобы очистить данные и привести их к удобному виду для оформления в базу данных, я делаю следующие действия:

Проверяю наличия пропущенных значений Заполняю ’Age’ средним значением Удаляю столбец ’Cabin’, в связи с тем, что там отсутвует больше половины значений Заполняю пропущенные значения в ’Embarked’ модой Заполняю пропущенные значения в ’Fare’ медианой Преобразую ’Sex’ в категориальный тип

Original size 2183x589

Код № 2

Даллее я анализирую полученную выборку. Для определения фактора, являющегося ключевым в смертности человека на титанике, требуется наглядно изобразить ряд взаимосвязей:

Коэффициенты выживаемости по полу Коэффициенты выживаемости по классу Распределения возраста по выживаемости Точечная диаграмма для возраста и стоимости билета (Fare), разделенная по выживаемости

Для рачета коэфициентов будем использовать библеотеку matplotlib, а для визуализации диаграм библеотеку seaborn.

Original size 2183x927

Код № 3

Original size 2183x927

Код № 4

Original size 2183x770

Код № 5

После исполнения кода мы получаем следующие диаграммы —

Коэффициенты выживаемости по полу

По данной гистограмме можно сделать вывод, что более 75% выживших людей на Титанике были женщинами.

Original size 2183x1005

График № 1

Коэффициенты выживаемости по классу

На данной гистограмме видно, что для пассажиров первого класса шанс выживания составлял более 50%, для пассажиров второго — более 40%, для пассажиров третьего — менее 30%. Данная статистика может обьясняться разными предположениями. Одно из самых общепринятых — это то, что каюты низших классов находились почти у ватерлинии, связи с чем этой категории пассажиров было крайне сложно подняться на врхние палубы в короткий срок.

Original size 2183x1008

График № 2

Гистограмма распределения возраста по выживаемости

Проанализировав эту гистограмму, я могу сделать вывод о том, что возраст пассажиров почти никак не повлиял на их выживаемоть на борту Титаника, так как в большая часть результатов накладываются друг на друга.

Original size 2183x1015

График № 3

Точечная диаграмма, анализирующая категорию возраста и стоимости билета (fare), разделенная по выживаемости

Проанализировав взаимодействие между возрастом, стоимостью билета и выживаемостью, я заметила, что сильнее всего выделятся группа людей в возрасте от 20 до 50. При росте цены за билет среди пассажиров можно заметить увеличение выживаемости. Также очевидно, что пассажирам из более старшей или младшей возрастной группы удавалась выжить с большей вероятностью, вне зависимости от их социального положения.

Original size 2183x1007

График № 4

Для дальнейшего анализа данных я решила статистичеки подтвердить выделеные наблюдения.

Для этого я использовала: Хи-квадрат тест для проверки наличия зависимости между двумя категориальными переменными

  1. Выживаемость и пол
  2. Выживаемость и класс
  3. Корреляция Пирсона между возрастом и выживаемостью
  4. Корреляция Спирмена между возрастом и выживаемостью
Original size 2183x712

Код № 6

Так, я получила следующие данные

Original size 2183x292

Выдача кода № 6

Анализ:

  1. Выживаемость и пол — очень маленькое p-значение (2.87e-136) указывает на то, что существует значимая зависимость между полом пассажира и его выживаемостью.
  2. Выживаемость и класс — точно так же, мы видим мальенькое значение p-значение, что указывает на статистическую значимость
  3. Корреляция Пирсона измеряет линейную зависимость между двумя непрерывными переменными. В данном случае, между «Возрастом» и «Выживаемостью». Корреляционный коэффициент −0.048 указывает на очень слабую отрицательную корреляцию. p-значение 0.0795 означает, что эта корреляция не является статистически значимой на уровне значимости 0.05.
  4. Корреляция Спирмена измеряет монотонную зависимость между двумя переменными. Корреляционный коэффициент −0.032 указывает на очень слабую отрицательную корреляцию. p-значение 0.241 означает, что эта корреляция также не является статистически значимой.

Выводы

Существует значимая зависимость между полом и выживаемостью пассажиров. Существует значимая зависимость между классом и выживаемостью пассажиров. Корреляция между возрастом и выживаемостью пассажиров не является статистически значимой, что означает, что возраст пассажира не оказывает значительного влияния на вероятность его выживания.

Оформление графиков

Для оформления графиков я выбрала синий и розовый цвета. Яркие оттенки создают контраст и привлекают внимание, что очень важно для эффективной передачи информации.

Синий цвет символизирует море и путешествия, что непосредственно связано с Титаником.

Розовый цвет ассоциируется с роскошью и социальным статусом, что отражает разнообразие пассажиров Титаника, представлявших различные социальные классы.

В качестве дополнительного цвета также появился песочный желтый. Этот оттенок также подчеркивает исторический контекст и атмосферу начала 20 века.

Original size 2183x477

Цветовая палитра

В итоге я составила цветовую палитру, представленную выше, которая используется в оформлении всех графиков.

Используемый шрифт: Averta CY Regular

Цвет текста:

#000000

Цвета графиков:

#e45271

#37509e

#f5f0a1

Original size 2183x386

Шрифт

Описание применения генеративной модели

Иллюстрация для обложки создана с использованием DALL-E в ChatGPT и дополнительно обработана в Photoshop для соответствия нужной цветовой палитре. В этом случае я решила воспользоваться искусственным интеллектом для создания уникального графического изображения, которое бы полностью отвечало моим требованиям и выделялось на фоне других типовых картинок.

промт, использованный для генерации: «a minimalistic graphic design of the upper section of a ship, similar to the Titanic, colored in solid black with white line accents, three iconic funnels rise, each striped in red and black, set against a clear sky with soft white clouds, the composition focuses on bold colors, simplified forms, and a clean, modern aesthetic»

Анализ смертности на Титанике по классу и демографии
39
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more