Original size 730x1119

«Титанический» анализ датасета

PROTECT STATUS: not protected
The project is taking part in the competition

Введение

Драма «непотопляемого» Титаника будоражит сердца уже многих поколений. Чудо технологического прогресса того времени, колоссальных размеров пассажирский лайнер мощностью пятьдесят пять тысяч лошадиных сил, способный вместить почти две с половиной тысячи человек, потерпел крушение, разрушительностью под стать своим габаритам. Более чем две трети людей: от мала до велика, различных социальных классов и достатка, были поглощены тогда холодными водами Атлантики. Невольно хочется задаться рядом непростых вопросов:

— Сколько семей мучительно разлучилось в тот день? — Сколько матерей потеряли ребенка? — Сколько молодых так и не встретило старость?

big
Original size 1678x903

На Kaggle я нашла базу данных (далее — БД) с информацией о пассажирах Титаника. Данные блистали разнообразием и содержали такие параметры, как: пол, класс билета (оно же социальный класс), факт выживания или смерти, порт, из которого человек совершил посадку, а также возраст, номер каюты и даже семейные связи — наличие детей или братьев с сёстрами.

Я решила проанализировать эту БД, чтобы ответить, как минимум, на часть вопросов не просто статистического, но и социального, психологического и философского характера.

Использованными в исследовании программами и инструментами являются:

- Google Colab с соответствующими настройками чтения csv. файлов и визуализации - DeepSeek (для правки кода с целью минимизации неожиданных ошибок)

Процесс обработки данных

Original size 1014x441

Перед исследованием БД, я подготовила рабочий файл к чтению датасета: импортировала специальные библиотеки — для работы конкретно с данными Kaggle и массивами, для построения и визуализации графиков. Далее я установила визуальные константы для форматирования графиков: цвета в оттенках бежевого, желтого и коричневого, коричневую обводку и моноширинный шрифт. Вдохновением послужили старые фотографии, созданные в сепии, а также верстка текста на печатной машинке. Всё это отсылает к эпохе, когда существовал Титаник.

0

Визуальное вдохновение

Методы анализа можно сравнить с исследованием БД при помощи формул Microsoft Excel: в основном использовались «СЧЁТ» (вычисление объема данных в отдельных колонках), «ЕСЛИ» (операции над данными, подчиняющихся объединению, либо пересечению условий) и «СЧЁТЕСЛИ» (сортировка данных, также подконтрольная условиям)

Коды и графики

Original size 1104x648

Для более комплексных вычислений понадобилось сначала визуализировать более примитивную статистику: на основе столбца «Пол» было выявлено процентное соотношение мужчин и женщин, находившихся на корабле.

Для визуализации данных использовались в основном столбчатые и круговые диаграммы.

Original size 1189x359
Original size 1078x507

Колонка «Возраст» была поделена математически, при помощи установки «пороговых значений» на конкретные категории.

Original size 792x264
Original size 699x489

Далее, уже располагая «отфильтрованным» из колонки «Пол» числом женщин, было произведено пересечение с колонками «Наличие детей» и «Факта смерти/выживания».

Original size 844x291
Original size 771x486

После похожая операция была произведена с колонками «Факта смерти/выживания» и «Наличия братьев/сестёр»

Original size 1174x343
Original size 886x489

Дабы логически завершить анализ «факторов выживаемости», было создано распределение в зависимости от порта посадки.

Original size 739x542
Original size 1501x636

Также, подытоживая исследование, включающее женщин с детьми, было произведено их распределение, в зависимости от класса билета.

Original size 809x571
Original size 1513x636

Общим завершением является статистика выживаемости пассажиров в зависимости от социального класса.

Выводы

На основе анализа БД, удалось не просто конкретизировать ответы на вопросы философского характера, но и дать дополнительную пищу для размышлений.

— Женщины и дети — не совсем приоритет.

График «Погибшие женщины с детьми» показывает, что, особенно среди низшего сословия, процент смертности матерей во время крушения Титаника был существенным. Однако само его наличие противоречит строгой интерпретации правила «сначала женщины и дети» и подтверждает, что процесс эвакуации был хаотичным. Спаслись, по-видимому, те, кто смог добраться до шлюпок первым.

 — Социальное неравенство — главный фактор выживания.

Ярче всего контраст погибших и спасшихся заметен на графике «Выживаемость по портам посадки» и на графике «Выжившие по классу билета». Порт «Шербур» — это, в основном, пассажиры первого класса. Самый высокий процент выживших в первом классе подтверждает: доступ к шлюпкам на верхних палубах и приоритет при эвакуации были у богатых пассажиров.

— Семейные узы могли стать помехой.

График «Выживаемость в зависимости от наличия братьев/сестёр» показывает, что среди пассажиров без родственников на борту процент выживших выше. Это логичный вывод: одинокие люди могли быстрее и решительнее действовать в условиях паники, ведь спасать им требовалось только себя. Семьи теряли время, пытаясь найти и собрать друг друга, что снижало их шансы.

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more