Original size 1140x1600

Анализ данных о пассажирах Титаника

PROTECT STATUS: not protected
8

Концепция

Для данного проекта я выбрала датасет о пассажирах Титаника, размещённый на платформе Kaggle. Таблица содержит информацию о 891 человеке: их возрасте, поле, классе, цене билета, семейных связях и факте выживания. Данные представлены в формате CSV и подходят для анализа с помощью Pandas и визуализации в Python

big
Original size 4500x938

Меня очень зацепила эта тема не за счет известности катастрофы, а счет структуры. Титаник — это модель социума, записанная в числах. Формально — таблица, неформально — портрет выживания: кто спасся и почем, какую роль сыграла удача.

Зантересовала не реконструкция трагедии, а попытка рассказать историю через данные. Не документальность, а атмосфера. Не факт, а глубина

big
Original size 4653x2327

мудборд

big
Original size 1080x225

палитра

Проект опирается на метафору океанской глубины — каждый график соответствует определённой «глубине анализа». Графики в этом проекте — это отсылка к затонувшему судну. Каждый цвет — как новая глубина. Я хотела показать, как внутри одной трагедии можно выстроить визуальные уровни — от поверхностного считывания к более глубоким смысловым слоям.Основой визуального оформления стала метафора океанской глубины.

Вдохновением послужили подводные и ночные сцены — холодный свет, синий шум, мерцающие сигналы. Цветовая палитра проекта отсылает к морской глубине: тёмный фон #010817, оттенки бирюзового и графитового, минимальные акценты

Типографика: DejaVu Serif Все подписи и элементы унифицированы по стилю: единый размер шрифта, мягкие обводки, отсутствие сетки, атмосферная подача.

Для генерации обложки мной была использована нейросеть ideogram

Визуальный стиль не просто украшает данные — он поддерживает нарратив

Использование библиотек

В проекте были использованы три основные библиотеки: Pandas — для загрузки и обработки табличных данных, Matplotlib — для базовой настройки графиков, Seaborn — для визуализации с более сложной стилизацией. Также была настроена цветовая палитра и шрифт для единого визуального стиля

Original size 900x506

Обработка данных

Сначала были импортированы основные библиотеки: Pandas — для анализа, Seaborn и Matplotlib — для визуализации. Файл загружен в формате CSV, структура — табличная

Original size 900x506

Были обработаны пропуски в трёх ключевых колонках. Возраст и стоимость билета заполнялись медианой, порт посадки — модой (наиболее частым значением)

Original size 900x506

Из имени был извлечён титул пассажира (Mr, Mrs, Miss и т. д.), чтобы проанализировать роли

Original size 900x506

Для одного из графиков я использовала цифры из номеров билетов. Из каждого билета были извлечены только цифры, после чего для выживших подсчитано, какие из них встречались чаще

Original size 900x506

Цветовая палитра и шрифт были заданы вручную по референсам из мудборда. Фон всех графиков — тёмный (#010817), цвета — сдержанные, вдохновлённые морской глубиной

Original size 900x506

Визуализация данных

На первом уровне я исследовала распределение возрастов всех пассажиров. График помогает увидеть, что большинство людей на борту были молодыми взрослыми — от 20 до 35 лет. Это логично: именно эта возрастная категория чаще всего путешествовала, особенно в третьем классе. Также на корабле находились дети и пожилые, но значительно меньше.

Катастрофа затронула в первую очередь молодое трудоспособное население

0

Глубина 1. Поверхность: Возраст пассажира— от младенцев до стариков. Гистограмма

Я сравнила выживаемость по полу. График показывает, что женщины спасались значительно чаще — вероятно, по принципу «женщины и дети первыми». Мужчины, напротив, остались на палубе и стали жертвами катастрофы Использован barplot с поворотом подписей на -45 градусов, как отсылка к накренившемуся кораблю

0

Глубина 2. Кто спасся? Женщины — чаще. Мужчины — чаще оставались на палубе. Barplot

Построен линейный график выживаемости в зависимости от класса. График отсылает к структурной иерархии на борту: чем выше палуба и класс — тем выше шансы

Наблюдается явная зависимость между классом билета и шансами на спасение: пассажиры первого класса выживали чаще, чем второго, а тем более — третьего. Это говорит о неравенстве доступа к спасательным шлюпкам, физической близости к палубе и социальном статусе

0

Глубина 3. Цена билета и класс — путь к спасению. Линейный график

Из имён были извлечены обращения, отражающие роли и социальный статус. Диаграмма показывает, что большинство пассажиров были «Mr», за ним следуют «Miss» и «Mrs», а более редкие звания собраны в категорию «другие»

0

Глубина 4. Каждое имя — роль. Каждый титул — билет. Круговая диаграмма

На этом уровне я исследовала цифры в номерах билетов пассажиров, которые выжили. Выяснилось, что определённые цифры встречались чаще: например, 3, 1 и 7

0

Глубина 5. Цифры билета. Радиальная диаграмма

Описание применения генеративной модели

Для своей работы я использовала Chat-GPT версии 4.0. Он помог мне подготовить датасет, составить графики, а также проверить работу.

Для генерации обложки была использована нейросеть ideogram

Посмотреть промпты: https://docs.google.com/document/d/1DQVpgD5CN6wuZUWt0c5E7DkfcUjnu0DqyIgmB_biot0/edit?usp=sharing

Ссылка на Chat-GPT: https://openai.com/index/gpt-4/ Ссылка на ideogram: https://ideogram.ai/t/my-images/public

Анализ данных о пассажирах Титаника
8
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more