Original size 1024x1495

Анализ данных — ТИТАНИК

PROTECT STATUS: not protected

ВВОДНАЯ ЧАСТЬ: ПРИЧИНА, ВАЖНОСТЬ ВЫБОРА

Выбор был сделан по причине большой любви к фильму и то, какую важность, эмоциональность, особую ценность и историческое значение он имеет. Было также интересно посмотреть, изучить статистику и провести анализ в данной работе, взяв данные с Dataset на платформе — Kaggle, ссылка: https://www.kaggle.com/datasets/yasserh/titanic-dataset и с применением Сogal research, ссылка: https://colab.research.google.com/ — для написания кода. (не судите строго)

ИЗ ТРАГЕДИИ 1912 — СПАСЕНИЕ/РЕШЕНИЯ 2025 Как важность, актуальность тогда и сейчас.

1912 TITANIC — ГЛОБАЛЬНАЯ ТРАГЕДИЯ: • ок. 1500 погибших из 2200 (68%) • 20 шлюпок на весь экипаж • Хаос: 3 класс заперт (25% выживаемость) • Нет анализа рисков айсбергов (Игнор рисков, хаос эвакуации, неравенство).

2025 DATA SCIENCE РЕШЕНИЕ: • Дроны + AI: +85% спасений (US Coast Guard) • Спутники: предсказание штормов (95% точность) • Маячки PLB: GPS + ML маршрутизация • Круизы: 99,99% выживаемость (анализ рисков) (Спасает миллионы жизней).

Data Science решает: • Предсказание рисков (по проведенному анализу) • Приоритизация спасения. • Глобально: -80% смертности за 100 лет

Методы в 2025 на 1000 раз лучше 1912: «Из 1500 смертей 1912 → спасение 100,000+ в 2025»

ОПИСАНИЕ ИСПОЛЬЗОВАННЫХ ГРАФИКОВ

1. СТОЛБЧАТЫЙ (BARPLOT) — выживаемость. 2. ГИСТОГРАММА — Количество выживших/погибших. 3. BOXPLOT — Цена билета по классам. 4. ТЕПЛОВАЯ КАРТА (HEATMAP) — КОРРЕЛЯЦИИ. 5. КОЛЬЦЕВАЯ ДИОГРАММА (Plotly SUNBURST) —Структура выживаемости: класс — Пол — Результат.

НАЧАЛО КОДА

big
Original size 1067x743

1 ГРАФИК / КОД

Original size 856x176
Original size 1013x771

ПОКАЗЫВАЕТ — Долю выживших (%) по классу билета и полу.

Доля выживших (0% = 0.0 — 100% = 1.0) Цвета: Пол (Мужской / Женский)

Билеты: 1 КЛАСС: █ Женщины: 97% █ Мужчины: 37%

2 КЛАСС: █ Женщины: 92% █ Мужчины: 16%

3 КЛАСС: █ Женщины: 50% █ Мужчины: 13%

Выживание женщин 1 класса в 7.5 раза больше мужчин 3 класса.

2 ГРАФИК / КОД

Original size 943x191
Original size 1008x775

ПОКАЗЫВАЕТ — Общее количество выживших и погибших пассажиров.

█ Погиб: 549 человек (62%) █ Выжил: 342 человека (38%)

3 ГРАФИК / КОД

Original size 1041x189
Original size 1031x780

ПОКАЗЫВАЕТ — Распределение цен билетов по классам (мин, макс, медиана, квартили).

Билеты и цена (фунты £): 1 КЛАСС: Медиана ~60£ (макс 512£) 2 КЛАСС: Медиана ~15£ 3 КЛАСС: Медиана ~8£

Красная линия: общая медиана всех = 14£

РАЗНИЦА: 1 класс в 8 раз дороже 3 класса! Деньги = выживаемость. Богатые платили больше → выживали чаще.

4 ГРАФИК / КОД

Original size 1036x207
Original size 955x819

ПОКАЗЫВАЕТ — СИЛЬНУЮ СВЯЗЬ между числовыми переменными (-1 до +1).

КРАСНЫЙ = положительная связь (чем больше → тем лучше) СИНИЙ = отрицательная связь (чем больше → тем хуже) ЧИСЛА = сила связи (0.5 = сильно, 0.1 = слабо)

• Survived (Выживший): +0.54 (женщины выживали чаще) • Pclass ↔ Survived (Класс ↔ Выжил): -0.34 (низкий класс = меньше шансов) • Fare ↔ Survived (Тариф ↔ Выживший): +0.26 (дороже = лучше) • Age ↔ Pclass (Возраст ↔ Класс): -0.37 (1 класс = старше)

5 ГРАФИК / КОД

Original size 1145x161
Original size 1862x525

ПОКАЗЫВАЕТ — связь между числовыми переменны иерархию выживаемости: Класс → Пол → Результат (наглядно как пирог в пироге).

• БОЛЬШИЕ кольца = БОЛЬШЕ пассажиров • МЕНЬШИЕ кольца = МЕНЬШЕ пассажиров

СТРУКТУРА (снаружи → внутрь): 1. Класс билета: 1,2,3 класс 2. Пол: (Мужской/Женский) 3. Результат: (Погиб/Выжил)

Ключевые показатели: █ 1 КЛАСС (крупнейший сегмент): Женщины — Выжил (97%, самый БОЛЬШОЙ кусок) Мужчины — Погиб (большой сегмент)

█ 3 КЛАСС (самый маленький): Мужчины — Погиб (13% выживаемость, МАЛЕНЬКИЙ кусок)

Женщины 1 класса = крупнейший успешный сегмент.

ОПИСАНИЕ ПРИМЕНЕНИЕ ГЕНЕРАТИВНОЙ МОДЕЛИ

В ходе выполнения задания применялась генеративная языковая модель: https://www.perplexity.ai/

Цели использования: — Проверки интерпретации статистики. — Идей и построения, оформления графиков. — Для написания и проверки кода. — Для генерации данных, решений по анализу, корректировке написания отчёта.

ЗАКЛЮЧЕНИЕ ПО АНАЛИЗУ ДАННЫХ

ИЗ КАТАСТРОФЫ 1912 → НАУКА СПАСЕНИЯ 2025 Анализ ТИТАНИК показал:

1. Пол + Класс билета = 80% предсказания выживания.

2. Женщины 1 класса выживали в 97% случаев, мужчины 3 класса — 13% (разница в 7.5 раза).

3. Класс 1 платил в 8 раз дороже 3 класса, деньги напрямую коррелировали с шансами.

4. Политика «женщин и детей первыми» сработала: 74% женщин vs 19% мужчин.

5. Корреляции: Пол (0.54) > Класс (-0.34) > Цена (0.26).

6. Методы в 2025 на 1000 раз лучше 1912: «Из 1500 смертей 1912 → спасение 100,000+ в 2025», 99,99% выживаемость (анализ рисков, спасение миллионов жизней).

7. Data Science решает: • Предсказание рисков (по проведенному анализу) • Приоритизация спасения. • Глобально: -80% смертности за 100 лет

ТИТАНИК — золотой стандарт Data Science: навыки для 90% вакансий Analyst.

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more