Original size 1240x1750

Анализ метеоритных данных

PROTECT STATUS: not protected
11

Введение

Для данного проекта я выбрала список баз данных о метеоритах на сайте Kaggle

Я выбрала эту тему для анализа, потому что космос всегда завораживал меня. Падающие звёзды, таинственные метеориты, далёкие галактики — всё это будило воображение. Анализируя данные о метеоритах, я хочу прикоснуться к этой загадочной вселенской истории, но уже через цифры и факты. Ведь каждый метеорит — это не просто камень с неба, а частичка далёких миров, которая может рассказать свою уникальную историю.

big
Original size 1536x1024

Для анализа и визуализации данных использовались библиотеки Seaborn, Matplotlib, Pandas, Numpy, Sklearn.

Структура данных (колонки):

name: название метеорита id: идентификатор nametype: тип названия (Valid/Found) recclass: классификация метеорита (например, L5, H4, LL6 и др.) mass (g): масса в граммах fall: тип (Fell — упал наблюдаемо, Found — найден) year: год падения/находки reclat: широта места падения reclong: долгота места падения GeoLocation: координаты в формате (широта, долгота)

big
Original size 2489x381

Оформление графиков

Цветовая палитра проекта отражает таинственную эстетику космоса:

#1D4C6B (глубокий синий) — символизирует бескрайние просторы Вселенной и холодную глубину межзвёздного пространства.

#23293B (тёмно-угольный) — напоминает о тёмной материи и скрытой структуре космоса.

#F07E19 (огненно-оранжевый) — передаёт энергию столкновения метеоритов и вспышки звёзд.

#FFDE8A (тёплый жёлтый) — имитирует свечение далёких солнц и отблески на поверхности космических тел.

#7094A0 (серо-голубой) — ассоциируется с ледяными астероидами и туманностями.

Original size 2489x600

Цветовая палитра

Используемый шрифт: DejaVu Sans

Цвет текста: #000000

Цвет фона: #7094A0

Original size 2489x411

Шрифт

Original size 2489x354

Оформление графиков

Виды графиков: Столбчатая диаграмма Диаграмма рассеяния Гистограмма Матрица корреляции Пирсона

Анализ данных

В данных содержится около 7 000 пропусков в координатах, но для построения модели мы будем использовать только два параметра: массу (mass (g)) и год (year).

Особенности данных:

В столбце mass (g) отсутствуют пропуски (NaN), однако присутствуют нулевые значения

В столбце year имеется небольшое количество пропущенных значений

Для обработки пропусков мы применяем медианные значения:

mass_med — медианная масса всех метеоритов

year_med — медианный год из всех имеющихся записей

Почему мы используем именно медиану, а не среднее арифметическое? Медиана более устойчива к выбросам в данных. В нашем случае это особенно важно, так как:

Встречаются экстремально тяжелые метеориты, которые могут исказить среднее значение

Годовые данные также могут содержать аномальные значения

Медиана лучше отражает типичное значение в таком неоднородном распределении.

С помощью errors='coerce' заменяем данные, которые нельзя преобразовать на NaN (пропуск).

Пропуски после fillna: {'mass (g)': 0, 'year': 0}

Original size 2489x514

Заполнение пропусков

Чтобы избежать искажения анализа, удаляем экстремальные значения по двум методам:

1. Обработка массы (weight):

Вычисляем обычный средний вес (m_mean) и отклониение от среднего веса (± 3 m_std)

Оставляем только метеориты, чей вес не слишком отличается от обычного (не легче и не тяжелее, чем в 99% случаев)

  1. Обработка года (year):

Находим типичный диапазон годов

Сначала вычисляем Q1 (25-й перцентиль) — значение, ниже которого находится 25% данных

Затем Q3 (75-й перцентиль) — значение, ниже которого находится 75% данных

IQR = Q3 — Q1 — это интервал, содержащий средние 50% данных (центральную часть распределения)

Определяем границы для выбросов

Нижняя граница: Q1 — 1,5 × IQR

Верхняя граница: Q3 + 1,5 × IQR Любые значения за этими границами считаются выбросами

Фильтруем данные Оставляем только те строки, где значение года находится в диапазоне: low_y ≤ year ≤ high_y Все записи с годами вне этого диапазона удаляются как аномальные.

После удаления mass-выбросов: (45679, 10) После удаления year-выбросов: (43716, 10)

Original size 2489x838

Получаем следующие графики:

Original size 630x470

График № 1

Original size 2489x798

Код № 1

Топ-10 самых тяжёлых метеоритов Исходя из полученной столбчатой диаграммы, можно выделить 10 метеоритов с наибольшей массой.

Original size 630x470

График № 2

Original size 2489x930

Код № 2

Падения метеоритов (год ≥ 2000) Можно сделать вывод, что после 2010 года наблюдался резкий рост числа падений: до 2010 года количество падений держалось на низком уровне (менее 20 000 г), а после наблюдается экспоненциальный рост (до 100 000 г к 2012 году).

Original size 630x470

График № 3

Original size 2489x657

Код № 3

Распределение по полушариям По данной гистограмме можно сделать вывод, что большинство метеоритов падало в Южном полушарии.

Original size 630x470

График № 4

Original size 2489x754

Код № 4

Категории массы Согласно полученным данным, наибольшее количество метеоритов имеет малый размер (менее 1 кг).

Original size 630x470

График № 5

Original size 2489x1408

Код № 5

Сравнение количества метеоритов по способу обнаружения Категория «Found» (найденные метеориты) значительно превосходит другие по количеству. Это говорит о том, что большинство метеоритов обнаруживают уже после их падения в ходе целенаправленных поисков.

Original size 630x470

График № 6

Original size 2489x454

Код № 6

Распределение масс по способу обнаружения Малые метеориты (менее 1 кг) составляют абсолютное большинство в категории «Found» (найденные), что подтверждает тенденцию: чем меньше метеорит, тем выше вероятность его обнаружения уже после падения. Крупные метеориты (более 10 кг) чаще фиксируются в категории «Fell» (наблюдаемые при падении), поскольку их падение сопровождается более заметными эффектами.

Original size 590x390

График № 7

Original size 2489x910

Код № 7

Распределение масс метеоритов График показывает чёткую закономерность — чем крупнее метеорит, тем реже он встречается. Самые маленькие метеориты (весом от 0,01 до 100 грамм) попадают на Землю в десятки тысяч раз чаще, чем метеориты весом в несколько килограммов. А действительно крупные метеориты (тяжелее 100 кг) — это большая редкость.

Original size 501x451

График № 8

Матрица корреляции Незначительная положительная корреляция (0,41): широта/ год; Заметная отрицательная корреляция (-0,58): долгота/широта; По всем остальным парам корреляция практически отсутствует.

Original size 2489x1063

Код № 8

Original size 590x390

График № 9

Original size 2489x2387

Код № 9

Лог-регрессия: log10(mass+1) = 0.0080*year + -14.46 R² (лог-модель) = 0.007883251547962544

Упал/найден Анализ данных показывает слабую связь между годом находки и массой метеоритов. Это значит, что за все время наблюдений находимые метеориты стали немного массивнее, но разница совсем незначительная.

Описание применения генеративной модели

Иллюстрации созданы с использованием DALL-E в ChatGPT. Промты, использованные для генерации: «Realistic outer space scene with glowing meteorites streaking across the sky, deep blue cosmic background, fiery orange and warm yellow flames trailing behind the meteorites, soft grey-blue clouds of space dust, stars scattered in the distance, high detail, dramatic lighting, cinematic atmosphere»; «Realistic horizontal image of a massive meteorite blazing through outer space, viewed from the side. The background is deep blue with scattered stars and grey-blue cosmic clouds. The meteorite leaves a long, fiery trail in vivid orange and warm yellow, lighting up the surrounding dust. High detail, dramatic lighting, wide composition, cinematic sci-fi atmosphere»

Анализ метеоритных данных
11
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more