
Введение
Для данного проекта я выбрала список баз данных о метеоритах на сайте Kaggle
Я выбрала эту тему для анализа, потому что космос всегда завораживал меня. Падающие звёзды, таинственные метеориты, далёкие галактики — всё это будило воображение. Анализируя данные о метеоритах, я хочу прикоснуться к этой загадочной вселенской истории, но уже через цифры и факты. Ведь каждый метеорит — это не просто камень с неба, а частичка далёких миров, которая может рассказать свою уникальную историю.

Для анализа и визуализации данных использовались библиотеки Seaborn, Matplotlib, Pandas, Numpy, Sklearn.
Структура данных (колонки):
name: название метеорита id: идентификатор nametype: тип названия (Valid/Found) recclass: классификация метеорита (например, L5, H4, LL6 и др.) mass (g): масса в граммах fall: тип (Fell — упал наблюдаемо, Found — найден) year: год падения/находки reclat: широта места падения reclong: долгота места падения GeoLocation: координаты в формате (широта, долгота)

Оформление графиков
Цветовая палитра проекта отражает таинственную эстетику космоса:
#1D4C6B (глубокий синий) — символизирует бескрайние просторы Вселенной и холодную глубину межзвёздного пространства.
#23293B (тёмно-угольный) — напоминает о тёмной материи и скрытой структуре космоса.
#F07E19 (огненно-оранжевый) — передаёт энергию столкновения метеоритов и вспышки звёзд.
#FFDE8A (тёплый жёлтый) — имитирует свечение далёких солнц и отблески на поверхности космических тел.
#7094A0 (серо-голубой) — ассоциируется с ледяными астероидами и туманностями.
Цветовая палитра
Используемый шрифт: DejaVu Sans
Цвет текста: #000000
Цвет фона: #7094A0
Шрифт
Оформление графиков
Виды графиков: Столбчатая диаграмма Диаграмма рассеяния Гистограмма Матрица корреляции Пирсона
Анализ данных
В данных содержится около 7 000 пропусков в координатах, но для построения модели мы будем использовать только два параметра: массу (mass (g)) и год (year).
Особенности данных:
В столбце mass (g) отсутствуют пропуски (NaN), однако присутствуют нулевые значения
В столбце year имеется небольшое количество пропущенных значений
Для обработки пропусков мы применяем медианные значения:
mass_med — медианная масса всех метеоритов
year_med — медианный год из всех имеющихся записей
Почему мы используем именно медиану, а не среднее арифметическое? Медиана более устойчива к выбросам в данных. В нашем случае это особенно важно, так как:
Встречаются экстремально тяжелые метеориты, которые могут исказить среднее значение
Годовые данные также могут содержать аномальные значения
Медиана лучше отражает типичное значение в таком неоднородном распределении.
С помощью errors='coerce' заменяем данные, которые нельзя преобразовать на NaN (пропуск).
Пропуски после fillna: {'mass (g)': 0, 'year': 0}
Заполнение пропусков
Чтобы избежать искажения анализа, удаляем экстремальные значения по двум методам:
1. Обработка массы (weight):
Вычисляем обычный средний вес (m_mean) и отклониение от среднего веса (± 3 m_std)
Оставляем только метеориты, чей вес не слишком отличается от обычного (не легче и не тяжелее, чем в 99% случаев)
Находим типичный диапазон годов
Сначала вычисляем Q1 (25-й перцентиль) — значение, ниже которого находится 25% данных
Затем Q3 (75-й перцентиль) — значение, ниже которого находится 75% данных
IQR = Q3 — Q1 — это интервал, содержащий средние 50% данных (центральную часть распределения)
Определяем границы для выбросов
Нижняя граница: Q1 — 1,5 × IQR
Верхняя граница: Q3 + 1,5 × IQR Любые значения за этими границами считаются выбросами
Фильтруем данные Оставляем только те строки, где значение года находится в диапазоне: low_y ≤ year ≤ high_y Все записи с годами вне этого диапазона удаляются как аномальные.
После удаления mass-выбросов: (45679, 10) После удаления year-выбросов: (43716, 10)
Получаем следующие графики:
График № 1
Код № 1
Топ-10 самых тяжёлых метеоритов Исходя из полученной столбчатой диаграммы, можно выделить 10 метеоритов с наибольшей массой.
График № 2
Код № 2
Падения метеоритов (год ≥ 2000) Можно сделать вывод, что после 2010 года наблюдался резкий рост числа падений: до 2010 года количество падений держалось на низком уровне (менее 20 000 г), а после наблюдается экспоненциальный рост (до 100 000 г к 2012 году).
График № 3
Код № 3
Распределение по полушариям По данной гистограмме можно сделать вывод, что большинство метеоритов падало в Южном полушарии.
График № 4
Код № 4
Категории массы Согласно полученным данным, наибольшее количество метеоритов имеет малый размер (менее 1 кг).
График № 5
Код № 5
Сравнение количества метеоритов по способу обнаружения Категория «Found» (найденные метеориты) значительно превосходит другие по количеству. Это говорит о том, что большинство метеоритов обнаруживают уже после их падения в ходе целенаправленных поисков.
График № 6
Код № 6
Распределение масс по способу обнаружения Малые метеориты (менее 1 кг) составляют абсолютное большинство в категории «Found» (найденные), что подтверждает тенденцию: чем меньше метеорит, тем выше вероятность его обнаружения уже после падения. Крупные метеориты (более 10 кг) чаще фиксируются в категории «Fell» (наблюдаемые при падении), поскольку их падение сопровождается более заметными эффектами.
График № 7
Код № 7
Распределение масс метеоритов График показывает чёткую закономерность — чем крупнее метеорит, тем реже он встречается. Самые маленькие метеориты (весом от 0,01 до 100 грамм) попадают на Землю в десятки тысяч раз чаще, чем метеориты весом в несколько килограммов. А действительно крупные метеориты (тяжелее 100 кг) — это большая редкость.
График № 8
Матрица корреляции Незначительная положительная корреляция (0,41): широта/ год; Заметная отрицательная корреляция (-0,58): долгота/широта; По всем остальным парам корреляция практически отсутствует.
Код № 8
График № 9
Код № 9
Лог-регрессия: log10(mass+1) = 0.0080*year + -14.46 R² (лог-модель) = 0.007883251547962544
Упал/найден Анализ данных показывает слабую связь между годом находки и массой метеоритов. Это значит, что за все время наблюдений находимые метеориты стали немного массивнее, но разница совсем незначительная.
Описание применения генеративной модели
Иллюстрации созданы с использованием DALL-E в ChatGPT. Промты, использованные для генерации: «Realistic outer space scene with glowing meteorites streaking across the sky, deep blue cosmic background, fiery orange and warm yellow flames trailing behind the meteorites, soft grey-blue clouds of space dust, stars scattered in the distance, high detail, dramatic lighting, cinematic atmosphere»; «Realistic horizontal image of a massive meteorite blazing through outer space, viewed from the side. The background is deep blue with scattered stars and grey-blue cosmic clouds. The meteorite leaves a long, fiery trail in vivid orange and warm yellow, lighting up the surrounding dust. High detail, dramatic lighting, wide composition, cinematic sci-fi atmosphere»