
Выбор данных и источник
Для исследования был выбран датасет Penguin Sizes Dataset с платформы Kaggle. Этот набор данных содержит информацию о 344 особях пингвинов трех видов: Адели (Adelie), Антарктических (Gentoo) и Папуа (Chinstrap), обитающих на трех островах архипелага Палмера в Антарктике. Данные включают морфометрические измерения: длину и глубину клюва, длину плавника, массу тела, а также информацию о виде, острове обитания и поле каждой особи.
Источник: https://www.kaggle.com/datasets/amulyas/penguin-size-dataset/data
Научная ценность и интерес исследования
Эти данные представляют особую ценность по нескольким причинам:
1- Пингвины являются биоиндикаторами состояния морских экосистем Антарктики 2- Различные виды демонстрируют адаптацию к сходным условиям среды 3- Данные идеально подходят для демонстрации методов статистического анализа и визуализации 4- Актуальность исследования антарктических видов особенно важны в контексте климатических изменений
1. Обработка данных
Первоначально был написан код для анализа данных в таблице, проверки его целостности и просто информации, которая содержится
-Использовались методы .info () и .describe () для получения метаинформации и базовой статистики
Нужно было обеспечить качество данных, устранить проблемы, которые могли бы исказить результаты анализа.
Последовательность действий была такой:
-Выявила пропущенные значения в числовых и категориальных столбцах -Заполнила пропуски в числовых признаках медианными значениями (менее чувствительна к выбросам) -Заполнила пропуски в категориальных признаках модальными значениями -Проверила уникальные значения категориальных переменных для выявления возможных ошибок кодирования -Проанализировала и удалила полные дубликаты записей
2. Визуализация графиков
Обоснование выбора: Комбинация этих графиков позволяет реализовать принцип «от общего к частному» — начинать с обзора распределений, переходить к групповым сравнениям и заканчивать анализом взаимосвязей
Использована цветовая палитра, ассоциирующаяся с полярными регионами
Анализ и визуализация выполнялись с помощью языка Python в среде Google Colab. Для обработки и расчётов применялась библиотека Pandas, которая идеально подходит для работы с табличными данными: с её помощью легко проводить фильтрацию, группировку и вычисление статистик. Создание графиков было реализовано с использованием связки библиотек Matplotlib и Seaborn. Seaborn был особенно полезен, так как он позволяет строить сложные статистические графики (например, парные диаграммы распределения или тепловые карты корреляций) всего несколькими строками кода, обеспечивая при этом профессиональный внешний вид.
«Ящики с усами» для выявления выбросов
print («\n Построение 'ящиков с усами' для проверки на выбросы…») fig, axes = plt.subplots (2, 2, figsize=(14, 10)) for i, col in enumerate (numeric_cols): ax = axes[i//2, i%2] df.boxplot (column=col, by='species', ax=ax) ax.set_title (f’Распределение {col} по видам') ax.set_ylabel (col) plt.tight_layout () plt.show ()
Последовательность действий при построение данных визуалтзаций:
Сначала был написан код для таблицы сопряжённости для анализа распределения видов по островам Гистограммы для каждого числового признака для оценки формы распределений, был предложен чатом для детализации анализа
Для визуализации «ящика с усами» (boxplots) был написан код который выявляет выбросы и и сравнивает распределение между видами пингвинов Также было важно проанализировать таблицу на наличие аномальных значений, которые могут искажать средние показатели В итоге стало понятно, что вид Gentoo имеет существенно большие размеры по сравнению с другими видами, подтвердили нормальность распределений большинства признаков, обнаружили несколько умеренных выбросов, не требующих удаления.
3. Сравнительный анализ
После того, как данные были очищены и изучены их общие распределения, мы перешли к самому интересному — сравнительному анализу. Целью было понять, как физические характеристики пингвинов различаются в зависимости от их вида, пола и места обитания. По сути, мы хотели найти ответы на вопросы: «Кто из пингвинов самый крупный?», «Влияет ли остров на их размер?» и «Сильно ли отличаются самцы от самок?».
Чтобы сделать результаты наглядными и удобными для восприятия, все ключевые выводы были представлены в виде составного графика из четырех частей. Мы сознательно выбрали для каждой задачи свой тип диаграммы: для сравнения средних — столбчатую, для матрицы связей — тепловую карту, для сравнения полов — сгруппированные столбцы. Все графики были оформлены в единой, сдержанной цветовой гамме с преобладанием синих и красных оттенков, а на диаграммы добавили числовые значения, чтобы не приходилось «на глаз» оценивать разницу.
Выводы
Видовые различия количественно подтверждены статистическими методами Длина плавника — лучший предиктор массы тела среди измеренных параметров Географическая изменчивость менее выражена, чем видовая специфичность Методология анализа может быть применена к другим биологическим наборам данных
Научная значимость: Исследование демонстрирует, как современные методы анализа данных могут применяться для решения классических биологических вопросов, обеспечивая более точные и воспроизводимые результаты по сравнению с традиционными подходами.
Разработанный конвейер анализа может быть адаптирован для мониторинга популяций пингвинов в условиях климатических изменений, что представляет важность для природоохранных организаций.
Использованные инструменты:
ChatGPT 4o: для генерации и оптимизации кода визуализации GitHub Copilot: для автодополнения кода и предложения альтернативных реализаций DALL-E: для создания обложки GoogleColab: для написания кода и визуализации таблиц