Original size 1240x1750

Анализ данных «Белки Центрального парка»

PROTECT STATUS: not protected
The project is taking part in the competition

Введение

Для своего анализа я выбрал уникальный набор данных под названием «2018 Central Park Squirrel Census — Squirrel Data» (Перепись белок Центрального парка за 2018 год). Эти данные представляют собой результат масштабного гражданского научного проекта, проведенного в Центральном парке Нью-Йорка осенью 2018 года.

Источником данных послужил официальный портал открытых данных Нью-Йорка (NYC Open Data), где городские власти публикуют различные статистические данные.

Набор данных содержит информацию о 3,023 наблюдениях за белками, собранных волонтерами по специально разработанной методологии. Каждая запись включает такие параметры, как время наблюдения (утро/день), возраст белки (взрослая/молодая), основной цвет шерсти, местоположение в парке, а также различные поведенческие характеристики: бегает ли белка, преследует ли другую, лазает по деревьям, ест, ищет пищу, приближается к людям, проявляет безразличие или убегает.

Этот набор данных привлек меня своей уникальностью как результат масштабного гражданского научного проекта, где волонтеры собрали 3,023 стандартизированных наблюдения за белками Центрального парка. Меня интересовало, как дикие животные адаптируются к жизни в сердце мегаполиса, и какие поведенческие паттерны они вырабатывают. Данные имеют прямую практическую ценность для городского планирования и улучшения сосуществования людей и природы. Кроме того, белки Центрального парка — культурный символ Нью-Йорка, что добавляет анализу эмоциональный и познавательный интерес.

Анализ в графиках

Этапы работы

Данные были загружены и очищены — категориальные переменные преобразованы, пропуски обработаны.

Для оптимизации кода и создания цветовой схемы использовался DeepSeek. Запросы были по типу «напиши код для диаграммы показывающей взаимосвязь…». Для генерации обложки проекта использовался MIdJourney.

Графики были стилизованы по цвету окраса белок (оранжевый, черный, серый).

Были применены статические методы такие как описательная статистика (проценты, средние), анализ распределений, группировка данных, расчёт долей и пропорций для выявления поведенческих паттернов и возрастных различий.

big
Original size 1514x1080

Создание датасета и импорт библиотек

Для визуализации данных о белках Центрального парка была выбрана комбинация из четырёх типов графиков, где каждый решает конкретную аналитическую задачу:

1. Круговая диаграмма — для наглядного отображения пропорционального распределения активности белок по времени суток (утро vs день). Этот формат идеально подходит для демонстрации баланса и ключевых пропорций, задавая временной контекст для всего последующего анализа.

2. Вертикальная столбчатая диаграмма — для сравнения поведенческих паттернов между возрастными группами (взрослые vs молодые белки). Вертикальные столбцы, расположенные рядом для каждого типа поведения, наглядно визуализируют контраст и позволяют выявить возрастные различия в образе жизни.

3. Точечная диаграмма — для исследования взаимосвязи между окрасом белок и их местонахождением в парке. Этот тип графика позволяет обнаружить скрытые экологические паттерны, выявить формирование кластеров и проверить гипотезы о территориальных предпочтениях в зависимости от физических характеристик.

4. Горизонтальная столбчатая диаграмма — для сравнения частоты различных реакций белок на присутствие человека. Горизонтальная ориентация обеспечивает удобную читаемость подписей и наглядно показывает наиболее и наименее типичные модели социального поведения.

1 график

Original size 1093x1154
Original size 809x744

Вывод по графику

Круговая диаграмма наглядно показывает, что белки в Центральном парке Нью-Йорка более активны во второй половине дня: на долю дневных и вечерних наблюдений (PM) приходится около 55% случаев, что примерно на 10% превышает утреннюю активность (AM). Общее количество учтённых наблюдений составляет несколько тысяч, что подтверждает репрезентативность выборки. Тёмный фон и контрастная цветовая схема эффективно выделяют два временных промежутка, а размещение ключевого вывода прямо на графике мгновенно доносит основную мысль. Эти данные представляют практическую ценность для посетителей парка и могут учитываться при планировании экологических и просветительских мероприятий.

2 график

Original size 1093x1154
Original size 1389x790

Вывод по графику

Анализ возрастных различий в поведении белок показывает, что взрослые особи превосходят молодых в доле активности по поиску пищи. В то время как молодые превосходят взрослых во всех остальных аспектах. Результаты имеют значение для понимания возрастной стратификации и адаптационных механизмов в популяции городских белок.

3 график

Original size 1093x1297
Original size 1093x1297
Original size 1380x989

Вывод по графику

Диаграмма демонстрирует, что серый окрас является доминирующим в популяции, а черные встречается значительно реже. Однако независимо от окраса большинство белок отдают предпочтение оставаться на земле.

4 график

Original size 1093x1154
Original size 1389x790

Вывод по графику

Горизонтальная столбчатая диаграмма показывает, что белки Центрального парка преимущественно демонстрируют нейтральную реакцию на людей: около 48% наблюдений фиксируют безразличное поведение, что почти в два раза превышает процент случаев, когда белки убегают (22%). Приближение к человеку является наименее распространённой реакцией, встречаясь лишь в 5% случаев. Эти данные свидетельствуют о высокой степени адаптации белок к городской среде и постоянному присутствию людей. Полученные результаты имеют практическое значение для посетителей парка, ожидающих наблюдать естественное поведение животных, и подтверждают успешную интеграцию дикой фауны в урбанистический ландшафт.

Статистические методы

В процессе анализа данных о белках Центрального парка были применены ключевые статистические методы, позволившие перейти от первичных наблюдений к содержательным выводам. Основу составила описательная статистика — для категориальных переменных, таких как время суток и тип реакции на человека, были рассчитаны абсолютные частоты и проценты, что дало понимание общих распределений. Для изучения возрастных различий в поведении использовался метод сравнения пропорций, где средние доли активностей (бег, лазание, питание) сравнивались между группами взрослых и молодых особей, что выявило значимые различия в их повседневных привычках. Анализ взаимосвязи между окрасом шерсти и предпочитаемым местоположением проводился через исследование совместного распределения — была построена таблица сопряженности и визуализировано количество наблюдений для каждой комбинации признаков, что показало, что белки, независимо от окраса, предпочитают находится на земле. Наконец, для интерпретации реакций на человека применялся расчёт относительных частот — абсолютные числа наблюдений были переведены в процентные доли, что позволило наглядно сравнить распространённость разных типов поведения. Эти базовые, но эффективные методы обеспечили статистическую обоснованность всех визуализаций и выводов.

Описание применения генеративной модели

В процессе работы над проектом использовался DeepSeek. Для него писался промт с запросом на написания кода.

Для генерации обложки использовался MidJourney, писался промт для генерации обложки с белкой в графической стилистике.

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more