
Я уже два года занимаюсь боулдерингом, а недавно начала лазать «трудность» — так скалолазы называют традиционное скалолазание на высоту. По этой причине я решила выбрать данные, которые мне будет интересно изучать, так что я займусь анализом двух таблиц о профессиональном скалолазании и профессиональных скалолазах в периоде с 1991 по 2024 год.

В скалолазании для обозначения категории сложности трасс традиционно используются цветные метки. На скалодроме, куда я хожу тренироваться, это цвета от желтого до красного — такую гамму я применила для создания графиков. Особенно я люблю зеленый и синий за гармоничность сочетания: оно хорошо читается и при этом воспринимается «мягким»; так что их вы увидите в большей части визуализаций.
В работе я использовала следующие типы графиков: 1. Круговая диаграмма (Pie chart) 2. Горизонтальная столбчатая диаграмма (Horisontal bar chart) 3. Линейные графики (Line graphs) 4. Точечная диаграмма (Scatter plot)
При создании кода я обращалась к справочным материалам и частичной помощи генеративной нейросети ChatGPT-5.0. Для визуализации обложки и изображения зацепов использовалась она же.
Ссылки см. в конце проекта в разделе «Ссылки»
Соотношение мужчин и женщин в профессиональном скалолазании
Мне стало интересно, какое процентное соотношение между спортсменами-женщинами и спортсменами-мужчинами в профессиональном скалолазании, вне зависимости от их возраста и национальности.

Диаграмма показывает, что, несмотря на растущую популярность скалолазания (подтверждения чему мы увидим далее), разница между полов среди профессиональных спортсменов. Но в этой диаграмме мы увидели средние цифры за несколько декад, так что их следует воспринимать with a pinch of salt.
Первый график сделан с помощью первой из таблиц (athlete_information). Я создала отдельную переменную для наименования разделов и стилизовала саму диаграмму и легенду: мне хотелось добиться легкости, так что я по максимуму убираю обводки и делаю линии тоньше.
Описание применения генеративной модели (здесь и далее ситуации идентичны: большую часть кода я написала сама, но с редактированием некоторых нюансов мне помогли запросы нейросети): 1. Узнала о конструкции с созданием отдельного словаря для новых наименований 2. Сделала из обычной круговой диаграммы «пончик» и в целом попросила нейросеть описать мне все возможные изменения, которые я могу использовать в piechart 3. Подвинула заголовок с помощью редактуры координаты х
Количество участников соревнований среди мужчин и женщин по годам
Чтобы сделать наш анализ по кол-ву спортсменов более конкретным, посмотрим, сколько спортсменов-женщин и спортсменов-мужчин участвовало в соревнованиях в рассматриваемый период.
На этом линейном графике видны подтверждения выводов прошлого этапа анализа. Но, т. к. этот график показывает количество спортсменов-участников различных соревнований по годам, по нему наглядно видно, что выросла общая популярность этого вида спорта. Однако, мы не можем точно определить, в чем заключается этот рост: в увеличении количества мероприятий или в увеличении масштаба этих мероприятий.
Ввела в работу вторую таблицу (athlete_result) и объединяю таблицы в единую под названием for_gender, используя в качестве объединяющего элемента athlete_id. Для наименований в легенде использую ранее созданную переменную newnames_g (новые имена по гендеру).
Описание применения генеративной нейросети: 1. Исправила ошибки в группировке, а также узнала о методе nunique, который был мне нужен, чтобы считать именно отдельных спортсменов, а не каждое их участие 2. Узнала, как работать с обводкой графика, т. к. мне хотелось убрать лишние линии и максимально облегчить вид графика 3. Ввела цвета в график новым способом, т. к. старый тут уже не работал
Сравнение популярности различных дисциплин в скалолазании
Увидев, насколько выросла популярность скалолазания за последние 30 лет, я подумала, что было бы интересно посмотреть рост популярности по конкретным дисциплинам в скалолазании. Самыми популярными дисциплинами были лидирование (лазание с нижней страховкой, классическое), боулдеринг (лазание на небольшой высоте без страховки) и лазание на скорость. Я решила посмотреть кол-во участников соревнований в этих дисциплинах по годам.
В рассматриваемых данных упоминались и другие типы дисциплин (например, «combined»), но количество их упоминаний было очень незначительно, так что я вовсе опустила их.
Здесь мы видим много всего интересного, например, «рождение» боулдеринга в 1997 году и стремительный рост его популярности (в какой-то момент он даже становится популярнее классического скалолазания), а так же резкую просадку всех линий в год начала эпидемии covid-19. Еще мы можем заметить, что масштаб мероприятий для «лазающих на скорость» всегда был меньше, чем для других спортсменов.
Создала следующую таблицу конкретно для анализа дисциплин из dfr и исключила из нее лишние (слишком редкие). Создала новую переменную для наименований, на этот раз для дисциплин — newnames_d (d = disciplines). Поняла, что необязательно нумеровать все переменные colors и можно каждый раз её переписывать. Захотелось поменять маркер на более мелкий, т. к. сам график более объемный.
Описание применения генеративной нейросети: 1. Попросила описать мне все возможные виды маркеров 2. Были проблемы с применением drop, решить которые мне помогла нейросеть
Возраст спортсменов среди мужчин и женщин
Добавим в наш анализ еще один критерий — возраст участника соревнований. Мы посмотрим, какой возраст был у соревнующихся спортсменов в разные года, в целом примерное количество этих спортсменов и так же сохраним разделение по полу.
Из этой точечной диаграммы мы можем сделать несколько выводов (кроме некоторых, уже сделанных ранее по другим графикам):
1. «Входной» возраст становится все меньше: это видно по нижней границе участников (исключаем отдельные «детские» случаи, касающиеся редких детских сборов)
2. При этом в целом средний возраст участника растет. Видимо, «ветераны» не собираются уходить на пенсию — из этого можно сделать вывод о том, что, в отличие от, например, художественной гимнастики, скалолазание не является настолько строгим к возрасту видом спорта.
В качестве образца использовала готовый код подобного графика со схожим анализом. Оригинальный датасет не безупречен и выдавал возраст некоторых спортсменов >0, так что пришлось «подчищать» данные специально для графика. Зачем-то по привычке создала новую colors_3, хотя у меня есть идентичная colors.
Описание использования генеративной нейросети: 1. Не знала, что можно из даты вычесть дату, пока не спросила, как вычислить возраст, у нейросети 2. Попросила написать и пояснить код для того, чтобы исключить из анализа всех людей с отрицательным или абсурдно маленьким возрастом; это привело к созданию следующей таблицы plot_data 3. Помог настроить наименования осей, т. к. в данном случае это делается по-новому и я запуталась. 4. Узнала, что можно увеличить размер маркера в легенде.
Топ-10 стран по количеству профессиональных скалолазов
В завершение проекта я решила проанализировать что-то менее комплексное и сделала простую диаграмму по странам, наиболее «богатым» спортсменами-участниками соревнований за рассматриваемый период.
Было приятно увидеть, что Россия входит в тройку лидеров этого топа. Смею предположить, что это из-за популярности культуры спортивного туризма, который стал полноценной культурной единицей нашего менталитета еще в СССР… но это тема уже для другого анализа.
Создала новую top_countries и newnames_c (c=country) для этого анализа.
1. Написал строчку с перезаписью top_countries.index с новыми неймингами, т. к. без неё наименования не менялись. 2. Поправил ошибки в коде создания barh, чтобы она работала, а также помог мне настроить перераспределение от большего к меньшему 3. Спросила нейросеть, какие махинации можно провести с линиями сетки, и из выданного многообразия выбрала сделать её пунктирной. Поменять цвет и толщину я смогла самостоятельно. 4. Написал код для того чтобы убрать первую из линий сетки, т. к. её белый пунктир накладывался на черную границу графика слева (начиная с xticks)
Вывод
Главный вывод из всего процесса анализа — популярность скалолазания растет, и растет стремительно. Меня, как фаната скалолазной культуры, это не может не радовать, так что я довольна проведенной работой и её результатами.
Ссылки
Итог использования нейросети:
Я старалась придерживаться принципа работы, в котором я пишу базу и доделываю детали с помощью нейросети. При этом, если я не могла «прочитать» код, я просила его построчно мне разобрать его по каждой использованной команде/методу. Это позволило достигнуть того, что я с уверенностью могу прочесть код и понять, за что отвечает каждая из использованных команд, и понимаю принцип написания кода для каждого графика, хотя всё еще могу путаться в деталях или отдельных синтаксических конструкциях, уникальных для той или иной диаграммы.