

Выбор и ценность данных
Для проекта был выбран набор данных «Formula 1 World Championship (1950 — 2024)» с платформы Kaggle. Данные представлены в табличной форме (CSV-файлы: races.csv, results.csv) и являются достаточно объёмными и содержательными для анализа. Они представляют особую ценность, так как позволяют количественно исследовать один из самых доминирующих сезонов в истории команды Red Bull Racing (2024 год). Анализ трансформирует качественные впечатления от спортивных событий в объективные показатели, раскрывая связь между технологиями, мастерством пилотов и итоговыми результатами. Для фокусировки на результатах команды был синтезирован датасет на основе выступлений её пилотов — Макса Ферстаппена и Серхио Переса.
Этапы работы — обработка данных и использование ИИ
Работа выполнялась в Google Colab с использованием библиотеки Pandas. Обработка включала следующие этапы:
Загрузка и первичный осмотр данных с помощью pd.read_csv () и методов .info (), .head ().
Фильтрация данных за 2024 год: df_2024 = df_races[df_races['year'] == 2024].copy ().
Объединение таблиц (гонки и результаты) по ключевым полям (raceId) для получения полной картины каждого этапа.
Агрегация и группировка данных для анализа по пилотам: driver_stats = df_redbull.groupby ('driver').agg ({'points': 'sum', 'position': 'mean'}).
Создание производных столбцов, например, расчёт кумулятивной суммы очков методом .cumsum () для построения графика динамики.
Стилизация и подходы к визуализации
Стилизация графиков была ключевой задачей. Вдохновением послужили HUD-интерфейсы гоночных симуляторов и эстетика киберпанка. С помощью кода была задана уникальная цветовая палитра с тёмным фоном (000022), неоново-синими (00F3FF) и жёлтыми (#FFAA00) акцентами, а также моноширинный шрифт для создания эффекта цифрового дисплея.
В проекте сознательно применены два подхода к визуализации. Изучающий формат использовался на начальном этапе для исследования данных и поиска закономерностей через простые, нестилизованные графики. Объясняющий формат представлен в финальных графиках: каждый из них тщательно стилизован, снабжён заголовками и аннотациями, чтобы не просто показать данные, а рассказать конкретную историю и донести чёткие выводы до аудитории.
Также в проекте использовалась нейросеть Leonardo.Ai для создания изображений на обложке и начальной картинки.
Применённые статистические методы
В анализе были последовательно применены следующие статистические методы:
Описательная статистика (mean (), sum (), std ()) для расчёта средних позиций, общего количества очков и вариативности результатов.
Агрегация и группировка (groupby ()) для раздельного анализа показателей пилотов и сравнения эффективности на разных типах трасс.
Расчёт кумулятивных сумм (cumsum ()) для построения наглядной динамики накопления очков по ходу чемпионата.
Нормализация данных для приведения разнородных показателей к единой шкале, что было необходимо для корректного построения радарной диаграммы и визуального сравнения.