
Отправной точкой для этого проекта стало желание проанализировать ценовые характеристики автомобилей внутри одного автомобильного бренда и выявить зависимости между основными параметрами.
Интерес к теме проекта связан с тем, что бренд Audi объединяет в себе автомобили разных классов и ценовых сегментов, сохраняя при этом единый технологический язык. Мне было интересно проследить, как эти различия отражаются в данных и какие количественные факторы формируют стоимость автомобилей.
ОПИСАНИЕ ПРОЕКТА
Для анализа использовался датасет с характеристиками автомобилей Audi с платформы Kaggle (https://www.kaggle.com/datasets/anassarfraz13/audi-car-price-and-specifications-dataset), содержащий информацию о стоимости, пробеге, годе выпуска, модели и других параметрах.
В процессе работы с данными были сформулированы следующие исследовательские вопросы: — какие автомобили Audi имеют наибольшую стоимость; — как изменяется цена автомобиля в зависимости от пробега; — какие факторы сильнее всего коррелируют с ценой автомобиля; — какие модели Audi являются наиболее популярными.
Были использованы различные типы визуализаций: 1. Гистограмма с наложенной кривой плотности (KDE) 2. Диаграмма рассеяния с логарифмической линией тренда 3. Тепловая карта корреляций 4. Круговая диаграмма
В качестве дополнения к аналитической части проекта была выполнена экспериментальная визуальная серия с использованием нейросети. recraft.ai (https://recraft.ai/) было предложено визуально интерпретировать разные автомобили Audi в зависимости их ценового сегмента, при этом отражая их характер и динамику. Мне показалось важным дополнить статистический анализ визуальной интерпретацией, чтобы отразить различия между типами автомобилей Audi и их ценовыми категориями не только через числовые показатели, но и через образы.
Prompt 1 — высокая ценовая категория Abstract visual interpretation of high-price Audi car: Prompt 2 — средняя ценовая категория Abstract representation of mid-price Audi car Prompt 3 — более доступная ценовая категория Abstract interpretation of lower-price Audi car:
Обложка к проекту:. Abstract motion blur of a premium sports Audi, sense of speed and acceleration, minimal composition, blurred lights and reflections, dark background, focus on movement and luxury, modern abstract style.
ЦВЕТОВАЯ ПАЛИТРА
Цветовая палитра для проекта подбиралась с акцентом на премиальность бренда Audi. Основное внимание уделялось сдержанным и контрастным оттенкам, которые подчёркивают характер бренда, не перегружают графики и помогают акцентировать ключевые различия в ценовых категориях и показателях.
Палитра должна была ассоциироваться с технологичностью, динамикой и строгостью, характерными для автомобильной индустрии, а также хорошо работать в аналитических визуализациях, сохраняя читаемость и визуальный баланс.
Для создания цветовой палитры я использовал сервис Adobe Color (https://color.adobe.com/ru/)
Основные используемые цвета: #1A171A #82204A #558C8C #E8DB7D
Шрифт для проекта — DaysOne.
1// РАСПРЕДЕЛЕНИЕ ЦЕН АВТОМОБИЛЕЙ AUDI
На графике показано распределение цен автомобилей Audi с добавленной линией плотности (KDE). Видно, что основная часть автомобилей находится в среднем ценовом диапазоне, тогда как дорогие модели образуют вытянутый правый хвост распределения.
2// ЗАВИСИМОСТЬ ЦЕНЫ АВТОМОБИЛЯ ОТ ПРОБЕГА
Диаграмма рассеяния иллюстрирует зависимость стоимости автомобиля от пробега. Добавленная логарифмическая линия тренда показывает устойчивую тенденцию снижения цены по мере роста пробега. При этом автомобили с небольшим пробегом демонстрируют более широкий разброс цен, что связано с различиями в моделях и комплектациях.
3// КОРРЕЛЯЦИИ ФАКТОРОВ И ЦЕНЫ AUDI
Корреляционная матрица отображает взаимосвязи между ценой и основными числовыми характеристиками автомобилей. Наиболее сильная положительная корреляция наблюдается между ценой и годом выпуска, а также объёмом двигателя, в то время как пробег имеет выраженную отрицательную корреляцию с ценой.
4// ТОП-3 САМЫХ ПОПУЛЯРНЫХ МОДЕЛЕЙ AUDI
Круговая диаграмма показывает распределение самых популярных моделей в датасете. Лидирующую позицию занимает Audi A3, за ней следуют модели A4 и Q3. Остальные модели объединены в отдельную категорию, что подчёркивает их меньшую представленность в данных.
ВЫВОД
В ходе анализа были проанализированы ценовые характеристики автомобилей Audi и выявлены основные факторы, влияющие на формирование стоимости. Анализ показал, что рынок автомобилей Audi характеризуется выраженным средним ценовым сегментом при наличии ограниченного числа моделей высокой ценовой категории. Зависимость цены от пробега носит устойчивый отрицательный характер: по мере увеличения пробега стоимость автомобиля в среднем снижается, особенно заметно это для автомобилей с небольшим пробегом, где наблюдается наибольший разброс цен.
Корреляционный анализ подтвердил, что наиболее значимое влияние на цену оказывают год выпуска и объём двигателя, в то время как пробег является одним из ключевых факторов снижения стоимости. Популярность моделей при этом не всегда напрямую связана с их ценой, что указывает на различия между массовыми и более дорогими сегментами внутри бренда.
Этот проект помог мне самому разобраться, как формируется цена автомобилей Audi и какие параметры на неё реально влияют. В процессе работы стало понятнее, почему одни машины стоят дороже других, как пробег снижает стоимость и как внутри одного бренда выделяются разные ценовые категории.
ИСПОЛЬЗОВАННЫЕ СТАТИСТИЧЕСКИЕ МЕТОДЫ
В ходе анализа данных по автомобилям Audi были применены следующие статистические методы и аналитические приёмы:
• Анализ распределений — использовался для исследования распределения цен автомобилей. Гистограмма позволила оценить форму распределения, асимметрию и концентрацию значений, а оценка плотности распределения (KDE) — выявить сглаженную структуру ценового диапазона.
• Непараметрическая оценка плотности (KDE) — применялась для визуального восстановления вероятностного распределения цен. Масштабирование KDE к числу наблюдений позволило корректно сопоставить её с гистограммой частот.
• Регрессионный анализ — использовался для изучения зависимости цены автомобиля от пробега. Применение логарифмической модели позволило выявить нелинейный характер убывания цены при увеличении пробега.
• Анализ взаимосвязей (корреляционный анализ) — применялся для оценки силы и направления связей между ценой и техническими характеристиками автомобиля (год выпуска, пробег, расход топлива, объём двигателя, налог). Коэффициенты корреляции позволили количественно оценить вклад каждого фактора.
• Визуальный корреляционный анализ — реализован с помощью тепловой карты корреляций, что обеспечило наглядное сравнение интенсивности связей между всеми рассматриваемыми переменными.
• Частотный анализ категориальных данных — использовался для определения наиболее популярных моделей автомобилей Audi. Агрегация и визуализация долей позволили сравнить вклад ключевых моделей относительно всех остальных.
ОПИСАНИЕ ПРИМЕНЕНИЯ ГЕНЕРАТИВНОЙ МОДЕЛИ И ВСПОМОГАТЕЛЬНЫХ ИНСТРУМЕНТОВ
1. Google Colab — Весь процесс работы: обработка данных и визуализация.
2. Kaggle — Платформа была использована для поиска и загрузки датасета.
3. Библиотеки Python kagglehub — для автоматического скачивания датасета matplotlib.font_manager — для подключения кастомного шрифта pandas — использовалась для загрузки датасета, очистки, преобразования и анализа табличных данных. matplotlib — основной инструмент для построения визуализаций в проекте. numpy — применялась для работы с числовыми данными и расчёта вспомогательных величин при построении графиков. seaborn — использовалась для построения гистограммы и сглаженной кривой распределения (KDE)
4. Цветовая палитра (Adobe Color)
5. recraft.ai (https://www.recraft.ai/projects) — Использовал для генерации обложки и иллюстраций.
6. ChatGPT — Нейросеть применялась для генерации и оптимизации кода, настройки визуального стиля графиков и корректировки функций анализа.