
Введение
Для исследования я остановилась на наборе данных ALL_CARS_DATA, который охватывает свыше 260 тысяч автомобилей, представленных на первичном и вторичном рынках США. Этот датасет содержит разнообразные параметры: бренд, модель, год выпуска, пробег, тип кузова, ценовой диапазон, оценки пользователей, число отзывов и сведения о расположении дилеров. Источником послужил общедоступный репозиторий, а данные были специально структурированы для задач изучения рынка, прогнозирования стоимости и анализа впечатлений покупателей.
Выбор этого набора данных обоснован их уникальными преимуществами:
Широта охвата; Современность; Универсальность; Наглядность.
Наша цель — проверить предположения: Стоимость машины определяется её маркой, возрастом, пробегом и страной производства. Оценки пользователей связаны с типом кузова и возрастом автомобиля. Машины из Европы и Японии превосходят американские по надёжности, судя по рейтингам и отзывам. Регионы США демонстрируют разные предпочтения по стоимости и типу авто.
Для анализа и подтверждения гипотез мы разработали следующий набор графиков:
Диаграмма размаха (Boxplot): Выявляет разброс цен и медианные значения для разных брендов или возрастных групп, упрощая сравнение. Круговая диаграмма: Иллюстрирует доли типов кузова или происхождения марок, подчёркивая рыночные пропорции. Столбчатая диаграмма: Демонстрирует средние рейтинги брендов, помогая оценить доверие покупателей. Точечная диаграмма (Scatter): Раскрывает связь между пробегом и ценой, позволяя заметить тенденции. Тепловая карта: Показывает силу взаимосвязей между факторами (цена, возраст, рейтинг), выделяя ключевые зависимости.
Этапы работы
Зелёный цвет выбран как акцентный элемент в минималистичной палитре, чтобы подчёркивать важные данные на светлом фоне без перегрузки восприятия. Он вызывает ассоциации с стабильностью и доверием, поэтому хорошо подходит для визуализации цен, пробега и рейтингов.
В ходе работы был использован Google collab для написания кода и визуализации данных.
Ниже представлены визуализации, которые раскрывают влияние факторов на цену и рейтинг автомобилей, подтверждая или опровергая наши предположения.
График 1: Распределение цен по брендам (Boxplot)
Цель: Понять, какова ценовая разбивка у самых популярных брендов. Мы выделили бренды, встречающиеся более 1000 раз в базе, чтобы избежать статистического шума.
Боксплот по популярным брендам показал значительный разброс цен внутри каждой марки, особенно у премиальных производителей, что указывает на широкий ассортимент моделей в различных ценовых сегментах. Лидеры цен: Porsche, Mercedes-Benz. Стабильные цены и популярность: Audi, Ford, Jeep.
График 2: Распределение брендов (Pie chart) и (Barplot)
Цель: Визуализировать, какие бренды наиболее популярны в выборке.
Более 50% автомобилей приходится на 7 брендов, остальные разделяют меньшую долю. Это отражает рыночную концентрацию и доминирование определённых производителей.
Самый популярная марка Ford и Mercedes-Benz.
График 3: Средний рейтинг по типу кузова (Barplot)
Цель: Понять, влияет ли тип кузова на пользовательскую оценку.
Наивысшие рейтинги получают кроссоверы и купе — это может быть связано как с их комфортом, так и с имиджем. Минивэны и пикапы, напротив, получают более низкие оценки, несмотря на практичность.
График 4: Цена в зависимости от пробега (Scatterplot)
Цель: Исследовать, как изменяется цена автомобиля с увеличением пробега.
График показал, что у большинства топ-10 моделей автомобилей цена снижается с увеличением пробега, подтверждая обратную зависимость между этими показателями.
График 5: Корреляция между рейтингом, пробегом и ценой
Цель: Понять взаимосвязь между числовыми параметрами.
Тепловая карта показала, что между пробегом и ценой существует умеренно отрицательная корреляция, а рейтинг слабо коррелирует с другими показателями, что указывает на его относительную независимость.
График 6: Средняя цена по типу кузова
Цель: Сравнить, какие типы кузова обходятся дороже.
График показал, что средняя цена значительно варьируется в зависимости от типа кузова, при этом самые дорогие — это купе и внедорожники.
График 7
Между ценой и рейтингом автомобилей не наблюдается чёткой зависимости: как дешёвые, так и дорогие модели могут получать высокие или низкие оценки, что указывает на важность пользовательского опыта, а не стоимости.
Заключение
Проведённое исследование на основе датасета ALL_CARS_DATA.csv позволило проанализировать ключевые параметры автомобилей — цену, пробег, рейтинг, тип кузова, бренд и модель — с помощью визуализации на языке Python. Построенные графики отразили важные рыночные закономерности: распределение цен по брендам показало различия в ценовой политике производителей, круговая диаграмма отразила структуру брендов на рынке, а анализ средней стоимости по типам кузова — потребительские предпочтения по форм-фактору автомобилей.
Дополнительные визуализации выявили обратную зависимость между пробегом и ценой, а также умеренную корреляцию между рейтингом, пробегом и стоимостью, что позволило глубже понять поведение покупателей и логику ценообразования. Эти результаты могут быть полезны для стратегического планирования автодилеров, маркетинговых отделов и аналитиков автомобильной отрасли.
Использованные данные