Original size 1140x1600

Как выбрать идеальный автомобиль в США

PROTECT STATUS: not protected

Введение

Для исследования я остановилась на наборе данных ALL_CARS_DATA, который охватывает свыше 260 тысяч автомобилей, представленных на первичном и вторичном рынках США. Этот датасет содержит разнообразные параметры: бренд, модель, год выпуска, пробег, тип кузова, ценовой диапазон, оценки пользователей, число отзывов и сведения о расположении дилеров. Источником послужил общедоступный репозиторий, а данные были специально структурированы для задач изучения рынка, прогнозирования стоимости и анализа впечатлений покупателей.

Выбор этого набора данных обоснован их уникальными преимуществами:

Широта охвата; Современность; Универсальность; Наглядность.

Наша цель — проверить предположения: Стоимость машины определяется её маркой, возрастом, пробегом и страной производства. Оценки пользователей связаны с типом кузова и возрастом автомобиля. Машины из Европы и Японии превосходят американские по надёжности, судя по рейтингам и отзывам. Регионы США демонстрируют разные предпочтения по стоимости и типу авто.

Для анализа и подтверждения гипотез мы разработали следующий набор графиков:

Диаграмма размаха (Boxplot): Выявляет разброс цен и медианные значения для разных брендов или возрастных групп, упрощая сравнение. Круговая диаграмма: Иллюстрирует доли типов кузова или происхождения марок, подчёркивая рыночные пропорции. Столбчатая диаграмма: Демонстрирует средние рейтинги брендов, помогая оценить доверие покупателей. Точечная диаграмма (Scatter): Раскрывает связь между пробегом и ценой, позволяя заметить тенденции. Тепловая карта: Показывает силу взаимосвязей между факторами (цена, возраст, рейтинг), выделяя ключевые зависимости.

Этапы работы

Зелёный цвет выбран как акцентный элемент в минималистичной палитре, чтобы подчёркивать важные данные на светлом фоне без перегрузки восприятия. Он вызывает ассоциации с стабильностью и доверием, поэтому хорошо подходит для визуализации цен, пробега и рейтингов.

В ходе работы был использован Google collab для написания кода и визуализации данных.

Ниже представлены визуализации, которые раскрывают влияние факторов на цену и рейтинг автомобилей, подтверждая или опровергая наши предположения.

График 1: Распределение цен по брендам (Boxplot)

Цель: Понять, какова ценовая разбивка у самых популярных брендов. Мы выделили бренды, встречающиеся более 1000 раз в базе, чтобы избежать статистического шума.

0

Боксплот по популярным брендам показал значительный разброс цен внутри каждой марки, особенно у премиальных производителей, что указывает на широкий ассортимент моделей в различных ценовых сегментах. Лидеры цен: Porsche, Mercedes-Benz. Стабильные цены и популярность: Audi, Ford, Jeep.

График 2: Распределение брендов (Pie chart) и (Barplot)

Цель: Визуализировать, какие бренды наиболее популярны в выборке.

0
0

Более 50% автомобилей приходится на 7 брендов, остальные разделяют меньшую долю. Это отражает рыночную концентрацию и доминирование определённых производителей.

Самый популярная марка Ford и Mercedes-Benz.

График 3: Средний рейтинг по типу кузова (Barplot)

Цель: Понять, влияет ли тип кузова на пользовательскую оценку.

0

Наивысшие рейтинги получают кроссоверы и купе — это может быть связано как с их комфортом, так и с имиджем. Минивэны и пикапы, напротив, получают более низкие оценки, несмотря на практичность.

График 4: Цена в зависимости от пробега (Scatterplot)

Цель: Исследовать, как изменяется цена автомобиля с увеличением пробега.

0

График показал, что у большинства топ-10 моделей автомобилей цена снижается с увеличением пробега, подтверждая обратную зависимость между этими показателями.

График 5: Корреляция между рейтингом, пробегом и ценой

Цель: Понять взаимосвязь между числовыми параметрами.

0

Тепловая карта показала, что между пробегом и ценой существует умеренно отрицательная корреляция, а рейтинг слабо коррелирует с другими показателями, что указывает на его относительную независимость.

График 6: Средняя цена по типу кузова

Цель: Сравнить, какие типы кузова обходятся дороже.

0

График показал, что средняя цена значительно варьируется в зависимости от типа кузова, при этом самые дорогие — это купе и внедорожники.

График 7

0

Между ценой и рейтингом автомобилей не наблюдается чёткой зависимости: как дешёвые, так и дорогие модели могут получать высокие или низкие оценки, что указывает на важность пользовательского опыта, а не стоимости.

Заключение

Проведённое исследование на основе датасета ALL_CARS_DATA.csv позволило проанализировать ключевые параметры автомобилей — цену, пробег, рейтинг, тип кузова, бренд и модель — с помощью визуализации на языке Python. Построенные графики отразили важные рыночные закономерности: распределение цен по брендам показало различия в ценовой политике производителей, круговая диаграмма отразила структуру брендов на рынке, а анализ средней стоимости по типам кузова — потребительские предпочтения по форм-фактору автомобилей.

Дополнительные визуализации выявили обратную зависимость между пробегом и ценой, а также умеренную корреляцию между рейтингом, пробегом и стоимостью, что позволило глубже понять поведение покупателей и логику ценообразования. Эти результаты могут быть полезны для стратегического планирования автодилеров, маркетинговых отделов и аналитиков автомобильной отрасли.

Использованные данные

Как выбрать идеальный автомобиль в США
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more