Original size 1024x1365

Анализ и визуализация данных Amazon Bestsellers

PROTECT STATUS: not protected
4

Вводная часть

Для анализа я выбрала датасет «Amazon Top 50 Bestselling Books 2009-2019», который был найден мной на сайте:

https://www.kaggle.com/datasets/sootersaalu/amazon-top-50-bestselling-books-2009-2019/download?datasetVersionNumber=1

Этот датасет содержит информацию о 550 бестселлерах Amazon за период с 2009 по 2019 год. Данные представлены в CSV-формате и включают следующие колонки: название книги, автор, пользовательский рейтинг, количество отзывов, цена, год попадания в топ, и жанр (художественная/нехудожественная литература).

Эти данные представляют ценность по нескольким причинам. Например, они позволяют проанализировать тенденции на книжном рынке за десятилетие и дают понимание, какие типы книг становятся бестселлерами. Также они показывают взаимосвязь между ценой, рейтингом и популярностью книг.

Этапы работы

Для визуализации данных были выбраны следующие графики:

- Точечная диаграмма чтобы показать зависимость между ценой и количеством отзывов с цветовым кодированием по рейтингу.

- Круговуая диаграмма для отображения распределения книг по жанрам.

- Гистограмма для сравнения распределения цен по жанрам.

- Линейный график для демонстрации динамики средней цены книг по годам.

big
Original size 2162x839

Подготовка данных

В начале работы были импортированы необходимые библиотеки: pandas, matplotlib, numpy. Далее следует импорт скачанного датасета в csv формате.

Original size 2443x315

Следующим этапом работы стала настройка визуализации данных. Я выбрала темный фон для графиков с контрастными цветами, чтобы создать элегантный и современный вид. Основные элементы стиля:

- Темный фон (#333333) - Пользовательская цветовая палитра - Шрифт Roboto Slab для заголовков и подписей

Original size 2443x632

График № 1

Далее я построила фигуру размером 20×20 дюймов с сеткой 2×2 для четырех различных визуализаций. Добавила общий заголовок «Визуализация данных». Фон всей фигуры темно-серый (#333333).

Original size 2443x174

В первом субплоте я создала scatter plot, где: - По оси X — цена книг - По оси Y — количество отзывов

Цвет точек соответствует рейтингу (используется прописанная цветовая карта). Прозрачность 70% помогает различать перекрывающиеся точки.

Далее я добавила подписи осей, заголовок, настроила цвет и размер шрифта всех текстовых элементов. Сетка полупрозрачная серая линия для лучшей читаемости. Цветовая шкала справа объясняет соответствие цветов значениям рейтинга.

Original size 2443x406
Original size 2679x2373

График № 1

График № 2

Во втором субплоте строится pie chart, показывающий соотношение художественной и нехудожественной литературы в датасете. Используя метод value_counts для подсчета книг каждого жанра. Диаграмма включает:

- Ярлыки с названиями жанров - Процентные значения с точностью до десятых - Цвета из нашей палитры - Белый текст с нашим шрифтом

Original size 2443x196
Original size 2997x2923

График № 2

График № 3

В третьем субплоте я создала гистограмму, в которой для каждого жанра строится отдельный столбец.

- По оси X — ценовые диапазоны (10 бинов) - По оси Y — количество книг в каждом диапазоне

Разные жанры книг проиллюстрированы разными цветами из заранее прописанной цветовой палитры. Также я добавила легенду для идентификации жанров.

Original size 2443x499
Original size 3381x2822

График № 3

График № 4

В последнем субплоте я отобразила динамику изменения средней цены книг-бестселлеров с 2009 по 2019 год. Для этого я сгруппировала данные по году. Затем вычислила среднюю цену для каждого года. После этого построила линию с маркерами в виде кружков. Далее я использовала четвертый цвет из палитры. Добавляем сетку для удобства чтения значений.

Original size 2443x414
Original size 2450x2092

График № 4

Визуализация данных

Финальным этапом работы была регулировка отступов между субплотами с помощью subplots_adjust (), чтобы все элементы визуализации правильно помещались и не перекрывали друг друга. Параметры top, bottom, left, right задают отступы от краев фигуры, а hspace и wspace — расстояния между графиками по вертикали и горизонтали.

Original size 2443x115

Финальная команда plt.show () выводит на экран всю созданную визуализацию.

Original size 2443x110

Выводы:

Итоговый результат проделанной мной работы представляет собой информативную панель из четырех взаимодополняющих графиков, выполненных в едином стиле. Каждая визуализация раскрывает определенный аспект данных. Scatter plot показывает взаимосвязь цены, популярности и рейтинга, pie chart демонстрирует соотношение жанров, histogram выявляет распределение ценовых категорий, line graph отслеживает динамику изменения цен за 10 лет

Все элементы оформления согласованы между собой: одинаковые шрифты, цветовая схема, стиль подписей и сетки. Это создает целостное восприятие и облегчает анализ информации.

Original size 1712x1778
Анализ и визуализация данных Amazon Bestsellers
4
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more