
Датасет, который я выбрала (с Kaggle), содержит 1000 самых популярных для обмена книг с информацией о названии, авторе, жанре, годе издания, рейтинге, стране популярности, наличии экранизаций и наград. Эти данные отражают глобальные читательские предпочтения, связь между литературой и кино, влияние культурных факторов на популярность книг. Особенно интересна связь между возрастом целевой аудитории и рейтингами, а также распределение популярности по десятилетиям.
Виды графиков
Я выбрала следующие виды графиков:
1. Тепловая карта выбрана для визуализации распределения по десятилетиям, так как цветовая интенсивность лучше показывает волны популярности, чем отдельные столбцы.
2. Горизонтальная столбчатая диаграмма использована для жанров, потому что длинные названия удобнее читать слева направо.
3. Вертикальные столбчатые диаграммы использованы для сравнения категорий по средним значениям (рейтинги) и абсолютным количествам (страны), так как это самый прямой и привычный формат для визуального сравнения дискретных величин.
Этапы работы
Настройка среды и импорт библиотек
Первым делом была настроена среда для анализа. Импортированы библиотеки Pandas для работы с табличными данными.

Загрузка и установка шрифта Inter
С сервера GitHub загружен современный шрифт Inter, который был зарегистрирован в системе и установлен как основной для всех графиков. Это придало визуализациям профессиональный и единообразный вид. Шрифт Inter — популярный в веб-дизайне. Он лаконичный, простой и отлично вписывается в диаграммы, потому что его легко воспринимать.
Настройка стиля
Чтобы все графики выглядели как часть одного проекта, были заданы глобальные параметры стиля. Заданы белые фоны и согласованные размеры шрифтов для заголовков и подписей. Эта настройка обеспечила стилистическое единство всех последующих визуализаций.
Загрузка и предобработка данных
Данные были загружены из CSV-файла. В процессе предобработки столбец с годом издания преобразован в числовой формат, удалены строки с пропущенными значениями, а также отфильтрованы редкие записи с отрицательными годами (ошибки исходных данных). Для анализа временных трендов создан новый столбец с десятилетием издания, что позволило группировать книги по 10-летним периодам.
Графики
Для каждого графика выполнялись следующие действия: 1. Подготовка данных 2. Создание фигуры и осей с заданными размерами 3. Настройка визуальных элементов (цвета, шрифты, отступы) 4. Добавление значений на графики 5. Настройка осей (диапазоны, метки, поворот подписей) 6. Удаление лишних элементов (сетка, рамки)
Для создания гармоничного визуального ряда разработана собственная цветовая палитра. Были определены три основные гаммы: синяя градиентная для тепловой карты, коралловая для диаграммы жанров и фиолетовая для рейтинга стран. Цвета подбирались так, чтобы они были достаточно контрастными для восприятия, но при этом сочетались между собой. Для третьего графика сознательно использована комбинация цветов из других визуализаций (синий, коралловый, сиреневый), чтобы подчеркнуть связь между всеми элементами исследования.
Визуализация подтверждает, что современный список популярных книг сформирован преимущественно произведениями, изданными за последние 40-50 лет.
Горизонтальная диаграмма наглядно демонстрирует абсолютное лидерство жанров Фэнтези и Научная фантастика по количеству экранизаций. За ними с заметным отрывом следуют классические жанры: драма, триллер и роман. Эта визуализация чётко подтверждает гипотезу о том, что масштабные, визуально-эффективные миры фэнтези и sci-f наиболее адаптируемы для большого экрана.
Столбчатая диаграмма с разными цветами выявляет любопытный паттерн: книги, маркированные для детей, имеют наивысший средний рейтинг. Книги для молодых взрослых идут следом, а «взрослая» литература замыкает тройку. Это можно интерпретировать несколькими способами: возможно, книги для детей и подростков чаще читаются в позитивном, разделённом с семьёй или друзьями контексте, что влияет на оценку. Или же эти категории просто более однородны по качеству, тогда как взрослая литература имеет больший разброс от шедевров до средних произведений, что снижает средний балл.
Диаграмма визуализирует абсолютное доминирование англоязычного культурного пространства. Это прямо указывает на то, что глобальный книжный рынок и механизмы формирования популярности в значительной степени контролируются издательскими системами таких стран, как США и Великобритания.
Итоги
1. Основной массив современных бестселлеров сформировался за последние 40-50 лет, с пиком в 2000-е годы.
2. Фэнтези и научная фантастика лидируют по адаптациям, а литература для детей и подростков стабильно получает самые высокие читательские оценки.
3. Популярность на мировом уровне практически немыслима без связи с издательскими системами США или Великобритании.
Путь книги к глобальному признанию сегодня чаще всего определяется её происхождением из англо-американского культурного пространства, публикацией на рубеже XXI века и принадлежностью к жанрам с высоким экранным или молодёжным потенциалом.
Использованные инструменты и генеративные модели
1. Gemini — исправление ошибок в кодах, анализ графиков 2. Google Collab — работа с датасетом, создание графиков