Original size 1140x1600

Анализ книжной литературы

PROTECT STATUS: not protected
The project is taking part in the competition

Описание проекта

В своём проекте я решила сосредоточиться на теме, которая мне действительно близка, — книгах и читательском восприятии литературы. Мне всегда было интересно, почему одни книги становятся культовыми и годами удерживаются в рейтингах, а другие быстро исчезают из поля внимания, несмотря на популярность в момент выхода. Именно этот вопрос и стал отправной точкой для анализа.

Основой проекта стал датасет с информацией о книгах и их рейтингах на Kaggle. В нём собраны данные о годах публикации, жанрах, средних оценках, количестве читателей и активности авторов. Эти данные позволяют посмотреть на литературу как на систему, в которой пересекаются вкус аудитории, время, жанровые тренды и масштаб популярности.

Инструменты: Kagglehub, Pandas, Matplotlib, Matplotlib.font_manager, Google Colab, NumPy

big
Original size 1280x815

В своей работе я старалась проследить, как за последние десятилетия менялось читательское внимание, какие жанры выходили на первый план, как соотносятся массовый успех и «элитное» качество, а также кто именно формирует современный книжный канон — отдельные авторы или устойчивые жанровые формулы.

Для анализа я использовала такие типы визуализаций: (01) Lollipop Chart (02) Нормированная диаграмма с накоплением по времени (03) Пузырьковая диаграмма (04) Линейный график

Original size 1280x815

Все графики были собраны в едином визуальном стиле, чтобы проект воспринимался как цельное исследование, а не набор разрозненных диаграмм.

Цветовая палитра

Цвета для визуализаций я взяла из уже сложившегося визуального настроения проекта. Хотелось создать ощущение спокойного, «книжного» пространства, но при этом не уходить совсем в эстетику нюанса.

Для удобства все цвета были собраны в палитру Adobe Color. Шрифтовое решение Merriweather.

Original size 1600x984

Цвета: #F7F1D6, #835C2D, #CBEEFD, #658294

Визуализация данных

(01) Lollipop Chart

В процессе исследования были задействованы разные аналитические методы. В первом графике использовались: - Ранжирование и отбор экстремальных значений. Использовались для формирования топ-10 книг по рейтингу Goodreads (с учётом количества оценок) и для определения лучших книг каждого года. Это позволило выделить наиболее высоко оценённые произведения и снизить влияние случайных высоких оценок при малом числе отзывов.

- Взвешенный визуальный анализ. Реализован через диаграммы с изменяемым размером маркеров, где размер точки отражал количество пользовательских оценок. Такой подход позволил одновременно учитывать как качество (рейтинг), так и массовость восприятия книги.

0

Топ-10 книг по рейтингу Goodreads c 2013 года.

По оси X отображён рейтинг, а размер точки показывает количество оценок. Видно, что высокий рейтинг не всегда означает массовую популярность: одни книги имеют много оценок и стабильно высокие баллы, другие — меньшую аудиторию, но очень высокое читательское одобрение. В топе представлены разные жанры, от фэнтези до документальной прозы, что показывает, что высокий рейтинг возможен независимо от жанра.

(02) Нормированная диаграмма с накоплением по времени

Во втором графике использовались: - Временной анализ (time series analysis). Применён для изучения динамики литературных рейтингов и жанровых предпочтений во времени. Это позволило выявить долгосрочные изменения в структуре популярных книг и оценить устойчивость высоких рейтингов.

- Структурный жанровый анализ. Выполнен путём агрегации и нормализации жанровых данных, что позволило рассчитать доли жанров среди наиболее популярных книг каждого года и визуализировать «жанровую ДНК» литературного рынка.

0

Жанровая ДНК популярных книг с 1980 по 2023 год.

Видно, что в разные периоды доминировали разные жанры: в 1980–1990-х заметную долю занимают художественная литература, юмор и комиксы, тогда как с конца 2000-х годов резко растёт влияние фэнтези и подростковая литература. Жанры детский графический роман появляются волнообразно, отражая смену поколений читателей и трендов. Большая доля категории другие подчёркивает жанровое разнообразие и то, что популярная литература не сводится к ограниченному набору направлений.

(03) Пузырьковая диаграмма

Во третьем графике использовались: - Агрегация по авторам и многомерный сравнительный анализ. Использовались для расчёта средних рейтингов, количества книг в топе и совокупного числа читателей для авторов. Это позволило оценить «литературный вес» авторов с учётом сразу нескольких показателей.

- Логарифмическое масштабирование. Применялось при визуализации суммарного числа читателей авторов для корректного отображения значений, сильно различающихся по порядкам величины.

0

Соотношение среднего рейтинга авторов на Goodreads и количества их книг, вошедших в топ.

Размер пузыря отражает суммарное число читателей, поэтому крупные точки указывают на авторов с максимальным охватом аудитории. Видно, что такие авторы, как Стивен Кинг и Терри Пратчетт, выделяются большим количеством книг и огромной читательской базой, даже при среднем рейтинге около 4.0–4.2. В то же время авторы с более высокими рейтингами, например Илона Эндрюс или Нил Гейман, часто имеют меньше книг в топе, но при этом сохраняют сильную и лояльную аудиторию. График показывает, что литературное влияние формируется не только за счёт высоких оценок, но и за счёт объёма работ и масштаба читательского интереса.

(04) Линейный график

Во четвёртом графике использовались: - Сравнительный анализ распределений внутри выборки. Реализован через сопоставление рейтинга лучшей книги года (Top-1) и медианного рейтинга топ-100 книг. Такой подход позволил оценить разрыв между литературной «элитой» и более широким кругом успешных произведений.

- Временной сравнительный анализ агрегированных показателей. Реализован через сочетание методов группировки данных, агрегации и визуализации. Это позволяет увидеть не только то, как менялись оценки книг, но и насколько «элитная» книга года отрывалась от других успешных произведений (ширина закрашенной области).

0

Рейтинг лучшей книги года (топ-1) и медианный рейтинг топ-100 книг с 1980 по 2023 год.

Видим, что лучшие книги стабильно получают значительно более высокие оценки — в среднем около 4.6–4.8, тогда как медианный рейтинг топ-100 держится на уровне около 4.0–4.2. Это подчёркивает разрыв между «литературной элитой» и массово популярными книгами. При этом со временем медианный рейтинг топ-100 постепенно растёт, что может говорить о повышении общего качества популярных книг или изменении читательских критериев оценки.

Вывод

Анализ данных показал, что популярная литература представляет собой сложную систему, в которой высокий рейтинг и массовая популярность не всегда совпадают. Лучшие книги года стабильно получают более высокие оценки, однако самые читаемые произведения часто имеют более средний рейтинг, что подчёркивает разницу между качественным признанием и широким успехом. Жанровый анализ выявил заметные сдвиги во времени: если в 1980–1990-е годы доминировали художественная литература, юмор и комиксы, то с конца 2000-х годов лидирующие позиции заняли фэнтези и подростковые. Эти жанры формируют основную часть читательской активности и отражают влияние современных медиа и серийного формата. Анализ авторов показал, что литературное влияние может строиться по-разному: одни авторы достигают его за счёт большого количества книг и широкой аудитории, другие — благодаря высоким рейтингам и лояльным читателям.

Мой проект показал как культовый статус и массовая популярность формируются по разным сценариям: первые чаще связаны с устойчиво высокими оценками и долгосрочным признанием, тогда как вторые зависят от жанра, масштаба аудитории и актуальных читательских трендов. Визуализация данных помогает увидеть эти различия и лучше понять, как современная литература балансирует между качеством, вниманием читателей и временем.

Описание применения генеративной модели

  • Adobe Color использовался для создания цветовой палитры

  • ChatGPT использовался для оптимизации и генерации фрагментов кода.

  • recraft.ai использовался для генерации обложки и иллюстраций проекта

Промпты: 1. A quiet interior scene with tall bookshelves filled with books, a large window divided into square panes, soft daylight streaming inside and creating gentle light rays, a simple table lamp softly glowing in the center, dust and grain in the air, muted dark green and beige color palette, minimalist composition, atmospheric illustration, contemplative and calm mood (обложка) 2. A vast timeless library with endless bookshelves, soft sunlight falling from above, dust particles in the air, a single human figure walking between shelves, sense of curiosity and discovery, cinematic illustration, calm color palette, slightly vintage, contemplative mood (1 изображение) 3. A cozy evening scene in a small room filled with books: a person sitting by a window, warm light from a table lamp, stacks of novels around, soft shadows on the walls, rain outside the window, calm and intimate atmosphere, painterly illustration style, muted warm colors, slight grain texture, storytelling mood (2 изображение)

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more