
Описание проекта
Этот проект — мой анализ книжного мира через данные. Я взяла огромный список из 15 тысяч книг от романов Стивена Кинга до учебников по Python и попыталась понять, что он может рассказать.
Мне было интересно увидеть, что именно мы читаем, кто это пишет и как менялись тренды со временем.
Для графиков я выбрала цвета, которые напоминают мне о книгах: тёплые оттенки коричневой обложки, бежевой страницы и дерева полки, чтобы всё выглядело уютно и по-книжному.
Я построила четыре ключевых графика, и каждый из них показал мне что-то своё.
Первый график просто и наглядно ответил на вопрос: каких книг больше всего? Оказалось, что в этом списке лидируют книги по программированию, бизнесу и психологии.
Второй график показал, когда эти книги выходили. На линии хорошо виден резкий взлёт — пик публикаций пришёлся на последние годы. Это значит, что информация в мире не просто накапливается, а издаётся с возрастающей скоростью.
Третий график помог найти авторов с самым большим количеством книг в списке. Здесь оказались и классики вроде Агаты Кристи, и современные авторы нон-фикшена. Это как бы костяк, на котором держится многое.
Наконец, облако слов из названий получилось самым живым и неожиданным. Оно показало, какими словами мы называем книги. Большие слова «Python», «Guide», «Learning» говорят сами за себя. Сегодня мы чаще покупаем книги не для удовольствия, а для того, чтобы чему-то научиться.
В итоге, цифры сложились для меня в довольно чёткую картину: современный книжный рынок, по крайней мере в этом списке. Это в первую очередь про практические знания, навыки и саморазвитие. Художественная литература есть, но её почти не видно на фоне учебников и пособий. Данные чётко показали, что наша эпоха ценит в книгах не столько красоту слога, сколько полезность.
Цветовая палитра

Палитра в Coolors

Код для палитры
Графики
График № 1
График № 1
Код для графика № 1
Этот график показывает, какие темы и жанры издаются чаще всего. Первое, что бросается в глаза — перевес в сторону практических знаний. В тройке лидеров стабильно оказываются программирование, бизнес и психология. Это чёткий сигнал о главном запросе современного читателя: книги сегодня покупают не столько для развлечения, сколько для того, чтобы решить конкретную проблему, прокачать навык или разобраться в себе.
При этом график выявляет интересный парадокс. Несмотря на огромное разнообразие категорий в датасете, львиная доля всех книг сконцентрирована всего в нескольких из них. Это говорит о высокой специализации рынка: издательства массово вкладываются в проверенные, коммерчески успешные ниши, в то время как многие другие жанры представлены скромнее.
Интересно и то, что в топе нет классической художественной литературы вроде романов или поэзии. Её место заняли «интеллектуальные» жанры: исторические, философские, политические книги, а также литература по медицине. Это меняет привычное представление о книжном магазине: сегодня его ассортимент больше напоминает полку для самообразования, где каждая книга — это инструмент или инструкция. Данные наглядно показывают, что в эпоху цифровых развлечений бумажная книга находит свою новую сильную сторону. Она становится источником глубокого, структурированного знания, а не просто способом провести время.
График № 2
График № 2
Код для графика № 2
Этот график — история издательской активности за последние десятилетия. Линия резко взлетает вверх, и это не просто рост, а настоящий информационный взрыв. Если в начале графика мы видим скромные цифры, то к пиковым годам количество публикуемых книг увеличивается в разы. Пик графика — это конкретный год, когда вышло рекордное количество книг из нашего списка. Это говорит о том, что мы живём в эпоху, когда знание производится и упаковывается в книги с невероятной скоростью.
Причина такого бума лежит на поверхности — цифровизация. Появление электронных книг, печать по требованию и онлайн-платформы для авторов вроде Amazon KDP полностью изменили правила игры. Издать книгу сегодня может практически любой эксперт, блогер или специалист. Рынок перестал быть элитарным, и график это прекрасно показывает: кривая подъёма совпадает с распространением доступных издательских технологий.
Однако за этим впечатляющим ростом скрывается важный нюанс. Стремительный взлёт линии может отражать не только реальное увеличение числа качественных книг, но и эффект инфошума, когда значительный объём публикаций составляют переиздания, адаптации, поверхностные гайды или переводы одной и той же популярной темы. График показывает количество, но не качество. Так, график фиксирует рост количества, но не гарантирует рост качества. Мы видим, что информации стало больше, но не факт, что она стала разнообразнее или глубже. Это главный парадокс современного книжного рынка, который отлично виден в цифрах.
График № 3
График № 3
Код для графика № 3
График показывает авторов, чьи книги чаще всего попадают в рекомендации и подборки. Топ состоит из двух чётких типов писателей.
Первый тип — классики-долгожители, чьи имена стали брендом. Это авторы вроде Агаты Кристи или Стивена Кинга. Их книги продолжают массово переиздавать и включать в каталоги десятилетия спустя. Это показатель культурного наследия и неувядающей популярности.
Второй тип — авторы-эксперты из мира нон-фикшн. Это писатели вроде Малкольма Гладвелла или специалистов по бизнесу и психологии. Их высокая представленность отражает современный спрос на экспертное знание. Они выпускают много книг, потому что рынок требует постоянных новых инструкций, исследований и взглядов на актуальные темы.
Интересно, что в этом топе практически нет современных авторов чистой художественной литературы (романистов). Это подтверждает тренд, который мы видели в первом графике: рынок отдаёт приоритет не истории, а знанию. Самые востребованные авторы сегодня — либо классики, чьи истории прошли проверку временем, либо эксперты, которые описывают полезную информацию.
График № 4
График № 4
Код для графика № 4
Этот график показывает, какими словами мы называем книги. Он читается как прямое заявление о нашем времени.
Самые большие и заметные слова — «Python», «JavaScript», «Java». Это не просто термины, а главные герои современной литературы. Их размер говорит о том, что книги по программированию не просто существуют. Они доминируют, формируя целый пласт издательской продукции. Это язык новой грамотности.
Рядом с ними — слова «Guide», «Learning», «Development», «Introduction». Вместе они складываются в руководство по изучению разработки на Python. Это готовая формула успешной книги сегодня. Названия почти не оставляют места для двусмысленности. Они прямые, функциональные, как заголовок инструкции.
Примечательно, что почти нет слов, связанных с вымыслом, фантазией или чистыми эмоциями. Нет «тайны», «любви», «приключения», «души». Облако слов подтверждает главный вывод всего исследования: современный книжный рынок, отражённый в данных, прежде всего рынок знаний и навыков, а не историй. Книга сегодня — это инструмент, а не окно в другой мир. Названия кричат о том, чему мы можем научиться, а не о том, что можем почувствовать.
Выводы
Анализ данных 15 000 книг показал чёткую и недвусмысленную картину: современный книжный рынок — это рынок знаний, а не развлечений.
Главный запрос читателя сегодня — практическая польза. Это видно во всём: в топе категорий лидируют программирование, бизнес и психология; в облаке слов доминируют названия-инструкции. Самые плодовитые авторы — либо классики-бренды, либо эксперты-практики. Книга перестала быть просто способом провести время. Она стала инструментом для решения задач: найти работу, прокачать навык, разобраться в себе, освоить технологию.
Мы наблюдаем информационный бум, но не обязательно бум идей. Кривая публикаций резко взлетела вверх благодаря цифровым технологиям, которые сделали издание доступным. Но за этим количеством может скрываться эффект инфошума, когда одна успешная концепция тиражируется в десятках вариаций. Больше книг не всегда означает больше оригинальных мыслей.
В итоге данные рисуют портрет эпохи цифровой прагматики. Художественная литература, конечно, никуда не делась, но на фоне массивного потока книг-инструкций она становится почти невидимой. Мы выбираем книги не для того, чтобы убежать от реальности, а для того, чтобы лучше в этой реальности разобраться и в ней преуспеть. Книга доказала, что в мире бесконечных цифровых отвлечений её сильная сторона — не скорость, а глубина, структура и авторитетность знания.
Использование генеративной модели
Структурирование кода, Решение специфических технических проблем, рефакторинг: ChatGPT (GPT-4).
Примеры промптов: «Получаю ошибку „ValueError: '#e24b546' is not a valid value for color“ при создании графика. В чём проблема и как исправить?» «Как разбить этот длинный блок кода на отдельные ячейки для Google Colab?»