


Для анализа данных я использую датасет brodsky-poetry с корпусом поэтических текстов Иосифа Бродского (более 650 произведений) в Hugging Face. Набор данных включает тексты стихотворений, их названия и метаданные.

Я выбрала Бродского, потому что люблю его поэзию и мне интересен язык, как объект исследования. Мне было интересно проанализировать, как он пишет и визуально это показать.
— Столбчатые диаграммы (Bar Charts): для сравнения частоты слов и топонимов.
— Круговые диаграммы (Pie Charts): для анализа эмоционального баланса.
— Линейные графики: для отслеживания динамики настроения по годам.
— Графы связей: для визуализации ассоциативных сетей.
— Облака слов: (WordClouds): для наглядного разделения стилистических регистров.
— Инфографика (Овалы): Для авторской визуализации предметного мира «серого цвета»
Из понравившейся мне фотографии Иосифа Бродского я извлекла цвета с помощью сервиса skylum. Эти цвета будут использованы для оформления графиков.
Обработка данных (Pandas & NLP)

Первым шагом разворачиваем аналитическую среду в Google Colab и импортируем библиотеки для NLP (Natasha, TextBlob) и визуализации (Seaborn, NetworkX).
Загрузка датасета напрямую из Hugging Face и предварительная очистка (обработка пустых значений). + здесь же прописана палитра цветов, чтобы в дальнейшем использовать их для стилизации графиков.

Превращение «сырого» текста в чистые данные (словарь), с которыми потом можно работать как с цифрами
1. Сегментация и токенизация: Библиотека Natasha (инструмент Segmenter) разрезает строку на отдельные токены (предложения и слова) 2. Морфологический анализ: Инструмент NewsMorphTagger смотрит на каждое слово и определяет его часть речи 3. Лемматизация: Инструмент MorphVocab превращает слово в его лемму (начальную форму: именительный падеж, единственное число)

Модель: Gemini 2.0 Flash (Paid Tier) / Google AI Ссылка на модель: https://gemini.google.com/
Модель использовалась в качестве ИИ-ассистента. Я обращалась к ней для генерации и отладки кода, выявления и устранения ошибок, а также для консультаций по возможностям различных библиотек. Кроме того, я просила объяснить мне все что я не понимаю.


Методология
Примеры: «Маятник регистров» (два облака слов) или «Серые овалы». Цель: Акцентировать внимание на выводах. Функция визуализаций: Эти графики созданы для проверки и наглядной иллюстрации конкретных литературоведческих теорий. Например, тезис «Бродский — поэт серого цвета» демонстрируется через анализ данных с акцентом на ключевые слова («время», «вещь»). Аналогичным образом визуализации позволяют проиллюстрировать теорию бинарности мира Бродского (быт vs. метафизика).
📊 Статистические методы
В ходе работы были использованы методы описательной статистики и количественного анализа текста. В частности: частотный анализ лексики, расчет средних значений (например, средней длины строки и строфы), анализ распределений, а также предварительная обработка текста, включающая токенизацию и удаление стоп-слов. Для структурирования данных применялась группировка и подсчет повторяемости единиц.

Дескриптивная статистика (Описательная): Расчет средних значений ($mean$), медиан и моды для определения типичной длины строки и строфы. Это позволило построить «портрет» стандартного стихотворения Бродского.
Частотный анализ (Word Frequency Analysis): Подсчет абсолютных частот лемм. Мы использовали этот метод для выявления семантических доминант (слов-лидеров).
Сентимент-анализ (Sentiment Polarity): Присвоение каждому слову и тексту числового коэффициента эмоциональной окраски от -1.0 (полный негатив) до +1.0 (полный позитив).
Синтаксическая дистрибуция: Метод анализа связей (биграмм), позволяющий определить, какие объекты чаще всего наделяются конкретными свойствами (например, поиск всех существительных, к которым относится определение «серый»).
*код в слайдере
1. График частотного распределения лексических единиц
На данном графике мы видим 15 главных слов-концептов в творчестве Бродского. Поэтическая вселенная держится на балансе между абстрактными категориями и предельно осязаемыми предметами
☁️ 2. Облако слов (word cloud)
Этот график — «Вербальное поле поэта» (Облако слов) — представляет собой визуальную карту смысловых приоритетов в поэтическом корпусе И. Бродского. Облако визуализирует наиболее часто встречающиеся фразы, где размер слова соответствует его частоте.
📊 3. Созвездие метафор (Network Analysis)
Это «Созвездие метафор» — визуализация того, какие смыслы чаще всего притягиваются к слову «время» в поэзии Бродского.
4. Ритмическая структура: длина строф
Этот график визуализирует архитектуру поэзии. Здесь мы обнаруживаем, что Бродский остается верен классическому четверостишию, но при этом имеет «длинный хвост» сложных строф.
5. Длина строк: количество слов в строке
Анализ распределения длины строки показывает, что средний размер строки сосредоточен в диапазоне 4–7 слов. Это свидетельствует о доминировании классических размеров (в первую очередь пятистопного и шестистопного ямба), которые являются метрическим фундаментом его творчества.
🎨 6. Цветовая палитра Бродского
Частотный лексический анализ с использованием словаря цветовых маркеров. График демонстрирует «графичность» художественного мира Бродского. Доминирование черного (126) и белого (117) цветов над спектральными (красным, желтым) подтверждает ахроматичность его лирики.
7. Визуализация: что бывает серым у Бродского
Визуализация «овалами» предметов, которые поэт наделяет серым цветом.
Круговая диаграмма: анализ по признаку позитивности/негативности
Автоматический анализ тональности показывает преобладание негативной лексики. Однако это не означает депрессивность автора. Это визуализация «поэтики отсутствия» Бродского, где ключевые для него понятия — холод, дистанция и пустота — алгоритмически считываются как негативные, но являются фундаментом его художественного мира

Алгоритм TextBlob работает на словарях, где каждому слову присвоен балл.
Распределение топонимов
Повторяемость одних и тех же городов указывает на фиксированный набор пространственных опор, которые функционируют не как географические, а как символические точки. Пространство в текстах оказывается скорее концептуальным, чем описательным.
Два регистра: облака слов «Философия» vs «Быт»
Визуализация демонстрирует наличие нескольких устойчивых регистров, между которыми поэтическая речь постоянно переключается. В текстах сосуществуют бытовой и метафизический уровни внутри одного корпуса текстов.
Сравнительный анализ показывает сопоставимую представленность обоих регистров, что подтверждает бинарную организацию поэтического мира Бродского: повседневное и абстрактное не противопоставлены жёстко, а находятся в постоянном взаимодействии.
Основные инструменты:
Pandas — обработка датасета из Hugging Face, фильтрация данных и создание сводных статистических таблиц.
Numpy — математические операции и работа с массивами данных при расчете весов.
Natasha — основной инструмент для глубокого лингвистического анализа, токенизации и лемматизации текстов.
NLTK & Stop-words — фильтрация семантического «шума» (служебных частей речи) для выделения чистых смыслов.
NetworkX — математическое моделирование сетевых связей и построение семантического графа «Созвездие метафор».
Matplotlib & Seaborn — создание кастомных графиков в единой стилистике проекта с использованием авторских цветовых палитр.
WordCloud — генерация визуальных карт частотности слов для анализа вербального поля.
Выводы

Мне понравилось проводить это исследование. Анализировать язык поэзии через графики оказалось увлекательно и наглядно. Я научилась обрабатывать текст, очищать его от служебных слов и работать с датасетом; извлекать из большого количества данных необходимую информацию.
Большинство полученных графиков подтвердили классическое восприятие поэзии Иосифа Бродского, совпав с результатами традиционного литературоведческого анализа. Нам удалось математически доказать, что такие категории, как «культ времени» или «философия серого», являются не просто метафорами, а статистически подтвержденными закономерностями. Код верифицировал интуитивные догадки исследователей, превратив их в алгоритмы и визуальные модели.
Я буду использовать полученные навыки для дальнейшей обработки корпусов текстов, так как мне нравится работать с анализом языка. Понравилось как изучение новых инструментов открыло для меня новые возможности
«Поэзия — это не развлечение и даже не форма искусства, но скорее наша видовая цель». (И. Бродский)
Цифровой анализ показал, что эта «цель» у Бродского имеет четкую математическую структуру и смысловую плотность.
Блокнот с кодом:
