Original size 1140x1600

Цифровой анализ поэтического корпуса Иосифа Бродского

The project is taking part in the competition

Объект исследования /и данные

post

Поэзия Иосифа Бродского — это сложная архитектура смыслов, где время, пространство и вещь переплетаются в бесконечные синтаксические конструкции. Его творчество часто кажется недосягаемым для сухого анализа, однако именно данные позволяют увидеть скелет его художественного мира. В данном исследовании мы разбираем тексты Бродского на составные части: от цветовой палитры до главных центров его метафор. Проект демонстрирует, как можно верифицировать филологическую интуицию с помощью кода.

post

Данные

Для анализа данных я использую датасет brodsky-poetry с корпусом поэтических текстов Иосифа Бродского (более 650 произведений) в Hugging Face. Набор данных включает тексты стихотворений, их названия и метаданные.

post

Ценность:

Я выбрала Бродского, потому что люблю его поэзию и мне интересен язык, как объект исследования. Мне было интересно проанализировать, как он пишет и визуально это показать.

Виды графиков:

— Столбчатые диаграммы (Bar Charts): для сравнения частоты слов и топонимов.

— Круговые диаграммы (Pie Charts): для анализа эмоционального баланса.

— Линейные графики: для отслеживания динамики настроения по годам.

— Графы связей: для визуализации ассоциативных сетей.

— Облака слов: (WordClouds): для наглядного разделения стилистических регистров.

— Инфографика (Овалы): Для авторской визуализации предметного мира «серого цвета»

Этапы работы / и технологии

Стилизация графики

Из понравившейся мне фотографии Иосифа Бродского я извлекла цвета с помощью сервиса skylum. Эти цвета будут использованы для оформления графиков.

Original size 1706x1206

Обработка данных (Pandas & NLP)

post

Этап 1: Подготовка среды и данных

Первым шагом разворачиваем аналитическую среду в Google Colab и импортируем библиотеки для NLP (Natasha, TextBlob) и визуализации (Seaborn, NetworkX).

Загрузка датасета напрямую из Hugging Face и предварительная очистка (обработка пустых значений). + здесь же прописана палитра цветов, чтобы в дальнейшем использовать их для стилизации графиков.

post

Этап 2: NLP-обработка

Превращение «сырого» текста в чистые данные (словарь), с которыми потом можно работать как с цифрами

1. Сегментация и токенизация: Библиотека Natasha (инструмент Segmenter) разрезает строку на отдельные токены (предложения и слова) 2. Морфологический анализ: Инструмент NewsMorphTagger смотрит на каждое слово и определяет его часть речи 3. Лемматизация: Инструмент MorphVocab превращает слово в его лемму (начальную форму: именительный падеж, единственное число)

post

Использование нейросетей

Модель: Gemini 2.0 Flash (Paid Tier) / Google AI Ссылка на модель: https://gemini.google.com/

Модель использовалась в качестве ИИ-ассистента. Я обращалась к ней для генерации и отладки кода, выявления и устранения ошибок, а также для консультаций по возможностям различных библиотек. Кроме того, я просила объяснить мне все что я не понимаю.

Методология

🔍 Изучающий формат:

Цель: Поиск аномалий и закономерностей Примеры: Ритмическая структура и Эмоциональный профиль (KDE). Я искала, куда смещено настроение автора. Выводы: График плотности слов в строке/строфе позволил математически доказать, что Бродский пишет «гуще», чем другие классики XIX века.

💡 Объясняющий формат:

Примеры: «Маятник регистров» (два облака слов) или «Серые овалы». Цель: Акцентировать внимание на выводах. Функция визуализаций: Эти графики созданы для проверки и наглядной иллюстрации конкретных литературоведческих теорий. Например, тезис «Бродский — поэт серого цвета» демонстрируется через анализ данных с акцентом на ключевые слова («время», «вещь»). Аналогичным образом визуализации позволяют проиллюстрировать теорию бинарности мира Бродского (быт vs. метафизика).

📊 Статистические методы

В ходе работы были использованы методы описательной статистики и количественного анализа текста. В частности: частотный анализ лексики, расчет средних значений (например, средней длины строки и строфы), анализ распределений, а также предварительная обработка текста, включающая токенизацию и удаление стоп-слов. Для структурирования данных применялась группировка и подсчет повторяемости единиц.

post
  • Дескриптивная статистика (Описательная): Расчет средних значений ($mean$), медиан и моды для определения типичной длины строки и строфы. Это позволило построить «портрет» стандартного стихотворения Бродского.

  • Частотный анализ (Word Frequency Analysis): Подсчет абсолютных частот лемм. Мы использовали этот метод для выявления семантических доминант (слов-лидеров).

  • Сентимент-анализ (Sentiment Polarity): Присвоение каждому слову и тексту числового коэффициента эмоциональной окраски от -1.0 (полный негатив) до +1.0 (полный позитив).

  • Синтаксическая дистрибуция: Метод анализа связей (биграмм), позволяющий определить, какие объекты чаще всего наделяются конкретными свойствами (например, поиск всех существительных, к которым относится определение «серый»).

Итоговые графики

*код в слайдере

1. График частотного распределения лексических единиц

На данном графике мы видим 15 главных слов-концептов в творчестве Бродского. Поэтическая вселенная держится на балансе между абстрактными категориями и предельно осязаемыми предметами

0

☁️ 2. Облако слов (word cloud)

Этот график — «Вербальное поле поэта» (Облако слов) — представляет собой визуальную карту смысловых приоритетов в поэтическом корпусе И. Бродского. Облако визуализирует наиболее часто встречающиеся фразы, где размер слова соответствует его частоте.

0

📊 3. Созвездие метафор (Network Analysis)

Это «Созвездие метафор» — визуализация того, какие смыслы чаще всего притягиваются к слову «время» в поэзии Бродского.

0

4. Ритмическая структура: длина строф

Этот график визуализирует архитектуру поэзии. Здесь мы обнаруживаем, что Бродский остается верен классическому четверостишию, но при этом имеет «длинный хвост» сложных строф.

0

5. Длина строк: количество слов в строке

Анализ распределения длины строки показывает, что средний размер строки сосредоточен в диапазоне 4–7 слов. Это свидетельствует о доминировании классических размеров (в первую очередь пятистопного и шестистопного ямба), которые являются метрическим фундаментом его творчества.

0

🎨 6. Цветовая палитра Бродского

Частотный лексический анализ с использованием словаря цветовых маркеров. График демонстрирует «графичность» художественного мира Бродского. Доминирование черного (126) и белого (117) цветов над спектральными (красным, желтым) подтверждает ахроматичность его лирики.

0

7. Визуализация: что бывает серым у Бродского

Визуализация «овалами» предметов, которые поэт наделяет серым цветом.

0

Круговая диаграмма: анализ по признаку позитивности/негативности

Автоматический анализ тональности показывает преобладание негативной лексики. Однако это не означает депрессивность автора. Это визуализация «поэтики отсутствия» Бродского, где ключевые для него понятия — холод, дистанция и пустота — алгоритмически считываются как негативные, но являются фундаментом его художественного мира

0
post

Алгоритм TextBlob работает на словарях, где каждому слову присвоен балл.

  • «Негативные» слова: У Бродского постоянно встречаются слова: холод, зима, лед, пустота, одиночество, смерть, тень, пыль, отсутствие. Для робота это «плохие» слова, и он уводит график в минус.
  • Для поэта: Эти слова — не депрессия, а его философия. Для него «пустота» или «холод» — это эстетические категории, способ описания мира и времени. Робот этого контекста не понимает.

Распределение топонимов

Повторяемость одних и тех же городов указывает на фиксированный набор пространственных опор, которые функционируют не как географические, а как символические точки. Пространство в текстах оказывается скорее концептуальным, чем описательным.

0

Два регистра: облака слов «Философия» vs «Быт»

Визуализация демонстрирует наличие нескольких устойчивых регистров, между которыми поэтическая речь постоянно переключается. В текстах сосуществуют бытовой и метафизический уровни внутри одного корпуса текстов.

Сравнительный анализ показывает сопоставимую представленность обоих регистров, что подтверждает бинарную организацию поэтического мира Бродского: повседневное и абстрактное не противопоставлены жёстко, а находятся в постоянном взаимодействии.

0

Основные инструменты:

Анализ и управление данными:

Pandas — обработка датасета из Hugging Face, фильтрация данных и создание сводных статистических таблиц.

Numpy — математические операции и работа с массивами данных при расчете весов.

Обработка естественного языка (NLP):

Natasha — основной инструмент для глубокого лингвистического анализа, токенизации и лемматизации текстов.

NLTK & Stop-words — фильтрация семантического «шума» (служебных частей речи) для выделения чистых смыслов.

Сложная аналитика и графы:

NetworkX — математическое моделирование сетевых связей и построение семантического графа «Созвездие метафор».

Визуализация данных (DataViz):

Matplotlib & Seaborn — создание кастомных графиков в единой стилистике проекта с использованием авторских цветовых палитр.

WordCloud — генерация визуальных карт частотности слов для анализа вербального поля.

Выводы

post

Мне понравилось проводить это исследование. Анализировать язык поэзии через графики оказалось увлекательно и наглядно. Я научилась обрабатывать текст, очищать его от служебных слов и работать с датасетом; извлекать из большого количества данных необходимую информацию.

Большинство полученных графиков подтвердили классическое восприятие поэзии Иосифа Бродского, совпав с результатами традиционного литературоведческого анализа. Нам удалось математически доказать, что такие категории, как «культ времени» или «философия серого», являются не просто метафорами, а статистически подтвержденными закономерностями. Код верифицировал интуитивные догадки исследователей, превратив их в алгоритмы и визуальные модели.

Я буду использовать полученные навыки для дальнейшей обработки корпусов текстов, так как мне нравится работать с анализом языка. Понравилось как изучение новых инструментов открыло для меня новые возможности

«Поэзия — это не развлечение и даже не форма искусства, но скорее наша видовая цель». (И. Бродский)

Цифровой анализ показал, что эта «цель» у Бродского имеет четкую математическую структуру и смысловую плотность.

Блокнот с кодом:

post

Датасет встраивается в Google Colab по ссылке из Hugging Face

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more