Original size 1140x1600

Цифровой анализ поэтического корпуса Иосифа Бродского

The project is taking part in the competition

Объект исследования /и данные

post

Поэзия Иосифа Бродского — это сложная архитектура смыслов, где время, пространство и вещь переплетаются в бесконечные синтаксические конструкции. Его творчество часто кажется недосягаемым для сухого анализа, однако именно данные позволяют увидеть скелет его художественного мира. В данном исследовании мы разбираем тексты Бродского на составные части: от цветовой палитры до главных центров его метафор. Проект демонстрирует, как можно верифицировать филологическую интуицию с помощью кода.

post

Данные

Для анализа данных я использую датасет brodsky-poetry с корпусом поэтических текстов Иосифа Бродского (более 650 произведений) в Hugging Face. Набор данных включает тексты стихотворений, их названия и метаданные.

post

Ценность:

Я выбрала Бродского, потому что люблю его поэзию и мне интересен язык, как объект исследования. Мне было интересно проанализировать, как он пишет и визуально это показать.

Виды графиков:

— Столбчатые диаграммы (Bar Charts): для сравнения частоты слов и топонимов.

— Круговые диаграммы (Pie Charts): для анализа эмоционального баланса.

— Линейные графики: для отслеживания динамики настроения по годам.

— Графы связей: для визуализации ассоциативных сетей.

— Облака слов: (WordClouds): для наглядного разделения стилистических регистров.

— Инфографика (Овалы): Для авторской визуализации предметного мира «серого цвета»

Этапы работы / и технологии

Стилизация графики

Из понравившейся мне фотографии Иосифа Бродского я извлекла цвета с помощью сервиса skylum. Эти цвета будут использованы для оформления графиков.

Original size 1706x1206

Обработка данных (Pandas & NLP)

post

Этап 1: Подготовка среды и данных

Первым шагом разворачиваем аналитическую среду в Google Colab и импортируем библиотеки для NLP (Natasha, TextBlob) и визуализации (Seaborn, NetworkX).

Загрузка датасета напрямую из Hugging Face и предварительная очистка (обработка пустых значений). + здесь же прописана палитра цветов, чтобы в дальнейшем использовать их для стилизации графиков.

post

Этап 2: NLP-обработка

Превращение «сырого» текста в чистые данные (словарь), с которыми потом можно работать как с цифрами

1. Сегментация и токенизация: Библиотека Natasha (инструмент Segmenter) разрезает строку на отдельные токены (предложения и слова) 2. Морфологический анализ: Инструмент NewsMorphTagger смотрит на каждое слово и определяет его часть речи 3. Лемматизация: Инструмент MorphVocab превращает слово в его лемму (начальную форму: именительный падеж, единственное число)

post

Использование нейросетей

Модель: Gemini 2.0 Flash (Paid Tier) / Google AI Ссылка на модель: https://gemini.google.com/

Модель использовалась в качестве ИИ-ассистента. Я обращалась к ней для генерации и отладки кода, выявления и устранения ошибок, а также для консультаций по возможностям различных библиотек. Кроме того, я просила объяснить мне все что я не понимаю.

Методология

🔍 Изучающий формат:

Цель: Поиск аномалий и закономерностей Примеры: Ритмическая структура и Эмоциональный профиль (KDE). Я искала, куда смещено настроение автора. Выводы: График плотности слов в строке/строфе позволил математически доказать, что Бродский пишет «гуще», чем другие классики XIX века.

💡 Объясняющий формат:

Примеры: «Маятник регистров» (два облака слов) или «Серые овалы». Цель: Акцентировать внимание на выводах. Функция визуализаций: Эти графики созданы для проверки и наглядной иллюстрации конкретных литературоведческих теорий. Например, тезис «Бродский — поэт серого цвета» демонстрируется через анализ данных с акцентом на ключевые слова («время», «вещь»). Аналогичным образом визуализации позволяют проиллюстрировать теорию бинарности мира Бродского (быт vs. метафизика).

📊 Статистические методы

В ходе работы были использованы методы описательной статистики и количественного анализа текста. В частности: частотный анализ лексики, расчет средних значений (например, средней длины строки и строфы), анализ распределений, а также предварительная обработка текста, включающая токенизацию и удаление стоп-слов. Для структурирования данных применялась группировка и подсчет повторяемости единиц.

post
  • Дескриптивная статистика (Описательная): Расчет средних значений ($mean$), медиан и моды для определения типичной длины строки и строфы. Это позволило построить «портрет» стандартного стихотворения Бродского.

  • Частотный анализ (Word Frequency Analysis): Подсчет абсолютных частот лемм. Мы использовали этот метод для выявления семантических доминант (слов-лидеров).

  • Сентимент-анализ (Sentiment Polarity): Присвоение каждому слову и тексту числового коэффициента эмоциональной окраски от -1.0 (полный негатив) до +1.0 (полный позитив).

  • Синтаксическая дистрибуция: Метод анализа связей (биграмм), позволяющий определить, какие объекты чаще всего наделяются конкретными свойствами (например, поиск всех существительных, к которым относится определение «серый»).

Итоговые графики

*код в слайдере

1. График частотного распределения лексических единиц

На данном графике мы видим 15 главных слов-концептов в творчестве Бродского. Поэтическая вселенная держится на балансе между абстрактными категориями и предельно осязаемыми предметами

0

☁️ 2. Облако слов (word cloud)

Этот график — «Вербальное поле поэта» (Облако слов) — представляет собой визуальную карту смысловых приоритетов в поэтическом корпусе И. Бродского. Облако визуализирует наиболее часто встречающиеся фразы, где размер слова соответствует его частоте.

0

📊 3. Созвездие метафор (Network Analysis)

Это «Созвездие метафор» — визуализация того, какие смыслы чаще всего притягиваются к слову «время» в поэзии Бродского.

0

4. Ритмическая структура: длина строф

Этот график визуализирует архитектуру поэзии. Здесь мы обнаруживаем, что Бродский остается верен классическому четверостишию, но при этом имеет «длинный хвост» сложных строф.

0

5. Длина строк: количество слов в строке

Анализ распределения длины строки показывает, что средний размер строки сосредоточен в диапазоне 4–7 слов. Это свидетельствует о доминировании классических размеров (в первую очередь пятистопного и шестистопного ямба), которые являются метрическим фундаментом его творчества.

0

🎨 6. Цветовая палитра Бродского

Частотный лексический анализ с использованием словаря цветовых маркеров. График демонстрирует «графичность» художественного мира Бродского. Доминирование черного (126) и белого (117) цветов над спектральными (красным, желтым) подтверждает ахроматичность его лирики.

0

7. Визуализация: что бывает серым у Бродского

Визуализация «овалами» предметов, которые поэт наделяет серым цветом.

0

Круговая диаграмма: анализ по признаку позитивности/негативности

Автоматический анализ тональности показывает преобладание негативной лексики. Однако это не означает депрессивность автора. Это визуализация «поэтики отсутствия» Бродского, где ключевые для него понятия — холод, дистанция и пустота — алгоритмически считываются как негативные, но являются фундаментом его художественного мира

0
post

Алгоритм TextBlob работает на словарях, где каждому слову присвоен балл.

  • «Негативные» слова: У Бродского постоянно встречаются слова: холод, зима, лед, пустота, одиночество, смерть, тень, пыль, отсутствие. Для робота это «плохие» слова, и он уводит график в минус.
  • Для поэта: Эти слова — не депрессия, а его философия. Для него «пустота» или «холод» — это эстетические категории, способ описания мира и времени. Робот этого контекста не понимает.

Распределение топонимов

Повторяемость одних и тех же городов указывает на фиксированный набор пространственных опор, которые функционируют не как географические, а как символические точки. Пространство в текстах оказывается скорее концептуальным, чем описательным.

0

Два регистра: облака слов «Философия» vs «Быт»

Визуализация демонстрирует наличие нескольких устойчивых регистров, между которыми поэтическая речь постоянно переключается. В текстах сосуществуют бытовой и метафизический уровни внутри одного корпуса текстов.

Сравнительный анализ показывает сопоставимую представленность обоих регистров, что подтверждает бинарную организацию поэтического мира Бродского: повседневное и абстрактное не противопоставлены жёстко, а находятся в постоянном взаимодействии.

0

Основные инструменты:

Анализ и управление данными:

Pandas — обработка датасета из Hugging Face, фильтрация данных и создание сводных статистических таблиц.

Numpy — математические операции и работа с массивами данных при расчете весов.

Обработка естественного языка (NLP):

Natasha — основной инструмент для глубокого лингвистического анализа, токенизации и лемматизации текстов.

NLTK & Stop-words — фильтрация семантического «шума» (служебных частей речи) для выделения чистых смыслов.

Сложная аналитика и графы:

NetworkX — математическое моделирование сетевых связей и построение семантического графа «Созвездие метафор».

Визуализация данных (DataViz):

Matplotlib & Seaborn — создание кастомных графиков в единой стилистике проекта с использованием авторских цветовых палитр.

WordCloud — генерация визуальных карт частотности слов для анализа вербального поля.

Выводы

post

Мне понравилось проводить это исследование. Анализировать язык поэзии через графики оказалось увлекательно и наглядно. Я научилась обрабатывать текст, очищать его от служебных слов и работать с датасетом; извлекать из большого количества данных необходимую информацию.

Большинство полученных графиков подтвердили классическое восприятие поэзии Иосифа Бродского, совпав с результатами традиционного литературоведческого анализа. Нам удалось математически доказать, что такие категории, как «культ времени» или «философия серого», являются не просто метафорами, а статистически подтвержденными закономерностями. Код верифицировал интуитивные догадки исследователей, превратив их в алгоритмы и визуальные модели.

Я буду использовать полученные навыки для дальнейшей обработки корпусов текстов, так как мне нравится работать с анализом языка. Понравилось как изучение новых инструментов открыло для меня новые возможности

«Поэзия — это не развлечение и даже не форма искусства, но скорее наша видовая цель». (И. Бродский)

Цифровой анализ показал, что эта «цель» у Бродского имеет четкую математическую структуру и смысловую плотность.

Блокнот с кодом:

post

Датасет встраивается в Google Colab по ссылке из Hugging Face