
Вводная часть
Для проекта были использованы частотные словари Национального корпуса русского языка.
Эти данные показались мне особо интересными, потому что корпус формируется на основе реальных текстов, такие данные позволяют изучать реальную структуру языка.
Для визуализации данных были выбраны следующие типы графиков: горизонтальные столбчатые диаграммы, которые используются для отображения топ-слов по частотности, boxplot (ящики с усами), применяющийся для сравнения распределения частот между частями речи, точечная диаграмма с логарифмической шкалой для демонстрации распределения частот слов, тепловая карта для сравнения относительной значимости слов внутри разных частей речи.
Этапы работы
Загрузка данных
import pandas as pd
nouns = pd.read_csv ('ruscorpora_content.csv', sep='; ', quotechar='"') verbs = pd.read_csv ('ruscorpora_content-2.csv', sep='; ', quotechar='"') adjs = pd.read_csv ('ruscorpora_content-3.csv', sep='; ', quotechar='"')
Информация о частях речи
nouns['pos'] = 'Существительные' verbs['pos'] = 'Глаголы' adjs['pos'] = 'Прилагательные'
Объединение таблиц
df = pd.concat ([nouns, verbs, adjs], ignore_index=True) df = df.rename (columns={'lex': 'lemma'})
Фильтрация и агрегация Для визуализации отбирались наиболее частотные слова, чтобы избежать перегруженности графиков и сохранить читаемость.
ChatGPT применялся как вспомогательный инструмент для объяснения структуры датасета, и разработки концепции визуального стиля графиков.
Стилизация
Единый минималистичный стиль, ориентированный на академическую визуализацию: белый фон, единый холодный сине-серый цвет, акцент на данных. Цель стилизации — сделать графики: спокойными, легко читаемыми, визуально связанными между собой.
Изучающий и объясняющий формат визуализации данных
Каждый график отвечает на вопрос: какие слова являются наиболее частотными? Как различается распределение частот по частям речи? Как выглядит общее распределение частот слов? Какие леммы доминируют внутри своей категории?
Графики сопровождаются подписями и интерпретациями
Статистические методы
В работе применялись следующие методы:
Горизонтальная столбчатая диаграмма показывает 10 самых частотных существительных в корпусе русского языка по показателю ipm (вхождения на 1 миллион слов).
Частотные существительные формируют ядро языка и отражают наиболее универсальные и значимые понятия, которые регулярно появляются в текстах разных жанров.
Ящик с усами показывает распределение относительной частотности слов для каждой части речи: существительных, глаголов, прилагательных.
Разные части речи имеют различную структуру распределения частот: у существительных чаще встречаются высокочастотные леммы, у прилагательных распределение более «плоское», глаголы занимают промежуточное положение.
Это демонстрирует функциональные различия частей речи в языке.
Точечная диаграмма показывает связь между: абсолютной частотой (num), относительной частотой (ipm) в логарифмических шкалах.
Распределение частот слов подчиняется степенному закону: чем выше частота слова, тем меньше таких слов в языке.
Тепловая карта показывает относительную значимость наиболее частотных слов внутри каждой части речи.
По вертикали — леммы, по горизонтали — части речи, цвет — нормализованная частотность.
Даже внутри одной части речи частотность распределена неравномерно: небольшое число лемм играет ключевую роль, тогда как большинство слов имеют значительно меньшую значимость.
Вывод
В работе был проведён анализ частотных данных Национального корпуса русского языка, позволивший рассмотреть распределение слов разных частей речи. Анализ показал, что частотность лексем в языке распределяется неравномерно: небольшое количество слов образует лексическое ядро, тогда как большинство встречается значительно реже.
Визуализация данных помогла сделать эти закономерности наглядными и позволила сравнить особенности распределения существительных, глаголов и прилагательных.