Original size 1360x2048

нкря x применения генеративных сетей

The project is taking part in the competition

Вводная часть

Для проекта были использованы частотные словари Национального корпуса русского языка.

Эти данные показались мне особо интересными, потому что корпус формируется на основе реальных текстов, такие данные позволяют изучать реальную структуру языка.

Для визуализации данных были выбраны следующие типы графиков: горизонтальные столбчатые диаграммы, которые используются для отображения топ-слов по частотности, boxplot (ящики с усами), применяющийся для сравнения распределения частот между частями речи, точечная диаграмма с логарифмической шкалой для демонстрации распределения частот слов, тепловая карта для сравнения относительной значимости слов внутри разных частей речи.

Этапы работы

Загрузка данных

import pandas as pd

nouns = pd.read_csv ('ruscorpora_content.csv', sep='; ', quotechar='"') verbs = pd.read_csv ('ruscorpora_content-2.csv', sep='; ', quotechar='"') adjs = pd.read_csv ('ruscorpora_content-3.csv', sep='; ', quotechar='"')

Информация о частях речи

nouns['pos'] = 'Существительные' verbs['pos'] = 'Глаголы' adjs['pos'] = 'Прилагательные'

Объединение таблиц

df = pd.concat ([nouns, verbs, adjs], ignore_index=True) df = df.rename (columns={'lex': 'lemma'})

Фильтрация и агрегация Для визуализации отбирались наиболее частотные слова, чтобы избежать перегруженности графиков и сохранить читаемость.

ChatGPT применялся как вспомогательный инструмент для объяснения структуры датасета, и разработки концепции визуального стиля графиков.

Стилизация

Единый минималистичный стиль, ориентированный на академическую визуализацию: белый фон, единый холодный сине-серый цвет, акцент на данных. Цель стилизации — сделать графики: спокойными, легко читаемыми, визуально связанными между собой.

Изучающий и объясняющий формат визуализации данных

Каждый график отвечает на вопрос: какие слова являются наиболее частотными? Как различается распределение частот по частям речи? Как выглядит общее распределение частот слов? Какие леммы доминируют внутри своей категории?

Графики сопровождаются подписями и интерпретациями

Статистические методы

В работе применялись следующие методы:

частотный анализ
ранжирование данных
описательная статистика
сравнительный анализ категорий
нормализация данных
логарифмическое масштабирование для анализа распределений.

Original size 782x484

Горизонтальная столбчатая диаграмма показывает 10 самых частотных существительных в корпусе русского языка по показателю ipm (вхождения на 1 миллион слов).

Частотные существительные формируют ядро языка и отражают наиболее универсальные и значимые понятия, которые регулярно появляются в текстах разных жанров.

Original size 702x484

Ящик с усами показывает распределение относительной частотности слов для каждой части речи: существительных, глаголов, прилагательных.

Разные части речи имеют различную структуру распределения частот: у существительных чаще встречаются высокочастотные леммы, у прилагательных распределение более «плоское», глаголы занимают промежуточное положение.

Это демонстрирует функциональные различия частей речи в языке.

Original size 684x484

Точечная диаграмма показывает связь между: абсолютной частотой (num), относительной частотой (ipm) в логарифмических шкалах.

Распределение частот слов подчиняется степенному закону: чем выше частота слова, тем меньше таких слов в языке.

Original size 777x584

Тепловая карта показывает относительную значимость наиболее частотных слов внутри каждой части речи.

По вертикали — леммы, по горизонтали — части речи, цвет — нормализованная частотность.

Даже внутри одной части речи частотность распределена неравномерно: небольшое число лемм играет ключевую роль, тогда как большинство слов имеют значительно меньшую значимость.

Вывод

В работе был проведён анализ частотных данных Национального корпуса русского языка, позволивший рассмотреть распределение слов разных частей речи. Анализ показал, что частотность лексем в языке распределяется неравномерно: небольшое количество слов образует лексическое ядро, тогда как большинство встречается значительно реже.

Визуализация данных помогла сделать эти закономерности наглядными и позволила сравнить особенности распределения существительных, глаголов и прилагательных.

Блокнот с кодом

База данных из НКРЯ

В работе использовался Chat-GPT и Krea для создания обложки проекта

Mariya Bulanova

data visualization

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...