Original size 1140x1600

«My Little Pony»: анализ речевой активности персонажей

PROTECT STATUS: not protected

Введение

Мультсериал My Little Pony: Friendship is Magic занимает особое место в моей личной истории: это один из ключевых культурных текстов моего детства. На протяжении нескольких лет сериал сопровождал меня, формируя представления о дружбе, коллективном взаимодействии и эмоциональной коммуникации.

Дружба — это Чудо

Центральная идея проекта — «дружба — это чудо» — последовательно раскрывается через персонажей, каждый из которых обладает собственным характером, стилем речи и ролью в повествовании.

big
Original size 1920x1200

Кадр из мультсериала

В рамках данного проекта я рассматриваю My Little Pony не как художественное произведение, а как структурированную систему, поддающуюся количественному анализу. В фокусе исследования — диалоговая структура сериала и распределение речевой активности между персонажами.

В качестве источника данных был выбран открытый датасет с платформы Kaggle, содержащий транскрипты диалогов всех сезонов сериала. Он включает тысячи реплик, привязанных к конкретным персонажам и эпизодам, что делает возможным анализ как общей структуры повествования, так и индивидуальных особенностей речи героев.

Цель проекта — проанализировать, как распределяются диалоги между персонажами, выявить центральных и периферийных участников нарратива, а также проследить динамику их активности на протяжении сериала. Отдельное внимание уделяется длине реплик и совместным появлениям персонажей как индикаторам характера и сюжетной значимости.

Таким образом, проект представляет собой попытку соединить личный культурный опыт с инструментами анализа данных и визуализации, чтобы получить новое, аналитическое прочтение знакомого с детства медиатекста.

Визуализация данных

При оформлении графиков я опиралась на визуальный язык сериала My Little Pony: Friendship is Magic. В качестве основы была выбрана цветовая палитра главных персонажей, что позволяет напрямую связывать числовые данные с узнаваемыми героями и облегчает чтение визуализаций. Все графики выполнены в едином стиле с акцентом на цвет, аккуратную типографику и минимализм без декоративных элементов.

Для представления данных я использовала несколько типов графиков. Столбчатая диаграмма «Топ-10 персонажей по количеству реплик» помогает сравнить диалоговую активность персонажей, круговая диаграмма «Распределение реплик между главными героями» показывает распределение реплик между главными и второстепенными героями. Линейный график «Как менялась активность персонажей» используется для анализа динамики участия персонажей в эпизодах, гистограмма «Средняя длина реплик главных героев» — для сравнения длины реплик, а группированная столбчатая диаграмма «Эмоциональные паттерны главных героев» — для анализа стиля речи, а график социальной сети — для визуализации совместных появлений персонажей и структуры их взаимодействий.

Original size 1200x612

Кадр из мультсериала

Этапы работы

Загрузка данных

post

Для начала работы я использовала библиотеку pandas для обработки табличных данных. Датасет был загружен в формате CSV и считан в DataFrame в среде Google Colab. На этом этапе была проведена первичная проверка структуры данных: количество строк и столбцов, названия колонок, наличие пропущенных значений и число уникальных персонажей.

В результате загрузки стало ясно, что датасет содержит 36 859 реплик, распределённых между 842 персонажами, а также информацию о названии эпизода, сценаристе, персонаже и тексте реплики. Наличие небольшого числа пропусков в колонке с диалогами было зафиксировано для дальнейшей очистки.

Очистка и подготовка данных

На следующем этапе была выполнена очистка данных. Из анализа были исключены служебные и обобщённые категории персонажей (например, Narrator, Everypony и аналогичные), так как они не представляют конкретных действующих лиц и могут искажать результаты. После удаления таких записей количество строк сократилось до 35 726, а число уникальных персонажей — до 832.

Дополнительно имена персонажей были стандартизированы для устранения дублирующихся написаний. Для более глубокого анализа в таблицу были добавлены новые метрики: количество слов и количество символов в каждой реплике. Это позволило перейти от простого подсчёта реплик к анализу стиля речи. После очистки стало заметно, что средняя длина реплики составляет около 12 слов, а медианная — 9 слов, что говорит о преобладании коротких, динамичных диалогов.

Original size 1029x203

Расчёт статистики по персонажам

После подготовки данных была сформирована агрегированная таблица со статистикой по каждому персонажу. Для этого данные были сгруппированы по имени персонажа, а затем рассчитаны ключевые показатели: общее количество реплик, суммарное число слов, средняя длина реплики.

Полученная статистика позволила выявить иерархию персонажей по степени их участия в повествовании. Анализ показал, что Twilight Sparkle является безусловным лидером по числу реплик, за ней следуют другие главные герои сериала. Это подтверждает гипотезу о наличии центрального персонажа и подчёркивает неравномерное распределение диалоговой активности. Итоговая таблица с топ-10 персонажами была сохранена отдельно и использовалась в дальнейших этапах визуализации.

Original size 1550x333

Оформление данных

post

В оформлении я использовала цветовую палитру, отражающую индивидуальность каждого ключевого персонажа из вселенной My Little Pony.

На светлом нейтральном фоне я выделила семь основных цветов, каждый из которых ассоциирован с конкретным персонажем: глубокий фиолетовый для Twilight Sparkle, ярко-голубой для Rainbow Dash, насыщенный розовый для Pinkie Pie, золотисто-оранжевый для Applejack, лавандовый для Rarity, зелёный для Spike и солнечно-жёлтый для Fluttershy. Такое цветовое кодирование позволило сохранять визуальную идентичность героев на всех этапах анализа, обеспечивая интуитивную читаемость графиков. В сочетании с чёткими контурами элементов, контрастными подписями и умеренной сеткой это создало гармоничный и информативный стиль, отвечающий как аналитической строгости, так и тематическому духу сериала.

Original size 984x261
Original size 3500x1978

Кадр из мультсериала

Итоговые графики

Топ-10 персонажей по количеству реплик

Original size 1384x683
post

Первый график показывает топ-10 персонажей по количеству реплик. Абсолютным лидером диалогов является Твайлайт Спаркл, что подтверждает её центральную роль в повествовании. За ней с заметным отрывом следуют такие энергичные персонажи, как Радуга Дэш и Пинки Пай. Наличие второстепенных героев, например, Эппл Блум, в этой десятке указывает на значимость молодого поколения в общем сюжете сериала.

Распределение реплик между главными героями

Original size 3500x2201
post

Вторая круговая диаграмма иллюстрирует распределение реплик между семью главными героями. Твайлайт Спаркл отвечает за более четверти всего диалогового объёма этой группы. Остальные шесть персонажей делят оставшиеся реплики примерно поровну, при этом Флаттершай имеет наименьшую долю, что соответствует её тихому характеру. В совокупности на этих семерых приходится подавляющее большинство всех реплик в сериале.

Динамика активности по эпизодам

Original size 1284x684
post

Третий линейный график отслеживает, как менялась доля реплик каждого персонажа по мере развития сериала. Твайлайт Спаркл сохраняет высокий и относительно стабильный уровень активности на протяжении всех эпизодов. При этом некоторые герои, например Спайк или Старлайт Глиммер, показывают заметный рост своей значимости в более поздних сезонах. Динамика линий отражает эволюцию сюжета и смещение фокуса внимания на разных персонажей в разные периоды.

Средняя длина реплик

Original size 1184x684
post

Четвертый график анализирует среднюю длину реплик главных героев в словах. Самые длинные и развёрнутые высказывания характерны для Твайлайт Спаркл и Рарити, что отражает их склонность к объяснениям и драматическим описаниям. Напротив, Радуга Дэш и Пинки Пай говорят кратко и импульсивно, их реплики часто ниже общего среднего показателя. Этот параметр чётко коррелирует с личностными чертами каждого персонажа.

Эмоциональные паттерны

Original size 1284x684
post

Пятый график с группированными столбцами раскрывает эмоциональные паттерны в речи персонажей. Высокий процент восклицательных реплик характерен для самых энергичных героев — Пинки Пай и Радуги Дэш. В то же время Флаттершай или Спайк могут лидировать по количеству вопросов, что указывает на их неуверенность или любознательность. Более сдержанные персонажи, такие как Эпплджек, демонстрируют преобладание нейтральных по тону высказываний.

Социальная сеть главных героев

Original size 3500x2201
post

Шестая визуализация представляет собой график социальной сети, отображающий частоту взаимодействий между героями. Твайлайт Спаркл выступает в роли центрального связующего узла со всеми остальными. Наиболее тесные связи, судя по толщине линий, ожидаемо наблюдаются между Твайлайт и Спайком, а также в парах, которые часто сотрудничают по сюжету, например, Эпплджек и Рарити. График наглядно демонстрирует структуру отношений внутри основного актёрского состава.

Original size 3500x1978

Кадр из мультсериала

Заключение

Таким образом, в рамках проекта я провела детальный анализ данных сериала «My Little Pony: Friendship is Magic». Работа включала несколько ключевых этапов: загрузку и очистку транскриптов диалогов, статистический анализ и создание инфографики.

По итогам анализа я выявила несколько закономерностей:

Твайлайт Спаркл является безусловным лидером по количеству реплик и центральным узлом коммуникации, что подтверждает её роль нарративного ядра сериала;

Распределение реплик между главными героями неравномерно: на семерых основных персонажей приходится подавляющее большинство диалогов, при этом Флаттершай имеет наименьшую долю, что соответствует её тихому характеру;

Длина и стиль реплик напрямую зависят от личности персонажа: Твайлайт и Рарити говорят развёрнуто и многословно, а Радуга Дэш и Пинки Пай — кратко и эмоционально;

Динамика активности по сезонам показывает, что роль некоторых героев, таких как Спайк и Старлайт Глиммер, усиливается в более поздних сезонах, что отражает развитие сюжета и расширение вселенной сериала.

Этот проект дал мне шанс применить анализ данных к сериалу, который я смотрела ещё в детстве. С помощью графиков я смогла разглядеть, как на самом деле устроено общение между пони.

Оказалось, что «магия дружбы» в «My Little Pony» — это не просто слова. Цифры подтверждают: у каждого персонажа есть свой стиль речи, а их диалоги складываются в целую сеть взаимоотношений. Твайлайт Спаркл естественным образом оказывается в центре всех коммуникаций — она не просто главная героиня, а настоящее ядро, которое связывает всех остальных.

Использованные ресурсы и генеративные модели

1. Нейросеть GPT 5.2 — для решения ошибок и консультации по поводу возможностей тех или иных библиотек. 2. Google Collab — работа с датасетом, создание графиков. 3. Kaggle — источник датасета.

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more