Original size 3644x5200

May the Dataset Be with You: анализ персонажей «Звёздных войн»

PROTECT STATUS: not protected
The project is taking part in the competition

Концепция

Вселенная Звёздные войны кажется тщательно продуманным миром, где у каждого персонажа есть своя история, происхождение и место в общем повествовании. Мы запоминаем героев по их поступкам и характеру, но за кадром остаётся другой слой — набор чисел, описывающих их физические параметры и биологические особенности. Рост, вес, пол, раса, планета происхождения — всё это редко воспринимается как данные, хотя именно они формируют структуру вымышленной галактики.

В этом проекте я обращаюсь к «Звёздным войнам» как к набору данных и пытаюсь взглянуть на знакомых персонажей с аналитической точки зрения. Мне интересно, существуют ли закономерности в физических характеристиках жителей разных планет, отличаются ли герои различных рас по росту и массе, и насколько разнообразной на самом деле является эта вселенная, если измерять её цифрами, а не сюжетами.

Интуитивно кажется, что ключевые персонажи франшизы довольно похожи друг на друга — большинство из них гуманоиды со схожими пропорциями. Однако анализ данных позволяет проверить это ощущение и посмотреть, не скрывается ли за визуальным сходством более сложная картина. Визуализация помогает вынести эти различия на поверхность, превращая сухие таблицы в наглядные образы и сравнения.

Данные для анализа

Для анализа в проекте используется датасет с платформы Kaggle, содержащий данные о персонажах вселенной Звёздные войны. Набор данных представляет собой таблицу с описательными характеристиками персонажей и включает информацию об их росте и весе, поле, виде, планете происхождения, цвете кожи, глаз и волос, а также дополнительных атрибутах, связанных с появлением в фильмах и использовании транспорта.

ВОПРОС ИССЛЕДОВАНИЯ:

Можно ли с помощью анализа и визуализации данных о персонажах вселенной Звёздные войны выявить закономерности в их физических характеристиках и происхождении и понять, насколько разнообразной и структурированной является эта вымышленная галактика?

Для визуализации данных о персонажах вселенной Звёздные войны были выбраны несколько типов графиков, позволяющих рассмотреть набор данных с разных сторон.

Круговые диаграммы (pie charts) используются для отображения долей категориальных признаков, таких как распределение персонажей по полу, видам или планетам происхождения. Такой формат наглядно показывает, какие группы доминируют в датасете и насколько он сбалансирован.

Столбчатые диаграммы применяются для сравнения количественных показателей между категориями — например, среднего роста или веса персонажей разных видов и планет. Они позволяют быстро выявить различия и сопоставить группы между собой.

Гистограммы используются для анализа распределения числовых характеристик. С их помощью можно оценить типичные значения, разброс данных и наличие экстремальных или выбивающихся наблюдений.

Точечная диаграмма применяется для исследования взаимосвязи между числовыми параметрами, в частности между ростом и весом персонажей. Она помогает визуально определить наличие корреляций, кластеров и аномалий внутри набора данных.

В визуализации и оформлении проекта использован фирменный жёлтый цвет #FFE81F, вдохновлённый культовыми титрами вселенной «Звёздные войны», а также фанатский креолизированный шрифт Star Wars Demolition Level, который имитирует стиль оригинальных заголовков фильмов и придаёт проекту атмосферу галактики.

Original size 1280x774

Анализ и визуализация данных

Импорт библиотек и загрузка данных

Импорт библиотек (pandas, numpy, matplotlib, seaborn) и модулей для работы с путями и шрифтами. Отключение предупреждений. В Google Colab загружается CSV-файл с данными и читается в DataFrame. Затем загружается файл шрифта и формируется путь к нему для использования в визуализациях.

Original size 1068x448

Предобработка данных

Копирование исходного DataFrame, преобразование столбцов height и mass в числовой формат с обработкой ошибок, заполнение пропусков медианными значениями. Создание словарей для перевода на русский язык категорий species, homeworld, gender и eye_color, с применением их для новых столбцов (_ru). Добавление столбца creature_type для разделения на дроидов и биологические виды, а также force_affiliation для маркировки пользователей Силы на основе списка имён.

Original size 1071x752

Настройка стиля визуализации

Импорт matplotlib и добавление кастомного шрифта из ранее загруженного файла. Определение словаря цветов в тематике Star Wars (например, золото джедаев, красный ситхов). Обновление глобальных параметров rcParams для фигур: размер, цвета фона, отсутствие сетки и осей, белые метки. Создание функции style_starwars_plot для кастомизации осей графика: установка заголовка и меток с заданными шрифтами, цветами и отступами, скрытие тиков, тёмный фон.

Original size 1067x696

Визуализация распределения типов существ и аффилиации с Силой

Подсчёт значений в столбцах creature_type и force_affiliation. Создание фигуры с двумя подграфиками для круговых диаграмм (pie charts): слева — доля биологических видов vs дроидов, справа — пользователей Силы vs обычных существ. Применение кастомных цветов, автотекстов с процентами и количествами, жирных шрифтов, тёмного фона и общего супертитула на русском. Отображение графика.

Original size 1087x724
Original size 2141x1110

Визуализация топ-8 самых распространенных видов

Подсчёт топ-8 видов из species_ru, создание горизонтальной бар-чарты с кастомными цветами (синий мятежников, золотой джедаев), метками значений на барах. Добавление текста с общим числом уникальных видов и долей людей, применение стиля style_starwars_plot, тёмный фон и отображение.

Original size 1071x444
Original size 2235x1185

Анализ корреляции роста и массы персонажей

Фильтрация данных на персонажей с массой >500 кг и ростом <250 см (возможно, для выделения outliers). Создание scatter plot с точками по видам (Человек, Дроид, Вуки и другие), кастомными цветами, размерами и альфой. Добавление легенды, расчёт корреляции роста и массы, отображение её в тексте с боксом, применение стиля style_starwars_plot и показ графика.

Original size 1070x560
Original size 2085x1185

Визуализация топ-7 родных миров персонажей

Подсчёт топ-7 значений из homeworld_ru, создание бар-чарты с кастомными цветами (зелёный световой меч, песок Татуина и т. д.), белыми краями, поворотом меток осей. Добавление текстовых меток значений на барах золотым цветом, применение стиля style_starwars_plot с заголовком и метками осей на русском, отображение графика.

Original size 1071x426
Original size 2085x1035

Визуализация распределения персонажей по росту

Создание гистограммы распределения значений роста из height с 20 бинами, синим цветом светового меча, золотыми краями и прозрачностью. Вычисление и добавление линий среднего (красный, пунктир) и медианного (зелёный, пунктир) роста с метками на русском. Применение стиля style_starwars_plot с заголовком и метками осей на русском, добавление легенды в чёрно-золотом стиле, сжатие макета и отображение графика.

Original size 1074x368
Original size 2085x1035

Выводы из анализа

Выводы из анализа

Два ключевых вида среди галактического населения Пай-чарты сравнивают биологию и дроидов, а также пользователей Силы и обычных. Биологические виды — 93,1% (80 персонажей), дроиды — 6,9% (6). Фокус саги на органической жизни. Пользователи Силы — 6,9% (6), обычные — 93,1% (80). Мистические способности редки. Большинство — «обычные» жители без сверхсил.

Топ-8 самых распространенных видов Анализ видов выявляет лидерство дроидов (42) и людей (35) из 87 персонажей. Они составляют около 90%. Остальные: дрона (6), вуки (2), родянец (1), хатт (1) и другие. Уникальных видов — 6. Люди — 35 из 87. Вселенная антропоцентрична. Биологические и механические формы сосуществуют, но humanoid-подобные доминируют.

Связь между ростом и массой тела Scatter plot показывает корреляцию 0.689 между ростом и массой. Высокие чаще тяжелее. Люди (желтые) и дроиды (зеленые) — в средних диапазонах (150–200 см, 50–100 кг). Вуки (коричневые) и другие (оранжевые) — outliers сверху. Зависимость биологическая, но с вариациями по видам. Нет строгой линейности.

Родные миры персонажей Бар-чарт топ-7 миров доминирует «Другой планетой» (56 персонажей). Это отражает разнообразие или неизвестность происхождения. Лидируют Набу (11) и Татуин (10). Далее — Альдераан (3), Корусант (3), Кашиик (2), Кореллия (2). Ключевые персонажи сосредоточены на немногих планетах. Это типично для саги, с акцентом на периферию и центр Галактики.

Распределение персонажей по росту Гистограмма роста показывает концентрацию персонажей Star Wars в диапазоне 150–200 см. Пик приходится на 175 см. Средний рост — 174.7 см, медиана — 180 см. Это указывает на асимметрию в сторону высоких значений. Крайние росты (ниже 125 см или выше 225 см) редки. Большинство видов имеют «человеческий» рост.

Заключение

Вселенная «Звёздных войн» предстает как богатая и многогранная галактика, где персонажи, словно звёзды, группируются вокруг типичных антропоморфных черт, подчёркивая баланс между органической жизнью и механикой.

Распределение роста показывает гармоничную симметрию: большинство героев укладываются в «человеческий» диапазон от 150 до 200 см, с пиком у 175 см. Средний рост 174,7 см слегка ниже медианы 180 см, намекая на лёгкую асимметрию в пользу величественных фигур. Крайние значения редки, как далёкие планеты за горизонтом, подчёркивая разнообразие видов без нарушения общей гармонии.

Родные миры добавляют глубины: «другие планеты» доминируют с 56 персонажами, отражая бесконечность космоса и тайны происхождения. В то же время ключевые локации вроде Набу и Татуина (по 11 и 10 жителей) сияют как центры гравитации саги, где периферия и сердце Галактики сплетаются в эпических конфликтах.

Виды населения усиливают антропоцентричность: дроиды (42) и люди (35) из 87 фигур составляют около 90%. Редкие экзотические формы, такие как вуки или дроны, добавляют разнообразия, но не затмевают доминанту. Пай-чарты подчёркивают редкость чудес: биологические существа составляют 93,1% (80 персонажей), оставляя дроидам и пользователям Силы всего 6,9%. Это напоминает, что сверхъестественное — элитарный дар, а большинство — обычные жители, борющиеся за судьбу миров.

Связь роста и массы тела, с умеренной корреляцией 0,689, рисует биологическую логику: высокие чаще массивны, но вариации по видам — от компактных людей и дроидов до мощных вуки — добавляют нюансов, без жёсткой линейности, словно эволюция в действии.

В целом, анализ раскрывает «Звёздные войны» как зеркало человеческого опыта в космическом масштабе: разнообразное, но упорядоченное, где редкие исключения подчёркивают правило. Фокус на органике и редкости Силы усиливает вечные темы идентичности, конфликта и единства в бесконечности.

Описание применения генеративной модели

Генеративная модель ChatGPT 5.2 применялась как вспомогательный инструмент на всех этапах исследования. Она использовалась для формулирования исследовательских гипотез, структурирования аналитических шагов, а также для помощи в обработке данных и написании кода на Python с использованием библиотек Pandas, Matplotlib и Seaborn. Модель также помогала проверять корректность синтаксиса и предлагала оптимальные подходы к визуализации данных, облегчая интерпретацию результатов.

Ссылки

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more