Анализ данных об исчезающих языках на Mediiia

Введение

На планете земля проживают десятки сотен национальностей, и почти у каждой из них есть свой язык. Но к сожалению, с течением времени культуры смешиваются между собой, и часть из них исчезает совсем. А вместе с культурой исчезает и язык.

Для проекта я выбрала набор данных с сайта kaggle, в котором собраны редкие языки со всего мира, классифицированные по системе, разработанной ЮНЕСКО. Согласно ей, есть 7 степеней сохранности языка, 5 из которых встречаются в таблице:

— Уязвимый (Vulnerable) — на языке разговаривает большинство детей, но его использование может быть ограниченным (например, на языке говорят только дома)

— Есть угроза исчезновения (Definitely endangered) — не изучается детьми как родной язык

— Серьезная угроза исчезновения (Severely endangered) — используется старшими поколениями; понятен поколению родителей, но не используется при общении с детьми и между собой

— На грани вымирания (Critically endangered) — оставшиеся носители — старики. Язык ими используется частично и редко — Вымерший (Extinct) — языки, у которых не осталось живых носителей

Ссылка на датасет

Задача проекта — глубже погрузиться в проблему сохранения культурного разнообразия, проанализировать данные о редких языках в разных странах, а также посмотреть, какие из представленных в таблице языков встречаются в России и какова их степень сохранности.

Ход работы

Сначала я установила библиотеки pandas и matplotlib и импортировала нужные для проекта функции. кроме того, я выбрала моноширинный шрифт, который впоследствии будет использоваться во всех графиках.

Исходный размер 2722x336

Код импорта библиотек

Далее считала загруженный файл с датасетом и посмотрела его объем. В таблице оказалось 2722 строки и 15 колонок, в которых содержались данные о названиях языков, странах, где на них говорят, их широте и долготе, а также количестве носителей и степени сохранности.

Исходный размер 2720x114

Код с командой read_csv

Исходный размер 2774x338

Код с командой columns, которая выдала названия столбцов таблицы

При анализе я преимущественно использовала столбчатые диаграммы, так как по моему мнению они наиболее точно и наглядно отображают данные. В первом графике я решила посмотреть, в каком соотношении присуствуют в таблице разные степени сохранности языков. Для этого надо было сгруппировать данные по колонке «Degree of endangerment». Для того, чтобы столбцы диаграммы шли в нужном порядке (от уязвимых языков к вымершим), я воспользовалась методом reindex, который мне посоветовал ChatGPT.

Исходный размер 2726x990

Код для создания и стилизации первой диаграммы

В результате получилась столбчатая диаграмма, которая показывает, что число еще живых языков значительно превышает количество вымерших языков. Большинству языков, содержащихся в таблице, присвоен статус «Definitely endangered» , однако их число близко к количествам языков, помеченных как „Vulnerable» , „Severely endangered» и „Critically endangered».

Исходный размер 770x627

График, показывающий соотношение количества языков с разными степенями сохранности

Далее мне захотелось посмотреть, какие из представленных в таблице редких языков, являются самыми распространенными. Поэтому во второй диаграмме я отобразила топ-5 самых используемых исчезающих языков. Для этого с помощью ChatGPT я обратилась к столбцу таблицы «Number of speakers» , в котором содержались данные о числе носителей каждого языка, и перевела все значения из этого столбца в числовой тип данных. Получившиеся данные я сгруппировала с данными из колонки с названием языка и создала диаграмму на основе 5 самых популярных языков. Затем к каждому из столбиков графика с помощью ChatGPT я добавила подписи, показывающие число носителей языков из графика.

Исходный размер 2726x1138

Код для создания графика самых распространенных редких языков

В получившийся график вошли ломбардский, белорусский, нижнесаксонский, сицилийский и южно-итальянский языки. Число их носителей варьируется от 3,5 млн до 7,5 миллионов человек.

Исходный размер 954x591

Топ-5 самых распространенных исчезающих языков

Затем я решила посмотреть на страны, в которых используется больше всего исчезающих языков. Для этого я использовала столбчатую диаграмму с накоплением, где по горизонтальной оси отображаются страны, а по вертикальной — число языков с разделением по степеням сохранности. Сначала я создала датафрейм с данными из столбцов «Countires» (страны) и „Degree of endangerment» (степень сохранности). На многих языках говорят в нескольких странах сразу, поэтому с помощью ChatGPT я разбила данные в таких строках по запятой. Далее сгруппировала данные и отобрала 10 стран с наибольшим количеством редких языков.

Исходный размер 2722x1110

Первая часть кода для графика со странами

Затем, чтобы степени сохранности в столбиках отображались в нужной последовательности, я создала список degree_order, который использовала при построении графика. Далее я добавила подписи и стилизовала график.

Исходный размер 2720x938

Вторая часть кода для графика со странами

В лидерах по количеству исчезающих языков оказались США, Бразилия и Индия. Также в каждой из стран, вошедших в итоговый график, есть языки всех степеней сохранности, однако соотношение этих степеней варьируется в каждой стране: к примеру, в Китае языки разных степеней сохранности присутствуют в примерно равных долях, а в США уязвимых языков значительно меньше, чем языков, находящихся в критической опасности.

Исходный размер 1026x847

Топ-10 стран с самым наибольшим числом исчезающих языков

Далее я решила подробнее рассмотреть Россию и статистику по ней. Для того, чтобы показать соотношение степеней сохранности языков, я выбрала круговую диаграмму. Для этого я предварительно с помощью ChatGPT вытащила из таблицы с данными строки, в которых в столбце «Countries» указана нужная страна. Затем создала круговую диаграмму и настроила цвета.

Исходный размер 1362x322

Код для построения круговой диаграммы с данными по России

Как видно по получившейся диаграмме, наибольший процент занимают языки со статусом «Definitely endangered». На втором месте после них идут языки, помеченные как „Severely endangered». Процентные доли остальных категорий языков достаточно близки друг к другу и составляют от 13 до 16 процентов.

Исходный размер 1039x534

Круговая диаграмма степеней сохранности исчезающих языков России

Напоследок, я решила посмотреть, сколько людей в России владеют самыми редкими из еще живых языков (в таблице с данными они помечены как «Critically endangered»). Для этого я отобрала языки, у которых в столбиках „Countries» и „Degree of endangerment» указаны нужные страна и степень сохранности, а затем создала столбчатую диаграмму, сгруппировав данные по названию языка и числу его носителей. В этом графике я использовала ChatGPT, чтобы правильно отфильтровать данные, а также чтобы добавить подписи с точным числом носителей для каждого языка.

Исходный размер 2728x1212

Код для графика с количеством носителей языков на грани вымирания в России

В получившийся график вошли данные по 21 языку. Самый распространенный язык среди представленных — ульчский, число людей, говорящих на нем, почти в 5 раз превосходит число носителей второго по популярности языка. Почти половиной из представленных на диаграмме языков владеют всего 5-20 человек, что показывает их критическое состояние. Также для одного языка, удовлетворяющего параметрам отбора (Eastern Mansi или восточно-мансийский), не было указано количества говорящих на нем людей, поэтому, хоть он и представлен на графике, точных данных по нему нет.

Исходный размер 1189x590

Диаграмма, демонстрирующая языки на грани вымирания в России

Заключение

Таким образом, мной были проведены анализ и визуализация данных об исчезающих языках мира. В ходе работы мы визуализировали общее соотношение степеней сохранения языков в мире и в России, нашли 5 самых распространенных исчезающих языков, составили топ стран с наибольшим количеством редких языков, а также посмотрели, сколько людей в России говорят на языках на грани вымирания.

Ссылка на код