Original size 1140x1600

Анализ данных о населении разных стран мира

PROTECT STATUS: not protected
3

Актуальность работы

1. Демографическая ситуация оказывает влияние на состояние экономики и отдельные рынки товаров и услуг 2. Популярность методов интеллектуального анализа данных, в том числе методов машинного обучения 3. Рост применения инструментов предиктивного анализа для оценки демографической ситуации в мире.

Цель и задачи работы

Цель работы состоит в том, чтобы проанализировать данные о населении мира, а также спрогнозировать то, как будет меняться рост населения по всей планете в будущем.

Для достижения цели в работе поставлены следующие задачи:

1. Выполнить анализ предметной области, в частности, описать используемый набор данных и выполнить обзор предшествующих достижений

2. Провести разведочный анализ и подготовку данных, включая очистку и предварительную обработку данных

3. Выполнить моделирование текущей демографической ситуации в мире, используя различные модели машинного обучения для прогнозирования роста населения, проанализировать текущие результаты

Набор данных

big
Original size 932x528

Исходный набор данных

Обоснование выбора

1. Актуальность и точность 2. Динамика роста населения 3. Глобальная перспектива 4. Прогнозы и тенденции 5. Фокус на ключевых странах 6. Темпы роста

Выбранные данные необходимы для анализа текущих и будущих демографических вызовов, планирования ресурсов и инфраструктуры, а также для разработки политики, направленной на устойчивое развитие.

Original size 3511x1040

Библиотеки и инструменты

Original size 1280x517

Обзор данных

Original size 748x132
Original size 1488x270

Ниже приведено описание признаков в этом наборе данных.

Original size 1280x420

Типы данных в наборе // Уникальные значения // Пропущенные значения

Гистограммы распределения признаков

Гистограммы показывают, что большинство стран имеют относительно небольшое население, и лишь несколько стран имеют очень большое население, что создает длинный «хвост» на гистограмме. Большинство стран имеют небольшую территорию, и только несколько стран занимают огромные площади. Плотность населения также сильно варьируется, с большинством стран, имеющих низкую плотность населения, и небольшим числом стран с очень высокой плотностью населения. Большинство стран имеют низкий или умеренный темп роста населения, но есть несколько стран с очень высоким темпом роста.

Original size 830x240
Original size 964x454
Original size 676x170
Original size 1280x779

Гистограммы распределения признаков

График корреляции переменных

Численность населения за разные годы (2022, 2020, 2015 и т. д.) имеет высокую положительную корреляцию (около 1), что подтверждает плавные изменения во времени. Ранг страны имеет отрицательную корреляцию с численностью населения, отражая более высокие позиции густонаселенных стран (например, Китай и Индия). Площадь страны имеет умеренную положительную корреляцию с численностью населения (около 0.45-0.51), хотя есть исключения, такие как Россия. Плотность населения имеет слабую отрицательную корреляцию с площадью (-0.063), указывая на более низкую плотность в крупных странах. Темп роста населения имеет слабую отрицательную корреляцию с численностью и площадью, что может быть связано с демографическими ограничениями. Процент мирового населения, приходящийся на страну, полностью коррелирует с численностью населения.

Original size 822x258
Original size 1280x517

График корреляции переменных

Матрица корреляции признаков

Original size 758x238
Original size 934x570

Взаимосвязь между признаками в наборе данных

Выводы на основе матрицы корреляции

1. Коэффициенты корреляции между численностью населения в разные годы очень высокие (около 1), что указывает на постепенные изменения без резких скачков.

2. Существует отрицательная корреляция между рангом страны и ее населением, что означает, что более населенные страны имеют более низкий ранг.

3. Площадь страны имеет умеренную положительную корреляцию с численностью населения (около 0.45-0.51), но есть исключения, такие как Россия.

4. Слабая отрицательная корреляция между плотностью населения и площадью страны (-0.063) указывает на то, что большие по площади страны имеют меньшую плотность населения.

5. Темп роста населения имеет слабую отрицательную корреляцию с населением и площадью, что может быть связано с демографическими ограничениями в крупных странах.

6. Процент мирового населения, приходящийся на страну, имеет полную корреляцию с численностью населения за разные годы (равную 1).

Original size 1008x434
Original size 500x72
Original size 1194x732
Original size 598x58

Визуализация: библиотека plotly

1. Интерактивность Plotly предоставляет мощные инструменты для создания интерактивных графиков. Пользователи могут наводить курсор на график, чтобы получать подробную информацию о данных, что особенно полезно для анализа сложных наборов данных.

2. Простота использования Plotly имеет простой и интуитивно понятный синтаксис, что позволяет быстро создавать сложные визуализации.

3. Гибкость и адаптивность Plotly поддерживает широкий спектр типов графиков и позволяет легко настраивать визуализации под конкретные нужды, включая изменение цветов, меток, осей и других элементов графика.

4. Веб-интеграция Графики, созданные с помощью Plotly, легко интегрируются в веб-страницы и поддерживают работу в различных средах (например, Jupyter Notebook), что делает их идеальными для отчетов и презентаций.

Причины выбора типа графика «bar» (гистограмма): Визуализация распределения данных:

Гистограммы отлично подходят для отображения распределения числовых данных, что позволяет наглядно видеть, как распределены значения по определенным категориям или диапазонам. Сравнение категорий:

Гистограммы позволяют легко сравнивать величины между разными категориями (например, численность населения в разные годы или плотность населения по странам). Простота интерпретации:

Гистограммы являются одним из наиболее интуитивно понятных способов визуализации данных, что облегчает интерпретацию результатов для широкой аудитории.

Original size 742x206
Original size 1280x363

Число стран по каждому континенту

Больше всего стран в Африке, меньше всего — в Южной Америке

Original size 754x188
Original size 1420x438

Использование scatter plot (точечной диаграммы) для визуализации данных о самой высокой численности населения за 2022 год в Европе может быть обусловлено несколькими причинами:

Причины выбора scatter plot Отображение отдельных значений: Scatter plot позволяет отображать каждое отдельное значение в наборе данных, что полезно для идентификации конкретных стран с самой высокой численностью населения/

Визуализация взаимосвязей: Scatter plot может показать взаимосвязи или корреляции между двумя переменными. В данном случае можно показать, как численность населения соотносится с другими параметрами (например, площадью, плотностью населения или ВВП на душу населения).

Идентификация аномалий и трендов: Scatter plot помогает выявить аномалии или выделяющиеся точки данных, которые могут быть интересны для дальнейшего анализа. Например, можно увидеть, какие страны значительно выделяются по численности населения.

Простота интерпретации: Scatter plot прост для понимания и позволяет легко идентифицировать страны с самой высокой численностью населения за 2022 год в Европе.

Гибкость визуализации: Scatter plot позволяет использовать различные маркеры, цвета и размеры точек для представления дополнительной информации (например, можно использовать цвет для обозначения региона или размер точки для отображения плотности населения).

Original size 1312x100
Original size 1280x379

Самая высокая численность на 2022 год в Европе

В 2022 году Россия продолжает занимать первое место в Европе по численности населения. На втором месте Германия, на третьем — Великобритания. Франция и Италия попали в топ-5. Замыкает список Ватикан.

Использование круговой диаграммы (Pie chart) для визуализации распределения населения по континентам в 1970 и 2022 годах, а также для общей площади по континентам, имеет несколько причин:

Причины выбора Pie chart Наглядное представление долей: Круговая диаграмма идеально подходит для отображения относительных долей различных категорий в общей совокупности. Это делает её идеальной для визуализации долей населения по континентам или долей общей площади, занимаемой каждым континентом.

Простота восприятия: Pie chart является интуитивно понятной и легко интерпретируемой визуализацией. Большинству людей легко понять и сравнить размеры различных секторов круговой диаграммы, что упрощает восприятие данных.

Сравнение изменений во времени: Использование двух круговых диаграмм для 1970 и 2022 годов позволяет наглядно сравнить, как изменилось распределение населения по континентам за этот период. Это наглядно демонстрирует динамику демографических изменений.

Фокус на процентных долях: Pie chart акцентирует внимание на процентных долях каждой категории от общей суммы, что помогает понять, какие континенты занимают большую или меньшую долю в мировом населении или площади.

Эффективное представление для небольшого числа категорий: Круговые диаграммы особенно эффективны, когда число категорий невелико (как в случае с континентами), так как это позволяет легко различать и сравнивать разные доли.

Дополнительные преимущества:

Цветовая кодировка: Цвета в круговой диаграмме могут использоваться для представления разных континентов, что делает визуализацию более наглядной и понятной.

Интерактивность: В интерактивных версиях круговых диаграмм (например, в Plotly) можно добавлять всплывающие подсказки с дополнительной информацией при наведении на сектор, что улучшает восприятие данных.

Original size 1278x562
Original size 1280x422

Распределение населения по континентам в 1970 и 2022

Численность населения в Европе сократилась почти вдвое, в то время как численность населения в Африке увеличилась почти в два раза. Численность населения снизилась в Северной Америке, но увеличилась в Южной Америке, Азии и Океании.

Original size 1046x380
Original size 1070x482

Общая площадь по континентам

Наибольшая площадь — у Азии, наименьшая — у Океании.

Original size 1078x170
Original size 1280x374

Сравнение численности населения в 1970 и 2022 в крупнейших странах

Все крупнейшие страны увеличили численность населения.

Original size 952x112
Original size 1436x492

Численность населения в 2022 году в наиболее карликовых государствах и территориях

В список стран и территорий с наименьшей численностью населения входят Ватикан, Токелау, Ниуэ, Тувалу, острова Уоллис и Футуна, Науру, Фолклендские острова, Монтсеррат, Сен-Пьер и Микелон, Сен-Бартелеми.

Предсказание численности населения // Подготовка данных

Original size 766x98

Таким образом, на 2022 год на Земле насчитывается 7,97 миллиардов людей. Для предсказания численности населения Земли в будущем необходимы исторические сведения о населении. Необходимо рассчитать суммарное количество людей за каждый из известных периодов (2022, 2020, 2015, 2010, 2000, 1990, 1980, 1970 годы).

Original size 1064x394
Original size 724x300
Original size 950x312

Преобразованный набор данных

Original size 1034x486

Состав набора данных, используемого для моделирования демографической ситуации в мире

Анализ полученных результатов

Original size 908x184
Original size 726x454
Original size 1100x444
Original size 948x150

Точность модели при отборе самых важных признаков

Интерпретация полученного решения

Базовая модель представляет собой метод оценки параметров регрессионных моделей, являющийся обобщением классического метода наименьших квадратов

В качестве решения можно построить полином y = b0 + b1 * x + b2 * x^2 +… + bn * x^n, где b0 — смещение, а b1.bn — весовые коэффициенты для простого уравнения линейной регрессии

Original size 880x140

Описание зависимости между годом сбора данных и численностью населения позволяет получить уравнение y = b0 + b1 * x.

Его можно интерпретировать как Население = -160.58766 + 0.0833710451 * Год

Original size 900x210
Original size 862x400
Original size 1280x409

Сравнительный анализ алгоритмов машинного обучения // Прогноз линейной регрессии

Описание программного кода

Original size 3500x2480

Создание пользовательского приложения

Original size 1254x196

Результат запуска окна программы // Результат прогноза численности населения

Результат работы

1. Выполнен анализ демографической ситуации в мире (описан используемый набор данных и выполнен обзор предшествующих достижений, проведен разведочный анализ и подготовка данных, включая очистку и визуализацию набора данных)

2. Выполнено моделирование текущей демографической ситуации в мире

3. Лучший результат (наименьшую величину ошибки прогноза) продемонстрировала модель линейной регрессии, которая была использована в оконном приложении для прогнозирования численности населения

Основные источники

1. World Population Dataset [Электронный ресурс] / Kaggle — Режим доступа: https://www.kaggle.com/datasets/iamsouravbanerjee/world-population-dataset (дата обращения: 06.06.2024) 2. Population Data Analysis Based on Machine Learning [Электронный ресурс] / IEEE Explore — Режим доступа: https://ieeexplore.ieee.org/document/9777597 (дата обращения: 12.06.2024) 3. A machine learning analysis of the relationship of demographics and social gathering attendance from 41 countries during pandemic [Электронный ресурс] / Nature — Scientific Reports — Режим доступа: https://www.nature.com/articles/s41598-021-04305-5 (дата обращения: 09.06.2024) 4. 7 of the Most Used Regression Algorithms and How to Choose the Right One [Электронный ресурс] / Режим доступа: https://towardsdatascience.com/7-of-the-most-commonly-used-regression-algorithms-and-how-to-choose-the-right-one-fc3c8890f9e3 (дата обращения: 15.06.2024)

Ссылка на блокнот:

Анализ данных о населении разных стран мира
3
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more