
Актуальность работы
1. Демографическая ситуация оказывает влияние на состояние экономики и отдельные рынки товаров и услуг 2. Популярность методов интеллектуального анализа данных, в том числе методов машинного обучения 3. Рост применения инструментов предиктивного анализа для оценки демографической ситуации в мире.
Цель и задачи работы
Цель работы состоит в том, чтобы проанализировать данные о населении мира, а также спрогнозировать то, как будет меняться рост населения по всей планете в будущем.
Для достижения цели в работе поставлены следующие задачи:
1. Выполнить анализ предметной области, в частности, описать используемый набор данных и выполнить обзор предшествующих достижений
2. Провести разведочный анализ и подготовку данных, включая очистку и предварительную обработку данных
3. Выполнить моделирование текущей демографической ситуации в мире, используя различные модели машинного обучения для прогнозирования роста населения, проанализировать текущие результаты
Набор данных

Исходный набор данных
Обоснование выбора
1. Актуальность и точность 2. Динамика роста населения 3. Глобальная перспектива 4. Прогнозы и тенденции 5. Фокус на ключевых странах 6. Темпы роста
Выбранные данные необходимы для анализа текущих и будущих демографических вызовов, планирования ресурсов и инфраструктуры, а также для разработки политики, направленной на устойчивое развитие.
Библиотеки и инструменты
Обзор данных
Ниже приведено описание признаков в этом наборе данных.
Типы данных в наборе // Уникальные значения // Пропущенные значения
Гистограммы распределения признаков
Гистограммы показывают, что большинство стран имеют относительно небольшое население, и лишь несколько стран имеют очень большое население, что создает длинный «хвост» на гистограмме. Большинство стран имеют небольшую территорию, и только несколько стран занимают огромные площади. Плотность населения также сильно варьируется, с большинством стран, имеющих низкую плотность населения, и небольшим числом стран с очень высокой плотностью населения. Большинство стран имеют низкий или умеренный темп роста населения, но есть несколько стран с очень высоким темпом роста.
Гистограммы распределения признаков
График корреляции переменных
Численность населения за разные годы (2022, 2020, 2015 и т. д.) имеет высокую положительную корреляцию (около 1), что подтверждает плавные изменения во времени. Ранг страны имеет отрицательную корреляцию с численностью населения, отражая более высокие позиции густонаселенных стран (например, Китай и Индия). Площадь страны имеет умеренную положительную корреляцию с численностью населения (около 0.45-0.51), хотя есть исключения, такие как Россия. Плотность населения имеет слабую отрицательную корреляцию с площадью (-0.063), указывая на более низкую плотность в крупных странах. Темп роста населения имеет слабую отрицательную корреляцию с численностью и площадью, что может быть связано с демографическими ограничениями. Процент мирового населения, приходящийся на страну, полностью коррелирует с численностью населения.
График корреляции переменных
Матрица корреляции признаков
Взаимосвязь между признаками в наборе данных
Выводы на основе матрицы корреляции
1. Коэффициенты корреляции между численностью населения в разные годы очень высокие (около 1), что указывает на постепенные изменения без резких скачков.
2. Существует отрицательная корреляция между рангом страны и ее населением, что означает, что более населенные страны имеют более низкий ранг.
3. Площадь страны имеет умеренную положительную корреляцию с численностью населения (около 0.45-0.51), но есть исключения, такие как Россия.
4. Слабая отрицательная корреляция между плотностью населения и площадью страны (-0.063) указывает на то, что большие по площади страны имеют меньшую плотность населения.
5. Темп роста населения имеет слабую отрицательную корреляцию с населением и площадью, что может быть связано с демографическими ограничениями в крупных странах.
6. Процент мирового населения, приходящийся на страну, имеет полную корреляцию с численностью населения за разные годы (равную 1).
Визуализация: библиотека plotly
1. Интерактивность Plotly предоставляет мощные инструменты для создания интерактивных графиков. Пользователи могут наводить курсор на график, чтобы получать подробную информацию о данных, что особенно полезно для анализа сложных наборов данных.
2. Простота использования Plotly имеет простой и интуитивно понятный синтаксис, что позволяет быстро создавать сложные визуализации.
3. Гибкость и адаптивность Plotly поддерживает широкий спектр типов графиков и позволяет легко настраивать визуализации под конкретные нужды, включая изменение цветов, меток, осей и других элементов графика.
4. Веб-интеграция Графики, созданные с помощью Plotly, легко интегрируются в веб-страницы и поддерживают работу в различных средах (например, Jupyter Notebook), что делает их идеальными для отчетов и презентаций.
Причины выбора типа графика «bar» (гистограмма): Визуализация распределения данных:
Гистограммы отлично подходят для отображения распределения числовых данных, что позволяет наглядно видеть, как распределены значения по определенным категориям или диапазонам. Сравнение категорий:
Гистограммы позволяют легко сравнивать величины между разными категориями (например, численность населения в разные годы или плотность населения по странам). Простота интерпретации:
Гистограммы являются одним из наиболее интуитивно понятных способов визуализации данных, что облегчает интерпретацию результатов для широкой аудитории.
Число стран по каждому континенту
Больше всего стран в Африке, меньше всего — в Южной Америке
Использование scatter plot (точечной диаграммы) для визуализации данных о самой высокой численности населения за 2022 год в Европе может быть обусловлено несколькими причинами:
Причины выбора scatter plot Отображение отдельных значений: Scatter plot позволяет отображать каждое отдельное значение в наборе данных, что полезно для идентификации конкретных стран с самой высокой численностью населения/
Визуализация взаимосвязей: Scatter plot может показать взаимосвязи или корреляции между двумя переменными. В данном случае можно показать, как численность населения соотносится с другими параметрами (например, площадью, плотностью населения или ВВП на душу населения).
Идентификация аномалий и трендов: Scatter plot помогает выявить аномалии или выделяющиеся точки данных, которые могут быть интересны для дальнейшего анализа. Например, можно увидеть, какие страны значительно выделяются по численности населения.
Простота интерпретации: Scatter plot прост для понимания и позволяет легко идентифицировать страны с самой высокой численностью населения за 2022 год в Европе.
Гибкость визуализации: Scatter plot позволяет использовать различные маркеры, цвета и размеры точек для представления дополнительной информации (например, можно использовать цвет для обозначения региона или размер точки для отображения плотности населения).
Самая высокая численность на 2022 год в Европе
В 2022 году Россия продолжает занимать первое место в Европе по численности населения. На втором месте Германия, на третьем — Великобритания. Франция и Италия попали в топ-5. Замыкает список Ватикан.
Использование круговой диаграммы (Pie chart) для визуализации распределения населения по континентам в 1970 и 2022 годах, а также для общей площади по континентам, имеет несколько причин:
Причины выбора Pie chart Наглядное представление долей: Круговая диаграмма идеально подходит для отображения относительных долей различных категорий в общей совокупности. Это делает её идеальной для визуализации долей населения по континентам или долей общей площади, занимаемой каждым континентом.
Простота восприятия: Pie chart является интуитивно понятной и легко интерпретируемой визуализацией. Большинству людей легко понять и сравнить размеры различных секторов круговой диаграммы, что упрощает восприятие данных.
Сравнение изменений во времени: Использование двух круговых диаграмм для 1970 и 2022 годов позволяет наглядно сравнить, как изменилось распределение населения по континентам за этот период. Это наглядно демонстрирует динамику демографических изменений.
Фокус на процентных долях: Pie chart акцентирует внимание на процентных долях каждой категории от общей суммы, что помогает понять, какие континенты занимают большую или меньшую долю в мировом населении или площади.
Эффективное представление для небольшого числа категорий: Круговые диаграммы особенно эффективны, когда число категорий невелико (как в случае с континентами), так как это позволяет легко различать и сравнивать разные доли.
Дополнительные преимущества:
Цветовая кодировка: Цвета в круговой диаграмме могут использоваться для представления разных континентов, что делает визуализацию более наглядной и понятной.
Интерактивность: В интерактивных версиях круговых диаграмм (например, в Plotly) можно добавлять всплывающие подсказки с дополнительной информацией при наведении на сектор, что улучшает восприятие данных.
Распределение населения по континентам в 1970 и 2022
Численность населения в Европе сократилась почти вдвое, в то время как численность населения в Африке увеличилась почти в два раза. Численность населения снизилась в Северной Америке, но увеличилась в Южной Америке, Азии и Океании.
Общая площадь по континентам
Наибольшая площадь — у Азии, наименьшая — у Океании.
Сравнение численности населения в 1970 и 2022 в крупнейших странах
Все крупнейшие страны увеличили численность населения.
Численность населения в 2022 году в наиболее карликовых государствах и территориях
В список стран и территорий с наименьшей численностью населения входят Ватикан, Токелау, Ниуэ, Тувалу, острова Уоллис и Футуна, Науру, Фолклендские острова, Монтсеррат, Сен-Пьер и Микелон, Сен-Бартелеми.
Предсказание численности населения // Подготовка данных
Таким образом, на 2022 год на Земле насчитывается 7,97 миллиардов людей. Для предсказания численности населения Земли в будущем необходимы исторические сведения о населении. Необходимо рассчитать суммарное количество людей за каждый из известных периодов (2022, 2020, 2015, 2010, 2000, 1990, 1980, 1970 годы).
Преобразованный набор данных
Состав набора данных, используемого для моделирования демографической ситуации в мире
Анализ полученных результатов
Точность модели при отборе самых важных признаков
Интерпретация полученного решения
Базовая модель представляет собой метод оценки параметров регрессионных моделей, являющийся обобщением классического метода наименьших квадратов
В качестве решения можно построить полином y = b0 + b1 * x + b2 * x^2 +… + bn * x^n, где b0 — смещение, а b1.bn — весовые коэффициенты для простого уравнения линейной регрессии
Описание зависимости между годом сбора данных и численностью населения позволяет получить уравнение y = b0 + b1 * x.
Его можно интерпретировать как Население = -160.58766 + 0.0833710451 * Год
Сравнительный анализ алгоритмов машинного обучения // Прогноз линейной регрессии
Описание программного кода
Создание пользовательского приложения
Результат запуска окна программы // Результат прогноза численности населения
Результат работы
1. Выполнен анализ демографической ситуации в мире (описан используемый набор данных и выполнен обзор предшествующих достижений, проведен разведочный анализ и подготовка данных, включая очистку и визуализацию набора данных)
2. Выполнено моделирование текущей демографической ситуации в мире
3. Лучший результат (наименьшую величину ошибки прогноза) продемонстрировала модель линейной регрессии, которая была использована в оконном приложении для прогнозирования численности населения
Основные источники
1. World Population Dataset [Электронный ресурс] / Kaggle — Режим доступа: https://www.kaggle.com/datasets/iamsouravbanerjee/world-population-dataset (дата обращения: 06.06.2024) 2. Population Data Analysis Based on Machine Learning [Электронный ресурс] / IEEE Explore — Режим доступа: https://ieeexplore.ieee.org/document/9777597 (дата обращения: 12.06.2024) 3. A machine learning analysis of the relationship of demographics and social gathering attendance from 41 countries during pandemic [Электронный ресурс] / Nature — Scientific Reports — Режим доступа: https://www.nature.com/articles/s41598-021-04305-5 (дата обращения: 09.06.2024) 4. 7 of the Most Used Regression Algorithms and How to Choose the Right One [Электронный ресурс] / Режим доступа: https://towardsdatascience.com/7-of-the-most-commonly-used-regression-algorithms-and-how-to-choose-the-right-one-fc3c8890f9e3 (дата обращения: 15.06.2024)
Ссылка на блокнот: