Original size 1140x1600

Рост интернета и социальных сетей

PROTECT STATUS: not protected
The project is taking part in the competition

В проекте исследуется, как за период 2010–2024 годов изменился масштаб и структура цифровой среды: рост числа пользователей, смена лидеров среди социальных платформ и увеличение ежедневного времени онлайн.

Цели проекта

1. Анализировать данные о развитии интернета за 15 лет (2010-2024) 2. Визуализировать рост социальных медиа платформ 3. Определить корреляции между ключевыми метриками

Характеристика данных

Период: 2010–2024

Источник: Анализ публичных статистических данных

Параметры: Интернет пользователи, Facebook, Instagram, YouTube, TikTok, среднее время в интернете

Формат: CSV датасет с 15 записями и 6 числовыми переменными

Вводная часть

Для проекта был использован набор данных о росте количества пользователей в Интернете и на крупнейших социальных платформах (Facebook, Instagram, YouTube, TikTok) в мире за период 2010–2024 годов, а также о среднем ежедневном времени, проводимом в Интернете.

Данные были взяты из открытых статистических источников, которые предлагаются в методичке курса: государственные порталы открытых данных (например, список от Яндекса с ссылками на data.mos.ru и data.gov.ru), каталоги наборов данных и платформы Kaggle, а также материалы из образовательных ноутбуков на Google Colab и открытых библиотек с текстами и исследованиями (lib.ru, Project Gutenberg, статьи о бесплатных источниках данных).

Эти данные отражают не абстрактную, а очень ощутимую повседневную реальность, то, как за 15 лет изменилась цифровая среда, в которой человек проводит значительную часть жизни. Выбранные данные позволяют одновременно рассмотреть несколько слоёв: общий рост аудитории интернета, конкуренцию и смену лидеров среди платформ, «революцию» коротких видео и то, как из‑за этого выросло среднее ежедневное время онлайн.

Линейный график роста количества интернет‑пользователей по годам наглядно демонстрирует плавный, почти монотонный рост и позволяет воспринимать динамику как тренд во времени.

На множественном линейном графике для четырёх платформ (Facebook, Instagram, YouTube, TikTok) на одной системе координат расположены точки входа каждой платформы, моменты ускорения и плато. Таким образом, график отвечает за сравнительную динамику и «битву платформ».

Столбчатая диаграмма с процентными темпами роста платформ переводит временные ряды в один взгляд — можно сразу увидеть, что Instagram и TikTok растут гораздо быстрее Facebook, а YouTube остаётся устойчивым лидером по абсолютным значениям.

Тепловая карта количества интернет‑пользователей, аудитории платформ и времени в интернете наглядно показывает статистические связи, подчёркивает чёткую корреляцию между ростом интернета, Instagram, YouTube и ростом ежедневного времени онлайн.

Этапы работы

Выбор темы и структуры данных

Определена тема: рост числа интернет‑пользователей, аудитории социальных сетей и среднего времени в интернете за 2010–2024 годы.

Сформирована таблица с годами и шестью числовыми столбцами: Internet Users, Facebook, Instagram, YouTube, TikTok, Avg Daily Internet Time.

Создание и загрузка датасета

В отдельном скрипте собраны и сохранены данные в CSV‑файл internet_growth_data.csv с помощью pandas.DataFrame.to_csv ().

В основном ноутбуке данные загружались так: import pandas as pd

data = pd.read_csv ('internet_growth_data.csv') print (data.head ()) print (data.isnull ().sum ()) print (data.describe ().round (2))

Проверены пропуски, размеры таблицы и базовая описательная статистика.

Подготовка к анализу

Для удобства созданы словари и списки с названиями столбцов (например, platforms = {'Facebook': 'Facebook (millions)', …}), чтобы одинаково обрабатывать разные платформы.

Рассчитаны темпы роста по каждой платформе и по интернет‑пользователям: first_val = data[col].iloc[0] last_val = data[col].iloc[-1] growth = (last_val — first_val) / first_val * 100

Для платформ, которых «не существовало» в начале (Instagram, TikTok), рост считался с первого ненулевого года.

Корреляционный анализ

Выделены ключевые столбцы и построена корреляционная матрица: cols = ['Internet Users (millions)', 'Facebook (millions)', 'Instagram (millions)', 'YouTube (millions)', 'Avg Daily Internet Time (hours)']

corr_matrix = data[cols].corr ()

Из матрицы выбраны и интерпретированы наиболее важные связи (корреляция с интернет‑пользователями и между платформами).

Прогнозирование

Для YouTube, TikTok и Instagram построены простые линейные модели по годам с помощью numpy.polynomial.Polynomial.fit: from numpy.polynomial import Polynomial

p_youtube = Polynomial.fit (data['Year'], data['YouTube (millions)'], 1) pred_2025 = p_youtube (2025) pred_2026 = p_youtube (2026)

Аналогичный подход применён к TikTok и Instagram, но только по тем годам, когда значения уже больше нуля.

Использование нейросетей

Для проекта использовался помощник на основе генеративной модели — ChatGPT.

Задачи, для которых использовался ИИ: — формулировка концепции проекта и возможных исследовательских вопросов — помощь в структуре кода: разделение анализа на логические части (загрузка данных, описательная статистика, корреляция, прогноз) — черновые формулировки текстов для презентации (подводка, описания графиков, формулировка выводов), которые затем редактировались вручную

Примеры промптов:

«Предложи структуру финального проекта по визуализации данных о росте социальных сетей с минимум четырьмя графиками и простыми статистическими методами».

«Помоги написать Python‑код на Pandas для анализа временного ряда по годам и вычисления процентного роста и корреляции между столбцами».

«Сформулируй текст выводов по результатам корреляционного анализа между ростом пользователей интернета и социальных платформ».

Стилизация графиков и источники вдохновения

Цветовая палитра: холодные тона (синий, голубой) для минималистичного вида Шрифт: Arial — чистый, профессиональный, хорошо читаемый Стиль: тёмный фон + акцентные цвета Типы графиков: линейный и множественный графики, столбчатая диаграмма, тепловая карта, инфографика

В коде: import matplotlib.pyplot as plt import seaborn as sns

sns.set_style («whitegrid») plt.style.use ('dark_background') plt.rcParams['figure.figsize'] = (14, 6)

Для разных серий данных выбран контрастный цветовой код: YouTube — синий, TikTok — ярко‑розовый, Instagram — фиолетовый, Facebook — коралловый, чтобы визуально различать платформы на общем поле.

Вдохновение бралось из примеров тёмных дашбордов и «dark theme» графиков:

— пример тёмных стилей matplotlib и статьи о dark‑background графиках ​— обзор коллекций тёмных стилей для matplotlib (например, Quantum Black, Material Darker)

Идея заключается в том, чтобы графики выглядели как единая инфографика для презентации/отчёта, а не как набор разрозненных скриншотов из Jupyter.

Форматы визуализации

Изучающий формат:

— линейные графики по годам позволяли искать тренды: где начинается рост TikTok, когда замедляется Facebook, как быстро увеличивается среднее время в интернете — тепловая карта корреляции использовалась для «разведки» скрытых связей между переменными: какие платформы растут синхронно с интернет‑аудиторией, что сильнее связано с временем онлайн

Объясняющий формат:

На основе изучающих графиков были выбраны четыре финальных визуализации, каждая из которых отвечает на конкретный вопрос.

«Насколько выросло число интернет‑пользователей?» — линейный график общего роста. «Как платформы конкурируют между собой?» — мульти‑линейный график четырёх платформ. «Кто растёт быстрее всех?» — столбчатая диаграмма темпов роста. «Как всё это связано между собой?» — тепловая карта корреляций.

Для презентации к каждому графику добавлены короткие подписи, переводящие визуальный паттерн в вербальный вывод (например, «Instagram: +7900% — самый быстрорастущий сервис»).

Используемые статистические методы

Описательная статистика:

— среднее значение, минимум, максимум, стандартное отклонение по основным показателям (data.describe ()) — процентный рост по формуле (последнее−первое) / первое×100 (последнее−первое) / первое×100 для интернет‑пользователей и каждой платформы

Корреляционный анализ:

— построена корреляционная матрица DataFrame.corr (method='pearson') для пяти ключевых переменных — интерпретация уровней корреляции: 0.5–0.7 — умеренная, 0.7–0.9 — сильная, выше 0.9 — очень сильная положительная связь

Простая линейная регрессия / тренд‑линия:

— для прогнозов использована линейная аппроксимация временных рядов через numpy.polynomial.Polynomial.fit (year, value, 1) и последующую подстановку годов 2025–2026 — на основе этих моделей сформулированы количественные прогнозы (например, ожидаемое число пользователей YouTube и TikTok в 2025–2026)

Сравнительный анализ темпов роста:

— пересчитаны темпы роста в процентах для разных платформ, затем эти показатели визуализированы столбчатой диаграммой, чтобы сразу увидеть различия в динамике

Итоговые графики

280% рост за 15 лет

Original size 2400x1600

график 1: рост интернет-пользователей

YouTube лидирует, TikTok растет экспоненциально

Original size 2400x1600

график 2: сравнение социальных медиа

Instagram: 7900% — самый быстрорастущий сервис

Original size 2400x1600

график 3: темпы роста платформ

Instagram, YouTube и время в интернете корреллируют на 0,99

Original size 2400x1600

график 4: корреляционный анализ

Четыре ключевых метрики роста: интернета, YouTube, Instagram, времени

Original size 2400x1600

график 5: сводка результатов

Основные выводы

TikTok революция: За 5 лет достигла 2.2 млрд пользователей. Instagram доминирует: +7900% рост — самый экспоненциальный. Сильные корреляции: 0.99 между YouTube, Instagram и временем в сети. Время в интернете: Выросло с 2.5 до 8.3 часов в день (232%).

Прогноз на 2025

YouTube: ~3.2 млрд пользователей. TikTok: ~2.7 млрд пользователей (может обогнать YouTube). Instagram: Продолжит рост, стабилизируясь на 2.2 млрд. Интернет время: Достигнет 9+ часов в день.

Источники

Государственные данные: data.mos.ru, data.gov.ru Kaggle: kaggle.com наборы данных для анализа Open Data: Яндекс, Европа, Всемирный Банк Google Colab: для совместной обработки данных Статьи: careerfoundry.com об открытых данных

Файлы проекта

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more