
В проекте исследуется, как за период 2010–2024 годов изменился масштаб и структура цифровой среды: рост числа пользователей, смена лидеров среди социальных платформ и увеличение ежедневного времени онлайн.
Цели проекта
1. Анализировать данные о развитии интернета за 15 лет (2010-2024) 2. Визуализировать рост социальных медиа платформ 3. Определить корреляции между ключевыми метриками
Характеристика данных
Период: 2010–2024
Источник: Анализ публичных статистических данных
Параметры: Интернет пользователи, Facebook, Instagram, YouTube, TikTok, среднее время в интернете
Формат: CSV датасет с 15 записями и 6 числовыми переменными
Вводная часть
Для проекта был использован набор данных о росте количества пользователей в Интернете и на крупнейших социальных платформах (Facebook, Instagram, YouTube, TikTok) в мире за период 2010–2024 годов, а также о среднем ежедневном времени, проводимом в Интернете.
Данные были взяты из открытых статистических источников, которые предлагаются в методичке курса: государственные порталы открытых данных (например, список от Яндекса с ссылками на data.mos.ru и data.gov.ru), каталоги наборов данных и платформы Kaggle, а также материалы из образовательных ноутбуков на Google Colab и открытых библиотек с текстами и исследованиями (lib.ru, Project Gutenberg, статьи о бесплатных источниках данных).
Эти данные отражают не абстрактную, а очень ощутимую повседневную реальность, то, как за 15 лет изменилась цифровая среда, в которой человек проводит значительную часть жизни. Выбранные данные позволяют одновременно рассмотреть несколько слоёв: общий рост аудитории интернета, конкуренцию и смену лидеров среди платформ, «революцию» коротких видео и то, как из‑за этого выросло среднее ежедневное время онлайн.
Линейный график роста количества интернет‑пользователей по годам наглядно демонстрирует плавный, почти монотонный рост и позволяет воспринимать динамику как тренд во времени.
На множественном линейном графике для четырёх платформ (Facebook, Instagram, YouTube, TikTok) на одной системе координат расположены точки входа каждой платформы, моменты ускорения и плато. Таким образом, график отвечает за сравнительную динамику и «битву платформ».
Столбчатая диаграмма с процентными темпами роста платформ переводит временные ряды в один взгляд — можно сразу увидеть, что Instagram и TikTok растут гораздо быстрее Facebook, а YouTube остаётся устойчивым лидером по абсолютным значениям.
Тепловая карта количества интернет‑пользователей, аудитории платформ и времени в интернете наглядно показывает статистические связи, подчёркивает чёткую корреляцию между ростом интернета, Instagram, YouTube и ростом ежедневного времени онлайн.
Этапы работы
Выбор темы и структуры данных
Определена тема: рост числа интернет‑пользователей, аудитории социальных сетей и среднего времени в интернете за 2010–2024 годы.
Сформирована таблица с годами и шестью числовыми столбцами: Internet Users, Facebook, Instagram, YouTube, TikTok, Avg Daily Internet Time.
Создание и загрузка датасета
В отдельном скрипте собраны и сохранены данные в CSV‑файл internet_growth_data.csv с помощью pandas.DataFrame.to_csv ().
В основном ноутбуке данные загружались так: import pandas as pd
data = pd.read_csv ('internet_growth_data.csv') print (data.head ()) print (data.isnull ().sum ()) print (data.describe ().round (2))
Проверены пропуски, размеры таблицы и базовая описательная статистика.
Подготовка к анализу
Для удобства созданы словари и списки с названиями столбцов (например, platforms = {'Facebook': 'Facebook (millions)', …}), чтобы одинаково обрабатывать разные платформы.
Рассчитаны темпы роста по каждой платформе и по интернет‑пользователям: first_val = data[col].iloc[0] last_val = data[col].iloc[-1] growth = (last_val — first_val) / first_val * 100
Для платформ, которых «не существовало» в начале (Instagram, TikTok), рост считался с первого ненулевого года.
Корреляционный анализ
Выделены ключевые столбцы и построена корреляционная матрица: cols = ['Internet Users (millions)', 'Facebook (millions)', 'Instagram (millions)', 'YouTube (millions)', 'Avg Daily Internet Time (hours)']
corr_matrix = data[cols].corr ()
Из матрицы выбраны и интерпретированы наиболее важные связи (корреляция с интернет‑пользователями и между платформами).
Прогнозирование
Для YouTube, TikTok и Instagram построены простые линейные модели по годам с помощью numpy.polynomial.Polynomial.fit: from numpy.polynomial import Polynomial
p_youtube = Polynomial.fit (data['Year'], data['YouTube (millions)'], 1) pred_2025 = p_youtube (2025) pred_2026 = p_youtube (2026)
Аналогичный подход применён к TikTok и Instagram, но только по тем годам, когда значения уже больше нуля.
Использование нейросетей
Для проекта использовался помощник на основе генеративной модели — ChatGPT.
Задачи, для которых использовался ИИ: — формулировка концепции проекта и возможных исследовательских вопросов — помощь в структуре кода: разделение анализа на логические части (загрузка данных, описательная статистика, корреляция, прогноз) — черновые формулировки текстов для презентации (подводка, описания графиков, формулировка выводов), которые затем редактировались вручную
Примеры промптов:
«Предложи структуру финального проекта по визуализации данных о росте социальных сетей с минимум четырьмя графиками и простыми статистическими методами».
«Помоги написать Python‑код на Pandas для анализа временного ряда по годам и вычисления процентного роста и корреляции между столбцами».
«Сформулируй текст выводов по результатам корреляционного анализа между ростом пользователей интернета и социальных платформ».
Стилизация графиков и источники вдохновения
Цветовая палитра: холодные тона (синий, голубой) для минималистичного вида Шрифт: Arial — чистый, профессиональный, хорошо читаемый Стиль: тёмный фон + акцентные цвета Типы графиков: линейный и множественный графики, столбчатая диаграмма, тепловая карта, инфографика
В коде: import matplotlib.pyplot as plt import seaborn as sns
sns.set_style («whitegrid») plt.style.use ('dark_background') plt.rcParams['figure.figsize'] = (14, 6)
Для разных серий данных выбран контрастный цветовой код: YouTube — синий, TikTok — ярко‑розовый, Instagram — фиолетовый, Facebook — коралловый, чтобы визуально различать платформы на общем поле.
Вдохновение бралось из примеров тёмных дашбордов и «dark theme» графиков:
— пример тёмных стилей matplotlib и статьи о dark‑background графиках — обзор коллекций тёмных стилей для matplotlib (например, Quantum Black, Material Darker)
Идея заключается в том, чтобы графики выглядели как единая инфографика для презентации/отчёта, а не как набор разрозненных скриншотов из Jupyter.
Форматы визуализации
Изучающий формат:
— линейные графики по годам позволяли искать тренды: где начинается рост TikTok, когда замедляется Facebook, как быстро увеличивается среднее время в интернете — тепловая карта корреляции использовалась для «разведки» скрытых связей между переменными: какие платформы растут синхронно с интернет‑аудиторией, что сильнее связано с временем онлайн
Объясняющий формат:
На основе изучающих графиков были выбраны четыре финальных визуализации, каждая из которых отвечает на конкретный вопрос.
«Насколько выросло число интернет‑пользователей?» — линейный график общего роста. «Как платформы конкурируют между собой?» — мульти‑линейный график четырёх платформ. «Кто растёт быстрее всех?» — столбчатая диаграмма темпов роста. «Как всё это связано между собой?» — тепловая карта корреляций.
Для презентации к каждому графику добавлены короткие подписи, переводящие визуальный паттерн в вербальный вывод (например, «Instagram: +7900% — самый быстрорастущий сервис»).
Используемые статистические методы
Описательная статистика:
— среднее значение, минимум, максимум, стандартное отклонение по основным показателям (data.describe ()) — процентный рост по формуле (последнее−первое) / первое×100 (последнее−первое) / первое×100 для интернет‑пользователей и каждой платформы
Корреляционный анализ:
— построена корреляционная матрица DataFrame.corr (method='pearson') для пяти ключевых переменных — интерпретация уровней корреляции: 0.5–0.7 — умеренная, 0.7–0.9 — сильная, выше 0.9 — очень сильная положительная связь
Простая линейная регрессия / тренд‑линия:
— для прогнозов использована линейная аппроксимация временных рядов через numpy.polynomial.Polynomial.fit (year, value, 1) и последующую подстановку годов 2025–2026 — на основе этих моделей сформулированы количественные прогнозы (например, ожидаемое число пользователей YouTube и TikTok в 2025–2026)
Сравнительный анализ темпов роста:
— пересчитаны темпы роста в процентах для разных платформ, затем эти показатели визуализированы столбчатой диаграммой, чтобы сразу увидеть различия в динамике
Итоговые графики
280% рост за 15 лет
график 1: рост интернет-пользователей
YouTube лидирует, TikTok растет экспоненциально
график 2: сравнение социальных медиа
Instagram: 7900% — самый быстрорастущий сервис
график 3: темпы роста платформ
Instagram, YouTube и время в интернете корреллируют на 0,99
график 4: корреляционный анализ
Четыре ключевых метрики роста: интернета, YouTube, Instagram, времени
график 5: сводка результатов
Основные выводы
TikTok революция: За 5 лет достигла 2.2 млрд пользователей. Instagram доминирует: +7900% рост — самый экспоненциальный. Сильные корреляции: 0.99 между YouTube, Instagram и временем в сети. Время в интернете: Выросло с 2.5 до 8.3 часов в день (232%).
Прогноз на 2025
YouTube: ~3.2 млрд пользователей. TikTok: ~2.7 млрд пользователей (может обогнать YouTube). Instagram: Продолжит рост, стабилизируясь на 2.2 млрд. Интернет время: Достигнет 9+ часов в день.
Источники
Государственные данные: data.mos.ru, data.gov.ru Kaggle: kaggle.com наборы данных для анализа Open Data: Яндекс, Европа, Всемирный Банк Google Colab: для совместной обработки данных Статьи: careerfoundry.com об открытых данных
Файлы проекта