
Концепция
Сейчас, пожалуй, каждый из нас является активным пользователем социальных сетей, а многие и вовсе ведут и развивают свой блог, в качестве развлечения или работы. Однако фактом остается одно, главная валюта социальных сетей — это внимание пользователей. В связи с этим, мне стало интересно, что делает контент вирусным? Ответить на этот вопрос мне помог анализ базы данных с сайта Kaggle «Viral Social Media Trends & Engagement Analysis».

В этой базе я нашла данные о динамике вирусных трендов в социальных сетях TikTok, Instagram, Twitter и YouTube, а также данные о популярных хештегах, типах контента и вовлеченности пользователей. Поэтому, я решила проследить зависимость популярности публикаций от платформы, на которой они публикуются, сопровождающих их хештегов и типа формата.
Для визуализации я использовала различные типы графиков, например линейную диаграмму для демонстрации динамики числа просмотров в зависимости от платформы, или круговую для показа процентного соотношения просмотров приходящийся на тот или иной хештег. Также были использованы столбчатые диаграммы и бабл чарт.
Подготовка к работе
Прежде всего, я загрузила датасет в Google Colab, чтобы с ним можно было работать, а затем подобрала цветовую палитру с помощью Adobe Color для будущих графиков и внедрила ее с помощью переменных.

Загрузка датасета
Создание кастомной палитры
Для своей работы я выбрала яркие цвета, которые ассоциируются с соц-сетями и отсылают к трендовому, «кричащему» контенту.
цветовая палитра
График № 1
Прежде всего я решила выяснить, на какой платформе публикации увидит наибольшее количество людей. Для этого в линейной диаграмме были сопоставлены социальные сети и среднее количество просмотров на каждой из них. Выяснилось, что лидером, пусть и с небольшим отрывом, в этой категории является YouTube.
График № 2
Затем мне стало интересно, какие хештеги присвоены самым популярным видео. Для этого я составила круговую диаграмму с процентным соотношением в зависимости от количества просмотров.
Данная диаграмма показала, что все хештеги находятся в примерно в равном соотношение в около 10%, однако в топ 3 по миру входят Fitness, Education и Challenge.
График № 3
Однако рекомендации пользователей довольно сильно зависят не только от личных предпочтений, но и от региона, в котором они находятся. В связи с этим я также решила выделить самые популярные хештеги в разных странах, чтобы понять, что больше интересует людей там. Бабл чарт помог мне отследить количество просмотров, приходящееся на самый популярный хэштег в каждом регионе.
Благодаря этому графику можно предположить какой контент стоит снимать для аудитории той или иной страны.
Графики № 4 и № 5
Далее я задалась вопросом: что больше влияет на вовлеченность пользователей, хештеги или тип формата? Чтобы ответить на него, я построила две гистограммы, которые иллюстрируют колебания уровня вовлеченности пользователей в зависимости от тегов и формы контента.
Судя по графикам, больший диапазон значений среднего уровня вовлеченности для различных хештегов, по сравнению с категориями типов контента, указывает на то, что хештеги оказывают более значительное влияние на уровень вовлеченности, чем типы контента. И хотя оба фактора играют роль, выбор хештега, по-видимому, приводит к более широкому спектру результатов среднего уровня вовлеченности.
Вывод
С помощью анализа датасета удалось выяснить, какой контент, где, и с какими тегами чаще становится популярен. Теперь можно смело идти покорять просторы интернета!
Ознакомиться с блокнотом можно здесь.
Описание применения генеративных моделей