Original size 666x1000

KANYE WEST TWEETS

PROTECT STATUS: not protected

ВВЕДЕНИЕ

Я хотел проанализировать такой феномен в Твиттере как Канье Уест. Проанализировать частоту твитов их тональность показалось мне достаточно интересным.

Данные я нашел в свободном доступе на kaggle: https://www.kaggle.com/datasets/konradb/kanye-west-tweets

ЭТАПЫ РАБОТЫ

big
Original size 2161x2504

Для выполнения графиков я не выбирал определенные цвета и оттенки, мне кажется это лишнее.

Первое что я бы хотел узнать с помощью анализа данных это частоту твитов Канье Уеста

tweets_per_day = tweets_df.groupby (tweets_df['date'].dt.date).size ()

plt.figure (figsize=(12, 6)) sns.lineplot (data=tweets_per_day, marker='o', color='gold') plt.title («Частота твитов Канье Уэста», fontsize=16, fontweight='bold', color='black') plt.xlabel («Дата», fontsize=12) plt.ylabel («Количество твитов», fontsize=12) plt.xticks (rotation=45) plt.grid (color='lightgray', linestyle='--', linewidth=0.5) plt.tight_layout () plt.show ()

Original size 1184x584

Потом я решил выяснить какая тональность у его твитов.

tweets_df['sentiment'] = tweets_df['text'].apply (lambda x: TextBlob (x).sentiment.polarity)

print («Средняя тональность:», tweets_df['sentiment'].mean ())

plt.figure (figsize=(8, 5)) sns.histplot (tweets_df['sentiment'], bins=30, kde=True, color='purple') plt.title («Распределение тональности твитов», fontsize=16, fontweight='bold', color='black') plt.xlabel («Тональность», fontsize=12) plt.ylabel («Количество твитов», fontsize=12) plt.tight_layout () plt.show ()

Original size 784x484

Потом решил проанализировать его слова паразиты или самые популярные слова фигурирующие в его твитах.

def clean_text (text): return re.sub (r'[^\w\s]', '', text.lower ()) tweets_df['clean_text'] = tweets_df['text'].apply (clean_text)

word_counts = Counter (' '.join (tweets_df['clean_text']).split ()).most_common (20) print («Наиболее часто встречающиеся слова:») print (word_counts) plt.figure (figsize=(10, 6)) words, counts = zip (*word_counts) sns.barplot (x=counts, y=words, palette='viridis') plt.title («Наиболее часто встречающиеся слова в твитах», fontsize=16, fontweight='bold', color='black') plt.xlabel («Частота», fontsize=12) plt.ylabel («Слово», fontsize=12) plt.tight_layout () plt.show ()

Original size 984x584

И в завершающем этапе я решил посмотреть временной ряд твитов.

plt.figure (figsize=(12, 6)) sns.lineplot (data=tweets_per_day, marker='o', color='gold') plt.title («Временной ряд твитов Канье Уэста», fontsize=16, fontweight='bold', color='black') plt.xlabel («Дата», fontsize=12) plt.ylabel («Количество твитов», fontsize=12) plt.xticks (rotation=45) plt.grid (color='lightgray', linestyle='--', linewidth=0.5) plt.tight_layout () plt.show ()

Original size 1184x584

ВЫВОД

Твиты Канье Веста, собранные в этом датасете, демонстрируют его активность и популярность в социальных сетях. Эти твиты, как правило, содержат эмоциональные или актуальные сообщения, которые вызывают сильную реакцию у пользователей. Визуализация помогает понять, какие темы и сообщения наиболее интересны его фолловерам, а также подчеркивает его значимость в медиапространстве.

БЛОКНОТ С КОДОМ И ДАТАСЕТ

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more