
Описание
Новостные заголовки — это один из самых сжатых и влиятельных форматов медиа. Они формируют первое впечатление о событиях, расставляют акценты и задают тон общественной повестке. В рамках проекта я анализирую заголовки новостей издания ABC News за период с 2003 по 2021 год, чтобы исследовать, какие слова, темы и личности чаще всего появляются в новостях и как меняется язык заголовков со временем. Цель проекта — с помощью анализа данных и визуализации выявить скрытые закономерности в новостной повестке и представить их.

Промт: realistic digital illustration of a laptop on a desk, showing the ABC News website on its screen, headlines and images visible, soft natural lighting, modern workspace, high-detail
Для анализа был использован датасет ABC News Headlines, опубликованный на kaggle.com Датасет содержит более 1 миллиона новостных заголовков, опубликованных изданием ABC News, с указанием даты публикации.
В проекте использовались столбчатые диаграммы, линейные графики и тепловая карта, так как они позволяют наглядно сравнивать частотность слов и упоминаний персоналий, анализировать изменения новостной повестки во времени и выявлять временные паттерны. Анализ данных основан на методах описательной статистики и базового анализа текстовых данных, включая подсчёт абсолютных частот, группировку данных по годам, построение временных рядов и визуальный анализ распределений. Визуализация выполнена с использованием стандартного цветового цикла библиотеки matplotlib.
Этапы анализа
Самые частые слова в заголовках новостей
График (01)

Столбчатая диаграмма визуализирует топ-10 слов по общей частоте употребления за весь период. Слова new, man, says, over, police (новый, мужчина, говорит, конец связи, полиция) лидируют, что указывает на характер новостного контента: акцент на новизне, персонах, заявлениях, конфликтах и правоохранительной тематике.
Самые упоминаемые личности в заголовках новостей
График (02)

График позволяет увидеть, какие фигуры на протяжении длительного времени остаются в центре внимания медиа и формируют новостную повестку. Рассмотрим подробнее: абсолютный лидер — Дональд Трамп (более 5 000 упоминаний), что отражает его доминирующее присутствие в медиа как в период предвыборной кампании, так и во время президентства (2017–2021), а также активное освещение связанных с ним политических и судебных процессов. Второе место — Барак Обама (около 3 000 упоминаний), что соответствует его двум президентским срокам (2009–2017) и продолжению медийного внимания после ухода с поста. Политический характер списка — почти все личности в топе являются действующими или бывшими главами государств, что подтверждает фокус новостей на политике и власти.
Динамика языка во времени
График (03)

Такой формат позволяет отследить общие тренды, пики и спады в использовании отдельных слов, а также увидеть периоды повышенной интенсивности новостного потока. Основные наблюдения: абсолютный лидер — слово new (новый) стабильно держит самую высокую частоту употребления на протяжении всего периода (более 3500 раз в пиковые годы), что подтверждает ориентацию новостей на актуальность и свежесть информации. Стабильно высокие позиции у слов man (человек) и says (говорит) также остаются частотными, что отражает персонифицированный характер новостей (фокус на людях и их высказываниях).
Тепловая карта популярности слов по годам
График (04)

Карта показывает оказывает изменение частоты использования определённых слов в заголовках новостей с 2003 по 2021 годы. Например, слова police, court, new, says (полиция, суд, новый, говорит) стабильно частотны на протяжении всего периода, что отражает постоянный интерес к темам права, новостей и официальных заявлений. Некоторые слова (например, over, up, out — над, вверх, наружу) имеют всплески в отдельные годы, вероятно, связанные с конкретными событиями или трендами.
Заключение
Если знать историю каждого периода, графики буквально становятся зеркалом эпохи. Все встаёт на свои места: заголовки новостей мгновенно реагируют на мировые события, а частотность слов и имён становится индикатором общественного внимания, политических битв и социальных напряжений. Это подтверждает, что медиа не просто сообщают новости — они фиксируют и формируют языковой след истории.
Описание применения генеративной модели