
Концепция
В этом проекте я проанализировала данные с сайта открытых данных (kaggle.com) об оттоке клиентов телекоммуникационной компании, которая предоставляла услуги домашнего телефона и Интернета 7043 клиентам в Калифорнии. Они показывают, какие клиенты ушли, остались или подписались на их услуги. Для каждого клиента включены несколько важных демографических данных, а также показатель удовлетворенности и показатель оттока.
Выбор темы был обусловлен интересом к стратегии построения бизнеса и ходом мышления, предпочтениями человека при приобретении услуг. Отток клиентов — это не просто цифры, а реальная возможность для компаний прогнозировать поведение клиентов, а также разрабатывать целенаправленные программы для их удержания.

Визуал моего проекта вдохновлён миром высоких технологий, сетевых структур и концепцией связи — как между людьми, так и между данными. Цветовая палитра проекта основана на глубоких сине-голубых тонах, которые ассоциируются с надёжностью, технологическим прогрессом и корпоративной культурой.

Проведя анализ возможных причин оттока клиентов, я также изучила популярные услуги, которые пользуются спросом среди пользователей. Эти данные будут особенно полезны при разработке собственного проекта в схожей тематике, а также могут быть использованы для переноса методов анализа на другие датасеты.
В рамках данного проекта были использованы следующие типы графиков для визуализации данных: Круговая — для отслеживания процента на каждую категорию; Гистограмма — для отображения точного количества в разрезе значения; Точечная — для отслеживание нижнего и верхнего значений каждого столбца Столбчатая — для сравнения значений между всеми типами.
Обработка данных
Для работы были использованы следующие библиотеки: Pandas — для обработки и анализа CSV-файла, а также Matplotlib — для создания визуализаций, которые помогают наглядно представить результаты анализа. После импорта необходимых инструментов был загружен CSV-файл с датасетом.
Выбранный набор данных не содержит избыточной или нерелевантной информации, таких как нулевые значения, поэтому обработка данных выполняется непосредственно в процессе построения диаграммы
Визуализация
Для начала копирую для себя два столбца: «Тип контракта» и «Отток». Далее выделяю три отдельные датасеты по типу контракта (месячный, годовой, двухгодовой) и нахожу количество строк для каждой.
После вычисляю количество ушедших пользователей для каждой категории и вычисляю процент от общего числа для каждого типа. Отображаю круговую диаграмму с полученными значениями.
На основе круговой диаграммы можем сделать вывод, что пользователи телекоммуникационных сетей с месячной подпиской больше подвержены отмене услуг. Такой большой процент может быть обусловлен бесплатным пробным периодом. Чтобы проверить это, предлагаю проанализировать долю пользователей, которые отказались от услуг после 1 месяца пользования.
Анализирую долю пользователей с ежемесячной подпиской. Создаю новый датасет с колонками: тип контракта, статус ухода и длительность пользования. Фильтрую данные, оставляя только ушедших пользователей с ежемесячной подпиской, и строю гистограмму для визуализации распределения по количеству месяцев пользования
Можно сделать вывод, что больше всего отказов от услуг телекоммуникации в выборке от 1 до 9 месяцев
Повторяю операции прошлого блока, выделив датасет только с теми пользователями, которые пользовались менее 10 месяцев.
Больше всего пользователей отказывалось при первом месяце пользования. При последующих месяцах распределение относительно равномерно (по сравнению с первым месяцем).
Чтобы показать процент пользователей, отказавшихся от услуг после первого месяца, строю круговую диаграмму. Для этого вычисляю долю ушедших после одного месяца от общего числа ушедших за 9 месяцев, вычитаю этот процент из 100% (так как других категорий в датасете нет) и создаю диаграмму на основе массива answer_For_One_Month_Client.
В результате анализа можно сделать следующие выводы: - Больше ¾ пользователей услуг телекоммуникации с ежемесячной подпиской отказывались от услуг - Среди них (из пункта выше) 23 процента пользователей уходили после 1 месяца пользования. Среди предположений такого высокого уровня: льготы на первый месяц - Меньше всего пользователи отказывались от услуг при подписке на 2 года (5%).
Далее анализирую зависимость ежемесячной платы от типа подключенного интернета. Для этого создаю копию датасета, включающую только столбцы с ежемесячными платежами и типом подключения к интернету. На основе этих данных строю точечную гистограмму, чтобы визуализировать распределение и выявить нижний и верхний пределы стоимости для каждой категории интернет-подключения.
Вывод: пользователи интернетом платят в разы больше, чем те, у кого нет интернет-подключения. Также можно выделить разницу в плате при оптоволокне: в отличии от нее подключение DSL заметно дешевле.
После анализирую методы оплаты и общее количество платежей, чтобы определить, какой способ наиболее удобен для пользователей. На основе полученных данных я выделяю трёх лидеров, которые в дальнейшем могут быть использованы для разработки схожих продуктов.
Для этого я копирую из основного датасета два столбца: метод оплаты и общее количество платежей. Затем фильтрую данные, оставляя только строки, где метод оплаты — «Электронные чеки». После этого я преобразую тип данных столбца TotalCharges из строкового в числовой, чтобы избежать конкатенации (сложения строк в одну), и заменяю исходные значения на новые. Далее вычисляю сумму всех строк в столбце TotalCharges.
Эту же операцию повторяю для остальных методов оплаты (PaymentMethod).
На завершающем этапе я строю столбчатую диаграмму, поворачиваю значения по оси OX для удобства чтения и отключаю отображение в формате le6, чтобы данные были максимально наглядными.
Судя по данным столбчатой диаграммы, пользователи предпочитают электронные чеки, банковский перевод и кредитные карты. Оплата через почту неактуальна, и её внедрение стоит рассматривать только в последнюю очередь
Описание применения генеративной модели
В рамках исследования для создания визуальных референсов и иллюстрации ключевых аспектов темы были использованы изображения, сгенерированные с помощью нейросети Midjourney (Ссылка на модель: https://www.midjourney.com)
Промты: A futuristic visualization of telecommunications and corporate ethics, blending advanced neural connections and digital networks. Ethereal blue and cyan light flows through the intricate web of connections, symbolizing customer relationships, ethical decision-making, and seamless communication. The background is sleek and abstract, with a balance of organic and technological elements. The color palette is based on Pantone shades: #011b35, #003b57, #9dc3d7, #d2dfe6, and #fafefd. Ultra-detailed, cinematic lighting, and a futuristic, high-tech aesthetic.
Промты: A futuristic telecommunications scene in deep blue and cyan tones, representing corporate ethics and innovation. A modern city skyline illuminated by glowing data streams, 5G towers emitting digital signals, and a high-tech office with professionals engaged in ethical business discussions. Transparent holographic screens display interconnected networks and futuristic interfaces.
Список источников
[1] Набор данных «Telco Customer Churn» [Электронный ресурс]. URL: https://www.kaggle.com/datasets/blastchar/telco-customer-churn/data (дата обращения: 20.03.2025). [2] Статья «Telco Customer Churn» [Электронный ресурс]. URL: https://community.ibm.com/community/user/businessanalytics/blogs/steven-macko/2019/07/11/telco-customer-churn-1113 (дата обращения: 20.03.2025).