Original size 1240x1750

Кредитный скоринг. Анализ данных

Описание проекта

В рамках проекта я выбрала заниматься визуализацией кредитного скоринга, который оценивает вероятность возврата кредита клиентом. На основе определенного набора данных, который содержит информацию о 1000 клиентах, включая примерно 20 характеристик каждого, а также их кредитный рейтинг в виде положительной или отрицательной оценки, я построю несколько графиков, отражающих тот или иной аспект.

В современном мире, где финансовые операции становятся всё более сложными и разнообразными, кредитный скоринг играет ключевую роль в оценке рисков и принятии решений о кредитовании, а графическое представление данных позволяет быстро и наглядно оценить сложные взаимосвязи и тенденции, что является неотъемлемой частью аналитической работы.

Я сосредоточу внимание на изучении количества положительных (клиенты, которые успешно выплатили кредит) и отрицательных (клиенты, имеющие проблемы с выплатой кредита) случаев для более глубокого понимания взаимосвязи между размером текущего счёта клиентов и их кредитной историей. Это позволит нам выявить, существует ли корреляция между финансовым состоянием клиента и его надёжностью как заемщика.

Для наглядности результатов анализа я построю зеркальные горизонтальные гистограммы, которые покажут распределение положительных и отрицательных кейсов в зависимости от размера текущего счёта. Эти гистограммы будут расположены напротив друг друга, что позволит с лёгкостью сравнивать данные категории.

Используемые графики: - зеркальная горизонтальная гистограмма - столбчатая диаграмма - диаграмма рассеяния - 3D диаграмма рассеяния - скрипичный график

Графики и коды

Original size 2695x1350

*был выполнен перенос строчки, чтобы код уместился в экран (не искаженный код есть в папке ниже)

Original size 2695x1350

Сравнительное количество положительных и отрицательных кейсов в зависимости от размера текущего счёта

Можно заметить, что в категорию с хорошим рейтингом чаще всего попадают люди с большим количеством денег на чековом аккаунте или с постоянной зарплатой. Связано это скорее всего с тем, что такие люди легко могут выплатить кредиты, раз у них имеются деньги. С другой стороны, плохой рейтинг чаще всего получают люди без чекового аккаунта или с отрицательным балансом на нем. Отсутствие денег на чековых аккаунтах сигнализирует о тяжелом финансовом состоянии человека, значит ему будет труднее выплатить свой кредит.

Далее я построила гистограмму для сравнения количества положительных и отрицательных кейсов в зависимости от размера сберегательного счёта.

Original size 2695x284

перед этим нужно import seaborn as sns

Original size 2695x1350

Сравнение количества положительных и отрицательных кейсов в зависимости от размера сберегательного счёта.

Можно заметить, что в целом людей без аккаунта сбережений (или без информации о нем) больше, чем людей в любых иных категориях. Зависимости между категорией сбережений и кредитным риском не наблюдается, в обоих вариантах распределение людей примерно одинаковое.

Для каждого размера сберегательного счёта я могу оценить не только количество положительных и отрицательных кейсов, но и их распределение по возрасту. Построю подходящую для этого визуализацию

Original size 2695x227
Original size 2695x1350

Распределение по возрасту

Легко заметить общий сдвиг датасета к возрасту 20-40 лет. Также видно что средний возраст людей с плохим рейтингом в каждой группе чуть ниже возраста людей с хорошим рейтингом, особенно это заметно на графике в категории 100-500 ДМ. График в категории 500-1000 ДМ у плохого рейтинга ведёт себя нестандартно, но связано это лишь с тем, что в него попало очень мало наблюдений (см. предыдущий график)

Почему именно скрипичный график? В моём случае, он позволяет сравнить распределение возраста людей в разных категориях сбережений (savings) и в зависимости от их кредитного рейтинга (credit_risk). Это дает возможность увидеть, как возраст и кредитный рейтинг распределены внутри каждой категории сбережений, а также сравнить эти распределения между категориями.

Таким образом, скрипичный график в данном случае удобен, потому что он позволяет:

— Визуализировать распределение данных по нескольким переменным одновременно. — Сравнивать распределения между разными группами или категориями. — Наглядно представить плотность распределения данных, что может быть полезно для выявления особенностей данных, которые могут быть не видны при использовании других типов графиков.

Посмотрим на распределение положительных и отрицательных кейсов по возрастам, разместив их друг над другом. Добавим распределение всех взятых кредитов.

Original size 2695x783
Original size 2695x2835

Распределение положительных и отрицательных кейсов по возрастам + распределение всех взятых кредитов.

На этих гистограммах более заметно, что основная часть людей с плохим кредитным рейтингом — молодые люди 20-30 лет, тогда как хороший рейтинг имею люди старше: 30+

Не менее полезной иногда может быть диаграмма рассеяния. Я построила такую диаграмму с продолжительностью и размерами кредитов в качестве осей и обозначила положительные и отрицательные кейсы разными цветами.

Original size 2695x301
Original size 2695x1350

продолжительность и размеры кредитов

По этому графику тяжело сделать качественные выводы из-за того, что точки могут накладываться друг на друга, однако можно заметить, например, что большие суммы занятые на короткий срок — показатель плохого кредитного риска.

Затем я решила продвинуться глубже и попробовать построить 3D версию диаграммы рассеяния, добавив ось с возрастом.

Original size 2695x783
Original size 2695x1350

продолжительность и размеры кредитов + ось с возрастом

По данному графику можно сказать, что основная часть кредитов взята на небольшую сумму (до 7.500) людьми в возрасте 20-35 лет на срок до 3 лет

Кредитный скоринг. Анализ данных
Project created at 25.09.2024
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more