Rozdział 1 Scoring bankowy – podstawowe pojęcia

1.1 Scoring i model scoringowy

Scoring to, tłumacząc dosłownie, nadawanie oceny punktowej (ang. score – ocena punktowa)1.

Przez model scoringowy rozumiemy najczęściej algorytm, który na podstawie danych nadaje ocenę punktową.

W ramach tego przedmiotu omawiamy przede wszystkim bankowe modele scoringowe. W bankach typowym zastosowaniem modeli scoringowych jest credit scoring, czyli scoring kredytowy. W przypadku scoringu kredytowego ocena punktowa wyznacza wiarygodność kredytową klienta, czyli prawdopodobieństwo, że spłaci lub nie spłaci w terminie zobowiązania kredytowego. Banki stosują również inne niż credit scoring modele scoringowe, służące do oceny np. prawdopodobieństwa oszustwa, prawdopodobieństwa odejścia klienta czy prawdopodobieństwa odzyskania zobowiązania.

Najczęściej przyjmuje się konwencję, że w przypadku scoringu kredytowego wysoka ocena punktowa oznacza niskie ryzyko kredytowe (niskie prawdopodobieństwo braku spłaty), a niska ocena punktowa wysokie ryzyko (wysokie prawdopodobieństwo braku spłaty).

1.2 Karta (tablica) scoringowa

Terminu „karta scoringowa” używa się obecnie często jako synonimu modelu scoringowego.

Jednak w węższym znaczeniu „karta scoringowa” to przedstawienie modelu scoringowego w formie tablicy, np. takiej:

CechaPoziomPunkty
Iloraz DtI (obsługa
długu do dochodu)
[0-20]75
(20-40]30
powyżej 400
Liczba rachunków kredytowych
z opóźnieniem 30+
w ostatnich 12 miesiącach
050
120
2+0
Wykorzystanie limitu
odnawialnego (%)
[0-30]35
(30-50]25
(50-70]10
powyżej 700

Jak widać, w przypadku karty scoringowej każda cecha (zarówno ilościowa, jak i jakościowa) podzielona jest na poziomy, każdemu poziomowi odpowiada liczba punktów.

Cechy (ang. features) nazywane są także zmiennymi (variables), atrybutami (attributes) czy charakterystykami (characteristics). Statystycy czy specjaliści od uczenia maszynowego nazywają cechy wchodzące w skład modelu predykcyjnego również predyktorami (ang. predictors), zmiennymi objaśniającymi (explanatory variables) czy zmiennymi wejściowymi (input variables).

Poziomy (levels) to inaczej kategorie (categories) albo – szczególnie w przypadku cech ilościowych – przedziały (intervals). W terminologii uczenia maszynowego i modelowania bankowego przyjęło się również angielskie słowo bins, które będziemy tutaj tłumaczyć jako kubełki. Czynność podziału na kubełki to kubełkowanie (ang. binning).

1.3 Przykładowy kod w R

Załóżmy, że mamy następującą prostą tablicę scoringową:

CechaPoziomPunkty
Wyraz wolny (punkty bazowe)50
Cecha110 lub mniej10
(10-30]0
powyżej 30-10
Cecha2044
122
211
3+0

Mamy dwóch klientów. Klienta A, dla którego cecha 1 wynosi 15, a cecha 2 to 3 oraz klienta B, dla którego pierwsza cecha ma wartość 10, a wartość drugiej cechy to 2.

Kod wyznaczający scoring dla tych klientów mógłby wyglądać na przykład tak:

# Tworzenie ramki danych z klientami
df <- data.frame(klient = c("A", "B"), cecha1 = c(15, 10), cecha2 = c(3,2))

# Wyznaczanie punktów dla każdej z cech
df$punkty_start <- 50
df$cecha1_punkty <- ifelse(df$cecha1 <= 10, 10, ifelse(df$cecha1 > 30, -10, 0))
df$cecha2_punkty <- ifelse(df$cecha2 == 0, 44, ifelse(df$cecha2==1, 22, ifelse(df$cecha2==2, 11, ifelse(df$cecha2>=3, 0, NA))))

# Obliczanie oceny punktowej (ang. score)
df$ocena_punktowa <- df$punkty_start + df$cecha1_punkty + df$cecha2_punkty
head(df)
klientcecha1cecha2punkty_startcecha1_punktycecha2_punktyocena_punktowa
A153500050
B10250101171

1.4 Zadania


  1. Warto zaznaczyć, że w języku polskim słowem scoring określa zarówno samą koncepcję nadawania oceny punktowej, jak i konkretną wartość tej oceny (ang. score), a także modele (algorytmy) nadające tę ocenę.↩︎