Il nome di Corrado Gini è famoso in tutto il mondo per il coefficiente che ne porta il nome: il Coefficiente di Gini. Ne abbiamo parlato qui di come è definito e calcolato, ma in estrema sintesi tale coefficiente non è altro che un numero compreso fra 0 a 1 tramite il quale è possibile avere un’idea di quanto la ricchezza di una nazione, o di un qualunque gruppo di persone, sia distribuita: 0 – perfetta uguaglianza, 1 – un riccone piglia tutto.
Come ribadito più volte all’interno di questo blog, il nostro intendo è di incuriosire e fare della sana divulgazione. E quale occasione migliore di presentarvi un parente stretto, un cugino potremmo dire, (talmente stretto che spesso ne rappresenta un sinonimo) del famoso indice di Gini: il c.d. Accuracy Ratio.
Nel mondo che quotidianamente frequento per lavoro mi imbatto spesso in modelli finalizzati a suddividere una popolazione in classi omogenei per una data caratteristica (o cluster in statistichese, se volete saperne di più potete dare un’occhiata qui e qui). Per esempio in banca sono utilizzati per raggruppare la clientela in classi di rischio omogene, dove in questo caso il rischio è rappresentato dalla probabilità che un cliente ripaghi o meno il suo debito e sono denominati modelli di rating. Ma tranquilli, non è mia intenzione dilungarmi nella trattazione dei modelli di rating.
Tornando all’indice di Gini e a suo cugino l’Accuracy Ratio, questo rappresenta il valore di riferimento per misurare la capacità discriminante (discriminatory power) di un modello statistico. In altre parole, ipotizzando due estremi, bianco e nero, più un modello riesce a cogliere le sfumature fra i due estremi e classificare correttamente le diverse gradazioni di grigio più la capacità discriminante del modello è buona.
In coerenza con l’indice di Gini anche in questo caso occorre partire da una curva, la curva CAP: Cumulative Accuracy Profile, nota anche in letteratura come “curva di Gini” (chi lo avrebbe mai detto?!), “curva di potenza” o “curva di Lorenz” (questo nome vi dice qualcosa?! 😉).
La curva CAP è determinata tracciando in ascissa la % cumulata della popolazione in esame (ordinata sulla base degli score del fattore analizzato) in ordinata la % cumulata delle posizioni considerate anomale rispetto alla variabile in esame.
Effettivamente assomiglia molto alla curva di Lorenz…potremmo quasi dire che è la gemella “ribaltata”. E al pari della curva di Lorenz, anche la curva CAP inizia nel punto (0; 0) e termina nel punto (1; 1).
Ci sono due singole e specifiche situazioni che fungono da casi limiti.
Il modello perfetto, il quale discrimina perfettamente: in un campione con il 10% di posizioni anomale, il peggior 10% del campione contiene tutte e sole tali posizioni.
Il modello casuale, il quale non ha capacità discriminante: nel peggior X% del campione, è intercettato l’X% delle posizioni anomale.
Di conseguenza, più ripida è la curva CAP all’inizio, più accurato è il modello.
Nella pratica, i modelli statistici non sono né perfetti né casuali e la corrispondente curva CAP si colloca tra questi due estremi.
Tramite la curva CAP, il potere discriminante di un modello statistico può essere riassunto in un unico numero, il cosiddetto “Accuracy Ratio” (AR), noto anche come (rullo di tamburi) “Gini Coefficient”, definito dal rapporto tra l’area sotto la curva (i.e. l’area tra la curva CAP del modello e la curva CAP del modello casuale) e l’area tra la curva CAP del modello di previsione perfetto e la curva CAP del modello casuale.
Come il suo parente stretto Indice di Gini, anche l’Accuracy Ratio è compreso nell’intervallo [0; 1]: più è vicino a uno, più è accurato il modello di valutazione, più è alto il suo potere discriminante.
Questo è solo un esempio della versatilità dell’indice di Gini e degli ambiti applicativi in cui è possibile incontrarlo, di cui alcuni – come in questo caso – anche molto lontani dal principale ambito in cui è nato, e cioè la misura della distribuzione della ricchezza.
Inoltre Corrado Gini ha fornito vari e articolati contributi alle Scienze Statistiche, ma questa è un’altra storia.
Qui sotto alcuni riferimenti bibliografici per chiunque volesse approfondire.
BIBLIOGRAFIA:
Engelmann, Hayden, Tasche, Measuring the Discriminative Power of Rating Systems“, Banking and Financial Supervision, 2003
Calabrese, The validation of Credit Rating and Scoring Models, Swiss Statistics Meeting, 2009
Powers, The Problem of Area Under the Curve, International Conference on Information Science and Technology, 2012
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Grazie Cecilia!
[…] Il coefficiente di Gini e suo cugino: l’accuracy ratio. […]