Blog divulgativo sulla matematica applicata

Clustering ovvero cosa fanno gli statistici [parte 1]

Premessa: cosa fa uno statistico nella vita

Quando alla domanda “In cosa sei laureata?” rispondo “Scienze Statistiche”, dopo la faccia di schifo misto a terrore che l’interlocutore mi dedica, puntualmente la conversazione continua con: “Ah. E quindi in pratica cosa fai?”

La risposta è: posso fare un sacco di cose!

Dalle ricerche di mercato, alle previsioni economiche, alle strategie di marketing, agli studi sui farmaci, alla disposizione dei prodotti in un supermercato, all'analisi dei social network, alla definizione del percorso di viaggio migliore.

Tutto questo, e molto altro ancora, è Statistica. Statistica applicata.

Riconosco che digitando “statistica” su un qualsiasi motore di ricerca e leggendo la seguente definizione, non è che si capisca molto cosa voglia dire “fare statistica” o che nasca la voglia di approfondire l’argomento:

La statistica è una disciplina che ha come fine lo studio quantitativo e qualitativo di un particolare fenomeno in condizioni di incertezza , ovvero di non completa conoscenza di esso o parte di esso. Essa si avvale del metodo scientifico e della matematica per studiare i modi in cui un fenomeno collettivo può essere sintetizzato e compreso. Ciò avviene attraverso la raccolta e l'analisi delle informazioni relative al fenomeno studiato.”

Questa rubrica si pone come obiettivo quello di raccontare “storie” vere e concrete, problemi quotidiani la cui soluzione, inaspettatamente, è fornita dalla Statistica; andando oltre i tecnicismi e senza perderci troppo nella teoria, sperando di riuscire a rendervi meno sospettosi e un po’ curiosi nei confronti di questa materia.

Iniziamo da subito con un primo esempio, che parlerà di strategie di vendita e del raggruppamento dei clienti per tipologia.

Cluster e strategie

In questo articolo affronteremo il tema della cosiddetta “segmentazione della popolazione” o “ Cluster Analysis”, cioè il raggruppamento di elementi omogenei (c.d. cluster) rispetto ad una caratteristica predefinita in uno stesso insieme di dati.

Questa operazione, che letta così potrebbe sembrare molto astratta e molto inutile, nella vita di tutti i giorni ha un’infinità di applicazioni, e viene messa in pratica inconsciamente ogni volta che si realizza un qualche raggruppamento: divisione fra maschi e femmine, raggruppamento delle città per nazione, felini e canidi, e così via.

Quelli appena elencati sono raggruppamenti immediati e logici, detti cluster naturali, per i quali non serve una tecnica statistica per effettuarli. Però in alcuni casi potrebbero esserci, in una popolazione o in un insieme di dati, delle sotto-strutture non così facilmente deducibili. Inoltre, a seconda della situazione che si sta analizzando, data la stessa popolazione di partenza i possibili raggruppamenti potrebbero variare. Ad esempio, le carte di un mazzo francese si raggruppano per seme se si gioca a Bridge o per valore se si gioca a Ramino.

natural cluster

Vediamo qui di seguito, invece, un esempio in cui il raggruppamento sia meno scontato.

Mettiamo per ipotesi che io sia il direttore di una filiale di una banca.

Conto corrente, carta di credito, bancomat, carta prepagata, prestito, mutuo, azioni, titoli, scoperto di conto, ecc.

Chi di noi non ha mai sentito nominare questi termini?

Dal punto di vista della Banca questi non sono altro che prodotti, prodotti da vendere.

E come in ogni azione di vendita che si rispetti, più ne vendo con il minimo sforzo, più è alto il guadagno.

Come posso in maniera semplice ma efficace raggiungere tale obiettivo?

Sembra intuibile che un giovane neolaureato possa essere più interessato all'acquisto di una carta pre-pagata, che al pensionato interesserà un conto corrente con poche spese o che un giovane e rampante imprenditore sarà attratto dalle condizioni favorevoli sui prestiti o sui mutui.

Già questi semplici esempi ci portano a intuire come raggruppare la clientela per tipologia di cliente possa condurre ad una vendita più efficiente: investire le energie per la vendita di un determinato prodotto solo con la tipologia di cliente per la quale ho buone probabilità che gli possa interessare.

Ma allora sorgono spontanee domande del tipo: quanti raggruppamenti fare? Quali caratteristiche considerare? Esiste un metodo standardizzato così da non doversi affidare solo al buon senso?

La risposta a tutte queste domande sono fornite dalla Cluster Analysis, la quale ci permette di individuare in modo statisticamente significativo le diverse tipologie della clientela di riferimento, realizzando la c.d. segmentazione della clientela.

Per segmentazione della clientela si intende quel processo di suddivisione della base clienti in gruppi omogenei, cioè tali per cui le caratteristiche interne di ogni gruppo non appartengono ad altri gruppi.

In questo caso la Statistica interviene al fine di ottimizzare le strategie di vendita in base alla tipologia di cliente.

FullSizeRender_1

L'esempio più in dettaglio

Come procedere?

L’idea alla base è quella di:

  1. sintetizzare le informazioni dei clienti attuali;

  2. individuare, in base a tali informazioni, i cluster sottostanti esistenti;

  3. definire le differenti tipologie a seconda delle caratteristiche di ogni cluster;

Per non entrare troppo nei dettagli tecnici vi chiederei a questo punto un piccolo sforzo.

Ipotizziamo che le caratteristiche di ogni cliente siano sintetizzabili da due sole variabili quantitative:

  1. Propensione agli Investimenti”: rappresenta le informazioni relative ai prodotti di interesse per chi si intende di investimenti finanziari e, soprattutto, abbia un consistente patrimonio da investire;

  2. Status”: riassume quelle che sono le caratteristiche del cliente indipendentemente dalle sue attività finanziarie (età, lavoro, reddito, titolo di studio,…) affiancate dalle informazioni sul possesso dei prodotti base, mediamente in possesso di tutti i clienti (es. bancomat).

FullSizeRender_2

Ricapitolando: avremo a disposizione l'elenco di n clienti (in questo caso è stata messa a disposizione una base dati di 100.000 record) ognuno dei quali avrà associato due valori: uno rappresentante lo status del cliente l’altro la sua propensione all'investimento (e quindi a comprare).

Breve introduzione alla Cluster Analysis

Una volta acquisita tutta la massa informativa necessaria, esistono svariati metodi e algoritmi che permettono di compiere una cluster analysis.

La scelta di quale metodo applicare, solitamente è influenzata da tre fattori principali:

  • tipo di variabili con cui si lavora: quantitative, qualitative, dicotomiche, miste.

  • velocità di convergenza dell'algoritmo richiesta

  • qualità della soluzione desiderata 

A prescindere dal metodo selezionato, l'obiettivo finale è sempre lo stesso: raggruppare le unità statistiche considerate in un numero finito di cluster, in modo tale che siano garantite

  • omogeneità, o coesione, nel cluster: propensione delle unità statistiche considerate a non mutare o variare se appartenenti allo stesso cluster (varianza minima nei cluster)

  • eterogeneità, o isolamento, tra i cluster: propensione delle unità statistiche considerate a diversificarsi molto tra un cluster e l’altro (varianza massima tra i cluster)

 

clusters

In un linguaggio leggermente più tecnico potremmo dire che l’obiettivo della Cluster Analysis è quello di ottenere che la massima distanza all'interno dei cluster sia minore della distanza minima tra i cluster.

In questo caso, date le sue proprietà di convergenza e consistenza, è stato scelto di utilizzare uno degli algoritmi più utilizzati nella cluster analysis, denominato delle k-medie (k-means). Il k-means rientra nella categoria degli algoritmi c.d. esclusivi (ogni elemento può essere assegnato ad uno e ad un solo gruppo) e partizionali (il numero di cluster da ottener -k- è fissato a priori).

Tornando ai clienti

Eseguendo l’algoritmo delle k-medie sulla base dati a disposizione, e facendo variare di volta in volta il numero di cluster, è possibile individuare il numero ottimale di raggruppamenti, in questo caso pari a 6. Ciò vuol dire che, in questo caso, raggruppando la clientela in sei cluster distinti è possibile massimizzare la varianza tra cluster e contemporaneamente minimizzare la varianza nel cluster.

Ricordando che la prima dimensione (asse orizzontale) rappresenta quanto un cliente è propenso a investire in nuovi prodotti e la seconda (asse verticale) ne descrive la situazione socio-culturale-economica, i cluster individuati potrebbero essere così sintetizzati:

number_of_cluster

Concludendo...

E adesso?

Cosa ne abbiamo ricavato? A cosa può servire questa nuova informazione?

A voler essere precisi, non è stata aggiunta nuova informazione. Quella esistente è stata sintetizzata e organizzata in modo tale che potesse fornire nuove indicazioni.

Ricapitolando: la Cluster Analysis è una tecnica di analisi multivariata attraverso la quale è possibile raggruppare le unità statistiche, in modo da minimizzare la “lontananza” interna a ciascun gruppo e di massimizzare quella tra i gruppi.

In questo caso specifico di ottimizzazione della strategia di vendita, l’informazione così sintetizzata può essere un utile strumento di decisione. Il venditore ha la possibilità di fare consapevolmente le sue valutazioni, e decidere su quale tipo di cliente investire o quale prodotto sponsorizzare maggiormente. Se rivolgersi a un unico mercato con prodotti diversi oppure piazzare un unico prodotto su vari mercati o se investire ciascun prodotto solo su un mercato specifico. Per esempio può decidere per ogni segmento qual è l’obiettivo da raggiungere, in termini di numero di contratti da stipulare, e in base anche a questo costruire un budget che leghi le vendite desiderate alle risorse necessarie per realizzarle. Viceversa, l’obiettivo potrebbe consistere nel raggiungere un certo target di vendita per un determinato tipo di prodotto, e quindi, individuando il segmento di clientela sul quale quel tipo di prodotto è di maggiore interesse, investire e concentrare lì le energie.

Ci tengo a sottolineare come la forza di questa metodologia risieda nell’infinità dei contesti in quale è applicabile. Le tecniche esposte, in questo caso applicate ad una banca, possono essere utilizzate in qualsiasi realtà di vendita: dalle farmacie ai tabaccai, dai negozi sportivi a quelli alimentari. In ogni caso le strategie di vendita si basano sul capire, da parte del venditore, i desideri del generico cliente X. E dato che per ogni cliente ciò di cui ha bisogno dipende dalle caratteristiche del proprio stile di vita, e quindi saranno correlati con la tipologia di cliente a cui il soggetto in esame appartiene, la segmentazione della clientela ha un ruolo centrale nel definire la strategia di vendita più appropriata per perseguire gli obiettivi prefissati.

Più in generale, la Cluster Analysis viene applicata ogni qualvolta si renda necessario organizzare i dati a disposizione (qualsiasi tipo di dato) in base alle tipologie di entità, così da renderne più facile la lettura e quindi aumentare la capacità di interpretazione del fenomeno in esame. Infatti la Cluster Analysis può anche essere vista come una procedura che, dato un data set ritenuto troppo grande (c.d. big data) per essere trattato come unico, ricerca divisioni interne plausibili.

Prestando attenzione, ci si rende conto come la Cluster Analysis ricalchi in qualche modo un’attività istintiva della mente umana, cioè quella di confrontare tra loro oggetti diversi cercandone somiglianze o differenze, così da poterli catalogare.

Alla fine dei conti, anche nella Statistica c’è un po’ di umanità… ;-)

* * *

Sperando di avervi un po' incuriositi (e non troppo spaventati) vi anticipo che, per chi fosse interessato, vi sarà una [parte 2] dedicata alla Cluster Analysis in cui verrà esposta la parte più tecnica,  introducendo concetti di dissimilarità e distanza, alberi, dendogrammi, F di Fisher, centroidi, regole iterative, indici di similarità, ...

KEEP IN TOUCH!

CC BY-NC-SA 4.0
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Similar posts

2 commenti

  1. Giovanni's Gravatar Giovanni
    luglio 12, 2016    

    Magari nella seconda parte anche un pò di codice? Magari in R?

No Pings Yet

  1. Testa o croce per chi paga il caffè | Ludmilla Science on luglio 12, 2016 at 11:16 am

Lascia una risposta

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati *

È possibile utilizzare questi tag ed attributi XHTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Partecipa all’indagine “Io e la Matematica”

Clicca sull'immagine sottostante per rispondere al breve e anonimo questionario:

MIA15 - Nomination

Conviditi con i tuoi contatti questo link!

Canale Telegram dedicato alla Matematica

Iscriviti sul nostro canale Telegram

MIA15 - Nomination

Rimani aggiornato sui più interessanti articoli di divulgazione matematica e non solo!

Iscriviti alla nostra newsletter

Resta aggiornato sui nostri post e su quello che facciamo.

Seguici su Twitter

Tag Cloud

Grazie per il sostegno ai #MIA2015

Grazie a tutti per averci votato ai "Macchia Nera Awards 2015" nella categoria "Miglior Sito Tecnico-Divulgativo".

Siamo arrivati in finale grazie al vostro sostegno!

MIA15 - Nomination