La scorsa settimana Luigi Marattin economista  ed esponente di Italia Viva ha pubblicato  (riprendendo i dati riportati in un articolo del 27 settembre del Sole24ore) su Twitter e sul suo sito personale (qui link) il seguente grafico:

Questo grafico ha generato subito molte polemiche ed è stato ripreso da più parti (per esempio Post, Fatto Quotidiano, Next).
Senza entrare nel merito politico della questione scriviamo questo articolo per analizzare la correttezza  del grafico dal punto di vista matematico.
Per farlo abbiamo chiesto il parere di  Stefania Gubbiotti, del Dipartimento di Scienze Statistiche della Sapienza di Roma e docente dei corsi di “Statistica di Base” e “Tecniche di campionamento“.

A lei chiediamo una opinione squisitamente tecnica:

È corretto il grafico condiviso da Marattin? In altri termini, se una sua studentessa o un suo studente le presentasse questo grafico che osservazioni farebbe?

Qui di seguito inseriamo la sua risposta:

La rappresentazione grafica di una o più variabili statistiche dovrebbe tener conto di due aspetti fondamentali:

  1.  la tipologia delle variabili in gioco,
  2. l’obiettivo della visualizzazione, ovvero la sua finalità descrittiva a supporto dell’interpretazione del fenomeno di interesse.

La mia impressione, in questo caso, è che in nome del secondo punto si sia decisamente sacrificato il primo.

Innanzi tutto i dati (tratti da una tabella de Il Sole 24 “che non aveva ricevuto critiche da nessuno”, si legge nella replica di Marattin, come è logico, direi, dal momento che le critiche riguardano il modo in cui è realizzato il grafico, non i dati…) fanno riferimento a una serie territoriale, ovvero una serie in cui le modalità della variabile di interesse sono riferite ad entità geografiche (le regioni), non certo ad una serie storica come si è indotti a pensare dal grafico a linee.

Le variabili rilevate sono il “Numero di percettori di RDC” e il “Numero di voti M5S”, entrambe variabili quantitative per le quali il grafico più opportuno potrebbe essere un grafico a barre, eventualmente con barre affiancate per facilitare il confronto tra le due serie. Congiungere i punti con delle linee suggerisce un andamento (tipicamente interpretato come andamento temporale) che non c’è.

Non è una questione puramente estetica (“Se a qualcuno esteticamente piacciono di più le barre…”), delineare un andamento che non c’è diventa un errore dal momento che l’ordinamento delle regioni sull’asse orizzontale è puramente arbitrario. A parte la collocazione delle regioni meridionali a sinistra e di quelle settentrionali a destra dell’asse, per quale motivo, ad esempio, la Campania dovrebbe precedere la Sicilia e non viceversa?

Altra questione riguarda la scelta di riportare le due variabili quantitative come numeri assoluti, sebbene qui si parli di “densità di precettori del reddito di cittadinanza e i voti al M5S”, che sembra alludere ad una normalizzazione rispetto al peso demografico delle diverse regioni.

I commentatori sul web si sono scatenati andando a scovare moltissimi esempi di correlazioni del tutto bizzarre, dovute al fatto che le regioni più popolose presentano in generale un numero più elevato di qualsiasi cosa si voglia osservare, dai voti al Terzo Polo al numero di casi Covid. In effetti la diversa consistenza demografica delle regioni può indurre un effetto noto come correlazione spuria, ovvero una correlazione tra le due variabili non genuina, ma dovuta all’interferenza di una terza variabile, la popolazione residente appunto.

Nella già citata replica l’autore rafforza la sua posizione avendo accolto questo suggerimento e avendo riscontrato che la correlazione rimane marcata (“passa solo da 0.93 a 0.88”).

Il nodo principale però resta la scelta del grafico. Per analizzare la correlazione (lineare) tra due variabili, la rappresentazione più opportuna è quella del diagramma a dispersione, ovvero un piano cartesiano in cui ciascun punto dato è identificato dalla coppia di coordinate espressa dalle modalità osservate delle due variabili (come proposto ad esempio in questo articolo).

Nel commentare questo tipo di grafico ha senso menzionare il coefficiente di correlazione lineare di cui sopra. Tuttavia non è lecito stabilire una relazione di causalità sulla base di un valore del coefficiente seppur molto elevato (vicino a 1 in valore assoluto).

Marattin specifica di non aver stabilito un nesso di causa-effetto, né tantomeno vorrei essere io a entrare nel merito di questa interpretazione. Tuttavia il titolo di Libero (“Ecco le prove del voto di scambio grillino”) tendeva a portare il lettore in quella direzione, cioè appunto, a privilegiare l’obiettivo comunicativo, perdendo di vista la correttezza e l’oggettività della rappresentazione grafica.


Ringraziamo  la prof.ssa Stefania Gubbiotti per la sua disponibilità. 

CC BY-NC-SA 4.0
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.