bayes_sheldon

Sheldon di Big Bang Theory con una lavagna in cui compare (in alto) la formula del teorema di Bayes

Non so se a voi è capitato di sentire in televisione il politico di turno dire:

Le carceri sono piene di stranieri e questo vuol dire che gli stranieri commettono crimini con una frequenza altissima, molto più dei cittadini italiani“.

A me è capitato anche di sentir citare, a conferma dell’affermazione precedente, i dati sulla presenza degli immigrati in carcere con ragionamenti del tipo: “il 40-50% delle persone in carcere sono immigrate quindi ogni due immigrati uno commette un crimine”.

Non credo sia necessario suggerire a chi ci legge di diffidare dei politici  (ma aggiungerei anche dei cosiddetti tecnici) quando citano numeri e statistiche senza citare la fonti  degli studi da cui sono tratti e senza permettere, quindi, di verificare o meno la loro veridicità.

Mi limiterò a spiegare perché dal dato citato (carcere piene di stranieri) non deriva necessariamente il fatto che il tasso di criminalità della popolazione immigrata sia per forza enormemente più elevato rispetto a quello degli italiani.

La cosa è probabilmente controintuitiva ma ci si aspetterebbe dagli uomini politici (e dai giornalisti che li intervistano senza obiettare) maggiore approfondimento sulle cose di cui parlano e meno demagogia.

Per spiegare perché l’affermazione del politico è almeno inesatta ci viene in aiuto il teorema di Bayes.

Nei prossimi paragrafi ricorderò brevemente che cosa afferma il teorema di Bayes (ovviamente se siete già ferratissimi su questo teorema potete saltarlo e andare alla parte successiva).

Di Bayes abbiamo già parlato anche in altri articoli su questo blog. In particolare l‘abbiamo già introdotto in questo post di Andrea ed in un mio sui filtri antispam. Vi invito a leggerli se non l’avete già fatto.

 Siamo tutti bayesiani

bayes

T. Bayes rivisitato in modalità festa

 

Per parlare di questo noto teorema la cui idea originaria si deve al reverendo Thomas Bayes (ma che, in realtà, è stato formulato nel modo che conosciamo da Pierre-Simon Laplace) è necessario ricordare il concetto di probabilità condizionata. 

Questo concetto viene introdotto perché in alcuni casi la probabilità che accada qualcosa si modifica se, per qualunque motivo, si viene a conoscenza di una informazione aggiuntiva legata all’evento.

In modo più formale, si parla di probabilità di un evento $$A$$ condizionata da un evento $$B$$ e si indica con il simbolo $$p(A|B)$$ la probabilità data dalla seguente formula:

$$p(A|B) = \frac{p(A \cap B)}{p(B)}$$

con $$p(B)$$ probabilità dell’evento B,$$p(A\cap B)$$ quella dell’evento “A intersezione B[1].

Non dimostreremo questa formula (anche se non è difficile) che traduce in linguaggio matematico l’idea che la probabilità di un evento può cambiare nel caso in cui  se ne verifica un altro.

Il termine “può” non è casuale ed è messo per indicare, per esempio, il fatto che la probabilità che il Milan vinca il campionato di calcio può non dipendere dal fatto che in questo momento voi leggiate questa frase. In questo caso l’evento “il Milan vince il campionato” e “il lettore x sta leggendo questa frase del post” si dicono indipendenti (sempre che i giocatori del Milan non siano così appassionati di matematica da abbandonare, dopo la lettura di questo articolo, la loro professione per dedicarsi alla matematica).

Facciamo un altro esempio di eventi in questo caso non indipendenti ovvero di due eventi $$A$$ e $$B$$ tali che il verificarsi di $$B$$ influenza la stima probabilistica di $$A$$.

Rimaniamo sul classico e parliamo di dadi. Potremmo chiederci quale è la probabilità che esca il numero 6 sapendo che è uscito un numero pari. Intuitivamente è chiaro che essendo nota l’uscita di un numero pari, la possibilità che sia un 6 diventa più alta di prima.  Applicando la regola di prima avremmo infatti:

$$P(6|pari)=\frac{ p(pari \cap 6)}{p(pari)}= \frac{1/6}{ 1/2} = 1/3$$

A partire dalla probabilità condizionata è possibile arrivare a dimostrare con relativamente semplici passaggi matematici che si possono collegare fra loro le probabilità p(A|B) e p(B|A). Infatti la $$p(A\cap B)$$ può essere riscritta come:

$$p(A \cap B)=p(A|B)p(B)$$

Ma anche come: $$p(B \cap A)=p(B|A)p(A)$$

Uguagliando le due precedenti formule si può ottenere quindi la relazione di Bayes:

$$p(A|B) = \frac{p(B|A)p(A)}{p(B)}$$.

Questa formula semplice e all’apparenza innocua nasconde dentro di sé un potere notevole poiché permette la cosiddetta inferenza, ovvero la possibilità di inferire (dedurre) da alcuni dati sperimentali altre informazioni (e aggiungo ormai è diventato uno degli strumenti più applicati in ambiti disparati a volte anche in modo eccessivo come raccontato in questo articolo).

In qualche modo permette di utilizzare le informazioni che ho, per estrapolarne altre e questo è in qualche modo quello che noi facciamo nel nostro cervello che utilizza l’esperienza (l’informazione a priori) per dedurre qualcosa da quanto si sta osservando.

Per certi versi possiamo quindi dire che questo atteggiamento dell’uomo richiama proprio la regola di Bayes che deduce qualcosa a partire dall’esperienza. E’ per questo che questo paragrafo si intitola “siamo tutti bayesiani” (anche senza saperlo).

Un immancabile esempio per convincere a non fumare!

almostbayes2

L’aspetto centrale, che rende Bayes utile, è che in molte applicazioni un dato è facilmente ottenibile mentre un altro no. Non possiamo non fare l’esempio istruttivo, anche se drammatico, dei tumori dovuti al fumo.

Quale è la probabilità di avere un tumore dato che si fuma? Questa informazione non è assolutamente scontata (e infatti per lungo tempo le case produttrici di sigarette hanno negato qualunque nesso).

Molto più semplice è ricavare l’informazione di essere fumatori dato che si ha un certo tipo di tumore (basta raccogliere questi dati domandando ai pazienti affetti da quella specifica tipologia di male se erano fumatori o meno). Matematicamente parlando il tutto può essere scritto nel seguente modo:

$$p(T|F)=\frac{p(F|T)p(T)}{p(F)}$$.

La differenza fondamentale, lo ripetiamo per chiarire, è che si è in grado, utilizzando Bayes, di ricavare la probabilità di avere un determinato tumore dato che si fuma a partire dalla probabilità che si fumi avendo un tumore, la probabilità di essere fumatore e la probabilità di tumore.

Per correttezza e per non generare confusione sottolineiamo che è molto più complesso dal punto di vista scientifico dimostrare il nesso di causa ed effetto (nel caso dell’esempio dei tumori dimostrare che il fumo causa tumori). Molto più semplice è invece dire che due grandezze sono fra loro collegate (in linguaggio scientifico si usa il termine correlate) fra loro. Due variabili potrebbero risultare correlate ma non essere legate da un nesso di causa ed effetto. Si potrebbe per esempio scoprire che c’è correlazione fra le persone iscritte in palestra e i possessori di un cellulare di ultima generazione. Questo non vuol dire che andare in palestre è la causa che spiega l’ acquisto di un cellulare. Molto più semplicemente, entrambe sono abitudini maggiormente diffuse nella fascia di popolazione più giovane.

Il teorema di Bayes può anche essere visto come un meccanismo per migliorare le informazioni (quindi un modo per apprendere da cui l’analogia con il nostro cervello) su un evento.

Torniamo al problema delle carceri: Bayes e Immigrazione

carcere

Dopo aver visto il teorema di Bayes cercherò di esprimere in termini probabilistici le
affermazioni del politico di turno.

Indicherò con la lettera $$C$$  l’essere criminali e con la lettera $$I$$ l’essere immigrati.

La probabilità di essere criminali dato che si è immigrati si può, quindi, indicare come $$p(C|I)$$.

Mentre la probabilità di essere immigrati dato che si è criminali con $$p(I|C)$$.

L’errore concettuale del politico sta nell’assumere che la $$p(I|C)=p(C|I)$$ cosa che il teorema di Bayes dice non essere a priori assolutamente vera.

La probabilità p(C|I) si può invece trovare applicando il teorema di Bayes nel seguente modo:

$$p(C|I) = \frac{p(I|C)p(C)}{p(I)}$$

Vediamo di fare un esempio utilizzando dei numeri tanto per essere ancora più chiari.

Per estremizzare la cosa partiamo da un dato esagerato. Assumiamo che nelle carceri gli immigrati siano il $$90$$ % (dato assolutamente esagerato ma che utilizziamo, appunto per estremizzare l’esempio. Se volete dati veri andate qui ): questo corrisponderebbe a dire che la probabilità di essere immigrato dato che si è in carcere è $$p( I | C)= 0.9$$. La percentuali di persone in carcere immigrate è infatti nota o comunque facilmente ricavabile.

Per semplificare l’analisi, si assume (cosa non sempre vera) che chi sta in carcere sia effettivamente un criminale. Osservo che l’aver dichiarato reato lo stato di clandestinità ha contribuito ad attribuire lo status di criminale a persone che prima non lo erano.

Se, per esempio, attribuiamo alla probabilità di essere immigrati $$p(I)$$ e a quella di essere criminali $$p(C)$$ rispettivamente i seguenti ipotetici valori: $$p(I)=0.2$$ e $$p(C)=0.01$$ otteniamo usando Bayes:

$$p(C|I)=\frac{p(I|C)p(C)}{p(I)}= \frac{0.9 \cdot 0.01}{0.2}=0.045$$

Come si vede il valore 0.045 ottenuto è, in maniera assolutamente controintuitiva, molto più basso di quello che ci si aspetterebbe (non è, in altri termini pari al 90%).

Se avessi utilizzato delle stime vere per alcune combinazioni di dati avremmo addirittura ricavato che il tasso di criminalità fra gli immigrati è confrontabile con quello degli italiani o almeno è confrontabile con quello della popolazione alcune zone geografiche problematiche della stessa Italia. Non è mio compito fare stime di questo tipo che probabilmente si modificano di anno in anno.

Non voglio negare le sfide che l’immigrazione porta con sé, certo è che qualora dovessi trovare un politico in grado di spiegare questo ragionamento e così coraggioso da lasciare da parte la demagogia e dire tutto ciò, sicuramente guadagnerebbe il mio voto.

 

 Per approfondire:

Bayesian Analysis of the Sudanese Immigrant Youth Crime Rates and the “Likelihood” of Committing Violent Offence than an Australian-Born,  International Journal of Criminology and Sociology, 2015, 4, 82-93

 

[1] Per intersezione di due eventi si intende quel sottoinsieme di elementi comuni sia all’insieme A che all’insieme B.

CC BY-NC-SA 4.0
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.