Blog divulgativo sulla matematica applicata

Superare i luoghi comuni con il Teorema di Bayes: immigrazione e criminalità

bayes_sheldon

Sheldon di Big Bang Theory con una lavagna in cui compare (in alto) la formula del teorema di Bayes

Non so se a voi è capitato di sentire in televisione il politico di turno dire:

"Le carceri sono piene di stranieri e questo vuol dire che gli stranieri commettono crimini con una frequenza altissima, molto più dei cittadini italiani".

A me è capitato anche di sentir citare, a conferma dell'affermazione precedente, i dati sulla presenza degli immigrati in carcere con ragionamenti del tipo: “il 40-50% delle persone in carcere sono immigrate quindi ogni due immigrati uno commette un crimine”.

Non credo sia necessario suggerire a chi ci legge di diffidare dei politici  (ma aggiungerei anche dei cosiddetti tecnici) quando citano numeri e statistiche senza citare la fonti  degli studi da cui sono tratti e senza permettere, quindi, di verificare o meno la loro veridicità.

Mi limiterò a spiegare perché dal dato citato (carcere piene di stranieri) non deriva necessariamente il fatto che il tasso di criminalità della popolazione immigrata sia per forza enormemente più elevato rispetto a quello degli italiani.

La cosa è probabilmente controintuitiva ma ci si aspetterebbe dagli uomini politici (e dai giornalisti che li intervistano senza obiettare) maggiore approfondimento sulle cose di cui parlano e meno demagogia.

Per spiegare perché l'affermazione del politico è almeno inesatta ci viene in aiuto il teorema di Bayes.

Nei prossimi paragrafi ricorderò brevemente che cosa afferma il teorema di Bayes (ovviamente se siete già ferratissimi su questo teorema potete saltarlo e andare alla parte successiva).

Di Bayes abbiamo già parlato anche in altri articoli su questo blog. In particolare l'abbiamo già introdotto in questo post di Andrea ed in un mio sui filtri antispam. Vi invito a leggerli se non l'avete già fatto.

 Siamo tutti bayesiani

bayes

T. Bayes rivisitato in modalità festa

 

Per parlare di questo noto teorema la cui idea originaria si deve al reverendo Thomas Bayes (ma che, in realtà, è stato formulato nel modo che conosciamo da Pierre-Simon Laplace) è necessario ricordare il concetto di probabilità condizionata. 

Questo concetto viene introdotto perché in alcuni casi la probabilità che accada qualcosa si modifica se, per qualunque motivo, si viene a conoscenza di una informazione aggiuntiva legata all'evento.

In modo più formale, si parla di probabilità di un evento A condizionata da un evento B e si indica con il simbolo p(A|B) la probabilità data dalla seguente formula:

p(A|B) = \frac{p(A \cap B)}{p(B)}

con p(B) probabilità dell'evento B,p(A\cap B) quella dell'evento "A intersezione B[1].

Non dimostreremo questa formula (anche se non è difficile) che traduce in linguaggio matematico l'idea che la probabilità di un evento può cambiare nel caso in cui  se ne verifica un altro.

Il termine "può" non è casuale ed è messo per indicare, per esempio, il fatto che la probabilità che il Milan vinca il campionato di calcio può non dipendere dal fatto che in questo momento voi leggiate questa frase. In questo caso l'evento "il Milan vince il campionato" e "il lettore x sta leggendo questa frase del post" si dicono indipendenti (sempre che i giocatori del Milan non siano così appassionati di matematica da abbandonare, dopo la lettura di questo articolo, la loro professione per dedicarsi alla matematica).

Facciamo un altro esempio di eventi in questo caso non indipendenti ovvero di due eventi A e B tali che il verificarsi di B influenza la stima probabilistica di A.

Rimaniamo sul classico e parliamo di dadi. Potremmo chiederci quale è la probabilità che esca il numero 6 sapendo che è uscito un numero pari. Intuitivamente è chiaro che essendo nota l'uscita di un numero pari, la possibilità che sia un 6 diventa più alta di prima.  Applicando la regola di prima avremmo infatti:

P(6|pari)=\frac{ p(pari \cap 6)}{p(pari)}= \frac{1/6}{ 1/2} = 1/3

A partire dalla probabilità condizionata è possibile arrivare a dimostrare con relativamente semplici passaggi matematici che si possono collegare fra loro le probabilità p(A|B) e p(B|A). Infatti la p(A\cap B) può essere riscritta come:

p(A \cap B)=p(A|B)p(B)

Ma anche come: p(B \cap A)=p(B|A)p(A)

Uguagliando le due precedenti formule si può ottenere quindi la relazione di Bayes:

p(A|B) = \frac{p(B|A)p(A)}{p(B)}.

Questa formula semplice e all'apparenza innocua nasconde dentro di sé un potere notevole poiché permette la cosiddetta inferenza, ovvero la possibilità di inferire (dedurre) da alcuni dati sperimentali altre informazioni (e aggiungo ormai è diventato uno degli strumenti più applicati in ambiti disparati a volte anche in modo eccessivo come raccontato in questo articolo).

In qualche modo permette di utilizzare le informazioni che ho, per estrapolarne altre e questo è in qualche modo quello che noi facciamo nel nostro cervello che utilizza l'esperienza (l'informazione a priori) per dedurre qualcosa da quanto si sta osservando.

Per certi versi possiamo quindi dire che questo atteggiamento dell'uomo richiama proprio la regola di Bayes che deduce qualcosa a partire dall'esperienza. E' per questo che questo paragrafo si intitola "siamo tutti bayesiani" (anche senza saperlo).

Un immancabile esempio per convincere a non fumare!

almostbayes2

L'aspetto centrale, che rende Bayes utile, è che in molte applicazioni un dato è facilmente ottenibile mentre un altro no. Non possiamo non fare l'esempio istruttivo, anche se drammatico, dei tumori dovuti al fumo.

Quale è la probabilità di avere un tumore dato che si fuma? Questa informazione non è assolutamente scontata (e infatti per lungo tempo le case produttrici di sigarette hanno negato qualunque nesso).

Molto più semplice è ricavare l'informazione di essere fumatori dato che si ha un certo tipo di tumore (basta raccogliere questi dati domandando ai pazienti affetti da quella specifica tipologia di male se erano fumatori o meno). Matematicamente parlando il tutto può essere scritto nel seguente modo:

p(T|F)=\frac{p(F|T)p(T)}{p(F)}.

La differenza fondamentale, lo ripetiamo per chiarire, è che si è in grado, utilizzando Bayes, di ricavare la probabilità di avere un determinato tumore dato che si fuma a partire dalla probabilità che si fumi avendo un tumore, la probabilità di essere fumatore e la probabilità di tumore.

Per correttezza e per non generare confusione sottolineiamo che è molto più complesso dal punto di vista scientifico dimostrare il nesso di causa ed effetto (nel caso dell'esempio dei tumori dimostrare che il fumo causa tumori). Molto più semplice è invece dire che due grandezze sono fra loro collegate (in linguaggio scientifico si usa il termine correlate) fra loro. Due variabili potrebbero risultare correlate ma non essere legate da un nesso di causa ed effetto. Si potrebbe per esempio scoprire che c'è correlazione fra le persone iscritte in palestra e i possessori di un cellulare di ultima generazione. Questo non vuol dire che andare in palestre è la causa che spiega l' acquisto di un cellulare. Molto più semplicemente, entrambe sono abitudini maggiormente diffuse nella fascia di popolazione più giovane.

Il teorema di Bayes può anche essere visto come un meccanismo per migliorare le informazioni (quindi un modo per apprendere da cui l'analogia con il nostro cervello) su un evento.

Torniamo al problema delle carceri: Bayes e Immigrazione

carcere

Dopo aver visto il teorema di Bayes cercherò di esprimere in termini probabilistici le
affermazioni del politico di turno.

Indicherò con la lettera C  l'essere criminali e con la lettera I l'essere immigrati.

La probabilità di essere criminali dato che si è immigrati si può, quindi, indicare come p(C|I).

Mentre la probabilità di essere immigrati dato che si è criminali con p(I|C).

L'errore concettuale del politico sta nell'assumere che la p(I|C)=p(C|I) cosa che il teorema di Bayes dice non essere a priori assolutamente vera.

La probabilità p(C|I) si può invece trovare applicando il teorema di Bayes nel seguente modo:

p(C|I) = \frac{p(I|C)p(C)}{p(I)}

Vediamo di fare un esempio utilizzando dei numeri tanto per essere ancora più chiari.

Per estremizzare la cosa partiamo da un dato esagerato. Assumiamo che nelle carceri gli immigrati siano il 90 % (dato assolutamente esagerato ma che utilizziamo, appunto per estremizzare l’esempio. Se volete dati veri andate qui ): questo corrisponderebbe a dire che la probabilità di essere immigrato dato che si è in carcere è p( I | C)= 0.9. La percentuali di persone in carcere immigrate è infatti nota o comunque facilmente ricavabile.

Per semplificare l'analisi, si assume (cosa non sempre vera) che chi sta in carcere sia effettivamente un criminale. Osservo che l'aver dichiarato reato lo stato di clandestinità ha contribuito ad attribuire lo status di criminale a persone che prima non lo erano.

Se, per esempio, attribuiamo alla probabilità di essere immigrati p(I) e a quella di essere criminali p(C) rispettivamente i seguenti ipotetici valori: p(I)=0.2 e p(C)=0.01 otteniamo usando Bayes:

p(C|I)=\frac{p(I|C)p(C)}{p(I)}= \frac{0.9 \cdot 0.01}{0.2}=0.045

Come si vede il valore 0.045 ottenuto è, in maniera assolutamente controintuitiva, molto più basso di quello che ci si aspetterebbe (non è, in altri termini pari al 90%).

Se avessi utilizzato delle stime vere per alcune combinazioni di dati avremmo addirittura ricavato che il tasso di criminalità fra gli immigrati è confrontabile con quello degli italiani o almeno è confrontabile con quello della popolazione alcune zone geografiche problematiche della stessa Italia. Non è mio compito fare stime di questo tipo che probabilmente si modificano di anno in anno.

Non voglio negare le sfide che l'immigrazione porta con sé, certo è che qualora dovessi trovare un politico in grado di spiegare questo ragionamento e così coraggioso da lasciare da parte la demagogia e dire tutto ciò, sicuramente guadagnerebbe il mio voto.

 

 Per approfondire:

Bayesian Analysis of the Sudanese Immigrant Youth Crime Rates and the “Likelihood” of Committing Violent Offence than an Australian-Born,  International Journal of Criminology and Sociology, 2015, 4, 82-93

 

[1] Per intersezione di due eventi si intende quel sottoinsieme di elementi comuni sia all’insieme A che all’insieme B.

CC BY-NC-SA 4.0
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Similar posts

12 commenti

  1. Mariano Zarcone's Gravatar Mariano Zarcone
    marzo 6, 2016    

    Troppo inteligente per tanti italiani. I politici non parlano secondo logica ma secondo la propaganda

  2. Luca's Gravatar Luca
    marzo 6, 2016    

    Ciao, grazie dell'articolo. Ho una domanda: concettualmente parlando qual'è la differenza fra lo stato di informazione "C e I" rispetto a "C|I", visto che le corrispondenti probabilità non sono uguali?

    • Roberto's Gravatar Roberto
      marzo 6, 2016    

      Provo a rispondere io: ipotizzo che per "C e I" tu intenda l'evento "si verifica C e si verifica anche I, cioè l'evento intersezione. In altre parole, corrisponde a dire "sei un Criminale E sei un Immigrato".
      Come stato di informazione, se tu vuoi calcolare p(C e I) parti senza alcun assunto (ergo, vai a pescare una persona a caso nella popolazione) e ti chiedi con che probabilità sarà un immigrato criminale.
      Per calcolare p(C|I) tu come stato di informazione sai che stai studiando gli immigrati, cioè hai pescato una persona a caso nell'insieme degli immigrati, e ti chiedi che probabilità hai di aver pescato un criminale. Chiaramente questa seconda è maggiore (l'insieme universo si è ridotto, l'insieme dei casi favorevoli è lo stesso).

  3. Roberto's Gravatar Roberto
    marzo 6, 2016    

    Considerando
    P (I|C) =0.24 (circa... dati ISTAT 2009)
    X0=39.6milioni Popolazione italiana 15-64 anni 2010 istat
    X1=5.3-1=4.3 milioni immigrati maggiorenni (stranieriinitaalia.it 2014)
    X2=2.6 milioni delitti denunciati dalla polizia (ISTAT. It/it/archivio/reati)
    P(I)=x1/x0=4.3/39.6=0.11
    P(C)=x2/x0=2.6/39.6=0.066
    Si ha che : P (C|I)= (0.24*0.066)/0.11=0.14
    P (C|I)=14% con le approssimazioni di sopra.

  4. Roberto's Gravatar Roberto
    marzo 6, 2016    

    Che ovviamente è molto meno del al 24% di I dato C

  5. Toni's Gravatar Toni
    marzo 6, 2016    

    Non ho dati per zone geografiche problematiche, ma se uso i dati forniti da Roberto in un commento sopra, ottengo che la probabilita' di essere un criminale dato che non sei immigrato, P(C|~I) = 0.76*0.066/0.89 = 0.0564

    Ergo, gli immigrati mi pare che delinquano quasi tre volte di piu' degli italiani (Roberto trovava 0.14 per gli immigrati)

    • David's Gravatar David
      marzo 8, 2016    

      In realtà si può solo dire che gli immigrati finiscono in carcere tre volte più degli italiani. Manca il dato sulla probabilità di finire in carcere dato che si è commesso un reato. Ho il sospetto che questo sia differente per gli italiani e per gli immigrati, a sfavore degli ultimi.

  6. cnr's Gravatar cnr
    marzo 6, 2016    

    Articolo interessante, grazie. Due considerazioni.

    La prima cosa che ho pensato e' che - sui conti di Roberto - la popolazione italiana da considerare sarebbe quella maggiorenne (circa 48.9 milioni, nel 2011) e non quella 15-64: la cosa interessante che ho notato, se non sbaglio, e' che pero' questo non incide sul computo di P(C|I), perche' riduce nella stessa proporzione P(C) e P(I).

    La seconda e' che mentre, cito, "dal dato citato (carcere piene di stranieri) non deriva *necessariamente* [enfasi mia] il fatto che il tasso di criminalità della popolazione immigrata sia per forza enormemente più elevato rispetto a quello degli italiani", ci si puo' chiedere sotto quali condizioni questo sia infatti falso. Cioe', dato P(I|C)=0.24, cos'altro deve essere vero affinche' i tassi di criminalita' italiano P(C|~i) e straniero P(C|i) siano (almeno) gli stessi?

    Se ho fatto i conti bene, deve essere che P(I)/P(~I)>0.24/0.76=0.32. In altre parole, avendo il 24% di carcerati immigrati, serve che almeno il 24% della popolazione maggiorenne sia immigrata.

    Con i numeri di roberto (e i miei qui sopra, ora contano), la frazione di immigrati e' 4.3/48.9=8.8%. Per l'appunto - seguendo toni - tre volte di meno.

  7. Davide's Gravatar Davide
    marzo 7, 2016    

    Grazie Roberto, Mariano, Toni, cnr, Luca per i vostri commenti e osservazioni.
    L'obiettivo era proprio di suscitare delle riflessioni che superino i luoghi comuni.
    Le vostre riflessioni lo fanno....vuol dire che il mio articolo ha raggiunto almeno questo obiettivo.

    Davide

  8. complimenti's Gravatar complimenti
    marzo 8, 2016    

    Hai esattamente dimostrato il contrario di quello che volevi , facendo il fighetto matematico.

    Gl iimmigrati delinquono 3 volte gli italiani ... quindi si.. statisticamente e' piu' regionevole diffidare di un immigrato che di un italiano!

    sei un genio

    • Davide's Gravatar Davide
      marzo 10, 2016    

      Ciao "Complimenti",

      grazie del tuo commento.
      Penso di aver fatto solo notare che p(A|B) è diverso da p(B|A) e osservato che da un dato non derivi necessariamente un altro.

      Davide

      p.s. è bello dialogare però ti invito a firmarti con un nome vero ed una email vera per continuare a confrontarci

  9. Michele's Gravatar Michele
    marzo 20, 2016    

    in realtà, quello che manca ancora è una standardizzazione dei tassi di criminalità per età, dato che immigrati e italiani hanno una composizione demografica ben differente e le popolazioni giovani (credo che su questo nessuno abbia da obiettare) hanno una tendenza maggiore a deviare. Quindi la maggior propensione (3 volte, correttamente stimato più sopra nei commenti) degli immigrati a delinquere deriverebbe in realtà in buona parte dal maggior peso nella popolazione straniera rispetto a quello italiana delle fasce di età più giovani

Lascia una risposta

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati *

È possibile utilizzare questi tag ed attributi XHTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Canale Telegram dedicato alla Matematica

Iscriviti sul nostro canale Telegram

MIA15 - Nomination

Rimani aggiornato sui più interessanti articoli di divulgazione matematica e non solo!

Iscriviti alla nostra newsletter

Resta aggiornato sui nostri post e su quello che facciamo.

Seguici su Twitter

Tag Cloud

Grazie per il sostegno ai #MIA2015

Grazie a tutti per averci votato ai "Macchia Nera Awards 2015" nella categoria "Miglior Sito Tecnico-Divulgativo".

Siamo arrivati in finale grazie al vostro sostegno!

MIA15 - Nomination