Immersi nei dati

Il Primo Ministro del Regno Unito, Benjamin Disraeli, era solito dire:

Ci sono tre tipi di bugie: le bugie, le bugie spudorate e le bugie statistiche

Buona parte della nostra comprensione del mondo è basata su prove o impressioni statistiche. Nell’era dell’informazione siamo sommersi dai dati. Negli articoli quotidiani, così come nei servizi dei telegiornali, abbondano le informazioni del tipo “Oggi l’indice Dow-Jones è sceso di 6 punti“, “Il mese scorso l’indice dei prezzi al consumo è salito dallo 0,8%“, “I sondaggi più recenti indicano che il gradimento del Presidente è al 63%“, “Il 98% dei partecipanti a uno studio clinico non ha riportato effetti collaterali significativi“.

dati

Le deduzioni statistiche valide sono importanti per prendere decisioni personali e sociali. Ma la statistica può essere soggetta a interpretazioni sbagliate. Alcune affermazioni basate sui dati possono sembrare valide, ma sono in realtà errori involontari o menzogne volute.

Ormai per capire i vari aspetti della società siamo chiamati ad assorbire ed interpretare una grande mole di dati. Tuttavia immagino che pochi di voi si soffermino a chiedersi da dove arrivino quei numeri o come vengono calcolati. Anzi, molto spesso quantità massiccia d’informazione genera solo più scetticismo che altro.

Usare la statistica in modo improprio: il noto caso del Literary Digest

La fama di tale giornale statunitense perdura nel tempo solo grazie ad una cantonata statistica di cui si macchiò nel 1936 e che manterrà vivo “The Literary Digest” nei testi statistici per generazioni e generazioni. L’occasione furono le elezioni presidenziali statunitensi del 1936 di cui il giornale si era prefissato lo scopo di prevederne l’esito. I due candidati erano Franklin Delano Roosvelt e Alfred Landon. La rivista spedì agli elettori in tutta la nazione milioni di questionari. I dati erano chiari e la previsione fu annunciata con sicurezza: Landon avrebbe vinto, e avrebbe vinto comodamente con il 57% del voto popolare.

LiteraryDigest

Tuttavia non ricorderete di aver studiato sui libri di storia il Presidente Landon…per la semplicissima ragione che Landon non vinse. Le previsioni di “The Literary Digest” furono corrette solo in un aspetto: l’elezione fu effettivamente una vittoria schiacciante, ma nell’altro verso: 62% del voto popolare per Roosvelt.

Come fecero gli (ex) statistici della rivista a sbagliare così clamorosamente? Chiesero le opinioni alle persone sbagliate. Furono spediti 10 milioni di questionari e ne furono restituiti 2 milioni. Ma, chi può dire che le persone che rispediscono un questionario siano un campione rappresentativo della popolazione?

Indagine campionaria

“The Literary Digest” commise l’errore di raccogliere le informazioni da fonti distorte, selezionate senza un criterio statistico.

Per conoscere, commentare o interpretare un fenomeno è necessario poterlo osservare. Ma un elemento critico del processo di acquisizione dei dati è costituito dal fatto che molto spesso (quasi sempre in realtà) la rilevazione completa di un fenomeno richiede costi e tempi proibitivi. Le uniche indagini statistiche che prevedono una rilevazione completa dei dati sono i famosi censimenti, che  l’Istituto Nazionale di Statistica (Istat) compie ogni 10 anni, e i quali richiedono però uno sforzo notevole.

Per questo motivo si ricorre a processi di acquisizione dei dati basati sull’osservazione ragionata di una parte della popolazione, denominata “campione statistico“. Le tecniche di campionamento statistico si appoggiano alla meglio nota Teoria dei campioni.

L’ indagine campionaria si differenzia dal censimento (detto anche indagine totale) per due aspetti principali:

  1. la scelta di una specifica procedura di selezione delle unità oggetto di analisi
  2. l’induzione dell’informazione raccolta tramite campione all’intera popolazione.

campione

Sia il processo di selezione del campione che l’uso dei dati corrispondenti devono essere volti ad ottenere la massima efficienza, cioè minimizzare l’approssimazione delle informazioni rilevate. Tale obiettivo porta allo studio e alla definizione di regole per la selezione del campione fondate sul calcolo delle probabilità.

Se, per esempio, un direttore di marketing volesse valutare le reazioni a un nuovo prodotto, non potrà basare le sue considerazioni solo considerando l’opinione dei suoi amici, in quanto questi non essendo “selezionati” in modo statistico difficilmente saranno rappresentativi dell’intera popolazione. Un valido strumento di decisioni, al contrario, risiede nella cosiddetta indagine statistica campionaria. Questa non è altro che un tipo di analisi statistica basata sull’osservazione del fenomeno solo su un gruppo di unità elementari (sottoinsieme della popolazione di riferimento) individuate tramite tecniche statistiche che consentono di trarre conclusioni sull’intera popolazione, con un rischio definito di errore.

Piani e strategie

Data una popolazione finita di N unità, si definisce piano di campionamento la scelta di una specifica procedura di selezione che, dalle N unità della popolazione, permette di estrarre un campione di ampiezza n, con N>>n. La quantità n/N è detta frazione di campionamento.

La sua determinazione è uno dei passaggi fondamentali per l’accuratezza delle stime finali.

La scelta delle unità da inserire nel campione può essere di tipo probabilistico o meno. Nei piani di campionamento non probabilistici, la scelta delle n unità prescinde da criteri di casualità, e le unità sono ottenute in funzione di particolari esigenze conoscitive o per  caratteristiche peculiari. I più noti sono:

  • a scelta ragionata (bilanciato, semiprobabilistico, troncato)
  • per quote
  • tramite testimoni privilegiati
  • a valanga

Invece nei cosiddetti piani di campionamento probabilistici, la scelta delle unità avviene sulla base di una legge di probabilità nota a priori. I principali schemi sono:

  • CASUALE SEMPLICE (RANDOM)

semplice

  • STRATIFICATO

stratificato

  • A GRAPPOLI

grappolo

  • SISTEMATICO

sistematico

  • A DUE STADI

due stadi

La scelta di quale disegno di campionamento applicare, cioè la scelta della strategia di campionamento, si basa sull’errore di approssimazione disposti ad accettare, dove per errore si intende la discrepanza tra valore vero e valore rilevato dall’indagine statistica.

Non dimentichiamoci dell’errore

Come in ogni analisi/tecnica statistica che si rispetti, non dobbiamo mai dimenticarci della componente di incertezza (errore) presente in tutti i risultati che otteniamo.

Nella Teoria dei Campioni, gli errori statistici si suddividono in due macro categorie: errori campionari ed errori non campionari.

Gli errori non campionari sono quelli che non dipendono dal piano di campionamento ma che derivano dal non verificarsi di alcune ipotesi alla base: risposte mancanti, risposte non vere, liste incomplete dalle quali scegliere le unità da campionare, … . Si definiscono errori campionari quegli errori che dipendono del piano di campionamento e della numerosità campionaria. La differenza principale risiede nel fatto che su i primi l’analista ha molto poco controllo, e a priori non sono evitabili. Mentre i secondi discendono direttamente dalle decisioni prese da chi effettua l’analisi, e quindi hanno ampio margine di minimizzazione in base ai costi e ai tempi messi a disposizione da chi commissiona lo studio.

Statistica e le sue due facce

Come avrete notato in questo post ci sono poche formule e numeri. Non fatevi ingannare dalle apparenze: il campionamento statistico è una materia affascinante, complessa e la cui trattazione non si presta molto alla sintesi o alla semplificazione.

Ho provato a raccontarvi alcuni concetti base, e a sensibilizzarvi della sua importanza all’interno del mondo che gira intorno alla statistica (la quale poverina non è solo percentuali, medie e curve di Gauss). Infatti, se da un lato la statistica può aiutare a capire il mondo trasformando i dati in “bocconi digeribili” e permettendo di esaminare situazioni che presentano aspetti sconosciuti, dall’altro tenete sempre bene a mente che i numeri non possono mentire, ma il modo in cui vengono mostrati può permettere loro di farlo.

CC BY-NC-SA 4.0
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.