Immersi nei dati
Il Primo Ministro del Regno Unito, Benjamin Disraeli, era solito dire:
“Ci sono tre tipi di bugie: le bugie, le bugie spudorate e le bugie statistiche“
Buona parte della nostra comprensione del mondo è basata su prove o impressioni statistiche. Nell’era dell’informazione siamo sommersi dai dati. Negli articoli quotidiani, così come nei servizi dei telegiornali, abbondano le informazioni del tipo “Oggi l’indice Dow-Jones è sceso di 6 punti“, “Il mese scorso l’indice dei prezzi al consumo è salito dallo 0,8%“, “I sondaggi più recenti indicano che il gradimento del Presidente è al 63%“, “Il 98% dei partecipanti a uno studio clinico non ha riportato effetti collaterali significativi“.
Le deduzioni statistiche valide sono importanti per prendere decisioni personali e sociali. Ma la statistica può essere soggetta a interpretazioni sbagliate. Alcune affermazioni basate sui dati possono sembrare valide, ma sono in realtà errori involontari o menzogne volute.
Ormai per capire i vari aspetti della società siamo chiamati ad assorbire ed interpretare una grande mole di dati. Tuttavia immagino che pochi di voi si soffermino a chiedersi da dove arrivino quei numeri o come vengono calcolati. Anzi, molto spesso quantità massiccia d’informazione genera solo più scetticismo che altro.
Usare la statistica in modo improprio: il noto caso del Literary Digest
La fama di tale giornale statunitense perdura nel tempo solo grazie ad una cantonata statistica di cui si macchiò nel 1936 e che manterrà vivo “The Literary Digest” nei testi statistici per generazioni e generazioni. L’occasione furono le elezioni presidenziali statunitensi del 1936 di cui il giornale si era prefissato lo scopo di prevederne l’esito. I due candidati erano Franklin Delano Roosvelt e Alfred Landon. La rivista spedì agli elettori in tutta la nazione milioni di questionari. I dati erano chiari e la previsione fu annunciata con sicurezza: Landon avrebbe vinto, e avrebbe vinto comodamente con il 57% del voto popolare.
Tuttavia non ricorderete di aver studiato sui libri di storia il Presidente Landon…per la semplicissima ragione che Landon non vinse. Le previsioni di “The Literary Digest” furono corrette solo in un aspetto: l’elezione fu effettivamente una vittoria schiacciante, ma nell’altro verso: 62% del voto popolare per Roosvelt.
Come fecero gli (ex) statistici della rivista a sbagliare così clamorosamente? Chiesero le opinioni alle persone sbagliate. Furono spediti 10 milioni di questionari e ne furono restituiti 2 milioni. Ma, chi può dire che le persone che rispediscono un questionario siano un campione rappresentativo della popolazione?
Indagine campionaria
“The Literary Digest” commise l’errore di raccogliere le informazioni da fonti distorte, selezionate senza un criterio statistico.
Per conoscere, commentare o interpretare un fenomeno è necessario poterlo osservare. Ma un elemento critico del processo di acquisizione dei dati è costituito dal fatto che molto spesso (quasi sempre in realtà) la rilevazione completa di un fenomeno richiede costi e tempi proibitivi. Le uniche indagini statistiche che prevedono una rilevazione completa dei dati sono i famosi censimenti, che l’Istituto Nazionale di Statistica (Istat) compie ogni 10 anni, e i quali richiedono però uno sforzo notevole.
Per questo motivo si ricorre a processi di acquisizione dei dati basati sull’osservazione ragionata di una parte della popolazione, denominata “campione statistico“. Le tecniche di campionamento statistico si appoggiano alla meglio nota Teoria dei campioni.
L’ indagine campionaria si differenzia dal censimento (detto anche indagine totale) per due aspetti principali:
- la scelta di una specifica procedura di selezione delle unità oggetto di analisi
- l’induzione dell’informazione raccolta tramite campione all’intera popolazione.
Sia il processo di selezione del campione che l’uso dei dati corrispondenti devono essere volti ad ottenere la massima efficienza, cioè minimizzare l’approssimazione delle informazioni rilevate. Tale obiettivo porta allo studio e alla definizione di regole per la selezione del campione fondate sul calcolo delle probabilità.
Se, per esempio, un direttore di marketing volesse valutare le reazioni a un nuovo prodotto, non potrà basare le sue considerazioni solo considerando l’opinione dei suoi amici, in quanto questi non essendo “selezionati” in modo statistico difficilmente saranno rappresentativi dell’intera popolazione. Un valido strumento di decisioni, al contrario, risiede nella cosiddetta indagine statistica campionaria. Questa non è altro che un tipo di analisi statistica basata sull’osservazione del fenomeno solo su un gruppo di unità elementari (sottoinsieme della popolazione di riferimento) individuate tramite tecniche statistiche che consentono di trarre conclusioni sull’intera popolazione, con un rischio definito di errore.
Piani e strategie
Data una popolazione finita di N unità, si definisce piano di campionamento la scelta di una specifica procedura di selezione che, dalle N unità della popolazione, permette di estrarre un campione di ampiezza n, con N>>n. La quantità n/N è detta frazione di campionamento.
La sua determinazione è uno dei passaggi fondamentali per l’accuratezza delle stime finali.
La scelta delle unità da inserire nel campione può essere di tipo probabilistico o meno. Nei piani di campionamento non probabilistici, la scelta delle n unità prescinde da criteri di casualità, e le unità sono ottenute in funzione di particolari esigenze conoscitive o per caratteristiche peculiari. I più noti sono:
- a scelta ragionata (bilanciato, semiprobabilistico, troncato)
- per quote
- tramite testimoni privilegiati
- a valanga
Invece nei cosiddetti piani di campionamento probabilistici, la scelta delle unità avviene sulla base di una legge di probabilità nota a priori. I principali schemi sono:
- CASUALE SEMPLICE (RANDOM)
- STRATIFICATO
- A GRAPPOLI
- SISTEMATICO
- A DUE STADI
La scelta di quale disegno di campionamento applicare, cioè la scelta della strategia di campionamento, si basa sull’errore di approssimazione disposti ad accettare, dove per errore si intende la discrepanza tra valore vero e valore rilevato dall’indagine statistica.
Non dimentichiamoci dell’errore
Come in ogni analisi/tecnica statistica che si rispetti, non dobbiamo mai dimenticarci della componente di incertezza (errore) presente in tutti i risultati che otteniamo.
Nella Teoria dei Campioni, gli errori statistici si suddividono in due macro categorie: errori campionari ed errori non campionari.
Gli errori non campionari sono quelli che non dipendono dal piano di campionamento ma che derivano dal non verificarsi di alcune ipotesi alla base: risposte mancanti, risposte non vere, liste incomplete dalle quali scegliere le unità da campionare, … . Si definiscono errori campionari quegli errori che dipendono del piano di campionamento e della numerosità campionaria. La differenza principale risiede nel fatto che su i primi l’analista ha molto poco controllo, e a priori non sono evitabili. Mentre i secondi discendono direttamente dalle decisioni prese da chi effettua l’analisi, e quindi hanno ampio margine di minimizzazione in base ai costi e ai tempi messi a disposizione da chi commissiona lo studio.
Statistica e le sue due facce
Come avrete notato in questo post ci sono poche formule e numeri. Non fatevi ingannare dalle apparenze: il campionamento statistico è una materia affascinante, complessa e la cui trattazione non si presta molto alla sintesi o alla semplificazione.
Ho provato a raccontarvi alcuni concetti base, e a sensibilizzarvi della sua importanza all’interno del mondo che gira intorno alla statistica (la quale poverina non è solo percentuali, medie e curve di Gauss). Infatti, se da un lato la statistica può aiutare a capire il mondo trasformando i dati in “bocconi digeribili” e permettendo di esaminare situazioni che presentano aspetti sconosciuti, dall’altro tenete sempre bene a mente che i numeri non possono mentire, ma il modo in cui vengono mostrati può permettere loro di farlo.
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Bell’articolo, l’esempio del “The Literary Digest” mette bene in evidenza quanto sia importante il piano di campionamento. Non ho approfondito l’argomento, ma ho sempre pensato che anche le errate previsioni delle politiche del 2013 siano nate (anche) a causa di un sbagliato piano di campionamento. Essendo un’assidua frequentatrice di internet, l’impressione “a pelle” era che certi partiti avessero degli apprezzamenti molto superiori rispetto i sondaggi che venivano pubblicati. E il risultato finale, infatti, fu molto più vicino alla mia “impressione a pelle”. È possibile che il campione scelto sia stato soprattutto telefonico, e che quindi abbia escluso a priori certe fasce della popolazione?
Ciao Sonia! Grazie per il commento.
La scienza dei sondaggi politici è questione delicata.
Molto spesso in questo contesto quello che entra in gioco non è tanto la tecnica di campionamento utilizzata, ma la propensione delle persone a rispondere o a fornire una risposta vera (cioè nessuno ha modo di sapere se poi l’intervistato voterà per chi ha dichiarato).
Nel caso specifico del 2013 non ti saprei dire il modo con cui sono stati contattati gli intervistati. Se avessero però condotto solo interviste telefoniche avrebbero commesso una probabile distorsione. Le persone che mediamente trovi in casa durante il giorno decisamente non sono rappresentative dell’intera popolazione votante (anziani, casalinghe, ragazzi giovani,…).
Ti lascio sotto un link dove puoi approfondire l’argomento si ti interessa
http://old.sis-statistica.org/magazine/spip.php?article139
Continua a seguirci!
Gentili,
di fatto la statistica non è altro che una sotto-specie di interpretazione di un calcolo combinatorio. Si parte dall’idea a priori e poi si vede quanto la realtà empirica ci somiglia. L’approccio della statistica non aiuta affatto a trovare risposte rassicuranti e definitive come con la matematica pura, può al massimo escludere qualcosa per manifesta incompatibilità (quindi una dimostrazione per assurdo).
Con un tale approccio rimane sempre un dubbio, di fatto un’ansia irrisolta, potrebbe un giorno qualcuno uscirsene genialmente con una nuova “idea a priori” (e.g. formula) che meglio descrive la realtà empirica.
Ciononostante il teorema del limite centrale e la legge dei grandi numeri sono intuizioni straordinarie sulla natura del nostro universo, come volessero dire che esiste un ordine precostituito del cosmo per ogni cosa che definiamo categoria o essere (umanamente intelligibile).
Mi piacerebbe che nel blog si affrontassero alcuni esempi pratici di come l’uso distorto di statistiche abbia prodotto grossolani errori, nonché si ponessero alcune simulazioni magari fatte con software specifici per spiegare “in autopsia” il passaggio dal fenomeno all’interpretazione.
Discutiamone. Spero di aver dato un contributo gradito.