dati-con-distribuzione-gaussiana-39992747

Questo testo parlerà della distribuzione normale, o gaussiana, delle sue proprietà e del suo utilizzo. Nella prima parte avevo discusso come è possibile ottenere la distribuzione gaussiana dalla distribuzione binomiale. Vi ricordate l’esempio del dado, vero?! 

Iniziamo questo percorso innanzitutto ricordandoci cosa sia. La distribuzione gaussiana è una distribuzione di probabilità, continua, simmetrica e completamente determinata da due parametri che sono la media $$\mu$$ e la deviazione standard $$\sigma$$. La media è semplicemente la somma dei singoli casi diviso i casi sommati, e la deviazione standard indica la dispersione dei valori attorno alla media.  Prima di discutere i dettagli, partiamo da un esempio.

Uno degli esempi è la distribuzione delle altezze degli uomini. Questa variabile segue una distribuzione gaussiana e se consideriamo la popolazione italiana adulta  nel 2015 questa distribuzione è caratterizzata da una media di  175 cm e una deviazione standard di 10 cm.

gauss

Questa curva rappresenta la distribuzione delle altezze. Nell’asse delle ascisse ci sono le altezze x, nell’asse delle ordinate c’e’ la probabilita’ p(x)

In formule

$$p(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$

Ma cosa significa tutto questo? Che informazione ci danno questi due parametri e questa funzione?

Quello che ci dice è essenzialmente quale sia la probabilità che prendendo a caso un maschio adulto italiano, questo abbia una determinata altezza. Più specificatamente, la probabilità che un individuo scelto a caso sia alto $$175 \pm 10$$ cm è del 68%, che sia alto $$175 \pm 20$$ cm è  del 95% e $$175 \pm 30$$ cm è del 99%. Avrete capito quindi la regola:  i vari esempi riportati non sono altro che $$\mu \pm \sigma$$, $$\mu \pm 2\sigma$$ e $$\mu \pm 3\sigma$$. Questi sono solo  alcuni dei valori, ci sono delle tabelle per qualsiasi deviazione dal valore medio. Il perché del fatto compaia questo $$\pm$$ è dovuto al fatto che la distribuzione e’ simmetrica attorno al valore medio.

Arriviamo ora alla parte più affascinante, e che ci fa capire anche perché questa distribuzione sia ”normale”. C’è un teorema, che si chiama teorema del limite centrale, che afferma che la media di un grande numero di variabili aleatorie, indipendenti e dotate della stessa distribuzione, è approssimata dalla distribuzione normale, indipendentemente dalla natura della distribuzione a cui realmente appartengono. Questo risultato mostra che nonostante sia molto difficile capire quale distribuzione di probabilità segua una determinata variabile, come ad esempio l’altezza degli individui che vedevamo prima, se abbiamo a disposizione molti ”eventi” allora siamo certi che la distribuzione che meglio approssima quella ”vera” è la distribuzione gaussiana. E questo ci spiega perché si chiama anche ”normale”, perché se abbiamo sufficienti eventi, normalmente sono descritti dalla distribuzione gaussiana. Ovviamente ci sono molte sottigliezze in cui non voglio addentrarmi in questo momento, ma per menzionarne una: quanto grande deve essere il campione? In generale si ritiene che più la distribuzione di partenza si pensi differisca dalla gaussiana, più il campione deve essere grande. Un valore  che si utilizza generalmente e’ 30.  Inoltre se non si conosce la deviazione standard vera, essa viene approssimata da $$\sigma_{x_{\mu}}=\sigma_{x}/\sqrt{N}$$ dove $$N$$ è il numero di variabili aleatorie e $$\sigma_{x}$$ è la migliore approssimazione della deviazione standard. Quest’ultimo risultato e’ di estrema importanza nella stima degli errori di misura.

La distribuzione gaussiana quindi non ha solo un valore accademico, ma è usata quotidianamente per descrivere moltissimi fenomeni, dalle misurazioni ai sondaggi.

Se volete farvi un’idea di quanto sia utile per interpretare delle statistiche aprite qualche risultato dei censimenti ISTAT!

CC BY-NC-SA 4.0
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.