Ciao in questo post, vorrei raccontare l’analisi dei dati di un esperimento che mi capitò di fare un po’ di tempo fa e che credo sia interessante sia per il metodo statistico sia per qualche inatteso risultato che richiede qualche riflessione e non deve farci dimenticare che dietro l’analisi di dati sperimentali c’è la fisica (o qualunque altra disciplina sperimentale) con i suoi modelli, capaci o meno di spiegare dei fatti.
Il contesto della prova
Per fissare le idee immaginate di dover studiare un processo di produzione composto da tre fasi di lavorazione in ognuna delle quali il prodotto subsisce delle trasformazioni; immaginiamo che la fase 1 determini la larghezza del nostro prodotto, la fase due determini il peso e la resistività, la terza fase la profondità.
Immaginiamo anche che I processi di lavorazione che intervengono in ogni fase siano processi fisici e chimici controllati da particolari variabili, ad esempio: Il risultato della lavorazione della fase 1 (la dimensione del prodotto) dipende dalla tensione utilizzata nello strumento, per cui aumentando la tensione ottengo prodotti di dimensioni inferiori. La fase 2 è caratterizzata da una pressione e da una temperature e la fase 3 da una corrente. Riassumo in tabella:
Resta inteso che questa descrizione del processo non è di per se importante ma solo esemplificativa.
Descritto in questi termini il nostro processo, ci poniamo la domanda: cosa accade se modifico la pressione della fase 2? Mi devo aspettare che il peso e/o la resistività del nostro prodotto debbano cambiare, ma non so ne’ come ne’ quanto.
Questa descrizione del processo produttivo non è altro che un modello che lega alcune variabili di ingresso (le variabili di controllo degli strumenti di lavoro) a delle variabili di uscita (le caratteristiche del prodotto); come tutti i modelli ha dei limiti, delle relazioni di secondo ordine non evidenziate. Per studiare queste relazioni faccio quindi qualche esperimento. Ad esempio produco alcuni pezzi (supponiamo 44 pezzi, questi pezzi andranno a formare la popolazione 1) con una pressione p1 durante la fase 2 ed altri (ancora 44 che formeranno la popolazione 2) con un’altra pressione p2, sempre nella fase 2. Alla fine del processo misuro tutte le caratteristiche dei pezzi prodotti: larghezza, peso, resistività e profondità. Mi domando: la popolazione 1 e la popolazione 2 sono differenti in almeno una delle ceretteristiche del prodotto?
Gli strumenti Statistici utili al caso
Gli studiosi di statistica hanno affrontato il problema descritto prima: date due popolazioni campionarie (ovvero campioni estratti da due esperimenti) le medie sono uguali o sono diverse?
Per affrontare il problema si costruisce la variabile Z:
$$Z=\frac{(\overline{X_1}-\overline{X_2})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}$$
Dove $$n_1$$ e $$n_2$$ sono il numero di campioni presi per la popolazione 1 e 2 ed analogamente $$\mu_1, \mu_2,\sigma_1 e \sigma_2$$ sono le medie e sigma delle due popolazioni.
Se le popolazioni iniziali da cui estraiamo I campioni sono normali, la variabile Z ha una distribuzione normale standardizzata. In realtà anche non conoscendo la distribuzione iniziale la variabile Z avra’ sempre una distribuzione normale se I campioni estratti dalle due popolazioni sono indipendenti e sufficientemente ampi (solitamente piu’ di 40 campioni). In molti casi, della popolazione iniziale non conosciamo neanche le sigma; in questo caso il precedente test viene modificato sostituendo alle varianze la varianza campionaria combinata.
$$t=\frac{(\overline{X_1}-\overline{X_2})-(\mu_1-\mu_2)}{\sqrt{S_p^2*(\frac{1}{n_1}+\frac{1}{n_2})}}$$
dove $$S_p=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{(n_1-1)+(n_2-1)}$$ e $$S_1$$ ed $$S_2$$ sono le varianze delle due popolazioni campionarie.
La variabile t ha una distribuzione t di student con con $$n_1+n_2-2$$ gradi di liberta’. Costruita questa variabile, le possibilita’ che abbiamo sono due:
ipotesi H0: $$\mu1=\mu2$$
e l’ipotesi alternativa H1: $$\mu_1\neq\mu_2$$.
Se H0 fosse vera allora la differenza fra le due medie campionarie dovrebbe collocarsi intorno a zero e la probabilità di allontanarsi dallo zero diminuisce in base alla dispersione delle distribuzione della differenza delle medie campionarie. Quindi per valutare se l’ipotesi H0 è realistica procediamo in termini operative nel seguente modo: 1) supponiamo che H0 sia vera 2) calcoliamo in questa ipotesi il corrispondente valore di t 3) dal valore di t, tramite la distribuzione di student con $$n_1+n_2-2$$ gradi di liberta’, calcoliamo qual’e’ la probabilità di ottenere quell valore (p-value). Se la probabilita’ e’ alta (siamo nella parte central della distribuzione) allora l’ipotesi H0 sembra esser confermata, mentre se la probabilita’ di ottenere il valore di t e’ bassa allora H0 probabilmente non sara’ vera.
Solitamente si fissa un limite’ di accetabilita’ del 5%, per cui se, nell’ipotesi H0, la differenza delle medie campionarie ha una probilita’ di accadere inferiore al 5% si decide che H0 non e’ vera e le due medie sono differenti.
Ovviamente un probabilita’ bassa non significa che sia impossibile l’evento; per questo quando decidiamo che l’ipotesi H0 e’ falsa (ovvero che le medie delle due popolazioni sono differenti) perche’ la differenza delle medie campionarie ha una probabilita’ di accadere inferiroe al 5%, non e’ detto che abbiamo indovinato, C’e’ un possibile errore. Nel test delle ipotesi ci sono due possibili errori alfa e beta.
L’errore alfa consiste nel rifiutare l’ipotesi H0 quando in realta’ e’ vera.
L’errore beta si verifica se si accetta l’ipotesi H0 quando invece e’ falsa.
Applichiamo il metodo Statistico
Con questo strumento ci accingiamo allora a valutare I dati del nostrio esperimento. A livello operative vediamo cosa abbiamo, come procedere e cosa aspettarci:
- Abbiamo 44 prodotti realizzati con il processo standar (pressione p1 e popolazione 1) e 44 prodotti realizzati con il processo sperimentale (pressione p2 e popolazione 2)
- Misuriamo le 4 caratteristriche dei prodotti cioe’ dimensione, peso, resistivita’e profondita’ per tutti gli 88 campioni.
- Per ogni caratteristica misurata confrontiamo con il metodo precedente se le medie del processo standar e di quello sperimentale sono uguali o meno;
- Cosa ci aspettiamo? che le caratteristiche influenzate dalla pressioni generino due popolazioni differenti mentre le caratteristiche dei prodotti che non risentono della variazione di pressione generino due popolazioni confrontabili.
Riassumo di seguito I dati ottenuti riportando direttamente il p value del confronto e la differenza delle medie (trial2-trial1):
Cosa troviamo dai dati:
- le larghezze ottenuta nelle due popolazioni campionarie non sono differenti. Questo e’ appunto un risultato atteso perche’ secondo il nostro modello la larghezza del prodotto non e’ influenzata dalla pressione
- Il peso e la resistivita’ sono correttamente differenti nei due esperimenti: il modello prevedeva che la pressione influenzasse queste due caratteristiche del prodotto. Possiamo anche capire che il peso e’ poco influenzato dalla pressione mentre la resistivita’ lo e’ molto di piu’. Sarebbe necessario a questo punto calcolare quella che si chiama sensitivity di un variabile di uscita verso una di ingresso. Questo si fa solitamemte con un fit lineare (ci sono fit piu’ complessi se si ritiene necessario), ma per avere un fit significativo si devono avere almeno tre punti ed esplorare un opportune range di variabilita’. Solo per esempio (ripeto non significativo) riporto il fit della Resistivita’, supponento che la variazioni di pressione dell’esperimento sia stata di 2 bar; il fit ci dice che aumentando la pressione del mio processo di un 1 bar la resistivita’ aumentera’ di circa 0.8 Ohm/mm^2
- La profondita’ e’ statisticamente differente fra le due popolazioni. Ma questo elemento costituisce una novita’, perche’ nel nostro modello la profondita’ non dipende dalla pressione.
Interpretazione del dato Anomalo
Come leggere il dato anomalo che e’ venuto fuori del nostro esperimento?
Penso si possano proporre due risposte: 1) il modello che abbiamo usato nel descrivere il nostro processo produttivo non e’ corretto e trascure delle relazioni importanti fra la pressione e la profondita’ dei prodotti 2) statisticamente le due popolazioni campionarie sono differenti ma cio’ e’ dovuto solo ad un caso estremamente sfortunato, che mi ha fatto pescare I campioni solo sulle code “lontane” delle due distribuzioni naturali del processo standar e di quello sperimentale (errore di tipo alfa), distribuzioni che in relta’ sono uguali.
Nessuna delle due risposte sembra convincente: la prima mette in dubbio un modello consolidato da migliai di prove e studi. La seconda risposta sarebbe possibile, anche se chiaramete poco probabile.
Sarebbe sicuramente opportuna una conferma del risultato ripetendo l’esperimento. Questa strada pero’ ha dei costi: di lavorazioni, di tempo e materiali, e quindi non sempre e’ una strada percorribile.
Un’altra strada potrebbe esser di studiare la normale distribuzione della profondita’ per la produzione standard. Riportando la profondita’ ottenuta su un po’ di produzione si ottiene questa distribuzione:
Come si vede la Profondita’ dei prodotti si puo’ suddividere in due gruppi (blue e rosso). LA popolazione standard ha quindi “naturalmente” una doppia popolazione (una gaussiana con due picchi) che potrebbe mettere in crisi la valutazione statistica. Infatti tornando ai dati “anomali” dell’esperimento la profondita’ dei due trial risulta differente solo perche’ I dati appartengono alle due “sottopopolazioni”. E questo “sdoppiamento” non e’ legato al trial sulla pressione ma al fatto che normalmente la profondita’ ha una doppia popolazione. La fisica e’ salva, la statistica ci aveva visto bene ed io vi saluto, alla prossima.
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Ancora nessun commento