Apriamo il nostro blog alla collaborazione di esperti del mondo universitario e non su tematiche specifiche. Iniziamo con una serie di contributi sui “Big Data”.
Qualche osservazione sui limiti dell’uso dei Big Data
di Angelo Vulpiani (Dipartimento di Fisica, Università Sapienza di Roma)
La cosa più pratica è una teoria che funzioni (Ludwig Boltzmann)
È un fatto innegabile che viviamo in mondo globalizzato con un’enorme produzione di dati (circa 300 miliardi di e-mail ogni giorno tanto per dare un’idea). Sicuramente avere a disposizione una grande mole di informazioni può essere utile, ed i Big Data sono una risorsa importante in diversi ambiti, ad esempio per la sicurezza, per le assicurazioni o per aumentare l’ efficienza della aziende.
Secondo alcuni saremmo addirittura di fronte ad una nuova rivoluzione scientifica; la possibilità di estrarre conoscenza attraverso l’analisi di grandi moli di dati avrebbe creato un quarto paradigma, una nuova metodologia scientifica che si aggiungerebbe alle tre già esistenti: il metodo sperimentale, l’approccio matematico e quello computazione (simulazioni numeriche).
Il guru informatico Chris Anderson è arrivato a sostenere che
ormai la grande quantità di dati a disposizione rende il metodo scientifico obsoleto… i petabyte ci consentono di dire ”la correlazione è sufficiente”, possiamo smettere di cercare modelli:
non è più necessario studiare teorie generali, prendiamo i dati da Internet, cuciniamoli al computer (magari con software scaricato dalla rete) ed avremo tutto quello che ci serve.
A prima vista potrebbe sembrare che, con la possibilità di avere a disposizione un’enorme mole di dati, si possa realizzare il progetto induttivistica di Francis Bacon in cui la scienza dovrebbe partire solo dall’analisi dei dati su cui costruire le teorie. Questo modo di vedere le cose è concettualmente molto primitivo. A mio avviso, è opportuno non esagerare l’importanza dei Big Data, che, almeno nell’ambito della ricerca, non sembrano aver avuto finora un impatto sostanziale.
Ci sono molti esempi che mostrano (se ce ne fosse bisogno) come la correlazione non sia affatto sufficiente; eccone due decisamente divertenti: la correlazione tra il numero di pirati e la temperatura media sulla terra, la correlazione tra il consumo di cioccolata pro capite ed il numero di premi Nobel in un dato paese!
Russell mise in ridicolo l’induttivismo ingenuo con la storiella del tacchino induttivista. Un tacchino, appassionato di epistemologia e seguace di F. Bacon, decise di formarsi una visione del mondo scientificamente basandosi solo sulle osservazioni: il primo giorno osservò che gli veniva portato il cibo alle 9 di mattina. Notò poi che questo si ripeteva indipendetemente dal tempo meteorologico e dal giorno della settimana. Dopo molte osservazione concluse che una legge della Natura è che i tacchini vengano nutriti tutti i giorni alle 9 di mattina; l’ inferenza induttiva si rivelò falsa alla vigilia di Natale…
In termini meno ironici possiamo citare una famosa frase (ovviamente non nota al tacchino) di Poincaré che non ha bisogno di particolari commenti
La scienza è fatta di dati come una casa è fatta di pietre. Ma i dati non sono scienza più di quanto un mucchio di pietre sia una casa.
L’idea di usare la conoscenza del passato per capire il futuro nasce dall’ osservazione della regolarità di molti fenomeni; lo dice anche la Bibbia:
Ciò che è stato sarà e ciò che si è fatto si rifarà; non c’è niente di nuovo sotto il sole (Ecclesiaste).
Il problema delle previsioni
Discutiamo brevemente il problema delle previsioni, vedremo come un approccio puramente empirico (cioè basato solo sui dati osservativi) spesso è destinato a fallire. La situazione più semplice è quella in cui sappiamo che il fenomeno che vogliamo studiare è descritto da un vettore $${\bf x}(t)$$ la cui evoluzione deterministica è una legge nota (tipicamente un’equazione differenziale). In questo caso, almeno a livello concettuale, la procedura è semplice: dobbiamo “solo” determinare lo stato iniziale e risolvere (numericamente) le equazioni di evoluzione.
Consideriamo ora il caso, non infrequente, in cui sappiamo che la legge di evoluzione è di tipo deterministico, ma non la conosciamo, in compenso sappiamo qual è il vettore $${\bf x}(t)$$ che descrive il fenomeno. Per fare una previsione del futuro si potrebbe pensare di cercare nel passato una situazione ”vicina” a quella di oggi, se la si trova al giorno k allora è sensato assumere che domani il sistema sarà ”vicino” al giorno k + 1.
In termini un po’ più formali data la serie $$({\bf x}_1, {\bf x}_2, …., {\bf x}_M)$$, $${\bf x}_j={\bf x}(j \Delta t)$$ (ove $$\Delta t$$ è il tempo di campionamento), si guarda il passato e si cerca un analogo, ovvero un vettore $${\bf x}_k$$ con $$k < M$$ ”abbastanza vicino” (cioè tale che $$|{\bf x}_k- {\bf x}_M| < \epsilon$$, ove $$\epsilon$$ indica il grado di accuratezza desiderato), una volta trovato si ”predice” il futuro ai tempi $$M + n > M$$, semplicemente assumendo per $${\bf x}_{M+n}$$ lo stato $${\bf x}_{k+n}$$. Con questa precedura si può anche provare a costruire un’equazione di evoluzione $${\bf x}_{j+1}={\bf f}({\bf x}_j)$$ ove la funzione $${\bf f}(\,\,)$$ è ottenuta dai dati con un’opportuna procedura di ottimizzazione.
Sembrerebbe tutto facile, in particolare ora che siamo nell’era dei Big Data e quindi (almeno secondo C. Anderson), utilizzando i dati a disposizione potremmo permetterci di non perdere tempo con la teoria. Tuttavia non c’ è nessun motivo particolare per credere che sia sempre possibile trovare un analogo; notava L.F. Richardson:
… the Nautical Almanac, that marvel of accurate forecast, is not based on the principle that astronomical history repeats itself in the aggregate. It would be safe to say that a particular disposition of stars, planets and satellites occurs twice. Why then should we expect a present weather map to be exactly represented in a catalogue of past weather?
Da un punto di vista matematico il problema di trovare un analogo è strettamente collegato al teorema di ricorrenza di Poincaré: un sistema deterministico, con uno spazio delle fasi limitato, dopo un certo tempo ritorna vicino alla sua condizione iniziale.
Quindi l’ analogo sicuramente esiste, ma dobbiamo porci una domanda pratica: quanto
indietro si deve andare per trovarlo? La risposta, sostanzialmente intuita da Boltzmann nel suo acceso dibattito con Zermelo sul problema dell’ irreversibilità, è un risultato ben noto (ed abbastanza semplice) della teoria matematica dell’ergodicità. A parte sistemi non molto interessanti (quelli periodici), il tempo di ritorno dipende dalla condizione iniziale, è quindi necessario un approccio probabilistico: il tempo medio di ritorno in una regione $$A$$ è proporzionale all’ inverso della probabilità $$P(A)$$ che il sistema si trovi in $$A$$:
$$\langle T_R \rangle = {\tau \over P(A)} \,\,,(1)$$
ove $$\tau$$ è un tempo caratteristico. Il risutato precedente è chiamato lemma di Kac (dal nome del matematico polacco Mark Kac). Per capire quanto sia difficile osservare la ricorrenza, e quindi trovare un analogo, consideriamo in un sistema di dimensione $$D$$ (per la precisione se il sistema è dissipativo $$D$$ è la dimensione frattale dell’ attrattore) la probabilità $$P(A)$$ di stare in una regione $$A$$ che in ogni direzione ha un’estensione percentuale $$\epsilon$$ è proporzionale a $$\epsilon^D$$, quindi $$\langle T_R \rangle \sim\epsilon^{-D}$$. Se $$D$$ è grande (diciamo oltre 6 − 7) già per precisioni non enormi (ad esempio 5%, cioè $$\epsilon= 0.05$$) il tempo di ritorno è talmente grande che in pratica non si osserva la ricorrenza (o equivalentemente non si trova un analogo).
Nella realtà la situazione è ancora più complicata, infatti tipicamente non solo non è possibile scrivere esplicitamente le equazioni, ma non si conoscono nemmeno le variabili “giuste”, e molto spesso non sappiamo neanche se il sistema evolve con regole deterministiche o stocastiche. In questi casi si ha solo la serie temporale di una certa quantità $$u_1, u_2, …., u_M$$ ove $$u_j=u(j \Delta t)$$ e si vuole risalire alle “variabili giuste” che descrivono il sistema.
Questo problema, a livello formale, è stato risolto (almeno in parte) negli anni 80 dal matematico olandese Floris Takens: se il sistema è deterministico e M è abbastanza grande è possibile “ricostruire lo spazio delle fasi” con il vettore $${\bf y}_j^{(d)}$$ ottenuto con il metodo dei ritardi:
$${\bf y}_j^{(d)}= (u_j, u_{j-1}, …. , u_{j+1-d})$$ (2)
dove $$d$$ è ottenuto con una procedura per tentativi successivi. Il risultato di Takens, pur concettualmente molto importante, non sempre risolve i problemi pratici: puo` essere utilizzato solo se il sistema è deterministico, inoltre il valore di $$d$$ dipende dal sistema (è proporzionale a $$D$$), quindi se la dimensione è grande, per il lemma di Kac, si deve avere un $$M$$ enorme. La serie temporale per quanto sembri lunga non è in grado di trovare analoghi appena $$D$$ supera il valore di 6 − 7.
Anche nel caso in cui il sistema è retto da leggi stocastiche, nella sostanza le cose non cambiano. Infatti si devono affrontare le stesse difficoltà viste nel caso deterministico: se le variabili in gioco sono molte non sarà possibile fare previsioni (in questo caso di tipo probabilistico) e neanche costruire un modello. Per fissare le idee consideriamo il caso (molto semplificato) in cui sappiamo che per la variabile xt vale un modello autoregressivo:
$$x_{t+1}=a_1 x_t+ a_2 x_{t-1}+ … + a_m x_{t-m+1} +a_0w_t \, ,$$ (3)
ove $$w_t$$ è un processo gaussiano scorrelato nel tempo a media nulla e varianza uno e le costanti $$(a_0, a_1, … , a_m)$$ sono da determinare dai dati. Ovviamente per trovare $$(a_0, a_1, … , a_m)$$ si deve avere una buona statistica del vettore
$$y_t^{(m)}=(x_t, x_{t-1}, … , x_{t-m+1})\,\, ,$$ (4)
per il lemma di Kac, se m è grande, tipicamente c’è bisogno di una serie storica enorme. E` facile convincersi che la quantità in (4) è la versione stocastica del vettore $${\bf y}_j^{(d)}$$ ed $$m$$ ha un rulo simile a d nel caso deterministico.
Solo nei casi in cui $$a_j$$ decade molto rapidamente con $$j$$, e quindi si può troncare la serie $$(a_0, a_1, … , a_m)$$ ad un m non troppo grande, il metodo ha speranza di funzionare. Notiamo che nella (3), oltre all’ipotesi sul carattere gaussiano del processo (che spesso non è verificata), si assume la stazionarietà nel tempo. In molti casi interessanti tale ipotesi è manifestamente non valida. Ad esempio nella finanza è chiaramente falsa: mettere insieme, in una serie temporale, gli ultimi 50 anni del mercato del carbone (o gli ultimi 5 per i computer o i telefoni) non ha alcun senso.
Le previsioni meteo
Discutiamo brevemente come si fanno le previsioni meteo. L’idea di base dell’approccio attualmente usato (che venne proposto negli anni 20 da Richardson) e che ora sembra ovvio, è il seguente: l’atmosfera evolve in accordo con le equazioni dell’ idrodinamica (per i campi di velocità u, densità ρ, pressione $$p$$, percentuale di acqua s e temperatura $$T$$) e la termodinamica che specifica la relazione (equazione di stato) tra ρ, $$T$$, $$s$$ e $$p$$. Quindi dalla conoscenza dello stato presente dell’ atmosfera, risolvendo sette equazioni alle derivate parziali (tre per la velocità u, e poi quelle per ρ, $$p$$, $$s$$ e $$T$$) si può (almeno in linea di principio) effettuare una previsione del tempo. Ovviamente le equazioni in questione non possono essere risolte con carta e penna, quindi un approccio numerico è l’unica possibilità.
Per la realizzazione del progetto visionario di Richardson si dovrà aspettare fino agli anni 50 con lo sviluppo di tre “ingredienti” assolutamente non banali:
a) la messa a punto di equazioni efficaci;
b) algoritmi numerici veloci;
c) computer per i calcoli numerici.
I punti b) e c) non hanno bisogno di particolari commenti, il punto a) è interessante per
capire la necessità di un uso non banale della matematica per descrivere un fenomeno fisico complesso. Charney ed i suoi collaboratori notarono che le equazioni originariamente proposte da Richardson, benché corrette, in pratica non sono adatte per le previsioni meteo; il motivo (apparentemente paradossale) è che sono troppo accurate, infatti descrivono anche moti ondosi ad alta frequenza che sono irrilevanti in ambito meteorologico. E’ quindi necessario costruire equazioni efficaci in cui non compaiono le variabili veloci. L’introduzione della procedura di filtraggio, che separa la parte meteorologicamente significativa da quella insignificante, ha un chiaro vantaggio pratico:
le instabilità numeriche sono meno severe e quindi si può usare un passo di integrazione ∆t relativamente grande, questo permette calcoli numerici molto più efficienti. L’approccio in termini delle equazioni originali non solo è numericamente difficile, ma è anche poco utile a livello concettuale: infatti solo con le equazioni efficaci per la dinamica lenta è possibile individuare gli aspetti più rilevanti che invece rimarrebbero nascosti in un’ipotetica descrizione (troppo dettagliata) in termini delle equazioni originali.
L’esempio delle previsioni meteo mostra chiaramente come, per un problema non banale, sia decisamente troppo ottimistico sperare di trovare un formalismo matematico gia` confezionato, oppure puntare solo sull’ uso dei dati osservativi a disposizione, ma sia necessaria una combinazione di tecniche matematiche, intuizione fisica e sviluppo tecnologico.
L’ idea secondo la quale è sempre meglio avere più dettagli (o dati), a parte casi banali, è ingenua e fuorviante. In quasi ogni problema ci sono molti aspetti che sono irrilevanti (nel caso delle previsioni meteo le onde ad alta frequenza); la prima cosa (forse la più difficile e importante) da fare è identificare la parte significativa del fenomeno, solo così si ha qualche speranza di capire:
per pensare in modo corretto in primo luogo si deve capire cosa buttar via. Per andare avanti devi sapere cosa lasciar fuori, questa è l’ essenza del pensare in modo efficace (Kurt Godel).
E questa non è certo un’ opinione isolata; nel contesto della meccanica statistica Onsager e Machlup hanno sottolineato la difficoltà di individuare il giusto ”stato del sistema” con il caveat: come sai che hai preso abbastanza variabili per avere un processo Markoviano?
In modo del tutto simile è stato notato da Ma che
la domanda nascosta della termodinamica è: non sappiamo quante coordinate sono necessarie per specificare completamente uno stato di equilibrio.
Qualche referenza
* C. Anderson The End of Theory: The Data Deluge Makes the Scientific Method Obsolete http://www.wired.com/2008/06/pb-theory/
* F. Cecconi, M. Cencini, M. Falcioni and A. Vulpiani The prediction of future from the past: an old problem from a modern perspective American Journal of Physics 80, 1001 (2012)
* F. Cecconi. M. Cencini e F. Sylos Labini Si può prevedere il futuro? Le Scienze 538, 32 (giugno 2013)
* J.G. Charney On a physical basis for numerical prediction of large-scale motions in the atmosphere J. Meteor. 6, 371 (1949)
* J.G. Charney , R. Fjortoft and J. von Neumann Numerical integration of the barotropic vorticity equation Tellus 2, 237 (1950)
* A. Dahan Dalmedico History and Epistemology of Models: Meteorology as a Case Study Archive for History of Exact Sciences 55, 395 (2001)
* V. Fraccaro Un diluvio di dati Le Scienze 568, 71 (dicembre 2015)
* P. Greco La nuova scienza dal mare dei big data Left, 77 (21 novembre 2015)
* T. Hey, S. Tansley and K.Tolle The Fourth Paradigm: Data-Intensive Scientific Discovery (Microsoft Research 2009)
* F. Ieva, P. Secchi e S. Vantini Big Data: la prossima sfida della statistica Lettera Matematica 93, 27 (2015)
* M. Kac On the notion of recurrence in discrete stochastic processes Bull. Am. Math. Soc. 53, 1002 (1947)
* S.K. Ma Statistical Mechanics (World Scientific, Singapore, 1985)
* E.N. Lorenz Atmospheric predictability as revealed by naturally occurring analogues J. Atmos. Sci. 26, 636 (1969)
* P. Lynch The Emergence of Numerical Weather Prediction: Richardson’s Dream (Cambridge University Press, 2006)
* L. Onsager and S. Machlup Fluctuations and irreversible processes Phys. Rev. 91, 1505 (1953)
* M. Rasetti I Big Data: rivoluzione tra scienza e conoscenza www.isi.it/big- data-the-revolution-of-science-and-knowledge-by-mario-rasetti-in-oxygen-in-italian/
* L.F. Richardson Weather Prediction by Numerical Process (Cambridge University Press, 1922)
* S. Tibaldi Che tempo farà? Le Scienze 538, 42 (giugno 2013)
* A. Vulpiani Problemi e limiti delle previsioni Le Scienze 538, 36 (giugno 2013)
* A. Vulpiani Lewis Fry Richardson: scienziato visionario e pacifista Lettera Matematica 90, 23 (2014)
* A.S. Weigend and N.A. Gershenfeld (Curatori) Time Series Prediction: Forecasting the Future and Understanding the Past (Addison-Wesley, 1994)
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Articolo molto interessante.