Riceviamo e molto volentieri pubblichiamo questo contributo scritto da Fabrizio Morlando.

Fabrizio è ricercatore presso il C.I.R.A. – Centro Italiano Ricerche Aerospaziali di Capua, dove si occupa di aerodinamica numerica. Si è laureato in Matematica presso la Seconda Università degli Studi di Napoli e ha conseguito il Dottorato di Ricerca in Matematica presso l’Università di Roma Tre. Ha pubblicato libri di poesie e di racconti brevi. La divulgazione scientifica è la sua avventura più recente.


La fine della teoria: il futuro della conoscenza è algoritmico?

Nel 2015, il fisico Angelo Vulpiani pubblicava su Math is in the Air una critica metodologica  all’uso incondizionato dei Big Data, rivolta in particolare contro la tesi del guru informatico Chris Anderson (Wired, 2008): con abbastanza dati, sosteneva Anderson, il metodo scientifico diventa obsoleto, le teorie diventano superflue, la correlazione è sufficiente.

Vulpiani replicava con strumenti matematici precisi: la correlazione non è causalità; in sistemi complessi il numero di osservazioni necessarie a mantenere una densità informativa costante cresce esponenzialmente con il numero di variabili, rendendo il puro induttivismo strutturalmente insufficiente. I dati, da soli, non parlano.

A distanza di un decennio, l’avvento dei Large Language Models e dell’Intelligenza Artificiale Generativa sembra aver spostato il confine del possibile. Un’analisi attenta mostra però che le leggi della statistica e della complessità non sono cambiate: sono semmai diventate più visibili, e più urgenti. La prima novità radicale rispetto al 2015 riguarda il cambio di obiettivo dei sistemi di IA.

Fino ad allora il paradigma dominante era predittivo: usare i dati per stimare un valore, come il prezzo di un’azione o la probabilità di pioggia. I grandi modelli linguistici (ChatGPT, Claude, Gemini e i loro successori) fanno qualcosa di qualitativamente diverso: generano struttura nuova, siano testi, codice, immagini o sequenze biologiche.

Addestrati su miliardi di esempi con il solo obiettivo di prevedere la parola successiva, mostrano capacità che sembrano intelligenza. La spiegazione è che il linguaggio umano contiene già, incorporata, una quantità enorme di conoscenza strutturata sul mondo: una statistica sufficientemente raffinata riesce a ricavare struttura dalla superficie. Anderson avrebbe potuto esultare.

Ma le previsioni di Vulpiani rimangono valide proprio nel punto più critico: le cosiddette allucinazioni, fatti inventati con piena sicurezza, citazioni inesistenti, eventi mai accaduti, derivano esattamente dal fatto che il modello ottimizza la somiglianza al testo vero, non la sua verità. La fragilità emerge non appena il modello opera in zone dello spazio vettoriale scarsamente coperte dai dati di addestramento, confermando la maledizione della dimensionalità che Vulpiani aveva descritto. Un secondo sviluppo, apparentemente più dirompente, riguarda la previsione meteorologica.

Dal 2022 modelli neurali come Pangu-Weather di Huawei e GraphCast di Google DeepMind eguagliano la qualità dei migliori centri fisici europei producendo previsioni in pochi secondi anziché ore di calcolo distribuito. Sembrerebbe la smentita definitiva.

Ma il dettaglio decisivo è che questi modelli non sono stati addestrati su dati grezzi di stazioni meteorologiche: sono stati addestrati su ERA5, un archivio di analisi climatiche prodotto dal Centro Europeo per le Previsioni Meteorologiche che è esso stesso il frutto di decenni di equazioni differenziali, fisica dell’atmosfera e teoria applicata. La rete neurale ha imparato a imitare l’output di un sistema che già incorpora la teoria.

Quest’ultima non è scomparsa: si è nascosta nei dati di addestramento. E le debolezze emergono puntualmente negli eventi estremi, le tempeste eccezionali, le ondate di calore record, dove la storia passata non offre abbastanza esempi e dove la fisica sarebbe più utile della statistica. La novità paradigmatica più rilevante del decennio è forse la scoperta che dati e teoria non si escludono, ma si possono ibridare in modo produttivo.

AlphaFold di DeepMind, nel 2021, ha risolto il problema del protein folding, aperto da cinquant’anni, usando reti neurali costruite nel rispetto della geometria fisica delle molecole: le distanze tra gli atomi, le simmetrie della chimica, i vincoli termodinamici. Le Physics-Informed Neural Networks (PINN) portano lo stesso principio in modo sistematico: invece di dare alla rete solo dati grezzi sperando che capisca tutto da sola, le si forniscono anche le equazioni fisiche parzialmente note. Il risultato è un sistema che apprende più velocemente, generalizza meglio e produce risultati più affidabili.

È precisamente ciò che Vulpiani invocava: la teoria aiuta a selezionare le variabili rilevanti, a “buttare via” il rumore, a orientare l’apprendimento verso ciò che conta davvero. 1Due fenomeni più recenti confermano le premesse originali in modo che nel 2015 era difficile immaginare. Il primo è il model collapse: poiché oggi una quota crescente di testi sul web è generata da IA, i nuovi modelli vengono addestrati sui dati prodotti dai loro predecessori.

Gli errori si amplificano, la varianza statistica decresce, e il sistema converge verso una media progressivamente priva di significato. Senza l’apporto di dati reali e di un modello teorico esterno, l’informazione tende al degrado entropico, conferma in scala industriale della tesi che i dati, senza una fonte di verità, non bastano a sostenere la conoscenza. Il secondo fenomeno è la questione del bias algoritmico: il problema della distinzione tra correlazione e causa, già centrale nel 2015, è diventato urgente perché i modelli vengono ora usati per decisioni concrete, concessione di credito, selezione del personale, priorità cliniche.

Un sistema addestrato su dati storici replica e amplifica le ingiustizie del passato senza che nessuno le abbia programmate esplicitamente. La correlazione era sufficiente per imparare il bias. La ricerca sul ragionamento causale nei modelli di IA è oggi un cantiere aperto e prioritario.

Se Vulpiani rileggesse oggi il suo articolo del 2015, troverebbe le previsioni matematiche sostanzialmente confermate e troverebbe, al tempo stesso, sviluppi che allora erano difficili da anticipare: la velocità con cui le reti neurali si sono rivelate utili in biologia, fisica, chimica e meteorologia, non perché abbiano sconfitto la teoria, ma perché hanno imparato a collaborare con essa in modi nuovi.

La vera lezione del decennio non è la vittoria dei dati sulla teoria, ma la scoperta di una collaborazione inedita tra i due. Passare dai Big Data agli Smart Data, selezionati e strutturati con criterio teorico, rimane l’unica via per evitare di annegare in un mare di correlazioni senza senso.

La teoria è diventata meno visibile. Non meno necessaria. Riferimenti bibliografici • Vulpiani, A. (2015). Qualche osservazione sui limiti dell’uso dei Big Data. Math is in the Air.

CC BY-NC-SA 4.0
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.