farcomeni_alessio

Pubblichiamo questa intervista ad  Alessio Farcomeni, professore ordinario di Statistica presso il dipartimento di Economia e Finanza dell’Università di Roma “Tor Vergata”.


statistics_cloud

Come è nata la sua passione per la statistica?

Come è giusto che sia: per caso. I miei genitori volevano facessi l’ingegnere, mentre io qualunque altra cosa. A fare l’iscrizione sono andato solo, e ho semplicemente scelto lo sportello con la fila più corta. Sono stato fortunato.

Circostanze a parte, la passione è nata conoscendo la disciplina nella sua parte più teorico/matematica, e si è consolidata applicandola.

Ci sono due aspetti generali della statistica che mi hanno conquistato.

Il primo è che permette di comprendere la realtà pur in un mare di incertezza, imprecisione, parzialità delle informazioni. Mi affascina il rigore matematico che rende comprensibili i fenomeni collettivi, e ogni volta mi meraviglio di come le osservazioni empiriche seguano la teoria.

Il secondo è che le possibilità applicative sono infinite. Come statistico ho avuto nel tempo la possibilità di lavorare in epidemiologia, medicina clinica, economia, finanza, biologia, genetica, ecologia, fisiologia, eccetera. E anche in ingegneria, con buona pace dei miei genitori. Ovviamente, di volta in volta, in collaborazione con esperti del settore. Ma quale disciplina permette tanta versalità? In un mondo iperspecializzato, lo statistico può dare un contributo a tutti.

Quali sono i suoi campi specifici di ricerca?

Faccio una premessa: per carattere e per circostanze legate alla mia carriera; anzichè dare pochi contributi di alto livello in un campo specifico, ne ho dati molti di medio livello in vari ambiti. Questa è peraltro una scelta, se di scelta si può parlare, che mi sento di non raccomandare: sarebbe sicuramente un bene se i ricercatori tipicamente facessero il contrario.

In ambito di metodologia statistica ho inizialmente lavorato sul problema dellalatent_markov molteplicità dei test di ipotesi, il cui principale campo applicativo è la genetica. Mi sono poi dedicato ai latent Markov models, uno strumento molto flessibile per l’analisi di dati panel (cioè riguardanti soggetti con misurazioni ripetute nel tempo). Contemporaneamente ho scoperto la statistica robusta. In particolare mi interessa come ottenere dei gruppi omogenei di osservazioni in presenza di contaminazione, e come identificare valori anomali. Un’altra area di ricerca che amo, e a cui mi sono avvicinato ormai dieci anni fa, riguarda metodologie per la stima di numerosità di popolazioni (cattura-ricattura o “multiple systemestimation”). Infine sto lavorando ultimamente molto sulla regressione quantilica. Da una parte credo che il valore atteso (eventualmente, condizionato) sia troppo centrale nelle applicazioni statistiche, in quanto potenzialmente fuorviante quando molte assunzioni non sono soddisfatte. Dall’altra, è un ambito di ricerca stimolante, perchè rinunciare al valore atteso significa non poter utilizzare molti strumenti matematici e computazionali convenzionali.

Ci sono altri ambiti inoltre su cui ho tentato di lavorare (un articolo, due articoli) ma con cui non c’è stato un feeling continuativo; e molti altri che mi interessano, e su cui spero in futuro di riuscire a lavorare da solo o in collaborazione.

Devo infine menzionare, quantomeno perchè parliamo di circa la metà della mia produzione scientifica, molti lavori in collaborazione nelle discipline elencate nella domanda precedente, in particolare in aree legate all’epidemiologia clinica.

Può spiegare ai nostri lettori il risultato scientifico da lei ottenuto di cui va più fiero?

Data la dualità della mia carriera come ricercatore, dovrò indicarne due.

Il contributo metodologico di cui vado più fiero è probabilmente quello descritto in questo articolo:

Farcomeni, A. & Scacciatelli, D. (2013) Heterogeneity and behavioural response in continuous time capture-recapture, with application to street cannabis use in Italy, Annals of Applied Statistics, 7, 2293-2314.

In questo lavoro introduciamo un approccio generale per la stima della numerosità di popolazioni quando il campionamento è in un intervallo di tempo. Possiamo tenere conto di fattori osservati, non osservati, effetti esogeni e comportamentali (cioè l’effetto del campionamento sul soggetto).

Per varie ragioni, solo uno o due di questi fattori erano gestibili simultaneamente negli approcci precedentemente introdotti, ma i dati spesso li mostrano tutti. La cosa elegante da un punto di vista matematico è che la stima, dopo un po’ di conti e con certe assunzioni, si vede essere una funzione del punto di massimo di una Zeta generalizzata (di Hurwitz). Non facendo alcune assunzioni, per trovare la stima abbiamo invece dovuto sviluppare un algoritmo numerico. Tutto questo lo abbiamo fatto per poter valutare il numero di persone che usavano/compravano/trasportavano abitualmente cannabis in strada in Italia (il risultato è 3.2 milioni, con standard error 90.000). I dati erano relativi ai fermati (eventualmente più volte) dalle forze dell’ordine in base al decreto Bossi/Fini. Il fatto che si possa arrivare a una stima attendibile sulla base di dati di convenienza è uno dei punti di forza di queste metodologie di cattura/ricattura.

Ne vado fiero perchè è un lavoro completo per uno statistico: c’è una motivazione metodologica (fornire un approccio molto più flessibile di quanto disponibile), una motivazione applicativa (monitorare quante persone utilizzano abitualmente cannabis in Italia), risultati teorici matematicamente eleganti, e la soluzione di problemi computazionali.

Il contributo applicativo a cui sono più legato è

Ferretti et al. (2009) MicroRNA profiling in human medulloblastoma, International Journal of Cancer, 124, 568-77

In questo lavoro si identificano i pattern di espressione di microRNA in diversi tipi di medulloblastoma, un tumore del cervelletto. E’ un lavoro senza implicazioni dirette sulla pratica clinica, identifica solo target potenziali per sviluppare nuovi trattamenti (cosa che è avvenuta poi negli anni successivi, da parte di altri gruppi di ricercatori).

Certamente ci sono altri contributi più direttamente importanti, e pubblicati su giornali più blasonati; ad esempio su strategie terapeutiche e indicatori prognostici per le polmoniti gravi, la fibrillazione atriale, la cirrosi epatica. Il lavoro sul medulloblastoma ha però un significato particolare per la prima riga di dati, che è stata una doccia fredda: data di nascita nel 2005, data del decesso nel 2008. Quella riga di dati mi ha motivato fino a fine carriera, credo.

covid-19-statgroup-2020

In questo periodo di pandemia, molti scienziati (e in particolare statistici come lei) hanno rivolto la loro indagine alle tematiche relative al Covid-19. Lei in particolare fa parte dello StatGroup-19 (segnaliamo per approfondire questa nostra intervista sul gruppo) . Qual è, dal suo punto di vista, lo specifico contributo che hanno potuto dare gli statistici rispetto ad altri scienziati?

Beh, le previsioni degli statistici, intanto, si sono per ora sempre avverate. Non si può dire lo stesso per quelle di altri scienziati.

E’ stato mantenuto il rigore metodologico, resistendo alla tentazione di fare affermazioni sulla base di analisi superficiali, non validate, o in cui l’incertezza fosse eccessiva.

Un altro contributo è stato probabilmente quello, ammetto poco simpatico, di far notare gli errori o la grossolanità nelle affermazioni o previsioni fatte da altri scienziati. Oltre a evidenti errori tecnici (uno su tutti, la regressione lineare sui log-conteggi), sono state fatte estrapolazioni a orizzonti temporali assurdamente lontani (da poco è uscito un articolo su Science che arriva al 2025!), assenza di una valutazione dell’incertezza, interpretazioni ed analisi che ignorano le fonti di bias, confronti non standardizzati, eccetera.

Un errore che sta facendo chi ha la fortuna di avere accesso ai dati individuali, inoltre, sembra quello di non correggere le stime per la strategia di campionamento “a valanga”. Questo credo sia un fattore determinante (non l’unico) nella preparazione di report ufficiali con previsioni eccessivamente catastrofiche.

Sarebbe stato bene che gli statistici fossero stati coinvolti di più nelle varie task force ministeriali.

Avrebbero potuto dare un grande contributo rispetto a certe debolezze che ancora abbiamo. Solo per fare un esempio, è urgente migliorare i sistemi di raccolta e gestione dei dati a livello nazionale (si veda su questo un recente editoriale della rivista Epidemiologia & Prevenzione), e questo è un lavoro da statistico.

Esempio di grafico generato dalla app creato dallo Statgroup-19

Esempio di grafico generato dalla app creata dallo Statgroup-19

Per l’urgenza del problema del Covid-19 c’è stata una accelerazione nelle pubblicazioni e negli studi sul tema. I tempi della ricerca, però, in genere sono più lunghi e, forse a causa dell’urgenza, sono stati pubblicati articoli che in periodo differenti forse non avrebbero passato così velocemente il vaglio della peer review. Qual’è la sua impressione su questo?

Credo questo evidente fenomeno (circa 2000 articoli a settimana sul Covid-19) non dia una bella immagine di una parte del dibattito scientifico. Ne abbiamo scritto proprio di recente con lo Statgroup-19 sul blog (link qui)  e su Facebook.

E’ un errore essere frettolosi da parte degli autori. Principalmente però il fenomeno è da imputarsi agli editor delle riviste scientifiche. La maggioranza di questi contributi verrà semplicemente ignorata. Il difficile è distinguere i contributi importanti e ben fatti da quelli frettolosi, visto che il problema è generalizzato e il prestigio del giornale non sembra affatto essere una garanzia di qualità. Il problema più grave, per l’influenza che hanno sulle scelte e sul dibattito pubblico, riguarda infatti articoli di scarsa qualità pubblicati su giornali molto blasonati e/o pubblicati da ricercatori afferenti a istituzioni prestigiose. Questo condiziona anche la ricerca futura, perchè è molto complesso fare una affermazione vera quando questa è contraddetta da una fatta precedentemente su un top journal.

I mesi passati ci hanno inoltre insegnato che le scelte a livello di policy vengono spesso prese sulla base di opachi rapporti interni, magari anche scritti da ricercatori di altissimo livello, ma che non hanno superato alcun processo di revisione. Questo credo sia anche peggio. Il compito dei comitati scientifici di consulto dovrebbe essere quello di sintetizzare, e non di produrre, evidenza. In questo il nostro CTS ha costantemente svolto un lavoro eccezionale, a mio avviso.

Avendo molta esperienza con la ricerca medica (e, avendo fatto parte di un comitato etico, con i processi di sperimentazione e approvazione delle terapie), mi sento però anche di poter dare un messaggio ottimista. Possiamo fidarci delle metodologie diagnostiche, dei farmaci per il trattamento ospedaliero (per ora, Remdesivir, eparina e desametasone), dei vaccini che verranno via via approvati. Suggerisco a tutti di installare la app Immuni, evitare luoghi affollati, mantenere la distanza fisica e limitare la durata delle interazioni in presenza, ventilare bene e frequentemente i locali quando si sta al chiuso in compagnia, usare le mascherine, e lavare le mani frequentemente.

Inoltre, raccomando di vaccinarsi per l’influenza e tenere in casa tachipirina, N-acetilcisteina, e un pulsiossimetro. In caso di sintomatologia non c’è bisogno di andare nel panico, solo di sentire il medico di base e di mettersi in isolamento. Non andrà tutto bene, ma certamente finirà. Facciamolo finire prima, e con meno danni possibile.

Fare divulgazione scientifica non è semplice. In questo periodo, nei mezzi di comunicazione e, in particolare sui social, c’è stato un proliferare di ricercatori che hanno condiviso analisi, ipotesi sul Covid-19. Ad un certo punto c’era l’impressione che chiunque sapesse fare un “fit” dei dati volesse dire la sua. Dall’altra parte però nel pubblico non sempre erano presenti le competenze di base per capire quello che veniva detto e discernere la fonte e la qualità delle diverse analisi. “Fare scienza”, inoltre, è un processo complicato e l’informazione tende a semplificare in modo eccessivo e a voler “offrire risposte certe” quando queste, specie per un problema nuovo come il covid-19, ancora non ci sono. Di fronte a queste problematiche, quale pensa che dovrebbe essere l’approccio più corretto al problema?

Schermata 2020-09-30 alle 09.10.42

Immagine tratta dalla pagina Facebook del gruppo RobBayes-19

A mio avviso qualunque gruppo di ricerca che voglia approcciarsi allo studio del Covid-19 deve includere almeno un ricercatore esperto di dati epidemiologici. Nel caso di StatGroup-19 è così: tutti e cinque, a vario titolo, abbiamo anni di esperienza con la biostatistica e/o epidemiologia.

Un altro esempio è Robbayes-C19.

Mi sta benissimo che chiunque (al netto ovviamente di affermazioni violente, offensive, razziste…) possa scrivere quello che vuole sui social. Mi sta benissimo finchè le affermazioni imprecise non si diffondono tramite condivisione, re-tweet, addirittura vengono riprese dalle testate online. Questo è esacerbato dal bias cognitivo per il quale non si è in grado di comprendere l’attendibilità di una notizia, ma la si fa propria se conferma un proprio preconcetto. Inoltre molte persone si informano sui social media.

Questa diffusione in malafede o buonafede di informazioni non precise, e persino di fake news e teorie strampalate, ha delle conseguenze enormi a livello mondiale. Credo sia importante intervenire. Lo dico come cittadino: non è certo il mio mestiere proporre soluzioni a un problema come questo.

Ingenuamente l’unica soluzione che mi viene in mente è chiedere ai social network di limitare la diffusione delle notizie in base alla loro attendibilità. Una analisi di dati che non ha una qualche ufficialità/credibilità dovrebbe poter essere visibile solo dai contatti diretti. Una fake news non dovrebbe poter essere visibile nemmeno ai contatti diretti. Le moderne tecniche di intelligenza artificiale (che poi non sono che un tipo di statistica inferenziale) permettono di fare in automatico gran parte della valutazione della attendibilità della fonte e/o di una affermazione, e persino della necessità di questa valutazione (che per molte cose scritte sui social non sarebbe necessaria). Mi rendo conto ad ogni modo che questo ha implicazioni etiche enormi, e che non è il mio mestiere proporre soluzioni di policy. Per cui, questo paragrafo dovrebbe essere leggibile solo dai miei contatti diretti, in base al mio ragionamento.

Insomma non ho una soluzione, ma mi pare evidente che c’è un problema, grave, che bisogna affrontare per poter progredire come società. Anzi, visto che è coinvolto anche il dibattito sul cambio climatico, per poter sopravvivere.

Pensa che sia necessario inserire nel bagaglio formativo di un ricercatore anche alcuni elementi di comunicazione scientifica? E, più in generale, pensa che la divulgazione possa essere un’attività che dovrebbe avere più spazio fra i compiti di un ricercatore per i benefici che potrebbe portare a lungo termine nell’opinione pubblica?

Assolutamente sì, ci sono una serie di soft skills che andrebbero insegnate durante il dottorato, e dovrebbero essere proposti corsi di aggiornamento periodicamente. In linea teorica la divulgazione fa già parte del lavoro di un ricercatore, ma ci sono diversi aspetti del mestiere che si è costretti a imparare da soli, o che più spesso si sceglie di trascurare. Discorso simile vale per la didattica: per qualcuno è una dote naturale, a qualcun altro farebbe bene un corso su come si insegna. Ed è vero anche il contrario: penso che sia necessario inserire nel bagaglio formativo di chi si occupa di comunicazione, a qualunque titolo, la scienza ed in particolare la statistica. A questo proposito si parla da molti anni di data journalism, con per altro alcuni bei risultati. Per non parlare del fatto che il ragionamento statistico, per la visione d’insieme e la capacità di valutare il rischio che dà, dovrebbe far parte della formazione di base dell’intera popolazione.

Una maggiore attività di divulgazione da parte dei ricercatori farebbe bene a tutti.

Per i ricercatori, sarebbe un modo per entrare in contatto con le necessità della società e quindi orientare meglio la propria ricerca. Inoltre, potrebbero dare visibilità alla propria ricerca spiegando perchè è utile, e questo potrebbe permetterne la diffusione e l’utilizzo (e attrarre finanziamenti).

Per il pubblico poter contare su delle voci autorevoli e chiare, con una visione d’insieme, mi sembra al momento prioritario. E’ sicuramente qualcosa che è mancato e ha lasciato spazio negli anni a voci poco attendibili, incompetenti, fuorvianti. Le scelte sbagliate, dovute a una visione della realtà sbagliata o a mancanza di strumenti, si pagano.

Terminano questa intervista chiedendole di consigliare ai nostri lettori un libro che per la sua bellezza suggerirebbe per avvicinarsi alla statistica o per scoprire aspetti meno noti di questa disciplina.

Date le mie personalità multiple, non sarei in grado di sceglierne uno. Ne elenco alcuni, con un po’ di pubblicità se mi è concesso.

Per avvicinarsi:

Huff, D. (2005) Mentire con le Statistiche. Monti & Ambrosinimentire_constatistiche

Vickers, A. (2009) What is a p-value anyway? 34 stories to help you actually understand statistics. Pearson

Per approfondire aspetti (tecnici) specifici:

Bartolucci, F., Farcomeni, A. and Pennoni, F. (2013) Latent Markov Models for Longitudinal Data, Chapman & Hall/CRC Press

Brown, H. and Prescott, R. (2015) Applied Mixed Models in Medicine, Wiley

Farcomeni, A. and Greco, L. (2015) Robust Methods for Data Reduction, Chapman & Hall/CRC Press

Imbens, G. W. and Rubin, D. B. (2015) Causal Inference for Statistics, Social, androbust_method_greco_farcomeni Biomedical Sciences. Cambridge University Press

Therneau, T. M. and Grambsch, P. M. (2000) Modeling Survival Data: Extending the Cox model. Springer

Silvapulle, M. J. and Sen, P. K. (2001) Constrained Statistical Inference: Inequality, Order, and Shape restrictions. Wiley

Rowe, D. B. (2003) Multivariate Bayesian Statistics. Models for Source Separation and Signal Unmixing. Chapman & Hall/CRC Press


Seminario sull’emergenza COVID-19 organizzato dalla scuola di economia di Tor Vergata con l’intervento del prof. Alessio Farcomeni

CC BY-NC-SA 4.0
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.