fabiodivino

Pubblichiamo questa intervista al Prof. Fabio Divino, professore associato di statistica, probabilità e metodi computazionali  presso l’Università degli Studi del Molise e membro del gruppo StatGroup-19 che in questo periodo sta sviluppando modelli sulla diffusione del Coronavirus.  Pensiamo sia un modo per offrire ai nostri lettori un approfondimento sull’emergenza che ha colpito l’Italia in questo periodo.

 

 


covid19

1. Di che cosa si occupa nel suo lavoro di ricerca?

Mi sono formato in statistica presso le università di Roma e poi di Firenze, ma ho da subito ulteriormente ampliato la mia formazione in matematica e computer science presso il “glorioso” Istituto per le Applicazioni del Calcolo “Mauro Picone” IAC-CNR di Roma. In tal senso, i miei interessi di ricerca hanno sempre riguardato aspetti computazionali della statistica applicata. In particolare i miei campi di applicazione principali sono le scienze ambientali ed ecologia insieme all’epidemiologia e demografia. Da un punto di vista metodologico ho lavorato soprattutto su problemi di “conteggio”, ovvero problemi in cui il fenomeno di interesse si manifesta in termini di “numero di casi”, il tutto formalizzato in modelli complessi come le reti probabilistiche Bayesiane e i metodi computazionali Markov Chain Monte Carlo (MCMC).

2. Che cosa è il gruppo StatGroup–19 di cui fa parte? Cosa sta facendo in questo periodo per studiare l’evoluzione del Coronavirus Covid19?

Il gruppo StatGroup-19 è nato circa una settimana fa, in una forma del tutto spontanea e di dovere civico. Al crescere dell’attenzione e preoccupazione da parte dell’opinione pubblica sulla questione coronavirus, insieme ai colleghi Alessio Farcomeni (Università Tor Vergata di Roma), Giovanna Jona Lasinio (Università di Roma La Sapienza), Gianfranco Lovison (Unversità di Palermo) e Antonello Maruotti (Università LUMSA, Roma) abbiamo deciso di mettere a disposizione della comunità scientifica le nostre competenze. Il tutto per contribuire ad arrivare ad una lettura più chiara del fenomeno e con l’obiettivo di offrire informazioni utili ai decisori. La nostra attività è con spirito totalmente collaborativo, aperto a critiche e suggerimenti ma soprattutto alle interazioni scientifiche con altri gruppi.

In questo momento i nostri studi sul coronavirus, con i dati di popolazione ufficiali, sono rivolti in diverse direzioni. La principale è quella di studiare i trend su dimensione nazionale, soprattutto in riferimento ai “nuovi casi identificati di Covid19”. Questo per offrire previsioni consistenti dal punto di vista statistico, con la fondamentale valutazione dell’incertezza. Da pochi giorni, con la disponibilità di dati più dettagliati, abbiamo iniziato a studiare il fenomeno anche su scala regionale, ampliando l’attenzione su altri aspetti che nei prossimi giorni potrebbero diventare di assoluta rilevanza: lo studio dei casi di ospedalizzazione (care cases) e i casi di terapia intensiva (intensive care cases). Ci interesserebbe anche lavorare su un aspetto molto importante, la stima del numero di casi non diagnosticati, che però non può al momento essere affrontato con i dati pubblicamente disponibili.

3. Rispetto al normale modo di fare ricerca, cosa comporta per voi del gruppo StatGroup-19 sviluppare modelli in cui, a causa dell’emergenza, diventa importante l’esigenza di risposte in tempi veloci?

Questo è un aspetto molto interessante soprattutto alla luce del fatto che il gruppo StatGroup-19 è nato in modo spontaneo, senza una piattaforma di lavoro specificatamente organizzata. La nostra organizzazione è tutta in una chat in cui intuizioni matematiche e riflessioni filosofiche si mescolano con la nostra quotidianità. Inoltre i tempi di reazione alle informazioni e ai nuovi dati devono essere molto veloci, per cui spesso si sorvola su dettagli matematici e si lavora più con tecniche di approssimazione. Ad esempio abbiamo usato un bootstrap non-parametrico per la stima degli intervalli di confidenza, invece di derivare formalmente gli standard error (ad esempio col metodo della varianza totale). Ogni mattina ci diamo un programma di massima di lavoro, e durante la giornata ci si confronta con prove, simulazioni e nuove stime. Nella tarda serata, spesso nottata, si fanno riflessioni più sul piano concettuale con nuove idee per il giorno seguente. E’ un’esperienza davvero interessante dal punto di vista scientifico e umano.

4. Che cosa è il fattore $$R_0$$ e perché è così determinante che sia un numero vicino ad 1?

Il numero di riproduttività di base (basic reproductive number), il famoso $$R_0$$, è una misura della “velocità” con cui un processo epidemico si diffonde in una popolazione completamente suscettibile, e rappresenta il numero atteso di nuovi contagi per ogni contagio conclamato. Questa quantità, nella sua forma più semplice, ha la seguente rappresentazione matematica:

$$R_0=P \cdot C \cdot D$$,

dove $$P$$ rappresenta la probabilità che una persona contagiata possa contagiarne un’altra in una fissata unità di tempo, $$C$$ è il numero medio di contatti che un individuo ha nella stessa unità di tempo, e $$D$$ è il periodo medio in cui un individuo positivo può contagiare altri individui.

Chiaramente se $$R_0>1$$, il contagio è in espansione poiché ogni contagiato sostituisce se stesso nel processo epidemico con più di un individuo; tanto più $$R_0$$ è grande, tanto più il contagio si diffonde rapidamente, con effetti sul sistema sanitario nazionale di un paese. Al contrario se $$R_0<1$$, il processo di contagio inizia a svanire in forma progressiva. Il caso in cui $$R_0=1$$, indica un contagio costante (endemico) nella popolazione ma non espansivo.

In una fase di emergenza per un nuovo patogeno, in cui non sono disponibili vaccini e medicinali, si può agire su $$R_0$$ solo agendo su $$C$$. In tal senso, per provare a ridurre e fermare la diffusione di un epidemia, l’unica possibilità per l’Autorità nazionale di Salute Pubblica è provare a ridurre il numero $$C$$ con decisioni cosiddette di “restrizione della socialità” nella popolazione.

5. In base ad dati attuali, qual è la attuale stima del fattore $$R_0$$ per l’Italia? E’ possibile una stima regionale del fattore $$R_0$$ e, in tal caso, quali regioni hanno i fattori $$R_0$$ più alti e più bassi?

E’ importante notare che il fattore $$R_0$$ varia nello spazio, ma anche nel tempo, sia per ragioni legate al numero di soggetti guariti nella popolazione, che per caratteristiche stesse del virus (che può essere più o meno contagioso dipendentemente ad esempio da clima).

In questo momento, la parzialità dei dati non ci consente di fare affermazioni consistenti sulla stima di $$R_0$$, possiamo dire che è compreso tra 2 e 3. Altri gruppi di studio hanno fatto delle stime, e sono in linea con la nostra valutazione. Anche se è possibile stimare $$R_0$$ a livello regionale, ovviamente  a maggior ragione in questa fase non è possibile fornire stime affidabili.

6. Quali sono i modelli che attualmente si stanno usando per prevedere l’evoluzione dell’epidemia?

Questo è un punto fondamentale che caratterizza il nostro studio e fa emergere la nostra formazione in statistica. Per prevedere l’evoluzione di una epidemia sarebbe necessario usare modelli compartimentali, di tipo SIR o SEIR ad esempio. Purtroppo non abbiamo informazioni sufficienti per procedere in questo modo.

Abbiamo quindi usato modelli specifici per dati di conteggio per analizzare l’evoluzione dei processi di nuovi casi identificati, di casi di ospedalizzazione, di casi di terapia intensiva, di casi di decesso, di casi di guarigione.

Un processo di conteggio è caratterizzato dal fatto che la sua distribuzione probabilistica si evolve nel tempo non solo in media ma anche in varianza, ovvero con una dinamica di dispersione oltre a quella di tendenza. Semplificando molto, le epidemie generalmente hanno una fase iniziale a crescita lineare, una secondaria a crescita esponenziale, un picco (che può essere sostenuto per un certo periodo di tempo), e una fase di decrescita. Naturalmente non sono esclusi, purtroppo, picchi secondari e forme più complesse.

Nella fase secondaria, su scala logaritmica, i processi di conteggio epidemici possono essere quindi analizzati con modelli lineari. Questo approccio però implica di fatto forzare il conteggio a diventare una variabile continua “deformando” così il suo comportamento probabilistico. Faccio un esempio, indichiamo con $$Y_t$$ il processo indicizzato sul tempo $$t$$, se studio la trasforma $$log(Y_t)$$ come funzione lineare del tempo $$t$$, di fatto sto ipotizzando che il termine di errore abbia una distribuzione di tipo “white noise”, come ad esempio il caso parametrico del modello Gaussiano. Formalmente:

$$ log(Y_t)=\beta_0+\beta_1 t + e_t$$,

con $$e_t \sim N(0, \sigma)$$, dove $$N(0, \sigma)$$ è la distribuzione Gaussiana standard. In questa formulazione $$Y_t$$ è stato di fatto trasformato in un processo log-Gaussiano, con una distribuzione probabilistica omoschedastica, cosa che quasi mai un processo di conteggio mostra. Questa rappresentazione, molto utile per la semplicità di calcolo (si può risolvere con il metodo dei minimi quadrati ad esempio), può essere adottata localmente solo per previsioni di breve termine poiché di fatto nella fase previsiva si deve scambiare l’operatore di logaritmo con quello di valore atteso, infatti in genere si ha $$ E[log(Y_t)]=\beta_0+\beta_1 t$$ da cui

$$ exp(E[log(Y_t)])=exp(\beta_0+\beta_1 t)$$

che si semplifica in

$$ E[Y_t]=exp(\beta_0+\beta_1 t)$$

solo scambiando gli operatori che indicavo sopra. In tal senso è più appropriato lavorare su modelli specifici dei processi di conteggio come la regressione di Poisson o la regressione Binomiale Negativa (1,2). Con questo approccio specifico, in genere si modellizza in funzione lineare del tempo la trasformazione logaritmica del valore atteso $$E[Y_t]$$. Tale trasformazione rappresenta il legame canonico con la funzione di regressione in un modello probabilistico di Poisson, che è il tipico modello per eventi rari (1). Di fatto anche la regressione Binomiale Negativa (2) è formalizzata con la stessa relazione su scala logaritmica in quanto il modello probabilistico è la marginalizzazione di un modello Gamma-Poisson. Questo vuol dire che in aggiunta al termine di regressione di Poisson, si include nel modello un ulteriore effetto casuale con distribuzione Gamma per tener conto di potenziale sovradispersione dei dati. Il modello Binomiale Negativo è particolarmente utile per studiare processi epidemici nella fase iniziale, in cui il protocollo di rilevazione dei dati è soggetto a continue variazioni, introducendo di fatto ulteriore dispersione.

Un aspetto molto rilevante per una adeguata modellizzazione dei processi di conteggio riguarda la “contestualizzazione” dei conteggi stessi. Ovvero includere nel modello una grandezza che dia informazione sulla popolazione probabilistica da cui i conteggi sono osservati. Tutto ciò avviene introducendo quello che viene detto offset del modello. Faccio un esempio molto semplice in riferimento al coronavirus. Quando viene comunicato il numero giornaliero di nuovi casi identificati, a quale popolazione tali casi si riferiscono in termini probabilistici? Si potrebbe pensare, la popolazione italiana. No, in questo caso la popolazione di riferimento è quella formata dalle persone a cui è stato fatto il tampone. Allora un modo opportuno di rendere relativa l’informazione del conteggio osservato è introdurre come offset nel modello di regressione il numero dei tamponi giornalieri, in scala logaritmica nel caso del modello di Poisson.

Per quanto riguarda più specificatamente il modello da noi utilizzato nell’analisi di conteggi rispetto a vari aspetti del coronavirus, abbiamo adottato un approccio a due passi cercando di approssimare le due fasi con cui generalmente si individua un “caso”: screening e diagnosi. In questa situazione epidemiologica, il processo di screening è in forma di auto-screening: gli individui potenzialmente positivi si auto selezionano rivolgendosi alle autorità di sanità pubblica, con una piccola parte di soggetti che invece vengono raggiunti direttamente dalle autorità per le ragioni più varie. Il processo di diagnosi, invece, avviene per controllo tramite tampone.

Nel primo passo stimiamo il numero di tamponi giornalieri utilizzando un modello INAR(1), ovvero un modello autoregressivo di ordine 1 per dati di conteggio (3). Il numero di tamponi rappresenta in qualche forma il numero di persone positive allo screening. Nel secondo passo, si stima il numero di nuovi casi sintomatici identificati giornalieri, condizionatamente al numero di tamponi effettuati utilizzato come offset. In questo passo, utilizziamo un modello di regressione Binomiale Negativo, per tener conto dell’alta sovradispersione dei dati di conteggio.

Altri gruppi di studio con cui siamo in contatto utilizzano modelli diversi ma altrettanto validi. In tal senso va precisato che in questa fase iniziale, se da un lato ogni approccio (concettualmente corretto) è utile per cogliere aspetti specifici del fenomeno, tutti i modelli proposti sono soggetti a dover essere interpretati con una forte cautela a causa della parzialità delle informazioni disponibili e della forte incertezza sottostante i processi generatori dei dati osservati.

7. Esistono modelli che tengono conto anche della diffusione spaziale oltre che di quella temporale di una epidemia? Come si stanno applicando al caso Italiano?51aFL-wMN8L

Esiste ormai una vasta letteratura sui modelli per lo studio della distribuzione spaziale di una malattia o di una epidemia, quelli che in letteratura si indicano con disease mapping models (4). Al momento però è ancora prematuro utilizzare questo tipo di analisi sui dati italiani. Infatti, per poter essere applicati in modo consistente dal punto di vista statistico, i dati con dettaglio geografico devono comunque essere osservati sulla dimensione temporale per un periodo di tempo sufficiente a mostrare pattern significativi.

8. Può indicare ai nostri lettori dei link per approfondire questi modelli?

Più che indicare link specifici, per un introduzione ai modelli spaziali in epidemiologia posso suggerire il testo di Andrew Lawson: Bayesian Disease Mapping: Hierarchical Modeling in Spatial Epidemiology (5).

Bibliografia

(1) McCullagh and Nelder (1989): Generalized Linear Models. CRC Press.

(2) Hilbe (2012): Negative Binomial Regression. John Wiley & Sons.

(3) Weiss (2018): An Introduction to Discrete-Valued Time Series. John Wiley & Sons.

(4) Lawson et al. eds (1999): Disease mapping and risk assessment for public health. John Wiley & Sons.

(5) Lawson (2018): Bayesian Disease Mapping: Hierarchical Modeling in Spatial Epidemiolog. CRC Press.

CC BY-NC-SA 4.0
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.