La mancanza di contatto reale tra la matematica e la biologia è una tragedia o uno scandalo o una sfida: è difficile decidere.” G.C. Rota, Matematico e Filosofo.

Lotka-Volterra.svg

Soluzioni dell’equazione di Lotka-Volterra

In questo articolo vogliamo dare una breve introduzione a delle relativamente nuove tecniche matematiche che trovano applicazione in biologia.
Non è difficile trovare modelli matematici nella biologi: le equazioni di Lotka-Volterra, dette anche equazioni preda-predatore, danno un modello di competizione tra le specie, mentre numerosi sono i modelli differenziali della dinamica delle popolazioni.
Questi modelli tuttavia sono deterministici e spesso inadeguati ad esprimere la complessità di modelli biologici avanzati.
Inoltre, con l’avanzare della biologia molecolare, l’inadeguatezza degli strumenti matematici finora utilizzati si è mostrata sempre di più.

Per questo motivo sono stati introdotti metodi di analisi probabilistica dei fenomeni oggetto di studio dei biologi molecolari. La natura degli oggetti che si studiano in questo campo fa sì che in i modelli che meglio descrivono i sistemi siano discreti, e dunque possono dare il via a considerazioni di carattere algebrico-geometrico.

Alcune nozioni di biologia

Omegon-Microscopio-BinoView-achromat-1000x-LEDSappiamo che le cellule che costituiscono un organismo contengono al proprio interno una lunga catena di informazioni chiamata DNA (Acido Deossiribonucleico), una sequenza di macromolecole divise su due strutture elicoidali. Le informazioni genetiche contenute nel DNA sono codificate in una successione di basi azotate: Adenina (A), Citosina (C), Guanina (G), Timina (T). Ogni sequenza su una delle due eliche determina univocamente la sequenza sull’altra, in quanto ciascuna base si lega esclusivamente alla sua complementare. Le coppie possibili sono (C,G) e (A,T).

watson_crick

Celebre immagine di Watson e Crick con il modello del DNA

Il DNA è in grado di codificare sequenze di amminoacidi, e dunque sintetizzare le proteine, catalizzatori naturali per i processi biochimici all’interno della cellula. E’ sorprendente notare che ogni cellula contiene una copia esatta del DNA dell’individuo, e dunque in teoria può sintetizzare ogni tipo di proteina, e tuttavia ciascuna cellula assolve a compiti specifici, sintetizzato solo alcune proteine.
La formazione di proteine avviene attraverso la sintetizzazione di amminoacidi, codificati in sequenze dette codoni, costituite da terne di basi azotate.
Le informazioni necessarie a costruire le proteine si trovano nelle sequenze del DNA dette geni. Il genoma umano contiene circa 30000 geni (e di questi conosciamo il funzionamento solo di una piccolissima parte).

Il processo di formazione di proteine per gli organismi eucarioti (le cui cellule sono dotate di nucleo), avviene dopo l’eliminazione di alcuni codoni dal genoma. I codoni eliminati vengono detti introni, mentre i rimanenti vengono detti esoni.

Modelli probabilistici

diceMultifaceCome abbiamo detto all’inizio, per venire incontro alle esigenze della biologia molecolare, è necessario introdurre dei modelli probabilistici (per una simpatica introduzione alla probabilità si può leggere l’articolo Probabilità al Ristorante Cinese pubblicato sempre sul nostro blog).
Una classe di modelli molto interessanti è costituita dalle catene di Markov a stati nascosti.
Abbiamo già parlato sul blog di catene di Markov (clicca qui per leggere l’articolo). Limitiamoci a dire cos’è una catena di Markov, senza darne una definizione formale:

Una catena di Markov è una successione di eventi che evolvono nel tempo, caratterizzati dal fatto che le probabilità di un dato al tempo n dipendono dall’evento accaduto al tempo n-1 (il precedente), ma non necessariamente dagli eventi nei tempi precedenti.

In realtà bisognerebbe darne una definizione molto più rigorosa, in quanto non è corretto dire che gli eventi evolvono nel tempo, ma dovremmo parlare di variabili aleatorie: ce ne occuperemo a tempo debito, quando approfondiremo anche gli aspetti matematici.

Un esempio classico di catena di Markov è rappresentato dalla rovina del giocatore.
Consideriamo due giocatori A e B con una quantità di denaro iniziale uguale.
I due giocatori devono lanciare due dadi: A vince 1€ e B perde 1€ se il risultato del primo dado è un numero dispari e contemporaneamente se il risultato del secondo dado è 1, 3 oppure 6; B invece vince 1€ e A perde 1€ se la somma dei risultati dei due lanci è un numero primo, oppure se la somma è 12. Nel caso in cui vincano entrambi, ad esempio se il risultato di entrambi i lanci è 1, dunque dispari, e la somma dei due farebbe 2, che è primo, nessuno dei due vince. Ogni lancio è dunque indipendente. Se $$X_n$$ è la quantità di denaro che possiede A dopo n partite, allora la probabilità che la quantità di denaro posseduta alla partita successiva, cioè $$X_{n+1}$$, dipende solo da $$X_n$$, ma non dalle partite precedenti. Questa è la proprietà di Markov.

TFA_catena_di_Markov_aperiodica

Esempio di grafo che rappresenta una catena di Markov

Ad una catena di Markov è associata una matrice, dette matrice di transizione, formata dalle probabilità di passaggio da uno “stato” all’altro (per esempio, la probabilità che A vinca 1€, oppure la probabilità che A azzeri il proprio capitale); dopo ogni partita la matrice di transizione cambia (ad esempio, se ad un certo punto A ha esattamente 1€, la probabilità che azzeri il suo capitale deve essere maggiore di zero, mentre se ad un certo istante A ha più di 1€, la stessa probabilità è nulla); inoltre alla catena di Markov è associato un vettore $$\underline{p}=(p_1,\dots,p_h)$$ delle probabilità iniziali, cioè $$p_i$$ è la probabilità lo stato iniziale della catena sia l’i-esimo.

Tra le catene di Markov, sono importanti le catene di Markov a stati nascosti. Si tratta di catene in cui alcuni “stati” non sono osservabili direttamente, ma influenzano l’evoluzione del sistema.
Una catena a stati nascosti è caratterizzata nel seguente modo:

      Un insieme $$\{n_1,\dots,n_k\}$$ di stati nascosti;
      Un insieme $$\{v_1,\dots,v_k\}$$ di stati nascosti;
      Il vettore $$\underline{p}=(p_1,\dots,p_h)$$ delle probabilità iniziali, con $$p_i$$ la probabilità che la catena parta dallo stato iniziale $$n_i$$.
      Le matrici $$T=(t_{ij})$$ ed $$E=(e_ij)$$ delle probabilità di transizione rispettivamente degli stati nascosti e degli stati “emessi”, cioè visibili.

Spieghiamo con un esempio come funziona una catena di Markov nascosta: si parte da uno stato nascosto $$x_1$$ “scelto” con un “dado” con $$h$$ facce, con le probabilità di ogni faccia descritte dal vettore $$\underline{p}$$. Ad $$x_1$$ è associata un’urna, dalla quale viene pescata una “pallina” segnata $$y_1$$, con probabilità data dalla matrice E, alla riga corrispondente a $$x_1$$. Dunque viene prodotto un nuovo stato nascosto lanciando il dado, stavolta con la probabilità data dalla riga corrispondente a $$x_1$$ della matrice T e si ripete il procedimento.

A questo punto possiamo indicare con $$\sigma=(\sigma_1,\dots,\sigma_n)$$ una successione di stati nascosti e con $$\tau=(\tau_1,\dots,\tau_n)$$ una successione di eventi visibili prodotta dagli stati nascosti. La probabilità di osservare proprio la sequenza $$\tau$$, in corrispondenza di $$\sigma$$ è data dal seguente monomio:

$$p_{\sigma\tau}=p_{\sigma_1}e_{\sigma_1\tau_1}t_{\sigma_1\sigma_2}\dots t_{\sigma_{n-1}\sigma_n}e_{\sigma_n\tau_n}$$

Dunque la probabilità di osservare una sequenza di stati visibili è data dal polinomio:

$$p_\tau=\sum_\sigma p_{\sigma\tau}$$

Il riconoscimento dei geni

Un modello a stati nascosti può essere usato per il riconoscimento dei geni. Qui gli stati nascosti sono costituiti dalle coppie introne-esone, mentre gli stati visibili sono i codoni. Possiamo così determinare delle sequenze di introni-esoni e delle sequenze di codoni osservabili e costruirne il relativo polinomio, per calcolare la probabilità che una certa sequenza venga effettivamente prodotta da una data cellula.

Polinomi e varietà algebriche

Un modello semplice basato su due stati {E,I}, produce un semplice polinomio omogeneo di grado 2:

$$x_0x_3-x_1x_2=0$$

Un tale polinomio definisce una varietà proiettiva, cioè un luogo geometrico di punti dello spazio che soddisfano l’equazione data.
In particolare, il modello a due stati, seleziona un sottoinsieme della varietà dato dai punti tali che:

$$x_i<1$$ e $$x_1+x_2+x_3+x_4=1$$

Possiamo definire più in generale le varietà proiettive, ma per ora ci limitiamo a dire che esse sono soluzioni di un certo numero di equazioni date da polinomi omogenei.

amoeba

Esempio di varietà algebrica detta “ameba”, che incontreremo nelle prossime puntate.

Il processo che ha portato alla costruzione del polinomio per il modello a due stati, può essere generalizzato e applicato alle catene di Markov a stati nascosti.
In questo modo è possibile determinare una relazione tra problemi di natura biologica e la geometria algebrica, cioè quella parte della geometria che si occupa di studiare le varietà algebriche e proiettive.

Questo articolo voleva essere un’introduzione ad un vasto argomento, presto proporremo degli approfondimenti che spieghino meglio il ruolo della geometria algebrica nello studio dei modelli biologici.

Per approfondire…

Se siete interessati ad approfondire alcuni aspetti trattati in questo articolo e non volete accontentarvi della prossima puntata, potete usare uno dei seguenti link:

CC BY-NC-SA 4.0
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.