Epidemics Carmine Spagnuolo cspagnuolo@unisa.it September 23, 2014
Background
Background Andamento e Strategie di mercato. Vogliamo aprire un nuovo punto vendita IKEA. Motori di ricerca. PageRank. Ricerca sponsorizzata e suggerimenti. Suggerire un borsa o l ultima versione di una nuovissima scheda video ad un cliente Amazon. Information Cascades. Tra due ristoranti, uno pieno e uno vuoto, quale scegliere? Network effects. FlappyBirds????????? Perché? (Tipping point, in sociologia ed economia.) Network structure. Conviene scegliere Brad Pitt o Dave Thompson (Tinky Winky - Teletubbies) per pubblicizzare un nuovo prodotto? Chi è il vero Boss nella serie Gomorra?
Background
Background Coppa del Mondo FIFA del 2010 - South Africa 2010 Vincono le Furie Rosse Javier López Peña e Hugo Touchette, School of Mathematical Sciences Queen Mary, University of London. Chi passa di più in una squadra? Qual è il modello di passaggio di una squadra? E possibile prevedere una squadra vincente in base al suo modello di passaggio? Grafo diretto e pesato, G = (V, E) dove V è l insieme dei giocatori ed E rappresenta il numero di passaggi tra due giocatori.
Background Centralità: misura l importanza di un giocatore nella rete. Il giocatore con la centralità più alta non è necessariamente il giocatore che riceve o effettua il maggior numero di passaggi. Ma è il giocatore che collega il maggior numero di altri giocatori. Centri della rete: i centri di una squadra sono i giocatori che hanno distanza minima da tutti gli altri giocatori. Un giocatore centrale è facilmente raggiungibile (con un solo passaggio). Perché la Spagna ha vinto? 1. La struttura delle reti rileva che i giocatori spagnoli hanno un elevato numero di passaggi, quasi il 40 per cento in più rispetto alla Germania e due volte rispetto l Olanda. 2. David Villa, capocannoniere del torneo, ha ricevuto in media 37 passaggi a partita, più di ogni altro attaccante del mondiale. 3. Il gameplay olandese è caratterizzato da un basso numero di passaggi tra i giocatori, la maggior parte dei quali destinati agli attaccanti. http://www.maths.qmul.ac.uk/ ht/footballgraphs/
Background - Web Fine del 1999 Andrei Broder (AltaVista Yahoo Google) e colleghi. Analisi successive mostrano la stessa struttura includendo anche le informazioni di Google e Wikipedia.
Background - Six Degrees of Separation Negli anni cinquanta Ithiel de Sola Pool (MIT) e Manfred Kochen (IBM) cercarono di provare la teoria matematicamente e formularono quindi la domanda: Dato un insieme di N persone, qual è la probabilità che ogni membro di N sia connesso a un altro membro attraverso k 1, k 2, k 3...k n collegamenti?. Per circa vent anni però nessuno riuscì a risolvere il problema in modo soddisfacente. (Wikipedia Sei gradi di separazione, Copia/Incolla) Nel 1967 il sociologo americano Stanley Milgram trovò un nuovo sistema per testare empiricamente la teoria, che egli chiamò teoria del mondo piccolo. Confermata nel 1998 da Duncan Watts e Steven Strogatz in un articolo su Nature dal titolo: Collective dynamics of smallworld networks.
Background - Six Degrees of Separation Nel 2011, un gruppo di informatici dell Università degli studi di Milano, in collaborazione con due informatici di Facebook (FB), hanno mostrato sperimentalmente che in media il grado è 4.75.
Background - Six Degrees of Separation Robin Dunbar, psicologo evolutivo dell Università di Oxford afferma che: persone con 500 amici su Facebook hanno solo 26 relazioni di comunicazione reciproca; persone con 150 amici hanno circa 12 relazioni con comunicazione reciproca. Quindi meno del dieci per cento delle relazioni di Facebook sono amicizie strette. http://www.psychologytoday.com/
Background - Small-World Phenomenon
Epidemics - Motivazioni Siamo interessati a studiare come modellare le dinamiche di diffusione di un epidemia. La diffusione di virus ed epidemie è di grande interesse per Salute; Sociologi; Diffusione di idee e di influenza sociale; Hollywood. Il Contagio biologico è caratterizzato 1. proprietà patogene della malattia (fenomeni biologici) 2. e dalla rete di contatti (fenomeni sociali).
Rete di contatti - Definizione Un grafo G = (V, E) dove: V è l insieme delle persone; E è l insieme delle relazioni tra le persone, esiste un arco e = (v 1, v 2 ) sse la probabilità che v 1 e v 2 siano in contatto è maggiore di 0.
Rete di contatti - Motivazioni Modellare accuratamente la rete di contatti è di fondamentale importanza per lo studio della propagazione di una malattia. La struttura della rete di contatti cambia in funzione delle proprietà patogene della malattia (in particolare per la metodologia di trasmissione): Elevato livello di contagio grafo denso. Basso livello di contagio grafo sparso.
Contagio Sociale Chiaramente la diffusione di una malattia è simile alla diffusione delle idee nei social networks: la malattia e le idee passano da persona a persona; la struttura della rete di contatti è molto simile. Contagio Sociale Studio della diffusione delle idee.
Contagio Sociale Differenze tra contagio biologico e contagio sociale: 1. Il processo con il quale ogni persona è infettata; 2. Le persone possono scegliere di adottare o meno una nuova idea; 3. II processo di infezione nelle malattie è molto complesso e spesso si sceglie una strategia casuale: Ogni persona è infettata con una certa probabilità p.
Modelli di propagazione casuali
Branching Processes Il primo modello che studiamo è il più semplice possibile: Ogni persona trasmette la malattia con una probabilità p di contagio indipendente; Supponiamo che una persona contagiosa incontra al più k persone; La struttura della rete di contatti è un albero radicato in un nodo infetto.
Branching Processes Rete di contatti per k = 3 Il modello è suddiviso in fasi, inizialmente solo una persona è contagiata: Fase 1: k persone infettate; Fase 2: k k = k 2 persone infettate; Fase i-esima: k i persone infettate. (Una persona viene infettata con probabilità p indipendente da tutti gli altri casi di contagio)
Branching Processes 0 < p < 1
Branching Processes 0 p < 1
Branching Processes Terminazione: Se in una certa fase i nessuna persona è infettata la procedura termina; Altrimenti continua (le fasi continuano potenzialmente all infinito).
Branching Processes Considerazioni: Una persona infettata alla fase i può essere infettata solo da persone infettate nella fase j: j < i; Vogliamo studiare la diffusione della malattia; per com è definita la procedura sono possibili due casi: La procedura termina in numero finito di passi e la malattia viene debellata; La procedura continua all infinito.
Branching Processes Studiamo i due casi valutando una certa quantità R 0 definita come Numero Riproduttivo di Base: valore atteso del numero di nuovi casi generati da un singolo individuo. La procedura termina in un numero finito di passi e la malattia viene debellata R 0 < 1 allora con probabilità p = 1 la procedura termina in un numero finito di passi; La procedura continua all infinito R 0 > 1 allora con probabilità p > 0 la procedura continua all infinito infettando almeno una persona per fase.
Branching Processes In altre parole: R 0 = p k, La procedura termina in un numero finito di passi e la malattia viene debellata R 0 < 1 la malattia non è in grado di replicarsi, ogni persona infetta genera meno di un nuovo caso atteso (anche se casuale la taglia degli infetti è destinata a decrescere); La procedura continua all infinito R 0 > 1 la malattia è dura a morire con probabilità 0 < p < 1: p < 1 allora è possibile che in una fase nessuna persona infetti e la malattia venga debellata; Notiamo che il caso R 0 = 1 significa che la malattia è endemica.
Branching Processes Notiamo che quando R 0 1 modificando valori di p o di k di una piccola quantità la propagazione della malattia cambia significativamente (Knife-Edge effect). Diminuendo k o p si incrementa notevolmente il benessere sociale. In particolare diminuendo il grado di contatto k si applica una metodologia di quarantena; se invece si applicano strategie di assistenza sanitaria o health best-practices si riduce il valore di p - Bisogna sempre lavarsi le mani :-).
Branching Processes Dimostriamo prima il caso R 0 < 1, definiamo: R 0 = p k, valore atteso infettati da una persona; q i, la probabilità che la malattia sopravvive per almeno i fasi, in altre parole qualche persona al livello i esimo dell albero diventa infetto; q, il limite di q i quando i, probabilità che la malattia persista all infinito. Vogliamo mostrare che se A R 0 < 1 allora q = 0 B R 0 > 1 allora q > 0 in pratica vogliamo far vedere che l epidemia dipende drasticamente da R 0 1.
Branching Processes A Vogliamo far vedere che se R 0 < 1 allora q = 0 (la malattia non sopravvive per i ) Notiamo che: Il modello utilizza la struttura albero quindi il numero di persone al livello i esimo per il fattore di contagio k è uguale a k i. Definiamo: X n variabile casuale che conta il numero di persone infette alla fase n; E[Xn ] il numero medio di persone infette alla fase n; per semplicità definiamo Xn = m Y nj dove Y nj è una variabile casuale che vale 1 se la j esima persona è infetta e 0 altrimenti (per m = k n contiamo il numero di persone infette alla fase n). j=1
Branching Processes Per la proprietà di linearità del valore atteso possiamo scrivere: E[X n ] = E[ m Y nj ] = m E[Y nj ]. j=1 Ogni singolo valore E[Y nj ] è facile da calcolare: E[Y nj ] = 1 Pr[Y nj = 1] + 0 Pr[Y nj = 0] = Pr[Y nj = 1]. Dobbiamo calcolare la probabilità che la j esima persona è infetta alla fase n: Una persona è infetta alla fase n se esiste un cammino radice/foglia-j in cui ogni nodo è infetto; La malattia si propaga in modo indipendente con probabilità p allora: Pr[Y nj = 1] = p n = E[Y nj ]. j=1 Alla fase n sono presenti m = k n persone allora: E[X n ] = p n k n = (pk) n = R n 0
Branching Processes Utilizziamo il precedente risultato E[X n ] = p n k n = (pk) n = R n 0 per dimostrare che se R 0 < 1 allora q = 0. Per definizione di valore atteso E[X n ] = 1 Pr[X n = 1] + 2 Pr[X n = 2] + 3 Pr[X n = 3] +... che possiamo scrivere anche come E[X n ] = Pr[X n 1] + Pr[X n 2] + Pr[X n 3] +... allora sicuramente E[X n ] Pr[X n 1] = probabilità che la malattia sopravviva per n fasi q n (E[X n ] = R n 0 e E[X n] q n ) R n 0 q n. Se R 0 < 1 per n, R n 0 0 quindi anche q n 0; Punto A dimostrato! :-)
Branching Processes B Se R 0 > 1 allora q > 0 E[Xn ] = R n 0, n anche Rn 0 : Non è sufficiente a dimostrare che q > 0; Potrebbe esistere una sequenza di variabili casuali: E[X n] ma Pr[X n > 0] 0. Ad esempio: Supponiamo che Pr[X n = 4 n ] = 2 n e Pr[X n! = 4 n ] = 0 allora E[X n] = ( 4 2 )n = 2 n, in questo caso E[X n] mentre Pr[X n > 0] = 2 n 0.
Branching Processes Per dimostrare il punto [B] dobbiamo studiare meglio la quantità q n : k, numero di contatti per individuo; p, probabilità di contagio; n, livello dell albero. La quantità q n può essere espressa in funzione di q n 1.
Branching Processes Consideriamo l evento E: la malattia si diffonde dalla radice a un nodo j e persiste per n fasi nei sottoalberi raggiungibili da j. La probabilità dell evento E è pq n 1.
Branching Processes Allora con probabilità 1 (pq n 1 ) il nodo j non è stato infettato alla fine di n fasi. Dato che ogni nodo viene infettato con probabilità p indipendente: (1 pq n 1 ) k è la probabilità che nessun nodo al primo livello venga infettato in n fasi. Notiamo che la probabilità (1 q n ) è la probabilità dell evento in cui la malattia non periste per n fasi: quindi (1 qn ) = (1 pq n 1 ) k, risolvendo per qn otteniamo che q n = 1 (1 pq n 1 ) k Se consideriamo che la radice è infetta con probabilità 1 ossia q 0 = 1 possiamo costruire la sequenza q 0, q 1, q 2, q 3,..., q n.
Branching Processes Non ci resta che studiare q 0, q 1, q 2, q 3,..., q n quando n. Definiamo f (x) = 1 (1 px) k allora q n = f (q n 1 ) Studiamo la sequenza 1, f (1), f (f (1)), f (f (f (1))),... :
Branching Processes R 0 > 1 Proprietà di f : f (0) = 0, f (1) < 1 f (x) = pk(1 px) k 1 x = 0, f (0) = R 0 (> 1) Le tre proprietà consentono di affermare che y = f (x) interseca y = x in qualche punto (x, x ), 0 < x < 1, q = x.
Branching Processes R 0 < 1
SIR La principale limitazione del modello Branching Processes è la struttura della rete di contatti. SIR è un modello che può essere applicato a qualsiasi struttura di rete; ogni individuo può assumere tre stati: SIR S : suscettibile, può contrarre la malattia; I : infetto, ha contratto la malattia e può diffonderla; R : rimosso, non è più infetto e non può essere più preso in considerazione. In questa versione non consideriamo che un individuo possa contrarre nuovamente la malattia.
SIR Inizialmente, alcuni nodi sono nello stato I mentre tutti gli altri sono in S; Ogni nodo v entra nello stato I e ci rimane per un numero fissato di step t I ; Durante t I step, ogni nodo infetto v infetta tutti i nodi vicini nello stato S con una probabilità p; Dopo t I step, un nodo v nello stato I passa allo stato R, ossia non è più malato o immune.
SIR Notiamo che il modello Branching Processes è un caso speciale di SIR con t I = 1 e rete di contatti pari ad un albero infinito.
SIR Anche se SIR è sufficientemente generale rimane un modello semplice per lo studio della diffusione di una malattia. Possibili estensioni: Migliorare la strategia di contagio: 1. utilizzare una differente probabilità p v,w per ogni coppia di nodi v, w per la quale esiste un arco; 2. differenti valori di probabilità per la generazione del numero di passi t I ; 3. introdurre una probabilità q di poter passare nello stato Rimosso in uno qualsiasi dei passi t I.
SIR Anche se SIR è sufficientemente generale rimane un modello semplice per lo studio della diffusione di una malattia. Possibili estensioni: Differenti stati di contagio: modellare il livello di contagio secondo differenti periodi della malattia, ad esempio R 0 = R STATO INIZIALE + R STATO INTERMEDIO + R STATO FINALE. Mutazione dell agente patogeno nel tempo (Michelle Girvan, Duncan S. Callaway, M. E. J. Newman, and Steven H. Strogatz, Simple model of epidemics with pathogen mutation, Physical Review 2002)
SIR - Rete di contatti Consideriamo il valore R 0 nel modello SIR: Supponiamo ad esempio che k = 2, t I = 1 e p = 2 3 R 0 = 2 3 2 = 4 3, R 0 > 1 allora q > 0 Se suddividiamo i nodi a due a due verticalmente, ogni coppia forma un livello e la malattia si propaga da livello a livello. Con probabilità (1 2 3 ) un nodo non viene contagiato. Quindi con probabilità ( 1 3 )4 = 1 81 tutti e quattro i link falliscono nel propagare la malattia. Questo semplice esempio dimostra che la struttura della rete di contatti determina fortemente la diffusione della malattia.
SIR - Statico Fino ad ora abbiamo studiato i modelli di propagazione in base ad una visione dinamica. Consideriamo adesso una visione statica del modello SIR: Valutiamo la dinamica SIR al tempo t I = 1; Al tempo t I = 1 un certo nodo v è infetto, v infetta un suo vicino w, che si trova nello stato S, con probabilità p indipendente.
SIR - Statico Al fine di ottenere una visione statica del modello: Possiamo studiare il precedente scenario come un evento casuale dove: Il nodo v contagia il nodo w se nel lancio di una moneta truccata esce testa; La moneta è tale che con probabilità p esce testa e con probabilità 1 p esce croce.
SIR - Statico Al fine di ottenere una visione statica del modello: Prima dell avvio della procedura possiamo lanciare una moneta per ogni arco e = (u, v) E : u, v V e memorizzare il risultato al fine di utilizzarlo in seguito. Definiamo che: un arco è aperto se la moneta ad esso associata vale testa; G (ti =1) = (E, V ) il grafo al tempo t I = 1 dove E = {e E t.c. e è aperto}, V = (V I V S ),V I = {tutti i nodi nello stato I al tempo t I = 1 }, V S = {tutti i nodi nello stato S al tempo t I = 1 }. Possiamo affermare che: Un nodo w V S può essere infettato durante la procedura sse esiste un cammino C = [v w] in G tale che v V I.
SIS, modello dove le persone possono essere reinfettate Semplice variante di SIR in cui le persone possono contrarre nuovamente la malattia: Inizialmente, alcuni nodi sono nello stato I mentre tutti gli altri sono in S; Ogni nodo v entra nello stato I e ci rimane per un numero fissato di step t I ; Durante t I step, ogni nodo infetto v infetta tutti i nodi vicini nello stato S con una probabilità p; Dopo t I step, un nodo v nello stato I passa allo stato S.
SIRS Una modifica interessante di SIR è il modello SIRS, il quale consente di studiare il caso di alcune malattie che presentano un numero oscillante di casi nel tempo in determinate popolazioni: Inizialmente, alcuni nodi sono nello stato I mentre tutti gli altri sono in S; Ogni nodo v entra nello stato I e ci rimane per un numero fissato di step t I ; Durante t I step, ogni nodo infetto v infetta tutti i nodi vicini nello stato S con una probabilità p; Dopo t I step, un nodo v nello stato I passa allo stato R per un numero fissato di passi t R. Terminati i passi t R il nodo torna nello stato S (come per t I il numero di passi t R può essere determinato in modo casuale).
SIRS - Small-world Il numero di passi t R rappresenta un periodo di immunità temporanea nella quale i nodi non possono contrarre la malattia né possono diffonderla, tale periodo di immunità modella le oscillazioni del numero di casi nella popolazione considerata. t R da solo non è sufficiente a modellare correttamente il fenomeno delle oscillazioni dato che si producono molte oscillazioni localmente distribuite. Un meccanismo semplice per meglio modellare il fenomeno delle oscillazioni è quello di aumentare il numero di connessioni long-range con una certa probabilità c. Marcelo Kuperman and Guillermo Abramson, Small World Effect in an Epidemiological Model, Physical Review Letters, March 2001.
SIRS - Small-world
SIRS (Small-world) L esperimento dimostra che: 1. Quando il parametro c è piccolo (= 0,01) il contagio è soprattutto a livello locale, nei cluster della rete; 2. Quando il parametro c è grande (= 0.9) le oscillazioni sono molto pronunciate dato che la malattia riesce a spostarsi velocemente nella rete; 3. Con l impostazione intermedia (= 0.2) vi è un comportamento oscillante alternato.
Transient contacts Malattie come HIV/AIDS per essere studiate richiedono un modello più flessibile: in questo modello consideriamo una rete dinamica nella quale gli archi della rete hanno un tempo di inizio e fine. Rete di contatti trasmissioni sessuali college.
Transient contacts La flessibilità ottenuta dalla rete di contatti dinamica consente anche di studiare la diffusione di idee nel caso in cui i link della rete rappresentano relazioni personali, lavorative, di amicizia etc. Possiamo rappresentare il grafo dinamico dei contatti etichettando gli archi con l intervallo di durata [INIZIO, FINE]. Notiamo che nello studio delle malattie tipicamente si considera il grafo non diretto. Mentre nello studio della diffusione di idee si considera il grafo come diretto.
Transient contacts Supponiamo il caso di t(i ) = 5: In figura (a), la malattia potenzialmente può diffondersi dal nodo u al nodo w e y, ma non al nodo x. In figura (b), dove il periodo di contatto degli archi (v, w) e (w, y) è stato modificato, il nodo u può diffondere la malattia solo al nodo v. Per il corretto studio di una malattia è di fondamentale importanza conoscere l ordine e il tempo dei legami che vanno a crearsi nella rete.
Transient contacts - Legami concorrenti La presenza di relazioni simultanee nella rete incrementa notevolmente la probabilità di diffusione della malattia. Supponiamo sempre il caso di t(i ) = 5: In figura (a), u non può diffondere la malattia se non a v; In figura (b), w è in contatto con v, y e x simultaneamente, adesso la malattia può diffondersi in tutta la rete.
Genealogia ed ereditarieta genetica I Mitochondrial Eve I I Rebecca Cann, Mark Stoneking and Allan Wilson, 1987 Affermano che tutti i legami genetici materni hanno un unico antenato comune, una donna che viveva tra 100.000 e 200.000 anni fa, probabilmente in Africa, che ha trasmasso il suo DNA mitocondriale.
Genealogia ed ereditarietà genetica Assumiamo che il DNA mitocondriale sia ereditato da una singola madre. DNA mitocondriale è il DNA collocato nei mitocondri, organelli interni alla cellula, che si ritiene che si siano evoluti separatamente. Nell uomo il DNA mitocondriale consta di 16569 paia di basi e 37 geni. Possiamo definire un modello che consenta di risalire al tempo in cui viveva l individuo definito Eva mitocondriale. Il modello è in grado di identificare il tempo in cui viveva ma non ci dice che era l unica femmina (o maschio).
Genealogia ed ereditarietà genetica Al fine di rendere il modello matematico più semplice da analizzare assumiamo inoltre che Il modello è adatto anche alla riproduzione asessuale e non solo ai legami dovuti al DNA mitocondriale; Ogni generazione è composta da N individui (assumiamo inoltre che la popolazione non possa crescere); Le generazioni sono completamente sincronizzate, la generazione composta da N individui al tempo t genera esattamente N individui al tempo t + 1; Ogni discendente è generato da un singolo genitore, selezionato casualmente e in modo uniforme (è chiaro che ogni genitore potenzialmente può avere più discendenti). Modello Wright-Fisher.
Genealogia ed ereditarietà genetica
Genealogia ed ereditarietà genetica
Riferimenti Easley David, Kleinberg Jon, Book, Chapter 21 - Epidemics, Networks, Crowds, and Markets: Reasoning About a Highly Connected World, 2010.