M. R. Meiss, F. Menczer, A. Vespignani Structural analysis of behavioral networks from the Internet De Santis Roberto
La rete delle reti Successo di Internet Rete vista in termini di Fisicità Sistema complesso Applicazioni e reti virtuali 2
Com'è fatta la rete Internet? Problemi inerenti allo studio di Internet Mancanza di una componente di controllo centralizzato o che permetta di avere una visione globale Collezione di vari elementi di visione locale Traceroute Risultati Topologia controversa, ma nota a grandi linee Proprietà interessanti 3
Utilizzi della rete e comportamenti Struttura topologica della rete fisica e della rete virtuale sono indipendenti l'una dall'altra Perchè studiare le reti comportamentali? Miglioramento nella progettazione delle reti future Modellare meglio il traffico di Internet 4
Rilevare i comportamenti Server log Non basato su user-to-user interaction Flussi di rete IP, porte Cisco NetFlow Problema della privacy Campionamento dei pacchetti con frequenza 1:100 5
Scenario: la rete Abilene Progetto di Internet2 fine anni '90 Prestazioni elevate: 10Gbps sulle dorsali Università e centri di ricerca: centinaia di migliaia di utenti Mai congestionata 6
I dati raccolti: forma e preparazione Dati sottoforma di record (circa 30GB al giorno) Dettagli su sorgente e destinatario Tipo e quantità di dati scambiati Identificazione dei ruoli: client e server C = {i 1, i 2,, i Nc } S = {j 1, j 2,, j Ns } 7
Behavioral, functional, application graphs 8
Flussi osservati Osservazione di 24 ore il 14 Aprile 2005 625 milioni di flussi 258 milioni (41,3%) relativi al Web 82 milioni (13,1%) relativi ad applicazioni P2P 285 milioni (45,6%) relativi ad altro traffico (incluso network monitoring) Web 41,3% P2P 13,1% Altro 45,6% 9
Host osservati 15 milioni di host (considerando tutti i flussi): 5,82 milioni di client 11,1 milioni di server Considerando solo il flusso web: 3,97 milioni di client 0,68 milioni di server Considerando solo il flusso P2P: 0,71 milioni di client 0,14 milioni di server 10
Distribuzione degli edge rispetto ai traffici Behavioral graph Traffico web: 50.1 milioni di edge (38,0%) Traffico P2P: 7.89 milioni di edge (6,0%) Traffico di altro tipo: 54.9 milioni di edge (41,6%) Web 44% Altro 49% P2P 7% 11
Degree overlap tra client e server Alcuni nodi fungono sia da client, sia da server Nel behavioral graph tali nodi compaiono due volte Grado di overlap tra gli insiemi C ed S: O= ( C S ) ( C S ) Valori rilevati nel behavioral graph Generico: O = 0,14 Traffico web: O = 0,013 Traffico P2P: O = 0,097 12
Statistiche sul traffico 1.85 TB di informazioni scambiate (in media 124 kb per host) Tenere in considerazione il campionamento 1:100 Web 25% P2P 6% Altro 69% 13
Confronto tra flusso e traffico Distribuzione del flusso Distribuzione del traffico Web 41,3% P2P 13,1% Altro 45,6% P2P 6% Web 25% Altro 69% 14
Studio della struttura del behavioral graph Degree di un nodo N d N =i+j dove i e j sono rispettivamente il numero di archi uscenti ed entranti Strength di un nodo N i s N = k =1 dove w N, N k j w N, N k + k=1 w N k, N è il peso dell'arco da N a N k Il degree di un nodo rispecchia la quantità di altri nodi con cui ha scambiato dati, mentre la strength si riferisce alla quantità di dati scambiati 15
Distribuzioni di degree e strength Decisioni individuali in una popolazione molto larga Distribuzione normale? Degree Strength Distribuzioni di tipo long-tailed (10 ordini di grandezza per strength) Distribuzione approssimabile con power-law per entrambe P(n) n γ 16
Distribuzione power-law P(n) n -γ A seconda del valore di γ si ha una certa rapidità di convergenza a 0 Valore atteso <n>= n P(n) dn Varianza <n 2 >= n 2 P(n) dn Se 2<γ<3 la varianza diverge, la media è ben definita Il valore atteso <n> non è più un parametro in grado di predire il numero di collegamenti nel sistema su ogni nodo (degree) Alta probabilità di avere client connessi con un numero arbitrario di server (degree) o che abbia scaricato un'arbitraria quantità di dati (strength) Se γ<2 la media diverge: né il valore medio di collegamenti (degree), né la quantità media di dati trasmessi sono caratteristiche predicibili nel sistema Forte eterogeneità Scale-free network 18
Traffico web: degree e strength Degree Strength 19
Traffico P2P: degree e strength Degree Strength 20
Relazione tra degree e strength Relazione tra numero di host contattati e quantità di informazioni scambiata Comportamento atteso: strength che aumenta in funzione del degree 21
Relazione tra degree e strength Power-law (crescente) <s(k)> k β Server web: β 1 Client web: β=1.2±0,1 22
Conclusioni Il comportamento degli utenti raramente segue una distribuzione normale Comportamenti differenti a seconda dell'applicazione In alcuni casi il comportamento può diventare un parametro identificativo dell'applicazione Attuale politiche di sicurezza con soglie basate sul data rate per il rilevamento di anomalie nel traffico Informazioni importanti per network design e capacity planning dei collegamenti 23
Grazie per l'attenzione! 24