Relatore Ch.mo prof. A. Pescapè Correlatori Ch.mo dott. M. Brescia Ing. G. Aceto. Candidata Luna Di Colandrea N40/132. Anno Accademico 2012/2013

Documenti analoghi
UNIVERSITA` DI FACOLTA` DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA DELLE TELECOMUNICAZIONI

Intelligenza Computazionale INSEGNAMENTO ANNO ACCADEMICO Informatica Magistrale CORSO DI LAUREA IN Anna Maria Fanelli DOCENTE II

Laboratorio di. Reti Informatiche. Corso di Laurea Triennale in Ingegneria Informatica A.A. 2016/2017. Ing. Niccolò Iardella

Argomenti Trattati. Due progetti open source (GPL) per l analisi del traffico di rete da file PCAP:

Lo strato di Trasporto

per il riconoscimento ottico dei caratteri

Progettazione ed implementazione di un sistema di calcolo distribuito ibrido multithread/multiprocesso per HPC: applicazione all imaging medico

RETI DI CALCOLATORI II

Testing black box di web service: sperimentazione su di un servizio senza stato

AN ANALYTICAL STUDY OF MAC PROTOCOLS FOR UNDERWATER ACOUSTIC SENSOR NETWORKS

Strumento e tecnica a supporto del crash testing automatico di applicazioni mobili basato sul sistema operativo Android Anno Accademico 2010/2011

TESI DI LAUREA IN INFORMATICA

Università degli Studi di Pisa Dipartimento di Informatica. NAT & Firewalls

Uno Strumento per la ricerca di campi Output e Etichetta in pagine Client

Il livello trasporto: Introduzione e protocollo UDP

Introduzione al corso

Classificazione del traffico di applicazioni mobili

Gui testing automatico di applicazioni Android tramite emulazione di input ed eventi provenienti da sensori

Reti (introduzione) Internet in breve: insieme di reti locali (LAN) interconnesse da router. 2 tipi di LAN

In memoria di mio padre. A mia madre, a tutti gli amici. A tutti voi grazie.

Livello rete. Piano di controllo. Introduzione: Piano dei dati e piano di controllo Architettura di un router IP: Internet Protocol

Il livello trasporto: Introduzione e protocollo UDP

Università degli Studi di Napoli Federico II

ALLEGATO A (D.R. n. 832 del ) AREA SCIENTIFICO DISCIPLINARE INGEGNERIA INDUSTRIALE E DELL INFORMAZIONE

Sperimentazione tecnologie big data per elaborazione e analisi dei testi (Big Data Text Analytics)

Sicurezza applicata in rete

Smart Vision - Le tecnologie per l industria del futuro

AML EXPO. AI a supporto dell AML 30 MAGGIO Pieralberto Nati CEO AML EXPO COPYRIGHT ALL RIGHT RESERVED

L INTELLIGENZA ARTIFICIALE E LA SICUREZZA APPLICATIVA. Sessione di studio AIEA Torino, Gianluca Zanini Kleis s.r.l.

Approcci di segmentazione e dissezione del traffico degli attacchi di rete per l ottimizzazione di classificatori basati sul deep learning

Università degli Studi di Enna Kore Facoltà di Ingegneria e Architettura

Network Address Translation (NAT)

Università degli Studi di Bergamo

Università degli Studi di Bergamo Intelligenza Artificiale (Codice: 38066) 12 Giugno 2019

NORMOTHERMIC MACHINE PERFUSION. Servizio di Ingegneria Medica. Policlinico Tor Vergata. nel contesto sanitario del

Riconoscimento e recupero dell informazione per bioinformatica

Corso di Laurea Specialistica in Ingegneria Informatica

Corso di Laurea Specialistica in Ingegneria Informatica. Correlatore: Ing. Andrea Claudi

Uso di Internet: Esempio. Prof. Franco Callegati

Circuiti e algoritmi per l elaborazione dell informazione

Computazione per l interazione naturale: macchine che apprendono

Giacomo Fauser. Istituto Tecnico Settore Tecnologico Via Ricci, Novara. PIANO DI LAVORO. Per l anno scolastico

Simulazioni di protocolli di compressione dell header per sistemi wireless basati su piattaforma TCP/IP

Università degli studi di Napoli Federico II

INTRODUZIONE A RETI E PROTOCOLLI

Informatizzazione APVE LEZIONE 2: INTERNET

Realizzazione di un software per la gestione di apparecchiature biomedicali Anno Accademico 2010/2011

Analisi delle prestazioni di algoritmi di Machine Learning per la classificazione del traffico di rete

I Componenti del processo decisionale 7

UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II

Realizzazione di un processo a supporto dell interoperabilità semantica nel Web

27 Ottobre 2017 COMMUNITY DI PROGETTO. Zeroshell: Soluzione Semplice e sicura per il BYOD nella scuola.. (e non solo) RICERCA-AZIONE SCUOLA APERTA

Università degli Studi di Enna Kore Facoltà di Ingegneria ed Architettura Anno Accademico

I protocolli di rete. Mauro Gaspari

Università degli Studi di Enna Kore Facoltà di Ingegneria e Architettura

ISTITUTO DI ISTRUZIONE SECONDARIA SUPERIORE GALILEO FERRARIS ISTITUTO TECNICO TECNOLOGICO GALILEO FERRARIS - C.M. BATF06401B

Introduzione al corso. Laboratorio di Telecomunicazioni (6 CFU) Corso di Laurea in Ingegneria dell Informazione

PROGRAMMAZIONE DISCIPLINARE LICEO SCIENTIFICO OPZIONE SCIENZE APPLICATE INFORMATICA CLASSE QUINTA

Comunicazione Digitale

IL COMPONENTE DATA MINING MODEL DEL PROGETTO

Packet Filter in LINUX (iptables)

Data Journalism. Analisi dei dati. Angelica Lo Duca

Tecniche per la ricerca di test suite minimali per RIA

Alma Mater Studiorum- Università di Bologna. Progettazione ed Implementazione di un Hidden TCP Proxy

Sviluppo di un'interfaccia grafica per l'automatizzazione di campagne di software fault injection. relatore Ch.mo prof.

Sviluppo di strumenti grafici su una Web Application per il data mining

Smart Home. Sistemi Telematici 2014/15 Ing. Francesca Paradiso

Università degli studi di Genova

Università degli Studi di Enna Kore

Introduzione alle Reti Neurali

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione

TITOLO:...Sistemista. DURATA TOTALE:...XXX ore

Algoritmi di classificazione supervisionati

Valutazione sperimentale di algoritmi per la rilevazione di fallimenti temporali nel sistema operativo Minix3

UNIVERSITA DEGLI STUDI DI BERGAMO

WEKA. Ing. Antonio Brunetti Prof. Vitoantonio Bevilacqua

Digital Forensics for Blockchain Analysis, Penetration Testing and Incident Response

Sicurezza. Usare un sistema di cifratura wireless per codificare le informazioni inviate per impedire la cattura e l'uso indesiderato dei dati.

IoT device discovery con ntopng

MODELLO TCP/IP LIVELLO 4 Trasporto. Il protocollo per il controllo della trasmissione. La gestione degli errori di trasmissione

Il sistema GPRS UNIVERSITÀ DEGLI STUDI DI PARMA FACOLTÀ DI INGEGNERIA. Relatore: Chiar.mo Prof. Giulio Colavolpe. Tesi di Laurea di Alessandro Gilardi

REALIZZAZIONE di un SETUP di MISURA per RADIO SENSORI RFID

MODELLI ISO/OSI e TCP/IP

Metodi supervisionati di classificazione

Tappe evolutive della rete Internet

Difesa perimetrale di una rete

Sicurezza applicata in rete

Reti Informatiche Edizione N

Sviluppo di Software Sicuro -S 3 Introduzione. Sommario 24/02/2010 SCOPO DEL CORSO

UNIVERSITA DEGLI STUDI DI NAPOLI FEDERICO II

Corso di Informatica

Fondamenti per l implementazione di reti PROFINET

Reti PROFINET nell era Industry 4.0

MODELLI ISO/OSI e TCP/IP

Linee di programmazione

Syllabus A042 Insegnamenti disciplinari

Lezione 3 Introduzione allo stack protocollare TCP/IP. Prof.ssa Gaia Maselli

Progetto co-finanziato dal POR CRO FESR della Regione Liguria

Transcript:

Facoltà di Ingegneria Corso di Studi in Ingegneria delle Telecomunicazioni Relatore Ch.mo prof. A. Pescapè Correlatori Ch.mo dott. M. Brescia Ing. G. Aceto Candidata Luna Di Colandrea N0/2 Anno Accademico 202/20

Analisi e monitoraggio del traffico di rete : Approcci di Machine Learning alla classificazione del traffico Studio di due innovativi algoritmi di Machine Learning - FMLPGA (Fast Multi Layer Perceptron with Genetic Algorithm) - GAME (Genetic Algorithm Modeling Experiment) Analisi e pre-processing delle tracce di traffico a livello pacchetto utilizzate Progetto e esecuzione di esperimenti sui due algoritmi Discussione dei risultati ottenuti 2

Con il termine classificazione del traffico di rete si intende l associazione ad una sequenza di pacchetti scambiati tra due dispositivi e due rispettive porte a livello trasporto, della presunta applicazione che li ha generati Importanza del tema sicurezza informatica servizi differenziati Studio di reti nei contesti reali Pianificazione e gestione di risorse di sistemi di TLC Principali tecniche Port-based Inspection of packet payload Flow-based ML based Ispezione dei 6-bit del numero di porta del livello Trasporto Pro: - Semplicità Contro: - porte non standardizzate -Tecniche per aggirare filtri o firewall -NAT -FTP Controllo bit a bit del carico del pacchetto alla ricerca delle firme del protocollo Pro: - precisione Contro: -privacy -crittografiae offuscamento del protocollo - nuove applicazioni - grandi pacchetti Controllo della sola intestazione, in cui sono contenuti i valori caratteristici Pro: - no violazione della privacy Contro: -Richiedela trasmissione di tutti i pacchetti del flusso Imparanoda dati empirici ad associare automaticamente ad un oggetto la classe di traffico Pro: - generalizzazione, - indipendenza da modelli teorici o tecniche complesse di trattamento dati Contro: -Dipendenzadalla disponibilità di tracce per l addestramento

algoritmi di ottimizzazione auto-adattativi Applicazione Classificazione: associazione ad un campione della corrispondente etichetta(o classe) Le fasi di classificazione : -Fase di Training -Fase di Testing -Fase di valutazione Paradigmi di apprendimento -MLsupervisionato -ML non supervisionato Esempi di metodologie di apprendimento supervisionato Perceptron: neurone di output e N neuroni di input(x) Multi-layer Perceptron :rete composta da uno o più livelli nascosti di neuroni, totalmente connessi tra i livelli di input e output - MSE & back propagation

L algoritmo genetico è un metodo di computazione ed ottimizzazione dei dati ispirato al processo evolutivo darwiniano. Fasi di esecuzione: ) Inizializzazione della popolazione 2) Selezione degli output ) Confronto dei risultati ) Evoluzione degli individui FMLPGA l algoritmo genetico viene impiegato come sistema di addestramento del modello MLP al posto della Back Propagation GAME E un algoritmo genetico puro appositamente progettato per risolvere problemi di ottimizzazione in relazione a funzionalità di classificazione. 5

Le tracce di flusso : file pcapcontente.0.65 pacchetti, fornitoci dall Università degli studi di Brescia. Da questo file sono stati estratti due file : uno riguardante la Ground Truth e uno contenente i biflussi estratti. Biflusso: insieme di pacchetti identificati dalla stessa quintupla: o ip sorgente o ip destinatario o porta sorgente o porta destinatario o protocollo a livello trasporto TCP/UDP in una comunicazione bidirezionale. In questo elaborato di tesi i biflussifanno riferimento al protocollo TCP. Costituzione del dataset: il dataset generale è costituito da 2025 biflussi composti da caratteristiche e applicazioni Targets. Specificazione dei parametri di studio : -caratteristiche di input : timeelapsed, byte, Up packet, Down packet -classi Targets:applicazioni generatrici del traffico http://www.ing.unibs.it/ntw/tools/traces/ 6

Dataset utilizzati : dalle applicazioni contenute nel dataset originario sono state ricavate, per accorpamento, 6 classi principali : Browser Web, Skype, Mail, Traffico cifrato, P2P e Other. Eliminati i biflussi appartenenti alla classe Other sono stati creati 0 dataset biclasse contenenti tutti i possibili confronti delle 5 classi individuate. Percentuali dei dataset : sono state usate sia le percentuali 70%(train)-0%(test) che 0%(train)-20%(test) per entrambi gli algoritmi. Tipi di esperimenti : esperimentiqualitativi (accuratezza) e Quantitativi (tempo) Scopo: capire quali classi di traffico sono più simili tra loro e quali invece risultano più facilmente classificabili. Numero di prove : per ogni esperimento eseguito sono state effettuate tre prove identiche per un totale di esperimenti per GAME e 2 esperimenti per FMLPGA. Parametri variati: -GAME : grado del polinomio 5,, 0 e funzione di selezione degli operatori genetici Roulette, Fitting, Ranking - FMLPGA: funzione di selezione degli operatori genetici Roulette(V_ e V_2), Fitting, Ranking 7

Analisi delle prestazioni di algoritmi di Machine Learningper la classificazione del traffico di rete NETWORK TRAFFIC CLASSIFICATION - TEST BASED ON GAME 70% train 0% test these columns report classification accuracy percentages (average on two classes) V P CASE FUNC Br-Ml Br-PP Br-Sk Br-TC Ml-PP Ml-Sk Ml-TC PP-Sk PP-TC Sk-TC ROULET. 7,75 6,6 57,2 6,02 7, 75,5 7,62 62, 6, 7,7 5 TEST FITTING 7,05 6,2 57,52 6,02 7,5 75,7 7,0 62,5 6, 7,2 C P TEST RANK. 7,05 6,2 57,2 67,2 7, 76,25 72,75 62,6 6, 72,0 ROULET.,5 66,76 57,2 6,7 5, 7, 0 6, 6,75 72, FITTING,06 67, 55,6 6,6 5,5 7, 0,7 70,75 6, 72,6 U RANK., 67, 5 60,, 7,7 0,7 70,52 6,7 72,6 ROULET.,5 66,7 5,2 6,6 5,25 6, 0,5 6,0 6,0 7, 0 TEST FITTING, 67, 5,7 66,22 5,6,, 6,25 62,7 7,25 RANK. 2, 66,57 5,7 65,2 5, 7, 0 6,55 6, 72,6 NUM PATTERNS 7 6 7 7 2 5 7 0 2

NETWORK TRAFFIC CLASSIFICATION -TEST BASED ON GAME 70% train 0% test CAS V P E FUNC C P U 5 TES T TES T 0 TES T B- Ml these columns report classification accuracy percentages (average on two classes) Br- Br- Br- Ml- Ml- Ml- PP- PP- PP Sk TC PP Sk TC Sk TC Sk- TC ROULE T. 7,75 6,6 57,2 6,02 7, 75,5 7,62 62, 6, 7,7 FITTIN G 7,05 6,2 57,52 6,02 7,5 75,7 7,0 62,5 6, 7,2 RANK. 7,05 6,2 57,2 67,2 7, 76,25 72,75 62,6 6, 72,0 ROULE T.,5 66,76 57,2 6,7 5, 7, 0 6, 6,75 72, FITTIN G,06 67, 55,6 6,6 5,5 7, 0,7 70,75 6, 72,6 RANK., 67, 5 60,, 7,7 0,7 70,52 6,7 72,6 ROULE T.,5 66,7 5,2 6,6 5,25 6, 0,5 6,0 6,0 7, FITTIN G, 67, 5,7 66,22 5,6,, 6,25 62,7 7,25 RANK. 2, 66,57 5,7 65,2 5, 7, 0 6,55 6, 72,6 NUM PATTERNS 7 6 7 7 2 5 7 0 2 Il dataset con i migliori risultati è Mail-Skype ROULET. FITTING RANK. Ml-PP Ml-Sk Ml-TC 5,25 6, 0,5 5,6,, 5, 7, 0 7 2 5 Matrice di Confusione caso Mail Skype TRAINING TEST P(C Sk) P(C2 Ml) P(C Sk) P(C2 Ml) target class 2 7 target class 0 target class 2 5 260 target class 2 7 05 total classification,5% total classification,27% class classification 2,0% class classification 5,2% Class 2 classification,555% Class 2 classification,75%

Analisi delle prestazioni di algoritmi di Machine Learningper la classificazione del traffico di rete NETWORK TRAFFIC CLASSIFICATION -TEST BASED ON FMLPGA 0% train-- 20% test classification accuracy percentages (average on two classes) V CASE FUNC Br-Ml Br-PP Br-Sk Br-TC Ml-PP Ml-Sk Ml-TC PP-Sk PP-TC Sk-TC ROULV,6 7,7, 7,5,7,,5 7,57 7,,6 C P TEST ROULV2,5,2 0,5 75,5,6,55 2,2 6,7 7, 2,6 FITTING,6 7,, 7,7 0, 0,2,5 7,5 72,6 2,6 U RANKING, 7,65,,6,6,55 2,2 5,7,,6 NUM PATTERNS 2 2 7 527 55 77 70 2 G P TEST ROULV 0,27 7,65 7,,6 2,6 2,,, 7,,6 ROULV2,6,2, 5,7,,,5,67 6,57 2,6 FITTING 0,27 0,5 0,5 7,5 2,0,,5 2,6 70 2,6 U RANKING,2 0,2,5,,5 2,7 2, 7,62 70,2 0, NUM PATTERNS 2 2 7 527 55 77 70 2 0

NETWORK TRAFFIC CLASSIFICATION -TEST BASED ON FMLPGA 0% train--20% test V CASE C TEST FUNC ROULV ROULV2 Br- Ml,6, 5 P FITTING,6 U RANKIN G, classification accuracy percentages (average on two classes) Br- PP 7,7, 2 7, 7,6 5 Br- Sk, 0,5,, Br- TC 7,5 75,5 7, 7,6 Ml- PP,7, 6 0,, 6 Ml- Sk,,5 5 0, 2,5 5 Ml- TC,5 2,2,5 2,2 PP- Sk 7,5 7 6,7 7,5 5,7 PP- TC 7, 7, 72, 6, Sk- TC, 6 2,6 2,6, 6 ROULV ROULV2 FITTING Ml-PP Ml-Sk Ml-TC PP-Sk 2,6 2,,,,,,5,67 2,0,,5 2,6 G P U NUM PATTERNS 2 2 7 527 55 77 70 2 TEST ROULV ROULV2 FITTING RANKIN G 0,2 7,6 0,2 7,2 7,6 5 7,, 2 0, 5 0, 2, 0,5,6 2,6 2, 5,7 7,5, 5,, 2,0, 5,, 2,7,,5,5 2,,,6 7 7, 6,5 7 2, 6 70 7,6 2 70, 2 NUM PATTERNS 2 2 7 527 55 77 70 2, 6 2,6 2,6 0, RANKING,5 2,7 2, 7,62 527 55 77 Le percentuali di classificazione risultano più omogenee rispetto a GAME

GAME FMLPGA Speed Up : 25x 2

In questo elaborato di tesi abbiamo: introdotto un pre-processingdelle tracce di traffico per poter utilizzare gli algoritmi di classificazione considerati analizzato le prestazioni di due algoritmi di MLper la classificazione del traffico di rete Esecuzione di esperimenti di tipo multiclasse Studio delle prestazioni di GAME su architetture GPU Esperimenti su altre tracce di traffico contenenti anche altre classi di traffico