CONFERENZA FINALE I rischi per il se+ore privato e le strategie di mi3gazione

Documenti analoghi
With financial support of the Preven4on of and Fight against Crime Programme European Commission - Directorate- General Home Affairs

B C I un altro punto di vista Introduzione

CRIMINI DI IDENTITA CONTRO LE AZIENDE: RISULTATI DELL ANALISI DEI CASI STUDIO RACCOLTI

GeoSoft BLU. short presentation

MANUALE DI UTILIZZO: INTRANET PROVINCIA DI POTENZA

Agenda telematica delle manifestazioni pubbliche

ISTITUTO TECNICO ECONOMICO MOSSOTTI

Indagine su: L approccio delle aziende e delle associazioni nei confronti dell accessibilità dei siti web

Autorità Nazionale Anticorruzione e per la valutazione e la trasparenza delle amministrazioni pubbliche

La piattaforma di lettura targhe intelligente ed innovativa in grado di offrire servizi completi e personalizzati

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

Product Overview. ITI Apps Enterprise apps for mobile devices

Valutazione assistita del rischio sismico a scala territoriale Valutazione della vulnerabilità e dell agibilità degli edifici Interazione con il

Il Valore Aggiunto del Sistema dei Controlli Interni Integrato

Esperienze di soluzioni per la fraud detection in ambiente assicurativo

I MODULI Q.A.T. PANORAMICA. La soluzione modulare di gestione del Sistema Qualità Aziendale

Analisi dei requisiti e casi d uso

Domande e risposte su Avira ProActiv Community

delle aziende in Italia:

Regione Piemonte Portale Rilevazioni Crediti EELL Manuale Utente

DATA BASE ON LINE (BANCA DATI MODULI SPERIMENTALI)

Software per Helpdesk

Accesso in cloud alle informazioni mul1mediali, provenien1 da più fon1 e canali di comunicazione (Es. rassegna stampa)

uadro Soluzioni software per L archiviazione elettronica dei documenti Gestione Aziendale Fa quadrato attorno alla tua azienda

SOFTWARE PER LA RILEVAZIONE DEI TEMPI PER CENTRI DI COSTO

LEAD GENERATION PROGRAM

STRONG AUTHENTICATION VIA SMS Come aumentare sicurezza e privacy in modo semplice e a basso costo. Claudio Zanaroli Sales Manager Skebby

Sistemi di Gestione dei Dati e dei Processi Aziendali. Computer-Assisted Audit Technique (CAAT)

L o. Walter Ambu japs: una soluzione agile (

LA GESTIONE DELLE VISITE CLIENTI VIA WEB

Pro e contro delle RNA

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI)

Ricerca di outlier. Ricerca di Anomalie/Outlier

Report di valutazione Fiona Clark_Live

INNOVAZIONE XNOTTA PER PORTALI TURISTICI

La Gestione delle Risorse Umane. People Lab S.r.l. PEOPLE MANAGER 1

Cos è GeoCrime Analyst?

Ingegneria del So-ware 2012/2013: Proge6o RONF. Angelo Di Iorio

Documentazione illustrativa

Guida alla registrazione on-line di un DataLogger

MANUALE UTENTE. In questo manuale verranno descritte tutte le sue funzioni. Il sistema OTRS è raggiungibile al seguente link:

Liceo Tecnologico. Indirizzo Informatico e Comunicazione. Indicazioni nazionali per Piani di Studi Personalizzati

Sistemi informativi secondo prospettive combinate

crazybrain snc Presentazione_VisualFTP.pdf Pag. 1 VisualFTP Presentazione del prodotto Web partner:

Devi fare una fattura elettronica alla PA? Tu fatturi, al resto ci pensiamo noi. Servizio Fatt PA Lextel

Favorire la prevenzione della corruzione. Attivare un nuovo tipo di controllo sociale (accesso civico) Sostenere il miglioramento delle performance

1. BASI DI DATI: GENERALITÀ

ora elettrica Babele è stato infatti progettato per:

SISTEMA INFORMATIVO INPDAP CREDITO: C1 - PRESTAZIONI CREDITIZIE DOMANDE WEB PICCOLI PRESTITI AGLI ISCRITTI: MANUALE UTENTE

Mon Ami 3000 Provvigioni agenti Calcolo delle provvigioni per agente / sub-agente

Il Sistema Informativo Territoriale del Comune di Siena

CREATIVE-LINK realizzazione siti web E-COMMERCE? e-commerce completo. offerta realizzazione sito web professionale

Specifiche Tecniche CARATTERISTICHE TECNICHE GENERALI MINIME PER LA GESTIONE DEL SERVIZIO

CREATIVE-LINK realizzazione siti web E-COMMERCE? e-commerce base. offerta realizzazione sito web professionale

ISSA EUROPE PTSOFTWARE 2.0

Retail L organizzazione innovativa del tuo punto vendita

Come leggere ed interpretare la letteratura scientifica e fornire al pubblico informazioni appropriate sui farmaci

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Integrazione Sistema Ammortizzatori in Deroga. Gestione delle procedure di sportello dei Centri per l Impiego

Codice partner: Profilo di segnalazione: All attenzione del legale rappresentante

Project Cycle Management La programmazione della fase di progettazione esecutiva. La condivisione dell idea progettuale.

NOVITÀ SITI COMMERCIALISTA

Università degli Studi di Bologna Bologna, 12/12/2002 Corso di Laurea In Informatica. Alessandro Valenti. Sessione II

SDD System design document

Finalità della soluzione Schema generale e modalità d integrazione Gestione centralizzata in TeamPortal... 6

Manuale di utilizzo del sito ASUWEB

La costruzione di un Portale

Ti consente di ricevere velocemente tutte le informazioni inviate dal personale, in maniera assolutamente puntuale, controllata ed organizzata.

TECNICO SUPERIORE PER I RILEVAMENTI TERRITORIALI INFORMATIZZATI

L Ordine offre ai Suoi iscritti strumenti necessari sia ai ni formativi individuali accreditati che di aggiornamento

Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci

Soluzioni integrate per la gestione del magazzino

Gruppo Montenegro Portale Vendite

Cos è ND Rifiuti 2008?

Sistema Informativo Gestione Fidelizzazione Clienti MANUALE D USO

Organizzazione degli archivi

Le Soluzioni Tango/04 per adempiere alla normativa sugli amministratori di sistema

Matrice Excel Calcolo rata con IMPORTO DEL FINANZIAMENTO determinato dall'utente

Matrice Excel Calcolo rata con DURATA DEL FINANZIAMENTO determinata dall'utente

DALLA PARTE DEGLI ALTRI OPERATORI ECONOMICI. La nostra risposta alle esigenze della tua attività.

Policy di valutazione e pricing dei prestiti obbligazionari di propria emissione

Cookie Policy per

EXPLOit Content Management Data Base per documenti SGML/XML

Export Development Export Development

La teoria finanziaria del valore asserisce che il valore di una iniziativa dipende essenzialmente da tre fattori:

Manuale Debident. Per accedere al servizio, inserite il nome, il numero cliente e la password che vi è stata assegnata.

GUIDA ALLA PROMOZIONE SUL SITO

Facoltà di Farmacia - Corso di Informatica

Architettura del sistema

READY-TO-GO PRODUZIONE

SOFTWARESIRIO L E S O L U Z I O N I P E R L A P M I. Contratti di manutenzione, chiamate e interventi

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI

Gestione premi clienti e fornitori Corso di formazione e approfondimento

Asso. Con ordine si procederà ad esplorare il software.

CHIUSURE di MAGAZZINO di FINE ANNO

Le configurazioni di costo

ASP RAGUSA Test verifica recupero Dati Contabilità Ciclo Versione: 1.0 Attivo

SISTEMI DI MISURAZIONE DELLA PERFORMANCE

Fenice Newsle er La nuova versione #1 - Fa ura di interessi per ritardato pagamento Genera fa ura di interessi

PROGETTO PER L INTERCONNESSIONE E LA CONDIVISIONE DELLE INFORMAZIONI TRA LE STRUTTURE INFORMATIVE PIEMONTESI

Transcript:

WEB PRO ID - Developing web- based data collec4on modules to understand, prevent and combat ID related crimes and facilitate their inves4ga4on and prosecu4on With financial support of the Preven4on of and Fight against Crime Programme European Commission - Directorate- General Home Affairs CONFERENZA FINALE I rischi per il se+ore privato e le strategie di mi3gazione WASP: un alert system per la rilevazione assis4ta dei crimini d iden4tà subi4 dalle aziende V. Falle\a, A. Cordioli, F. Francesconi Trento, 27-28 Febbraio 2014 Università degli Studi di Trento Dipar4mento Facoltà di Giurisprudenza Coordinator Scien3fic partner Technological and ins3tu3onal partners

1.1 Modulo indagine di vigmizzazione 1.2 Modulo casi studio Banche da3 partner 1.4 Banca da3 indagine di vigmizzazione 1.5 Banca da3 casi studio 2.2 Protocollo di accesso alla banca da3 casi studio 1.3 Sito web 2.1 Rapporto di ricerca 2.3 Alert system Flusso delle a]vità Obie]vi 1+2+3 3.1 Seminari di formazione 3.1 Conferenza finale

Sommario 4 2. Archite+ura 9 3. Funzionamento 21 del Sistema 42 53

ecrime\ Conferenza finale, 28 Febbraio 2014 Sezione 1 Uno strumento ICT contro le frodi di iden4tà

WASP: WEBPROID Alert System Prototype Che cos è? Un sistema informa3co condiviso per la rilevazione assis3ta dei crimini di iden3tà Per chi è pensato? Aziende telefoniche, credi3zie, fornitori di servizi in generale Quali sono le sue funzionalità? Rilevazione assis3ta di casi di sospe+a frode Ges3one informa3zzata delle pra3che di frode Quali sono gli obie:vi? Aumentare l efficacia e l efficienza dei processi aziendali an3frode 5 2. Archite+ura 3. Funzionamento

Scenario Lo scenario di riferimento Processi aziendali di fraud detec3on Cara?eris@che di tali processi Le frodi di iden3tà sono frodi da so+oscrizione Elevato volume di richieste da esaminare Richies3 tempi di risposta rapidi Verifica (per lo più manuale dei casi sospeg da parte dei fraud analyst 6 2. Archite+ura 3. Funzionamento

Obie]vo: migliorare i processi aziendali an4frode La necessità Ridurre il numero di casi sospeg da analizzare Volume di richieste: ~10K richieste / giorno L approccio Knowledge sharing: Condivisione di informazioni rela3ve alle iden3tà ritenute sospe+e tra le aziende Knowledge discovery: Applicazione di tecniche per l analisi automa3ca di da3 (data mining ai flussi aziendali Il risultato Un sistema che propone uno standard per la rilevazione delle frodi d iden3tà in ambito aziendale 7 2. Archite+ura 3. Funzionamento

Metodologia Raccolta dei da3 aziendali Definizione di uno schema comune per la raccolta di da3 condivisi dalle aziende sui casi di frodi sospe+e o accertate Applicazione di tecniche di analisi automa3ca per l iden3ficazione delle frodi sui da3 raccol3, valutando le performance raggiunte WASP 8 2. Archite+ura 3. Funzionamento

ecrime\ Conferenza finale, 28 Febbraio 2014 Sezione 2 Archite\ura

WASP: Introduzione all archite\ura Il sistema WASP è un sistema modulare sviluppato con un archite+ura a 3 livelli (3-3er architecture. 3-4er architecture: Presenta4on Tier: visualizzazione e presentazione delle informazioni. Ges3sce l interazione tra il sistema e l utente. Logic Tier: implementa le funzionalità e si interfaccia con i livelli Presenta(on e Data and Integra(on. Data and Integra4on Tier: archiviazione e integrazione di da3 provenien3 da diverse sorgen3. Sistema modulare: Ogni modulo implementa una specifica funzionalità all interno. La suddivisione in moduli rende semplice la manutenzione e l integrazione con altri componen3. 2. Archite+ura 10 3. Funzionamento

WASP: Archite\ura PRESENTATION TIER LOGIC TIER DATA AND INTEGRATION TIER 2. Archite+ura 11 3. Funzionamento

WASP: Archite\ura FRONT END PRESENTATION LOGIC DATA AND INTEGRATION BACK END 2. Archite+ura 12 3. Funzionamento

WASP: Presenta4on Tier Cara+eris3che: Sviluppato come Web Applica4on Accessibile dagli analyst con un semplice browser (filosofia thin- client Auten3cazione e autorizzazione con username e password Punto di accesso al sistema condiviso tra tug i partner del proge+o. Funzionalità: Due aree di lavoro: Ø Analisi richieste (accessibile da tu5 gli analyst: Mostra le ul3me richieste di servizio analizzate dal sistema con il rela3vo rischio- frode. Ø Area di amministrazione (accesso limitato: funzionalità di ges3one su tabelle da3, modelli e aree di lavoro. 2. Archite+ura 13 3. Funzionamento

WASP: Presenta4on Tier PRESENTATION TIER LOGIN AREA ANALISI PRESENTATION TIER Analisi corrente Storico tabelle LOGIC TIER AREA GESTIONE Ges3one da3 Calcolo indice di rischio Ges3one modelli DATA AND INTEGRATION TIER 2. Archite+ura 14 3. Funzionamento

WASP: Logic Tier Cara+eris3che: Sviluppato con paradigma a servizi RESTful Web Services. Servizi placorm- independent u3lizzabili da diversi client (sohware. Funzionalità per la rilevazione dei fur3 d iden3tà. Moduli: Ranking System (RS: Ø Implementa un meccanismo di ordinamento dei casi sospe5 basandosi sull applicazione dei due engine (SIE e DME. Shared Iden3ty Engine (SIE: Ø Interroga la banca da( condivisa contenente le iden(tà ritenute sospede dai vari operatori. Data Mining Engine (DME: Ø Applica le tecniche di data mining diredamente sui flussi aziendali assegnando un punteggio di rischio- frode ad ogni record analizzato 2. Archite+ura 15 3. Funzionamento

WASP: Logic Tier PRESENTATION TIER LOGIC TIER SHARED IDENTITY ENGINE RANKING SYSTEM LOGIC TIER DATA MINING ENGINE DATA AND INTEGRATION TIER 2. Archite+ura 16 3. Funzionamento

WASP: Data and Integra4on Tier Cara+eris3che: Moduli sviluppa3 ad- hoc per ogni partner del proge+o Garan3sce l interoperabilità Metodo facilmente replicabile con nuovi partner Moduli: Iden3ty Integra3on Module (IIM: Ø Converte le iden(ta dal formato specifico dell azienda ad un formato condiviso. Non richiede la modifica del database o dei sistemi aziendali. Preprocessing Module (PM: Ø Elabora, filtra e pulisce i da( dei flussi aziendali rendendoli conformi all applicazione delle tecniche di data mining. Shared Iden3ty Database (SID: Ø Con(ene informazioni riguardan( le iden(ta ritenute sospede dai vari operatori in formato condiviso e anonimizzato. 2. Archite+ura 17 3. Funzionamento

WASP: Data and Integra4on Tier PRESENTATION TIER DATA AND INTEGRATION TIER PARTNER 1 IDENTITY INTEGRATION PARTNER 2 IDENTITY INTEGRATION PARTNER 3 IDENTITY INTEGRATION LOGIC TIER PARTNER 1 PREPROCESSING PARTNER 2 PREPROCESSING PARTNER 3 PREPROCESSING SHARED IDENTITY DATABASE DATA AND INTEGRATION PARTNER 1 TIER DATABASE PARTNER 2 DATABASE PARTNER 3 DATABASE 2. Archite+ura 18 3. Funzionamento

WASP: Archite\ura LOGIN TABELLA ANALISI AMMINISTRAZIONE RANKING SYSTEM SHARED IDENTITY ENGINE DATA MINING ENGINE PARTNER 1 IDENTITY INTEGRATION PARTNER 2 IDENTITY INTEGRATION PARTNER 3 IDENTITY INTEGRATION NEW PARTNER IDENTITY INTEGRATION PARTNER 1 PREPROCESSING PARTNER 2 PREPROCESSING PARTNER 3 PREPROCESSING NEW PARTNER PREPROCESSING SHARED IDENTITY DATABASE PARTNER 1 DATABASE PARTNER 2 DATABASE PARTNER 3 DATABASE NEW DATABASE 2. Archite+ura 19 3. Funzionamento

Archite\ura di WASP: Riepilogo È stata proposta l archite+ura di un sistema informa3zzato di alert per la rilevazione assis3ta delle frodi d iden3ta con archite+ura a 3 livelli. La stru+ura modulare agevola l integrazione e l interoperabilità. Il cuore è basato su un modulo per la rilevazione assis3ta tramite ranking dei casi di frode. Il modulo è formato da due engine: Shared Iden(ty Engine (SIE: per la condivisone di un formato comune di da3 rela3vi a iden3tà sospe+e. Data Mining Engine (DME: per l applicazione di tecniche di data mining a flussi di da3 provenien3 dal se+ore credi3zio e telefonico. Nelle prossime slide analizzeremo il funzionamento dei moduli SIE e DME. 2. Archite+ura 20 3. Funzionamento

ecrime\ Conferenza finale, 28 Febbraio 2014 Sezione 3 Funzionamento

WASP: Shared Iden4ty Engine (SIE LOGIN TABELLA ANALISI AMMINISTRAZIONE RANKING SYSTEM SHARED IDENTITY ENGINE DATA MINING ENGINE PARTNER 1 IDENTITY INTEGRATION PARTNER 2 IDENTITY INTEGRATION PARTNER 3 IDENTITY INTEGRATION NEW PARTNER IDENTITY INTEGRATION PARTNER 1 PREPROCESSING PARTNER 2 PREPROCESSING PARTNER 3 PREPROCESSING NEW PARTNER PREPROCESSING SHARED IDENTITY DATABASE PARTNER 1 DATABASE PARNTER 2 DATABASE PARNTER 3 DATABASE NEW PARTNER DATABASE 2. Archite+ura 3. Funzionamento 22

WASP: Shared Iden4ty Engine (SIE LOGIN TABELLA ANALISI AMMINISTRAZIONE RANKING SYSTEM SHARED IDENTITY ENGINE DATA MINING ENGINE PARTNER 1 IDENTITY INTEGRATION PARTNER 2 IDENTITY INTEGRATION PARTNER 3 IDENTITY INTEGRATION NEW PARTNER IDENTITY INTEGRATION PARTNER 1 PREPROCESSING PARTNER 2 PREPROCESSING PARTNER 3 PREPROCESSING NEW PARTNER PREPROCESSING SHARED IDENTITY DATABASE PARTNER 1 DATABASE PARNTER 2 DATABASE PARNTER 3 DATABASE NEW PARTNER DATABASE 2. Archite+ura 3. Funzionamento 23

WASP: Shared Iden4ty Engine (SIE Mo4vazione: Un frodatore puo u3lizzare la stessa iden3ta rubata per frodare aziende differen3. Idea: Costruire una banca da3 comune dove ogni partner associato puo controllare e revisionare lo stato delle iden3ta ritenute sospe+e. L u3lizzo di un repository comune perme+e di limitare questo danno avvalendosi della condivisione dell informazione. Problema: Ogni azienda memorizza le informazioni rela3ve ai propri clien3 in un formato specifico, solitamente diverso dalle altre aziende. 2. Archite+ura 3. Funzionamento 24

WASP: Shared Iden4ty Database (SID - 1/2 SID è una semplice ma efficace implementazione della banca da3 condivisa che consente la raccolta da3 secondo un formato comune. Il formato condiviso con3ene le seguen3 informazioni: 1. A+ributo di iden3tà (cifrato 2. Azienda 3. Data 4. Stato Tramite la condivisone di queste informazioni ogni operatore potrà avvalersi di un ulteriore strumento per la classificazione di un iden3ta sospe+a. 2. Archite+ura 3. Funzionamento 25

Funzionamento del SID: inserimento Dominio aziendale ID Anagrafica Credito Servizio Record Mario Verdi Partner 1 Da3 aziendali ID Mario Verdi f eid 5ff423b77 Dominio condiviso SID 2. Archite+ura 3. Funzionamento 26

Funzionamento del SID: verifica iden4tà Dominio aziendale ID Anagrafica Credito Servizio Record Mario Verdi Partner 2 Da3 aziendali ID Mario Verdi f eid 5ff423b77 Allarme Dominio condiviso? eid SID 5ff423b77 2. Archite+ura 3. Funzionamento 27

WASP: Shared Iden4ty Database (SID - 2/2 Il SID non con3ene da3 sensibili Le informazioni rela3ve al cliente non sono contenute nel SID L a+ributo di iden3tà è cifrato u3lizzando funzioni di hashing Dal valore cifrato non è possibile risalire al valore originale Da3 aziendali rimangono confina3 all interno dei sistemi proprietari Non è possibile recuperare le informazioni collegando l iden3tà nel SID al sistema aziendale Un azienda non può risalire ai servizi agva3 dai clien3 presso le altre aziende L allarme generato non è bloccante: fornisce solamente l informazione rela3va alla presenza di un iden3tà all interno del SID 2. Archite+ura 3. Funzionamento 28

Analisi sui da4 aziendali condivisi: risulta4 1/2 Distribuzione delle iden3tà associate a casi di frode per i partner del proge+o Iden4tà collegate a casi di frode 4% Frodi per Partner 1 ma non per Partner 2 12% Iden4tà in comune n id Frodi per Partner 2 ma non per Partner 1 83% Frodi in comune 5% 2. Archite+ura 3. Funzionamento 29

Analisi sui da4 aziendali condivisi: risulta4 2/2 Distribuzione dell intervallo temporale per i casi comuni di frode oltre 4 mesi 3% da 2 a 3 mesi 3% da 3 a 4 mesi 11% da 1 a 2 mesi 8% da 1 a 7 giorni 25% da 16 a 30 giorni 28% da 8 a 15 giorni 22% 2. Archite+ura 3. Funzionamento 30

WEB PRO ID Alert System: Data Mining Engine (DME LOGIN TABELLA ANALISI AMMINISTRAZIONE RANKING SYSTEM SHARED IDENTITY ENGINE DATA MINING ENGINE PARTNER 1 IDENTITY INTEGRATION PARTNER 2 IDENTITY INTEGRATION PARTNER 3 IDENTITY INTEGRATION NEW PARTNER IDENTITY INTEGRATION PARTNER 1 PREPROCESSING PARTNER 2 PREPROCESSING PARTNER 3 PREPROCESSING NEW PARTNER PREPROCESSING SHARED IDENTITY DATABASE PARTNER 1 DATABASE PARTNER 2 DATABASE PARTNER 3 DATABASE NEW PARTNER DATABASE 2. Archite+ura 3. Funzionamento 31

Data Mining A cosa serve? Estrarre informazioni da grosse moli di da3 Risolvere problemi analizzando da3 storici Prevedere il verificarsi di even3 nel tempo sulla base di da3 storici Come funziona? Individuare padern ricorren3 all interno dei da3 Creazione di modelli in grado di elaborare predizioni Come si esprime? White box: modelli in cui i pa+ern sono interpretabili (e.g.: regole ed alberi decisionali Black box: modelli in cui i pa+ern non sono interpretabili (e.g.: modelli sta3s3ci e geometrici 2. Archite+ura 3. Funzionamento 32

Data Mining: un esempio 2. Archite+ura 3. Funzionamento 33

Tecniche di classificazione Panoramica Alberi decisionali CART, C.4.5, Random Forest Generatori di regole RIPPER IF (Genere = uomo AND (Reddito = alto THEN à Class = A IF (Età <= 30 AND (Status = celibe THEN à Class = B Algoritmi Bayesiani Support Vector Machines (SVM Modello predigvo 2. Archite+ura 3. Funzionamento 34

Tecniche di classificazione Alberi decisionali Generano regole predigve rappresentabili graficamente tramite un diagramma ad albero O+engono generalmente un buon livello di accuratezza Semplici da interpretare Numerosi algoritmi in le+eratura (es: CART, Random Forests 2. Archite+ura 3. Funzionamento 35

Tecniche di classificazione Regole decisionali (Rule Induc@on Simili agli alberi decisionali ma genera3 tramite un approccio bo?om up A par3re da una determinata classe si cerca di costruire delle regole che includono la maggior parte di istanze appartenen3 a tale classe. Le regole sono simili ai path degli alberi decisonali Semplici da leggere ed interpretare 2. Archite+ura 3. Funzionamento 36

Tecniche di classificazione Algoritmi Bayesiani Classificatori di 3po sta4s4co Calcolano la probabilità di appartenenza ad una determinata classe Basato sull applicazione del teorema di Bayes Estremamente veloci Sensibili al numero di variabili con scarsa capacità predigva 2. Archite+ura 3. Funzionamento 37

Tecniche di classificazione Support Vector Machines (SVM Support vectors margine Classificatore di 3po geometrico Ogni istanza viene mappata in un punto euclideo Le classi vengono quindi separate tramite iperpiani Iperpiano di separazione U3lizzato intensamente nell ambito del pa\ern recogni4on (es: riconoscimento vocale e della scri+ura 2. Archite+ura 3. Funzionamento 38

Data Mining e WEB PRO ID Obie]vo: Stabilire se una data richiesta di servizio è fraudolenta o meno Problema: Più di 250 a+ribu3 da analizzare per ogni richiesta Richieste che hanno valori per a+ribu3 mancan3 o invalidi Inconsistenze nei valori all interno dello stesso a+ributo Richieste di servizi/finanziamento da esaminare approssima3vamente 10.000 al giorno Differenze tra i da3 forni3 dai partner del proge+o 2. Archite+ura 3. Funzionamento 39

Data Mining e WEB PRO ID Soluzione: Uniformare i da3 u3lizzando uno schema comune: Uniformare valori sintagcamente differen3 (ma non seman3camente Integrare differen3 sorgen3 u3lizzando uno schema comune Stabilire una convenzione interna per iden3ficare a+ribu3 non validi Conoscere i da3 è fondamentale: Consultare esper3 di dominio Inves3re tempo analizzando campioni di da3 Applicare differen3 tecniche e misurare le performance empiricamente 2. Archite+ura 3. Funzionamento 40

Integrazione dei da4 Sorgente 1 T_626_CV_ACT_DATE T_934_CV_FISCAL_CODE T_657_CV_ID_DOC_TYPE T_918_CV_TOT_FATT_EMESSE Sorgente 2 _5_CV_ACT_DATE _9_FISCAL_CODE _33_ID_DOCTYPE _62_TOT_FATT_EMESSE Data AGvazione Codice Fiscale Tipo Documento Numero Totale fa+ure Emesse Schema comune 2. Archite+ura 3. Funzionamento 41

ecrime\ Conferenza finale, 28 Febbraio 2014 Sezione 4 Modelli e Performance

Cara\eris4che dei dataset raccol4 1/3 Da@ provenien@ da fon@ eterogenee Is3tu3 credi3zi: richieste di finanziamento Telefoniche: richieste di agvazione servizi Formato dei da@ Stru+ura3 in tabelle o in file di testo Diverse categorie di variabili A+ribu3 lega3 alle singole richieste (record related A+ribu3 lega3 all iden3tà del cliente (id related A+ribu3 lega3 al credito (credit related A+ribu3 lega3 ai prodog/servizi richies3 (service related Diversi periodi di estrazione temporale 2. Archite+ura 3. Funzionamento 43

Cara\eris4che dei dataset raccol4 2/3 Dimensioni dei dataset ~10k ~10M richieste Durata degli intervalli temporali di estrazione 6 mesi 24 mesi Rapporto (Frodi : NonFrodi sbilanciato 1:100 1:1000 2. Archite+ura 3. Funzionamento 44

Cara\eris4che dei dataset raccol4 3/3 Grado di de?aglio delle informazioni contenute nei dataset Contenuto informa3vo variabile DB Vodafone Precisione date/info su record Info su iden3tà/anagrafica Info sui servizi richies3 Info su pagamen3/credito N. mesi estrazione campione Grado di de+aglio min max 2. Archite+ura 3. Funzionamento 45

Generazione di modelli e di predizioni training Modello Algoritmo di generato classificazione 21 Dataset tes3ng Predizioni 2 tes3ng Predizioni 1 2. Archite+ura 3. Funzionamento 46

1(1382.0/97.0 1(226.0/35.0 1(54.0/9.0 = VALUES_4!= VALUES_4 < 165 _56_CV_SCORE >= 165 _27_CV_PAYMENT_TYPE = (P (R!= (P (R = VALUES_5!= VALUES_5 1(15.0/5.0 0(34.0/9.0 1(166.0/41.0 = VALUES_3 = VALUES_7!= VALUES_7 0(24.0/13.0 = VALUES_6 0(77.0/27.0 _145_CV_SALES_CHANNEL!= VALUES_6 _68_CV_CCIAA_PROVINCE!= VALUES_3 _121_CV_VAL_FORNIT_RICH < 705.5 _115_CV_STATUS_CUSTOMER_A < 3.5 >= 3.5 _115_CV_STATUS_CUSTOMER_A < 18.5 = VALUES_8!= VALUES_8 1(59.0/15.0 0(5.0/0.0 >= 18.5 0(8.0/0.0 >= 705.5 _86_CV_NUM_SIM_MNP_RIC_AZ < 0.5 1(354.0/27.0 >= 0.5 1(123.0/28.0 = VALUES_9!= VALUES_9 0(23.0/9.0 _57_CV_SCORE_ID < 10.5 >= 10.5 1(13.0/4.0 1(278.0/82.0 = VALUES_2 _145_CV_SALES_CHANNEL = VALUES_11 = VALUES_12!= VALUES_12 _36_CV_BUSINESS_TYPE = VALUES_13!= VALUES_13 1(32.0/8.0 0(30.0/7.0 _121_CV_VAL_FORNIT_RICH < 1379.5!= VALUES_11 >= 1379.5 _68_CV_CCIAA_PROVINCE = VALUES_10!= VALUES_10 _145_CV_SALES_CHANNEL = (O2 (O9 (OC!= (O2 (O9 (OC 1(13.0/5.0 1(142.0/15.0 0(30.0/5.0 0(57.0/28.0!= VALUES_2 _56_CV_SCORE < 166.5 1(56.0/20.0 >= 166.5 _68_CV_CCIAA_PROVINCE = VALUES_14!= VALUES_14 _121_CV_VAL_FORNIT_RICH < 691 = VALUES_15!= VALUES_15 _1_DE_CUSTOMER_STATUS = (E 1(23.0/4.0!= (E _68_CV_CCIAA_PROVINCE = VALUES_16!= VALUES_16 0(21.0/11.0 >= 691 1(57.0/12.0 0(108.0/44.0 0(84.0/19.0 1(341.0/79.0 < 125.5 1(50.0/12.0 _68_CV_CCIAA_PROVINCE = VALUES_22!= VALUES_22 _52_enc_CV_CCNAME = VALUES_23!= VALUES_23 1(77.0/46.0 0(8.0/1.0 = VALUES_19!= VALUES_19 _36_CV_BUSINESS_TYPE = VALUES_20!= VALUES_20 _35_CV_PROFESSION = VALUES_21!= VALUES_21 0(13.0/2.0 0(13.0/1.0 1(119.0/38.0 = VALUES_18 _129_CV_INVOKER_ID _145_CV_SALES_CHANNEL!= VALUES_18 DIFF_CVDATE_ACTDATE >= 125.5 = VALUES_17 _68_CV_CCIAA_PROVINCE = VALUES_24!= VALUES_24 = VALUES_25!= VALUES_25 1(144.0/37.0 _124_CV_N_GRUPPI_GEMELLE_AT < 0.5 = VALUES_26!= VALUES_26 _62_CV_TOT_FATT_EMESSE < 1.5 1(12.0/3.0 = VALUES_27!= VALUES_27 >= 1.5 _68_CV_CCIAA_PROVINCE = VALUES_28!= VALUES_28 1(5.0/0.0 0(8.0/0.0 >= 0.5 0(13.0/2.0 0(12.0/2.0 _71_CV_NUM_BUREAU < 0.5 1(31.0/9.0 0(88.0/27.0 >= 0.5 _145_CV_SALES_CHANNEL = VALUES_30!= VALUES_30 0(6.0/1.0 _68_CV_CCIAA_PROVINCE = VALUES_29 DIFF_CCEXP_CVDATE 0(14.0/6.0 < 934 >= 934!= VALUES_29 _70_CV_PINPAD_CODE < 0.5 _27_CV_PAYMENT_TYPE = (R 1(9.0/0.0!= VALUES_17!= (R 0(81.0/7.0 _145_CV_SALES_CHANNEL _68_CV_CCIAA_PROVINCE 1(63.0/15.0 >= 0.5 = VALUES_31!= VALUES_31 1(34.0/10.0 = VALUES_32 = VALUES_33!= VALUES_33 _129_CV_INVOKER_ID 1(63.0/25.0 = VALUES_34!= VALUES_34 = (APL (TAR!= (APL (TAR = VALUES_35!= VALUES_35 1(22.0/6.0 0(123.0/35.0 DIFF_CVDATE_ACTDATE 1(5.0/0.0 < 1553>= 1553!= VALUES_32 _108_CV_N_SERV_DATI_ATT 1(36.0/24.0 < 0.5 0(20.0/7.0 = VALUES_36 _138_CV_NUM_UMTS_ABB_BUS_AT _121_CV_VAL_FORNIT_RICH >= 0.5 < 1.5 _139_CVNUM_UMTS_ABB_PERS_AT < 2.5 0(84.0/34.0 < 2622.5 _70_CV_PINPAD_CODE >= 2.5!= VALUES_36 >= 1.5 1(5.0/0.0 >= 2622.5 0(339.0/45.0 1(33.0/12.0 1(12.0/1.0 < 0.5 0(36.0/12.0 < 231.5 _68_CV_CCIAA_PROVINCE = VALUES_37!= VALUES_37 _62_CV_TOT_FATT_EMESSE < 19.5 1(282.0/51.0 >= 0.5 >= 19.5 _105_B_CV_REAS_STAT_SOSP_DIS = (N 1(17.0/3.0!= (N 0(8.0/3.0 = VALUES_40!= VALUES_40 _109_CV_N_SERV_INTERNAZ_ATT < 7.5 1(59.0/25.0 _145_CV_SALES_CHANNEL = VALUES_41 >= 7.5 0(5.0/0.0 = ABR,CAL,LAZ, LIG,MAR,PIE, TAA,TOS,UMB,VEN N 63 12 N (0.8095238 0.1904762 * 0(173.0/32.0!= VALUES_41 0(29.0/10.0 _57_CV_SCORE_ID < 7.5 0(22.0/3.0 Reddito netto mensile N 144 27 N (0.8125000 0.1875000 * N 37 9 N < 1190 < 1210.5 >= 7.5 _138_CV_NUM_UMTS_ABB_BUS_AT < 0.5 _108_CV_N_SERV_DATI_ATT < 1.5 1(19.0/12.0 >= 1.5 DIFF_CVDATE_ACTDATE _129_CV_INVOKER_ID 0(12.0/3.0 >= 1210.5 = VALUES_42 _68_CV_CCIAA_PROVINCE = VALUES_43!= VALUES_43 1(80.0/24.0 >= 1190 Regione indirizzo attuale = BAS,CAM,EMI, LOM,PUG,SAR,SIC Anzianità lavoro attuale >= 92.5 (0.7567568 0.2432432 * N 10 2 N = R < 92.5 0(14.0/1.0 Forma di pagamento Anzianità lavoro attuale < 8.5 (0.8000000 0.2000000 * >= 8.5 = B >= 0.5 Numero rate < 16.5 N 15 4 N!= VALUES_42 0(70.29/18.51 (0.7333333 0.2666667 * Y 84 22 Y (0.2619048 0.7380952 * 1(16.0/1.0 = VALUES_39 DIFF_CCEXP_CVDATE < 1068.5>= 1068.5 >= 16.5 1(13.48/6.7 1(43.0/12.0 0(32.0/9.0 _132_CV_CANALE!= VALUES_39 0(54.0/12.0 = VALUES_46!= VALUES_46 < 418.5 _76_CV_SOGLIA_UTI < 210 1(16.0/2.0 Y 143 22 Y (0.1538462 0.8461538 * >= 210 = VALUES_47!= VALUES_47 0(5.0/0.0 = VALUES_38 _56_CV_SCORE >= 418.5 0(41.0/7.0 _56_CV_SCORE >= 231.5!= VALUES_38 _115_CV_STATUS_CUSTOMER_A < 3.5 >= 3.5 _145_CV_SALES_CHANNEL = VALUES_44 _68_CV_CCIAA_PROVINCE = VALUES_45 _56_CV_SCORE < 502 1(150.0/28.0 _62_CV_TOT_FATT_EMESSE 1(33.0/3.0 < 9.5 >= 502 0(10.0/3.0 1(74.0/22.0 _52_enc_CV_CCNAME!= VALUES_45 = VALUES_48!= VALUES_48 _27_CV_PAYMENT_TYPE = (P (R = VALUES_49!= VALUES_49 _35_CV_PROFESSION = VALUES_50!= VALUES_50 = (52-0000002 (52-0000007!= (52-0000002 (52-0000007 >= 9.5 0(8.0/2.0 0(19.0/7.0 1(11.0/1.0 DIFF_CVDATE_ACTDATE < 924 >= 924 DIFF_CVDATE_ACTDATE < 1403 >= 1403 = (PD (RA (VT!= (PD (RA (VT 1(12.0/4.0 0(34.0/7.0 0(29.0/18.0!= (P (R 0(565.0/168.0 0(133.0/70.0!= VALUES_44 _106_CV_N_SERV_VOCE_ATT < 0.5 _140_CV_NUM_UMTS_ABB_AZ_ATT < 2.5 _145_CV_SALES_CHANNEL = VALUES_53!= VALUES_53 _68_CV_CCIAA_PROVINCE = VALUES_54!= VALUES_54 _27_CV_PAYMENT_TYPE = (P (R 1(16.0/2.0!= (P (R _84_CV_SIM_RIC_AZIENDE < 1.5 _112_CV_N_WAL_MOD_RIC_AUT < 0.5 0(31.0/11.0 >= 0.5 1(7.0/0.0 >= 2.5 >= 0.5 0(76.0/9.0 0(62.0/15.0 = VALUES_1 >= 1.5 1(31.0/5.0 < 449.5 0(23.0/0.0 _129_CV_INVOKER_ID 1(27.0/3.0 = VALUES_55!= VALUES_55 0(8.0/0.0 _145_CV_SALES_CHANNEL _56_CV_SCORE = (DSCORP!= (DSCORP _68_CV_CCIAA_PROVINCE = VALUES_51 _121_CV_VAL_FORNIT_RICH < 1174 = VALUES_52!= VALUES_52 _36_CV_BUSINESS_TYPE = VALUES_56 _124_CV_N_GRUPPI_GEMELLE_AT < 1.5 1(80.0/54.0 >= 449.5 = VALUES_57!= VALUES_57 DIFF_CVDATE_ACTDATE < 3903.5 0(118.0/36.0 >= 1.5 0(11.0/0.0 >= 3903.5 = (MS (PA (UD!= (MS (PA (UD!= VALUES_56 1(7.0/1.0 0(56.0/1.0 = VALUES_58!= VALUES_58 1(14.0/1.0 >= 1174 _143_CV_NUM_SIM_CAN_FIX_ATT 0(69.0/32.0 0(180.0/16.0 0(5.0/0.0!= VALUES_51 < 1.5 1(60.0/12.0 1(67.0/22.0 >= 1.5 < 383 0(11.0/1.0 _56_CV_SCORE >= 383 0(26.0/1.0 _129_CV_INVOKER_ID _64_CV_ID_DOC_COUNTRY = VALUES_59!= VALUES_59 1(36.0/0.0 = VALUES_60 DIFF_CVDATE_ACTDATE < 240.5!= VALUES_60 _121_CV_VAL_FORNIT_RICH < 1745.5 _138_CV_NUM_UMTS_ABB_BUS_AT 0(856.0/156.0 < 0.5 1(23.0/3.0 >= 0.5 = VALUES_61!= VALUES_61 0(53.0/21.0 1(19.0/5.0 >= 1745.5 1(25.0/8.0 >= 240.5 _62_CV_TOT_FATT_EMESSE < 3.5 _70_CV_PINPAD_CODE < 0.5 _71_CV_NUM_BUREAU < 0.5 = VALUES_63!= VALUES_63 0(10.0/0.0 >= 0.5 0(103.0/20.0 = VALUES_62 _56_CV_SCORE < 442 _143_CV_NUM_SIM_CAN_FIX_ATT >= 0.5 < 2.5 >= 3.5 = VALUES_64!= VALUES_64 1(23.0/3.0 0(134.0/19.0 >= 2.5 _36_CV_BUSINESS_TYPE _62_CV_TOT_FATT_EMESSE < 1.5 0(21.0/8.0 = (0009!= (0009 1(13.0/0.0 >= 442 >= 1.5 1(6.0/0.0!= VALUES_1!= VALUES_62 0(169.0/15.0 0(17.0/8.0 1(84.0/27.0 _84_CV_SIM_RIC_AZIENDE < 1.5 0(2176.0/161.0 >= 1.5 _68_CV_CCIAA_PROVINCE = VALUES_65!= VALUES_65 1(20.0/4.0 _145_CV_SALES_CHANNEL = (I2 (OB = VALUES_67!= VALUES_67 0(13.0/1.0 0(14.0/6.0 _145_CV_SALES_CHANNEL = (I7 (OA _27_CV_PAYMENT_TYPE = (D!= (I2 (OB = VALUES_68!= VALUES_68 _33_CV_ID_DOC_TYPE = (0002 (0003!= (0002 (0003 1(28.0/11.0!= (D 0(79.0/17.0!= (I7 (OA 0(155.0/28.0 < 1.5 0(47.0/7.0 _AUX12_TIME_OF_DAY 1(50.0/45.0 DIFF_CVDATE_ACTDATE = (A (M!= (A (M _138_CV_NUM_UMTS_ABB_BUS_AT >= 1.5 0(26.0/6.0 < 1.5 = VALUES_66 _AUX11_TIMESLOT_HOUR < 7.5 = VALUES_69!= VALUES_69 DIFF_CVDATE_ACTDATE < 4069.5 >= 4069.5 1(54.0/17.0 >= 7.5 0(8.0/0.0 0(868.0/155.0!= VALUES_66 0(28.0/0.0 _64_CV_ID_DOC_COUNTRY = VALUES_70!= VALUES_70 DIFF_CVDATE_ACTDATE < 216 1(26.0/8.0 >= 216 >= 1.5 0(21.0/2.0 0(5816.0/356.0 _62_CV_TOT_FATT_EMESSE < 1.5 = VALUES_71!= VALUES_71 _56_CV_SCORE < 149.5 _1_DE_CUSTOMER_STATUS 1(190.0/21.0 = (N!= (N 0(6.0/0.0 >= 1.5 >= 149.5 = VALUES_72!= VALUES_72 _129_CV_INVOKER_ID = (1ST (DLS (DS!= (1ST (DLS (DS 1(31.0/3.0 0(224.0/22.0 0(39.0/2.0 = VALUES_73!= VALUES_73 1(12.0/2.0 0(24.0/2.0 0(19.0/10.0 Complessità dei modelli genera4 a confronto Albero per il dataset a maggior contenuto informa@vo Albero per un dataset a minore contenuto informa@vo La complessità dei modelli predi]vi dipende fortemente dal contenuto informa4vo dei dataset 2. Archite+ura 3. Funzionamento 47

Importanza delle variabili decisionali Contenuto informa@vo misurato con indice di Gini Punteggio verifica credito Origine richiesta verifica credito Differenza fra data richiesta e data agvazione Canale vendite ID punteggio verifica credito Provincia residenza in area Sud1 Provincia residenza in area Nord2 N. terminali richies3 Provincia residenza in area Nord1 N. SIM corporate richieste Importanza delle variabili (Mean Gini 0 100 200 300 400 500 600 700 800 900 2. Archite+ura 3. Funzionamento 48

Indici di performance: Terminologia u4lizzata True Posi@ve (TP: istanza appartenente alla classe posi3va (frodi che viene classificata corre+amente dall algoritmo. False Posi@ve (FP: istanza appartenente alla classe nega3va (non frodi che viene classificata in maniera errata dall algoritmo. True Nega@ve (TN: istanza appartenente alla classe nega3va (non frodi che viene classificata in maniera corre+a dall algoritmo. False Nega@ve (FN: istanza appartenente alla classe posi3va (frodi che viene classificata in maniera errata dall algoritmo. Posi@ve: P = TP + FN Nega@ve: N = TN + FP Matrice di confusione 2. Archite+ura 3. Funzionamento 49

Indici di performance: esempio test clinico Numero di pazien3 Situazione ideale reale λ variabile decisionale misurata nel test Soglia decisionale Sani (nega3vi Mala3 (posi3vi TN FN FP TP λ 0 λ 2. Archite+ura 3. Funzionamento 50

Indici di performance: risulta4 100% 90% 80% 70% Trend dell accuratezza 60% 50% 40% 30% True Posi3ve Rate False Posi3ve rate Errore globale 20% Trend dell errore 10% 0% 6 mesi 7 mesi 8 mesi 9 mesi 10 mesi 11 mesi Intervallo di training (n. mesi N. di mesi u3lizza3 per l addestramento (Train dei modelli predigvi. 2. Archite+ura 3. Funzionamento 51

Analisi con tecniche di classificazione: conclusioni Le tecniche di data mining impiegate si sono dimostrate efficaci nella classificazione automa3ca delle frodi. In par3colare, con da3 di un buon livello qualita3vo e quan3ta3vo si sono o+enute o]me performance. Tasso di veri posi3vi pari a 87% fino a 9 frodi su 10 vengono individuate corredamente Tasso di falsi allarmi pari a 10% solo 1/10 delle non- frodi vengono classificate in maniera errata TuG i modelli sono aggiornabili periodicamente 2. Archite+ura 3. Funzionamento 52

ecrime\ Conferenza finale, 28 Febbraio 2014 Sezione 5 Demo live

ecrime\ Conferenza finale, 28 Febbraio 2014

ecrime\ Conferenza finale, 28 Febbraio 2014 Grazie per l a\enzione! Domande?

Analisi con tecniche di classificazione: Metodologia u4lizzata Il dataset viene diviso in 2 par3: Una parte viene u3lizzata per addestrare gli algoritmi (training set Una parte per valuare le perfomance (test set Nel nostro caso: Training sui primi N mesi Test sul mese N+1 In questo modo viene simulato il comportamento in esercizio Dove l intervallo dei da3 in nostro possesso lo consente (telefoniche verrà variato il valore di N per osservare il trend temporale delle perfomance.

Indici di performance: Terminologia u4lizzata (2 True Posi@ve Rate: TPR = TP/P False Posi@ve Rate: FPR = FP/N True Nega@ve Rate: TNR = TN/N False Nega@ve Rate: FNR = FN/P Accuracy = (TP + TN / (P + N Error = (FP + FN / (P + N = 1 Accuracy Area Under Curve (AUC, definita come la misura dell area so+esa dalla curva ROC (Receiver Opera(ng Characteris(c. Indica il variare degli indici TPR e FPR al variare di tug i possibili valori della soglia di decisione (cutoff.