Ricerca di outlier. Ricerca di Anomalie/Outlier



Documenti analoghi
Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

1. Distribuzioni campionarie


Capitolo 12 La regressione lineare semplice

matematica probabilmente

Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi

Temi di Esame a.a Statistica - CLEF

Statistica. Lezione 6

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di

E naturale chiedersi alcune cose sulla media campionaria x n

La distribuzione Normale. La distribuzione Normale

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

SVM. Veronica Piccialli. Roma 11 gennaio Università degli Studi di Roma Tor Vergata 1 / 14

Project Cycle Management

come nasce una ricerca

STATISTICA IX lezione

Carte di controllo per attributi

Il concetto di valore medio in generale

Università degli Studi di L Aquila. Facoltà di Ingegneria. Corso di Laurea in Ingegneria Elettronica Corso di Sistemi Informativi

LE CARTE DI CONTROLLO (4)

Criticità e potenzialità nella creazione di un progetto di efficientamento per i CAS.

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

MANUALE PER TUTORI AZIENDALI

GESTIONE DELLE TECNOLOGIE AMBIENTALI PER SCARICHI INDUSTRIALI ED EMISSIONI NOCIVE LEZIONE 10. Angelo Bonomi

Collegamento a terra degli impianti elettrici

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

Università di Pisa A.A

Automazione Industriale (scheduling+mms) scheduling+mms.

Nota interpretativa. La definizione delle imprese di dimensione minori ai fini dell applicazione dei principi di revisione internazionali

Test statistici di verifica di ipotesi

Inferenza statistica. Statistica medica 1

Istituzioni di Statistica e Statistica Economica

Elementi di Psicometria

Il problema è di modellizzare tali dati geografici in modo da gestirli poi automaticamente con pacchetti software.

Mon Ami 3000 Provvigioni agenti Calcolo delle provvigioni per agente / sub-agente

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

PRODUZIONE DI LENTI A CONTATTO

LA CORRELAZIONE LINEARE

Slide Cerbara parte1 5. Le distribuzioni teoriche

Elementi di Psicometria con Laboratorio di SPSS 1

Misure della dispersione o della variabilità

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

Regressione Mario Guarracino Data Mining a.a. 2010/2011

11. Analisi statistica degli eventi idrologici estremi

Fallimenti in psicoterapia psicodinamica J. Gold G. Stricker

Le equazioni. Diapositive riassemblate e rielaborate da prof. Antonio Manca da materiali offerti dalla rete.

Capitolo 13: L offerta dell impresa e il surplus del produttore

Sistemi Informativi Territoriali. Map Algebra

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

CORSO DI MISURE ANALISI DEI SEGNALI NEL DOMINIO DEL TEMPO

Statistica inferenziale

Statistiche campionarie

Facciamo qualche precisazione

Come scrivere una proposta progettuale

Capitolo 2 - Teoria della manutenzione: classificazione ABC e analisi di Pareto

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

MODELLO E/R. Prof. Francesco Accarino IIS Altiero Spinelli Sesto San Giovanni

VERIFICA DELLE IPOTESI

STRATEGIA DI TRADING. Turning Points

Sensori a effetto Hall bipolari con ritenuta stabilizzati e non stabilizzati con circuito chopper

Equilibrio bayesiano perfetto. Giochi di segnalazione

Relazioni tra variabili

VALORE DELLE MERCI SEQUESTRATE

1. PRIME PROPRIETÀ 2

Interesse, sconto, ratei e risconti

Corso di Automazione Industriale 1. Capitolo 4

La manutenzione come elemento di garanzia della sicurezza di macchine e impianti

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI)

FONDAMENTI DI PSICOMETRIA - 8 CFU

Capitolo 2 Distribuzioni di frequenza

Prova di autovalutazione Prof. Roberta Siciliano

COMUNE DI SOLBIATE ARNO

Statistical Process Control

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

Analisi di dati di frequenza

Reti sequenziali. Esempio di rete sequenziale: distributore automatico.

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI

1. Introduzione. 2. Simulazioni elettromagnetiche per la misura del SAR

INTEGRALI DEFINITI. Tale superficie viene detta trapezoide e la misura della sua area si ottiene utilizzando il calcolo di un integrale definito.

Progettazione di Basi di Dati

Corso di Laurea Magistrale in Chimica e Tecnologia Farmaceutiche E25

INTERPRETAZIONE DEI RISULTATI DEL QUESTIONARIO I

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

ELEMENTI DI STATISTICA

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

Edited by Foxit PDF Editor Copyright (c) by Foxit Software Company, 2004 For Evaluation Only.

Capitolo 25: Lo scambio nel mercato delle assicurazioni

SUCCESSIONI NUMERICHE

Corso di Psicometria Progredito

Sistema operativo: Gestione della memoria

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Elementi di Statistica descrittiva Parte I

4 Dispense di Matematica per il biennio dell Istituto I.S.I.S. Gaetano Filangieri di Frattamaggiore EQUAZIONI FRATTE E SISTEMI DI EQUAZIONI

Elementi di Psicometria con Laboratorio di SPSS 1

Transcript:

Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla maggior parte dei dati Formulazioni alternative del problema di ricerca di outlier: Dato un database D, trovare tutti i punti x D con un livello di anomalia superiore a una soglia t Dato un database D, trovare tutti i punti x D che presentano i top-n livelli di anomalia Dato un database D, contenente principalmente punti normali (ma non classificati come tali), e un punto di test x, calcolare il livello di anomalia per x rispetto a D Applicazioni: Identificazioni di frodi nell uso di carte di credito, intrusioni in una rete, identificazione di errori, pulizia di dati

Cause delle anomalie Dati da classi differenti: un oggetto può risultare differente poiché appartenente a una diversa classe Il truffatore che ha rubato una carta di credito segue un pattern di acquisto diverso da quello del legittimo proprietario Anomalie di questo tipo sono spesso l oggetto della ricerca Variazioni naturali: molti fenomeni possono essere modellati con distribuzioni probabilistiche in cui esiste, anche se molto ridotta, la probabilità che si verifichi un fenomeno con caratteristiche molto differenti dagli altri Una persona alta 210cm non è anomala perché appartenete a una classe diversa, ma perché la sua caratteristica altezza assume un valore estremo rispetto alla popolazione Anomalie di questo tipo sono spesso di interesse e oggetto di studio Errori di misurazione: dovuti a errori umani o dei dispositivi La ricerca di questo tipo di anomalia è finalizzata all esclusione dal data set dato che rappresenta un rumore che può pregiudicare la qualità dei risultati di analisi Ricerca di Anomalie/Outlier Elementi di complessità Quanti outlier ci sono nei dati? Il problema richiede normalmente tecniche non supervisionate La validazione è spesso molto complessa come nel caso del clustering Assunzioni: Il numero delle osservazioni normali è largamente superiore a quelle anormali Approccio generale Costruisci un profilo del comportamento normale Un profilo può essere definito tramite pattern o statistiche riassuntive della popolazione Utilizza il profilo normale per individuare le anomalie

Approcci grafici Analisi manuale dei dati svolta con il supporto di opportune tecniche di visualizzazione Boxplot (1-D), grafici a dispersione (2-D), ecc. Limiti Può richiedere molto tempo Soggettivo Di difficile applicazine a dati multidimensionali Approcci statistici Assumendo l esistenza di un modello parametrico che descrive la distribuzione dei dati (es. Distribuzione gaussiana) Si esegue un test statistico in cui si fissano I parametri della distribuzione (es. media e StdDev) Il numero atteso di outlier o equivalentemente un valore di soglia di probabilità I punti che presentano una probabilità sufficientemente ridotta sono considerati outlier

Limiti degli approcci statistici La maggioranza dei test è per distribuzioni mono dimensionali In molti casi le distribuzioni non sono note Per dati multidimensionali con elevata dimensionalità può essere molto difficile stimare la distibuzione dei dati con accuratezza Approcci basati sulla distanza I dati sono rappresentati da vettori di caratteristiche Un dato rappresenta un outlier se è distante dalla maggioranza degli altri punti Questa definizione è più facilmente applicabile a dataset reali dato che è più semplice identificare un appropriata misura di prossimità/distanza piuttosto che una precisa distribuzione dei dati Def. di outlier basato sulla distanza: il punteggio di outlier di un punto x è calcolato come distanza del suo k-nearest neighbor Il punteggio dipende dal valore di k Se k è troppo piccolo un insieme di outlier vicini possono determinare un punteggio di outlier basso ed essere considerati un cluster normale Se k è troppo grande al contrario tutti i punti di un cluster normale possono diventare outlier Per rendere l approccio più robusto rispetto al valore di k conviene utilizzare come score la media della distanza del punto dai primi k-nearest neighbor

Approcci basati sulla distanza k=1 k=1 k=5 In questo caso se si fosse utilizzato come score la media dei primi 5 neighbor, il punteggio di c sarebbe risultato più basso Approcci basati sulla distanza Hanno complessità O(N 2 ) con N numero dei punti nel dataset Sono sensibile alla scelta di k Non possono gestire dataset con densità variabile dei dati k=5 Il punto C viene correttamente individuato, ma come deve essere considerato il punto D?

Approcci basati sulla densità Def. di outlier basata sulla densità: un outlier è un elemento del data set posizionato in una zona a bassissima densità Gli approcci basati sulla densità sono simili a quelli basati sulla distanza dato che la densità è definita in temini di distanza di un punto dai suoi vicini La densità di un elemento x di un dataset D è calcolata come l inverso della media delle distanze dai suoi k-nearest neighbor density( x, = y N( x, distance( x, y) N( x, dove N(x, è l insieme dei k-nearest neighbor di x e denota la cardinalità dell insieme In alternativa potrebbe essere utilizzato il concetto di densità utilizzato in DBSCAN 1 Approcci basati sulla densità La precedente definizione di densità presenta gli stessi limiti delle tecniche basate sul concetto di distanza/prossimità: non permette di gestire dataset con densistà eterogenee Per superare questo limite è necessario definire il concetto di densità relativa definita in funzione della densità dei suoi vicini AVGRelDensity( x, = density( x, 1 density( y, N( x, y N( x,

Approcci basati sulla densità Utilizzando il concetto di densità relativa è possibile identificare efficacemente gli outlier anche per data set con densità variabile La densità relativa è utilizzata per misurare localmente la tendenza di un punto a essere un oulier Local Outlier Factor (LOF) Outlier in spazi con elevata dimensionalità Per dataset D con elevata dimensionalità d, i dati sono sparsi e le definizioni di prossimità, distanza e densità diventano poco significativi Le distanze tra i punti diventano molto simili e distanti Conviene quindi utilizzare tecniche diverse per la ricerca di outlier basate sulla proiezione dei punti su spazi a dimensionalità minori Un punto con dimensionalità d è un outlier se esiste una sua proiezione in uno spazio con dimensionalità k<d, in cui il punto appartiene a una regione con densistà fortemente bassa Possiamo quindi tentare di determinare quali regioni dei k-spazi presentino tali ridotte densità e quindi identificare come outlier quei record che vengono proiettati su quelle regioni

Outlier in spazi con elevata dimensionalità L individuazione di regioni a bassa densità avviene comparando la densità effettiva della regione con la densità che dovrebbe avere la regione assumendo distribuzione uniforme dei punti nello spazio Dividi i valori di ognuno dei d attributi in intervalli equi-eight φ A ogni intervallo sarà associata una frazione f = 1/φ del numero totale dei record Consideriamo ora una qualsiasi proiezione k-dimensionale ottenuta scegliendo k dei d attributi La suddivisione dei valori degli attributi in intervalli determina delle celle k-dimensionali Ipotizzando indipendenza tra i diversi attributi e distribuzione uniforme dei dati a ogni cella sarà associata una frazione f k dei record Se il dataset contiene N record, ogni cella sarà associata in media a N x f k record Il numero medio di record nella cella (N x f k ), per il teorema del limite centrale, segue una distribuzione gaussiana con DevStd k k N f (1 f ) Outlier in spazi con elevata dimensionalità Consideriamo ora una specifica proiezione k-dimensionale che utilizza un insieme K di attributi ( K =k ). Dato che nella pratica i dati non sono uniformente distribuiti a ogni cella C della proiezione sarà associata un certo numero di record n(c). Ogni cella C è definita da una coppia di coordinate per ognuna delle k dimensioni coinvolte nella proiezione La sparsità della cella C può essere definita come: k n( C) N f S( C) = k k N f (1 f ) Valori negativi di sparsità indicano celle con un numero di punti minore di quello atteso Dividendo per la StdDev si pesano diversamente gli scostamenti dai valori attesi in base all ampiezza della distribuzione normale

Outlier in spazi con elevata dimensionalità Proiettando 100 record multidimensionali su uno spazio 2- dimensionale si ottiene il seguente risultato I punti in azzurro sono i punti etichettati come outlier da un esperto del dominio N=100, φ = 5 f = 1/5 = 0.2 N f 2 = 4