Metodi di classificazione

Transcript

1 I metodi di classificazione sono metodi utilizzati per trovare modelli statistici capaci di assegnare ciascun oggetto di provenienza incognita ad una delle classi esistenti. L applicazione di questi metodi presuppone che: - gli oggetti da analizzare siano suddivisi in classi definite a priori (classificazione( supervisionata). - gli oggetti appartenenti a classi diverse siano stati campionati da popolazioni diverse.

2 ?

3 Metodi di classificazione VARIABILI o DESCRITTORI COLORE ALTEZZA PROFUMO PETALI... ROSSO ALTO ROSSO ALTO GIALLO BASSO GIALLO BASSO ROSSO ALTO Ciascun oggetto è descritto da p variabili che contengono informazione relativa alle differenze tra le classi

4 Pazienti malati di itterizia vengono curati in un ospedale. Malati gravi : intervento chirurgico Malati meno gravi : terapia E possibile sulla base dei sintomi dei pazienti e delle analisi di laboratorio fare una corretta diagnosi? Utilizzando tutta l informazione relativa ai malati precedentemente curati o operati,, è possibile costruire una regola che assegnerà i pazienti futuri ad una delle due categorie con una piccola probabilità di errore.

5 Formalizzazione del problema della classificazione: - gli oggetti possono essere pensati come punti nello spazio definito dai descrittori (variabili x); - tutti gli oggetti (punti) appartengono ad una delle classi definite; - non si conosce a priori la classe di tutti gli oggetti; - la classe di appartenenza è nota solo per alcuni oggetti; tali oggetti costituiscono il training set: insieme di oggetti per cui sono noti sia il vettore dei descrittori sia la classe; - scopo della classificazione è: utilizzare gli oggetti del training set per costruire una regola per predire la classe di nuovi oggetti sulla base della sola informazione contenuta nei descrittori.

6 Modello o regola di classificazione Class (object 1) = f [x 1 (obj.. 1), x 2 (obj.. 1),.., x p (obj.. 1)] La classe è la variabile risposta e deve essere nota per tutti gli oggetti del training set. Le variabili o descrittori x sono le variabili indipendenti che descrivono le differenze tra le classi.

7 Modello o regola di classificazione La costruzione di un modello o regola di classificazione richiede la conoscenza delle differenze tra le classi (variabili discriminanti). La migliore regola di classificazione è quella che determina la più piccola probabilità di commettere errori nelle classificazioni future, cioè che minimizza l error rate delle classificazioni future.

8 Dal punto di vista geometrico, derivare una regola di classificazione equivale a ripartire lo spazio dei descrittori in tante regioni quante sono le classi. A ciascuna regione corrisponde una classe. I punti (oggetti) che cadono in una regione vengono assegnati alla classe corrispondente a quella regione. Le superfici di separazione tra le regioni vengono chiamate superfici decisionali.

9 Superfici decisionali In prossimità delle superfici decisionali il rischio di commettere errore nella classificazione degli oggetti è molto alto. Ci si può avvalere dell opzione di rifiuto.

10 Definizione delle CLASSI per conoscenza teorica o evidenza sperimentale interpretando i risultati della cluster analysis discretizzando una variabile quantitativa Esempio: x < 2.20 classe A 2.20 < x < 3.30 classe B x > 3.30 classe C

11 tipicità degli alimenti tossicità / mutagenicità biodegradabilità volatilità persistenza riconoscimento dei minerali diagnosi mediche Importanza dei metodi di classificazione rischio ambientale dei composti chimici analisi delle immagini riconoscimento dei composti chimici attraverso i loro spettri origine di provenienza dei reperti archeologici

12 metodi di classificazione modellanti : viene definito uno spazio di classe

13 Metodi di classificazione basati sulla minima distanza Regola di classificazione: l oggetto i viene assegnato alla classe più vicina assegnare i alla classe g se D 2 g < D 2 k per ogni k g D d h d h 2 T 1 g = xi xg W xi xg distanza di Mahalanobis al quadrato

14 Metodi di classificazione basati sulla minima distanza centroidi

15 Caso asimmetrico classe nonclasse

16 Caso asimmetrico Il caso asimmetrico è difficile da modellare. E sempre meglio definire anche le classi di non interesse.. In tal modo, si possono utilizzare le differenze relative a queste classi per costruire una buona regola di classificazione per la classe di interesse.

17 Discriminant Analysis (DA) - Bayesian methods - L analisi discriminante è il metodo di classificazione più importante, basato su modelli di probabilità e sulla regola di Bayes.

18 Discriminant Analysis (DA) Supponiamo di avere due classi A e B e di voler classificare un oggetto x sulla base dei valori di p variabili. Assunzione : x ha diversa distribuzione di probabilità nelle due classi f A (x)) : probabilità di x di appartenere a A f B (x)) : probabilità di x di appartenere a B Lo spazio p-dimensionale viene diviso in due regioni esaustive e mutuamente esclusive tali che in una regione R A si ha maggior probabilità di appartenere alla classe A e nell altra regione R B maggiore probabilità di appartenere alla classe B.

19 Discriminant Analysis (DA) A B R A f A (x)) > f B (x) R B f B (x)) > f A (x) x

20 Discriminant Analysis (DA) Date G classi,, la regola probabilistica più semplice é: assegnare x i alla classe g se f g (x i ) > f k (x i ) per ogni classe k diversa da g.

21 Discriminant Analysis (DA) Probabilità a priori delle classi Oggetti di una classe si osservano più raramente di quelli appartenenti ad un altra (ex. malati di tubercolosi rispetto a malati di bronchite). Probabilità a priori delle classi differenti

22 Discriminant Analysis (DA) Probabilità a priori delle classi P A : probabilità a priori della classe A P B : probabilità a priori della classe B P A << P B Un oggetto verrà assegnato alla classe A solo se la probabilità di A f A (x) è molto più grande della probabilità di B f B (x), in tutti gli altri casi verrà assegnato a B.

23 Probabilità a priori delle classi Le probabilità a priori possono essere note oppure essere calcolate: Pg = 1/ G P = n / n g g G è il numero totale di classi (g =1,2,...,G), n g il numero di oggetti nella g-esima classe e n il numero totale di oggetti.

24 Discriminant Analysis (DA) Tenendo conto delle probabilità a priori delle classi,, la regola di classificazione diventa: assegnare x i alla classe g se P g f g (x i ) > P k f k (x i ) per ogni classe k diversa da g. Questa regola è equivalente a quella derivata dalla massimizzazione della probabilità a posteriori della classe di appartenenza. a f a f Pg x > Pk x k g and k=1,..., G i i

25 Discriminant Analysis (DA) Probabilità a posteriori La probabilità a posteriori di un oggetto x i di provenire dalla classe g è ottenuta dal teorema di Bayes: b g bg Pg fg xi Pg xi = P f x k bg k k i P g è la probabilità a priori della g-esima classe f g bg x i è la densità di probabilità dell oggetto x i nella g-esima classe

26 Discriminant Analysis (DA) Densità di probabilità Se le densità di probabilità f g (x) nelle classi non sono note a priori, allora devono essere stimate dal training set. La funzione di densità di probabilità più utilizzata è quella normale.

27 x Discriminant Analysis (DA) bg i f x Densità di probabilità normale 1 = exp M 2π / / s b g L M N 1 i b x s x g 2 O QP

28 Discriminant Analysis (DA) Densità di probabilità normale multivariata bg x L 1 = NM 1 exp π / / 2 f g i p b g Sg dxi x h T g S d g xi x h -1 g O QP matrice di covarianza della g-esima classe centroide della g- esima classe i-esimo oggetto

29 Densità di probabilità normale multivariata bg L 1 = NM 1 exp π / / 2 f g x i p b g Sg dxi x h T g S d g xi x h -1 g O QP dxi x h T g Idxi x h g Mahalanobis distance dxi x h T g dxi x h g Euclidean distance

30 Discriminant Analysis (DA) b g b g i i Pg x > Pk x k g and g=1,..., G bg P f x > P f bg x g g i k k i massimizzare dopo alcune operazioni matematiche discriminant score minimizzare D bgd h d h T -1 g xi = xi xg Sg xi xg + ln Sg 2lnPg

31 discriminant score discriminant function class centroids

32 Linear Discriminant Analysis (LDA) Nel calcolo dello score discriminante D g viene usata la matrice di covarianza within-class pooled W = n g d g 1 n G h S g Assunzione : le diverse classi rappresentano popolazioni con struttura di varianza/covarianza simile. D bgd h d h T -1 g xi = xi xg W xi xg + ln Sp 2lnPg

33 Quadratic Discriminant Analysis (QDA) Nel calcolo dello score discriminante D g viene usata la matrice di covarianza within-class propria di ogni classe S g Assunzione : le diverse classi rappresentano popolazioni con struttura di varianza/covarianza diverse. La stima delle singole matrici di covarianza within-class è significativa solo se tutte le classi sono ben rappresentate.

34 Linear o Quadratic Discriminant Analysis? QDA produce superfici decisionali più flessibili (ipersuperfici), in grado di separare anche classi con forme e orientazioni diverse. LDA produce superfici decisionali lineari (iperpiani), meno flessibili ma molto stabili soprattutto quando si hanno pochi oggetti. QDA LDA

35 K-th Nearest Neighbour metodo - K-NN metodo - Metodo di classificazione non-parametrico parametrico, basato sul concetto di analogia tra gli oggetti. Regola di classificazione : ciascun oggetto è assegnato alla classe più frequente tra i k oggetti più vicini.

36 K-th Nearest Neighbour metodo k = 3

37 KNN algoritmo scalatura dei dati; selezione della misura di distanza; calcolo della matrice delle dissimilarità; selezione dell intervallo di valori di k (i.e. 1 k 7); per ciascun oggetto, si valuta la frequenza delle classi tra i k oggetti più vicini; l oggetto è assegnato alla classe più frequente; scegliere il valore ottimale di k minimizzando la probabilità di errore nelle classificazioni future.

38 la classificazione con KNN è influenzata da informazione locale semplice Vantaggi capace di modellare classi non-lineari buone prestazioni non si ottiene un modello analitico non è invariante alla scalatura e alla misura di dissimilarità KNN algoritmo Svantaggi

39 Metodi di classificazione ad albero Sono i metodi più antichi, anche chiamati metodi di ripartizione sequenziale, poichè basati su una serie di decisioni binarie sequenziali. Caratteristica comune di questi metodi: - costruzione di un albero decisionale (insieme di regole decisionali da seguire in una sequenza ben precisa).

40 Metodi di classificazione ad albero 1 a decisione ROOT variabile con suo valore soglia LEAF KNOT decisione finale (classe) KNOT LEAF LEAF LEAF

41 Metodi di classificazione ad albero La classificazione di un nuovo oggetto avviene percorrendo l albero decisionale dalla radice fino alle foglie.. In ciascun nodo, il valore che l oggetto assume per la variabile associata al nodo viene confrontato con il valore soglia della variabile. SI x ij t? j NO Left Right

42 Metodi di classificazione ad albero X 1 < 1? Sì No X 2 < 1? X 1 < 1.5? Sì No Sì No Classe 1 Classe 2 Classe 1 Classe 2

43 Metodi di classificazione ad albero 2 X 2 1 Classe 2 Classe 1 Classe 2 Classe X 1

44 Metodi di classificazione ad albero La ripartizione dello spazio dei descrittori avviene con superfici decisionali ortogonali agli assi. Ogni classe può essere rappresentata da più celle non contigue. Le variabili che definiscono questo spazio sono solo quelle che compaiono nell albero decisionale.

45 Metodi di classificazione ad albero Vantaggi : - si possono usare sia variabili numeriche sia categoriche; - sono invarianti alla scalatura; - utilizzano solo alcune variabili di quelle iniziali o una loro combinazione lineare; - sono facili da applicare.

46 Metodi di classificazione ad albero Costruzione dell albero decisionale Come scegliere le variabili da associare ai nodi e come ripartirle? Esistono diverse regole, ciascuna tipica del metodo scelto. Il metodo più noto è il metodo CART (Classification and Regression Trees).

47 Classification and Regression Trees - CART - Proposto da Breiman,, Friedman, Olshen e Stone (1984), è il metodo di classificazione ad albero più noto. A ciascun nodo viene assegnata la variabile che meglio separa gli oggetti del training set in funzione delle loro classi. La variabile selezionata è quella che minimizza l indice di Gini : GI..= p p k k k k p k = nk n

48 Classification and Regression Trees - CART - n G : 8 n R : 10 p G = 8 / 18 p R = 10 / 18 Sì X 1 < 1? No p G = 3 / 7 p R = 4 / 7 p G = 5 / 11 p R = 6 / 11 Sì X 2 < 1? X 1 < 1.5? No Sì No Classe G Classe R Classe G Classe R

49 ESEMPIO di applicazione di CART Stima delle classi di mobilità dei POPs utilizzando descrittori molecolari VANTAGGI : stima semplice e rapida della classe di mobilità stima della classe di mobilità di composti nuovi possibilità di screening di grandi database di composti

50 Modello CART per le classi di mobilità YES 0 χ 9.24? NO YES MW 226.3? YES 1 χ 8.03? 1 χ 9.25? S e 24.52? class class class class class class