Classificazione (aka Cluster Analysis)

Transcript

1 Classificazione (aka Cluster Analysis) Classificazione non gerarchica esk-means Classificazione gerarchica divisiva Classificazione gerarchica agglomerativa Legame: singolo, completo, medio, Coefficiente di correlazione cofenetica Classificazione con vincoli Metodi innovativi (machine learning) es Self-organizing maps

2 Classificazione (= Cluster Analysis) 3? Obiettivo: massimizzare l omogeneità dei gruppi (o classi o clusters) (cioè: gli oggetti simili devono essere nello stesso cluster) Problema generale: cercare le discontinuità nello spazio dei dati da classificare Discontinuità Reali o naturali : es tassonomia Arbitrarie: es ecologia delle comunità

3 Clustering non-gerarchico: k-means Si utilizza direttamente la matrice dei dati calcolando distanze euclidee Si massimizza la varianza inter-classe per un numero dato a priori di classi In pratica, equivale a cercare le classi che massimizzano il rapporto F di una MANOVA a una via Procedura iterativa: k-means Scegli un numero di classi Assegna gli oggetti alle classi (a caso o in base ad un altra classificazione) 3 Sposta gli oggetti nelle classi il cui centroide è più vicino (la varianza intra-classe diminuisce) Ripeti lo step 3 finchè non c è più nessun cambiamento nella composizione delle classi 3

4 specie A A A specie A A A A A A A A A raclasse inerz iai t inerzia interclasse n in A tra ia c zr e in ess la Classificazione non gerarchica: Analisi delle Nubi Dinamiche (un algoritmo k-means) k-means con 3 classi Y X Variabile InterSQ gdl IntraSQ gdl rapporto F X Y ** TOTALE **

5 0 08 k-means con 3 classi Y X Classe di 3 (contiene casi) Membri Statistiche Caso Distanza Variabile Min Media Max DevSt Caso 00 X Caso 0 Y Caso Caso 00 Classe di 3 (contiene casi) Membri Statistiche Caso Distanza Variabile Min Media Max DevSt Caso X Caso Y Caso 9 00 Caso Classe 3 di 3 (contiene casi) Membri Statistiche Caso Distanza Variabile Min Media Max DevSt Caso 00 X Caso 6 00 Y Svantaggi della classificazione k-means Ottimizza le classi, ma non in modo globale (iterando si può ottenere una partizione più efficace) isogna scegliere il numero di classi a priori Ma quante classi devono essere scelte?

6 classe classe classe 3 Mappa della struttura della comunità epifita di P oceanica Classificazione gerarchica Solitamente si rappresenta con un dendrogramma 6

7 Classificazione gerarchica Divisiva Si cercano partizioni successive di un insieme di oggetti in due sotto-insiemi in modo da soddisfare un criterio predefinito Agglomerativa Si aggregano gli oggetti in gruppi ed i gruppi fra loro secondo un criterio predefinito Classificazione gerarchica divisiva Si inizia con tutti gli oggetti in una sola classe, poi: 0 Association index si dividono mediante classificazioni k-means o altre tecniche divisive con partizioni in due classi; si divide ogni volta la classe più eterogenea Oppure si dividono simultaneamente tutte le classi esistenti Si tratta di tecniche efficienti, ma poco usate!

8 0 Classificazione gerarchica agglomerativa Association index Si inizia con un oggetto per classe Le classi vengono fuse finchè ne rimane una soltanto E la classe di metodi di gran lunga più ampiamente diffusa Classificazione gerarchica agglomerativa Si lavora su una matrice di dissimilarità o distanza Procedura generale: Si calcola una matrice simmetrica di dissimilarità/distanza fra le classi Le classi fra cui la dissimilarità/distanza è minima vengono fuse fra loro 3 Si calcola la dissimilarità/distanza fra la nuova classe ottenuta e tutte le altre N I diversi algoritmi differiscono nel punto 3 8

9 Classificazione gerarchica agglomerativa A C D E A C D E Prima fusione: A e D AD C E AD 0? 0 C? E? Come calcolare le nuove distanze? Classificazione gerarchica agglomerativa Legame semplice A C D E A C D E AD C E AD C? E? d(ad,)=min{d(a,), d(d,)} 9

10 Classificazione gerarchica agglomerativa Legame completo A C D E A C D E AD C E AD C? E? d(ad,)=max{d(a,), d(d,)} Classificazione gerarchica agglomerativa Legame intermedio A C D E A C D E AD C E AD C? E? d(ad,)=mean{d(a,), d(d,)} 0

11 Classificazione gerarchica agglomerativa Metodo di Ward Minimizza la varianza intra-classe Affine ad algortimi basati sul calcolo delle distanze dai centroidi di classe (come nel caso dell algoritmo k-means) Average Linkage Legame intermedio Association index

12 Legame Single Linkage singolo Legame Average intermedio Linkage Association index Association index 0 Legame Complete completo Linkage 9 Ward's Algoritmo di Ward Association index Association index Metodi di classificazione gerarchica agglomerativa Legame semplice Produce catene di oggetti, contrae lo spazio intorno alle classi Non appropriato se l errore di campionamento è grande Usato in tassonomia Invariante rispetto alle trasformazioni dei dati Legame completo Produce classi compatte e dilata lo spazio intorno a esse Non appropriato se l errore di campionamento è grande Invariante rispetto alle trasformazioni dei dati Legame intermedio, centroide, di Ward Maggiore probabilità di riconoscere partizioni naturali Non invarianti rispetto alle trasformazioni dei dati

13 distanza euclidea D 0 0 similarità di Jaccard -S stazioni stazioni S specie coefficiente di associazione di Fager & McGowan Coefficiente di correlazione cofenetica (CCC) Correlazione fra la matrice di dissimilarità originale e quella inferita in base alla classificazione CCC >~ 08 indica un buon accordo CCC <~ 08 indica che il dendrogramma non è una buona rappresentazione delle relazioni fra oggetti Si può usare il CCC per scegliere l algoritmo ottimale 3

14 Legame Single Linkage singolo Legame Average intermedio Linkage CCC=077 CCC= Association index Association index 0 Legame Complete completo Linkage 9 Ward's Algoritmo di Ward CCC=080 CCC= Association index Association index Classificazione vincolata Si definisce un vincolo di natura spaziale (es contiguità fra oggetti) o di natura temporale (es successione) Si definisce un metodo per verificare che il vincolo sia rispettato (es rete di Gabriel per rappresentare la contiguità) Si applica il vincolo ad un qualsiasi algoritmo di classificazione Le classi ottenute possono essere più vicine alla nostra percezione della realtà Il fuoco si sposta dalla composizone delle classi alle discontinuità fra di esse

15 Distanza euclidea (dati quantitativi) Rete di Gabriel k= Dissimilarità di Jaccard (dati binari) k= D =96 max D =83 max D =66 max D =7 max dissimilarità di Jaccard

16 Problemi aperti Esistono realmente classi biologicamente o ecologicamente rilevanti? Il dendrogramma rappresenta la realtà biologica (web-of-life vs tree-of-life)? Quante classi usare? le regole per la selezione sono arbitrarie! Quale metodo usare? la tecnica ottimale dipende dai dati! I dendrogrammi non sono efficienti nel visualizzare classificazioni complesse Association index

17 C è qualcosa di meglio per casi complessi? Esistono metodi di nuova generazione, che non sono ancora molto diffusi in Ecologia La loro diffusione sta crescendo, ma bisogna che siano accettati dagli ecologi In molti casi, sfruttano le capacità di calcolo attualmente disponibili per tutti Si tratta soprattutto di tecniche mutuate dal campo del Machine Learning, dell Intelligenza Artificiale e del Data Mining Ordinamento e classificazione: Self-Organizing Maps (SOMs) o Mappe di Kohonen 7

18 sp O O O 3 Campioni O i O p Specie sp sp n Inizializzazione Addestramento delle unità virtuali (iterativo) - scelta casuale di un osservazione - identificazione della best matching unit (MU) - addestramento della MU e delle unità adiacenti Proiezione delle osservazioni sulla mappa O O O O O O O O O O O O O Vettoridiriferimento (unità virtuali) Specie Osservazioni O O O j O n sp x x x j x n sp x x x j x n sp i x i sp m x m x i x ij x in x m x mj x mn Al termine della procedura di addestramento O O j O n Specie Unità Virtuali UV UV UV k UV S sp w w w k w S sp w w w k w S sp i w i w i w ik w is sp m w m w m w mk w ms 8

19 Visualizzazione delle osservazioni Specie Osservazioni O O O j O n sp x x x j x n sp x x x j x n sp i x i x i x ij x in sp m x m x m x mj x mn O n O O j Visualizzazione delle Unità Virtuali Specie Unità Virtuali UV UV UV k UV S sp w w w k w S sp w w w k w S sp i w i w i w ik w is sp m w m w m w mk w ms O n O UV k UV UV UV S O j Ogni specie ha una diversa distribuzione Specie Unità Virtuali UV UV UV k UV S sp w w w k w S sp w w w k w S sp i w i w i w ik w is sp m w m w m w mk w ms Specie Specie Specie i 9

20 Una SOM 8 x basata sui dati di presenza/assenza delle farfalle UV diurne in un sottoinsieme Specie TAV delle piccole Accordo isole circumsarde ASI MAD SPI SER SMA LAP PCE 0939 ok SAN CCO 000 SPA UD ok PAE ok CAP RAZ SOF TAV PMA ok PR ok PRA 097 ok PDA 076 ok CCR 0939 ok GCL 097 ok LSI ok LCE 076 ok CJA ok VAT 000 ok VCA 0939 ok HNE 076 ok HAR 0939 ok MJU ok LTI 000 ok LPH 000 ok LO ok LPI ok CAR 076 ok LCO ok AAG ok ACR 097 ok MOL SST MOR PIC 0939 ok CAL ok GPU 076 ok LAV PAS ILT FIG MAL LIN OGL PAL SPT CAV LE AR CAM MLT La matrice U consente di visualizzare le distanze fra gli elementi di una SOM ASI MAD SPI SER SMA LAP LAV PAS SAN CAP D D D SPA D D D UD RAZ SOF FIG ILT PAL SPT CAV LE AR MLT CAM TAV MOL SST MOR MAL LIN OGL 0

21 Un applicazione delle Self-Organizing Maps (SOMs) Dati estratti da: Marina Cobolli, Marco Lucarelli e Valerio Sbordoni (996) Le farfalle diurne delle piccole isole circumsarde iogeographia, 8: 69-8 specie 8 specie identificate in 30 isole

22 Una SOM 8 x basata sui dati di presenza/assenza delle farfalle UV diurne in un sottoinsieme Specie TAV delle piccole Accordo isole circumsarde ASI MAD SPI SER SMA LAP PCE 0939 ok SAN CCO 000 SPA UD ok PAE ok CAP RAZ SOF TAV PMA ok PR ok PRA 097 ok PDA 076 ok CCR 0939 ok GCL 097 ok LSI ok LCE 076 ok CJA ok VAT 000 ok VCA 0939 ok HNE 076 ok HAR 0939 ok MJU ok LTI 000 ok LPH 000 ok LO ok LPI ok CAR 076 ok LCO ok AAG ok ACR 097 ok MOL SST MOR PIC 0939 ok CAL ok GPU 076 ok LAV PAS ILT FIG MAL LIN OGL PAL SPT CAV LE AR CAM MLT La matrice U consente di visualizzare le distanze fra gli elementi di una SOM ASI MAD SPI SER SMA LAP LAV PAS SAN CAP D D D SPA D D D UD RAZ SOF FIG ILT PAL SPT CAV LE AR MLT CAM TAV MOL SST MOR MAL LIN OGL

23 Self-Organizing Map vs Analisi delle Coordinate Principali ASI MAD SPI SER SMA LAP LAV PAS RAZ SST SAN CAP TAV SPA MOL UD RAZ SST MOR SOF FIG ILT MAL LIN OGL PAL SPT CAV LE AR MLT CAM UD SPA MOR MOL FIG SOF 0 TAV SAN CAP 0 LIN ILT PAL LAP SPI LEMLTOGLLAV SMA -0 CAMAR PAS MAL MAD CAV SPT SER - ASI Gonepteryx cleopatra (L, 767) Foto: wwwlepsit 3

24 Gonepteryx cleopatra Altitudine Foto: wwwlepsit Classification Trees

25 Il metodo: un esempio classico Nodo larg_petalo<0 FALSO Iris setosa Nodo larg_petalo>=0 VERO Nodo 3 larg_petalo<8 VERO 3 Nodo lung_petalo<7 VERO Nodo 6 lung_petalo>=7 FALSO Iris versicolor (9%) Iris verginica (9%) Iris verginica Nodo larg_petalo>=8 FALSO Iris verginica (98%) Iris versicolor (%) 80 lung_petalo Iris setosa Iris verginica Iris versicolor larg_petalo

26 Modelli strutturali: classification tree Variabili predittive: Profondità Varianza della profondità (raggio=00 m) Distanza dal punto noto senza Posidonia più vicino (distanza dal margine della prateria stimata per eccesso) Variabile da predire: Classe di densità della prateria (secondo Giraud) Un modello per Rosignano: Radice prof<0 varz(00)<939 prof<9 prof<6 II prof>=6 varz(00)<3833 varz(00)>=3833 III II prof>=9 III varz(00)>=939 IV prof>=0 d(margine)<3997 d(margine)>=3997 III IV 6

27 Classe vera Training Classe predetta I II III IV I II 3 8 III 7 9 IV % ok Classe vera Test Classe predetta I II III IV I II 7 III 3 IV % ok In sintesi 7

28 Alcuni metodi di classificazione Tipo Tecnica Uso Non gerarchico k-means Partizionare insiemi di dati Gerarchico divisivo k-means ripetuto uona tecnica su piccoli insiemi di dati Gerarchico agglomerativo Legame semplice Tassonomia Legame completo Classi omogenee Legame intermedio, centroide, di Ward Scelta più frequente Machine learning SOM Visualizzazione di insiemi di dati complessi Classification trees Previsione e pattern recognition 8