Clustering. Clustering. Misure di similarità. Misure di distanza o dissimilarità. Leggere la sezione 6.6 di Witten e Frank = 1 = =

Documenti analoghi
Clustering. Clustering. Misure di similarità. Misure di distanza o dissimilarità. Leggere la sezione 6.6 di Witten e Frank = 1 = =

Corso di. Dott.ssa Donatella Cocca

Elementi di statistica

Introduzione al Machine Learning

ESERCIZIO 4.1 Si consideri una popolazione consistente delle quattro misurazioni 0, 3, 12 e 20 descritta dalla seguente distribuzione di probabilità:

Metodi e Modelli per l Ottimizzazione Combinatoria Progetto: Metodo di soluzione basato su generazione di colonne

Apprendimento Automatico e IR: introduzione al Machine Learning

Lezioni di Statistica (25 marzo 2013) Docente: Massimo Cristallo

MODELLI PER GESTIONE E LA RICERCA DELL'INFORMAZIONE

RAPPRESENTAZIONE DI MISURE. carta millimetrata

Dall appello del 16/7/04

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI

Modelli decisionali su grafi - Problemi di Localizzazione

CORRETTA RAPPRESENTAZIONE DI UN RISULTATO: LE CIFRE SIGNIFICATIVE

Corso di TEORIA DEI SISTEMI DI TRASPORTO. prof. ing. Umberto Crisalli

* PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE *

Modelli con varabili binarie (o qualitative)

3 (solo esame 6 cfu) Elementi di Analisi Numerica, Probabilità e Statistica, modulo 2: Elementi di Probabilità e Statistica (3 cfu)

Esercizio. Alcuni esercizi su algoritmi e programmazione. Schema a blocchi. Calcolo massimo, minimo e media

PROCEDURA INFORMATIZZATA PER LA COMPENSAZIONE DELLE RETI DI LIVELLAZIONE. (Metodo delle Osservazioni Indirette) - 1 -

Il campionamento casuale semplice

{ 1, 2,..., n} Elementi di teoria dei giochi. Giovanni Di Bartolomeo Università degli Studi di Teramo

Campo di applicazione

Alberi di classificazione: caratteristiche. della metodologia CART

Capitolo 3 Covarianza, correlazione, bestfit lineari e non lineari

Rappresentazione dei numeri PH. 3.1, 3.2, 3.3

Potenzialità degli impianti

LA VARIABILITA. Nella metodologia statistica si distinguono due aspetti della variabilità:

Ministero della Salute D.G. della programmazione sanitaria --- GLI ACC - L ANALISI DELLA VARIABILITÀ METODOLOGIA

Statistica e calcolo delle Probabilità. Allievi INF

Modelli descrittivi, statistica e simulazione

Capitolo 11: IL METODO DEI MINIMI QUADRATI. Nel Capitolo precedente ci siamo posti il problema di determinare la miglior retta che passa per

Integrazione numerica dell equazione del moto per un sistema lineare viscoso a un grado di libertà. Prof. Adolfo Santini - Dinamica delle Strutture 1

Intorduzione alla teoria delle Catene di Markov

Relazione funzionale e statistica tra due variabili Modello di regressione lineare semplice Stima puntuale dei coefficienti di regressione

Per calcolare le probabilità di Testa e Croce è possibile risolvere il seguente sistema di due equazioni in due incognite:

La t di Student. Per piccoli campioni si definisce la variabile casuale. = s N. detta t di Student.

Calcolo della caduta di tensione con il metodo vettoriale

6. Catene di Markov a tempo continuo (CMTC)

Scienze Geologiche. Corso di Probabilità e Statistica. Prove di esame con soluzioni

* * * Nota inerente il calcolo della concentrazione rappresentativa della sorgente. Aprile 2006 RL/SUO-TEC 166/2006 1

Gestione della produzione e della supply chain Logistica distributiva. Paolo Detti Dipartimento di Ingegneria dell Informazione Università di Siena

Variabili statistiche - Sommario

4. ALGORITMI GREEDY. cambia-monete scheduling a minimo il ritardo. Il problema del cambia-monete. Proprietà di una soluzione ottima

CPM: Calcolo del Cammino Critico

CEMENTO ARMATO PRECOMPRESSO Lezione 6

REALTÀ E MODELLI SCHEDA DI LAVORO

Ricerca Operativa e Logistica Dott. F.Carrabs e Dott.ssa M.Gentili. Modelli per la Logistica: Single Flow One Level Model Multi Flow Two Level Model

STATISTICA DESCRITTIVA CON EXCEL

Esercitazione 8 del corso di Statistica (parte 1)

Università di Cassino. Esercitazioni di Statistica 1 del 19 Febbraio Dott. Mirko Bevilacqua

Correlazione lineare

Metodo Monte Carlo. E. Vardaci

Probabilità cumulata empirica

Gestione della produzione e della supply chain Logistica distributiva. Paolo Detti Dipartimento di Ingegneria dell Informazione Università di Siena

Sommario. Obiettivo. Quando studiarla? La concentrazione. X: carattere quantitativo tra le unità statistiche. Quando studiarla?

LA COMPATIBILITA tra due misure:

Strumenti della Teoria dei Giochi per l Informatica A.A. 2009/10. Lecture 10: 6-7 Maggio Meccanismi con Pagamenti: Applicazioni e Limiti

Adattamento di una relazione funzionale ai dati sperimentali

Esercitazioni del corso: STATISTICA

CARATTERISTICHE DEI SEGNALI RANDOM

COSTRUIRE UN PICCOLO SET DI DATI

Regressione Multipla e Regressione Logistica: concetti introduttivi ed esempi

Statistica descrittiva

Relazioni tra variabili: Correlazione e regressione lineare

V n. =, e se esiste, il lim An

Variabili aleatorie discrete. Probabilità e Statistica I - a.a. 04/05-1

Corso di laurea in Ingegneria per l Ambiente e il Territorio a.a RETI TOPOGRAFICHE

Regressione lineare con un singolo regressore

Università degli Studi di Urbino Facoltà di Economia

4.6 Dualità in Programmazione Lineare

Propagazione degli errori statistici. Test del χ 2 per la bontà di adattamento. Metodo dei minimi quadrati.

Laboratorio 2B A.A. 2013/2014. Elaborazione Dati. Lab 2B CdL Fisica

ESERCIZI DI MATEMATICA FINANZIARIA DIPARTIMENTO DI ECONOMIA E MANAGEMENT UNIFE A.A. 2016/ Esercizi 2

Individuazione di linee e curve. Minimi quadrati. Visione e Percezione. Model fitting: algoritmi per trovare le linee. a = vettore dei parametri

Macchine. 5 Esercitazione 5

Valutazione dei Benefici interni

SOLUZIONE ESERCIZI: STRUTTURA DI MERCATO. ECONOMIA INDUSTRIALE Università degli Studi di Milano-Bicocca. Christian Garavaglia

La ripartizione trasversale dei carichi

5: Strato fisico: limitazione di banda, formula di Nyquist; caratterizzazione del canale in frequenza

Dati di tipo video. Indicizzazione e ricerca video

Matematica II: Calcolo delle Probabilità e Statistica Matematica

Metodi di Ottimizzazione mod. Modelli per la pianificazione delle attività

Esercizio statistica applicata all ingegneria stradale pag. 1

DATA MINING E CLUSTERING

Ettore Limoli. Lezioni di Matematica Prof. Ettore Limoli. Sommario. Calcoli di regressione

Le curve di Intensità-Durata-Frequenza (IDF) delle precipitazioni

MODELLO MONOINDICE. R = a + β R. R M = è variabile aleatoria di rendimento del mercato (in Italia può essere usato il MIB 30).

L'Analisi in Componenti Principali. Luigi D Ambra Dipartimento di Matematica e Statistica Università di Napoli Federico II

Lezione n. 7. Legge di Raoult Legge di Henry Soluzioni ideali Deviazioni dall idealit. idealità. Antonino Polimeno 1

CORSO DI FISICA TECNICA 2 AA 2013/14 ACUSTICA. Lezione n 2:

Leggere i dati da file

IL RUMORE NEGLI AMPLIFICATORI

Il modello markoviano per la rappresentazione del Sistema Bonus Malus. Prof. Cerchiara Rocco Roberto. Materiale e Riferimenti

COMPORTAMENTO DINAMICO DI ASSI E ALBERI

Geometria molecolare con distanze Euclidee

1) Dato un carattere X il rapporto tra devianza entro e devianza totale è 0.25 e la devianza totale è 40. La devianza tra vale: a) 10 b) 20 c) 30

Tutti gli strumenti vanno tarati

Controllo e scheduling delle operazioni. Paolo Detti Dipartimento di Ingegneria dell Informazione Università di Siena

Le curve di Intensità-Durata-Frequenza (IDF) delle precipitazioni

Transcript:

Clusterng Clusterng Raggruare le stanze d un domno n gru tal che gl oggett nello stesso gruo mostrno un alto grado d smlartà e gl oggett n gru dvers un alto grado d dssmlartà Leggere la sezone 6.6 d Wtten e Frank Msure d dstanza o dssmlartà Msure d smlartà Varano tra 0 e + nfnto Dstanze er unt n R n : dstanza eucldea 1 n d (, ( k yk ) y k 1 E un caso artcolare, con, della metrca d Mnkowsk d d k 1 1 (, ( k yk ) y 3 Varano tra 0 e 1 Funzone coseno s cos Coeffcente d Dce s Dce (, (, Smlarta esonente s e (, e T y y T y ( + y ) α ( y ) 4

Relazone tra le msure d smlarta e dssmlarta Un esemo: s (, d (, 1 1+ d (, 1 s(, s(, 5 K-means (versone( d Forg S alca a stanze aartenent a R n Sa k l numero de cluster che s voglono trovare 1. S scelgono k unt a caso n R n come centr de cluster. Le stanze sono assegnate al cluster avente l centro u vcno 3. S calcola l centrode (la meda) de unt n ogn cluster: questo raresenta l nuovo centro del cluster n j c j 1 n j 4. S rarte dal asso fnche tutte le stanze non sono assegnate allo stesso cluster n due terazon successve 6 K-means (versone( d MacQueen) In questo caso centrod vengono rcalcolat doo l assegnazone d ogn attern e non alla fne d un cclo d rallocazone: 1. S scelgono k unt a caso n R n come centr de cluster. S assegnano le stanze a cluster 3. S calcolano nuov centrod de cluster 4. Cascuna stanza e assegnata al cluster avente l centrode u vcno. Doo ogn assegnamento s deve rcalcolare l centrode del cluster che ha guadagnato l elemento e d quello che l ha erso 5. S rarte dal asso 4 fnche tutte le stanze non sono assegnate allo stesso cluster n due terazon successve Rsultato del clusterng Il k-means cerca d mnmzzare la funzone obettvo e k d j 1 cluster ( j) (, ) c j 7 8

Scelta de unt nzal Esemo (versone d Forg Sono ossbl vare scelte: Le rme k stanze nel dataset Etchetta le stanze con numer da 1 a m (numero delle stanze) e scegl quelle con numer m/k,m/k,,(k-1)m/k e m Sceglere a caso k stanze Generare k unt sceglendo a caso valor d cascun coordnata nel range della coordnata Genera un artzone del dataset n k sottonsem mutuamente esclusv e consdera centrod de sottonsem Punt nzal Centr de cluster Doo la seconda terazone Membr del rmo cluster Membr del secondo cluster 9 10 PAM PAM PAM (Parttonng Around Medods) Per trovare k cluster, s determna un oggetto raresentatvo er ogn cluster. Questo oggetto, chamato medod, e l oggetto collocato u centralmente nel cluster. Una volta selezonat medod, gl altr oggett vengono raggruat ntorno a quello u smle a loro 1. Selezona arbtraramente k medod nzal. Per ogn oggetto non selezonato, s vede se scambandolo con uno de medod s ottene un clusterng mglore 3. Contnua fno a che nessuno scambo orta a Sa O un oggetto selezonato come medod e O h l oggetto non selezonato consderato er lo scambo PAM calcola l costo C jh dello scambo tra O h e O er ogn oggetto non selezonato O j C sono 4 cas mgloramento 11 1

Caso 1 1. O j aartene al cluster d O Sa O j u vcno a O j, che a O h coe d(o j, O h )>d(o j, O j, ) dove O j, e l secondo medod u vcno a O j O j va nel cluster d O j, C jh d(o j,o j, )-d(o j,o ) C jh e semre non negatvo Caso. O j aartene al cluster d O. Ma O j e u dstante da O j, che a O h coe d(o j, O h )<d(o j, O j, ) O j va nel cluster d O h C jh d(o j,o h )-d(o j,o ) C jh uo essere sa ostvo che negatvo O j O h O O j, O j O O h O j, 13 14 Caso 3 3. O j aartene al cluster d un O k dverso da O. Sa O j u vcno a O k che a O h O j rmane nel cluster d O k C jh 0 Cas er C jh 4. O j aartene al cluster d un O k, ma O j e u lontano da O k che da O h O j va nel cluster d O h C jh d(o j,o h )-d(o j,o k ) C jh e semre negatvo O j O j O h O k O Oh O k O 15 16

Costo totale Il costo totale d rmazzare O con O h e TC h C jh j Algortmo 1. Selezona k oggett arbtraramente. Calcola TC h er tutte le coe d oggett O, O h dove O e correntemente selezonato e O h no 3. Selezona la coa O, O h che corrsonde al mn O,Oh TC h Se l mnmo e negatvo, sosttusc O con O h e torna al asso. 4. Altrment, assegna cscun oggetto al suo cluster e termna 17 18 Clusterng basato sulla robablta Basato su un modello statstco che s chama fnte mture Una mture e un nseme d k dstrbuzon d robablta, raresentant k cluster, cascuna delle qual descrve la dstrbuzone de valor er membr d quel cluster Ogn dstrbuzone fornsce la robablta che una stanza abba cert valor er suo attrbut suonendo che sa noto a quale cluster aartene Ogn stanza aartene a un solo cluster ma non saamo quale I cluster non hanno la stessa robablta Fnte mture Il caso u semlce e quello n cu s ha una sola varable reale e due cluster con dstrbuzone normale. Meda e varanza della dstrbuzone sono dverse er due cluster Obettvo del clusterng e quello d rendere un nseme d stanze e d trovare la meda e la varanza delle due dstrbuzon normal u la dstrbuzone delle stanze ne cluster 19 0

Esemo Fnte mture roblem A 51 A 43 B 6 A 45 A 4 A 46 A 45 A 45 B 6 A 47 A 5 A 51 B 65 A 49 A 46 A 51 A 5 B 6 A 49 B 6 A 43 A 40 data model A 51 B 63 A 43 B 65 B 66 B 65 A 46 A 39 B 6 A 5 B 63 A 51 A 4 A 41 C sono due cluster A e B con mede e devazon standard µ A, σ A e µ B, σ B I camon sono res da A con robablta A e da B con robablta B con A + B 1 Il rsultato e l dataset mostrato Problema d clusterng (detto anche fnte mture roblem): date le stanze (senza le class A o B), trovare l cnque arametr µ A, σ A, µ B, σ B e A ( B uo essere rcavato da A ) 1 Calcolo d meda e varanza Se s conoscesse da quale dstrbuzone vene ogn stanza, s otrebbero calcolare µ A, σ A, µ B e σ B con le seguent formule: σ 1 + + K+ µ µ + µ + K+ µ ( ) ( ) ( ) 1 1-1 a denomnatore e usato erche σ e calcolata su un camone nvece che sull ntera oolazone (s chama stmatore senza bas). Se e grande c e Calcolo d Pr(A ) Se conoscessmo 5 arametr, otremmo trovare le robablta che una stanza aartenga a cascuna dstrbuzone con la seguente formula Pr(A )Pr( A)Pr(A)f(; µ A,σ A ) A Pr() Pr() dove f(; µ,σ) e la dstrbuzone normale: Pr() non e noto f ( µ ) 1 σ ( ;, ) e µ σ πσ oca dfferenza. 3 4

Calcolo d Pr(A ) Allo stesso modo ossamo trovare l numeratore d Pr(B ). Saamo che Pr(A )+Pr(B )1 qund Qund: f(; µ A,σ A ) A + f(; µ B,σ B ) B 1 Pr() f(; µ A,σ A ) A + f(; µ B,σ B ) B Pr() Pr(A ) f(; µ A,σ A ) A f(; µ A,σ A ) A + f(; µ B,σ B ) B 5 Algortmo EM Il roblema e che non conoscamo ne 5 arametr ne l aartenenza delle stanze a cluster Perco adottamo una rocedura smle a quella del k-means: Comncamo con valor scelt a caso er 5 arametr Calcolamo le robablta de due cluster er ogn stanza usando valor attual de arametr (asso d Eectaton) Usamo la dstrbuzone delle stanze ne cluster er stmare arametr (asso d Mamzaton (della verosmglanza de dat)) Rartamo dal asso d Eectaton 6 Stma de arametr Stma d A In EM non abbamo l aartenenza netta delle stanze a var cluster ma solo una robablta. Perco le formule er la stma de arametr dventano: σ w + w + K+ w 1 1 µ A w1 + w + K+ w w1 ( 1 µ ) + w ( µ ) + K+ w ( µ ) A w1 + w + K+ w Dove w e la robablta che aartenga ad A e dove gl sono tutt gl, non solo quell che aartengono ad A 7 A w1 + w + K+ w 1 B A Dove w e la robablta che aartenga ad A e è l numero totale d camon 8

Quando termnare? Quando termnare K-means s ferma quando le class delle stanze non varano u EM coverge verso un unto fsso ma non c arrva ma effettvamente Possamo ero care quanto e vcno calcolando la verosmglanza (lkelhood) globale che dat dervno da questo dataset, dat valor de 5 arametr La verosmglanza globale s ottene n questo modo ( A Pr( A) + B Pr( B)) (Pr(, A) + Pr(, B)) Pr( ) 9 La verosmglanza globale e una msura della bonta del clusterng e aumenta a ogn terazone dell algortmo EM Attenzone: er Pr( A) s usa la funzone d dstrbuzone normale f(; µ A,σ A ) che non e una robablta ma una densta d robablta. Qund la verosmglanza non e una robablta ma comunque da una msura della bonta del clusterng In ratca, vene calcolato l logartmo della verosmglanza che trasforma rodott n somme Per esemo, un crtero er fermars otrebbe essere: c s ferma quando la dfferenza tra due valor successv della verosmglanza e nferore a 10-10 er dec terazon successve. 30 Proreta dell algortmo EM Anche se e garantto che EM converga a un massmo, non e detto che sa un massmo globale, otrebbe essere un massmo locale. Per questo la rocedura deve essere retuta dverse volte, artendo da dvers valor nzal de arametr La verosmglanza globale vene o usata er confrontare le dverse soluzon ottenute e rendere quella con la verosmglanza u alta 31 Estenson del mture model Usare u d due dstrbuzon: facle se l numero d dstrbuzon e dato come nut Pu d un attrbuto numerco: facle se s assume l ndendenza tra gl attrbut: Le robablta d cascuna classe dato un attrbuto sono moltlcate nseme er ottenere la robablta congunta della classe data l stanza Coe d attrbut numerc correlat: dffcle I due attrbut ossono essere descrtt da una dstrbuzone normale bvarata Ha un meda ma nvece d due varanze ha una matrce d covaranza smmetrca con 4 arametr C sono tecnche standard er stmare le robablta delle class delle stanze e er stmare la meda e la matrce d covaranza date le stanze e le loro robablta delle class 3

Estenson del mture model Pu d due attrbut correlat: dffcle S usano ancora dstrbuzon multvarate Il numero de arametr aumenta con l quadrato del numero d attrbut n attrbut ndendent: n arametr n attrbut correlat: n+n(n+1)/ arametr (er la smmetra della matrce d covaranza) Il numero d arametr causa overfttng Estenson del mture model Attrbut nomnal non correlat: un attrbuto con v valor ossbl e descrtto da v numer er ogn cluster (Pr( v j cluster h )) che raresentano la robablta d ogn valore Passo d eectaton: s calcola Pr(cluster h v j ) usando l teorema d Bayes S calcola Pr(cluster h ) moltlcando var Pr(cluster h v j ) er ogn attrbuto (assunzone d ndendenza) Passo d mamzaton S calcolano var Pr( v j cluster h ) da dat 33 34 Estenson del mture model nel asso d mamzaton c sono due roblem: Non conoscamo l aartenenza d una stanza ad una classe n manera netta ma solo robablstca (s consderano de es) Alcune stme d robablta ossono rsultare nulle. Queste stme annullano le Pr(cluster h v j ) e qund anche Pr(cluster h ) Per questo s usa la stma d Lalace Estenson del mture model Due attrbut nomnal correlat: se hanno v 1 e v ossbl valor, ossamo sostturl con un solo attrbuto covarante con v 1 v valor Il numero d arametr aumenta esonenzalmente con l aumentare del numero d attrbut correlat Presenza d attrbut sa numerc che nomnal: non c sono roblem se nessun attrbuto numerco e correlato con quell nomnal. In caso contraro l roblema e dffcle e non ce ne occuamo 35 36

Estenson del mture model Valor nomnal mancant: due ossblta : Non s consderano ne nel asso d eectaton (non s moltlca er Pr( v j cluster h )) ne nel asso d mamzaton S trattano come un valore n u Valor numerc mancant: stesse ossblta che er valor nomnal Estenson del mture model Al osto della dstrbuzone normale, altre dstrbuzon ossono essere usate: Attrbut numerc: Se c e un valore mnmo (ad es. eso) e meglo la dstrbuzone log-normale Se c e sa un mnmo che un massmo e meglo la dstrbuzone log-odds Se sono contegg nter nvece che valor real e meglo la dstrbuzone d Posson Dstrbuzon dverse ossono essere usate er attbut dvers 37 38 Autoclass Autoclass e un sstema d clusterng svluato dalla NASA che utlzza l algortmo EM Prova dvers numer d cluster e dfferent dstrbuzon d robablta er gl attrbut numerc L algortmo e comutazonalmente esante, er questo s defnsce a ror un temo d esecuzone e l algortmo termna una volta esaurto l temo Con u temo ossamo ottenere rsultat mglor Bblografa Ian Wtten, Ebe Frank Data Mnng: Practcal Machne Learnng Tools and Technques (Second Edton) Morgan Kaufmann Publshers, 005, ISBN 0-1- 088407-0 (dsonble n bbloteca) 39 40