Metodologie per Sistemi Intelligenti. Clustering. Ing. Igor Rossini Laurea in Ingegneria Informatica Politecnico di Milano Polo Regionale di Como
|
|
- Evangelista Venturi
- 8 anni fa
- Visualizzazioni
Transcript
1 Metodologie per Sistemi Intelligenti Clustering Ing. Igor Rossini Laurea in Ingegneria Informatica Politecnico di Milano Polo Regionale di Como
2 Cos è il clustering? Il processo di raggruppamento di un insieme di oggetti fisici o astratti in classi di oggetti simili (Han 2001). Un cluster è una collezione di oggetti simili tra loro che sono dissimili rispetto agli oggetti degli altri cluster.
3 Definizione Dati un insieme di esempi, descritti da un insieme di attributi, e una misura di similarità trovare un insieme di cluster tali che: Gli esempi appartenenti allo stesso cluster risultino simili Gli esempi appartenenti a cluster differenti dissimili La misura di similarità è il cuore del problema e il cuore della soluzione al problema Distanza Euclidea se gli attributi sono tutti numerici e se ha senso Nella maggior parte dei casi, è specifica al problema
4 A cosa si applica? In biologia può essere utilizzato per derivare tassonomie di animali e piante. Nel marketing può essere impiegato per derivare e caratterizzare gruppi di consumatori....per derivare aree geografiche simili. Nell analisi dei dati viene impiegato per studiare come i dati si distribuiscono nello spazio.
5 Clustering (1) Cerchiamo raggruppamenti interessanti Alla base c è l ipotesi che si possa definire una distanza o misura di similarità La distanza deve essere significativa per il dominio L ipotesi implicita è più i dati sono vicini, più sono simili Lo scopo generale è trovare dei cluster tali che Le distanze intracluster siano minime Le distanze intercluster siano massime
6 Clustering (2) Distance based clustering Un gruppo di oggetti appartengono allo stesso cluster se sono vicini rispetto ad una determinata distanza. Conceptual Clustering Gli oggetti appartengono ad un cluster se questo definisce un concetto comune ai diversi oggetti.
7 Applicazioni di Clustering Pattern Recognition Spatial Data Analysis Creare mappe tematiche negli strumenti GIS per individuare raggruppamenti simili nello spazio Image Processing Economic Science (especially market research) WWW Classificazione dei documenti Analisi dei dati di Weblog per scoprire gruppi caratterizzati da comuni profili di accesso e navigazione
8 Esempi di Applicazioni (1) Marketing Aiuta i marketing managers a scoprire segmenti distinti all interno della customer base, e quindi ad utilizzare questa conoscenza per lo sviluppo di campagne mirate di marketing Utilizzo del Territorio Identificare aree territoriali di simile utilizzo mediante l analisi di un database di osservazioni sul territorio Assicurazioni Partizionare il portafoglio clienti auto in segmenti a supporto delle attività di target marketing
9 Esempi di Applicazioni (2) Pianificazione urbana Identificare gruppi di edifici per tipologia, valore e localizzazione geografica Studi sismici Formare cluster di epicentri di eventi sismici e verificare che si trovino lungo le faglie dei continenti Astronomia Analisi delle immagini del cielo Analisi delle esplosioni di raggi gamma
10 Requisiti Scalabilità Possibilità di trattare molteplici tipi di attributi Minimo numero possibile di parametri Possibilità di trattare dati affetti da rumore Indipendenza dall ordine degli esempi Possibilità di trattare esempi con molti attributi
11 Esempio (1)
12 Esempio (2)
13 Quali sono i problemi tipici? L efficacia dipende dalla definizione di distanza Se non esiste una misura di distanza ovvia, bisogna inventarla La bontà del risultato dipende completamente dall adeguatezza della misura rispetto al problema L interpretazione del risultato dipende dalla distanza. I risultati in molti casi possono essere arbitrari come pure la loro interpretazione!
14 Esempio Abbiamo dei dati relativi agli accessi ad un sito Conosciamo gli IP degli utenti che accedono al sito Provare a definire una distanza fra indirizzi IP
15 Tassonomie Tassonomia degli Algoritmi Gerarchici viene generata una gerarchia di possibili suddivisioni Partition-Based viene generata una sola partizione Tassonomia delle tecniche Bottom-up Top-down
16 Algoritmi di Clustering Partition-based clustering Dato k, partiziona gli esempi in k cluster di almeno un elemento; ogni esempio può appartenere solo ad un elemento. Hierarchical clustering Scompone l insieme degli esempi in una gerarchia di partizioni di diversa complessità. Density-based clustering Gli esempi vengono suddivisi in cluster via via sempre più numerosi fino a quando la densità di ogni cluster rimane accettabile. Grid-based e Model-based clustering
17 Algoritmi Partition-Based Scopo: trovare una suddivisione dei dati in k cluster (k fissato all inizio) Strategie Locali formare i cluster sfruttando la struttura locale dei dati Strategie Globali ogni cluster viene rappresentato da un prototipo, ogni esempio viene assegnato al cluster il cui prototipo è maggiormente simile
18 Algoritmi Gerarchici Si parte Da un unico cluster contenente tutti gli esempi (top-down) Da un cluster per ogni esempio (bottom-up) Ad ogni passo, Si divide un cluster in due (top-down) Si raggruppano due cluster (bottom-up) In questo modo si forma una gerarchia di suddivisioni, fusioni di cluster La gerarchia viene rappresentata con un dendrogramma
19 Nearest Neighbor Clustering Input Una soglia t sulla distanza Un insieme di n esempi x 1...x n Una misura di distanza Output k cluster in cui la distanza fra elementi appartenenti a cluster distinti è almeno t
20 Funzionamento del NN INPUT t e gli n esempi {x 1...x n } OUTPUT k cluster C 1 = {x 1 }; i=1; k=1; do { i=i+1; x = elemento più vicino a x i tra quelli assegnati ai cluster; // assumiamo x appartenga al cluster C m ; if (distanza(x i,x )>t) { k = k + 1; C k = {x i }; } else { C m = C m +{x i }; } } while (i!=n);
21 NN per Classificazione E possibile utilizzare il NN come modello di classificazione Per ogni nuovo caso da classificare occorre: Calcolare la similitudine di quest ultimo rispetto ai cluster individuati dal modello non supervisionato Attribuire al nuovo caso la stessa classificazione del cluster cui risulta più simile Aggiungere il nuovo caso classificato alla tabella dei casi noti
22 Esempio Nearest Neighbor (1.1) 4 3? 2? 1? Programma televisivo A Programma televisivo B Programma televisivo C Programma televisivo D
23 Esempio Nearest Neighbor (1.2) 4 3 W 2 X 1 Z Programma televisivo A Programma televisivo B Programma televisivo C Programma televisivo D
24 Esempio Nearest Neighbor (2.1) Codice Paziente Mal di Gola Febbre Ghiandole Ingrossate Congestione Mal di Testa 1 Si Si Si Si Si Diagnosi Affezione da Streptococco 2 No No No Si Si Allergia 3 Si Si No Si No Raffreddore 4 Si No Si No No Affezione da Streptococco 5 No Si No Si No Raffreddore 6 No No No Si No Allergia 7 No No Si No No Affezione da Streptococco 8 Si No No Si Si Allergia 9 No Si No Si Si Raffreddore 10 Si Si No Si Si Raffreddore
25 Esempio Nearest Neighbor (2.2) Nuovo paziente da classificare Codice Paziente Mal di Gola Febbre Ghiandole Ingrossate Congestione Mal di Testa 14 Si No No No No Similitudine in base al conteggio delle corrispondenze attributo-valore Corrispondenze Pazienti 1, 9 2, 5, 10 3, 6, 7, 8 4 Affezione da Streptococco
26 Considerazioni sul NN (1) Vantaggi Per la sua efficacia è necessario un pretrattamento dei dati per la determinazione degli attributi rilevanti Ridotti tempi di calcolo confrontando i casi da classificare con un sottoinsieme di casi tipici tratti da ogni classe rappresentata nei dati La descrizione generale di ciascuna classe può essere ottenuta esaminando gli insiemi dei casi più tipici delle classi
27 Considerazioni sul NN (2) Svantaggi Tempi di calcolo elevati nel caso di dataset di grandi dimensioni Non effettua distinzioni tra attributi rilevanti e irrilevanti Difficoltà nel capire se gli attributi scelti siano in grado di differenziare le classi contenute nei dati
28 k-means Dati Un numero k Un insieme di n esempi Una misura di distanza Un criterio di stop (minimo errore quadratico) Il k-means partiziona gli n esempi in k cluster La similarità fra esempi appartenenti allo stesso cluster deve essere alta La similarità fra oggetti appartenenti a cluster diversi deve essere bassa
29 Funzionamento del k-means? INPUT OUTPUT k e gli n esempi k cluster che minimizzano l errore quadratico Dato k e n esempi Seleziona k esempi tra n come centroidi iniziali Repeat assegna ogni esempio al cluster corrispondente al centroide a cui l esempio e più vicino. calcola il valore medio degli elementi del cluster ovvero calcola i nuovi centroidi. Until criterio soddisfatto
30 Come funziona il k-means? Come criterio di stop viene solitamente utilizzato l errore quadratico: Dove m i rappresenta il centroide del cluster C i
31 Esempio k-means
32 Applicazione k-means (1) Valori di input Osservazione X Y
33 Diagramma dei dati di input f(x) 7,0 6,0 5,0 4,0 3,0 2,0 1,0 0,0 x 0,0 1,0 2,0 3,0 4,0 5,0 6,0
34 Assegnazione del valore k Hp due cluster distinti: k=2 Hp centri dei due cluster: Osservazione 1 Osservazione 2 f(x) 7,0 6,0 5,0 4,0 3,0 2,0 1,0 0,0 x 0,0 1,0 2,0 3,0 4,0 5,0 6,0
35 Prima iterazione algoritmo C 1 =(1.0, 1.5), C 2 =(2.0, 1.5) Centroide 1 Distanze Valore (C 1-1) 0.00 (C 1-2) 3.00 (C 1-3) 1.00 (C 1-4) 2.24 (C 1-5) 2.24 (C 1-6) 6.02 Centroide 2 Distanze Valore (C 2-1) 1.00 (C 2-2) 3.16 (C 2-3) 0.00 (C 2-4) 2.00 (C 2-5) 1.41 (C 2-6) 5.41
36 Risultati prima iterazione Cluster ottenuti C 1 {1, 2} C 2 {3, 4, 5, 6} Calcolo nuovi centroidi Cluster C 1 x=( )/2=1.0 y=( )/2=3.0 Cluster C 2 x=( )/4=3.0 y=( )/4=3.3
37 Seconda iterazione algoritmo C 1 =(1.0, 3.0), C 2 =(3.0, 3.375) Centroide 1 Distanze Valore (C 1-1) 1.50 (C 1-2) 1.50 (C 1-3) 1.80 (C 1-4) 1.12 (C 1-5) 2.06 (C 1-6) 5.00 Centroide 2 Distanze Valore (C 2-1) 2.74 (C 2-2) 2.29 (C 2-3) (C 2-4) 1.01 (C 2-5) (C 2-6) 3.30
38 Risultati seconda iterazione Cluster ottenuti C 1 (1, 2, 3) C 2 (4, 5, 6) Calcolo nuovi centroidi Cluster C 1 x=( )/3=1.3 y=( )/3=2.5 Cluster C 2 x=( )/3=3.3 y=( )/3=4.0
39 Terza iterazione algoritmo C 1 =(1.3, 2.5) C 2 =(3.3, 4.0) Centroide 1 Distanze Valore (C 1-1) (C 1-2) (C 1-3) (C 1-4) (C 1-5) (C 1-6) Centroide 2 Distanze Valore (C 2-1) (C 2-2) (C 2-3) (C 2-4) (C 2-5) (C 2-6)
40 Cluster risultanti Risultato Centri dei Punti dei Cluster Cluster (2.6, 4.6) 2, 4, 6 (2.0, 1.8) 1, 3, 5 (1.5, 1.5) 1, 3 (2.7, 4.1) 2, 4, 5, 6 (1.8, 2.7) 1, 2, 3, 4, 5 (5,0, 6.0) 6 Errore Quadratico 1 14,5 2 15,9 3 9,6
41 Visualizzazione risultato 2 f(x) 7,0 6,0 5,0 4,0 3,0 2,0 1,0 0,0 x 0,0 1,0 2,0 3,0 4,0 5,0 6,0
42 Considerazioni sul k-means (1) Vantaggi Di immediata comprensione e implementazione Relativamente efficiente: O(tkn), dove n è # records, k è # clusters, e t è # di iterazioni. Normalmente, k, t << n Spesso si arresta in un ottimo locale. L ottimo globale può essere determinato utilizzando altre tecniche di analisi come gli algoritmi genetici
43 Considerazioni sul k-means (2) Svantaggi Applicabile solo quando la media è definita, quindi non nel caso di attributi categorici Occorre specificare a priori il numero dei cluster k Difficoltà nel trattare dati con rumore e outliers Non adatto a scoprire clusters con forme geometriche non convesse I risultati sono migliori quando i cluster presenti nei dati hanno la stessa dimensione Necessità di interpretare i risultati ottenuti
44 Clustering Gerarchico I cluster non vengono creati in un unico passo Si inizia con una partizione in cui: ogni elemento è un potenziale cluster; oppure tutti gli elementi formano un unico cluster. A partire da questa situazione iniziale è possibile creare agglomerati dai singoli cluster per formare via via cluster più grandi dividere i cluster più grandi per formare cluster via via più piccoli
45 Clustering Gerarchico Supponiamo di avere cinque elementi di cui vogliamo trovare gli agglomerati interessanti. Primo Passo: Calcolo della Matrice delle distanze D = Dij è la distanza fra l elemento i e l elemento j
46 Clustering Gerarchico Secondo Passo Si trovano i due elementi più vicini e si raggruppano in un singolo cluster. In questo caso i primi due elementi sono più vicini. Terzo Passo: ricalcolo della matrice delle distanze. Qual è la distanza fra due cluster?
47 Qual è la distanza fra due cluster?
48 Single Linkage Clustering d (12)3 = min[d 13,d 23 ] = d 23 = 5.0 d (12)4 = min[d 14,d 24 ] = d 24 = 9.0 d (12)5 = min[d 15,d 25 ] = d 25 = 8.0
49 Clustering Gerarchico La nuova matrice D 2 è: D 2 = Il processo continua fino a trovare un solo cluster
50 Clustering Gerarchico Per visualizzare il risulato di un operazione di clustering gerarchico usiamo un dendrogramma.
51 Complete Linkage Clustering d (12)3 = max[d 13,d 23 ] = d 23 = 6. d (12)4 = max[d 14,d 24 ] = d 24 = 10.0 d (12)5 = max[d 15,d 25 ] = d 25 = 9.0
52 Complete Linkage Clustering
53 Average Linkage Clustering d AB = (d 13 + d 14 + d 15 + d 23 + d 24 + d 25 )/6
54 Clustering Gerarchico
55 AGNES (Agglomerative Nesting) Introdotto da Kaufmann e Rousseeuw (1990) Implementato in tool di analisi statistica (es. Splus) Utilizza il metodo del Single-Linkage e la matrice di dissimilarità Crea i cluster unendo i nodi con il più basso valore di dissimilarità I cluster sono creati secondo una modalità di tipo bottom-up Eventualmente tutti i nodi sono raggruppati in un unico cluster
56 Esempio AGNES
57 DIANA (Divisive Analysis) Introdotto da Kaufmann e Rousseeuw (1990) Implementato in tool di analisi statistica (es. Splus) Formazione dei cluster in ordine inverso rispetto all algoritmo AGNES Eventualmente ogni nodo forma un singolo cluster
58 Esempio DIANA
59 Considerazioni Non necessitano della definizione a priori del numero di gruppi Onerosi dal punto di vista computazionale Scarsamente efficienti con grandi moli di dati Fortemente influenzati dalla presenza di outliers
60 Analisi Fattoriale E una tecnica statistica per lo studio dell interdipendenza tra variabili di tipo quantitativo Lo scopo è condensare l informazione contenuta in un numero elevato di variabili in un numero esiguo di nuove variabili (fattori latenti) I fattori latenti sono ottenuti come combinazione lineare delle variabili di partenza con una perdita minima di informazione
61 Esempio (1) Matrice di Input Cliente Premio Campione Omaggio ANALISI FATTORIALE Raccolta Punti Concorso Riduzione di Prezzo 3 * 2 Quantità Prodotto Aggiuntiva
62 Esempio (2) Tabella di Output RISULTATI Componenti Variabili Interpretazione Premio, - Campione Omaggio, - Raccolta Punti -Concorso - Riduzione di Prezzo -3 * 2 - Quantità Aggiuntiva di Prodotto Esprime un interesse per il Regalo Certo Legata esclusivamente al concorso, esprime una preferenza per il Regalo Incerto Indica l esistenza di un fattore che si può denominare economia di spesa
63 Analisi delle Componenti Principali (1) Criterio più comune di estrazione dei fattori da un insieme di dati Consiste nella trasformazione del set di dati originale in un nuovo insieme di variabili composite definite componenti principali
64 Analisi delle Componenti Principali (2) Le componenti principali sono: una combinazione lineare del set iniziale di dati non correlate fra di loro ordinate in maniera decrescente rispetto alla variabilità spiegata del set di dati di input Le varianze delle componenti principali, indicate con λ i, sono chiamate autovalori Gli autovettori identificano la direzione di ogni componente principale
65 Esempio PCA (1) Grafico del set di dati iniziale
66 Esempio PCA (2) Calcolo delle direzioni principali (autovettori)
67 Esempio PCA (3) Proiezione del set di dati secondo le direzioni principali
68 Principal Direction Divisive Partitioning Algoritmo gerarchico divisivo Opera su valori numerici (anche con valori missing) Lo split non è basato su alcuna misura di distanza o similarità ma sul calcolo delle Componenti Principali
69 PDDP Inizia con un cluster iniziale contenente l intero set di dati Divide inizialmente il cluster iniziale in due cluster figli Divide ricorsivamente i due cluster figli in ulteriori due cluster L algoritmo termina quando un criterio di stop è soddisfatto Le partizioni generate sono visualizzate in un albero binario ( PDDP tree )
70 PDDP tree
71 Esempio: clustering di documenti Abbiamo un insieme di documenti Ogni documento è caratterizzato da un vettore di frequenze, che ci dice quanto una parola compare in un documento Vogliamo applicare il clustering per ottenere raggruppamenti interessanti di documenti
72 Set di Dati di Ingresso Ogni esempio è rappresentato da un vettore d n-dimensionale d documento di testo La componente d i rappresenta la frequenza relativa della componente i-esima d i frequenza relativa della i-esima parola del documento Ogni esempio è standardizzato al fine di avere uno stesso ordine di grandezza d =1
73 Matrice di Frequenza I vettori sono raggruppati nella Matrice di Frequenza M=(d 1, d 2,, d n, ) Quake Risk High Closes For Snow Rose Bowl Result Big 10 Sanctions Berkeley Stantofrd Minnesota Wisconsin Housing Crunch Ucla Caltech
74 Processo di Split (1) A partire dalla matrice M si calcolano le Direzioni Principali Lo split avviene in base ai valori ottenuti dalla proiezione dei vettori d sulle Direzioni Principali Il processo si ripete sull intero set di dati
75 Processo di Split (2)
76 Funzionamento del PDDP? INPUTmatrice M (n m) contenente gli n esempi e un numero desiderato di cluster pari a c max OUTPUT un albero binario con c max nodi foglie formanti una partizione dell intero set di dati Inizializzazione dell albero binario con un singolo nodo radice (contenente tutto il set di dati) Repeat for c=2, 3,, c max seleziona il nodo con il più alto valore di dissimilarità calcolo del centroide e della direzione principale proiezione degli esempi del nodo secondo la direzione principale split degli esempi nel nodo di sinistra o di destra dell albero a seconda che il segno della proiezione sia positivo o negativo (se coincidente con il centroide lo split dell esempio è per convenzione a sinistra) Until sono ottenuti c max cluster
77 Considerazioni Necessita della definizione a priori del numero di gruppi Veloce, Scalabile, Efficiente con grandi moli di dati Riducendo la dimensionalità del set di dati iniziale risulta poco sensibile agli outliers
78 Metodologie per Sistemi Intelligenti Clustering Metodologia di Analisi Ing. Igor Rossini Laurea in Ingegneria Informatica Politecnico di Milano Polo Regionale di Como
79 Fasi della Cluster Analysis Scelta Scelta delle delle VARIABILI VARIABILI Eventuale Eventuale riduzione riduzione in in Componenti Principali Principali Selezione Selezione della della Misura Misura di di Prossimità Prossimità tra tra le le variabili variabili Selezione Selezione dell Algoritmo di di Classificazione Identificazione del del numero numero dei dei gruppi gruppi entro entro i i quali quali ripartire ripartire le le entità entità Valutazione della della soluzione soluzione ottenuta ottenuta Eventuale Eventuale riciclo riciclo del del processo processo di di analisi analisi Analisi Analisi della della soluzione soluzione più più appropriata
80 Scelta delle Variabili Data la matrice di dati relativa ad n osservazioni e p variabili x x i1... x n x 1f... x if... x nf x 1p... x ip... x np occorre decidere quali variabili inserire e le opportune trasformazioni da effettuare (standardizzazione, analisi fattoriale)
81 Selezione della Misura di Prossimità Indici di Similarità forniscono informazioni preliminari indispensabili per poter individuare gruppi di unità omogenee sono definiti come funzione dei vettori riga della matrice di dati IP ij =f(x i, x j ) i, j=1,2,,n x i, x j vettori riga Differiscono a seconda che i dati considerati siano quantitativi, categorici, binari o misti
82 Tipi di dati nel clustering Scala per Intervallo Binarie Nominali, Ordinali, Scala per Rapporto Miste
83 Scala per Intervallo Standardizzazione dei dati Calcolare la deviazione media assoluta: s f where = 1( n x m + x m x m 1 f f 2 f f nf f 1 n m = (x + x f 1 f 2 f Calcolare il valore standardizzato (z-score) z if = x if m s La deviazione media assoluta è più robusta della deviazione standard f f x nf ). )
84 Indici di Similarità (1) Le distanze sono utilizzate per misurare il grado di similarità e dissimilarità tra coppie di dati La distanza tra due vettori riga x, y gode dele seguenti proprietà d(x,y) 0 non negatività d(x,x) = 0 identità d(x,y) = d(y,x) simmetria d(x,y) d(x,k) + d(k,y) disuguaglianza triangolare
85 Indici di Similarità (2) Per raggruppare le diverse unità statistiche si calcola la distanza tra tutte le coppie di dati presenti nella matrice dei dati L insieme di tali distanze definisce la matrice delle distanze 0 d(2,1) d(3,1 ) : d ( n,1) 0 d (3,2) : d ( n,2) 0 :
86 Misure di Distanza (1) Distanza Euclidea dove i = (x i1, x i2,, x ip ) e j = (x j1, x j2,, x jp ) sono due vettori riga p-dimensionali con i, j=1,2,,n Distanza Euclidea Quadratica )... ( ), ( p p j x i x j x i x j x i x j i d = )... ( ), ( p p j x i x j x i x j x i x j i d =
87 Misure di Distanza (2) Esempio della distanza Euclidea su un sistema cartesiano di due generiche entità i,j i (x i1, y i1 ) Distanza euclidea b a J (x j2, y j2 )
88 Misure di Distanza (3) Distanza di Manhattan... ), ( p p j x i x j x i x j x i x j i d = b a i (x i1, y i1 ) J (x j2, y j2 ) Distanza di Manhattan
89 Misure di Distanza (4) Distanza di Lagrange-Tchebychev d( i, j) = Max p ( x i x j, x i x j..., x i x j p p, ) i (x i1, y i1 ) Distanza di Lagrange b a J (x j2, y j2 )
90 Misure di Distanza (5) Distanza di Minkowski dove q è un intero positivo q q p p q q j x i x j x i x j x i x j i d )... ( ), ( =
91 Considerazioni (1) Distanza Euclidea: Invariante rispetto a traslazioni o rotazioni degli assi Distanza di Manhattan: Particolarmente indicata per variabili su scala ordinale Non invariante rispetto a traslazioni o rotazioni degli assi Pone meno enfasi sulle variabili con distanze maggiori non elevando al quadrato le differenze
92 Considerazioni (2) Distanza di Minkowski: E la generalizzazione delle altre distanze: q=1 Manhattan q=2 Euclidea q= Lagrange-Tchebychev Standardizzazione: Necessaria per eliminare distorsioni nel caso di fenomeni con unità di misura e ordini di grandezza diversi
93 Binary Variables (1) Rappresentati con una tabella di contingenza Object j 1 0 sum 1 a b a+ b Object i 0 c d c+ d sum a+ c b+ d p
94 Binary Variables (2) Simple matching (invariante se la variabile binaria è simmetrica) Coefficiente di Jaccard (non-invariante se la variabile binaria è asimmetrica): d c b a c b j i d = ), ( c b a c b j i d = ), (
95 Esempio Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4 Jack M Y N P N N Mary F Y N P N P N Jim M Y P N N N N N gender è un attributo simmetrico i rimanenti attributi sono asimmetrici assumiamo i valori Y e P uguali ad 1, il valore N a 0 d d d ( ( ( jack jack jim,, mary, jim mary ) = = 0.33 ) = = 0.67 ) = = 0.75
96 Variabili Nominali Generalizzazioni delle variabili binarie (possono assumere molteplici etichette es. giallo, verde, rosso, ecc.) Metodo 1: Simple Matching m: # of matches, p: total # of variables d ( i, j) = p p m Metodo 2: utilizzo di un set di variabili binarie Creazione di una nuova variabile per ciascuna delle M etichette
97 Variabili Ordinali Possono essere discrete o continue L ordine è importante (es. rank) Possono essere trattate come le variabili a scala per intervallo Sostituendo x if con il rank corrispondente r 1,..., M } if { f Scalando i valori nel range [0, 1] sostituendo l iesimo valore nell f-esima variabile da r 1 if z = if M 1 Calcolo degli indici di similarità con i metodi delle variabili a scala per intervallo f
98 Variabili a Scala per rapporto Valori positivi su una scala non lineare come ad esempio l esponenziale Ae Bt or Ae -Bt Metodi: trattarle come variabili a scala per intervallo applicare una trasformazione logaritmica y if = log(x if ) trattarle come variabili ordinali continue e trattare i loro rank come variabili a scala per intervallo
99 Variabili di Tipo Misto Un set di dati può contenere qualsiasi tipo di variabili binarie (simmetriche e asimmetriche),nominali, ordinali a scala per intervallo, a scala per rapporto La seguente misura di prossimità pesata tiene conto degli effetti delle diverse variabili d ( i, j ) = Σ p f Σ δ = 1 p f = ( ij 1 f δ ) ( ij d f ( ij ) f ) f is binary or nominal: d ij (f) = 0 if x if = x jf, or d ij (f) = 1 o.w. f is interval-based: use the normalized distance f is ordinal or ratio-scaled compute ranks r if and and treat z if as interval-scaled
100 Selezione dell algoritmo Gerarchici Scissori Agglomerativi Non Gerarchici Generazione di Partizioni Con Sovrapposizione
101 Metodi per il calcolo delle distanze Richiedono come input la matrice delle distanze: Single Linkage (Metodo del Legame Singolo) Complete Linkage (Metodo del Legame Completo) Average Linkage (Metodo del Legame Medio) Richiedono come input la matrice dei dati: Metodo di Ward Richiedono come input la matrice dei dati e la matrice delle distanze: Metodo del Centroide
102 Single Linkage Clustering La distanza tra due gruppi è definita come il minimo delle n 1 n 2 distanze tra ciascuna unità di un gruppo A e ciascuna unità dell altro gruppo B d(a,b)=min(d ij ) B i A, j B A
103 Complete Linkage La distanza tra due gruppi è definita come il massimo delle n 1 n 2 distanze tra ciascuna delle unità di un gruppo e ciascuna delle unità dell altro gruppo B d(a,b)=max(d ij ) i A, j B A
104 Average Linkage La distanza tra due gruppi è definita come la media aritmetica delle n 1 n 2 distanze tra ciascuna delle unità di un gruppo e ciascuna delle unità dell altro gruppo d(a,b)= 1 n n 1 2 n 1 n 2 i= 1 j= 1 d ij B i A, j B A
105 Metodo del Centroide La distanza tra due gruppi A e B di numerosità n 1 en 2 è definita come la distanza dei rispettivi centroidi (medie aritmetiche) x 1 e x 2 d(a,b)=d( x 1, x 2 )
106 Metodo di Ward Questo metodo crea gruppi con la massima coesione interna e la massima separazione esterna La creazione dei gruppi avviene minimizzando la seguente funzione obiettivo: T=W+B T=devianza totale W=devianza nei gruppi (within groups) B=devianza fra i gruppi (between groups) Ad ogni passo della procedura si aggregano i gruppi che comportano il minor incremento W e il maggior incremento in B
107 Valutazione del Risultato Per ogni livello gerarchico dell algoritmo di classificazione si calcolano degli indicatori statistici Tali indicatori statistici misurano la variabilità: trai cluster, ovvero il livello di eterogeneità tra un gruppo e l altro (separazione esterna) entroi cluster, ovvero il livello di omogeneità all interno dei gruppi (coesione interna) Il valore di tali indicatori fornisce una misura della qualità della clusterizzazione
108 Indicatori Statistici (1) R 2 = rapporto tra la varianza tra i cluster e la varianza totale R 2 =1-(W/T)=B/T RSQ = valore di R 2 per ogni livello gerarchico Caratteristiche dell indicatore: R 2 [0,1] Valori prossimi ad 1 indicano partizioni ottimali R 2 =0 in presenza di un solo gruppo La sola massimizzazione dell R 2 porta a gruppi costituiti da una sola unità (necessario l uso congiunto di altri criteri)
109 Indicatori Statistici (2) PSF (Pseudo F Statistic) = misura del grado di separazione tra i cluster ad ogni livello gerarchico PSF = B/(c 1) W/(n c) c=numero di gruppi n=numero di osservazioni Diminuisce al diminuire del numero di cluster che originano dal processo di classificazione gerarchica Brusche variazioni indicano raggruppamenti di cluster molto diversi fra loro
110 Indicatori Statistici (3) RMSSTD = indica la devianza fra i gruppi aggiuntiva che si forma al corrispondente passo della procedura di classificazione RMSSTD = Wh p(n 1) h h=passo h-esimo della procedura W h =devianza del gruppo del passo h n h =numerosità del gruppo del passo h p=numero di variabili considerate Un forte incremento rispetto al passo precedente indica l unione di due gruppi fortemente eterogenei
111 Indicatori Statistici (4) SPRSQ (Semipartial R 2 ) = misura l incremento della devianza all interno del gruppo ottenuto unendo i gruppi r e s SPRSQ = (W h W T r W ) s h=nuovo gruppo ottenuto al passo h come fusione dei gruppi r e s W h =varianza interna al gruppo h W r =varianza interna al gruppo r W s =varianza interna al gruppo s Un forte incremento rispetto al passo precedente indica l unione di due gruppi fortemente eterogenei
112 Esempio (1) Clusterizzazione gerarchica con il metodo della MEDIA DI GRUPPO NCL Cluster Joined CLUSTER HISTORY FREQ SPRQS RSQ PSF PST2 10 CL18 OB CL15 CL CL16 CL CL10 CL CL8 CL CL6 CL CL5 CL CL4 CL CL3 OB CL2 OB Norm RMS Dist
113 Esempio (2) Clusterizzazione gerarchica con il metodo di WARD NCL Cluster Joined CLUSTER HISTORY FREQ SPRQS RSQ PSF PST2 10 CL14 CL CL12 OB CL18 1 CL CL19 CL CL13 CL CL9 CL CL7 OB CL6 CL CL5 CL CL2 CL ,
114 Indicatori Statistici Frequency = numero di unità statistiche appartenenti a ciascun cluster Max Distance from Seed to Observation = indica la distanza massima tra il centroide di ciascun cluster e la relativa osservazione maggiormente distante Distance between Cluster Centroids = indica la distanza tra i centroidi dei cluster individuati R_Squared = quota di varianza spiegata dall analisi a livello totale e relativamente a ciascuna delle variabili di input
115 Esempio (1) Cluster Clusterizzazione non gerarchica Frequency CLUSTER SUMMARY RMS Std Deviation Maximum Distance from seed to Observation Nearest Cluster Distance between Cluster Centroids
116 Esempio (2) Clusterizzazione non gerarchica Variable STATISTICS FOR VARIABLES Total STD Within STD R-Square RSQ/ (1-RSQ) FEDEL_B FEDEL_A ACCUMULO CONSUMO OVER-ALL
117 Esempio (3) Statistiche descrittive per i cluster individuati CLUSTER MEANS Cluster FEDEL_B FEDEL_A ACCUMUL O CONSU MO
118 Esempio (4) Statistiche descrittive per i cluster individuati CLUSTER STANDARD DEVIATIONS Cluster FEDEL_B FEDEL_A ACCUMUL O CONSU MO
119 Metodologie per Sistemi Intelligenti Clustering Esempi Applicativi Ing. Igor Rossini Laurea in Ingegneria Informatica Politecnico di Milano Polo Regionale di Como
120 Summary Hierarchical Clustering K-means
121 Summary Hierarchical Clustering K-means
122 Hierarchical Clustering Case A study to classify the cost impact of deregulation Need to build a detailed cost model of the various utilities The objects to be clustered are the utilities and there are 8 measurements on each utility Use of XLMiner TM tool
123 Set di dati
124 Dialog Box XLMiner TM tool (1) Data Range: Specify the range containing the data to be clustered Data Type: Hierarchical clustering can be used on Raw data (like the Utilities dataset above) or data in the distance matrix format (Explained in Ex 2.) Choose Raw data here Variable Names in the First Row: When this box is checked, XLMiner TM picks up variable names from the headers in the first row of the selected data range Variables: This list box displays all the available variables in the data range Selected Variables: From the list of all available variables, select those to be used in the clustering process
125 Dialog Box XLMiner TM tool (1) Normalize input data: Normalizing the data (subtracting the mean and dividing by the standard deviation) is important to ensure that the distance measure accords equal weight to each variable Similarity Measure: The option Euclidean distance is automatically chosen as explained in "Using Hierarchical Clustering" Clustering Method: Select average group linkage method
126 Dialog Box XLMiner TM tool (1) Draw dendogram: shows the dendogram Show cluster membership: gives the history of cluster raggrupmenf for each iteration # Clusters: the desired number of clusters
127 Clustering Stages Clustering Stages: This output details the history of the cluster formation
128 Dendrogram
129 Summary Hierarchical Clustering K-means
130 K-mean Case A telecommunications provider wants to segment its customer base by service usage patterns Need to build a model to classify customers in order to offer more attractive packages The objects to be clustered are the client and there are 42 measurements on each client Use of SPSS tool
131 Dialog Box SPSS tool (1) Variables: displays the variables you have chosen for the anaysis Method: updates initial cluster centers in an iterative process Label Cases By: optionally you can use the values of a string variables to identify cases
132 Dialog Box SPSS tool (2) Maximum iterations: limits the number of iterations in the k-means algorithm. Convergence criterion: determines when iteration ceases Use running means: allows you to request that cluster centers be updated after each case is assigned
133 Dialog Box SPSS tool (3) Initial cluster centers: first estimate of the variable means for each of the clusters ANOVA table: displays an analysis-of-variance table wich includes univariate F test for each clustering variable Cluster information for each case: displays for each case the final cluster assignment and the euclidean distance between the case and the cluster center Exclude cases listwise: escludes cases with missing values for any clustering variable from the analysis Exclude cases pairwise: assigns cases to clusters based on distances computed from all variable with no missing values
134 Initial cluster centers are the variable values of the k well-spaced observation
135 Iteration History shows the progress of the clustering process at each step In early iterations, the cluster centers shift quite a lot. By the 14th iteration, they have settled down to the general area of their final location, and the last four iterations are minor adjustments
136 Change in Cluster Centers If the algorithm stops because the maximum number of iterations is reached, you may want to increase the maximum because the solution may otherwise be unstable For example, if you had left the maximum number of iterations at 10, the reported solution would still be in a state of flux
137 ANOVA Table indicates which variables contribute the most to your cluster solution Variables with large F values provide the greatest separation between clusters
138 Final Cluster Centers are computed as the mean for each variable within each final cluster Customers in cluster 1: tend to be big spenders who purchase a lot of services Customers in cluster 2: tend to be moderate spenders who purchase the "calling" services Customers in cluster 3: tend to spend very little and do not purchase many services
139 Cluster Distance and Numerosity Euclidean distances between the final cluster centers Clusters 1 and 3 are most different Cluster 2 is approximately equally similar to clusters 1 and 3 Cluster Numerosity: indicates the number of records in each cluster Clusters 3 is the biggest which unfortunately is the least profitable group
Algoritmi di clustering
Algoritmi di clustering Dato un insieme di dati sperimentali, vogliamo dividerli in clusters in modo che: I dati all interno di ciascun cluster siano simili tra loro Ciascun dato appartenga a uno e un
DettagliAnalisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008
Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008 Dott. Chiara Cornalba COMUNICAZIONI La lezione del 30 ottobre è sospesa per missione all estero del Prof. Giudici. Dal 6 Novembre
DettagliANALISI DEI DATI PER IL MARKETING 2014
ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis
DettagliCluster Analysis. Paese Cereali (Ce) Riso (R) Patate (P) Zucchero (Z) Verdure (Ver) Vino (Vi) Carne (Ca) Latte (L) Burro (B) Uova (U)
Analysis Esempio Stiamo studiando le abitudini alimentari nei Paesi europei. Sulla base dei dati a disposizione, ci chiediamo se si possano individuare sotto-aree con abitudini alimentari simili. Dati:
DettagliClustering. Cos è un analisi di clustering
Clustering Salvatore Orlando Data Mining. - S. Orlando Cos è un analisi di clustering Cluster: collezione di oggetti/dati Simili rispetto a ciascun oggetto nello stesso cluster Dissimili rispetto agli
DettagliCorso di. Dott.ssa Donatella Cocca
Corso di Statistica medica e applicata Dott.ssa Donatella Cocca 1 a Lezione Cos'è la statistica? Come in tutta la ricerca scientifica sperimentale, anche nelle scienze mediche e biologiche è indispensabile
DettagliSistemi Informativi Territoriali. Map Algebra
Paolo Mogorovich Sistemi Informativi Territoriali Appunti dalle lezioni Map Algebra Cod.735 - Vers.E57 1 Definizione di Map Algebra 2 Operatori locali 3 Operatori zonali 4 Operatori focali 5 Operatori
DettagliIl concetto di valore medio in generale
Il concetto di valore medio in generale Nella statistica descrittiva si distinguono solitamente due tipi di medie: - le medie analitiche, che soddisfano ad una condizione di invarianza e si calcolano tenendo
DettagliUniversità di Pisa A.A. 2004-2005
Università di Pisa A.A. 2004-2005 Analisi dei dati ed estrazione di conoscenza Corso di Laurea Specialistica in Informatica per l Economia e per l Azienda Tecniche di Data Mining Corsi di Laurea Specialistica
DettagliRegressione Mario Guarracino Data Mining a.a. 2010/2011
Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume
DettagliRicerca di outlier. Ricerca di Anomalie/Outlier
Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla
DettagliLa statistica multivariata
Cenni di Statistica Multivariata Dr Corrado Costa La statistica multivariata La statistica multivariata è quella parte della statistica in cui l'oggetto dell'analisi è per sua natura formato da almeno
DettagliRelazioni statistiche: regressione e correlazione
Relazioni statistiche: regressione e correlazione È detto studio della connessione lo studio si occupa della ricerca di relazioni fra due variabili statistiche o fra una mutabile e una variabile statistica
DettagliANALISI DEI DATI BIOLOGICI
ANALISI DI DATI BIOLOGICI RAPPRSNTAR L COMUNITA tramite descrizioni grafiche e relazioni tra gli organismi presenti nei vari campioni. DISCRIMINAR dei siti sulla base della loro composizione biologica.
DettagliSistema Informativo Geografico:
Sistemi Informativi Geografici Sistema Informativo Geografico: È un sistema informativo che tratta informazioni spaziali georeferenziate, ne consente la gestione e l'analisi. Informazioni spaziali: dati
DettagliSistemi di misurazione e valutazione delle performance
Sistemi di misurazione e valutazione delle performance 1 SVILUPPO DELL'INTERVENTO Cos è la misurazione e valutazione delle performance e a cosa serve? Efficienza Efficacia Outcome Requisiti minimi Indicatori
DettagliSTATISTICA IX lezione
Anno Accademico 013-014 STATISTICA IX lezione 1 Il problema della verifica di un ipotesi statistica In termini generali, si studia la distribuzione T(X) di un opportuna grandezza X legata ai parametri
DettagliROCK. A Robust Clustering Algorithm for Categorical Attributes. Sudipto Guha, Rajeev Rastogi, Kyuseok Shim
ROCK A Robust Clustering Algorithm for Categorical Attributes Sudipto Guha, Rajeev Rastogi, Kyuseok Shim Presentazione di Sara Liparesi e Francesco Nonni Sistemi Informativi per le Decisioni a.a. 2005/2006
DettagliLa distribuzione Normale. La distribuzione Normale
La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una
DettagliIndici (Statistiche) che esprimono le caratteristiche di simmetria e
Indici di sintesi Indici (Statistiche) Gran parte della analisi statistica consiste nel condensare complessi pattern di osservazioni in un indicatore che sia capace di riassumere una specifica caratteristica
DettagliIndice. pagina 2 di 10
LEZIONE PROGETTAZIONE ORGANIZZATIVA DOTT.SSA ROSAMARIA D AMORE Indice PROGETTAZIONE ORGANIZZATIVA---------------------------------------------------------------------------------------- 3 LA STRUTTURA
DettagliAnalisi dei requisiti e casi d uso
Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................
DettagliClustering. Utilizziamo per la realizzazione dell'esempio due tipologie di software:
Esercizio Clustering Utilizziamo per la realizzazione dell'esempio due tipologie di software: - XLSTAT.xls - Cluster.exe XLSTAT.xls XLSTAT.xls è una macro di Excel che offre la possibilità di effettuare
DettagliDispensa di database Access
Dispensa di database Access Indice: Database come tabelle; fogli di lavoro e tabelle...2 Database con più tabelle; relazioni tra tabelle...2 Motore di database, complessità di un database; concetto di
DettagliPage 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo
Evoluzione In ogni popolazione si verificano delle mutazioni. Intelligenza Artificiale In un ambiente che varia, le mutazioni possono generare individui che meglio si adattano alle nuove condizioni. Questi
DettagliCOMPITO B - ANALISI DEI DATI PER IL MARKETING OTTOBRE 2009
COGNOME E NOME COMPITO B - ANALISI DEI DATI PER IL MARKETING OTTOBRE 2009 Esercizio I MATR. Si è effettuata un indagine di customer satisfaction su un campione di 100 acquirenti d un modello di auto, chiedendo
DettagliLa Progettazione Concettuale
La Progettazione Concettuale Università degli Studi del Sannio Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica CorsodiBasidiDati Anno Accademico 2006/2007 docente: ing. Corrado Aaron Visaggio
DettagliLE CARTE DI CONTROLLO (4)
LE CARTE DI CONTROLLO (4) Tipo di carta di controllo Frazione difettosa Carta p Numero di difettosi Carta np Dimensione campione Variabile, solitamente >= 50 costante, solitamente >= 50 Linea centrale
DettagliDi testi ed immagini
Università Cattolica del Sacro Cuore - Brescia 23/5/2005 Parte I: Richiami di algebra lineare Parte II: Applicazioni Sommario della Parte I 1 Diagonalizzabilità di una matrice Autovalori ed autovettori
DettagliOperazioni sui database
Operazioni sui database Le operazioni nel modello relazionale sono essenzialmente di due tipi: Operazioni di modifica della base di dati (update) Interrogazioni della base di dati per il recupero delle
DettagliAnalisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it
Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione : analisi delle relazioni tra due caratteristiche osservate sulle stesse unità statistiche studio del comportamento di due caratteri
DettagliDistributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo
Distributed P2P Data Mining Autore: (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo A.A. 2005/2006 Il settore del Data Mining Distribuito (DDM): Data Mining: cuore del processo
DettagliInformatica. Rappresentazione dei numeri Numerazione binaria
Informatica Rappresentazione dei numeri Numerazione binaria Sistemi di numerazione Non posizionali: numerazione romana Posizionali: viene associato un peso a ciascuna posizione all interno della rappresentazione
DettagliIDENTIFICAZIONE DEI BISOGNI DEL CLIENTE
IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE 51 Dichiarazione d intenti (mission statement) La dichiarazione d intenti ha il compito di stabilire degli obiettivi dal punto di vista del mercato, e in parte dal
Dettagli2 + (σ2 - ρσ 1 ) 2 > 0 [da -1 ρ 1] b = (σ 2. 2 - ρσ1 σ 2 ) = (σ 1
1 PORTAFOGLIO Portafoglio Markowitz (2 titoli) (rischiosi) due titoli rendimento/varianza ( μ 1, σ 1 ), ( μ 2, σ 2 ) Si suppone μ 1 > μ 2, σ 1 > σ 2 portafoglio con pesi w 1, w 2 w 1 = w, w 2 = 1- w 1
DettagliAutomazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it
Automazione Industriale (scheduling+mms) scheduling+mms adacher@dia.uniroma3.it Introduzione Sistemi e Modelli Lo studio e l analisi di sistemi tramite una rappresentazione astratta o una sua formalizzazione
DettagliAbbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995).
ANALISI DI UNA SERIE TEMPORALE Analisi statistica elementare Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995). Si puo' osservare una media di circa 26 C e una deviazione
DettagliDott.ssa Caterina Gurrieri
Dott.ssa Caterina Gurrieri Le relazioni tra caratteri Data una tabella a doppia entrata, grande importanza riveste il misurare se e in che misura le variabili in essa riportata sono in qualche modo
DettagliCodifiche a lunghezza variabile
Sistemi Multimediali Codifiche a lunghezza variabile Marco Gribaudo marcog@di.unito.it, gribaudo@elet.polimi.it Assegnazione del codice Come visto in precedenza, per poter memorizzare o trasmettere un
DettagliAnalisi di Mercato. Facoltà di Economia. Analisi sui consumi. Metodo delle inchieste familiari. Metodo delle disponibilità globali
Obiettivi delle aziende Analisi di Mercato Facoltà di Economia francesco mola Analisi sui consumi Conoscere i bisogni e i gusti dei consumatori Valutare la soddisfazione della clientela Lanciare nuovi
DettagliIntroduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini
Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini Dipartimento di Ingegneria della Informazione Via Diotisalvi, 2 56122 PISA ALGORITMI GENETICI (GA) Sono usati per risolvere problemi di ricerca
DettagliCapitolo 13: L offerta dell impresa e il surplus del produttore
Capitolo 13: L offerta dell impresa e il surplus del produttore 13.1: Introduzione L analisi dei due capitoli precedenti ha fornito tutti i concetti necessari per affrontare l argomento di questo capitolo:
DettagliCluster gerarchica. Capitolo
Cluster gerarchica Capitolo 33 Questa procedura consente di identificare gruppi di casi relativamente omogenei in base alle caratteristiche selezionate, utilizzando un algoritmo che inizia con ciascun
DettagliUniversità del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva
Università del Piemonte Orientale Corsi di Laurea Triennale Corso di Statistica e Biometria Introduzione e Statistica descrittiva Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione
DettagliPlate Locator Riconoscimento Automatico di Targhe
Progetto per Laboratorio di Informatica 3 - Rimotti Daniele, Santinelli Gabriele Plate Locator Riconoscimento Automatico di Targhe Il programma plate_locator.m prende come input: l immagine della targa
DettagliVC-dimension: Esempio
VC-dimension: Esempio Quale è la VC-dimension di. y b = 0 f() = 1 f() = 1 iperpiano 20? VC-dimension: Esempio Quale è la VC-dimension di? banale. Vediamo cosa succede con 2 punti: 21 VC-dimension: Esempio
DettagliAnalisi e diagramma di Pareto
Analisi e diagramma di Pareto L'analisi di Pareto è una metodologia statistica utilizzata per individuare i problemi più rilevanti nella situazione in esame e quindi le priorità di intervento. L'obiettivo
DettagliSistemi di Numerazione Binaria NB.1
Sistemi di Numerazione Binaria NB.1 Numeri e numerali Numero: entità astratta Numerale : stringa di caratteri che rappresenta un numero in un dato sistema di numerazione Lo stesso numero è rappresentato
DettagliDatabase. Si ringrazia Marco Bertini per le slides
Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida
DettagliExcel Terza parte. Excel 2003
Excel Terza parte Excel 2003 TABELLA PIVOT Selezioniamo tutti i dati (con le relative etichette) Dati Rapporto tabella pivot e grafico pivot Fine 2 La tabella pivot viene messa di default in una pagina
DettagliC) DIAGRAMMA A SETTORI
C) DIAGRAMMA A SETTORI Procedura: Determinare la percentuale per ciascuna categoria Convertire i valori percentuali in gradi d angolo Disegnare un cerchio e tracciare i settori Contrassegnare i settori
DettagliUn po di statistica. Christian Ferrari. Laboratorio di Matematica
Un po di statistica Christian Ferrari Laboratorio di Matematica 1 Introduzione La statistica è una parte della matematica applicata che si occupa della raccolta, dell analisi e dell interpretazione di
DettagliIntroduzione al MATLAB c Parte 2
Introduzione al MATLAB c Parte 2 Lucia Gastaldi Dipartimento di Matematica, http://dm.ing.unibs.it/gastaldi/ 18 gennaio 2008 Outline 1 M-file di tipo Script e Function Script Function 2 Costrutti di programmazione
DettagliStatistica. Alfonso Iodice D Enza iodicede@unina.it
Statistica Alfonso Iodice D Enza iodicede@unina.it Università degli studi di Cassino () Statistica 1 / 16 Outline 1 () Statistica 2 / 16 Outline 1 2 () Statistica 2 / 16 Outline 1 2 () Statistica 2 / 16
DettagliLEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010
LEZIONE 3 "Educare significa aiutare l'animo dell'uomo ad entrare nella totalità della realtà. Non si può però educare se non rivolgendosi alla libertà, la quale definisce il singolo, l'io. Quando uno
Dettaglif(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da
Data una funzione reale f di variabile reale x, definita su un sottoinsieme proprio D f di R (con questo voglio dire che il dominio di f è un sottoinsieme di R che non coincide con tutto R), ci si chiede
DettagliRegressione non lineare con un modello neurale feedforward
Reti Neurali Artificiali per lo studio del mercato Università degli studi di Brescia - Dipartimento di metodi quantitativi Marco Sandri (sandri.marco@gmail.com) Regressione non lineare con un modello neurale
DettagliLezione 1. Concetti Fondamentali
Lezione 1 Concetti Fondamentali 1 Sonetto di Trilussa Sai ched è la statistica? E E na cosa che serve pe fa un conto in generale de la gente che nasce, che sta male, che more, che va in carcere e che sposa.
DettagliEsercizio 1. (7 punti) Illustrare facendo uso di pseudocodice uno degli algoritmi per l estrazione di regole di decisione visti a lezione.
Politecnico di Milano Facoltà di Ingegneria dell Informazione Metodologie per Sistemi Intelligenti Prof. Lanzi e Ing. Rossini 19 Luglio 2005 COGNOME E NOME (IN STAMPATELLO) MATRICOLA Risolvere i seguenti
DettagliPer studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R
Studio di funzione Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R : allo scopo di determinarne le caratteristiche principali.
Dettaglipostulato della valutazione tramite indicatori: La valutazione di un sistema sanitario tramite indicatori ipotizza
postulato della valutazione tramite indicatori: La valutazione di un sistema sanitario tramite indicatori ipotizza la praticabilità di una scomposizione della complessità in informazioni elementari ed
Dettagli( x) ( x) 0. Equazioni irrazionali
Equazioni irrazionali Definizione: si definisce equazione irrazionale un equazione in cui compaiono uno o più radicali contenenti l incognita. Esempio 7 Ricordiamo quanto visto sulle condizioni di esistenza
DettagliIndice Statistiche Univariate Statistiche Bivariate
Indice 1 Statistiche Univariate 1 1.1 Importazione di un file.data.............................. 1 1.2 Medie e variabilità................................... 6 1.3 Distribuzioni di frequenze...............................
DettagliCOME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING
Febbraio Inserto di Missione Impresa dedicato allo sviluppo pratico di progetti finalizzati ad aumentare la competitività delle imprese. COME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING COS E UN
DettagliBasi di Dati Relazionali
Corso di Laurea in Informatica Basi di Dati Relazionali a.a. 2009-2010 PROGETTAZIONE DI UNA BASE DI DATI Raccolta e Analisi dei requisiti Progettazione concettuale Schema concettuale Progettazione logica
DettagliCapitolo V : Il colore nelle immagini digitali
Capitolo V : Il colore nelle immagini digitali Lavorare con il colore nelle immagini digitali L uso dei colori nella visione computerizzata e nella computer grafica implica l incorrere in determinate problematiche
Dettaglie-dva - eni-depth Velocity Analysis
Lo scopo dell Analisi di Velocità di Migrazione (MVA) è quello di ottenere un modello della velocità nel sottosuolo che abbia dei tempi di riflessione compatibili con quelli osservati nei dati. Ciò significa
DettagliOrganizzazione degli archivi
COSA E UN DATA-BASE (DB)? è l insieme di dati relativo ad un sistema informativo COSA CARATTERIZZA UN DB? la struttura dei dati le relazioni fra i dati I REQUISITI DI UN DB SONO: la ridondanza minima i
DettagliIl linguaggio SQL. è di fatto lo standard tra i linguaggi per la gestione di data base relazionali.
(Structured Query Language) : Il linguaggio è di fatto lo standard tra i linguaggi per la gestione di data base relazionali. prima versione IBM alla fine degli anni '70 per un prototipo di ricerca (System
DettagliElementi di Psicometria con Laboratorio di SPSS 1
Elementi di Psicometria con Laboratorio di SPSS 1 5-Indici di variabilità (vers. 1.0c, 20 ottobre 2015) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca
DettagliSTRATEGIA DI TRADING. Turning Points
STRATEGIA DI TRADING Turning Points ANALISI E OBIETTIVI DA RAGGIUNGERE Studiare l andamento dei prezzi dei mercati finanziari con una certa previsione su tendenze future Analisi Tecnica: studio dell andamento
DettagliCapitolo 12 La regressione lineare semplice
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara
DettagliLibrerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video
Video Librerie digitali Gestione di video Ogni filmato è composto da più parti Video Audio Gestito come visto in precedenza Trascrizione del testo, identificazione di informazioni di interesse Testo Utile
DettagliIndici di dispersione
Indici di dispersione 1 Supponiamo di disporre di un insieme di misure e di cercare un solo valore che, meglio di ciascun altro, sia in grado di catturare le caratteristiche della distribuzione nel suo
DettagliPreprocessamento dei Dati
Preprocessamento dei Dati Raramente i dati sperimentali sono pronti per essere utilizzati immediatamente per le fasi successive del processo di identificazione, a causa di: Offset e disturbi a bassa frequenza
Dettagli1. PRIME PROPRIETÀ 2
RELAZIONI 1. Prime proprietà Il significato comune del concetto di relazione è facilmente intuibile: due elementi sono in relazione se c è un legame tra loro descritto da una certa proprietà; ad esempio,
DettagliModelli di Programmazione Lineare e Programmazione Lineare Intera
Modelli di Programmazione Lineare e Programmazione Lineare Intera 1 Azienda Dolciaria Un azienda di cioccolatini deve pianificare la produzione per i prossimi m mesi. In ogni mese l azienda ha a disposizione
DettagliLezione V. Aula Multimediale - sabato 29/03/2008
Lezione V Aula Multimediale - sabato 29/03/2008 LAB utilizzo di MS Access Definire gli archivi utilizzando le regole di derivazione e descrivere le caratteristiche di ciascun archivio ASSOCIAZIONE (1:1)
DettagliLezione 10: Il problema del consumatore: Preferenze e scelta ottimale
Corso di Scienza Economica (Economia Politica) prof. G. Di Bartolomeo Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale Facoltà di Scienze della Comunicazione Università di Teramo Scelta
DettagliMetodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla
Il metodo della regressione può essere esteso dal caso in cui si considera la variabilità della risposta della y in relazione ad una sola variabile indipendente X ad una situazione più generale in cui
Dettagli1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:
Esempi di domande risposta multipla (Modulo II) 1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: 1) ha un numero di elementi pari a 5; 2) ha un numero di elementi
DettagliCorso di Matematica per la Chimica
Dott.ssa Maria Carmela De Bonis a.a. 203-4 I sistemi lineari Generalità sui sistemi lineari Molti problemi dell ingegneria, della fisica, della chimica, dell informatica e dell economia, si modellizzano
DettagliMining Positive and Negative Association Rules:
Mining Positive and Negative Association Rules: An Approach for Confined Rules Alessandro Boca Alessandro Cislaghi Premesse Le regole di associazione positive considerano solo gli item coinvolti in una
DettagliElementi di Psicometria con Laboratorio di SPSS 1
Elementi di Psicometria con Laboratorio di SPSS 1 29-Analisi della potenza statistica vers. 1.0 (12 dicembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca
DettagliELABORAZIONE DI DATI TRIDIMENSIONALI - RELAZIONE HOMEWORK 2
DAVIDE ZANIN 1035601 ELABORAZIONE DI DATI TRIDIMENSIONALI - RELAZIONE HOMEWORK 2 SOMMARIO Elaborazione di dati tridimensionali - Relazione Homework 2... 1 Obiettivo... 2 Descrizione della procedura seguita...
DettagliIng. Simone Giovannetti
Università degli Studi di Firenze Dipartimento di Elettronica e Telecomunicazioni Ing. Simone Giovannetti Firenze, 29 Maggio 2012 1 Incertezza di Misura (1/3) La necessità di misurare nasce dall esigenza
DettagliLA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1
LA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1 I CODICI 1 IL CODICE BCD 1 Somma in BCD 2 Sottrazione BCD 5 IL CODICE ECCESSO 3 20 La trasmissione delle informazioni Quarta Parte I codici Il codice BCD
DettagliAprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e
Alberi di decisione Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e lanciarlo con i parametri di default.
DettagliDimensione di uno Spazio vettoriale
Capitolo 4 Dimensione di uno Spazio vettoriale 4.1 Introduzione Dedichiamo questo capitolo ad un concetto fondamentale in algebra lineare: la dimensione di uno spazio vettoriale. Daremo una definizione
DettagliModelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia
Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia Alessandra Pelliccia Matteo Cataldi Matteo Filippo Donadi 0 AGENDA Fonti Descrizione dei dati Variabili
DettagliIntroduzione all analisi dei segnali digitali.
Introduzione all analisi dei segnali digitali. Lezioni per il corso di Laboratorio di Fisica IV Isidoro Ferrante A.A. 2001/2002 1 Segnali analogici Si dice segnale la variazione di una qualsiasi grandezza
DettagliSuggerimenti per l approccio all analisi dei dati multivariati
Suggerimenti per l approccio all analisi dei dati multivariati Definizione degli obbiettivi Il primo passo è la definizione degli obbiettivi. Qual è l obbiettivo della sperimentazione i cui dati dovete
DettagliLABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE
LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE DESCRIZIONE DEI DATI DA ESAMINARE Sono stati raccolti i dati sul peso del polmone di topi normali e affetti da una patologia simile
DettagliMetodi statistici per le ricerche di mercato
Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2014-2015 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per
DettagliSVM. Veronica Piccialli. Roma 11 gennaio 2010. Università degli Studi di Roma Tor Vergata 1 / 14
SVM Veronica Piccialli Roma 11 gennaio 2010 Università degli Studi di Roma Tor Vergata 1 / 14 SVM Le Support Vector Machines (SVM) sono una classe di macchine di che derivano da concetti riguardanti la
DettagliElementi di Psicometria con Laboratorio di SPSS 1
Elementi di Psicometria con Laboratorio di SPSS 1 12-Il t-test per campioni appaiati vers. 1.2 (7 novembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca
DettagliAlgoritmi e strutture dati. Codici di Huffman
Algoritmi e strutture dati Codici di Huffman Memorizzazione dei dati Quando un file viene memorizzato, esso va memorizzato in qualche formato binario Modo più semplice: memorizzare il codice ASCII per
DettagliStatistica inferenziale
Statistica inferenziale Popolazione e campione Molto spesso siamo interessati a trarre delle conclusioni su persone che hanno determinate caratteristiche (pazienti, atleti, bambini, gestanti, ) Osserveremo
DettagliStatistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.
Analisi multivariata Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Cercare di capire le relazioni
Dettagli