Metodologie per Sistemi Intelligenti. Clustering. Ing. Igor Rossini Laurea in Ingegneria Informatica Politecnico di Milano Polo Regionale di Como

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Metodologie per Sistemi Intelligenti. Clustering. Ing. Igor Rossini Laurea in Ingegneria Informatica Politecnico di Milano Polo Regionale di Como"

Transcript

1 Metodologie per Sistemi Intelligenti Clustering Ing. Igor Rossini Laurea in Ingegneria Informatica Politecnico di Milano Polo Regionale di Como

2 Cos è il clustering? Il processo di raggruppamento di un insieme di oggetti fisici o astratti in classi di oggetti simili (Han 2001). Un cluster è una collezione di oggetti simili tra loro che sono dissimili rispetto agli oggetti degli altri cluster.

3 Definizione Dati un insieme di esempi, descritti da un insieme di attributi, e una misura di similarità trovare un insieme di cluster tali che: Gli esempi appartenenti allo stesso cluster risultino simili Gli esempi appartenenti a cluster differenti dissimili La misura di similarità è il cuore del problema e il cuore della soluzione al problema Distanza Euclidea se gli attributi sono tutti numerici e se ha senso Nella maggior parte dei casi, è specifica al problema

4 A cosa si applica? In biologia può essere utilizzato per derivare tassonomie di animali e piante. Nel marketing può essere impiegato per derivare e caratterizzare gruppi di consumatori....per derivare aree geografiche simili. Nell analisi dei dati viene impiegato per studiare come i dati si distribuiscono nello spazio.

5 Clustering (1) Cerchiamo raggruppamenti interessanti Alla base c è l ipotesi che si possa definire una distanza o misura di similarità La distanza deve essere significativa per il dominio L ipotesi implicita è più i dati sono vicini, più sono simili Lo scopo generale è trovare dei cluster tali che Le distanze intracluster siano minime Le distanze intercluster siano massime

6 Clustering (2) Distance based clustering Un gruppo di oggetti appartengono allo stesso cluster se sono vicini rispetto ad una determinata distanza. Conceptual Clustering Gli oggetti appartengono ad un cluster se questo definisce un concetto comune ai diversi oggetti.

7 Applicazioni di Clustering Pattern Recognition Spatial Data Analysis Creare mappe tematiche negli strumenti GIS per individuare raggruppamenti simili nello spazio Image Processing Economic Science (especially market research) WWW Classificazione dei documenti Analisi dei dati di Weblog per scoprire gruppi caratterizzati da comuni profili di accesso e navigazione

8 Esempi di Applicazioni (1) Marketing Aiuta i marketing managers a scoprire segmenti distinti all interno della customer base, e quindi ad utilizzare questa conoscenza per lo sviluppo di campagne mirate di marketing Utilizzo del Territorio Identificare aree territoriali di simile utilizzo mediante l analisi di un database di osservazioni sul territorio Assicurazioni Partizionare il portafoglio clienti auto in segmenti a supporto delle attività di target marketing

9 Esempi di Applicazioni (2) Pianificazione urbana Identificare gruppi di edifici per tipologia, valore e localizzazione geografica Studi sismici Formare cluster di epicentri di eventi sismici e verificare che si trovino lungo le faglie dei continenti Astronomia Analisi delle immagini del cielo Analisi delle esplosioni di raggi gamma

10 Requisiti Scalabilità Possibilità di trattare molteplici tipi di attributi Minimo numero possibile di parametri Possibilità di trattare dati affetti da rumore Indipendenza dall ordine degli esempi Possibilità di trattare esempi con molti attributi

11 Esempio (1)

12 Esempio (2)

13 Quali sono i problemi tipici? L efficacia dipende dalla definizione di distanza Se non esiste una misura di distanza ovvia, bisogna inventarla La bontà del risultato dipende completamente dall adeguatezza della misura rispetto al problema L interpretazione del risultato dipende dalla distanza. I risultati in molti casi possono essere arbitrari come pure la loro interpretazione!

14 Esempio Abbiamo dei dati relativi agli accessi ad un sito Conosciamo gli IP degli utenti che accedono al sito Provare a definire una distanza fra indirizzi IP

15 Tassonomie Tassonomia degli Algoritmi Gerarchici viene generata una gerarchia di possibili suddivisioni Partition-Based viene generata una sola partizione Tassonomia delle tecniche Bottom-up Top-down

16 Algoritmi di Clustering Partition-based clustering Dato k, partiziona gli esempi in k cluster di almeno un elemento; ogni esempio può appartenere solo ad un elemento. Hierarchical clustering Scompone l insieme degli esempi in una gerarchia di partizioni di diversa complessità. Density-based clustering Gli esempi vengono suddivisi in cluster via via sempre più numerosi fino a quando la densità di ogni cluster rimane accettabile. Grid-based e Model-based clustering

17 Algoritmi Partition-Based Scopo: trovare una suddivisione dei dati in k cluster (k fissato all inizio) Strategie Locali formare i cluster sfruttando la struttura locale dei dati Strategie Globali ogni cluster viene rappresentato da un prototipo, ogni esempio viene assegnato al cluster il cui prototipo è maggiormente simile

18 Algoritmi Gerarchici Si parte Da un unico cluster contenente tutti gli esempi (top-down) Da un cluster per ogni esempio (bottom-up) Ad ogni passo, Si divide un cluster in due (top-down) Si raggruppano due cluster (bottom-up) In questo modo si forma una gerarchia di suddivisioni, fusioni di cluster La gerarchia viene rappresentata con un dendrogramma

19 Nearest Neighbor Clustering Input Una soglia t sulla distanza Un insieme di n esempi x 1...x n Una misura di distanza Output k cluster in cui la distanza fra elementi appartenenti a cluster distinti è almeno t

20 Funzionamento del NN INPUT t e gli n esempi {x 1...x n } OUTPUT k cluster C 1 = {x 1 }; i=1; k=1; do { i=i+1; x = elemento più vicino a x i tra quelli assegnati ai cluster; // assumiamo x appartenga al cluster C m ; if (distanza(x i,x )>t) { k = k + 1; C k = {x i }; } else { C m = C m +{x i }; } } while (i!=n);

21 NN per Classificazione E possibile utilizzare il NN come modello di classificazione Per ogni nuovo caso da classificare occorre: Calcolare la similitudine di quest ultimo rispetto ai cluster individuati dal modello non supervisionato Attribuire al nuovo caso la stessa classificazione del cluster cui risulta più simile Aggiungere il nuovo caso classificato alla tabella dei casi noti

22 Esempio Nearest Neighbor (1.1) 4 3? 2? 1? Programma televisivo A Programma televisivo B Programma televisivo C Programma televisivo D

23 Esempio Nearest Neighbor (1.2) 4 3 W 2 X 1 Z Programma televisivo A Programma televisivo B Programma televisivo C Programma televisivo D

24 Esempio Nearest Neighbor (2.1) Codice Paziente Mal di Gola Febbre Ghiandole Ingrossate Congestione Mal di Testa 1 Si Si Si Si Si Diagnosi Affezione da Streptococco 2 No No No Si Si Allergia 3 Si Si No Si No Raffreddore 4 Si No Si No No Affezione da Streptococco 5 No Si No Si No Raffreddore 6 No No No Si No Allergia 7 No No Si No No Affezione da Streptococco 8 Si No No Si Si Allergia 9 No Si No Si Si Raffreddore 10 Si Si No Si Si Raffreddore

25 Esempio Nearest Neighbor (2.2) Nuovo paziente da classificare Codice Paziente Mal di Gola Febbre Ghiandole Ingrossate Congestione Mal di Testa 14 Si No No No No Similitudine in base al conteggio delle corrispondenze attributo-valore Corrispondenze Pazienti 1, 9 2, 5, 10 3, 6, 7, 8 4 Affezione da Streptococco

26 Considerazioni sul NN (1) Vantaggi Per la sua efficacia è necessario un pretrattamento dei dati per la determinazione degli attributi rilevanti Ridotti tempi di calcolo confrontando i casi da classificare con un sottoinsieme di casi tipici tratti da ogni classe rappresentata nei dati La descrizione generale di ciascuna classe può essere ottenuta esaminando gli insiemi dei casi più tipici delle classi

27 Considerazioni sul NN (2) Svantaggi Tempi di calcolo elevati nel caso di dataset di grandi dimensioni Non effettua distinzioni tra attributi rilevanti e irrilevanti Difficoltà nel capire se gli attributi scelti siano in grado di differenziare le classi contenute nei dati

28 k-means Dati Un numero k Un insieme di n esempi Una misura di distanza Un criterio di stop (minimo errore quadratico) Il k-means partiziona gli n esempi in k cluster La similarità fra esempi appartenenti allo stesso cluster deve essere alta La similarità fra oggetti appartenenti a cluster diversi deve essere bassa

29 Funzionamento del k-means? INPUT OUTPUT k e gli n esempi k cluster che minimizzano l errore quadratico Dato k e n esempi Seleziona k esempi tra n come centroidi iniziali Repeat assegna ogni esempio al cluster corrispondente al centroide a cui l esempio e più vicino. calcola il valore medio degli elementi del cluster ovvero calcola i nuovi centroidi. Until criterio soddisfatto

30 Come funziona il k-means? Come criterio di stop viene solitamente utilizzato l errore quadratico: Dove m i rappresenta il centroide del cluster C i

31 Esempio k-means

32 Applicazione k-means (1) Valori di input Osservazione X Y

33 Diagramma dei dati di input f(x) 7,0 6,0 5,0 4,0 3,0 2,0 1,0 0,0 x 0,0 1,0 2,0 3,0 4,0 5,0 6,0

34 Assegnazione del valore k Hp due cluster distinti: k=2 Hp centri dei due cluster: Osservazione 1 Osservazione 2 f(x) 7,0 6,0 5,0 4,0 3,0 2,0 1,0 0,0 x 0,0 1,0 2,0 3,0 4,0 5,0 6,0

35 Prima iterazione algoritmo C 1 =(1.0, 1.5), C 2 =(2.0, 1.5) Centroide 1 Distanze Valore (C 1-1) 0.00 (C 1-2) 3.00 (C 1-3) 1.00 (C 1-4) 2.24 (C 1-5) 2.24 (C 1-6) 6.02 Centroide 2 Distanze Valore (C 2-1) 1.00 (C 2-2) 3.16 (C 2-3) 0.00 (C 2-4) 2.00 (C 2-5) 1.41 (C 2-6) 5.41

36 Risultati prima iterazione Cluster ottenuti C 1 {1, 2} C 2 {3, 4, 5, 6} Calcolo nuovi centroidi Cluster C 1 x=( )/2=1.0 y=( )/2=3.0 Cluster C 2 x=( )/4=3.0 y=( )/4=3.3

37 Seconda iterazione algoritmo C 1 =(1.0, 3.0), C 2 =(3.0, 3.375) Centroide 1 Distanze Valore (C 1-1) 1.50 (C 1-2) 1.50 (C 1-3) 1.80 (C 1-4) 1.12 (C 1-5) 2.06 (C 1-6) 5.00 Centroide 2 Distanze Valore (C 2-1) 2.74 (C 2-2) 2.29 (C 2-3) (C 2-4) 1.01 (C 2-5) (C 2-6) 3.30

38 Risultati seconda iterazione Cluster ottenuti C 1 (1, 2, 3) C 2 (4, 5, 6) Calcolo nuovi centroidi Cluster C 1 x=( )/3=1.3 y=( )/3=2.5 Cluster C 2 x=( )/3=3.3 y=( )/3=4.0

39 Terza iterazione algoritmo C 1 =(1.3, 2.5) C 2 =(3.3, 4.0) Centroide 1 Distanze Valore (C 1-1) (C 1-2) (C 1-3) (C 1-4) (C 1-5) (C 1-6) Centroide 2 Distanze Valore (C 2-1) (C 2-2) (C 2-3) (C 2-4) (C 2-5) (C 2-6)

40 Cluster risultanti Risultato Centri dei Punti dei Cluster Cluster (2.6, 4.6) 2, 4, 6 (2.0, 1.8) 1, 3, 5 (1.5, 1.5) 1, 3 (2.7, 4.1) 2, 4, 5, 6 (1.8, 2.7) 1, 2, 3, 4, 5 (5,0, 6.0) 6 Errore Quadratico 1 14,5 2 15,9 3 9,6

41 Visualizzazione risultato 2 f(x) 7,0 6,0 5,0 4,0 3,0 2,0 1,0 0,0 x 0,0 1,0 2,0 3,0 4,0 5,0 6,0

42 Considerazioni sul k-means (1) Vantaggi Di immediata comprensione e implementazione Relativamente efficiente: O(tkn), dove n è # records, k è # clusters, e t è # di iterazioni. Normalmente, k, t << n Spesso si arresta in un ottimo locale. L ottimo globale può essere determinato utilizzando altre tecniche di analisi come gli algoritmi genetici

43 Considerazioni sul k-means (2) Svantaggi Applicabile solo quando la media è definita, quindi non nel caso di attributi categorici Occorre specificare a priori il numero dei cluster k Difficoltà nel trattare dati con rumore e outliers Non adatto a scoprire clusters con forme geometriche non convesse I risultati sono migliori quando i cluster presenti nei dati hanno la stessa dimensione Necessità di interpretare i risultati ottenuti

44 Clustering Gerarchico I cluster non vengono creati in un unico passo Si inizia con una partizione in cui: ogni elemento è un potenziale cluster; oppure tutti gli elementi formano un unico cluster. A partire da questa situazione iniziale è possibile creare agglomerati dai singoli cluster per formare via via cluster più grandi dividere i cluster più grandi per formare cluster via via più piccoli

45 Clustering Gerarchico Supponiamo di avere cinque elementi di cui vogliamo trovare gli agglomerati interessanti. Primo Passo: Calcolo della Matrice delle distanze D = Dij è la distanza fra l elemento i e l elemento j

46 Clustering Gerarchico Secondo Passo Si trovano i due elementi più vicini e si raggruppano in un singolo cluster. In questo caso i primi due elementi sono più vicini. Terzo Passo: ricalcolo della matrice delle distanze. Qual è la distanza fra due cluster?

47 Qual è la distanza fra due cluster?

48 Single Linkage Clustering d (12)3 = min[d 13,d 23 ] = d 23 = 5.0 d (12)4 = min[d 14,d 24 ] = d 24 = 9.0 d (12)5 = min[d 15,d 25 ] = d 25 = 8.0

49 Clustering Gerarchico La nuova matrice D 2 è: D 2 = Il processo continua fino a trovare un solo cluster

50 Clustering Gerarchico Per visualizzare il risulato di un operazione di clustering gerarchico usiamo un dendrogramma.

51 Complete Linkage Clustering d (12)3 = max[d 13,d 23 ] = d 23 = 6. d (12)4 = max[d 14,d 24 ] = d 24 = 10.0 d (12)5 = max[d 15,d 25 ] = d 25 = 9.0

52 Complete Linkage Clustering

53 Average Linkage Clustering d AB = (d 13 + d 14 + d 15 + d 23 + d 24 + d 25 )/6

54 Clustering Gerarchico

55 AGNES (Agglomerative Nesting) Introdotto da Kaufmann e Rousseeuw (1990) Implementato in tool di analisi statistica (es. Splus) Utilizza il metodo del Single-Linkage e la matrice di dissimilarità Crea i cluster unendo i nodi con il più basso valore di dissimilarità I cluster sono creati secondo una modalità di tipo bottom-up Eventualmente tutti i nodi sono raggruppati in un unico cluster

56 Esempio AGNES

57 DIANA (Divisive Analysis) Introdotto da Kaufmann e Rousseeuw (1990) Implementato in tool di analisi statistica (es. Splus) Formazione dei cluster in ordine inverso rispetto all algoritmo AGNES Eventualmente ogni nodo forma un singolo cluster

58 Esempio DIANA

59 Considerazioni Non necessitano della definizione a priori del numero di gruppi Onerosi dal punto di vista computazionale Scarsamente efficienti con grandi moli di dati Fortemente influenzati dalla presenza di outliers

60 Analisi Fattoriale E una tecnica statistica per lo studio dell interdipendenza tra variabili di tipo quantitativo Lo scopo è condensare l informazione contenuta in un numero elevato di variabili in un numero esiguo di nuove variabili (fattori latenti) I fattori latenti sono ottenuti come combinazione lineare delle variabili di partenza con una perdita minima di informazione

61 Esempio (1) Matrice di Input Cliente Premio Campione Omaggio ANALISI FATTORIALE Raccolta Punti Concorso Riduzione di Prezzo 3 * 2 Quantità Prodotto Aggiuntiva

62 Esempio (2) Tabella di Output RISULTATI Componenti Variabili Interpretazione Premio, - Campione Omaggio, - Raccolta Punti -Concorso - Riduzione di Prezzo -3 * 2 - Quantità Aggiuntiva di Prodotto Esprime un interesse per il Regalo Certo Legata esclusivamente al concorso, esprime una preferenza per il Regalo Incerto Indica l esistenza di un fattore che si può denominare economia di spesa

63 Analisi delle Componenti Principali (1) Criterio più comune di estrazione dei fattori da un insieme di dati Consiste nella trasformazione del set di dati originale in un nuovo insieme di variabili composite definite componenti principali

64 Analisi delle Componenti Principali (2) Le componenti principali sono: una combinazione lineare del set iniziale di dati non correlate fra di loro ordinate in maniera decrescente rispetto alla variabilità spiegata del set di dati di input Le varianze delle componenti principali, indicate con λ i, sono chiamate autovalori Gli autovettori identificano la direzione di ogni componente principale

65 Esempio PCA (1) Grafico del set di dati iniziale

66 Esempio PCA (2) Calcolo delle direzioni principali (autovettori)

67 Esempio PCA (3) Proiezione del set di dati secondo le direzioni principali

68 Principal Direction Divisive Partitioning Algoritmo gerarchico divisivo Opera su valori numerici (anche con valori missing) Lo split non è basato su alcuna misura di distanza o similarità ma sul calcolo delle Componenti Principali

69 PDDP Inizia con un cluster iniziale contenente l intero set di dati Divide inizialmente il cluster iniziale in due cluster figli Divide ricorsivamente i due cluster figli in ulteriori due cluster L algoritmo termina quando un criterio di stop è soddisfatto Le partizioni generate sono visualizzate in un albero binario ( PDDP tree )

70 PDDP tree

71 Esempio: clustering di documenti Abbiamo un insieme di documenti Ogni documento è caratterizzato da un vettore di frequenze, che ci dice quanto una parola compare in un documento Vogliamo applicare il clustering per ottenere raggruppamenti interessanti di documenti

72 Set di Dati di Ingresso Ogni esempio è rappresentato da un vettore d n-dimensionale d documento di testo La componente d i rappresenta la frequenza relativa della componente i-esima d i frequenza relativa della i-esima parola del documento Ogni esempio è standardizzato al fine di avere uno stesso ordine di grandezza d =1

73 Matrice di Frequenza I vettori sono raggruppati nella Matrice di Frequenza M=(d 1, d 2,, d n, ) Quake Risk High Closes For Snow Rose Bowl Result Big 10 Sanctions Berkeley Stantofrd Minnesota Wisconsin Housing Crunch Ucla Caltech

74 Processo di Split (1) A partire dalla matrice M si calcolano le Direzioni Principali Lo split avviene in base ai valori ottenuti dalla proiezione dei vettori d sulle Direzioni Principali Il processo si ripete sull intero set di dati

75 Processo di Split (2)

76 Funzionamento del PDDP? INPUTmatrice M (n m) contenente gli n esempi e un numero desiderato di cluster pari a c max OUTPUT un albero binario con c max nodi foglie formanti una partizione dell intero set di dati Inizializzazione dell albero binario con un singolo nodo radice (contenente tutto il set di dati) Repeat for c=2, 3,, c max seleziona il nodo con il più alto valore di dissimilarità calcolo del centroide e della direzione principale proiezione degli esempi del nodo secondo la direzione principale split degli esempi nel nodo di sinistra o di destra dell albero a seconda che il segno della proiezione sia positivo o negativo (se coincidente con il centroide lo split dell esempio è per convenzione a sinistra) Until sono ottenuti c max cluster

77 Considerazioni Necessita della definizione a priori del numero di gruppi Veloce, Scalabile, Efficiente con grandi moli di dati Riducendo la dimensionalità del set di dati iniziale risulta poco sensibile agli outliers

78 Metodologie per Sistemi Intelligenti Clustering Metodologia di Analisi Ing. Igor Rossini Laurea in Ingegneria Informatica Politecnico di Milano Polo Regionale di Como

79 Fasi della Cluster Analysis Scelta Scelta delle delle VARIABILI VARIABILI Eventuale Eventuale riduzione riduzione in in Componenti Principali Principali Selezione Selezione della della Misura Misura di di Prossimità Prossimità tra tra le le variabili variabili Selezione Selezione dell Algoritmo di di Classificazione Identificazione del del numero numero dei dei gruppi gruppi entro entro i i quali quali ripartire ripartire le le entità entità Valutazione della della soluzione soluzione ottenuta ottenuta Eventuale Eventuale riciclo riciclo del del processo processo di di analisi analisi Analisi Analisi della della soluzione soluzione più più appropriata

80 Scelta delle Variabili Data la matrice di dati relativa ad n osservazioni e p variabili x x i1... x n x 1f... x if... x nf x 1p... x ip... x np occorre decidere quali variabili inserire e le opportune trasformazioni da effettuare (standardizzazione, analisi fattoriale)

81 Selezione della Misura di Prossimità Indici di Similarità forniscono informazioni preliminari indispensabili per poter individuare gruppi di unità omogenee sono definiti come funzione dei vettori riga della matrice di dati IP ij =f(x i, x j ) i, j=1,2,,n x i, x j vettori riga Differiscono a seconda che i dati considerati siano quantitativi, categorici, binari o misti

82 Tipi di dati nel clustering Scala per Intervallo Binarie Nominali, Ordinali, Scala per Rapporto Miste

83 Scala per Intervallo Standardizzazione dei dati Calcolare la deviazione media assoluta: s f where = 1( n x m + x m x m 1 f f 2 f f nf f 1 n m = (x + x f 1 f 2 f Calcolare il valore standardizzato (z-score) z if = x if m s La deviazione media assoluta è più robusta della deviazione standard f f x nf ). )

84 Indici di Similarità (1) Le distanze sono utilizzate per misurare il grado di similarità e dissimilarità tra coppie di dati La distanza tra due vettori riga x, y gode dele seguenti proprietà d(x,y) 0 non negatività d(x,x) = 0 identità d(x,y) = d(y,x) simmetria d(x,y) d(x,k) + d(k,y) disuguaglianza triangolare

85 Indici di Similarità (2) Per raggruppare le diverse unità statistiche si calcola la distanza tra tutte le coppie di dati presenti nella matrice dei dati L insieme di tali distanze definisce la matrice delle distanze 0 d(2,1) d(3,1 ) : d ( n,1) 0 d (3,2) : d ( n,2) 0 :

86 Misure di Distanza (1) Distanza Euclidea dove i = (x i1, x i2,, x ip ) e j = (x j1, x j2,, x jp ) sono due vettori riga p-dimensionali con i, j=1,2,,n Distanza Euclidea Quadratica )... ( ), ( p p j x i x j x i x j x i x j i d = )... ( ), ( p p j x i x j x i x j x i x j i d =

87 Misure di Distanza (2) Esempio della distanza Euclidea su un sistema cartesiano di due generiche entità i,j i (x i1, y i1 ) Distanza euclidea b a J (x j2, y j2 )

88 Misure di Distanza (3) Distanza di Manhattan... ), ( p p j x i x j x i x j x i x j i d = b a i (x i1, y i1 ) J (x j2, y j2 ) Distanza di Manhattan

89 Misure di Distanza (4) Distanza di Lagrange-Tchebychev d( i, j) = Max p ( x i x j, x i x j..., x i x j p p, ) i (x i1, y i1 ) Distanza di Lagrange b a J (x j2, y j2 )

90 Misure di Distanza (5) Distanza di Minkowski dove q è un intero positivo q q p p q q j x i x j x i x j x i x j i d )... ( ), ( =

91 Considerazioni (1) Distanza Euclidea: Invariante rispetto a traslazioni o rotazioni degli assi Distanza di Manhattan: Particolarmente indicata per variabili su scala ordinale Non invariante rispetto a traslazioni o rotazioni degli assi Pone meno enfasi sulle variabili con distanze maggiori non elevando al quadrato le differenze

92 Considerazioni (2) Distanza di Minkowski: E la generalizzazione delle altre distanze: q=1 Manhattan q=2 Euclidea q= Lagrange-Tchebychev Standardizzazione: Necessaria per eliminare distorsioni nel caso di fenomeni con unità di misura e ordini di grandezza diversi

93 Binary Variables (1) Rappresentati con una tabella di contingenza Object j 1 0 sum 1 a b a+ b Object i 0 c d c+ d sum a+ c b+ d p

94 Binary Variables (2) Simple matching (invariante se la variabile binaria è simmetrica) Coefficiente di Jaccard (non-invariante se la variabile binaria è asimmetrica): d c b a c b j i d = ), ( c b a c b j i d = ), (

95 Esempio Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4 Jack M Y N P N N Mary F Y N P N P N Jim M Y P N N N N N gender è un attributo simmetrico i rimanenti attributi sono asimmetrici assumiamo i valori Y e P uguali ad 1, il valore N a 0 d d d ( ( ( jack jack jim,, mary, jim mary ) = = 0.33 ) = = 0.67 ) = = 0.75

96 Variabili Nominali Generalizzazioni delle variabili binarie (possono assumere molteplici etichette es. giallo, verde, rosso, ecc.) Metodo 1: Simple Matching m: # of matches, p: total # of variables d ( i, j) = p p m Metodo 2: utilizzo di un set di variabili binarie Creazione di una nuova variabile per ciascuna delle M etichette

97 Variabili Ordinali Possono essere discrete o continue L ordine è importante (es. rank) Possono essere trattate come le variabili a scala per intervallo Sostituendo x if con il rank corrispondente r 1,..., M } if { f Scalando i valori nel range [0, 1] sostituendo l iesimo valore nell f-esima variabile da r 1 if z = if M 1 Calcolo degli indici di similarità con i metodi delle variabili a scala per intervallo f

98 Variabili a Scala per rapporto Valori positivi su una scala non lineare come ad esempio l esponenziale Ae Bt or Ae -Bt Metodi: trattarle come variabili a scala per intervallo applicare una trasformazione logaritmica y if = log(x if ) trattarle come variabili ordinali continue e trattare i loro rank come variabili a scala per intervallo

99 Variabili di Tipo Misto Un set di dati può contenere qualsiasi tipo di variabili binarie (simmetriche e asimmetriche),nominali, ordinali a scala per intervallo, a scala per rapporto La seguente misura di prossimità pesata tiene conto degli effetti delle diverse variabili d ( i, j ) = Σ p f Σ δ = 1 p f = ( ij 1 f δ ) ( ij d f ( ij ) f ) f is binary or nominal: d ij (f) = 0 if x if = x jf, or d ij (f) = 1 o.w. f is interval-based: use the normalized distance f is ordinal or ratio-scaled compute ranks r if and and treat z if as interval-scaled

100 Selezione dell algoritmo Gerarchici Scissori Agglomerativi Non Gerarchici Generazione di Partizioni Con Sovrapposizione

101 Metodi per il calcolo delle distanze Richiedono come input la matrice delle distanze: Single Linkage (Metodo del Legame Singolo) Complete Linkage (Metodo del Legame Completo) Average Linkage (Metodo del Legame Medio) Richiedono come input la matrice dei dati: Metodo di Ward Richiedono come input la matrice dei dati e la matrice delle distanze: Metodo del Centroide

102 Single Linkage Clustering La distanza tra due gruppi è definita come il minimo delle n 1 n 2 distanze tra ciascuna unità di un gruppo A e ciascuna unità dell altro gruppo B d(a,b)=min(d ij ) B i A, j B A

103 Complete Linkage La distanza tra due gruppi è definita come il massimo delle n 1 n 2 distanze tra ciascuna delle unità di un gruppo e ciascuna delle unità dell altro gruppo B d(a,b)=max(d ij ) i A, j B A

104 Average Linkage La distanza tra due gruppi è definita come la media aritmetica delle n 1 n 2 distanze tra ciascuna delle unità di un gruppo e ciascuna delle unità dell altro gruppo d(a,b)= 1 n n 1 2 n 1 n 2 i= 1 j= 1 d ij B i A, j B A

105 Metodo del Centroide La distanza tra due gruppi A e B di numerosità n 1 en 2 è definita come la distanza dei rispettivi centroidi (medie aritmetiche) x 1 e x 2 d(a,b)=d( x 1, x 2 )

106 Metodo di Ward Questo metodo crea gruppi con la massima coesione interna e la massima separazione esterna La creazione dei gruppi avviene minimizzando la seguente funzione obiettivo: T=W+B T=devianza totale W=devianza nei gruppi (within groups) B=devianza fra i gruppi (between groups) Ad ogni passo della procedura si aggregano i gruppi che comportano il minor incremento W e il maggior incremento in B

107 Valutazione del Risultato Per ogni livello gerarchico dell algoritmo di classificazione si calcolano degli indicatori statistici Tali indicatori statistici misurano la variabilità: trai cluster, ovvero il livello di eterogeneità tra un gruppo e l altro (separazione esterna) entroi cluster, ovvero il livello di omogeneità all interno dei gruppi (coesione interna) Il valore di tali indicatori fornisce una misura della qualità della clusterizzazione

108 Indicatori Statistici (1) R 2 = rapporto tra la varianza tra i cluster e la varianza totale R 2 =1-(W/T)=B/T RSQ = valore di R 2 per ogni livello gerarchico Caratteristiche dell indicatore: R 2 [0,1] Valori prossimi ad 1 indicano partizioni ottimali R 2 =0 in presenza di un solo gruppo La sola massimizzazione dell R 2 porta a gruppi costituiti da una sola unità (necessario l uso congiunto di altri criteri)

109 Indicatori Statistici (2) PSF (Pseudo F Statistic) = misura del grado di separazione tra i cluster ad ogni livello gerarchico PSF = B/(c 1) W/(n c) c=numero di gruppi n=numero di osservazioni Diminuisce al diminuire del numero di cluster che originano dal processo di classificazione gerarchica Brusche variazioni indicano raggruppamenti di cluster molto diversi fra loro

110 Indicatori Statistici (3) RMSSTD = indica la devianza fra i gruppi aggiuntiva che si forma al corrispondente passo della procedura di classificazione RMSSTD = Wh p(n 1) h h=passo h-esimo della procedura W h =devianza del gruppo del passo h n h =numerosità del gruppo del passo h p=numero di variabili considerate Un forte incremento rispetto al passo precedente indica l unione di due gruppi fortemente eterogenei

111 Indicatori Statistici (4) SPRSQ (Semipartial R 2 ) = misura l incremento della devianza all interno del gruppo ottenuto unendo i gruppi r e s SPRSQ = (W h W T r W ) s h=nuovo gruppo ottenuto al passo h come fusione dei gruppi r e s W h =varianza interna al gruppo h W r =varianza interna al gruppo r W s =varianza interna al gruppo s Un forte incremento rispetto al passo precedente indica l unione di due gruppi fortemente eterogenei

112 Esempio (1) Clusterizzazione gerarchica con il metodo della MEDIA DI GRUPPO NCL Cluster Joined CLUSTER HISTORY FREQ SPRQS RSQ PSF PST2 10 CL18 OB CL15 CL CL16 CL CL10 CL CL8 CL CL6 CL CL5 CL CL4 CL CL3 OB CL2 OB Norm RMS Dist

113 Esempio (2) Clusterizzazione gerarchica con il metodo di WARD NCL Cluster Joined CLUSTER HISTORY FREQ SPRQS RSQ PSF PST2 10 CL14 CL CL12 OB CL18 1 CL CL19 CL CL13 CL CL9 CL CL7 OB CL6 CL CL5 CL CL2 CL ,

114 Indicatori Statistici Frequency = numero di unità statistiche appartenenti a ciascun cluster Max Distance from Seed to Observation = indica la distanza massima tra il centroide di ciascun cluster e la relativa osservazione maggiormente distante Distance between Cluster Centroids = indica la distanza tra i centroidi dei cluster individuati R_Squared = quota di varianza spiegata dall analisi a livello totale e relativamente a ciascuna delle variabili di input

115 Esempio (1) Cluster Clusterizzazione non gerarchica Frequency CLUSTER SUMMARY RMS Std Deviation Maximum Distance from seed to Observation Nearest Cluster Distance between Cluster Centroids

116 Esempio (2) Clusterizzazione non gerarchica Variable STATISTICS FOR VARIABLES Total STD Within STD R-Square RSQ/ (1-RSQ) FEDEL_B FEDEL_A ACCUMULO CONSUMO OVER-ALL

117 Esempio (3) Statistiche descrittive per i cluster individuati CLUSTER MEANS Cluster FEDEL_B FEDEL_A ACCUMUL O CONSU MO

118 Esempio (4) Statistiche descrittive per i cluster individuati CLUSTER STANDARD DEVIATIONS Cluster FEDEL_B FEDEL_A ACCUMUL O CONSU MO

119 Metodologie per Sistemi Intelligenti Clustering Esempi Applicativi Ing. Igor Rossini Laurea in Ingegneria Informatica Politecnico di Milano Polo Regionale di Como

120 Summary Hierarchical Clustering K-means

121 Summary Hierarchical Clustering K-means

122 Hierarchical Clustering Case A study to classify the cost impact of deregulation Need to build a detailed cost model of the various utilities The objects to be clustered are the utilities and there are 8 measurements on each utility Use of XLMiner TM tool

123 Set di dati

124 Dialog Box XLMiner TM tool (1) Data Range: Specify the range containing the data to be clustered Data Type: Hierarchical clustering can be used on Raw data (like the Utilities dataset above) or data in the distance matrix format (Explained in Ex 2.) Choose Raw data here Variable Names in the First Row: When this box is checked, XLMiner TM picks up variable names from the headers in the first row of the selected data range Variables: This list box displays all the available variables in the data range Selected Variables: From the list of all available variables, select those to be used in the clustering process

125 Dialog Box XLMiner TM tool (1) Normalize input data: Normalizing the data (subtracting the mean and dividing by the standard deviation) is important to ensure that the distance measure accords equal weight to each variable Similarity Measure: The option Euclidean distance is automatically chosen as explained in "Using Hierarchical Clustering" Clustering Method: Select average group linkage method

126 Dialog Box XLMiner TM tool (1) Draw dendogram: shows the dendogram Show cluster membership: gives the history of cluster raggrupmenf for each iteration # Clusters: the desired number of clusters

127 Clustering Stages Clustering Stages: This output details the history of the cluster formation

128 Dendrogram

129 Summary Hierarchical Clustering K-means

130 K-mean Case A telecommunications provider wants to segment its customer base by service usage patterns Need to build a model to classify customers in order to offer more attractive packages The objects to be clustered are the client and there are 42 measurements on each client Use of SPSS tool

131 Dialog Box SPSS tool (1) Variables: displays the variables you have chosen for the anaysis Method: updates initial cluster centers in an iterative process Label Cases By: optionally you can use the values of a string variables to identify cases

132 Dialog Box SPSS tool (2) Maximum iterations: limits the number of iterations in the k-means algorithm. Convergence criterion: determines when iteration ceases Use running means: allows you to request that cluster centers be updated after each case is assigned

133 Dialog Box SPSS tool (3) Initial cluster centers: first estimate of the variable means for each of the clusters ANOVA table: displays an analysis-of-variance table wich includes univariate F test for each clustering variable Cluster information for each case: displays for each case the final cluster assignment and the euclidean distance between the case and the cluster center Exclude cases listwise: escludes cases with missing values for any clustering variable from the analysis Exclude cases pairwise: assigns cases to clusters based on distances computed from all variable with no missing values

134 Initial cluster centers are the variable values of the k well-spaced observation

135 Iteration History shows the progress of the clustering process at each step In early iterations, the cluster centers shift quite a lot. By the 14th iteration, they have settled down to the general area of their final location, and the last four iterations are minor adjustments

136 Change in Cluster Centers If the algorithm stops because the maximum number of iterations is reached, you may want to increase the maximum because the solution may otherwise be unstable For example, if you had left the maximum number of iterations at 10, the reported solution would still be in a state of flux

137 ANOVA Table indicates which variables contribute the most to your cluster solution Variables with large F values provide the greatest separation between clusters

138 Final Cluster Centers are computed as the mean for each variable within each final cluster Customers in cluster 1: tend to be big spenders who purchase a lot of services Customers in cluster 2: tend to be moderate spenders who purchase the "calling" services Customers in cluster 3: tend to spend very little and do not purchase many services

139 Cluster Distance and Numerosity Euclidean distances between the final cluster centers Clusters 1 and 3 are most different Cluster 2 is approximately equally similar to clusters 1 and 3 Cluster Numerosity: indicates the number of records in each cluster Clusters 3 is the biggest which unfortunately is the least profitable group

Algoritmi di clustering

Algoritmi di clustering Algoritmi di clustering Dato un insieme di dati sperimentali, vogliamo dividerli in clusters in modo che: I dati all interno di ciascun cluster siano simili tra loro Ciascun dato appartenga a uno e un

Dettagli

Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008

Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008 Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008 Dott. Chiara Cornalba COMUNICAZIONI La lezione del 30 ottobre è sospesa per missione all estero del Prof. Giudici. Dal 6 Novembre

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis

Dettagli

Cluster Analysis. Paese Cereali (Ce) Riso (R) Patate (P) Zucchero (Z) Verdure (Ver) Vino (Vi) Carne (Ca) Latte (L) Burro (B) Uova (U)

Cluster Analysis. Paese Cereali (Ce) Riso (R) Patate (P) Zucchero (Z) Verdure (Ver) Vino (Vi) Carne (Ca) Latte (L) Burro (B) Uova (U) Analysis Esempio Stiamo studiando le abitudini alimentari nei Paesi europei. Sulla base dei dati a disposizione, ci chiediamo se si possano individuare sotto-aree con abitudini alimentari simili. Dati:

Dettagli

Clustering. Cos è un analisi di clustering

Clustering. Cos è un analisi di clustering Clustering Salvatore Orlando Data Mining. - S. Orlando Cos è un analisi di clustering Cluster: collezione di oggetti/dati Simili rispetto a ciascun oggetto nello stesso cluster Dissimili rispetto agli

Dettagli

Corso di. Dott.ssa Donatella Cocca

Corso di. Dott.ssa Donatella Cocca Corso di Statistica medica e applicata Dott.ssa Donatella Cocca 1 a Lezione Cos'è la statistica? Come in tutta la ricerca scientifica sperimentale, anche nelle scienze mediche e biologiche è indispensabile

Dettagli

Sistemi Informativi Territoriali. Map Algebra

Sistemi Informativi Territoriali. Map Algebra Paolo Mogorovich Sistemi Informativi Territoriali Appunti dalle lezioni Map Algebra Cod.735 - Vers.E57 1 Definizione di Map Algebra 2 Operatori locali 3 Operatori zonali 4 Operatori focali 5 Operatori

Dettagli

Il concetto di valore medio in generale

Il concetto di valore medio in generale Il concetto di valore medio in generale Nella statistica descrittiva si distinguono solitamente due tipi di medie: - le medie analitiche, che soddisfano ad una condizione di invarianza e si calcolano tenendo

Dettagli

Università di Pisa A.A. 2004-2005

Università di Pisa A.A. 2004-2005 Università di Pisa A.A. 2004-2005 Analisi dei dati ed estrazione di conoscenza Corso di Laurea Specialistica in Informatica per l Economia e per l Azienda Tecniche di Data Mining Corsi di Laurea Specialistica

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

Ricerca di outlier. Ricerca di Anomalie/Outlier

Ricerca di outlier. Ricerca di Anomalie/Outlier Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

La statistica multivariata

La statistica multivariata Cenni di Statistica Multivariata Dr Corrado Costa La statistica multivariata La statistica multivariata è quella parte della statistica in cui l'oggetto dell'analisi è per sua natura formato da almeno

Dettagli

Relazioni statistiche: regressione e correlazione

Relazioni statistiche: regressione e correlazione Relazioni statistiche: regressione e correlazione È detto studio della connessione lo studio si occupa della ricerca di relazioni fra due variabili statistiche o fra una mutabile e una variabile statistica

Dettagli

ANALISI DEI DATI BIOLOGICI

ANALISI DEI DATI BIOLOGICI ANALISI DI DATI BIOLOGICI RAPPRSNTAR L COMUNITA tramite descrizioni grafiche e relazioni tra gli organismi presenti nei vari campioni. DISCRIMINAR dei siti sulla base della loro composizione biologica.

Dettagli

Sistema Informativo Geografico:

Sistema Informativo Geografico: Sistemi Informativi Geografici Sistema Informativo Geografico: È un sistema informativo che tratta informazioni spaziali georeferenziate, ne consente la gestione e l'analisi. Informazioni spaziali: dati

Dettagli

Sistemi di misurazione e valutazione delle performance

Sistemi di misurazione e valutazione delle performance Sistemi di misurazione e valutazione delle performance 1 SVILUPPO DELL'INTERVENTO Cos è la misurazione e valutazione delle performance e a cosa serve? Efficienza Efficacia Outcome Requisiti minimi Indicatori

Dettagli

STATISTICA IX lezione

STATISTICA IX lezione Anno Accademico 013-014 STATISTICA IX lezione 1 Il problema della verifica di un ipotesi statistica In termini generali, si studia la distribuzione T(X) di un opportuna grandezza X legata ai parametri

Dettagli

ROCK. A Robust Clustering Algorithm for Categorical Attributes. Sudipto Guha, Rajeev Rastogi, Kyuseok Shim

ROCK. A Robust Clustering Algorithm for Categorical Attributes. Sudipto Guha, Rajeev Rastogi, Kyuseok Shim ROCK A Robust Clustering Algorithm for Categorical Attributes Sudipto Guha, Rajeev Rastogi, Kyuseok Shim Presentazione di Sara Liparesi e Francesco Nonni Sistemi Informativi per le Decisioni a.a. 2005/2006

Dettagli

La distribuzione Normale. La distribuzione Normale

La distribuzione Normale. La distribuzione Normale La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una

Dettagli

Indici (Statistiche) che esprimono le caratteristiche di simmetria e

Indici (Statistiche) che esprimono le caratteristiche di simmetria e Indici di sintesi Indici (Statistiche) Gran parte della analisi statistica consiste nel condensare complessi pattern di osservazioni in un indicatore che sia capace di riassumere una specifica caratteristica

Dettagli

Indice. pagina 2 di 10

Indice. pagina 2 di 10 LEZIONE PROGETTAZIONE ORGANIZZATIVA DOTT.SSA ROSAMARIA D AMORE Indice PROGETTAZIONE ORGANIZZATIVA---------------------------------------------------------------------------------------- 3 LA STRUTTURA

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Clustering. Utilizziamo per la realizzazione dell'esempio due tipologie di software:

Clustering. Utilizziamo per la realizzazione dell'esempio due tipologie di software: Esercizio Clustering Utilizziamo per la realizzazione dell'esempio due tipologie di software: - XLSTAT.xls - Cluster.exe XLSTAT.xls XLSTAT.xls è una macro di Excel che offre la possibilità di effettuare

Dettagli

Dispensa di database Access

Dispensa di database Access Dispensa di database Access Indice: Database come tabelle; fogli di lavoro e tabelle...2 Database con più tabelle; relazioni tra tabelle...2 Motore di database, complessità di un database; concetto di

Dettagli

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo Evoluzione In ogni popolazione si verificano delle mutazioni. Intelligenza Artificiale In un ambiente che varia, le mutazioni possono generare individui che meglio si adattano alle nuove condizioni. Questi

Dettagli

COMPITO B - ANALISI DEI DATI PER IL MARKETING OTTOBRE 2009

COMPITO B - ANALISI DEI DATI PER IL MARKETING OTTOBRE 2009 COGNOME E NOME COMPITO B - ANALISI DEI DATI PER IL MARKETING OTTOBRE 2009 Esercizio I MATR. Si è effettuata un indagine di customer satisfaction su un campione di 100 acquirenti d un modello di auto, chiedendo

Dettagli

La Progettazione Concettuale

La Progettazione Concettuale La Progettazione Concettuale Università degli Studi del Sannio Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica CorsodiBasidiDati Anno Accademico 2006/2007 docente: ing. Corrado Aaron Visaggio

Dettagli

LE CARTE DI CONTROLLO (4)

LE CARTE DI CONTROLLO (4) LE CARTE DI CONTROLLO (4) Tipo di carta di controllo Frazione difettosa Carta p Numero di difettosi Carta np Dimensione campione Variabile, solitamente >= 50 costante, solitamente >= 50 Linea centrale

Dettagli

Di testi ed immagini

Di testi ed immagini Università Cattolica del Sacro Cuore - Brescia 23/5/2005 Parte I: Richiami di algebra lineare Parte II: Applicazioni Sommario della Parte I 1 Diagonalizzabilità di una matrice Autovalori ed autovettori

Dettagli

Operazioni sui database

Operazioni sui database Operazioni sui database Le operazioni nel modello relazionale sono essenzialmente di due tipi: Operazioni di modifica della base di dati (update) Interrogazioni della base di dati per il recupero delle

Dettagli

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione : analisi delle relazioni tra due caratteristiche osservate sulle stesse unità statistiche studio del comportamento di due caratteri

Dettagli

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo Distributed P2P Data Mining Autore: (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo A.A. 2005/2006 Il settore del Data Mining Distribuito (DDM): Data Mining: cuore del processo

Dettagli

Informatica. Rappresentazione dei numeri Numerazione binaria

Informatica. Rappresentazione dei numeri Numerazione binaria Informatica Rappresentazione dei numeri Numerazione binaria Sistemi di numerazione Non posizionali: numerazione romana Posizionali: viene associato un peso a ciascuna posizione all interno della rappresentazione

Dettagli

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE 51 Dichiarazione d intenti (mission statement) La dichiarazione d intenti ha il compito di stabilire degli obiettivi dal punto di vista del mercato, e in parte dal

Dettagli

2 + (σ2 - ρσ 1 ) 2 > 0 [da -1 ρ 1] b = (σ 2. 2 - ρσ1 σ 2 ) = (σ 1

2 + (σ2 - ρσ 1 ) 2 > 0 [da -1 ρ 1] b = (σ 2. 2 - ρσ1 σ 2 ) = (σ 1 1 PORTAFOGLIO Portafoglio Markowitz (2 titoli) (rischiosi) due titoli rendimento/varianza ( μ 1, σ 1 ), ( μ 2, σ 2 ) Si suppone μ 1 > μ 2, σ 1 > σ 2 portafoglio con pesi w 1, w 2 w 1 = w, w 2 = 1- w 1

Dettagli

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it Automazione Industriale (scheduling+mms) scheduling+mms adacher@dia.uniroma3.it Introduzione Sistemi e Modelli Lo studio e l analisi di sistemi tramite una rappresentazione astratta o una sua formalizzazione

Dettagli

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995).

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995). ANALISI DI UNA SERIE TEMPORALE Analisi statistica elementare Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995). Si puo' osservare una media di circa 26 C e una deviazione

Dettagli

Dott.ssa Caterina Gurrieri

Dott.ssa Caterina Gurrieri Dott.ssa Caterina Gurrieri Le relazioni tra caratteri Data una tabella a doppia entrata, grande importanza riveste il misurare se e in che misura le variabili in essa riportata sono in qualche modo

Dettagli

Codifiche a lunghezza variabile

Codifiche a lunghezza variabile Sistemi Multimediali Codifiche a lunghezza variabile Marco Gribaudo marcog@di.unito.it, gribaudo@elet.polimi.it Assegnazione del codice Come visto in precedenza, per poter memorizzare o trasmettere un

Dettagli

Analisi di Mercato. Facoltà di Economia. Analisi sui consumi. Metodo delle inchieste familiari. Metodo delle disponibilità globali

Analisi di Mercato. Facoltà di Economia. Analisi sui consumi. Metodo delle inchieste familiari. Metodo delle disponibilità globali Obiettivi delle aziende Analisi di Mercato Facoltà di Economia francesco mola Analisi sui consumi Conoscere i bisogni e i gusti dei consumatori Valutare la soddisfazione della clientela Lanciare nuovi

Dettagli

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini Dipartimento di Ingegneria della Informazione Via Diotisalvi, 2 56122 PISA ALGORITMI GENETICI (GA) Sono usati per risolvere problemi di ricerca

Dettagli

Capitolo 13: L offerta dell impresa e il surplus del produttore

Capitolo 13: L offerta dell impresa e il surplus del produttore Capitolo 13: L offerta dell impresa e il surplus del produttore 13.1: Introduzione L analisi dei due capitoli precedenti ha fornito tutti i concetti necessari per affrontare l argomento di questo capitolo:

Dettagli

Cluster gerarchica. Capitolo

Cluster gerarchica. Capitolo Cluster gerarchica Capitolo 33 Questa procedura consente di identificare gruppi di casi relativamente omogenei in base alle caratteristiche selezionate, utilizzando un algoritmo che inizia con ciascun

Dettagli

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva Università del Piemonte Orientale Corsi di Laurea Triennale Corso di Statistica e Biometria Introduzione e Statistica descrittiva Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione

Dettagli

Plate Locator Riconoscimento Automatico di Targhe

Plate Locator Riconoscimento Automatico di Targhe Progetto per Laboratorio di Informatica 3 - Rimotti Daniele, Santinelli Gabriele Plate Locator Riconoscimento Automatico di Targhe Il programma plate_locator.m prende come input: l immagine della targa

Dettagli

VC-dimension: Esempio

VC-dimension: Esempio VC-dimension: Esempio Quale è la VC-dimension di. y b = 0 f() = 1 f() = 1 iperpiano 20? VC-dimension: Esempio Quale è la VC-dimension di? banale. Vediamo cosa succede con 2 punti: 21 VC-dimension: Esempio

Dettagli

Analisi e diagramma di Pareto

Analisi e diagramma di Pareto Analisi e diagramma di Pareto L'analisi di Pareto è una metodologia statistica utilizzata per individuare i problemi più rilevanti nella situazione in esame e quindi le priorità di intervento. L'obiettivo

Dettagli

Sistemi di Numerazione Binaria NB.1

Sistemi di Numerazione Binaria NB.1 Sistemi di Numerazione Binaria NB.1 Numeri e numerali Numero: entità astratta Numerale : stringa di caratteri che rappresenta un numero in un dato sistema di numerazione Lo stesso numero è rappresentato

Dettagli

Database. Si ringrazia Marco Bertini per le slides

Database. Si ringrazia Marco Bertini per le slides Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida

Dettagli

Excel Terza parte. Excel 2003

Excel Terza parte. Excel 2003 Excel Terza parte Excel 2003 TABELLA PIVOT Selezioniamo tutti i dati (con le relative etichette) Dati Rapporto tabella pivot e grafico pivot Fine 2 La tabella pivot viene messa di default in una pagina

Dettagli

C) DIAGRAMMA A SETTORI

C) DIAGRAMMA A SETTORI C) DIAGRAMMA A SETTORI Procedura: Determinare la percentuale per ciascuna categoria Convertire i valori percentuali in gradi d angolo Disegnare un cerchio e tracciare i settori Contrassegnare i settori

Dettagli

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Un po di statistica. Christian Ferrari. Laboratorio di Matematica Un po di statistica Christian Ferrari Laboratorio di Matematica 1 Introduzione La statistica è una parte della matematica applicata che si occupa della raccolta, dell analisi e dell interpretazione di

Dettagli

Introduzione al MATLAB c Parte 2

Introduzione al MATLAB c Parte 2 Introduzione al MATLAB c Parte 2 Lucia Gastaldi Dipartimento di Matematica, http://dm.ing.unibs.it/gastaldi/ 18 gennaio 2008 Outline 1 M-file di tipo Script e Function Script Function 2 Costrutti di programmazione

Dettagli

Statistica. Alfonso Iodice D Enza iodicede@unina.it

Statistica. Alfonso Iodice D Enza iodicede@unina.it Statistica Alfonso Iodice D Enza iodicede@unina.it Università degli studi di Cassino () Statistica 1 / 16 Outline 1 () Statistica 2 / 16 Outline 1 2 () Statistica 2 / 16 Outline 1 2 () Statistica 2 / 16

Dettagli

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010 LEZIONE 3 "Educare significa aiutare l'animo dell'uomo ad entrare nella totalità della realtà. Non si può però educare se non rivolgendosi alla libertà, la quale definisce il singolo, l'io. Quando uno

Dettagli

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da Data una funzione reale f di variabile reale x, definita su un sottoinsieme proprio D f di R (con questo voglio dire che il dominio di f è un sottoinsieme di R che non coincide con tutto R), ci si chiede

Dettagli

Regressione non lineare con un modello neurale feedforward

Regressione non lineare con un modello neurale feedforward Reti Neurali Artificiali per lo studio del mercato Università degli studi di Brescia - Dipartimento di metodi quantitativi Marco Sandri (sandri.marco@gmail.com) Regressione non lineare con un modello neurale

Dettagli

Lezione 1. Concetti Fondamentali

Lezione 1. Concetti Fondamentali Lezione 1 Concetti Fondamentali 1 Sonetto di Trilussa Sai ched è la statistica? E E na cosa che serve pe fa un conto in generale de la gente che nasce, che sta male, che more, che va in carcere e che sposa.

Dettagli

Esercizio 1. (7 punti) Illustrare facendo uso di pseudocodice uno degli algoritmi per l estrazione di regole di decisione visti a lezione.

Esercizio 1. (7 punti) Illustrare facendo uso di pseudocodice uno degli algoritmi per l estrazione di regole di decisione visti a lezione. Politecnico di Milano Facoltà di Ingegneria dell Informazione Metodologie per Sistemi Intelligenti Prof. Lanzi e Ing. Rossini 19 Luglio 2005 COGNOME E NOME (IN STAMPATELLO) MATRICOLA Risolvere i seguenti

Dettagli

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R Studio di funzione Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R : allo scopo di determinarne le caratteristiche principali.

Dettagli

postulato della valutazione tramite indicatori: La valutazione di un sistema sanitario tramite indicatori ipotizza

postulato della valutazione tramite indicatori: La valutazione di un sistema sanitario tramite indicatori ipotizza postulato della valutazione tramite indicatori: La valutazione di un sistema sanitario tramite indicatori ipotizza la praticabilità di una scomposizione della complessità in informazioni elementari ed

Dettagli

( x) ( x) 0. Equazioni irrazionali

( x) ( x) 0. Equazioni irrazionali Equazioni irrazionali Definizione: si definisce equazione irrazionale un equazione in cui compaiono uno o più radicali contenenti l incognita. Esempio 7 Ricordiamo quanto visto sulle condizioni di esistenza

Dettagli

Indice Statistiche Univariate Statistiche Bivariate

Indice Statistiche Univariate Statistiche Bivariate Indice 1 Statistiche Univariate 1 1.1 Importazione di un file.data.............................. 1 1.2 Medie e variabilità................................... 6 1.3 Distribuzioni di frequenze...............................

Dettagli

COME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING

COME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING Febbraio Inserto di Missione Impresa dedicato allo sviluppo pratico di progetti finalizzati ad aumentare la competitività delle imprese. COME SVILUPPARE UN EFFICACE PIANO DI INTERNET MARKETING COS E UN

Dettagli

Basi di Dati Relazionali

Basi di Dati Relazionali Corso di Laurea in Informatica Basi di Dati Relazionali a.a. 2009-2010 PROGETTAZIONE DI UNA BASE DI DATI Raccolta e Analisi dei requisiti Progettazione concettuale Schema concettuale Progettazione logica

Dettagli

Capitolo V : Il colore nelle immagini digitali

Capitolo V : Il colore nelle immagini digitali Capitolo V : Il colore nelle immagini digitali Lavorare con il colore nelle immagini digitali L uso dei colori nella visione computerizzata e nella computer grafica implica l incorrere in determinate problematiche

Dettagli

e-dva - eni-depth Velocity Analysis

e-dva - eni-depth Velocity Analysis Lo scopo dell Analisi di Velocità di Migrazione (MVA) è quello di ottenere un modello della velocità nel sottosuolo che abbia dei tempi di riflessione compatibili con quelli osservati nei dati. Ciò significa

Dettagli

Organizzazione degli archivi

Organizzazione degli archivi COSA E UN DATA-BASE (DB)? è l insieme di dati relativo ad un sistema informativo COSA CARATTERIZZA UN DB? la struttura dei dati le relazioni fra i dati I REQUISITI DI UN DB SONO: la ridondanza minima i

Dettagli

Il linguaggio SQL. è di fatto lo standard tra i linguaggi per la gestione di data base relazionali.

Il linguaggio SQL. è di fatto lo standard tra i linguaggi per la gestione di data base relazionali. (Structured Query Language) : Il linguaggio è di fatto lo standard tra i linguaggi per la gestione di data base relazionali. prima versione IBM alla fine degli anni '70 per un prototipo di ricerca (System

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 5-Indici di variabilità (vers. 1.0c, 20 ottobre 2015) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

STRATEGIA DI TRADING. Turning Points

STRATEGIA DI TRADING. Turning Points STRATEGIA DI TRADING Turning Points ANALISI E OBIETTIVI DA RAGGIUNGERE Studiare l andamento dei prezzi dei mercati finanziari con una certa previsione su tendenze future Analisi Tecnica: studio dell andamento

Dettagli

Capitolo 12 La regressione lineare semplice

Capitolo 12 La regressione lineare semplice Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara

Dettagli

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video Video Librerie digitali Gestione di video Ogni filmato è composto da più parti Video Audio Gestito come visto in precedenza Trascrizione del testo, identificazione di informazioni di interesse Testo Utile

Dettagli

Indici di dispersione

Indici di dispersione Indici di dispersione 1 Supponiamo di disporre di un insieme di misure e di cercare un solo valore che, meglio di ciascun altro, sia in grado di catturare le caratteristiche della distribuzione nel suo

Dettagli

Preprocessamento dei Dati

Preprocessamento dei Dati Preprocessamento dei Dati Raramente i dati sperimentali sono pronti per essere utilizzati immediatamente per le fasi successive del processo di identificazione, a causa di: Offset e disturbi a bassa frequenza

Dettagli

1. PRIME PROPRIETÀ 2

1. PRIME PROPRIETÀ 2 RELAZIONI 1. Prime proprietà Il significato comune del concetto di relazione è facilmente intuibile: due elementi sono in relazione se c è un legame tra loro descritto da una certa proprietà; ad esempio,

Dettagli

Modelli di Programmazione Lineare e Programmazione Lineare Intera

Modelli di Programmazione Lineare e Programmazione Lineare Intera Modelli di Programmazione Lineare e Programmazione Lineare Intera 1 Azienda Dolciaria Un azienda di cioccolatini deve pianificare la produzione per i prossimi m mesi. In ogni mese l azienda ha a disposizione

Dettagli

Lezione V. Aula Multimediale - sabato 29/03/2008

Lezione V. Aula Multimediale - sabato 29/03/2008 Lezione V Aula Multimediale - sabato 29/03/2008 LAB utilizzo di MS Access Definire gli archivi utilizzando le regole di derivazione e descrivere le caratteristiche di ciascun archivio ASSOCIAZIONE (1:1)

Dettagli

Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale

Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale Corso di Scienza Economica (Economia Politica) prof. G. Di Bartolomeo Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale Facoltà di Scienze della Comunicazione Università di Teramo Scelta

Dettagli

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla Il metodo della regressione può essere esteso dal caso in cui si considera la variabilità della risposta della y in relazione ad una sola variabile indipendente X ad una situazione più generale in cui

Dettagli

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: Esempi di domande risposta multipla (Modulo II) 1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: 1) ha un numero di elementi pari a 5; 2) ha un numero di elementi

Dettagli

Corso di Matematica per la Chimica

Corso di Matematica per la Chimica Dott.ssa Maria Carmela De Bonis a.a. 203-4 I sistemi lineari Generalità sui sistemi lineari Molti problemi dell ingegneria, della fisica, della chimica, dell informatica e dell economia, si modellizzano

Dettagli

Mining Positive and Negative Association Rules:

Mining Positive and Negative Association Rules: Mining Positive and Negative Association Rules: An Approach for Confined Rules Alessandro Boca Alessandro Cislaghi Premesse Le regole di associazione positive considerano solo gli item coinvolti in una

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 29-Analisi della potenza statistica vers. 1.0 (12 dicembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

ELABORAZIONE DI DATI TRIDIMENSIONALI - RELAZIONE HOMEWORK 2

ELABORAZIONE DI DATI TRIDIMENSIONALI - RELAZIONE HOMEWORK 2 DAVIDE ZANIN 1035601 ELABORAZIONE DI DATI TRIDIMENSIONALI - RELAZIONE HOMEWORK 2 SOMMARIO Elaborazione di dati tridimensionali - Relazione Homework 2... 1 Obiettivo... 2 Descrizione della procedura seguita...

Dettagli

Ing. Simone Giovannetti

Ing. Simone Giovannetti Università degli Studi di Firenze Dipartimento di Elettronica e Telecomunicazioni Ing. Simone Giovannetti Firenze, 29 Maggio 2012 1 Incertezza di Misura (1/3) La necessità di misurare nasce dall esigenza

Dettagli

LA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1

LA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1 LA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1 I CODICI 1 IL CODICE BCD 1 Somma in BCD 2 Sottrazione BCD 5 IL CODICE ECCESSO 3 20 La trasmissione delle informazioni Quarta Parte I codici Il codice BCD

Dettagli

Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e

Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e Alberi di decisione Aprire WEKA Explorer Caricare il file circletrain.arff Selezionare random split al 66% come modalità di test Selezionare J48 come classificatore e lanciarlo con i parametri di default.

Dettagli

Dimensione di uno Spazio vettoriale

Dimensione di uno Spazio vettoriale Capitolo 4 Dimensione di uno Spazio vettoriale 4.1 Introduzione Dedichiamo questo capitolo ad un concetto fondamentale in algebra lineare: la dimensione di uno spazio vettoriale. Daremo una definizione

Dettagli

Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia

Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia Alessandra Pelliccia Matteo Cataldi Matteo Filippo Donadi 0 AGENDA Fonti Descrizione dei dati Variabili

Dettagli

Introduzione all analisi dei segnali digitali.

Introduzione all analisi dei segnali digitali. Introduzione all analisi dei segnali digitali. Lezioni per il corso di Laboratorio di Fisica IV Isidoro Ferrante A.A. 2001/2002 1 Segnali analogici Si dice segnale la variazione di una qualsiasi grandezza

Dettagli

Suggerimenti per l approccio all analisi dei dati multivariati

Suggerimenti per l approccio all analisi dei dati multivariati Suggerimenti per l approccio all analisi dei dati multivariati Definizione degli obbiettivi Il primo passo è la definizione degli obbiettivi. Qual è l obbiettivo della sperimentazione i cui dati dovete

Dettagli

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE DESCRIZIONE DEI DATI DA ESAMINARE Sono stati raccolti i dati sul peso del polmone di topi normali e affetti da una patologia simile

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2014-2015 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

SVM. Veronica Piccialli. Roma 11 gennaio 2010. Università degli Studi di Roma Tor Vergata 1 / 14

SVM. Veronica Piccialli. Roma 11 gennaio 2010. Università degli Studi di Roma Tor Vergata 1 / 14 SVM Veronica Piccialli Roma 11 gennaio 2010 Università degli Studi di Roma Tor Vergata 1 / 14 SVM Le Support Vector Machines (SVM) sono una classe di macchine di che derivano da concetti riguardanti la

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 12-Il t-test per campioni appaiati vers. 1.2 (7 novembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Algoritmi e strutture dati. Codici di Huffman

Algoritmi e strutture dati. Codici di Huffman Algoritmi e strutture dati Codici di Huffman Memorizzazione dei dati Quando un file viene memorizzato, esso va memorizzato in qualche formato binario Modo più semplice: memorizzare il codice ASCII per

Dettagli

Statistica inferenziale

Statistica inferenziale Statistica inferenziale Popolazione e campione Molto spesso siamo interessati a trarre delle conclusioni su persone che hanno determinate caratteristiche (pazienti, atleti, bambini, gestanti, ) Osserveremo

Dettagli

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2. Analisi multivariata Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Cercare di capire le relazioni

Dettagli