I metodi di Classificazione automatica
|
|
- Aldo Battaglia
- 7 anni fa
- Visualizzazioni
Transcript
1 L Analisi Multidimensionale dei Dati Una Statistica da vedere I metodi di Classificazione automatica Matrici e metodi Strategia di AMD Anal Discrimin Segmentazione SI Per riga SI Matrice strutturata NO Analisi nello spazio delle variabili NO Cluster Anal Scaling Multid Correl Canon Corrisp Multi An Matrici 3D SI Analisi confermative NO Analisi simmetrica NO RegressMult, Conoint Anal An Non Simm Corrisp SI CompPrinc An Corrisp Analisi esplorative Variabili qualitative Variabili ordinali Variabili quantitative
2 Classificazione automatica Insieme di procedure (algoritmi) che si prefiggono di classificare o raggruppare individui in classi tali che: - gli individui all'interno di una classe siano molto simili - ogni classe sia relativamente distinta dalle altre Tabelle individui-variabili numeriche I dati Tabelle di contingenza Tabelle di presenza-assenza Si ipotizza la presenza di raggruppamenti tra le unità oppure Se ne richiede la determinazione La definizione delle classi si ottiene mediante algoritmi iterativi basati su una serie di operazioni elementari ripetute in maniera ricorsiva I metodi di Classificazione automatica Obiettivo Definire una o più partizioni a partire dall insieme dei punti considerati Definire una o più partizioni a partire dall insieme dei punti considerati Problema Numero delle partizioni possibili Numero delle partizioni possibili Es: Es: 4 elementi (A,B,C,D) e gruppi (A) (B,C,D) (B) (A,C,D) (C) (A,B,D) (D) (A,B,C) (A,B) (C,D) (A,C) (B,D) (A,D) (B,C) Numero delle partizioni (P)( n- - n4 P 7 n P 5 n P,,,,,,,,,, - 9 -
3 I metodi di Classificazione automatica milione di di partizioni al al secondo Partizione ottimale di unità in 5 classi 8 giorni 3 unità in 5 classi 444 secoli! I metodi di Classificazione automatica Gli algoritmi per la classificazione automatica possono portare: Alla costruzione di classi per dicotomizzazioni successive dell insieme degli oggetti Classificazione gerarchica discendente Alla costruzione di classi per aggregazioni successive di coppie di oggetti Classificazione gerarchica ascendente Direttamente a delle partizioni Classificazione non gerarchica 3
4 Criteri di classificazione E {e, e,, e i,, e n } è l'insieme degli n individui da raggruppare Una PARTIZIONE di E : P(E) {c, c,, c,, c k } (k n) verifica le seguenti proprietà per c e c P(E) c c c c c c k E P (E) P(E) se ogni elemento di P (E) è incluso in un solo elemento di P(E) Una GERARCHIA di E : H(E) {c, c,, c,, c k } verifica le seguenti proprietà e i E e i H(E) E {e, e,, e i,, e n } H(E) per c e c H(E) c c o c c o c c e 4 H(E) e 3 e e e 5 E taglio del dendrogramma per ottenere i gruppi rami nodi H(E) P 5 {(e e e 3 e 4 e 5 )} P 4 {(e e e 3 e 4 ) e 5 } P 3 {(e e ) (e 3 e 4 ) e 5 } P {(e e ) e 3 e 4 e 5 } P {e e e 3 e 4 e 5 } e e e 3 e 4 e 5 Gerarchia una gerarchia è una sequenza di partizioni nidificate Albero Gerarchico o Dendrogramma 4
5 La misura del grado di somiglianza Si può definire una applicazione d che faccia corrispondere un numero reale positivo o nullo a ciascuna coppia (i,h) Condizioni: ) Separabilità: d ( i, h) e i eh ) Simmetria: d ( i, h) d( h, i) 3) Disuguaglianza triangolare: d ( i, h) d( i, e) + d( e, h) i, h, e 4) Condizione di Krassner: d ( i, h) SUP[ d( i, e) ; d( e, h) ] i, h, e Parleremo di: ) indice di dissimilarità se si verificano le condizioni e ) metrica o distanza se si verificano le condizioni, e 3 ) ultrametrica se si verificano le condizioni, e 4 indici di similarità: dati booleani indici di distanza: dati numerici e frequenze Indici di similarità per variabili dicotomiche Dati binari Indici di similarità: e, e i i S E S S ii ii ii S i i (simmetria) max solo se x ei ei ei ei a+ d concordanza a b ei 8 9 ei c d i x i,, p a+d 5 S, 75 a+b+c+d Indice di Sokal-Michener: ii ( ) a 8, 6 a + b+ c 3 Coefficente di Jaccard: S ( ) ii 5
6 La matrice di similarità/dissimilarità Dati binari e ei ei en e ei ei en Si i Sii Matrice di Similarità quadrata n n simmetrica diagonale Indice di dissimilarità d ii S ii Distanze per variabili quantitative METRICA DI MINKOWSKY d h ii xi - x i h h Caso particolare h Distanza di Manhattan (city block) d i i h Distanza Euclidea d ( x - x i i ) h Distanza di Lebisev d Max x i - x i x x 4 e e d d d ( 4 + ) Max ( 4,) x x 6
7 DISTANZA EUCLIDEA NORMALIZZATA d ii ( xi - xi ) - DISTANZA DI MAHALANOBIS ( x - x ) W ( x - x ) i σ i i i (W è la matrice di varianza) INDICE DI DISTANZA DEDOTTO DAL COEFFICIENTE DI CORRELAZIONE - r d ii ii Distanze per tabelle di frequenze Distanza del χ (Benzecri) Distanza tra due righe i e i : d ii f f f i - i i i f f Distanza tra due colonne e : d fi fi - i f i f f 7
8 Una Metrica Particolare: la Distanza del χ VD'Aosta Piemonte PCI DC ( VDA) ( PIE) PCI PCI PCI + VDA PIE DC DC DC + VDA PIE ΣPCI DC χ f f f i i - f i f i Classificazione gerarchica Il principio dell algoritmo consiste nel creare, a ciascun passo, una partizione ottenuta aggregando a due a due gli elementi più vicini; L algoritmo non fornisce una partizione in q classi di un insieme di n oggetti ma una gerarchia di partizioni che si presentano sotto forma di albero detto anche dendrogramma e che contiene n- partizioni; L importanza della lettura del dendrogramma è nella possibilità di suggerire il numero di classi effettivamente presenti nell insieme osservato 8
9 I passi di una procedura di classificazione PASSO : n individui da classificare PASSO : analisi della matrice di dissimilarità (distanza) e aggregazione dei due elementi più vicini PASSO : calcolo delle distanze tra il nuovo punto ed i punti restanti Ritorno al passo con n- punti da classificare PASSO 3: nuova ricerca dei due punti più vicini e loro aggregazione Calcolo delle nuove distanze e ripetizione del processo fino a comprendere tutti gli elementi in un'unica classe Dendrogramma gruppi gruppo Scelta del livello di taglio x x x Definizione delle classi della partizione 9
10 I diversi criteri di raggruppamento Gruppo A Gruppo B x x Criteri per la determinazione della distanza tra due gruppi a Distanza minima ; b Distanza massima c Distanza centroidi ; d Distanza media Criteri basati sull inerzia dei gruppi Metodo di Ward Metodo di Ward I diversi criteri di raggruppamento Criteri basati sull inerzia dei gruppi Metodo di Ward Metodo di Ward Il metodo di Ward è basato sulla minimizzazione della varianza all interno dei gruppi Inerzia totale Inerzia entro le classi + Inerzia tra le classi Teorema di Huyghens: g g gk g gi xi Obiettivo della partizione è minimizzare la quota di variabilità interna ai gruppi, massimizzando al contempo la variabilità tra i gruppi, così da ottenere classi omogenee al loro interno e ben separate l una dall altra Varianza tra i gruppi in caso di n classi: massima Varianza tra i gruppi in caso di una classe: nulla L algoritmo di Ward aggrega, ad ogni passo intermedio, gli oggetti (gruppi o unità) che determinano la perdita di inerzia tra le classi minima
11 DISTANZA DI WARD O CRITERIO DELLA VARIANZA MINIMA ( c, c ) n d( e, e ) + n d( e, e ) ( e centroide di c c ) d c (n ) e e e c (n ) e e e c (n ) Un esempio (Criterio della distanza minima) 6 a b c d e f g a b c d e f g a b c d 5 e 4 9 f 5 g a b c d e f g ab c de f g ab 5 5 c de 4 9 f 5 g abc de f g abc de 4 9 f 5 g abcde f g abcde 4 9 f 5 g abcdef g abcdef 5 g
12 I diversi criteri di raggruppamento a b c d e f g a b c d e f g a b c d e f g a b c d e f g Distanza minima Distanza massima Distanza media I passi di una classificazione gerarchica p n : Matrice dei dati : Matrice delle ultrametriche n n n n- : Matrice delle distanze : Matrice delle distanze Matrice delle distanze n n-
13 Esempio: I consumi alimentari 9 Livello di taglio BE FR GE DA IR AU OL SV FI GB NO IS SP PO GR IT Classi della partizione La descrizione delle classi: I valori-test Media classe k Media generale ( ) x k a) variabili continue: tk X ~ N(,) Variabile Varianza variabile x σ N nk n N k Numerosità totale Numerosità classe k b) variabili nominali tk ( X ) pk P P ( P ) N n k nk N ~ N(,) 95% 5% 5% ε -,96 σ,96 σ 3
14 La definizione delle classi Classe BE, FR, GE, DA, IR Classe AU, OL, SV, FI, GB, NO, IS Classe SP, PO, GR, IT Media V test Classe Generale Variab,8 4, 85,78 Carne, 6, 4, Burro,6 3,94,7 Uova,5 9,9 8,3 Patate,33 37,8 36,38 Zucchero -,39 76,8 78, Cereali -,47,4 8,4 Latte -,87 77,6 95,6 Verdure -, 3,4 4,7 Riso Media V test Classe Generale Variab,46 6,63 8,4 Latte,9 4,9 36,38 Zucchero,33 4,44 4, Burro -,5 4, 4,7 Riso -,,6,7 Uova -,3 7, 8,3 Patate -,8 7,5 78, Cereali -,3 6,9 95,6 Verdure -,6 7,76 85,78 Carne Media V test Classe Generale Variab 3,6 75,78 95,6 Verdure,5 94,35 78, Cereali,33 5,43 4,7 Riso,37 85,75 8,3 Patate -, 85,68 85,78 Carne -,3,35,7 Uova -,3 8,6 8,4 Latte -,73,35 4, Burro -,74 8,5 36,38 Zucchero es: t( Carne,Cl ) Le tipologie La dieta mediterranea La dieta iperproteica La dieta grassa 4
15 Classificazione non gerarchica E utilizzata quando si hanno molti punti da classificare Richiede la determinazione a priori del numero di classi che definiscono la partizione Metodo dei centri mobili L algoritmo è convergente ed il numero di iterazioni richieste è generalmente limitato, cosa che rende questo metodo applicabili anche a grosse quantità di dati; D altra parte, la soluzione ottenuta non rappresenta la soluzione ottimale ma solo una delle tante possibili, ottenuta avendo determinato a priori quel numero di classi e avendo scelto quelle unità iniziali; Soluzione proposta Metodo delle nubi dinamiche Metodo dei centri mobili passo: Scelta casuale dei k nuclei iniziali passo: Calcolo delle distanze e definizione della prima partizione Passi successivi: Definizione dei nuovi nuclei, calcolo delle nuove distanze, definizione della nuova partizione, e così via Convergenza: Stabilità della partizione 5
16 Un algoritmo generale di tipo nubi dinamiche PASSO : definizione del numero delle classi (k) e dei nuclei costituiti da uno o più elementi rappresentativi di ciascuna classe La scelta dei nuclei può essere inizialmente arbitraria (per es elementi casuali) o basata su informazione a priori (per es un'analisi fattoriale preliminare PASSO : sia L l'insieme dei k nuclei iniziali n (,, k), L E { E E } E k di numerosità Al primo passo si passa da questi nuclei ad una prima partizione P ( E) { C C Ck } per mezzo di una funzione di distanza D tale che: C e E D e, E < D e, E h { ( ) ( ) } i i i h Un algoritmo generale di tipo nubi dinamiche PASSO D può essere il legame singolo, il legame medio, ecc, tra i gruppi e E e D i i e n E D i E k D ik 6
17 Un algoritmo generale di tipo nubi dinamiche { } PASSO : ridefinizione dei k nuclei L E E E k di numerosità n ancora considerando gli elementi più vicini alla classe C per mezzo di una funzione di distanza R tale che: E { e E i,, n R ( e,c ) Min} i i e e i e n C C R R i R n C k Un algoritmo generale di tipo nubi dinamiche PASSI SUCCESSIVI: si passa dai nuovi nuclei ad una nuova partizione P ( E), poi ai nuclei E e da questi ad una nuova partizione e così via fino alla convergenza ad una soluzione stabile e quindi ottimale E Ricerca delle forme forti: la soluzione dipende dalle scelte iniziali s Ripetendo la procedura s volte P, P,, P si definiscono forme forti le k classi della partizione prodotto Π P costituita da elementi classificati insieme in ciascuna delle s partizioni 7
18 Metodo delle nubi dinamiche x 5 x x 3 5 x 4 3 x5 4 Matrice dei Dati x x x 3 x 4 x 5 x x x x x Matrice delle Distanze Euclidee x 3 x E E { x3, x5} { x } x 4 x x 5 Scelta dei Nuclei Iniziali Metodo delle nubi dinamiche E E x 33 x 33 4 x3 83 x x P P { x, x4, x5} { x, x } 3 P P x 387 x 4 43 x x x Passo : calcolo dei nuovi nuclei in base agli elementi più prossimi alla partizione Passo : passaggio dai nuclei alla prima partizione secondo il criterio della distanza media E { x x } 4, 5 E { x } Passo 3: passaggio dai nuovi nuclei ad una nuova partizione E E x 358 x 7 4 x3 435 x x P P { x, x4, x5} { x, x } 3 8
19 Metodo delle nubi dinamiche Partizione Finale x 3 x P P { x, x4, x5} { x, x } 3 x 4 x x 5 Metodo delle nubi dinamiche (distanza minima dai nuclei) x x x3 x4 x5 A) {x } {x 5 } {x x x 3 } {x 4 x 5 } {x x 3 } {x x 4 x 5 } x x x x x Matrice delle Distanze 9
20 Metodo delle nubi dinamiche (distanza media dai nuclei) x 3 x B) {x } {x 3 } {x x x 4 } {x 3 } x x 4 x 5 Partizione Finale A {x x 3 }{x x 4 x 5 } B {x x 3 }{x x 4 x 5 } Metodi fattoriali e Classificazione Metodi fattoriali Sono particolarmente adatti all esplorazione di grandi tabelle di dati individuali Consentono di evidenziare le relazioni strutturali tra le variabili e/o le unità osservate I piani rappresentano solo una parte della variabilità totale La lettura può risultare complessa + + Metodi di classificazione La descrizione delle classi è più facile di quella di uno spazio continuo, anche se a due dimensioni Le classi si formano sulla base delle dimensioni reali del fenomeno e non considerano, quindi, eventuali deformazioni dovute ad operazioni di proiezione Gli algoritmi di classificazione sono generalmente robusti, nel senso che + risultano non influenzati da eventuali punti anomali isolati - Lo spazio a p dimensioni è probabilmente ridondante e contiene, quindi, una parte di rumore, inutile ai fini dell analisi Approccio integrato Classificazione sui sui risultati risultati di di un un metodo metodo fattoriale
SDE Marco Riani
SDE 2017 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis (analisi dei gruppi) ANALISI DISCRIMINANTE
DettagliL Analisi Multidimensionale dei Dati
L Analisi Multidimensionale dei Dati Analisi Discriminante Una Statistica da vedere Area Clienti intermedi Area Buoni clienti Area Cattivi clienti Classificazione a priori Buoni Intermedi Cattivi TOT.
DettagliStatistica per l Impresa
Statistica per l Impresa a.a. 207/208 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 2 maggio 208 Indice Analisi dei Gruppi: Introduzione Misure di distanza e indici di similarità 3. Metodi gerarchici
DettagliCluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca
Cluster Analysis Distanze ed estrazioni M Q Marco Perugini Milano-Bicocca 1 Scopi Lo scopo dell analisi dei Clusters è di raggruppare casi od oggetti sulla base delle loro similarità in una serie di caratteristiche
DettagliI modelli di analisi statistica multidimensionale dei dati: La Cluster Analysis Gerarchica
Titolo della lezione: I modelli di analisi statistica multidimensionale dei dati: La Cluster Analysis Gerarchica Obiettivi dell unità didattica Comprendere l insieme delle procedure che si prefiggono di
DettagliMetodi Probabilistici e Statistici per l Analisi dei Dati. Prof. V. Simoncini. Testi di Riferimento
Metodi Probabilistici e Statistici per l Analisi dei Dati Prof. V. Simoncini e-mail: valeria@dm.unibo.it, valeria@ambra.unibo.it Testi di Riferimento Lucidi di Lezione (http://www.dm.unibo.it/ ~simoncin/datiii.html)
DettagliObiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che:
Cluster Analysis Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che: le unità appartenenti ad uno di essi sono il più possibile omogenee i gruppi sono
DettagliANALISI DEI CLUSTER. In questo documento presentiamo alcune opzioni analitiche della procedura di analisi de cluster di
ANALISI DEI CLUSTER In questo documento presentiamo alcune opzioni analitiche della procedura di analisi de cluster di SPSS che non sono state incluse nel testo pubblicato. Si tratta di opzioni che, pur
DettagliCenni sulla cluster analysis
Cenni sulla cluster analysis Distanze Dato un insieme E, una funzione d: E X E -> R + che ha le seguenti tre proprietà: d(x i, x j ) = 0 x i = x j d(x i, x j ) = d(x j, x i ) d(x i, x j ) d(x j, x h )
DettagliMetodi di classificazione. Loredana Cerbara
Loredana Cerbara I metodi di classificazione, anche detti in inglese cluster analysis, attengono alla categoria dei metodi esplorativi. Esistono centinaia di metodi di classificazione dei dati ed hanno
DettagliL'analisi bivariata (associazione e cograduazione)
L'analisi bivariata (associazione e cograduazione) Prof. Stefano Nobile Corso di Metodologia della ricerca sociale L analisi bivariata L analisi bivariata è un analisi delle relazioni tra due caratteristiche
DettagliAnalisi esplorativa di dati multidimensionali
io e Luigi Fabbris Analisi esplorativa di dati multidimensionali 'CENTRO " G. ASTENGO» cleup editore INVENTARIO 2B6 c., INDICE DEI CONTENUTI -~ Cap. 1 L'analisi dei dati nella ricerca sociale pag. I 1.1.
DettagliProva scritta di ASM - Modulo Analisi Esplorativa del
Cognome:... Nome:... Matricola:......... Prova scritta di ASM - Modulo Analisi Esplorativa del 14.02.2017 La durata della prova è di 90 minuti. Si svolgano gli esercizi A e B riportando il risultato dove
DettagliProva finale del 6 giugno 2011
Prova finale del 6 giugno 2011 Esercizio A, da svolgere con carta e penna Si consideri la seguente matrice dei dati relativa a 3 unità statistiche e 3 variabili, X 1 e X 2 quantitative, X 3 dicotomica.
DettagliAPPUNTI DI CLUSTER ANALYSIS (Paola Vicard)
APPUNTI DI CLUSTER ANALYSIS (Paola Vicard) Obiettivi della cluster analysis La cluster analysis è una delle principali tecniche di analisi statistica multivariata per raggruppare le unità osservate in
DettagliCopyright Esselibri S.p.A.
70 3000 500 000 1500 1000 500 A B C D (a) Capitolo Terzo A B C D 500 1000 1500 000 5003000 3500 Fig. 1 - Ortogramma a colonne (a) e ortogramma a nastri (b) 4. MISURE DI ASSOCIAZIONE E DI COGRADUAZIONE
DettagliAnalisi delle corrispondenze
Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello
DettagliStatistica per l Impresa
Statistica per l Impresa a.a. 2017/2018 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 9 maggio 2018 Indice Analisi dei Gruppi: Introduzione Misure di distanza e indici di similarità Metodi gerarchici
DettagliCluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare!
La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. Le tecniche di cluster analysis vengono usate per esplorare i dati e non per modellare! La cluster analysis
DettagliLA CASSIFICAZIONE AUTOMATICA PER UNO STUDIO DEL SISTEMA DEI TRASPORTI
_ LA CLASSIFICAZIONE AUTOMATICA PER UNO STUDIO DEL SISTEMA DEI TRASPORTI Rosaria Lombardo LA CASSIFICAZIONE AUTOMATICA CLASSIFICAZIONE E CLUSTERING 1. Introduzione L analisi dei gruppi, o cluster analysis,
DettagliIntelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011
Intelligenza Artificiale Clustering Francesco Uliana 14 gennaio 2011 Definizione Il Clustering o analisi dei cluster (dal termine inglese cluster analysis) è un insieme di tecniche di analisi multivariata
DettagliREGISTRO DELLE LEZIONI
UNIVERSITÀ DEGLI STUDI DI GENOVA Dipartimento di Matematica Corso di laurea in Statistica matematica e trattamento informatico dei dati REGISTRO DELLE LEZIONI dell INSEGNAMENTO o MODULO UFFICIALE Nome:
DettagliAnalisi delle corrispondenze
Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza
DettagliStatistica per l Impresa
Statistica per l Impresa a.a. 2017/2018 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 23 aprile 2018 Indice 1. Analisi dei Gruppi: Introduzione 2. Misure di distanza e indici di similarità 3.
DettagliREGISTRO DELLE LEZIONI
UNIVERSITÀ DEGLI STUDI DI GENOVA Dipartimento di Matematica Corso di laurea in Statistica matematica e trattamento informatico dei dati REGISTRO DELLE LEZIONI dell INSEGNAMENTO o MODULO UFFICIALE Nome:
DettagliFondamenti dell Informatica Algebra di Boole. Prof.ssa Enrica Gentile
Fondamenti dell Informatica Algebra di Boole Prof.ssa Enrica Gentile Algebra di Boole Si basa su tre operazioni logiche: AND (*) OR (+) NOT (!) Gli operandi possono avere solo due valori: Vero () Falso
DettagliCluster Analysis (2 parte)
Cluster Analysis (2 parte) Esempio 2 Data set: Nel data set Dieta (Dieta.txt, Dieta.sav) sono contenute informazioni sul consumo medio dei principali alimenti in 16 paesi Europei. Paese Cereali (Ce) Riso
DettagliStatistica multivariata! Analisi fattoriale
Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Statistica multivariata! Analisi
DettagliSDE Marco Riani
SDE 2018 Marco Riani mriani@unipr.it http://www.riani.it MISURE DI DISTANZA E SIMILARITA SCOPI DEL CALCOLO Problema: misurare la diversità (ovvero la rassomiglianza) tra due unità statistiche di cui si
DettagliMaria Brigida Ferraro + Luca Tardella
Cluster Maria Brigida Ferraro + Luca Tardella e-mail: mariabrigida.ferraro@uniroma1.it, ferraromb@gmail.com Lezione #3: Cluster Obiettivi del modulo Cluster 1 Introduzione ai problemi di classificazione
DettagliReti Logiche 1. Prof. B. Buttarazzi A.A. 2009/2010. Algoritmo QMC
Reti Logiche Prof. B. Buttarazzi A.A. 2009/200 Algoritmo QMC Sommario Metodo algoritmico di Quine e Mc-Cluskey Implicanti primi Riga essenziale Riga dominata Esempi Riepilogo ALGORITMO DI KARNAUGH () MONOMIO:
DettagliAnalisi dell associazione tra due caratteri
Analisi dell associazione tra due caratteri Non ci accontentiamo di analizzare il singolo fenomeno, considerato indipendentemente da altri fenomeni Ci interessano le relazioni che possono esistere tra
DettagliRisultato di una rilevazione statistica effettuata su n unità statistiche con riferimento a p fenomeni (detti anche caratteri, variabili)
LA MATRICE DEI DATI Risultato di una rilevazione statistica effettuata su n unità statistiche con riferimento a p fenomeni (detti anche caratteri, variabili) Esempi di: unità variabili individui Reddito,
DettagliRiferimenti. Il programma di questa lezione
Politecnico di Torino Corso di Statistica Applicata 2005 Classificazione Il problema Sia dato un insieme di n oggetti e le misurazioni di diverse loro caratteristiche, cioè i vettori x 1,..., x n. Si dividano
DettagliANALISI DEI DATI PER IL MARKETING 2014
ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it MISURE DI DISTANZA E SIMILARITA 1 SCOPI DEL CALCOLO Problema: misurare la diversità (ovvero la rassomiglianza) tra
DettagliAlcuni concetti geometrici
Alcuni concetti geometrici spazio Euclideo bidimensionale X P x 1 x 1 x x 11 x 1 x 1 x x 1 P 1 P 1 (x 11, x 1 ) P (x 1, x ) O x 11 x 1 X 1 O (0, 0) In generale,, in uno spazio Euclideo p-dimensionale il
DettagliAnalisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali
Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione : analisi delle relazioni tra due caratteristiche osservate sulle stesse unità statistiche studio del comportamento di due caratteri
DettagliDistanze Analisi Esplorativa
Distanze Analisi Esplorativa Aldo Solari 1 / 57 1 Distanze 2 Distanza di Mahalanobis 3 Distanze e trasformazioni lineari 4 Indici di similarità 2 / 57 Raggruppamento di unità statistiche L analisi di raggruppamento
DettagliStatistica multivariata
Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire
DettagliStatistica multivariata
Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire le relazioni
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Clustering: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizione
DettagliStesso valore medio per distribuzioni diverse
Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2018-2019 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per
DettagliStatistica multivariata
Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire
DettagliRiconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego
Riconoscimento e recupero dell informazione per bioinformatica Clustering: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizione
DettagliRappresentazioni Tabellari e Grafiche. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica
Rappresentazioni Tabellari e Grafiche Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica Vocabolario Essenziale Unità Statistica Unità elementare
DettagliINDICE PARTE METODOLOGICA
INDICE PARTE METODOLOGICA 1. Il processo di ricerca 1.1.Individuazione di un problema e formulazione delle ipotesi 1.2.Individuazione e definizione operativa delle variabili 1.2.1. Le variabili definite
DettagliApprendimento basato sulle istanze
Apprendimento basato sulle istanze Apprendimento basato sulle istanze Apprendimento: semplice memorizzazione di tutti gli esempi Classificazione di una nuova istanza x j : reperimento degli
DettagliANALISI DELLE SERIE STORICHE
ANALISI DELLE SERIE STORICHE De Iaco S. s.deiaco@economia.unile.it UNIVERSITÀ del SALENTO DIP.TO DI SCIENZE ECONOMICHE E MATEMATICO-STATISTICHE FACOLTÀ DI ECONOMIA 24 settembre 2012 Indice 1 Funzione di
DettagliMetodi statistici per le ricerche di mercato
Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2016-2017 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per
DettagliAlgebra di Boole. Tavole di verità. Fondamenti di Informatica Algebra di Boole. Si basa su tre operazioni logiche: AND (*) OR (+) NOT (!
Fondamenti di Informatica Algebra di Boole Prof.ssa Enrica Gentile Informatica e Comunicazione Digitale a.a. 2-22 Algebra di Boole Si basa su tre operazioni logiche: AND (*) OR () NOT (!) Gli operandi
DettagliDal dato alle decisioni
L Analisi Multidimensionale dei Dati I metodi esplorativi: analisi delle componenti principali analisi delle corrispondenze cluster analysis I metodi confermativi: analisi discriminante segmentazione binaria
DettagliIntroduzione ai grafi. Introduzione ai grafi p. 1/2
Introduzione ai grafi Introduzione ai grafi p. 1/2 Grafi Un grafo G é costituito da una coppia di insiemi (V,A) dove V é detto insieme dei nodi e A é detto insieme di archi ed é un sottinsieme di tutte
DettagliStatistica per le ricerche di mercato
Statistica per le ricerche di mercato A.A. 2012/13 Dr. Luca Secondi 15. Tecniche di analisi statistica multivariata per la segmentazione del mercato Cluster Analysis 1 Cluster analysis La cluster analysis
DettagliStatistica multivariata 27/09/2016. D.Rodi, 2016
Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche
DettagliIntroduzione ai grafi. Introduzione ai grafi p. 1/2
Introduzione ai grafi Introduzione ai grafi p. 1/2 Grafi Un grafo G è costituito da una coppia di insiemi (V,A) dove V è detto insieme dei nodi e A è detto insieme di archi ed è un sottinsieme di tutte
DettagliMetodo di Quine- McCluskey
Metodo di Quine- McCluskey Maurizio Palesi Maurizio Palesi Definizioni Date due funzioni f(x,x 2,,x n ) e g(x,x 2,,x n ) si dice che f copre g (oppure g implica f) e si scrive f g se f(x,x 2,,x n )= quando
DettagliMisure di diversità tra unità statistiche. Loredana Cerbara
Misure di diversità tra unità statistiche Loredana Cerbara LA DISTANZA IN STATISTICA In statistica la distanza ha un significato diverso da quello che si può intuire in altre discipline, dove, peraltro,
DettagliANALISI MULTIDIMENSIONALE DEI DATI (AMD)
ANALISI MULTIDIMENSIONALE DEI DATI (AMD) L Analisi Multidimensionale dei Dati (AMD) è una famiglia di tecniche il cui obiettivo principale è la visualizzazione, la classificazione e l interpretazione della
DettagliMATRICI E SISTEMI LINEARI
1 Rappresentazione di dati strutturati MATRICI E SISTEMI LINEARI Gli elementi di una matrice, detti coefficienti, possono essere qualsiasi e non devono necessariamente essere omogenei tra loro; di solito
DettagliANALISI DEI DATI PER IL MARKETING 2014
ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis
DettagliMetodi Quantitativi per Economia, Finanza e Management. Lezione n 4 Analisi Bivariata I Parte
Metodi Quantitativi per Economia, Finanza e Management Lezione n 4 Analisi Bivariata I Parte Statistica descrittiva bivariata Indaga la relazione tra due variabili misurate. Si distingue rispetto alla
DettagliPROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA
PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA
DettagliAnno 1. Quadrilateri
Anno 1 Quadrilateri 1 Introduzione In questa lezione impareremo a risolvere i problemi legati all utilizzo dei quadrilateri. Forniremo la definizione di quadrilatero e ne analizzeremo le proprietà e le
DettagliMetodi statistici per le ricerche di mercato
Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2016-2017 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per
DettagliI modelli lineari generalizzati per la tariffazione nel ramo RCA: applicazione
I modelli lineari generalizzati per la tariffazione nel ramo RCA: applicazione Giuseppina Bozzo Giuseppina Bozzo Considerazioni preliminari La costruzione di un GLM è preceduta da alcune importanti fasi:
DettagliStatistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2010/2011 Statistica Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza
DettagliNel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.
Regressione [] el modello di regressione lineare si assume una relazione di tipo lineare tra il valore medio della variabile dipendente Y e quello della variabile indipendente X per cui Il modello si scrive
DettagliL'analisi bivariata (associazione e cograduazione)
L'analisi bivariata (associazione e cograduazione) Prof. Stefano Nobile Corso di Metodologia della ricerca sociale L analisi bivariata L analisi bivariata è un analisi delle relazioni tra due caratteristiche
DettagliMetodi statistici per le ricerche di mercato
Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per
DettagliClustering Mario Guarracino Data Mining a.a. 2010/2011
Clustering Introduzione Il raggruppamento di popolazioni di oggetti (unità statistiche) in base alle loro caratteristiche (variabili) è da sempre oggetto di studio: classificazione delle specie animali,
DettagliProva scritta - versione B Si svolgano gli esercizi riportando il risultato dove indicato. Durata: 60 minuti
3 Luglio 2018 - Analisi Esplorativa Cognome:... Nome: Matricola:... Tipologia d esame: 12 CFU 15 CFU Prova scritta - versione B Si svolgano gli esercizi riportando il risultato dove indicato. Durata: 60
DettagliL Analisi Multidimensionale dei Dati
x 3 L Analisi Multidimensionale dei Dati x k x m x p x 1 Introduzione all AMD Una Statistica da vedere x x j La Statistica esplorativa multidimensionale La Statistica descrittiva consente di rappresentare
DettagliAnalisi Multivariata Prova finale del 3 giugno 2010
Analisi Multivariata Prova finale del 3 giugno 2010 Esercizi da svolgere con carta e penna Esercizio A A1 Descrivere brevemente qual è l obiettivo principale dell analisi fattoriale. A2 Scrivere il modello
DettagliCorso di Matematica e Statistica 3 Algebra delle matrici. Una tabella rettangolare: la matrice. Una tabella rettangolare: la matrice
Pordenone Corso di Matematica e Statistica 3 Algebra delle UNIVERSITAS STUDIORUM UTINENSIS Giorgio T. Bagni Facoltà di Scienze della Formazione Dipartimento di Matematica e Informatica Università di Udine
DettagliUTILIZZO DELL ANALISI DELLE COMPONENTI PRINCIPALI (PCA) DI DATI HVSR FINALIZZATO ALLA ZONAZIONE SISMICA
UTILIZZO DELL ANALISI DELLE COMPONENTI PRINCIPALI (PCA) DI DATI HVSR FINALIZZATO ALLA ZONAZIONE SISMICA Terremoto de L Aquila, 2009 Gallipoli et al., 2011 Lo scopo di questo lavoro è quello di indagare
DettagliFacoltà di Economia - Sede di Udine Pre-Test di Statistica - A 23 ottobre Foglio domande
Facoltà di Economia - Sede di Udine Pre-Test di Statistica - A 23 ottobre 2006 Foglio domande Attenzione: I candidati sono pregati di compilare il foglio risposte annerendo uniformemente il pallino relativo
DettagliFacoltà di Economia - Sede di Udine Pre-Test di Statistica - C 23 ottobre Foglio domande
Facoltà di Economia - Sede di Udine Pre-Test di Statistica - C 23 ottobre 2006 Foglio domande Attenzione: I candidati sono pregati di compilare il foglio risposte annerendo uniformemente il pallino relativo
DettagliOperazioni tra matrici. Moltiplicazione per uno Scalare Moltiplicare ogni elemento della matrice per lo scalare. Sia c = 3
Operazioni tra matrici Definizione di matrice a ij è un elemento di A a ij è detto l elemento ij-esimo di A Moltiplicazione per uno Scalare Moltiplicare ogni elemento della matrice per lo scalare. Sia
DettagliElaborazione statistica di dati
Elaborazione statistica di dati CONCETTI DI BASE DI STATISTICA ELEMENTARE Taratura strumenti di misura IPOTESI: grandezza da misurare identica da misura a misura Collaudo sistemi di produzione IPOTESI:
DettagliElementi di Probabilità e Statistica
Elementi di Probabilità e Statistica Statistica Descrittiva Rappresentazione dei dati mediante tabelle e grafici Estrapolazione di indici sintetici in grado di fornire informazioni riguardo alla distribuzione
DettagliCRITERIO DI ROUTH-HURWITZ
CONTROLLI AUTOMATICI Ingegneria Meccanica e Ingegneria del Veicolo http://www.dii.unimore.it/~lbiagiotti/controlliautomatici.html CRITERIO DI ROUTH-HURWITZ Ing. e-mail: luigi.biagiotti@unimore.it http://www.dii.unimore.it/~lbiagiotti
DettagliMetodo di Quine- McCluskey
Metodo di Quine- McCluskey Maurizio Palesi Maurizio Palesi 1 Definizioni Date due funzioni f(x 1,x 2,,x n ) e g(x 1,x 2,,x n ) si dice che f copre g (oppure g implica f) e si scrive f g se f(x 1,x 2,,x
DettagliCorso di Geometria e Algebra Lineare - Sezione di Metodi Numerici
Corso di Geometria e Algebra Lineare - Sezione di Metodi Numerici C. Vergara 5. Determinazione numerica di autovalori e autovettori Si consideri il seguente problema: Data la matrice A R n n, si determinino
DettagliLa variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali
Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione [1/2] Gli indici di variabilità consentono di riassumere le principali caratteristiche di una distribuzione (assieme alle medie) Le
DettagliIntroduzione all analisi di arrays: clustering.
Statistica per la Ricerca Sperimentale Introduzione all analisi di arrays: clustering. Lezione 2-14 Marzo 2006 Stefano Moretti Dipartimento di Matematica, Università di Genova e Unità di Epidemiologia
DettagliSlides estratte dalla tesi: EMT: UNA LIBRERIA MATLAB PER METODI DI ESTRAPOLAZIONE ED APPLICAZIONI
Slides estratte dalla tesi: EMT: UNA LIBRERIA MATLAB PER METODI DI ESTRAPOLAZIONE ED APPLICAZIONI Corso di Laurea in Matematica Laureanda: Elena De Cia Relatore: Prof. Michela Redivo Zaglia Università
DettagliSequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di:
Sequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di: N-pla o Sequenza di Variabili Aleatorie Sistema di Variabili
DettagliSintesi di reti logiche multilivello
Sintesi di reti logiche multilivello 1 Introduzione Motivazioni Esistono numerose funzioni che non possono essere sintetizzate in maniera conveniente come reti a 2 livelli Di piú, nonostante il ridotto
DettagliIndice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1
Introduzione...xi Argomenti trattati in questo libro... xi Dotazione software necessaria... xii A chi è rivolto questo libro... xii Convenzioni utilizzate... xiii Scarica i file degli esempi... xiii Capitolo
DettagliAnalisi bivariata Il caso di caratteri qualitativi
Analisi bivariata Il caso di caratteri qualitativi Che cosa è l analisi bivariata? E lo studio congiunto di due caratteri Esempio nel caso di caratteri qualitativi: I valori delle celle derivano dall analisi
DettagliCapitolo 3: Ottimizzazione non vincolata parte II. E. Amaldi DEI, Politecnico di Milano
Capitolo 3: Ottimizzazione non vincolata parte II E. Amaldi DEI, Politecnico di Milano 3.3 Metodi basati su direzioni di ricerca Problema di ottimizzazione non vincolata: min x R n f(x) con f : R n R di
Dettagli5. Analisi dei Gruppi (Cluster Analysis)
5. Analisi dei Gruppi (Cluster Analysis) Cosa è l analisi dei gruppi? Viene utilizzata per classificare rispondenti in gruppi omogenei detti clusters. Esamina relazioni di interdipendenza: nessuna distinzione
DettagliSOMMARIO CAPITOLO I - NOZIONI DI ALGEBRA DELLE MATRICI
SOMMARIO CAPITOLO I - NOZIONI DI ALGEBRA DELLE MATRICI 1.- Alcuni richiami di matematica... 13 1.1- Simboli... 13 1.2- Funzioni... 14 1.3- Permutazioni di n elementi distinti... 14 2.- Definizioni di vettori
DettagliCelle di fabbricazione
Celle di fabbricazione Produzione per parti (Classificazione Impiantistica) Produzione per parti Fabbricazione Montaggio (assemblaggio) Job Shop Celle di fabbricazione Linee transfer A posto fisso Ad Isola
DettagliLezione 15. L analisi della Varianza (ANOVA): i disegni entro i sogetti e misti. Argomenti della lezione: Disegni entro i soggetti
Lezione 15 L analisi della Varianza (ANOVA): i disegni entro i sogetti e misti Argomenti della lezione: Disegni entro i soggetti Disegni misti Effect size e potenza Disegni entro i soggetti Gli stessi
DettagliIndice. L Editore ringrazia. Ringraziamenti. Autori. Prefazione. Obiettivi formativi XIII XVII
Indice XI XI XIII XV XVII L Editore ringrazia Ringraziamenti Autori Prefazione Obiettivi formativi XIX Istruzioni per gli studenti XIX Un po di storia XX Cosa è la Statistica XXI Come usare questo libro
DettagliCalcolo combinatorio
Calcolo combinatorio Fattoriale: n! = n( n 1)( n 2)...1 1 1 n n = 0 Fattoriale discendente: n( n 1)...( n k + 1) n! (n) k = = ( n k)! 1 1 k n k = 0 Coefficiente binomiale (k n) : n (n) = k n! = k k! k!(
Dettagli