Analisi esplorativa di dati multidimensionali

Documenti analoghi
SOMMARIO CAPITOLO I - NOZIONI DI ALGEBRA DELLE MATRICI

Statistica multivariata 27/09/2016. D.Rodi, 2016

Statistica descrittiva

Nota dell editore Presentazione

Filomena Maggino, L analisi dei dati nell indagine statistica. Volume 1: la realizzazione dell indagine e l analisi preliminare dei dati, ISBN:

Analisi delle corrispondenze

Presentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii

Metodi di analisi statistica multivariata

Statistica multivariata

Statistica multivariata

1.1 Obiettivi della statistica Struttura del testo 2

L analisi dei dati nell'indagine statistica

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Statistica per le ricerche di mercato

Istituzioni di Statistica

Statistica multivariata

ANALISI DEI CLUSTER. In questo documento presentiamo alcune opzioni analitiche della procedura di analisi de cluster di

Analisi Multivariata Prova finale del 3 giugno 2010

Statistica per le ricerche di mercato

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

Analisi delle corrispondenze

Argomenti della lezione:

I metodi di Classificazione automatica

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

ANALISI DEI DATI PER IL MARKETING 2014

Prova scritta di ASM - Modulo Analisi Esplorativa del

Prova finale del 6 giugno 2011

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Corso di Laurea in Amministrazione Aziendale Complex Learning. Statistica per l azienda (T) SECS-S/01 a. a. 2017/2018

La regressione lineare semplice

Ringraziamenti dell Editore

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Elementi di statistica per l econometria

Cluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

Metodi statistici per le ricerche di mercato

zio L'INDAGINE CAMPIONARIA Metodi, disegni e tecniche di campionamento

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Caratteristiche dei dati ecologici

Correlazione e regressione

Psicometria con Laboratorio di SPSS 2

LE RICERCHE DI MARKETING: FASE QUANTITATIVA

Regressione lineare semplice

Statistica per l Impresa

Sergio Bolasco MULTIDIMENSIONALE. Metodi, strategie e criteri d'interpretazione DEI DATI. nez1à. .arocc1 ISIVO

ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM)

Ministero dell Istruzione, dell Università e della Ricerca Ufficio Scolastico Regionale per la Sardegna

Analisi in Componenti Principali (ACP)

Nuovo Ordinamento Esame di Statistica 20 Giugno 2003 docente: P. Vicard Nome

PROGRAMMAZIONE DEL GRUPPO DISCIPLINARE A.S. 2016/17 INDIRIZZO SCOLASTICO: LICEO SCIENZE UMANE

Rappresentazioni grafiche di distribuzioni doppie

Anno scolastico 2015/2016 PROGRAMMA SVOLTO. Docente: Catini Romina. Materie: Matematica. Classe : 4 L Indirizzo Scientifico Scienze Applicate

Statistica. Alfonso Iodice D Enza

PROBABILITÀ ELEMENTARE

Indipendenza, Dipendenza e interdipendenza

RELAZIONE FINALE DEL DOCENTE. Materia: MATEMATICA E COMPLEMENTI DI MATEMATICA Classe 3PTVE A. S. 2015/2016

Maria Brigida Ferraro + Luca Tardella

REGRESSIONE E CORRELAZIONE

Indice. Presentazione

Corso in Statistica Medica

Prefazione Ringraziamenti

Statistica. Alfonso Iodice D Enza

I Componenti del processo decisionale 7

DOMANDA DI RICERCA TIPI DI RICERCA

TECNICHE DI POSIZIONAMENTO

La regressione lineare. Rappresentazione analitica delle distribuzioni

Analisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca

Corso di STATISTICA EGA - Classe 1 aa Docenti: Luca Frigau, Claudio Conversano

Argomenti della lezione:

Differenze tra metodi di estrazione

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Presentazione dell edizione italiana

We model for you. Proposta agli istituti di ricerca che operano in Italia Marzo 2013

Analisi della varianza

Risultato di una rilevazione statistica effettuata su n unità statistiche con riferimento a p fenomeni (detti anche caratteri, variabili)

viii Indice generale

Metodi Probabilistici e Statistici per l Analisi dei Dati. Prof. V. Simoncini. Testi di Riferimento

Analisi multivariata (DPRS)

Regressione & Correlazione

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Teoria e tecniche dei test DIMENSIONALITA DI UN TEST DIMENSIONALITA DI UN TEST (2) 03/04/2012. Lezione 7 DIMENSIONALITA e ATTENDIBILITA

Presentazione dell edizione italiana

Indice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75

Alfonso Iodice D Enza

REGISTRO DELLE LEZIONI*

Regressione lineare. Lo studio della relazione lineare tra due variabili. X e Y caratteri entrambi quantitativi. variabile dipendente

LABORATORI DI STATISTICA SOCIALE

CORSO DI LAUREA IN PSICOLOGIA. Pedagogia sperimentale Corso Avanzato (CA) Corso di Laurea Magistrale in Psicologia LM-51

Elementi di Statistica

Matematica Lezione 22

Esplorazione grafica di dati multivariati. N. Del Buono

Statistica Aziendale Avanzata

Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che:

docente: J. Mortera/P. Vicard Nome

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

LA SEGMENTAZIONE DELLA DOMANDA E IL POSIZIONAMENTO DEL PRODOTTO: ANALISI STATISTICHE PER TRE UNIVERSITA A CONFRONTO.

Transcript:

io e

Luigi Fabbris Analisi esplorativa di dati multidimensionali 'CENTRO " G. ASTENGO» cleup editore INVENTARIO 2B6 c.,

INDICE DEI CONTENUTI -~ Cap. 1 L'analisi dei dati nella ricerca sociale pag. I 1.1. 1.2. 1.3. > 1.4. /\ 1.5. La ricerca scientifica nelle scienze umane I. I. I. Nel fatto è implicita la teoria I. I.2. Il ricercatore sociale Analisi esplorativa di dati multidimensionali L'indagine statistica 1.3.1. Astrazione - 1.3. IA. Selezione delle ipotesi di ricerca: losservazione è già interpretazione - 1.3.lB. Popolazione statistica - 1.3.lC. Variabili e scale di misura - 1.3.1 D. Predeterminazione dei metodi di analisi 1.3.2. Rilevazione dei dati 1.3.3. Trattamento dei dati rilevati 1.3.4. Analisi dei dati - 1.3.4A. Rappresentazione grafica dei dati - 1.3.4B. Riduzione dei dati - 1.3.4C. Analisi classificatoria - 1.3.40. Analisi della dipendenza - 1.3.4E. Analisi della struttura latente - 1.3.4F. Costruzione di indici sintetici 1.3.5. Descrizione e presentazione dei risultati Modelli per l'analisi statistica multidimensionale 1.4.1. Simmetria della relazione tra le variabili - 1.4. IA. Modello asimmetrico - 1.4. IB. Modello simmetrico 1.4.2. Analisi metrica e non metrica 1.4.3. Linearità delle relazioni tra variabili 1.4.4. Monotonicità delle relazioni tra variabili Metodi e tecniche di analisi 1.5.1. Analisi di regressione stepwise 1.5.2. Analisi fattoriale 1.5.3. Analisi di raggruppamento, cluster analysis 1.5.4. Analisi di segmentazione binaria 1.5.5. Scaling multidimensionale I.5.6. Analisi delle corrispondenze 1 2 4 6 8 8 15 18 19 22 22 22 24 25 26 26 27 27 29 29 30 30 XI

1.6. 1.7. Problemi nell'analisi di dati multivariati 1.6.1. Trattamento di dati mancanti - 1.6. la. Imputazione di modalità sostitutive - 1.6. lb. Esclusione dell'unità di cui manca il dato 1.6.2. Ponderazione delle unità Esercizi 1. 7.1. Esercizi sulle scale di misura dei caratteri 1. 7.2. Esercizi sulla ponderazione delle unità 30 32 36 38 38 39 i\ e'.) " Cap. 2 I dati di base 41 2.1. Matrici per l'analisi multidimensionale 41 2.2. Matrici rettangolari 41 2.2.1. Matrice di dati 42 2.2.2. Matrice di frequenze 43 2.2.3. Matrici rettangolari di prossimità o di dominanze 45 2.2.4. Matrice di misurazioni congiunte 46 2.3. Matrici per analisi metriche 48 2.3.1. Matrice di varianze - covarianze 48 2.3.2. Matrice di correlazione 50 2.3.3. Matrice di distanze - 2.3.3A. Distanza euclidea - 2.3.3B. Distanza media assoluta - 2.3.3C(*) Distanze di Minkowski - 2.3.3D(*) Distanza di Mahalanobis - 2.3.3E. Distanza del x 2-2.3.3F(*) Distanza informativa 52 2.3.4. Matrice di preferenze 63 2.4. Matrici di prossimità quadrate 65 2.4.1. Matrice di somiglianze - 2.4.1 A. Somiglianza tra variabili basata sul coefficiente di correlazione - 2.4. lb. Somiglianza tra variabili basata sul x2 66 2.4.2. Matrice di dissomiglianze - 2.4.2A(*) Distanza di Canberra 69 2.4.3. Matrice di confusione 70 2.4.4. Matrice di esitazione 71 2.4.5. Misure di prossimità tra unità con variabili osservate su scala diversa 72 2.4.6. Indici di prossimità tra unità con variabili dicotomiche - 2.4.6A. Indice di somiglianza di Jaccard - 2.4.6B. Indice di somiglianza di Czeka- XII

2.5. 2.6. nowski - 2.4.6C. Indice di dissomiglianza di Watson et al. - 2.4.6D. Coefficiente di somiglianza di Sokal e Michener - 2.4.6E. Distanza euclidea - 2.4.6F. X 2 e <I> Matrici di dominanze per analisi non metriche Esercizi 75 79 80 Y- Cap. 3 Analisi di regressione stepwise 83 3.1. 3.2. 3.3. La regressione "stepwise" 3.1.1. Scelte per una analisi di regressione stepwise La regressione stepwise convenzionale Criteri per decidere l'arresto del processo di selezione 3.3.1. Determinazione preventiva del numero di predittori da inserire 3.3.2. Varianza da spiegare globalmente 3.3.3. Frazione di devianza spiegata dal predittore marginale 3.3.4. Analisi della varianza 3.3.5. Tolleranza 3.4. Criteri per valutare l'esito di una analisi di regressione stepwise 99 3.4.1. Metodi grafici per determinare il numero di predittori da tenere nell'equazione - 3.4. la. Rappresentazione del coefficiente kr 2-3.4. lb. Rappresentazione di kc 100 3.4.2. Importanza di un predittore - 3.4.2A. Contributo globale - 3.4.2B. Contributo netto - 3.4.2C. Contributo indipendente - 3.4.2D. Contributo mediato dalle componenti principali 103 3.5. Problemi concernenti la preparazione dei dati 106 3.5.1. Ricodifica mediante variabili dummy 106 3.5.2. Dati anomali - 3.5.2A. Identificazione - 3.5.2B. Trattamento 112 3.6. Applicazioni di regressione stepwise 114 3.6. 1. Relazione tra variabili elettorali e indicatori ambientali 114 3.6.2. Una indagine di mercato sulle caravan 123 3. 7. Esercizi 126 83 85 87 91 92 92 93 96 98 XIII

Cap. 4 Analisi fattoriale 129 4.1. L'analisi dei fattori 129 4.1.1. Componenti principali 130 4.1.2. Analisi delle componenti principali e analisi fattoriale 131 4.1.3 (*) Procedura di calcolo delle componenti principali 134 4.1.4. Proprietà delle componenti principali 136 4.2. Il modello di analisi fattoriale 138 4.2.1. Il modello di analisi delle componenti principali 141 4.2.2. Fattori ortogonali e fattori obliqui 141 4.2.3. Comunanza e unicità dei fattori 142 4.3. Scelte per l'analisi esplorativa dei fattori 145 4.3.1. Criteri per determinare il numero di fattori - 4.3.1 A. Numero di fattori prefissato - 4.3.1 B. Varianza spiegata dai fattori - 4.3.1 C. Autovalori maggiori di 1-4.3.1 D. Rappresentazione grafica degli autovalori - 4.3. le. Comunanze sulla diagonale della matrice di correlazione - 4.3.1 F. Significatività statistica degli autovalori 148 4.3.2. Rotazione dei fattori - 4.3.2A. Rotazioni ortogonali - 4.3.2B. Rotazioni oblique - 4.3.2C. Rotazioni di PROCUSTE 155 4.4. Soluzione fattoriale: determinatezza e punteggi fattoriali 159 4.4.1. Determinatezza della soluzione fattoriale 159 4.4.2. Punteggi fattoriali 160 4.5. Interpretazione dei fattori 163 4.5.1. Saturazione di un fattore 163 4.5.2. Rappresentazione grafica dei pesi fattoriali 166 4.5.3. Selezione delle variabili più esplicative 167 4.5.4. Ricorso ad informazioni esterne al modello fattoriale 168 4.6. Applicazioni di analisi fattoriale 169 4.6.1. Analisi fattoriale di dati elettorali 169 4.6.2. Analisi fattoriale di prove oggettive di profitto scolastico 173 4.7. Esercizi 176 XIV

'._...-' Cap. 5 Analisi di raggruppamento 179 5.1. Classificazione e raggruppamento 179 5.1.1. L'analisi classificatoria esplorativa: finalità e critiche 180 5.1.2. L'analisi dei gruppi e altri metodi multivariati 183 5.1.3. Scelte per una analisi di raggruppamento 184 5.2. Una sistematica delle tecniche di analisi del raggruppamento 186 5.2.1. Metodi di analisi gerarchica agglomerativa - 5.2.lA. Metodo della media di gruppo - 5.2.lB. Metodo del centroide - 5.2. lc. Metodo della mediana - 5.2.1 D. Metodo del legame singolo - 5.2.1 E. Metodo del legame completo - 5.2.1 F. Metodo della media ponderata - 5.2.1 G. Metodo di Ward - 5.2.1 H. Metodo flessibile di Lance e Williams 187 5.2.2. Metodi gerarchici divisivi - 5.2.2A. Metodo di analisi k-means - 5.2.2B. Altri metodi basati sulla distanza tra centroidi 201 5.2.3. Criteri che generano partizioni non gerarchiche - 5.2.3A(*) Ottimizzazione degli autovalori della matrice di devianze - codevianze interna ai gruppi - 5.2.3B(*) Tecniche di ricerca di zone dense nello spazio 203 5.2.4. (*) Tecniche di raggruppamento con sovrapposizione - 5.2.4A. Ricerca di insiemi sfocati unimodali - 5.2.4B. Analisi di miscugli di distribuzioni - 5.2.4C. Analisi fattoriale Q 210 5.3. Scelta tra metodi di analisi 213 5.3. l. Tecniche gerarchiche o non gerarchiche? 214 5.3.2. Criteri di scelta tra tecniche gerarchiche 215 5.3.3. Criteri di scelta tra tecniche non gerarchiche 216 5.4. Criteri per determinare il numero ottimo di gruppi 217 5.4.1. Rappresentazione grafica di soluzioni alternative 218 5.4.2. Verifica statistica della bontà della soluzione 218 5.4.3. Statistiche sintetiche - 5.4.3A. C di Calinski e Harabasz - 5.4.3B. M di Marriot 219 5.4.4. Ispezione del dendrogrammma /Ì-2~ xv

5.5. Criteri per l'interpretazione di una soluzione gerarchica 221 5.5.1. Valutazione della bontà del dendrogrammma - 5.5.lA. Coefficiente di correlazione cofenetico - 5.5. lb(*) Distanza di Minkowski tra le matrici iniziale e cofenetica 222 5.5.2. Tecniche per l'interpretazione dei risultati - 5.5.2A. Analisi dei profili dei gruppi - 5.5.28 1 Metodi grafici per evidenziare le prossimità 224 5.6. Applicazioni di analisi del raggruppamento 229 5.6.1. Raggruppamenti di partiti politici padovani 229 5.6.2. Classificazione delle occupazioni nel Regno Uni- ~ n2 5.7. Esercizi 235 Cap. 6 Analisi di segmentazione binaria mediante AID 239 6.1. Le tecniche di segmentazione binaria 239 6.1.1. Il programma AIO 241 6.1.2. Altre procedure di segmentazione 241 6.2. Scelte per una analisi mediante AID 242 6.2.1. Regole di salvaguardia 245 6.2.2. Variabili predittive - 6.2.2A. Trasformazione della scala di misura - 6.2.2B. Accorpamento di categorie - 6.2.2C. Ordinamento 246 6.2.3. Segmentazione in base a categorie monotòne o non 249 6.2.4. Criteri per la valutazione della distanza tra gruppi - 6.2.4A. Massima distanza tra le medie dei gruppi - 6.2.4B(*) Massima differenza nelle rette di regressione interne ai gruppi - 6.2.4C(*) Massima differenza nei coefficienti angolari delle rette di regressione interne 250 6.2.5. LOOKAHEAD: di quanti passi proiettare in avanti l'analisi? 254 6.2.6. Ricerca di strutture simmetriche 256 6.3. Criteri per l'arresto del processo di segmentazione 257 6.3.1. Dimensione minima dei gruppi 257 6.3.2. Minima capacità esplicativa della migliore suddivisione ad ogni passo 257 6.3.3. Minima devianza totale del gruppo genitore 258 XVI

6.3.4. Massimo numero di passi del processo 259 6.4. Valutazione ed interpretazione dell'esito dell'analisi 259 6.4.1. Stabilità campionaria dei risultati 259 6.4.2. Rappresentazione mediante dendrogramma 260 6.4.3. Ricerca di interazioni 260 6.4.4. Analisi dei gruppi 263 6.5. Applicazioni di AID-3 264 6.5.1. Determinanti del bisogno di assistenza domiciliare negli anziani 265 6.5.2. Segmentazione binaria delle malghe alpine del Veneto 269 6.6. Esercizi 272 Cap. 7 Scaling multidimensionale 277 7.1. L'analisi di scaling multidimensionale 277 7.1.1. Breve storia dei metodi di MDS - 7.1.1 A. Metodo di Torgerson - 7.1.1 B. Analisi delle prossimità - 7.1.1 C. Metodo delle coordinate principali - 7.1.1 D. Analisi fattoriale non lineare - 7.1. le. Analisi delle preferenze individuali - 7.1.1 F. Analisi di unfolding multidimensionale 278 7.1.2. Tipi di analisi di scaling 284 7.1.3 (*) Alcuni programmi informatici per l'analisi di MDS 286 7.1.4. Scaling e altri metodi di analisi multidimensionale 288 7.2. Analisi non metrica delle prossimità 289 7.2.1. Scelte per una analisi delle prossimità 292 7.3. Valutazione dell'esito di una analisi delle prossimità 294 7.3.1. Misure di bontà della soluzione - 7.3.lA. r di Shepard - 7.3.lB. S - Stress - 7.3.lC. Indice di concordanza C - 7.3.1 D(*) Indice di interpretazione a 295 7.3.2. Dimensionalità dei dati - 7.3.2A. Bontà dell'a 7.4. dattamento - 7.3.2B. Interpretabilità delle dimensioni - 7.3.2C. Stabilità della configurazione Interpretazione della soluzione ottenuta 7.4.1. Saturazione delle dimensioni 298 302 302 XVII

() 7.4.2. Applicazione dell'analisi dei gruppi alla configurazione trovata 304 7.4.3. Rappresentazione grafica delle prossimità iniziali e delle distanze nella soluzione 304 7.4.4. Relazione con informazioni esterne 305 7.5. Applicazioni di scaling multidimensionale 305 7.5.1. Confronto tra una analisi delle prossimità e una analisi fattoriale delle discipline di laurea in alcuni Paesi 306 7.5.2. Analisi delle prossimità tra alcune riviste di statistica 31 O 7.5.3. Analisi delle coordinate principali di professioni nel Regno Unito 315 7.6. Esercizi 318 Cap. 8 Analisi delle corrispondenze 321 8.1. L'analisi delle corrispondenze 321 8.1.1. Ambiti di applicazione dell'analisi delle corrispondenze 323 8.1.2. Scelte per una analisi delle corrispondenze 326 8.2. Metodo di calcolo delle corrispondenze 330 8.2.1 (*) Scomposizione di una tabella di frequenze in autovalori ed autovettori 331 8.2.2. Proprietà degli autovalori 333 8.2.3. Coordinate fattoriali 335 8.2.4. Altri approcci 336 8.3. Analisi delle corrispondenze multiple 337 8.3.1. Autovalori 339 8.3.2. Coordinate fattoriali 339 8.3.3 (*) Analisi della tabella di Burt 339 8.3.4. Variabili supplementari 341 8.4. Criteri per determinare il numero ottimo di fattori 342 8.4.1. Numero di fattori prefissato 342 8.4.2. Soglia di inerzia globale 343 8.4.3. Significatività statistica della soluzione 345 8.4.4. Effetto Guttman 346 8.5. Criteri per l'interpretazione della soluzione 347 8.5.1. Covarianza tra le entità esaminate e gli assi fat- XVIII

. toriali - 8.5.lA. Contributo di una entità alla determinazione di un asse - 8.5. l B. Contributo di un fattore alla ricostruzione della variabilità di una entità - 8.5. lc. Comunanza 348 8.5.2. Ispezione della configurazione 350 8.5.3. Forme tipiche delle configurazioni - 8.5.3A. Ellissoide - 8.5.38. Nuvole separate - 8.5.3C. Ferro di cavallo - 8.5.3D. Triangolo o tetraedro 352 8.5.4. Variabili supplementari 355 8.5.5. Unità supplementari 357 8.5.6. Impiego in sequenza dell'analisi delle corrispondenze e dell'analisi dei gruppi 358 8.5.7. Ritorno all'indietro 359 8.6. Applicazioni di analisi delle corrispondenze 360 8.6.1. Analisi delle corrispondenze di malattie e disturbi nella popolazione veneta 360 8.6.2. Analisi delle corrispondenze della distribuzione territoriale e per attività economica delle imprese italiane 368 App. A: Rassegna di programmi per l'analisi di dati multidimensionali 379 App. B: Soluzione degli esercizi 385 Bibliografia 391 Indice analitico 421 XIX