Analisi Fattoriale. La soluzione fattoriale ed il modello ACP Scelta del numero dei fattori

Documenti analoghi
Metodologie Quantitative. Analisi Fattoriale

Analisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca

P S I C O M T R I A Marcello Gallucci. Analisi Fattoriale. Esempi. Milano-Bicocca. Lezione: 20

Differenze tra metodi di estrazione

Simulazione d esame Marco Perugini Milano-Bicocca

Analisi multivariata (DPRS)

Metodologie Quantitative. Analisi Fattoriale

Psicometria con Laboratorio di SPSS 2

Teoria e tecniche dei test DIMENSIONALITA DI UN TEST DIMENSIONALITA DI UN TEST (2) 03/04/2012. Lezione 7 DIMENSIONALITA e ATTENDIBILITA

Analisi Multivariata dei Dati. Regressione Multipla

SDE Marco Riani

ESERCIZIO 1. Di seguito vengono presentati i risultati di un analisi fattoriale effettuata con il metodo di estrazione dei fattori principali (PAF).

Argomenti della lezione:

Analisi Multivariata dei Dati. Regressione Multipla (cap. 3)

Statistica multivariata Donata Rodi 21/11/2016

Il modello di regressione

Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria

Il modello di regressione

Verifica delle ipotesi

Introduzione all Analisi della Varianza (ANOVA)

Statistica per l Impresa

Psicometria con Laboratorio di SPSS 2

Correlazione tra due variabili

6) Analisi Fattoriale

Analisi Fattoriale Analisi Esplorativa

ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM)

Misurazione e attendibilità

Psicometria con Laboratorio di SPSS 2

Analisi Fattoriale. Metodi Quantitativi per Economia, Finanza e Management. Esercitazione n 7

Psicometria. 9-Analisi fattoriale confermativa vers. 1.0

Corso in Statistica Medica

Introduzione all Analisi della Varianza (ANOVA)

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello

Esercitazione del

COGNOME E NOME MATR. ANALISI DEI DATI PER IL MARKETING novembre 2008.

Il modello lineare misto

Tecniche statistiche di analisi del cambiamento

Scheda n. 13: modelli lineari

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Analisi di Regressione Multipla

Rappresentazione dei dati multivariati

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Analisi Multivariata Prova intermedia del 20 aprile 2011

La regressione lineare. Rappresentazione analitica delle distribuzioni

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

METODI E TECNICHE DI ANALISI DEI DATI II E LABORATORIO

Metodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione

Esercizi di statistica

Teoria e tecniche dei test

Statistica multivariata Donata Rodi 17/10/2016

Tecniche statistiche di analisi del cambiamento

Analisi in componenti principali

Elementi di Psicometria con Laboratorio di SPSS 1

La matrice delle correlazioni è la seguente:

Analisi Multivariata Prova finale del 3 giugno 2010

MISURAZIONE. Sistema empirico (SE): ciò che si vuole misurare; costituito da elementi legati tra loro da relazioni

6. ANALISI FATTORIALE

DISTRIBUZIONI DI PROBABILITA

Esercitazione 1. 6 Marzo 2019

Tecniche statistiche di analisi del cambiamento

Analisi avanzate della regressione: la moderazione (Cap. 5 )

Analisi delle componenti principali

La statistica è la scienza che permette di conoscere il mondo intorno a noi attraverso i dati.

CON O SENZA REIMMISSIONE

Statistica multivariata! Analisi fattoriale

Argomenti della lezione:

Tipi di dato, variabili, istruzioni

Elementi di Psicometria con Laboratorio di SPSS 1

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

STATISTICA CORSO BASE. Prova scritta del Tempo: 2 ore Cognome e Nome:... Matricola:...

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

LA REGRESSIONE LINEARE SEMPLICE

Assunzioni (Parte I)

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

2) REGRESSIONE. 1) Creo un diagramma a dispersione per ispezionare i dati. 2) Selezionare in SPSS Analizza -> Regressione Lineare.

Argomenti della lezione:

Analisi dei Fattori. Francesca Marta Lilja Di Lascio Dip.to di Scienze Statistiche P. Fortunati Università di Bologna

Teoria e tecniche dei test LA STRUTTURA DI UNA TEORIA 20/03/2012 LIVELLO DI ASTRAZIONE TEORICO LIVELLO DI ASTRAZIONE DERIVATO

Rango di una matrice e teorema di Rouché-Capelli

LABORATORI DI STATISTICA SOCIALE

Elementi di Psicometria con Laboratorio di SPSS 1

LE REGOLE PER IL RILASCIO DEI RISULTATI DELLE ELABORAZIONI

Sequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di:

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Regressione Multipla. (cap. 3)

Ulteriori Conoscenze di Informatica e Statistica

Analisi in Componenti Principali (ACP)

Statistica descrittiva: analisi di regressione

PROBABILITÀ ELEMENTARE

Le caratteristiche della ricerca correlazionale

Appunti di statistica

standardizzazione dei punteggi di un test

STATISTICA. Esercitazione 5

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Transcript:

Analisi Fattoriale La soluzione fattoriale ed il modello ACP Scelta del numero dei fattori A M D Marcello Gallucci Milano-Bicocca 1 Lezione: 1 XVI X

I passaggi fondamentali 1) Scelta del modello fattoriale 2) Scelta del numero di fattori 3) Rotazione della struttura fattoriale 4) Selezione delle variabili 5) Interpretazione dei fattori 6) Punteggi fattoriali 2

Modelli di estrazione dei fattori Forma del modello decisa dall algoritmo AF Esploratoria Analisi Componenti Principali Analisi Fattori Comuni Accorpamento di Variabili I differenti tipi di analisi fattoriale esploratoria si differenziano Confermatoria in base alla logica con Modelli cui estraggono LISREL i fattori Forma del modello decisa dai noi Verifica di un modello teorico 3

Analisi delle componenti principali La ACP (PCA) produce componenti, mentre la AFC produce fattori. I processi della ACP e della AFC sono simili, tranne che a) nella preparazione della matrice di correlazioni osservate per l estrazione b) nella teoria sottostante Matematicamente, la differenza tra ACP e AFC è nella varianza che viene analizzata: - nella ACP viene analizzata tutta la varianza osservata nelle variabili - nella AFC viene analizzata solo la varianza condivisa (stimata tramite regressione); Non si considera la varianza non condivisa (unica di ciascuna variabile). Teoricamente, la differenza tra ACP e AFC è nella ragione per cui le variabili sono associate in un fattore o in una componente: - Di solito si ritiene che i fattori causino le variabili il costrutto sottostante (il fattore) è ciò che produce i punteggi nelle variabili (AFC). - Le componenti sono semplici aggregati di variabili correlate (ACP) 4

ACP vs. AFC La ACP considera tutta la varianza delle variabili e la divide in varianza comune (spiegata dai fattori considerati) and varianza unica (errore o residua) La AFC prima stima la varianza condivisa e distingue tra varianza comune tra le variabili (covarianza) e varianza di errore. Analizza solo la prima e la divide in varianza comune (spiegata dai fattori considerati) e varianza specifica. 5

Il problema della comunalità iniziale nella AFC Per calcolare la varianza spiegata e quella di errore, dobbiamo prima sapere quanto è la varianza spiegabile Ma per sapere quanto è la varianza spiegabile, dobbiamo sapere quanto è la varianza spiegata e quella di errore Ciò crea un circolo vizioso che va risolto stimando precedentemente una quantità plausibile di varianza spiegabile ed iterando il procedimento di calcolo dei fattori finché tale quantità soddisfa alcuni criteri Ogni algoritmo di calcolo (minimi quadrati, massima verosimiglianza, ecc.) usa un criterio diverso Noi vediamo la logica sottostante 6

Comunalità iniziale Ma se tutta la varianza di un item non è inclusa nell analisi, la matrice di correlazione iniziale non potrà avere 1 sulla diagonale Varianza totale item= comunalità iniziale nella ACP Correlazioni Matrice di correlazione a1 a2 a3 a4 a1 Correlazione di Pearson 1.084.154.242* Sig. (2-code).409.126.015 N 100 100 100 100 a2 Correlazione di Pearson.084 1.514**.231* Sig. (2-code).409.000.021 N 100 100 100 100 a3 Correlazione di Pearson.154.514** 1.588** Sig. (2-code).126.000.000 N 100 100 100 100 a4 Correlazione di Pearson.242*.231*.588** 1 Sig. (2-code).015.021.000 N 100 100 100 100 *. La correlazione è significativa al livello 0,05 (2-code). **. La correlazione è significativa al livello 0,01 (2-code). 7

Comunalità iniziale Dovremmo stimare la quantità di varianza spiegabile ( che sarà poi divisa in spiegata ed errore) Varianza spiegabile dell item= comunalità iniziale nella AFC Correlazioni Matrice di correlazione a1 a2 a3 a4 a1 Correlazione di Pearson? 1.084.154.242* Sig. (2-code).409.126.015 N 100 100 100 100 a2 Correlazione di Pearson.084? 1.514**.231* Sig. (2-code).409.000.021 N 100 100 100 100 a3 Correlazione di Pearson.154.514** 1?.588** Sig. (2-code).126.000.000 N 100 100 100 100 a4 Correlazione di Pearson.242*.231*.588** 1? Sig. (2-code).015.021.000 N 100 100 100 100 *. La correlazione è significativa al livello 0,05 (2-code). **. La correlazione è significativa al livello 0,01 (2-code). 8

Stima iniziale della comunalità Se la parte spiegabile di varianza di un item deve essere comune agli items e ai fattori, sicuramente non potrà essere più piccola della parte di varianza che l item condivide con gli altri items Varianza non condivisa con nessun item= unica Varianza condivisa con items e fattori= spiegata v1 v4 F1 v2 v5 Varianza condivisa con altri items v3 Varianza condivisa non spiegata=varianza di errore 9

Stima iniziale della comunalità La varianza condivisa con tutti gli altri items è una buona stima della varianza spiegabile Dunque possiamo usare tale stima al posto degli 1 nella matrice di correlazione v4 v5 v3 v1 v2 Varianza condivisa con altri items 10

R 2 multiplo Quanto è tale varianza? Dallo studio della regressione sapremo che la varianza condivisa da un insieme di variabili indipendenti ed una dipendente è dato dall R 2 della regressione v1 v4 v2 v5 R 2 ottenuto facendo una regressione con v5 come dipendente, e tutti gli altri items come variabili indipendenti v3 11

R 2 come comunalità iniziale Ripetendo tale stima per tutti gli items, abbiamo una stima iniziale delle varianze spiegabili per ogni item Varianza spiegabile dell item= comunalità iniziale nella AFC Correlazioni Matrice di correlazione a1 a2 a3 a4 a1 Correlazione di Pearson 1 2 R.084.154.242* a1 Sig. (2-code).409.126.015 N 100 100 100 100 a2 Correlazione di Pearson.084? 1 2 R.514**.231* a2 Sig. (2-code).409.000.021 N 100 100 100 100 a3 Correlazione di Pearson.154.514** 12.588** R Sig. (2-code) a3.126.000.000 N 100 100 100 100 a4 Correlazione di Pearson.242*.231*.588** 1 2 R Sig. (2-code) a4.015.021.000 N 100 100 100 100 *. La correlazione è significativa al livello 0,05 (2-code). **. La correlazione è significativa al livello 0,01 (2-code). 12

Passi successivi della AFC A questo punto i vari metodi di AFC: estraggono i fattori calcolano le nuove comunalità sulla base dei fattori estratti riestraggono i fattori sulla base della matrice con le nuove comunalità fin quando il criterio stabilito (ad es., minimo errore, massima verosimiglianza) è soddisfatto 13

Analisi delle componenti principali L ACP estrae inizialmente tanti fattori quante sono le variabili osservate L estrazione iniziale spiega il 100% della varianza degli items e di ogni item (diversamente dalla AFC ) Tale soluzione non è soddisfacente, in quanto non rappresenta una soluzione efficiente e parsimoniosa Useremo dei metodi per decidere quanti fattori tenere che bastano a rappresentare in maniera efficiente le relazioni fra variabili 14

Analisi delle componenti principali Nell analisi delle componenti principali (ACP) i fattori sono formati come combinazione lineare (somma pesata) degli items Il primo fattore estratto è la combinazione lineare degli items che massimizza la varianza spiegata F1 av 1 F1v1 av2f1v2... a i vjf1 vj I valori sono calcolati affinché siano massimizzati 15

Analisi delle componenti principali Nell analisi delle componenti principali (ACP) i fattori sono formati come combinazione lineare degli items Il secondo fattore estratto è la combinazione lineare degli items che massimizza la varianza non spiegata (ortogonale) dal primo F 2 rf 2 Gialla rf 2 Blue F1 av 1 F1v1 av2f1v2... a F1 i vjf1 F2 av 1 F 2v1 av2f 2v2... a i vjf 3 vj vj I valori sono calcolati affinché siano massimizzati, sotto il vincolo che F1 e F2 siano ortogonali 16

Analisi delle componenti principali I valori degli items nella combinazione fattoriale sono le correlazioni tra fattori e items F 2 rf 2 Gialla F1 av 1 F1v1 av2f1v2... a i vjf1 F2 av 1 F 2v1 av2f 2v2... a i vjf 3 vj vj rf 2 Blue F1 17

Numero di Fattori v1 v2 v3 F i L algoritmo della ACP che estrae i fattori dalla matrice di correlazione di partenza, estrae tanti fattori quante sono le variabili (cioè tutti i fattori possibili) Matrice di componenti a Componente 1 2 3.717 -.022 -.697.609 -.659.441.592.705.390 Metodo estrazione: analisi componenti principali. a. 3 componenti estratti 1.717v1.609v2.592v3 F1i av F1v1 av2f1v2 av3f1 1 v F2i av F 2v1 av2f 2v2 av3f 2 1 v F3i av F 3v1 av2f 3v2 av3f 3 1 v 3 3 3 F i 2.022v1.659v2.705v3 Esempio 3 items F i 3.697v1.441v 2.390v3 18

Estrazione iniziale v1 v2 v3 Estraendo tanti fattori quanti items (variabili osservate), spieghiamo tutta la varianza Matrice di componenti a Componente 1 2 3.717 -.022 -.697.609 -.659.441.592.705.390 Metodo estrazione: analisi componenti principali. a. 3 componenti estratti 1 La comunalità è 1, cioè i tre fattori spiegano il 100% di ogni item Somma dei quadrati per riga Componente 1 2 3 Somma dei quadrati per colonna Autovalori iniziali Varianza totale spiegata Pesi dei fattori non ruotati Totale % di varianza % cumulata Totale % di varianza % cumulata 1.235 41.177 41.177 1.235 41.177 41.177.932 31.072 72.249.932 31.072 72.249.833 27.751 100.000.833 27.751 100.000 Metodo di estrazione: Analisi componenti principali. La varianza spiegata è il 100% 19

Estrazione iniziale Tutta la varianza di un item e di tutti i J items è rappresentata dai J fattori Quadrati delle saturazioni fattoriali Varianze condivise Autovalori var( F1 ).5140.370.350 1.23 i var( F2 var( F3 i i ).0004.434.497.93 ).4850.194.152.83 20

Estrazione iniziale Tutta la varianza di un item e di tutti i J items è rappresentata dai J fattori Quadrati delle saturazioni fattoriali Varianze condivise Autovalori var( F1 ).5140.370.350 1.23 i var( F2 var( F3 i i ).0004.434.497.93 ).4850.194.152.83 1 1 1 3 La varianza spiegata è il 100% La comunalità è 1, cioè i tre fattori spiegano il 100% di ogni item 21

Analisi delle componenti principali L ACP estrae inizialmente tanti fattori quante sono le variabili osservate L estrazione iniziale spiega il 100% della varianza degli items e di ogni item Tale soluzione non è soddisfacente, in quanto non rappresenta una soluzione efficiente e parsimoniosa Useremo dei metodi per decidere quanti fattori tenere che bastano a rappresentare in maniera efficiente le relazioni fra variabili 22

Modello Fattoriale dell ACP Variabilità catturata (spiegata) Fattore 1 Fattore 2 AF Variabilità osservata V1 V2 V3 V4 V5 V6 Variabilità non condivisa unicità unicità unicità unicità unicità unicità 23

Esempio con 2 fattori In questo esempio consideriamo due fattori Componente 1 2 3 4 5 6 7 8 9 10 Autovalori iniziali Varianza totale spiegata Totale % di varianza % cumulata Totale % di varianza % cumulata 2.520 25.197 25.197 2.520 25.197 25.197 1.486 14.859 40.057 1.486 14.859 40.057.959 9.591 49.648.894 8.938 58.586.804 8.043 66.629.768 7.675 74.304.741 7.411 81.715.696 6.956 88.670.575 5.748 94.418.558 5.582 100.000 Metodo di estrazione: Analisi componenti principali. Pesi dei fattori non ruotati Dunque il 60% di varianza è unico agli items Spieghiamo il 40% con due fattori, uno che spiega il 25 e l altro il 14 24

Esempio con 2 fattori Saturazioni sui due fattori v11 v12 v13 v14 v15 v16 v17 v18 v19 v20 Matrice di componenti a Componente 1 2.440.266.538.286.486.333.386.318.536.350.514.374.558 -.261.476 -.475.538 -.526.522 -.538 Metodo estrazione: analisi componenti principali. a. 2 componenti estratti Le saturazioni ci indicano le correlazioni tra items e fattori. 193. 070. 264. 272. 289. 561 La comunalità ci dice quanta parte dell item è condivisa con i fattori. Il resto sarà unicità degli items Unicità= 1 -.264 =.735 Unicità= 1 -.561 =.438 25

Modello Fattoriale dell ACP Variabilità catturata (spiegata) Fattore 1 Fattore 2 AF.440.266.522.538 Variabilità osservata V11 V12 V13 V14 V15 V20 Variabilità non condivisa.735 unicità unicità unicità unicità.438 26

Varianza e comunalità Nell ACP la comunalità iniziale è 1 (100%) Dunque si assume che tutta la varianza di ogni item può essere spiegata Anche se poi ne spiegheremo solo una parte Varianza spiegabile v1 Scherzoso v2 Estroverso v3 Espansivo v4 Divertente v5 Colorito v13 Diligente v14 Previdente v15 Sereno v17 Stabile Comunalità Iniziale Estrazione 1.000.431 1.000.282 1.000.269 1.000.676 1.000.432 1.000.430 1.000.469 1.000.549 1.000.735 Metodo di estrazione: Analisi componenti principali. Varianza spiegata Per ogni item 27

Varianza e comunalità Nell ACP la comunalità iniziale è 1 (100%) Dunque si assume che tutta la varianza di ogni item può essere spiegata Anche se poi ne spiegheremo solo una parte Varianza spiegabile v4 v3 v5 v3 v1 v2 Per item v2 (ad esempio) 28

Varianza e comunalità Nell ACP la comunalità iniziale è 1 (100%) Dunque si assume che tutta la varianza di ogni item può essere spiegata Anche se poi ne spiegheremo solo una parte Varianza spiegata v4 v3 F1 v2 F2 v3 v1 v2 Per item v2 (ad esempio) 29

ACP vs AFC Modello teorico ACP Componente 1 Entrambi modelli riflessivi ma.. AFC Fattore 1 Funzionale «Causale» V1 V2 V3 V1 V2 V3 v1, v2, v3 sono una funzione della (aggregati dalla) componente v1, v2, v3 sono «causate» dal fattore 30

ACP vs AFC Decomposizione della varianza di ogni item ACP AFC Comune F1 v3 v2 Unica F1 v3 v2 v2 v2 Errore 31

ACP vs AFC Comunalità ACP AFC Iniziale v3 F1 v2 Finale v3 F1 v2 Errore 32

Esempio con 2 fattori (ACP vs. AFC) ACP AFC 33

I passaggi fondamentali 1) Scelta del modello fattoriale 2) Scelta del numero di fattori 3) Rotazione della struttura fattoriale 4) Selezione delle variabili 5) Interpretazione dei fattori 6) Punteggi fattoriali 34

Decidere il numero di fattori Esistono diversi metodi per decidere quanti fattori/componenti tenere Non esiste un criterio oggettivo (ad es., algoritmo) che determina in maniera inequivocabile ed assoluta il numero dei fattori da scegliere Perché? I fattori rappresentano un modello della realtà e diversi modelli possono essere plausibili Alcuni sono più plausibili, altri sono meno plausibili, ed altri ancora sono non plausibili C è un elemento soggettivo nella decisione Soggettivo NON significa arbitrario 35

Metodi principali Autovalore maggiore di 1 (Kaiser-Guttman, mineigen) Scree-Test (Cattell) Analisi Parallela (Horn) Interpretabilità dei fattori 36

Criterio Mineigen (Autovalore > 1) Ricordiamo che autovalore = varianza spiegata dal fattore Componente 1 2 3 Autovalori iniziali Varianza totale spiegata Totale % di varianza % cumulata Totale % di varianza % cumulata 1.235 41.177 41.177 1.235 41.177 41.177.932 31.072 72.249.932 31.072 72.249.833 27.751 100.000.833 27.751 100.000 Metodo di estrazione: Analisi componenti principali. Pesi dei fattori non ruotati Ogni variabile spiega se stessa, dunque spiega 1 (variabili standardizzate) Dunque un fattore che spiega meno di 1, spiega meno di una variabile Usare fattori che spiegano meno di 1 non è efficiente (sarebbe più efficiente usare una variabile osservata) Criterio detto Mineigen o di Kaiser-Guttman 37

Esempi 38

Esempi Componente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Autovalori iniziali Varianza totale spiegata Totale % di varianza % cumulata Totale % di varianza % cumulata 2.419 16.125 16.125 2.419 16.125 16.125 1.948 12.986 29.111 1.948 12.986 29.111 1.279 8.530 37.641 1.279 8.530 37.641 1.085 7.236 44.877 1.085 7.236 44.877 1.027 6.845 51.722 1.027 6.845 51.722.958 6.385 58.107.958 6.385 58.107.886 5.905 64.012.886 5.905 64.012.849 5.663 69.675.849 5.663 69.675.820 5.467 75.143.820 5.467 75.143.724 4.824 79.967.724 4.824 79.967.670 4.464 84.431.670 4.464 84.431.646 4.306 88.737.646 4.306 88.737.593 3.955 92.692.593 3.955 92.692.579 3.859 96.551.579 3.859 96.551.517 3.449 100.000.517 3.449 100.000 Metodo di estrazione: Analisi componenti principali. Pesi dei fattori non ruotati 39

Componente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 Esempi Autovalori iniziali Varianza totale spiegata Totale % di varianza % cumulata Totale % di varianza % cumulata 12.470 12.470 12.470 12.470 12.470 12.470 9.019 9.019 21.489 9.019 9.019 21.489 5.831 5.831 27.320 5.831 5.831 27.320 4.981 4.981 32.301 4.981 4.981 32.301 3.912 3.912 36.213 3.912 3.912 36.213 2.281 2.281 38.494 2.281 2.281 38.494 2.135 2.135 40.629 2.135 2.135 40.629 1.918 1.918 42.547 1.918 1.918 42.547 1.906 1.906 44.453 1.906 1.906 44.453 1.744 1.744 46.197 1.744 1.744 46.197 1.721 1.721 47.917 1.721 1.721 47.917 1.640 1.640 49.557 1.640 1.640 49.557 1.620 1.620 51.178 1.620 1.620 51.178 1.499 1.499 52.677 1.499 1.499 52.677 1.456 1.456 54.133 1.456 1.456 54.133 1.344 1.344 55.477 1.344 1.344 55.477 1.330 1.330 56.806 1.330 1.330 56.806 1.295 1.295 58.102 1.295 1.295 58.102 1.269 1.269 59.371 1.269 1.269 59.371 1.225 1.225 60.595 1.225 1.225 60.595 1.177 1.177 61.773 1.177 1.177 61.773 1.155 1.155 62.928 1.155 1.155 62.928 1.139 1.139 64.067 1.139 1.139 64.067 1.094 1.094 65.161 1.094 1.094 65.161 1.048 1.048 66.209 1.048 1.048 66.209 1.041 1.041 67.250 1.041 1.041 67.250 1.022 1.022 68.273 1.022 1.022 68.273 1.004 1.004 69.276 1.004 1.004 69.276.973.973 70.250.953.953 71.202.921.921 72.124.901.901 73.025.876.876 73.901.851.851 74.751 Pesi dei fattori non ruotati 40

Problemi Tende a sovrastimare il numero di fattori (tipicamente intorno ad 1/3 delle variabili) E più utile considerarlo come indicatore del numero massimo di fattori da considerare (con buon senso ) Qual è la differenza tra un autovalore di 1.01 ed uno di 0.99? (ma questo vale per qualsiasi soglia) E l opzione di default di SPSS eppure è il criterio più debole tra quello che considereremo sconsigliato 41

Scree-test I fattori sono estratti in sequenza, secondo la loro capacità di spiegare varianza Componente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Autovalori iniziali Varianza totale spiegata Pesi dei fattori non ruotati Totale % di varianza % cumulata Totale % di varianza % cumulata 2.419 16.125 16.125 2.419 16.125 16.125 1.948 12.986 29.111 1.948 12.986 29.111 1.279 8.530 37.641 1.279 8.530 37.641 1.085 7.236 44.877 1.085 7.236 44.877 1.027 6.845 51.722 1.027 6.845 51.722.958 6.385 58.107.958 6.385 58.107.886 5.905 64.012.886 5.905 64.012.849 5.663 69.675.849 5.663 69.675.820 5.467 75.143.820 5.467 75.143.724 4.824 79.967.724 4.824 79.967.670 4.464 84.431.670 4.464 84.431.646 4.306 88.737.646 4.306 88.737.593 3.955 92.692.593 3.955 92.692.579 3.859 96.551.579 3.859 96.551.517 3.449 100.000.517 3.449 100.000 Metodo di estrazione: Analisi componenti principali. Vi sarà un punto in questa sequenza dopo il quale aggiungere fattori non cambia molto la capacità di spiegare varianza 42

Scree-test Attraverso il grafico degli autovalori, è possibile stimare tale punto Grafico decrescente degli autovalori 2.5 Quale è quel punto (numero di fattori) oltre il quale i fattori iniziano a spiegare di più degli altri? 2.0 Autovalore 1.5 1.0 Tracciamo una retta partendo dagli autovalori più bassi 0.5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Numero componente 43

Scree-test Attraverso il grafico degli autovalori, è possibile stimare tale punto Grafico decrescente degli autovalori Teniamo 3 componenti Autovalore 2.5 2.0 1.5 1.0 I fattori sopra a questa retta spiegano una quota più importante di varianza rispetto a quelli sulla retta Tracciamo una retta partendo dagli autovalori più bassi 0.5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Numero componente 44

Scree-test e Autovalore>1 Con gli stessi dati, il criterio Autovalore>1 suggerisce la presenza di 5 componenti Componente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Autovalori iniziali Varianza totale spiegata Pesi dei fattori non ruotati Totale % di varianza % cumulata Totale % di varianza % cumulata 2.419 16.125 16.125 2.419 16.125 16.125 1.948 12.986 29.111 1.948 12.986 29.111 1.279 8.530 37.641 1.279 8.530 37.641 1.085 7.236 44.877 1.085 7.236 44.877 1.027 6.845 51.722 1.027 6.845 51.722.958 6.385 58.107.958 6.385 58.107.886 5.905 64.012.886 5.905 64.012.849 5.663 69.675.849 5.663 69.675.820 5.467 75.143.820 5.467 75.143.724 4.824 79.967.724 4.824 79.967.670 4.464 84.431.670 4.464 84.431.646 4.306 88.737.646 4.306 88.737.593 3.955 92.692.593 3.955 92.692.579 3.859 96.551.579 3.859 96.551.517 3.449 100.000.517 3.449 100.000 Metodo di estrazione: Analisi componenti principali. Il criterio scree-test è preferibile, purchè i fattori tenuti abbiano autovalori>1 45

Un altro esempio PCA su 10 item Componente 1 2 3 4 5 6 7 8 9 10 Autovalori iniziali Varianza totale spiegata Pesi dei fattori non ruotati Totale % di varianza % cumulata Totale % di varianza % cumulata 2.520 25.197 25.197 2.520 25.197 25.197 1.486 14.859 40.057 1.486 14.859 40.057.959 9.591 49.648.959 9.591 49.648.894 8.938 58.586.894 8.938 58.586.804 8.043 66.629.804 8.043 66.629.768 7.675 74.304.768 7.675 74.304.741 7.411 81.715.741 7.411 81.715.696 6.956 88.670.696 6.956 88.670.575 5.748 94.418.575 5.748 94.418.558 5.582 100.000.558 5.582 100.000 Metodo di estrazione: Analisi componenti principali. Il criterio Mineigen suggerisce la presenza di 2 componenti 46

Scree-test anche scree test suggerisce 2 componenti. Grafico decrescente degli autovalori 3.0 2.5 Teniamo i fattori sopra tale retta Autovalore 2.0 1.5 1.0 Tracciamo una retta partendo dagli autovalori più bassi 0.5 1 2 3 4 5 6 7 8 9 10 Numero componente 47

Esempi: 1 Componente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 Autovalori iniziali Varianza totale spiegata Totale % di varianza % cumulata Totale % di varianza % cumulata 12.470 12.470 12.470 12.470 12.470 12.470 9.019 9.019 21.489 9.019 9.019 21.489 5.831 5.831 27.320 5.831 5.831 27.320 4.981 4.981 32.301 4.981 4.981 32.301 3.912 3.912 36.213 3.912 3.912 36.213 2.281 2.281 38.494 2.281 2.281 38.494 2.135 2.135 40.629 2.135 2.135 40.629 1.918 1.918 42.547 1.918 1.918 42.547 1.906 1.906 44.453 1.906 1.906 44.453 1.744 1.744 46.197 1.744 1.744 46.197 1.721 1.721 47.917 1.721 1.721 47.917 1.640 1.640 49.557 1.640 1.640 49.557 1.620 1.620 51.178 1.620 1.620 51.178 1.499 1.499 52.677 1.499 1.499 52.677 1.456 1.456 54.133 1.456 1.456 54.133 1.344 1.344 55.477 1.344 1.344 55.477 1.330 1.330 56.806 1.330 1.330 56.806 1.295 1.295 58.102 1.295 1.295 58.102 1.269 1.269 59.371 1.269 1.269 59.371 1.225 1.225 60.595 1.225 1.225 60.595 1.177 1.177 61.773 1.177 1.177 61.773 1.155 1.155 62.928 1.155 1.155 62.928 1.139 1.139 64.067 1.139 1.139 64.067 1.094 1.094 65.161 1.094 1.094 65.161 1.048 1.048 66.209 1.048 1.048 66.209 1.041 1.041 67.250 1.041 1.041 67.250 1.022 1.022 68.273 1.022 1.022 68.273 1.004 1.004 69.276 1.004 1.004 69.276.973.973 70.250.953.953 71.202.921.921 72.124.901.901 73.025.876.876 73.901.851.851 74.751 Pesi dei fattori non ruotati 48

Esempi Grafico decrescente degli autovalori 12 10 A u to v a lo r e 8 6 4 2 0 1 0 0 9 7 9 4 9 1 8 8 8 5 8 2 7 9 7 6 7 3 7 0 6 7 6 4 6 1 5 8 5 5 5 2 4 9 4 6 4 3 4 0 3 7 3 4 3 1 2 8 2 5 2 2 1 9 1 6 1 3 1 0 7 4 1 Numero componente 49

Esempi 50

Esempi Grafico decrescente degli autovalori 14 12 10 A utovalore 8 6 4 2 0 100 97 94 91 88 85 82 79 76 73 70 67 64 61 58 55 52 49 46 43 40 37 34 31 28 25 22 19 16 13 10 7 4 1 Numero componente 51

Esempi - 3 Varianza totale spiegata Componente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 Autovalori iniziali Totale % di varianza % cumulata Totale % di varianza % cumulata 6.703 20.946 20.946 6.703 20.946 20.946 2.954 9.232 30.178 2.954 9.232 30.178 2.090 6.533 36.711 2.090 6.533 36.711 1.746 5.458 42.169 1.746 5.458 42.169 1.450 4.532 46.701 1.450 4.532 46.701 1.201 3.753 50.454 1.201 3.753 50.454 1.100 3.438 53.892 1.100 3.438 53.892 1.097 3.429 57.321 1.097 3.429 57.321 1.030 3.219 60.540 1.030 3.219 60.540 1.013 3.164 63.704 1.013 3.164 63.704.941 2.942 66.645.888 2.774 69.419.809 2.529 71.948.758 2.370 74.318.757 2.367 76.686.712 2.227 78.912.691 2.159 81.071.625 1.953 83.025.567 1.771 84.796.563 1.759 86.555.553 1.728 88.283.512 1.599 89.882.478 1.495 91.377.423 1.323 92.699.382 1.193 93.892.359 1.122 95.014.323 1.009 96.023.288.901 96.924.283.883 97.808.260.813 98.620.227.709 99.329.215.671 100.000 Metodo di estrazione: Analisi componenti principali. Pesi dei fattori non ruotati 52

Esempi Grafico decrescente degli autovalori 7 6 5 A u tovalo re 4 3 2 1 0 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 Numero componente 53

Scree-test Migliore tra i metodi semplici Necessita di esperienza, buon occhio e conoscenza teorica Meglio se usato insieme a considerazioni teoriche Focus sul cambiamento di pendenza (salto degli autovalori) Tende a suggerire un numero corretto di fattori Logica: i raggruppamenti principali tendono ad emergere in maniera distinta dai raggruppamenti secondari I raggruppamenti principali tendono ad essere più affidabili rispetto a quelli secondari (segnale vs. rumore) 54

Scree-test Problemi Metodo soggettivo Può indicare più soluzioni plausibili Necessita di esperienza, buon occhio e conoscenza teorica Indicazioni chiare sono meno probabili con campioni piccoli e con un rapporto più basso tra variabili e fattori estratti 55

Analisi parallela (Horn, 1965) Proprietà desiderabile: la soluzione fattoriale prescelta deve essere non casuale (random) Non vogliamo considerare dei fattori che emergono casualmente Vogliamo considerare fattori che sono validi Condizione minima di validità: i fattori devono spiegare più varianza rispetto a fattori costruiti in modo casuale a partire dai dati disponibili La logica: Non siamo interessati a considerare un fattore che spiega meno varianza di un fattore emerso casualmente 56

Analisi parallela (Horn, 1965) SPSS non prevede questo metodo (si può implementare con il linguaggio sintassi) La procedura: 1. Generare dati casuali con stesso numero di soggetti e variabili dei dati veri 2. Estrarre gli autovalori dalla matrice di dati generati casualmente 3. Ripetere le operazioni (1) (2) almeno 100 volte, registrando ogni volta gli autovalori di tutti i fattori estratti 4. Calcolare autovalori medi e 95 percentile per tutti i fattori estratti 5. Condurre l analisi fattoriale sui dati veri 6. Confrontare gli autovalori dei dati casuali e quelli dei dati veri 7. Scegliere i fattori che spiegano più varianza del fattore corrispondente estratto dai dati casuali (usando la media o il 95 percentile) 8. Condurre l analisi fattoriale estraendo il numero di fattori così identificato Routine anche disponibile online a http://smishra.faculty.ku.edu/parallelengine.htm 57

Esempio - Scree test? Grafico decrescente degli autovalori 8 6 A u to v a lo re 4 2 0 1 3 5 7 9 1 1 1 3 1 5 1 7 1 9 2 1 2 3 2 5 2 7 2 9 3 1 3 3 3 5 Numero componente 3 7 3 9 4 1 4 3 4 5 4 7 4 9 5 1 58

Esempio Mineigen? 59

Esempio Analisi Parallela PARALLEL ANALYSIS:Principal Components Specifications for this Run: Ncases 875; Nvars 51; Ndatsets 100; Percent 95 Random Data Eigenvalues Root Means Prcntyle 1.000000 1.495933 1.534748 2.000000 1.449547 1.483834 3.000000 1.413240 1.444165 4.000000 1.383953 1.414128 5.000000 1.357437 1.384085 6.000000 1.331171 1.350236 7.000000 1.308793 1.330356 8.000000 1.287407 1.311233 9.000000 1.267480 1.281856 10.000000 1.247886 1.263203 11.000000 1.228760 1.244180 12.000000 1.210060 1.227170 13.000000 1.190141 1.205910 14.000000 1.172808 1.187282 15.000000 1.155679 1.169908 16.000000 1.138982 1.154476 17.000000 1.121598 1.139739 18.000000 1.104409 1.120724 19.000000 1.089430 1.105355 20.000000 1.072517 1.084520 21.000000 1.056629 1.071671 22.000000 1.040796 1.054376 23.000000 1.026061 1.042472 24.000000 1.011205 1.029739 25.000000.996531 1.011536 26.000000.981428.996269 27.000000.966140.982166 60

Esempio analisi parallela? Autovalori dai dati casuali: 61

L analisi parallela risente della numerosità campionaria: più casi = autovalori casuali più bassi. Specifications for this Run: Ncases 875 Nvars 51 Ndatsets 100 Percent 95 Specifications for this Run: Ncases 500 Nvars 51 Ndatsets 100 Percent 95 Random Data Eigenvalues Root Means Prcntyle 1.000000 1.495933 1.534748 2.000000 1.449547 1.483834 3.000000 1.413240 1.444165 4.000000 1.383953 1.414128 5.000000 1.357437 1.384085 6.000000 1.331171 1.350236 7.000000 1.308793 1.330356 8.000000 1.287407 1.311233 9.000000 1.267480 1.281856 10.000000 1.247886 1.263203 11.000000 1.228760 1.244180 12.000000 1.210060 1.227170 13.000000 1.190141 1.205910 14.000000 1.172808 1.187282 15.000000 1.155679 1.169908 16.000000 1.138982 1.154476 17.000000 1.121598 1.139739 18.000000 1.104409 1.120724 19.000000 1.089430 1.105355 20.000000 1.072517 1.084520 Random Data Eigenvalues Root Means Prcntyle 1.000000 1.672771 1.746009 2.000000 1.609481 1.660897 3.000000 1.564153 1.601727 4.000000 1.519642 1.558364 5.000000 1.480668 1.523348 6.000000 1.447796 1.481292 7.000000 1.414189 1.446068 8.000000 1.382801 1.413905 9.000000 1.353541 1.378729 10.000000 1.326321 1.352325 11.000000 1.298140 1.321679 12.000000 1.274496 1.299248 13.000000 1.250528 1.274202 14.000000 1.226017 1.250066 15.000000 1.201603 1.224879 16.000000 1.176207 1.197266 17.000000 1.153673 1.175959 18.000000 1.131907 1.151592 19.000000 1.108754 1.123323 20.000000 1.088079 1.106564 62

Il ruolo della numerosità campionaria Specifications for this Run: Ncases 300 Nvars 51 Ndatsets 100 Percent 95 Random Data Eigenvalues Root Means Prcntyle 1.000000 1.901806 1.991302 2.000000 1.814015 1.888260 3.000000 1.744486 1.797096 4.000000 1.682084 1.726021 5.000000 1.632741 1.685500 6.000000 1.582558 1.624323 7.000000 1.540161 1.578705 8.000000 1.496538 1.530097 9.000000 1.456316 1.496262 10.000000 1.420003 1.453685 11.000000 1.386008 1.414737 12.000000 1.348015 1.378874 13.000000 1.315815 1.342266 14.000000 1.283528 1.309885 15.000000 1.250243 1.282854 16.000000 1.216737 1.247809 17.000000 1.185969 1.216461 18.000000 1.156671 1.191097 19.000000 1.131030 1.163106 20.000000 1.100921 1.129269 Specifications for this Run: Ncases 150 Nvars 51 Ndatsets 100 Percent 95 Random Data Eigenvalues Root Means Prcntyle 1.000000 2.360547 2.490363 2.000000 2.208113 2.314111 3.000000 2.092358 2.208537 4.000000 1.995757 2.069388 5.000000 1.915092 1.978337 6.000000 1.841357 1.903147 7.000000 1.769473 1.823975 8.000000 1.708900 1.766805 9.000000 1.647847 1.697175 10.000000 1.590018 1.643570 11.000000 1.533903 1.593449 12.000000 1.481125 1.546693 13.000000 1.429721 1.477928 14.000000 1.380654 1.425280 15.000000 1.330646 1.377791 16.000000 1.282727 1.321975 17.000000 1.240862 1.280057 18.000000 1.196773 1.235461 19.000000 1.149549 1.185529 20.000000 1.110572 1.147559 63

Il ruolo della numerosità campionaria Più piccolo è il campione, maggiore deve essere l autovalore per essere considerato non casuale Per un campione che tende ad infinito, gli autovalori di controllo saranno uguali a 1 64

Analisi parallela (Horn, 1965) E considerato il migliore dei criteri avanzati Però anche in questo caso non sempre coincide con la soluzione migliore Identifica i fattori che spiegano più varianza, rispetto a fattori presi a caso E influenzato dalla numerosità campionaria Utilizzo diffuso negli ultimi anni 65

Cosa fare quindi? Mineigein e il peggiore AP e Scree-test sono migliori Non c e un metodo infallibile E essenziale conoscere la teoria relativa ai dati che si esaminano La teoria ci puo aiutare a scegliere la soluzione migliore Ci sono casi semplici e casi complessi Nei casi complessi, e meglio usare piu metodi L esperienza e fondamentale 66

Soluzione ridotta Qualunque sia il criterio per scegliere il numero di fattori, tenere un numero di fattori ridotti comporta un aumento dell efficienza ma una perdita di capacità di rappresentazione di tutta la varianza Se tutti i fattori spiegano tutta la varianza v4 F1 v1 v2 v3 F2 v2 Un numero ridotto perderà un po di capacità di spiegazione ma catturerà gli aspetti principali v3 Lo scopo è di cercare di ottenere un buon equilibrio tra semplicità e rappresentatività (modello parsimonioso) 67