Statistica multivariata Donata Rodi 21/11/2016

Documenti analoghi
ANALISI MULTIVARIATA

Tecniche statistiche di analisi del cambiamento

L analisi fattoriale

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

L analisi fattoriale viene effettuata per studiare, riassumere e semplificare le relazioni in un insieme di variabili

STATISTICA DESCRITTIVA. Elementi di statistica medica GLI INDICI INDICI DI DISPERSIONE STATISTICA DESCRITTIVA

Generazione di Numeri Casuali- Parte 2

Principal. component analysis. Dai volti agli spettri di galassie

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

Procedura operativa per la gestione della funzione di formazione classi prime

Applicazioni lineari e diagonalizzazione. Esercizi svolti

Analisi della varianza

Esercitazioni di statistica

Capitolo 11 Test chi-quadro

RICERCHE DI MERCATO. 5.6 Analisi Fattoriale (Componenti Principali)

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014

QUOTATURA. Affinché un qualsiasi oggetto disegnato possa essere esattamente realizzato deve essere perfettamente individuato in forma e dimensioni

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016

ITCS Erasmo da Rotterdam. Anno Scolastico 2014/2015. CLASSE 4^ M Costruzioni, ambiente e territorio

valore di a: verso l alto (ordinate crescenti) se a>0, verso il basso (ordinate decrescenti) se a<0;

I costi d impresa (R. Frank, Capitolo 10)

Il test (o i test) del Chi-quadrato ( 2 )

7 Disegni sperimentali ad un solo fattore. Giulio Vidotto Raffaele Cioffi

Calcolo di una Regressione lineare semplice con Excel

Quantificare la variabilità dei processi ecologici

Analisi Univariata e Multivariata dei Dati Economici Bruno Ricca (Dipartimento di studi su risorse, impresa, ambiente e metodologie quantitative)

Metodologia di applicazione dei modelli di massima verosimiglianza per il trattamento dei dati missing

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

Avviso Test TOLC-I Facoltà di Scienze Revisione del 09/02/2016

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Scala dei bisogni lavorativi F. Avallone, M. L. Farnese, R. Porcelli

La valutazione del grado di soddisfazione del servizio scolastico: redazione ed elaborazione di un questionario-tipo *

Esercizi su Autovalori e Autovettori

Esercizi sulle affinità - aprile 2009

La in verifica forma teoria normale della normalizzazione fornisce comunque uno strumento di già

Correlazione. Daniela Valenti, Treccani Scuola 1

Problemi di scelta ESEMPI

Sistemi di equazioni lineari

12 Il mercato del lavoro dei politici

Analisi fattoriale. esplorativa vers Germano Rossi 1 germano.rossi@unimib.it. 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Il Bollino GRIN: coordinamento nazionale per le lauree di informatica

B2B. Manuale per l utilizzatore.

La codifica. dell informazione

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

SISTEMI LINEARI MATRICI E SISTEMI 1

REGIONE CALABRIA REPUBBLICA ITALIANA FINCALABRA S.P.A. REGIONE CALABRIA DIPARTIMENTO 6 SVILUPPO ECONOMICO, LAVORO, FORMAZIONE E POLITICHE SOCIALI

Lezione 4. Sommario. L artimetica binaria: I numeri relativi e frazionari. I numeri relativi I numeri frazionari

Esercitazione n o 3 per il corso di Ricerca Operativa

SNADIR. Corso di formazione Sviluppo sociale

Corso di Psicometria Progredito

ˆp(1 ˆp) n 1 +n 2 totale di successi considerando i due gruppi come fossero uno solo e si costruisce z come segue ˆp 1 ˆp 2. n 1

Statistica. Esercitazione 10. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice. V.C.

Esercitazioni di Reti Logiche. Lezione 1 Rappresentazione dell'informazione. Zeynep KIZILTAN zkiziltan@deis.unibo.it

INFORMAZIONI RELATIVE AL CALCOLO DELLA DIMENSIONE DI IMPRESA 1

qwertyuiopasdfghjklzxcvbnmqwerty AppuntiBicoccaAppuntiBicoccaAppu ntibicoccaappuntibicoccaappuntibic occaappuntibicoccaappuntibicoccaa

Lavoro Quantità. si determinino prodotto marginale e medio del fattore lavoro.

ESERCITAZIONE MICROECONOMIA (CORSO B) ESEMPI DI ESERCIZI DI TEORIA DEI GIOCHI

INSTALLAZIONE HARDWARE IDP106C Ver. 1.3 BLUE DIMMER INSTALLAZIONE HARDWARE

Re = f (A) f. 2 ),,, f (af. n )}

Esercitazioni di Statistica

BOLLETTINO dei controlli della produttività del latte 2015

Quadro riassuntivo di geometria analitica

CAPITOLO V. DATABASE: Il modello relazionale

Aspettative e soddisfazione degli studenti universitari. Un indagine empirica esplorativa Bruno Busacca, Giuseppe Bertoli e Ottavia Pelloni

SOTTOSPAZI E OPERAZIONI IN SPAZI DIVERSI DA R n

Il metodo delle proporzioni crescenti

SaWork ha un modulo specifico per il consulente che ha la visibilità su tutte le aziende sue clienti da dove può:

Macroeconomia. Equilibrio in Economia Aperta. Esercitazione del (+ soluzioni) (a cura della dott.ssa Gessica Vella)

Protocollo dei saperi imprescindibili Ordine di scuola: professionale

Normalizzazione. Definizione

LA CIRCONFERENZA La circonferenza è il luogo geometrico dei punti equidistanti da un punto C, detto centro.

PENSIONI MINIME E MAGGIORAZIONI 2013: ATTENZIONE AI REDDITI

VALUTAZIONE D IMPATTO DELLE POLITICHE REGIONALI PER LA PROMOZIONE DELL APPROPRIATEZZA ORGANIZZATIVA

Studio di funzione. Tutti i diritti sono riservati. E vietata la riproduzione, anche parziale, senza il consenso dell autore. Funzioni elementari 2

PROTEZIONE CONTRO I FULMINI (CEI 81-10) RELATORE: Dr. Nicola CARRIERO Dr. Carmineraffaele ROSELLI

Lezione 12 Argomenti

BOLLETTINO dei controlli della produttività del latte 2015

Il Sistema LURTO LURTO

IM Un sistema di misurazione completamente nuovo. p osi z iona re e. Sistema di misurazione dimensionale tramite immagini. Esempi di misurazione

CONICHE. Esercizi Esercizio 1. Nel piano con riferimento cartesiano ortogonale Oxy sia data la conica C di equazione

Pro memoria per la ripartizione delle spese

L indagine statistica

Cluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare!

PROBLEMI DI SCELTA dipendenti da due variabili d azione

PowerDIP Software gestione presenze del personale aziendale. - Guida all inserimento e gestione dei turni di lavoro -

La traccia assegnata come seconda prova di Economia aziendale, nell Indirizzo Amministrazione, Finanza e Marketing è strutturata in due parti.

Corso di Laurea in Matematica per l Informatica e la Comunicazione Scientifica

La soluzione di sicurezza flessibile

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Progettazione logica

JOE ROSS - TRADING EDUCATORS Esempi di trade con la tecniche DAYTRADING in diversi mercati e intervalli temporali

QUOTAZIONI USATO DEALER

Transcript:

Statistica multivariata Donata Rodi 21/11/2016

PCA Tecnica di riduzione delle dimensioni che descrive la struttura multivariata dei dati per analisi descrittive e inferenziali Descrive la variazione di un gruppo di dati multivariati correlati (X) in funzione di variabili latenti non correlate (Y), le Componenti Principali (o Scores) Per variabili quantitative Es. 10 variabili, 100 persone: 10.000 dati!!!

PCA vs Analisi Fattoriale Tecniche strettamente correlate PCA: scinde i dati in componenti principali Analisi Fattoriale: identificazione di fattori di fondo (dimensioni sottese) che spieghino i dati, riduzione della dimensione dello spazio di rappresentazione PCA: unico risultato FA: più modelli per un unico data set

PCA

PCA Ipotesi: i valori di p variabili originarie sono determinate da un più piccolo numero di variabili indipendenti tra loro Y: combinazione lineare delle variabili X Y1: a11x1 + a12x2+ + a1pxp Y2: a21x1 + a22x2+ + a2pxp Yk: ak1x1 + ak2x2+ + akpxp Yn: an1x1 + an2x2+ + anpxp

PCA Ogni componente viene derivata in ordine di importanza decrescente La prima componente Y1 spiega la quota più alta di variazione nei dati originali Scopo: ottenere un piccolo gruppo di variabili per riassumere i dati (le prime PC), con la minor perdita di informazioni possibile Controllo del trade off tra perdita di informazioni e semplificazione del problema

Matrice di Correlazione Se la quota di varianza in comune è sufficiente, occorrono poche PC Occorre costruire una Matrice di Correlazione tra tutte le coppie di variabili R di Pearson tra le variabili Range: -1.0 a +1.0 Question 1 - ARI Question 2 - VI Question 3 - SL Question 4 - ARI Question 5 - VI Question 1 - ARI 1.000.157.077.165.069 Question 2 - VI.157 1.000.261.109.211 Question 3 - SL.077.261 1.000.157.017 Question 4 - ARI.165.109.157 1.000.098 Question 5 - VI.069.211.017.098 1.000

Verifica della validità del dataset KMO Indice di adeguatezza del campionamento Confronta I valori di correlazione tra le variabili e quelli delle correlazioni parziali Più sono vicini a 1, meglio lavora la PCA 0.70: adeguato Bartlett s test Test di Sfericità basato sul chi quadro Rifiuto di H0: mancanza di sufficiente correlazione tra le variabili Testa se la matrice di correlazione differisce dalla matrice identità ovvero se c è ridondanza tra le variabili che vengono sintetizzate nei pochi fattori Perfetta correlazione: basta un fattore Kaiser-Meyer-Olkin Measure of Sampling Adequacy..861 Bartlett's Test of Sphericity Approx. Chi-Square 9193.879 df 990 Sig..000

PCA: autovalori e autovettori Ogni componente principale è rappresentata da un autovalore λ Si hanno tanti autovalori quante sono le variabili X Ognuno degli autovalori p rappresenta la quantità di varianza standardizzata catturata da una componente

PCA: autovalori e autovettori A ogni autovalore è associato un autovettore in cui sono riportati i pesi componenziali (component loadings): esprimono il peso di ogni variabile rispetto alle PC Equivalenti ai coefficienti bivariati di correlazione lineare tra variabili e componenti L autovettore principale dalla scomposizione dei vettori della matrice di correlazione o della covarianza descrive una serie di combinazioni lineari non correlate delle variabili che contengono la maggior parte della varianza

Estrazione delle Componenti principali Da p variabili: p component (non correlate) La prima PC spiega la quantità di varianza maggiore possibile La seconda cattura il più possibile di quanto rimasto, e cosi via La prima componente viene estratta dalla matrice di correlazioni originale, la seconda da quella delle correlazioni ottenuta depurando la quota di varianze e covarianze riprodotta dalla prima componente principale Segue che le PC sono ortogonali e riproducono in ordine decrescente la massima quota di varianza ottenibile

Estrazione delle Componenti principali

Estrazione della Componente principale 2 Ogni variabile ha una varianza standardizzata a 1 La varianza standardizzata totale nelle p variabili = p Tutta la varianza dei dati viene estratta Per ogni componente, la proporzione di varianza estratta = autovalore / p Sommando gli autovalori (dalla matrice delle correlazioni) si ottiene la varianza totale della matrice di correlazioni originaria Rapporto autovalore/varianza totale * 100: percentuale di varianza riprodotta da ogni componente principale

Quante componenti tenere? Spesso si mantiene un set più piccolo di PC in una regressione lineare o logistica per evitare problemi di multicollinearità Vari approcci: Componenti con autovalori 1 (contributo significativo ai dati) Regola dell 80%: componenti che spiegano almeno l 80% della varianza totale Scree test: in grafico autovalori con il rispettivo numero di componenti, si mantiene il numero di PC prima del break in the plot (es. al cambio di pendenza)

PCA: requisiti Non devono essere correlate Cov(Yk, Yk) = 0 Devono essere ordinate in base alla quantità di variabilità complessiva che ciascuna può sintetizzare V(Y1) V(Y2) V(Yp) La variabilità dei due sistemi di riferimento deve coincidere Le variabili X sono tra loro correlate: sistema ridondante, è sufficiente considerare le prime m PC (m<p)

PCA: requisiti Ogni asse rappresenta una componente Asse x: prima componente Asse y: componente successiva Assi da -1 a +1 (campo di variazione dei pesi componenziali): semiasse positivo (da 0 a +1) e negativo (da -1 a 0) Il punto di intersezione (0,0) è il baricentro

Steps in PCA 1. Preparazione della matrice dati 2. Matrice di correlazione dati osservati 3. Verifica statistica per la validità del dataset per PCA (KMO, Bartlett s) 4. Estrazione dei fattori 5. Rotazione dei fattori 6. Assegnazione dei nomi ai fattori 7. Interpretazione dei punteggi dei fattori

Esempio 2

Variabile latente Variabile latente: non misurabile direttamente ma in modo indiretto attraverso alcune variabili osservate Es. Intelligenza: memoria a breve termine, capacità di parola, scrittura, lettura, abilità di comprensione etc. Soddisfazione del paziente: variabile latente Risposte su scala Likert, punteggio da 1 a 5 Sottogruppo di variabili latenti per aspetti specifici di quella generale

Esempio N = 10 Score da 0 a 100

Matrice dati

Esempio 3: scatter plot

Esempio 3: matrice di correlazione La varianza totale è pari al numero delle variabili (ogni variabile ha varianza = 1), essendo queste standardizzate Le covarianze sono date dalla matrice di correlazione bivariata tra le stesse Regola pratica: covarianza > 0.3

SPSS

Output

Communalities coefficients Quantità di varianza nella variabile influenzata da tutti i fattori Coefficiente maggiore: variabile definite dai fattori Coefficiente minore: variabile non predetta dai fattori Percentuale di variabilità attribuita al modello

Varianza spiegata Elenco delle singole componenti (n = numero di variabili) con autovalori e varianza spiegata Criterio di Kaiser: si mantengono solo le componenti con autovalori maggiori di 1

Scree plot Pesi delle PC senza rotazione

Output Piccoli residui: poca differenza tra le correlazioni riprodotte e la correlazione realmente osservate tra le variabili Fino a che punto le componenti importanti riescono a spiegare le correlazioni osservate tra le variabili?

Output

Output La rotazione distribuisce l importanza dei due fattori in modo simile Dipende dall estrazione di un appropriato numero di fattori

Output Quantità di rotazione dei fattori Cos 45 = 0,707

Output: plot variabili/pc PC 1: outgoingness (estroversione, avventura, socializzazione PC2: Neuroticism (ansia, agorafobia, aracnofobia)

Output Es. n8: -1.68 sul primo fattore, basso in ogutgoingness -1.37 sul secondo fattore, basso in neuroticism

Esempio Studio sul fitness: 9 componenti principali X1: Weight X2 Height X3: Age X4: Waist X5: cigerettes/day X6: Systolic Blood Pressure X7: Daistolic Blood Pressure X8: Pulse rate X9: Respiratory rate

Esempio Extraction folder Principal Componentes Unrotated factor solution

Estrazione: ogni variabile ha lo stesso peso

Varianza Totale Spiegata: quota di variabilità spiegata dalle singole componenti

Contributo di ogni variabile a ogni componente (da 7 a 9, escluse) La componente 1 ha un contributo simile da tutte le variabili: descrive il punteggio unfitness PCA 2: peso negativo su alcune variabili (caratteristiche fisiche) La prima componente fornisce la media pesata dei dati

Template I, score folders, template III Save the variables, regression Vengono generate 9 variabili nuove

Scatter Plot delle due componenti principali

Scree plot