Analisi della correlazione canonica

Documenti analoghi
Analisi della correlazione canonica

Analisi delle corrispondenze

ANALISI MULTIDIMENSIONALE DEI DATI (AMD)

Statistica. Alfonso Iodice D Enza

Algebra lineare con R

Fin qui si sono considerate le variabili casuali ciascuna per proprio conto. Ora consideriamo la possibilità di relazioni tra variabili.

Esercitazione del

Statistica. Alfonso Iodice D Enza

Statistica Applicata all edilizia: il modello di regressione

Statistica. Alfonso Iodice D Enza

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

TEORIA DEI SISTEMI ANALISI DEI SISTEMI LTI

Modelli lineari generalizzati

Analisi della varianza: I contrasti e il metodo di Bonferroni

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

3. Vettori, Spazi Vettoriali e Matrici

Esercizi su Autovalori e Autovettori

Esercizi per Geometria II Geometria euclidea e proiettiva

Sistemi sovradeterminati

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

La dipendenza. Antonello Maruotti

Tecniche di analisi multivariata

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

2 2 2 A = Il Det(A) = 2 quindi la conica è non degenere, di rango 3.

CONTROLLO DI SISTEMI ROBOTICI Laurea Specialistica in Ingegneria Meccatronica

Statistica multivariata Donata Rodi 17/10/2016

L Analisi in Componenti Principali (S. Terzi)

Forma canonica di Jordan

La matrice delle correlazioni è la seguente:

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

Elementi di Algebra Lineare. Spazio Vettoriale (lineare)

Analisi discriminante

(5 sin x + 4 cos x)dx [9]

Z-test, T-test, χ 2 -test

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Generazione di Numeri Casuali- Parte 2

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

15 luglio Soluzione esame di geometria - Ing. gestionale - a.a COGNOME... NOME... N. MATRICOLA... ISTRUZIONI

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Test per la correlazione lineare

1 Il polinomio minimo.

Test F per la significatività del modello

Statistica di base per l analisi socio-economica

Regressione multipla

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

Appunti di Econometria

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:

ANALISI DEI DATI PER IL MARKETING 2014

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

REGRESSIONE E CORRELAZIONE

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Calcolo del movimento di sistemi dinamici LTI

Caratterizzazione dei consumi energetici (parte 3)

Autovalori ed autovettori di una matrice

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

UNIVERSITÀ DEGLI STUDI DI PERUGIA

Tempo a disposizione: 150 minuti. 1 È dato l endomorfismo f : R 3 R 3 definito dalle relazioni

I. Foglio di esercizi su vettori linearmente dipendenti e linearmente indipendenti. , v 2 = α v 1 + β v 2 + γ v 3. α v 1 + β v 2 + γ v 3 = 0. + γ.

UNIVERSITÀ di ROMA TOR VERGATA

Lezione 8. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 8. A. Iodice. Relazioni tra variabili

LEZIONE 23. ax 2 + bxy + cy 2 + dx + ey + f

Appunti su Indipendenza Lineare di Vettori

DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Statistica. Alfonso Iodice D Enza

Analisi Fattoriale con R

Università di Pavia. Test diagnostici. Eduardo Rossi

Metodi di regressione multivariata

METODI MATEMATICI PER LA FISICA

Campionamento La statistica media campionaria e la sua distribuzione. Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1

La regressione fuzzy. Capitolo I limiti della regressione classica. a cura di Fabrizio Maturo

GEOMETRIA E ALGEBRA LINEARE Soluzioni Appello del 17 GIUGNO Compito A

Facoltà di Economia - Università di Pavia Simulazione Prova Scritta di Statistica Sociale 19 dicembre 2012

Esercizi di Algebra lineare

REGISTRO DELLE LEZIONI

Capitolo 1. Analisi Discriminante. 1.1 Introduzione. 1.2 Un analisi discriminante Descrizione del dataset

Caso di A non regolare

Teoria e tecniche dei test. Concetti di base

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Indici di variabilità ed eterogeneità

Analisi dei Fattori. Francesca Marta Lilja Di Lascio Dip.to di Scienze Statistiche P. Fortunati Università di Bologna

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

Capitolo 3 Sintesi e descrizione dei dati quantitativi

Corso di Geometria Ing. Informatica e Automatica Test 1: soluzioni

Il metodo delle osservazioni indirette

Transcript:

Analisi della correlazione canonica Su un collettivo di unità statistiche si osservano due gruppi di k ed m variabili L analisi della correlazione canonica ha per obiettivo lo studio delle relazioni di interdipendenza tra i due gruppi di variabili L ACC permette di individuare due nuovi gruppi di variabili artificiali incorrelati al loro interno e massimamente correlati tra loro A. Pollice - Statistica Multivariata

Determinazione delle componenti canoniche Due variabili X e Y di dimensione k ed m che, osservate su un collettivo di n individui, danno luogo alle matrici dati X = x 11. x 1k. x n1 x nk Y = y 11. y 1m. y n1 y nm Vettori di medie campionarie X = 1 n X u n = ( X 1,..., X k ) Ȳ = 1 n Y u n = (Ȳ 1,..., Ȳ m )

Matrici di varianze e covarianze campionarie S X = 1 n (X u n X ) (X u n X ) S Y = 1 n (Y u nȳ ) (Y u n Ȳ ) S XY = 1 n (X u n X ) (Y u n Ȳ ) = S Y X

U e V vettori n-dimensionali U = Xa V = Y b Medie campionarie Ū = a X V = b Ȳ Varianze e covarianza campionarie SU 2 = a S X a SV 2 = b S Y b S UV = a S XY b = b S Y X a

Coefficiente di correllazione tra U e V ρ UV = a S XY b a S X a b S Y b Le variabili latenti U e V (i vettori a e b) sono definite in modo da massimizzare ρ UV Il coefficiente di correlazione è invariante per trasformazioni lineari delle variabili, quindi bisogna introdurre i vincoli di unitarietà delle varianze delle variabili U e V

Problema di massimo vincolato max a a S XY b max b a S XY b a S X a = 1 b S Y b = 1 Funzione lagrangiana (a, b, ν, η) = a S XY b ν 2 (a S X a 1) η 2 (b S Y b 1)

Sistema per la soluzione del problema di massimo vincolato a (a, b, ν, η) = S XY b νs X a = o b (a, b, ν, η) = S XY a ηs Y b = o ν (a, b, ν, η) = a S X a 1 = 0 η (a, b, ν, η) = b S Y b 1 = 0

Risolvendo il sistema si ottengono i seguenti risultati Formule di transizione: ν = η = Cov(U, V ) a = 1 ν S 1 X S XY b Equazioni caratteristiche: S 1 b = 1 ν S 1 Y S Y Xa X S XY SY 1 S Y Xa = ν 2 a SY 1 S Y XSX 1 S XY b = ν 2 b

ν 2 = λ è un autovalore di E 1 = SX 1 S XY SY 1 S Y X come di E 2 = SY 1 S Y XSX 1 S XY a e b sono autovettori corrispondenti e tali che a S X a = 1 e b S Y b = 1 E 1 ed E 2 hanno un numero di autovalori non nulli pari a r(e 1 ) = r(e 2 ) = r min(k, m)

Cov(U, V ) = ν = λ implica che le combinazioni lineari delle colonne di X ed Y massimamente correlate tra loro sono individuate dagli autovettori a 1 e b 1 corrispondenti al più grande autovalore λ 1 di E 1 o di E 2 e tali che a 1 S Xa 1 = b 1 S Y b 1 = 1 Prime componenti canoniche U 1 = Xa 1 V 1 = Y b 1 Prima correlazione canonica: ρ U1 V 1 = S U1 V 1 = λ 1

In modo analogo si possono definire le coppie componenti canoniche successive, che sono incorrelate con le precedenti La h-esima coppia di componenti canoniche consiste nelle combinazioni lineari massimamente correlate U h = Xa h V h = Y b h e tali che S Uh U 1 = = S Uh U h 1 = 0 S Vh V 1 = = S Vh V h 1 = 0

a h e b h sono gli autovettori associati all h-esimo autovalore λ h delle matrici E 1 ed E 2 e tali che a h S Xa h = 1 e b h S Y b h = 1 L autovalore λ h coincide con il quadrato del coefficiente di correlazione canonica tra U h e V h

L analisi della correlazione canonica consiste nel trasformare le k colonne di X e le m colonne di Y in r coppie di vettori (U 1, V 1 ),..., (U r, V r ) Se U = (U 1,..., U r ) e V = (V 1,..., V r ) si ha S 2 U = S2 V = I r S UV = diag( λ 1,..., λ r ) Le r correlazioni canoniche misurano l associazione tra i due insiemi di variabili quando tutte le correlazioni entro gli insiemi sono state rimosse

Nello studio dell interdipendenza tra due variabili multidimensionali, l analisi della correlazione canonica consente di ridurre la dimensione delle osservazioni I suoi risultati possono essere interpretati analizzando i valori dei coefficienti che individuano le variabili canoniche La rappresentazione grafica delle osservazioni nel riferimento (U j, V j ) per j = 1,..., r può servire come strumento per l individuazione di osservazioni anomale Se si calcolano componenti e correlazioni canoniche in base alle matrici di correlazione, piuttosto che alle matrici di varianze e covarianze gli elementi dei vettori a j e b j (per j = 1,..., r) sono adimensionali

Proprietà campionarie sotto l assunzione di normalità Si assuma W = (X, Y ) N k+m (µ W, Σ W ), con µ W = ( µx µ Y ) ( ΣX Σ Σ W = XY Σ Y X Σ Y ) Se si osservano n replicazioni indipendenti di W gli stimatori di massima verosimiglianza delle matrici Σ X, Σ XY, Σ Y e Σ Y X sono dati dalle corrispondenti matrici di varianze e covarianze campionarie E 1 ed E 2 sono stimatori di massima verosimiglianza di ɛ 1 = ΣX 1 Σ XY Σ 1 Y Σ Y X ed ɛ 2 = Σ 1 Y Σ Y XΣ 1 X Σ XY

Se gli r autovalori λ 1,..., λ r di ɛ 1 ed ɛ 2 sono tutti distinti, i loro stimatori di massima verosimiglianza coincidono con gli autovalori λ 1,..., λ r delle matrici E 1 ed E 2 In tal caso gli autovettori ã j e b j corrispondenti a λ j e tali che ã j Σ Xã j = b j Σ Y b j = 1 sono stimati da a j e b j, autovettori di E 1 ed E 2 corrispondenti a λ j e tali che a j S Xa j = b j S Y b j = 1

Verifica di ipotesi Procedure per la verifica della significatività delle componenti canoniche sotto l assunzione distributiva di normalità { H0 : λ 1 = 0 H 1 : λ 1 0 { H0 : Σ XY = O H 1 : Σ XY O Test del rapporto di verosimiglianze generalizzato λ = ( S S X S Y con lim n 2 ln λ χ2 km ) n/2

Significatività dell ipotesi che un certo numero di autovalori di ɛ 1 ed ɛ 2 siano diversi da zero { H0 : λ 1 > > λ r0 > 0, λ h = 0, h > r 0 H 1 : più di r 0 autovalori diversi da 0 { H0 : r(σ XY ) = r 0 H 1 : r(σ XY ) > r 0 Test di Bartlett γ = [n 12 ] r (m + k + 3) dove p = (k r 0 )(m r 0 ) j=r 0 +1 ln(1 λ 2 j ) con lim n γ χ2 p