Analisi delle corrispondenze

Похожие документы
Analisi della correlazione canonica

Analisi della correlazione canonica

ANALISI DEI DATI PER IL MARKETING 2014

La matrice delle correlazioni è la seguente:

3. Vettori, Spazi Vettoriali e Matrici

La dipendenza. Antonello Maruotti

Sistemi lineari. Lorenzo Pareschi. Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara

Si consideri il sistema a coefficienti reali di m equazioni lineari in n incognite

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

CONTROLLO DI SISTEMI ROBOTICI Laurea Specialistica in Ingegneria Meccatronica

Prodotto scalare e prodotto vettoriale. Elisabetta Colombo

REGRESSIONE E CORRELAZIONE

POTENZE DI MATRICI QUADRATE

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

Esercizi per Geometria II Geometria euclidea e proiettiva

Analisi in componenti principali

Equazioni Polinomiali II Parabola

= elemento che compare nella seconda riga e quinta colonna = -4 In generale una matrice A di m righe e n colonne si denota con

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

FONDAMENTI DI ALGEBRA LINEARE E GEOMETRIA

1 - Matrice delle masse e delle rigidezze

Distribuzioni secondo due caratteri. Rappresentazioni e prime sintesi

Geometria analitica di base (seconda parte)

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Esercitazioni di statistica

Generazione di Numeri Casuali- Parte 2

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

Metodi per la risoluzione di sistemi lineari

ha come obiettivo quello di costruire a partire da A una matrice U, m n, che abbia il

Esercitazione: La distribuzione NORMALE

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

Statistica. Alfonso Iodice D Enza

Assemblaggio degli Elementi: Soluzione del Problema Strutturale Discreto

Piano cartesiano e Retta

Il modello duale. Capitolo settimo. Introduzione

Corso di Psicometria Progredito

CONICHE. Esercizi Esercizio 1. Nel piano con riferimento cartesiano ortogonale Oxy sia data la conica C di equazione

Statistica. Alfonso Iodice D Enza

Esercizi svolti. risolvere, se possibile, l equazione xa + B = O, essendo x un incognita reale

Statistica. Alfonso Iodice D Enza

microonde Circuiti a microonde Circuito

SISTEMI LINEARI: APPROFONDIMENTI ED ESEMPI

VETTORI E SCALARI DEFINIZIONI. Si definisce scalare una grandezza definita interamente da un solo numero, affiancato dalla sua unità di misura.

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

SOTTOSPAZI E OPERAZIONI IN SPAZI DIVERSI DA R n

DIPENDENZA E ASSOCIAZIONE DISTRIBUZIONE CONGIUNTA DI DUE VARIABILI. Ci limiteremo a considerare il caso di due variabili.

matematica classe terza Liceo scientifico

EQUAZIONE DELLA RETTA

RETI DI TELECOMUNICAZIONE

Esercizi svolti di Programmazione Lineare. a cura di Laura Scrimali Dipartimento di Matematica e Informatica Università di Catania

Statistica ARGOMENTI. Calcolo combinatorio

Anno scolastico 2015/2016 PROGRAMMA SVOLTO. Docente: Catini Romina. Materie: Matematica. Classe : 4 L Indirizzo Scientifico Scienze Applicate

Vettori e matrici. Lorenzo Pareschi. Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara

Lezione 8. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 8. A. Iodice. Relazioni tra variabili

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 4

STATISTICA DESCRITTIVA BIVARIATA

Sapienza Università di Roma Corso di laurea in Ingegneria Energetica Geometria A.A ESERCIZI DA CONSEGNARE prof.

1.1 Coordinate sulla retta e nel piano; rette nel piano

TRASFORMAZIONI GEOMETRICHE

Vettori e geometria analitica in R 3 1 / 25

Obiettivi Strumenti Cosa ci faremo? Probabilità, distribuzioni campionarie. Stimatori. Indici: media, varianza,

FUNZIONI. y Y. Def. L insieme Y è detto codominio di f. Es. Siano X = R, Y = R e f : x y = 1 x associo il suo inverso). (ad un numero reale

Geometria analitica del piano pag 32 Adolfo Scimone

Caso di A non regolare

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

LEZIONE 8. k e w = wx ı + w y j + w z. k di R 3 definiamo prodotto scalare di v e w il numero

LEZIONE 4. { x + y + z = 1 x y + 2z = 3

Calcolo del movimento di sistemi dinamici LTI

Esercizi di Matematica di Base Scienze biologiche e Scienze e Tecnologie dell Ambiente

Distribuzioni di Probabilità

TEORIA DEI SISTEMI SISTEMI LINEARI

Studio generale di una conica

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

Autovalori e autovettori di una matrice quadrata

CONTROLLI AUTOMATICI Ingegneria della Gestione Industriale e della Integrazione di Impresa

Note sulla probabilità

FUNZIONI. }, oppure la

Esercizi di Calcolo delle Probabilità

ESERCIZIO SOLUZIONE. 13 Aprile 2011

STATISTICA: esercizi svolti su MODA, MEDIANA, QUARTILI, DECILI e CENTILI

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

Esercizi di MATEMATICA PER RCHITETTURA prima parte: Algebra Lineare e Geometria

UNITÀ DIDATTICA 2 LE FUNZIONI

Prodotto scalare e norma

PIANO DI LAVORO ANNUALE DEL DIPARTIMENTO DI MATERIA NUCLEI FONDAMENTALI DI CONOSCENZE

Esercitazione 03: Sistemi a tempo discreto

Elementi di Statistica

Esercizio geometria delle aree

Транскрипт:

Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello di analizzare le relazioni tra le modalità di due (o più) caratteri qualitativi Ad applicazioni di questo tipo si è già accennato alla fine del capitolo sulla correlazione canonica, quando si fatto riferimento all uso di detta metodologia in presenza di dati qualitativi L analisi delle corrispondenze mira ad individuare la struttura dell associazione interna a una tabella di contingenza tramite la rappresentazione grafica delle modalità dei due caratteri in uno spazio di dimensionalità minima (in quasi tutte le applicazioni il piano cartesiano) 111 Analisi delle corrispondenze semplici Si disponga di una tabella di contingenza in cui n individui sono classificati secondo due fattori qualitativi X 1 e X 2 con rispettivamente k 1 e k 2 livelli X 1 X 2 X 21 X 2h X 2k2 tot X 11 n 11 n 1h n 1k2 n 10 X 1j n j1 n jh n jk2 n j0 X 1k1 n k1 1 n k1 h n k1 k 2 n k1 0 tot n 01 n 0h n 0k2 n 147

148 A Pollice - Statistica Multivariata La struttura delle relazioni tra i livelli dei due fattori può essere analizzata considerando i profili riga (distribuzioni delle frequenze relative di X 2 condizionate rispetto a ciascuna modalità di X 1 ) e i profili colonna (distribuzioni delle frequenze relative di X 1 condizionate rispetto a ciascuna modalità di X 2 ): vengono ritenute somiglianti le modalità di X 1 caratterizzate da profili riga simili, e quelle di X 2 caratterizzate da profili colonna simili L analisi delle corrispondenze fornisce una rappresentazione sintetica delle informazioni contenute nella tavola di contingenza attraverso la considerazione delle prossimità tra profili riga e profili colonna Si indichi con N la matrice k 1 k 2 con elemento generico n jh Questa matrice può essere rappresentata nella cosiddetta forma disgiuntiva in cui le due mutabili X 1 e X 2 sono trasformate rispettivamente in k 1 e k 2 variabili dicotomiche Sia X (1) una matrice n k 1 il cui elemento generico X (1) ij vale 1 se l individuo i-esimo è caratterizzato dal j-esimo livello del primo fattore, e vale 0 altrimenti Analogamente si definisca la matrice X (2) per il secondo fattore Si ricava facilmente che vale X (1) X (2) = N (111) Inoltre indicando con D 1 e D 2 rispettivamente le matrici diagonali dei totali di riga e di colonna D 1 = X (1) X (1) = diag(n 10,, n k1 0) D 2 = X (2) X (2) = diag(n 01,, n 0k2 ) (112) è possibile ottenere le matrici dei profili riga e dei profili colonna rispettivamente date, per j = 1,, k 1 ed h = 1,, k 2, da D 1 1 N = [n jh/n j0 ] ND 1 2 = [n jh /n 0h ] (113) Lo studio delle relazioni tra le due mutabili X 1 e X 2 si traduce in quello della correlazione canonica tra i due insiemi di variabili dicotomiche riportate nelle matrici X (1) e X (2) Pertanto è noto come per individuare i vettori a e b di k 1 e k 2 coefficienti che definiscono le due variabili unidimensionali v = X (1) a w = X (2) b (114)

Cap 11: Analisi delle corrispondenze 149 massimamente correlate tra loro e con varianza unitaria, bisogna risolvere le due equazioni caratteristiche D 1 1 ND 1 2 N λi k1 = 0 D 1 2 N D 1 1 N λi k 2 = 0 (115) Le soluzioni delle (115) corrispondono agli autovalori e autovettori delle matrici D1 1 ND 1 2 N e D2 1 N D1 1 N Se k 1 k 2, i k 1 autovalori comuni alle due matrici misurano complessivamente la correlazione tra i due gruppi di variabili dicotomiche, ovvero l associazione tra i due fattori Ciascun autovalore λ s = [cov(v s, w s )] 2, con s = 1,, k 1 misura l interdipendenza tra i due gruppi di variabili spiegata dalla s-esima soluzione canonica Inoltre la sua radice quadrata λ s è detta inerzia e misura la variabilità associata a ciascuna dimensione (o asse): il rapporto λ s / k 1 1 s=0 λ s detto frazione di inerzia indica l idoneità della s-esima soluzione a rappresentare l associazione tra i fattori Si noti come il maggiore tra gli autovalori λ 0 abbia sempre valore unitario Infatti considerando a 0 = u k1 e b 0 = u k2 si ottiene v 0 = X (1) a 0 = u n = X (2) b 0 = w 0 (116) In questo caso la correlazione tra v 0 e w 0 (dette coefficienti componenti canoniche banali) è massima e pari a 1 cov(v 0, w 0 ) = λ 0 = 1 (117) Le k 1 soluzioni sono individuate da altrettante coppie di vettori di coefficienti a s e b s che corrispondono agli autovettori normalizzati delle matrici D1 1 ND 1 2 N e D2 1 N D1 1 N associati agli autovalori λ s per s = 0,, k 1 1 Come nell analisi della correlazione canonica ne conseguono le due relazioni di mutua transizione a s = 1 λs D 1 1 Nb s b s = 1 λs D 1 2 N a s (118) ovvero rispettivamente per j = 1,, k 1 e h = 1,, k 2 a sj = 1 k2 n jh λs h=1 n j0 b sh b sh = 1 k1 (119) n jh λs j=1 n 0h a sj

150 A Pollice - Statistica Multivariata Inoltre, poiché le diverse componenti canoniche sono tra loro incorrelate, vale per s t ed s, t = 0,, k 1 1 ed in particolare per t = 0 ed s = 1,, k 1 1 v sv t = w sw t = 0 (1110) v su n = v sv 0 = 0 w su n = w sw 0 = 0 (1111) da cui si deduce che le componenti canoniche diverse da quelle banali hanno media nulla Si noti inoltre che k 1 1 s=0 λ s = tr(d 1 1 ND 1 2 N ) = k 1 k 2 j=1 h=1 n 2 jh n j0 n 0h (1112) quindi se N è perfettamente diagonale (caso teorico di massima associazione), allora k 1 = k 2, n jh = 0 per j h, mentre per j = h si ha n jh = n j0 = n 0h In tal caso λ s = 1 per s = 0,, k 1 1 Dall espressione precedente si ricava k 1 1 s=1 k 1 k 2 n 2 jh λ s = 1 = = n j=1 j0 n 0h h=1 [ ] = 1 k 1 k 2 (n jh n j0 n 0h /n) 2 = 1 n n j0 n 0h /n n χ2 (1113) j=1 h=1 dove con χ 2 si è indicato l omonimo indice per la misura dell associazione tra due caratteri qualitativi Tale indice risulta dunque nullo se lo sono tutti gli autovalori associati alle soluzioni non banali 1111 Rappresentazione grafica Si consideri la prima soluzione non banale legata all autovalore λ 1 Il vettore n-dimensionale v 1 = (v 11,, v 1n ) = X (1) a 1 (1114) esprime le n osservazioni in termini della coordinata ottenuta come trasformazione del carattere X 1 Volendo rappresentare la j-esima modalità di X 1 in termini della nuova coordinata v 1, se ne considera la media per gli n j0

Cap 11: Analisi delle corrispondenze 151 individui che la posseggono ovvero il centroide della j-esima modalità di X 1 nello spazio della prima componente canonica v 1 (j, 0) = 1 v 1i (1115) n j0 i X 1j Si noti che v 1i è dato dal prodotto della i-esima riga di X (1) per a 1 Se l iesimo individuo è caratterizzato dalla j-esima modalità del primo carattere, allora l i-esima riga di X (1) coincide con il vettore indicatore del j-esimo elemento v 1i = (0,, 0, 1, 0,, 0) a 11 a 1k1 = a 1j (1116) di conseguenza per la (1115), e analogamente per la seconda soluzione legata all autovalore λ 2, si ha che v 1 (j, 0) = a 1j v 2 (j, 0) = a 2j (1117) La j-esima modaltà del primo carattere X 1 ha coordinate (a 1j, a 2j ) sul piano delle prime due componenti canoniche (o coordinate fattoriali) del primo carattere Si vogliano ora rappresentare le modalità del secondo carattere sullo stesso piano Per esprimere la h-esima modalità del carattere X 2 in termini delle coordinate fattoriali del primo carattere, ovvero in termini di a 1 si considerano le seguenti medie ponderate v 1 (0, h) = v 2 (0, h) = P k1 j=1 n jha 1j n 0h P k1 j=1 n jha 2j n 0h (1118) le cui espressioni, tenendo conto delle relazioni di mutua transizione diventano v 1 (0, h) = λ 1 b 1h v 2 (0, h) = λ 2 b 2h (1119) Sul piano fattoriale del primo carattere è dunque possibile rappresentare due serie di punti che corrispondono alle modalità dei due caratteri, in modo da analizzarne le relazioni: i punti riga di coordinate (a 1j, a 2j ) per j = 1,, k 1 e i punti colonna di coordinate ( λ 1 b 1h, λ 2 b 2h ) per h = 1,, k 2

152 A Pollice - Statistica Multivariata Analogamente si può considerare il piano fattoriale del secondo carattere, ottenendo i punti riga ( λ 1 a 1j, λ 2 a 2j ) per j = 1,, k 1 e i punti colonna (b 1h, b 2h ) per h = 1,, k 2 Generalmente viene utilizzata una terza rappresentazione che mette sullo stesso piano i due caratteri, considerando i punti riga ( λ 1 a 1j, λ 2 a 2j ) per j = 1,, k 1 e i punti colonna ( λ 1 b 1h, λ 2 b 2h ) per h = 1,, k 2 Poiché per s = 1,, k 1 1 valgono le seguenti relazioni v su n = a sx (1) u n = k 1 j=1 n j0a sj = 0 w su n = b sx (2) u n = k 2 h=1 n 0hb sh = 0 (1120) si ricava facilmente che per s = 1,, k 1 1 vale 1 n k 1 j=1 n j0 λs a sj = 1 n k 2 h=1 n 0h λs b sh = 0 (1121) Dunque per il terzo sistema di coordinate presentato l origine degli assi corrisponde ai centroidi o profili medi dei due caratteri nella rappresentazione fattoriale I punti del grafico che si avvicinano all origine sono quelli i cui profili sono maggiormente somiglianti con quelli medi Analogamente i punti situati in posizione periferica hanno profili che si discostano maggiormente da quelli medi Due modalità del primo carattere aventi profili simili corrispondono a punti riga vicini nella rappresentazione grafica Analogamente per le modalità del secondo carattere Non è possibile dare significato alla prossimità tra un punto riga e un punto colonna, ma piuttosto si può interpretare la posizione di un punto riga rispetto a quella di tutti i punti colonna e viceversa Ciò è possibile grazie alle relazioni d mutua transizione che legano le coordinate di un punto riga a quelle di tutti i punti colonna e viceversa Si badi bene che le analisi delle prossimità tra punti sono valide se lo è la rappresentazione fattoriale e ciò può essere verificato tramite il calcolo della percentuale di inerzia totale spiegata dai primi due assi principali (dalle prime due soluzioni fattoriali) Riguardo all interpretazione del significato degli assi fattoriali si noti che ciascuna modalità dei due caratteri contribuisce alla determinazione di ogni asse in misura proporzionale alla coordinata del punto che la rappresenta sull asse stesso In altri termini quanto più un punto si allontana dall origine nella direzione di un asse, tanto più la modalità che esso rappresenta influisce sull individuazione dell asse stesso

Cap 11: Analisi delle corrispondenze 153 112 Cenni all analisi delle corrispondenze multiple Si disponga ora di p caratteri qualitativi X l con l = 1,, p, ciascuno caratterizzato da k l modalità con p l=1 k l = k Anche in questo caso si può costruire una matrice dati sotto forma disgiuntiva formata da n righe e k colonne X = (X (1),, X (p) ) dalla quale si ricava la cosiddetta matrice di Burt X (1) X (1) X (1) X (l) X (1) X (p) B = X X = X (l) X (1) X (l) X (l) X (l) X (p) = X (p) X (1) X (p) X (l) X (p) X (p) D 1 N 1l N 1p = N 1l D l N lp (1122) N 1p N lp D p Gli elementi della matrice B corrispondono alle frequenze di una tabella di contingenza in cui nella riga e nella colonna madre compaiono le modalità di tutti i p caratteri Lo studio dell associazione tra le k modalità dei p caratteri può dunque avvenire tramite l analisi delle corrispondenze semplici effettuata partendo dalla matrice di Burt piuttosto che dalla matrice N