Complementi di Matematica e Statistica



Documenti analoghi
Calcolo della risposta di un sistema lineare viscoso a più gradi di libertà con il metodo dell Analisi Modale

Sintassi dello studio di funzione

Strumenti di indagine per la valutazione psicologica

EQUAZIONI ALLE RICORRENZE

V Tutorato 6 Novembre 2014

52. Se in una città ci fosse un medico ogni 500 abitanti, quale sarebbe la percentuale di medici? A) 5 % B) 2 % C) 0,2 % D) 0,5% E) 0,02%

SUCCESSIONI E SERIE NUMERICHE

Numerazione binaria Pagina 2 di 9 easy matematica di Adolfo Scimone

DISTRIBUZIONI DOPPIE

Anno 5 Successioni numeriche

Statistica 1 A.A. 2015/2016

PARTE QUARTA Teoria algebrica dei numeri

Successioni. Grafico di una successione

IL CALCOLO COMBINATORIO

LA DERIVATA DI UNA FUNZIONE

Interesse e formule relative.

Una funzione è una relazione che ad ogni elemento del dominio associa uno e un solo elemento del codominio

CONCETTI BASE DI STATISTICA

DEFINIZIONE PROCESSO LOGICO E OPERATIVO MEDIANTE IL QUALE, SULLA BASE

Campi vettoriali conservativi e solenoidali

Successioni ricorsive di numeri

I numeri complessi. Pagine tratte da Elementi della teoria delle funzioni olomorfe di una variabile complessa

1 Limiti di successioni

LA VERIFICA DELLE IPOTESI SUI PARAMETRI

Campionamento stratificato. Esempio

8. Quale pesa di più?

Elementi di matematica finanziaria

LE MISURE DI VARIABILITÀ DI CARATTERI QUANTITATIVI

Statistica (Prof. Capitanio) Alcuni esercizi tratti da prove scritte d esame

Soluzione La media aritmetica dei due numeri positivi a e b è data da M

SUCCESSIONI NUMERICHE

Il test parametrico si costruisce in tre passi:

Appunti sulla MATEMATICA FINANZIARIA

Matematica II: Calcolo delle Probabilità e Statistica Matematica

I appello - 29 Giugno 2007

Rendita perpetua con rate crescenti in progressione aritmetica

Università degli Studi di Bergamo - Corsi di laurea in Ingegneria Edile e Tessile Indici di posizione e variabilità Esercitazione 2

Analisi Fattoriale Discriminante

Analisi statistica dell Output

Metodi statistici per l'analisi dei dati

STATISTICA DESCRITTIVA

Risposte. f v = φ dove φ(x,y) = e x2. f(x) = e x2 /2. +const. Soluzione. (i) Scriviamo v = (u,w). Se f(x) è la funzione richiesta, si deve avere

LA GESTIONE DELLA QUALITA : IL TOTAL QUALITY MANAGEMENT

SERIE NUMERICHE Con l introduzione delle serie vogliamo estendere l operazione algebrica di somma ad un numero infinito di addendi.

Terzo appello del. primo modulo. di ANALISI

SUCCESSIONI e LIMITI DI SUCCESSIONI. c Paola Gervasio - Analisi Matematica 1 - A.A. 15/16 Successioni cap3b.pdf 1

Foglio di esercizi N. 1 - Soluzioni

Metodi statistici per l analisi dei dati

Capitolo uno STATISTICA DESCRITTIVA BIVARIATA

Percorsi di matematica per il ripasso e il recupero

ESERCIZI DI STATISTICA DESCRITTIVA ALCUNI TRATTI DA PROVE D ESAME DA REALIZZARE ANCHE CON L AUSILIO DI UN FOGLIO DI CALCOLO. Angela Donatiello 1

ANALISI MATEMATICA 1 Area dell Ingegneria dell Informazione. Appello del TEMA 1. f(x) = arcsin 1 2 log 2 x.

Selezione avversa e razionamento del credito

Corso di Laurea in Ing. Edile Politecnico di Bari A.A Prof. ssa Letizia Brunetti DISPENSE DEL CORSO DI GEOMETRIA

Capitolo 3 CARATTERIZZAZIONE MECCANICA DELLE FIBRE

Corso di Laurea Magistrale in Ingegneria Informatica A.A. 2014/15. Complementi di Probabilità e Statistica. Prova scritta del del

,5 882,5 894,5 906,5 918,5 930,5 942,5 954,5

SUCCESSIONI NUMERICHE

Le onde elettromagnetiche. Origine e natura, spettro delle onde e.m., la polarizzazione

Serie numeriche: esercizi svolti

Teorema 13. Se una sere converge assolutamente, allora converge:

Principi base di Ingegneria della Sicurezza

Approfondimenti di statistica e geostatistica

Tecnica delle misurazioni applicate Esame del 4 dicembre 2007

Calcolo Combinatorio (vers. 1/10/2014)

La matematica finanziaria

Formula per la determinazione della Successione generalizzata di Fibonacci.

Corso di Elementi di Impianti e macchine elettriche Anno Accademico

STATISTICA INFERENZIALE SCHEDA N. 2 INTERVALLI DI CONFIDENZA PER IL VALORE ATTESO E LA FREQUENZA

CAPITOLO SETTIMO GLI INDICI DI FORMA 1. INTRODUZIONE

IMPLICAZIONE TRA VARIABILI BINARIE: L Implicazione di Gras

Limiti di successioni

Statistica di base. Luca Mari, versione

APPUNTI DI MATEMATICA ALGEBRA \ ARITMETICA \ NUMERI NATURALI (1)

Esercizi riguardanti limiti di successioni

Lezione n Lezioni di Ricerca Operativa. Corso di Laurea in Informatica Università di Salerno. Prof. Cerulli Dott. Carrabs

che sono una l inversa dell altra; l insieme dei messaggi cifrati C i cui elementi sono indicati con la lettera c.

5 ln n + ln. 4 ln n + ln. 6 ln n + ln

Capitolo Terzo. rappresenta la rata di ammortamento del debito di un capitale unitario. Si tratta di risolvere un equazione lineare nell incognita R.

ESAME DI STATO DI LICEO SCIENTIFICO CORSO DI ORDINAMENTO 2006

SERIE NUMERICHE Esercizi risolti. 2 b) n=1. n n 2 +n

Corsi di Laurea in Ingegneria Edile e Architettura Prova scritta di Analisi Matematica 1 del 6/02/2010. sin( x) log((1 + x 2 ) 1/2 ) = 1 3.

Esercitazioni di Statistica

Capitolo 27. Elementi di calcolo finanziario EEE

STIMA DEL FONDO RUSTCO

ESERCIZI SULLE SERIE

REGRESSIONE LINEARE E POLINOMIALE

CAPITOLO 5 TEORIA DELLA SIMILITUDINE

CARATTERISTICHE MECCANICHE DI PIETRE NATURALI PER FACCIATE VENTILATE. Di seguito verranno utilizzati i seguenti simboli:

Le carte di controllo

Equazioni e contrazioni: un punto fisso //

Un problema! La letteratura riporta che i pazienti affetti da cancro. = mesi

Serie numeriche e serie di potenze

Introduzione all assicurazione. (Dispensa per il corso di Microeconomia)

Complessità Computazionale

ESEMPIO 1. Immaginiamo come si distribuirebbero le stime campionarie se l operazione di campionamento venisse ripetuta più volte.

II-9 Successioni e serie

1 Successioni Limite di una successione Serie La serie armonica La serie geometrica... 6

3.1 Il principio di inclusione-esclusione

INTRODUZIONE ALLA STATISTICA

Transcript:

Uiversità di Bologa Sede di Forlì Ao Accademico 009-00 Complemeti di Matematica e Statistica (Alessadro Lubisco) Aalisi delle compoeti pricipali

INDICE Idice... i Aalisi delle compoeti pricipali... Premessa... U iterpretazioe geometrica... 5 Sviluppi formali... Matrici ortoormali e ortogoali... 3 Determiate di ua matrice... 3 Determiazioe delle compoeti pricipali... 4 Cambiameti di scala... 9 La scelta del umero di compoeti... La percetuale di variaza spiegata... Regola di Kaiser... Scree diagram... 3

ANALISI DELLE COMPONENTI PRINCIPALI PREMESSA Il campo dell aalisi multivariata cosiste i quelle teciche statistiche che cosiderao due o più variabili casuali correlate come ua sigola etità e cercao di produrre u risultato complessivo che tega coto delle relazioi esisteti tra le variabili. Molte delle teciche multivariate ifereziali soo geeralizzazioi delle classiche procedure uivariate. Si pesi, per esempio, alla regressioe multivariata. C è, tuttavia, u altra classe di teciche che è uica el paorama delle teciche multivariate. Il coefficiete di correlazioe è u e- sempio calzate. Sebbee queste teciche possao essere ache utilizzate ella statistica ifereziale, la maggior parte delle loro applicazioi è come strumeto di aalisi dei dati. I particolare, soo utilizzate come teciche che cercao di descrivere la struttura multivariata dei dati. L aalisi delle compoeti pricipali (ACP) è ua tecica di questo tipo che, sebbee usata pricipalmete come tecica descrittiva, può essere utilizzata altrettato i procedure ifereziali. L ACP appartiee alle teciche statistiche di aalisi multivariata, o- gua delle quali ha caratteristiche proprie, presetado tuttavia coessioi cocettuali e possibilità complemetari di utilizzo, ciascua rispetto alle altre. I metodi dell ACP vegoo adottati ell ambito di varie disciplie, particolarmete la sociologia e la psicologia, ma ache la biologia, la medicia e l ecoomia. Tali metodi si applicao a u isieme di osservazioi iiziali (variabili osservate), eseguite al fie di disporre di u vasto ambito di iformazioi, cosegueti a idagii codotte su campioi più o meo vasti. Così, per esempio, se per eseguire u idagie, poiamo sui cosumi, vegoo scelte veti variabili cosiddette rilevati (età, scolarità, umero dei familiari coviveti, reddito, umero di elettrodomestici posseduti, ecc.) e suppoedo di itervistare mille persoe, si ottiee ua massa di vetimila dati, i quali, cosiderati i blocco, o soo immediatamete idoei a forire iformazioi sitetiche e riassutive, ache se abbodao le

Aalisi statistica multivariata otizie di dettaglio. L obiettivo dell ACP cosiste allora ell'idividuare alcui (pochi) fattori di fodo che spieghio e diao ragioe dei dati stessi. Tali fattori di fodo, o compoeti, rappresetao delle dimesioi ideali dotate di sigificato. Così, ell ambito del comportameto di cosumo, potrebbero emergere compoeti quali: desiderio di essere accettati dal gruppo cui si aspira apparteere, tedeza a icremetare il proprio seso di sicurezza, desiderio di essere percepiti come apparteeti a u determiato status sociale, motivazioe al successo, ottimismo e pessimismo verso il proprio futuro, e via dicedo. I ambito ecoomico-aziedale, l'acp viee impiegata per: sitesi di idici di bilacio aziedale - valutazioe della performace aziedale sulla base di p idici di bilacio sitesi di valutazioi espresse da cosumatori/uteti co riferimeto a u certo bee/servizio/azieda/puto vedita. "riduzioe" della dimesioe dell'iformazioe prelimiare all'aalisi dei gruppi (impiegata per la segmetazioe del mercato) valutazioe sitetica di caratteristiche territoriali: valutazioe della qualità della vita co riferimeto a u certo territorio, sulla base di p idicatori di reddito, cosumo, dotazioe di servizi, idicatori ambietali, ecc. Itervistiamo i cittadii di ua certa area su vari aspetti relativi ai servizi foriti, ad esempio, dal Servizio Saitario Nazioale (competeza del persoale, stato della struttura, orari di apertura, ecc.). Sulla base delle osservazioi raccolte possiamo trarre degli idici sitetici (meglio: u uico idice) di "gradimeto" del servizio. Il ricercatore tede duque a scoprire delle dimesioi sottese (emergerà ache il cocetto di lateti ) atte a dar ragioe di u feomeo collettivo altrimeti difficilmete decifrabile. Ma, partiamo dall iizio. Già verso la fie dell 800 ci si poevao domade sulla possibilità di esprimere i forma sitetica isiemi di variabili tra loro correlate, magari proprio riducedo il umero delle variabili stesse. Le prime soluzioi soo state proposte da Galto el 889 e da Edgeworth el 89 lavorado su misure atropometriche. Tali studiosi cercaroo di ricombiare tali misure idividuado strutture lieari idipedeti che potevao essere iterpretate come idici atropometrici o correlati.

A. Lubisco 3 All iizio del 900 ache Karl Pearso determiò ua soluzioe simile, ache se stava lavorado su u obiettivo differete. Il suo approccio era di tipo geometrico e itedeva determiare rette e piai che potessero approssimare u isieme di puti i uo spazio p- dimesioale. I realtà, la formulazioe più ota è attualmete quella proposta da Hotellig el 933 e si basa sull ipotesi che i valori di u isieme di p variabili origiarie siao determiati da u più ristretto isieme di variabili tra loro idipedeti. Tali variabili vegoo determiate come combiazioe lieare delle variabili origiarie i modo tale da massimizzare il loro successivo cotributo alla variaza totale dell isieme. Date P variabili X osservate, tali combiazioi lieari soo del tipo Y a X + a X + + a i X i + + a p X p Y k a k X + a k X + + a ki X i + + a kp X p Y p a p X + a p X + + a pi X i + + a pp X p e vegoo dette compoeti pricipali. Devoo soddisfare i segueti requisiti: - o devoo essere correlate, cioè Cov(Y k,y k ) 0 k k - devoo essere ordiate i relazioe alla quatità di variabilità complessiva che ciascua di esse può sitetizzare, cioè i relazioe a quato è l apporto di ciascua compoete alla variabilità complessiva. Tale requisito può essere idicato co V(Y ) V(Y ) V(Y i ) V(Y p ) sempre teedo coto del fatto che la variabilità complessiva dei due diversi sistemi di riferimeto deve coicidere, cioè:

4 Aalisi statistica multivariata p k V ( ) Y k p V( X i ) i Le compoeti pricipali così determiate, come già acceato iizialmete, o corrispodoo a caratteristiche direttamete osservabili, e vao di volta i volta iterpretate. Ioltre, dal mometo che le variabili X i soo tra loro correlate, il sistema sarà i qualche misura ridodate. Per questo motivo, scegliedole opportuamete, o sarà ecessario utilizzare tutte le compoeti pricipali per riassumere i modo adeguato i dati, ma sarà sufficiete cosiderare le prime m, co m iferiore a p, qualora queste foriscao u adeguato coteuto iformativo.

A. Lubisco 5 UN INTERPRETAZIONE GEOMETRICA Facciamo u piccolo esempio. Si suppoga di disporre di ua -pla di idividui e di aver rilevato su di essi due variabili: peso e altezza. X Altezza X Peso 65 59 68 77 7 65 9 85 70 58 59 55 63 60 80 90 75 78 Qual è la prima cosa può veire i mete di fare dispoedo di dati simili? A parte gli idicatori sitetici uivariati, si potrebbe partire co u grafico che coseta di visualizzare etrambe le variabili

6 Aalisi statistica multivariata Quidi, come procedere? Si fa ua regressioe? Poi però bisoga stabilire quale variabile è da cosiderare dipedete e quale idipedete. Ci troveremmo perciò di frote alla determiazioe di due modelli differeti, el caso si decidesse di predere come predittiva ua variabile piuttosto che l altra. E se, ivece, semplicemete si facesse ua rotazioe degli assi passado dal sistema X, X a u uovo sistema che chiamiamo Y, Y? I questa maiera, la forma della ube di puti resta immutata, metre cambiao le coordiate dei puti. Ciò che può accadere è che, se letti rispetto al uovo sistema di riferimeto, i puti cosetao di trarre maggiori iformazioi (o semplicemete iformazioi più chiare) rispetto al vecchio sistema. Nel caso di peso e altezza, se facciamo riferimeto alle uove coordiate troveremo che gli idividui che si trovao sull estremità destra dell asse OY sarao soggetti co peso e statura elevati, metre quelli che si trovao dalla parte opposta soo idividui di basso peso e bassa statura. Come si potrebbe iterpretare quidi tale uova dimesioe? La posizioe di u idividuo lugo l asse OY dà idicazioi sulla sua taglia.

A. Lubisco 7 Facciamo ora riferimeto all altro uovo asse: i puti i alto a siistra lugo questo asse rappresetao idividui di peso elevato, ma bassa statura. Aalogamete, idividui lugo la parte iferiore dell asse soo alti ma di peso basso. La posizioe lugo l asse OY che idicazioi ci dà? Ciò che si ottiee è u idicazioe di forma. Se x e x rappresetao altezza e peso di u idividuo del collettivo preso i esame, chiameremo y e y le coordiate di quell idividuo el uovo sistema basato sugli assi OY e OY. Dal mometo che il uovo sistema di assi è stato otteuto co ua semplice rotazioe rispetto all origie, la relazioe tra i due sistemi di riferimeto può essere espressa ella forma: y x cos α + x se α y -x se α + x cos α dove α è l agolo tra OX e OY (ossia tra OX e OY ). Ne cosegue che la taglia è ua combiazioe lieare di peso e altezza (cioè y a x + a x dove a e a hao etrambi lo stesso sego), metre la forma è u cotrasto lieare tra statura e peso (cioè y b x + b x dove b e b soo di sego opposto). I questo modo abbiamo solamete compiuto ua rilettura del collettivo rispetto a due uovi idicatori che o abbiamo osservato direttamete, ma che abbiamo i qualche modo iterpretato dalla relazioe esistete co le variabili osservate. Fiora o c è stata alcua sitesi e il sistema cotiua a essere a due dimesioi. Proviamo ora a predere i cosiderazioe u secodo collettivo di soggetti, sul quale soo sempre stati rilevati altezza e peso. E facciamo sempre riferimeto al uovo sistema di assi idividuato precedetemete dove OY idica la taglia e OY la forma.

8 Aalisi statistica multivariata Che tipo di cosiderazioi possiamo fare osservado ua uvola di puti del geere? La dispersioe dei puti lugo l asse OY è molto elevata, ma quella lugo l asse OY è ivece piuttosto ridotta. Cosa sigifica ciò? Sigifica che gli idividui di questo collettivo hao taglie molto differeti, ma forme molto simili. Le variabili X e X (altezza e peso) dao luogo a ua distribuzioe bivariata. Ache le variabili Y e Y (taglia e forma) dao luogo a ua distribuzioe bivariata. Se cosideriamo le due distribuzioi poste su piai diversi, è facile osservare che esiste ua corrispodeza biuivoca tra le due distribuzioi, sicché ciascu puto del piao OX OX si coette a u corrispodete puto del piao OY OY. X e X soo però variabili correlate e così, visto che el ostro caso le due variabili soo correlate positivamete, a valori elevati di X tedoo a corrispodere valori elevati di X e, viceversa, a valori bassi di X tedoo a corrispodere valori bassi di X. Dato che ivece Y e Y soo variabili icorrelate, scelto u valore elevato di Y (taglia) o ci si attede che a esso si associ, i media, u valore elevato di Y (forma), e viceversa.

A. Lubisco 9 La stessa popolazioe può essere aalizzata sulla base di due distite distribuzioi bivariate: la prima è basata sulla classificazioe per aspetti distiti e correlati (altezza e peso), metre la secoda è basata su aspetti astratti e o correlati. Y e Y assumoo sigificati da precisare di volta i volta; el caso i esame, assumoo il sigificato di taglia e forma. Y e Y tedoo quidi a discrimiare le uità statistiche i modo differete. Metre però Y tede a discrimiare cospicuamete i vari soggetti i ragioe della sua elevata variaza, ciò o avviee co Y. Queste cosiderazioi portao a riteere che, se oi impiegassimo solo la dimesioe Y per rappresetare i dati, cioè utilizzassimo la rappresetazioe uidimesioale otteuta proiettado i puti sull asse OY, tale rappresetazioe sarebbe ua buoa approssimazioe della uvola di puti bidimesioale. I altre parole, le differeze tra gli soggetti di questo secodo campioe, vegoo espresse i maiera sufficietemete accurata ache se, ivece di idicare per ciascuo di essi sia la statura x che il peso x, si cosidera l idicatore taglia y x cosα + x seα. Sostituedo alle variabili origiarie X e X la uova variabile Y, si ottiee ua riduzioe di dimesioi da a, dal mometo che i dati ora possoo essere rappresetati graficamete solo i fuzioe dei valori di Y. A secoda dei valori di α che si sceglierao, cioè i base alla rotazioe di assi che si sceglierà, si otterrao differeti variabili Y e coseguetemete si otterrao differeti rappresetazioi grafiche uidimesioali. Fra tutte queste rappresetazioi e esisterà ua che potrà essere cosiderata la migliore approssimazioe (perché, avedo ridotto il sistema da due a ua dimesioe, parliamo apputo di approssimazioe) della relazioe che esiste tra gli puti ello spazio bidimesioale. Teiamo presete che siamo i ua situazioe ella quale stiamo cercado di valutare quale trasformazioe, da uo spazio bidimesioale a uo uidimesioale, sia migliore. Passado da uo spazio bidimesioale a uo uidimesioale, sostazialmete facciamo ua proiezioe dei puti sul uovo asse che abbiamo idividuato.

0 Aalisi statistica multivariata La trasformazioe migliore (el ostro caso, rotazioe) deriverà da quel valore di α che rede miimo lo spostameto dei puti dalla posizioe origiale el processo di proiezioe. Dal mometo che le coordiate dei puti rispetto a Y soo le loro proiezioi ortogoali sull asse OY, la soluzioe sarà data dalla retta la cui distaza dai puti è miima. Idichiamo co P j u puto geerico e co P j la sua proiezioe ortogoale sull asse OY. La retta migliore sarà quella che rede miima la somma: ' ( P ) j jp j (si oti la differeza tra questa codizioe e i miimi quadrati) Applicado il teorema di Pitagora al triagolo OP j P j si ottiee: (OP j ) (OP j ) + (P j P j ) da cui, sommado per tutti gli puti, cosegue j ' ' ( OP ) ( OP ) + ( P P ) j j j j j j

A. Lubisco Dividedo etrambi i membri per - si ottiee ifie: ' ' ( OP ) ( OP ) + ( P P ) j j j j Il primo membro della precedete uguagliaza è costate per ogi dato campioe e idipedete dal sistema di riferimeto (ifatti, o compaioo le coordiate P j che soo quelle del uovo sistema di riferimeto). Scegliere l asse OY i modo da miimizzare ' ( P j P j ) j sarà quidi equivalete a scegliere OY così da massimizzare la quatità ' ( OP j ) j. Poiché O è il baricetro della ube di puti (perché abbiamo cosiderato variabili scarto dalla media) la quatità ' ( OP j ) j è semplicemete la variaza delle proiezioi delle uità campioarie sull asse OY. Trovare l asse OY che reda miima la somma dei quadrati delle distaze (perpedicolari) da essa è quidi equivalete a trovare la retta OY tale che le proiezioi su di essa abbiao massima variaza. E su questa costatazioe che si basa la determiazioe delle compoeti pricipali ella formulazioe forita da Hotellig. j j j

Aalisi statistica multivariata SVILUPPI FORMALI Proviamo ora a estedere quato sopra descritto i u cotesto bidimesioale a ua situazioe multivariata. Si preda i cosiderazioe ua -pla di soggetti sui quali siao state osservate p variabili. La matrice dei dati avrà dimesioi (xp) e gli puti potrao essere rappresetati i uo spazio a p dimesioi. Così come ell esempio precedete i due assi OX e OX rappresetavao altezza e peso, ello spazio p-dimesioale che stiamo ora cosiderado, ciascu asse idetifica ua delle p variabili osservate. Aalogamete a quato fatto precedetemete, si defiisca ua retta OY di questo spazio tale che la dispersioe delle proiezioi dei puti su di essa sia massima. Questo equivale alla costruzioe di ua variabile del tipo Y a X + a X + + a p X p co coefficieti a i che soddisfao il vicolo p i a i (perché basta u vettore a orma uitaria per idetificare ua retta i uo spazio) e determiata, ioltre, dalla codizioe che la sua variaza sia massima. Ua volta idividuata OY, si cosidera il sottospazio di dimesioi (p-) ortogoale a OY e, come abbiamo fatto per OY, si cerca la retta OY di questo sottospazio co massima dispersioe delle proiezioi dei puti lugo di essa. Tale retta dovrà soddisfare ach essa la codizioe p i i a. Fio a quado può proseguire questo processo? Il processo può cotiuare fio a quado o si siao otteute p rette OY k (k,, p) fra loro ortogoali.

A. Lubisco 3 Ciascua di queste rette defiisce ua variabile Y k a k X + a k X + + a kp X p i cui le costati a ki soo determiate dalla codizioe che la variaza di Y k sia massima sotto il vicolo di ortogoalità co ciascua altra variabile Y k dove (k < k), e sotto il vicolo p i ki a per ogi k. Prima di procedere a ua ulteriore formalizzazioe del processo che porta a determiare le compoeti pricipali, facciamo u richiamo ad alcui elemeti di geometria delle matrici. Matrici ortoormali e ortogoali Ua matrice ortoormale è ua matrice quadrata co le segueti proprietà: ) A ±, dove A è il determiate di A p p ) a ij aij ( i, j) i j : la somma dei quadrati di qualuque riga o coloa è pari a p 3) aijaik 0 ( j k) i : i prodotti vettoriali di qualuque coppia di due coloe è pari a 0; ciò implica che le coordiate degli assi, che queste coloe rappresetao, si itersecao co u agolo di 90. Questo sigifica che se la matrice A è ortoormale, valgoo le segueti uguagliaze: AA I A - A dove A - è l iversa di A. Ua matrice che soddisfi la codizioe 3, ma o le codizioi e si dice ortogoale. Determiate di ua matrice Il determiate A di ua matrice quadrata mxm A, è u sigolo

4 Aalisi statistica multivariata valore associato alla matrice quadrata stessa e i molti casi è i relazioe a ua misura di volume. Per matrici x il determiate può essere calcolato agilmete co il metodo dell icrocio. Dispoedo della seguete matrice x A a a a a Allora il determiate di A sarà dato da A a a a a Esiste u metodo aalogo ache per ua matrice 3x3. Se ua qualuque coppia di righe o coloe della matrice quadrata soo dipedeti, cioè soo ua combiazioe lieare dell altra, allora il determiate della matrice è pari a zero. Co il determiate si determia il rago della matrice. Se il rago è diverso da zero, allora la matrice si dice o-sigolare. Il metodo delle compoeti pricipali è basato sull algebra delle matrici: ua matrice pxp simmetrica e o-sigolare, come potrebbe essere la matrice di covariaza S, può essere ridotta a ua matrice diagoale L premoltiplicado e postmoltiplicado tale matrice co ua particolare matrice ortoormale A tale che A SA L Gli elemeti della diagoale di L, l, l,, l p soo chiamati radici caratteristiche, radici lateti o autovalori di S. Le coloe di A soo i vettori caratteristici o autovettori. Gli autovalori possoo essere otteuti dalla soluzioe dalla seguete equazioe, chiamata equazioe caratteristica: S li 0 dove I è la matrice idetità. L equazioe forisce u poliomio di grado p dal quale vegoo determiati i valori l, l,, l p. DETERMINAZIONE DELLE COMPONENTI PRINCIPALI Premesso ciò, si suppoga quidi di avere u vettore di variabili

A. Lubisco 5 X (X, X,, X p ) di dimesioi (xp) osservato su idividui. Ciò geera, come è oto, ua matrice di dati di dimesioe (xp) il cui geerico elemeto è x ij. I valori relativi al j-esimo idividuo soo coteuti el vettore x j composto da p elemeti. Il vettore x ' ( x, x,, x p) cotiee i valori medi delle p variabili. E oto altresì che la variaza della i-esima variabile è data da: s ii (siamo i u cotesto campioario) ( xij xi ) j metre la covariaza fra la i-esima e la i -esima variabile è data da s ii' ( xji xi )( xji' xi' ) j Le variaze e le covariaze possoo essere riassute ella matrice S (detta apputo matrice di variaze e covariaze) i cui elemeti vegoo idicati co s ii' ; è possibile, altresì, esprimere tale matrice el seguete modo: S j ( x j x)( x j x) ' Omettedo l idicatore k, la geerica variabile scalare Y a X + a X + + a p X p (X e Y maiuscole) otteuta come combiazioe lieare delle variabili origiarie X i, può essere scritta ella forma più compatta come Y a X dove a (a, a,, a p ). Il valore di Y per il j-esimo idividuo osservato sarà: y j a x j + a x j + + a p x jp a x j (X e Y miuscole) metre la media della variabile Y el collettivo esamiato sarà y a x + a x + + a p x p a x

6 Aalisi statistica multivariata La variaza di Y è s y ( y j y ) j Ma quato vale y j - y? Per quato sopra visto: y j - y a x j - a x a (x j - x ) o, essedo il trasposto di uo scalare uguale allo scalare stesso, (y j - y ) (x j - x )a. Moltiplicado le due espressioi si ottiee che (y j - y ) a (x j - x )(x j - x )a e quidi, sommado rispetto all idice j e dividedo per (-) si ha: s ( y y ) a ' ( x x)( x x) ' a a' Sa y j j j j j Teiamo presete questa relazioe perché sarà u puto di arrivo ei prossimi passaggi. Se ora formalizziamo quato prima era stato detto i termii geometrici, si può defiire la prima compoete pricipale come la combiazioe lieare Y a X delle variabili origiarie che dà luogo al massimo valore di a Sa sotto il vicolo a a. N.B. La quatità a Sa è ua forma quadratica defiita positiva (sigifica che tutti gli autovalori soo positivi) e perciò o ammette u massimo fiito. Per massimizzare tale quatità è ecessario imporre u vicolo sul vettore dei coefficieti. Tale vicolo (apputo a a ) cosete di otteere ua soluzioe uica costituita da u vettore ormalizzato. Si cercherà perciò di determiare il vettore a che soddisfi tale codizioe Trovare il vettore che massimizza a Sa, posto a a, equivale a trovare il vettore che rede massima la quatità a Sa - l (a a - )

A. Lubisco 7 dove l è oto come il moltiplicatore di Lagrage. Il problema viee risolto poedo a zero le derivate parziali rispetto agli elemeti di a, otteedo dopo alcui passaggi: Sa l a da cui si ricava il seguete sistema omogeeo di equazioi, la cui soluzioe è il vettore a : (S - l I)a 0 (dove I è la matrice idetità) Affiché il sistema ammetta soluzioe o baale è però ecessario che il determiate della matrice dei coefficieti sia uguale a zero: S - l I 0 Quidi l è u autovalore di S e la soluzioe a il corrispodete autovettore ormalizzato. Quati autovalori e corrispodeti autovettori ormalizzati ha la matrice S? Ne ha p. Bisoga perciò determiare quale sia quello che stiamo cercado. Premoltiplicado l uguagliaza Sa l a per a si ottiee a Sa l a a e poiché a a sarà l a Sa Quidi l è la variaza di Y che si voleva massimizzare; questo problema ha allora soluzioe se si cosidera il più elevato autovalore di S. Ne segue che i coefficieti a ella prima compoete pricipale Y a X soo gli elemeti dell autovettore di S che corrispode all autovalore maggiore. Per la secoda compoete e per le successive si fa u ragioameto aalogo; si tratta di massimizzare la variaza di ciascua compoete sotto il vicolo di orma uitaria dei vettori dei coefficieti a k a k, poedo l ulteriore codizioe di ortogoalità co le precedeti compoeti a k a k 0 (k < k)

8 Aalisi statistica multivariata Per la k-esima compoete pricipale i coefficieti a k soo gli elemeti dell autovettore che corrispode al k-esimo autovalore l k ella graduatoria decrescete degli autovalori di S. Ogi autovalore può allora essere letto come variaza della corrispodete compoete pricipale: Ioltre V(Y k ) l k Σ k l k Σ k V(Y k ) Σ k V(X i ) cioè, la somma delle variaze delle compoeti pricipali è uguale alla somma delle variaze delle variabili osservate. L importaza di ogi compoete i termii di variabilità spiegata all itero del sistema si misura co il rapporto V( Yk ) V( Y ) k lk l k Il risultato, moltiplicato per 00, idica ifatti la percetuale di variaza complessiva espressa dalla k-esima compoete.

A. Lubisco 9 CAMBIAMENTI DI SCALA Qualora le variabili differiscao per uità di misura o, pur essedo espresse ella medesima uità di misura, presetio variabilità otevolmete diversa, è opportuo determiare le compoeti pricipali o già sulle variabili origiarie, besì sulle corrispodeti variabili stadardizzate. I preseza di forti differeze fra le variaze, ifatti, le variabili co variaza maggiore tedoo a domiare le prime compoeti pricipali. Cosa vuol dire questo? Vuol dire che elle prime compoeti pricipali, i coefficieti relativi alle variabili X osservate co maggiore variaza sarao molto più elevati di quelli relativi alle altre variabili osservate. I tal caso si opererà sulla matrice di correlazioe R piuttosto che sulla matrice di variaze covariaze S. I risultati che si ottegoo determiado autovalori e autovettori dell ua o dell altra matrice soo sesibilmete diversi e o esiste alcua relazioe che leghi gli ui agli altri. La scelta di operare sui dati stadardizzati aziché sui dati grezzi va perciò attetamete poderata, come pure va fatta co attezioe la scelta delle uità di misura rispetto a cui vegoo espressi i caratteri osservati. Ifatti, le compoeti pricipali o soo isesibili a cambiameti di scala. A tal proposito, valga il seguete esempio. Si suppoga che siao state rilevate due sole variabili X e X e che X possa essere e- spressa sia i cl (cetilitri) che i ml (millilitri). Nei due casi le matrici di variaza e covariaza potrebbero essere, ad esempio: S 90 50 50 90 e S 9000 500 500 90 Procediamo al calcolo degli autovalori della matrice S : Bisoga imporre che il determiate S - ΛI 0, quidi:

0 Aalisi statistica multivariata 90 50 50 90 50 0 Λ ( I) 0 cioè Λ 0 90 50 90 0 90 50 50 Λ 90 0 0 Λ 0 90 Λ 50 50 90 Λ 0 ( 90 Λ ) 50 0 800 80Λ + Λ 0 Risolvedo l equazioe di grado i Λ si ottegoo le due soluzioi Λ 40 e Λ 40 (la cui somma è 80, pari apputo alla somma dei valori sulla diagoale di S ). Prededo i cosiderazioe l autovalore più elevato e idicadolo co l, ora bisoga risolvere il sistema omogeeo (S - l I)a 0 90 l 50 50 90 l a a 0 0 90 40 50 50 a 90 40 a 0 0 50 50 50 a 50 a 0 0 che si traduce el seguete sistema: 50a + 50a 0 50a 50a 0 Affiché tale sistema abbia soluzioe o baale, bisoga imporre che l autovettore (costituito da a e a ) sia ormalizzato, cioè che: a + a I questo modo il sistema diveta:

A. Lubisco 50a 50a a + 50a 50a + a 0 0 Risolvedo, si ottegoo le segueti soluzioi: a a La prima compoete pricipale di S è quidi Y a X + a X cioè Y 0,707X + 0,707X e l autovalore a essa associata, cioè la sua variaza è 40 (cioè il valore l precedetemete calcolato. Quata parte della variaza complessiva spiega tale compoete? Tale compoete spiega il 77,78% della variabilità complessiva. Il calcolo avviee facedo (40/(90+90))*00. Co aaloghi calcoli si determia che la prima compoete pricipale di S è ivece Y 0,998X + 0,055X e la sua variaza è 907,97, cioè il 99,3% della variabilità complessiva del sistema. Il calcolo avviee facedo (907,97/(9000+90))*00. U semplice cambiameto di uità di misura ha quidi l effetto di trasformare ua compoete pricipale che dà ugual peso a X e X i ua compoete domiata completamete da i ua compoete domiata completamete da X. Geeralizzado quato appea mostrato al caso di p> si avrà che, i preseza di forte eteroschedasticità, le compoeti pricipali soo pressoché equivaleti alle variabili origiarie disposte i ordie di variaza decrescete. Ua ulteriore giustificazioe al calcolo delle compoeti pricipali sulla matrice R piuttosto che su S sta ella maggiore facilità di co-

Aalisi statistica multivariata froti co altre situazioi. I coclusioe, è però opportuo ricordare che, quado si voglia fare ifereza sulle compoeti pricipali della popolazioe a partire da quelle calcolate su u campioe, i risultati valgoo solo se le compoeti pricipali soo calcolate a partire dalla matrice di variaze e covariaze. È ifie ecessario rammetare che il umero delle compoeti lieari che risultao dalla soluzioe dell equazioe caratteristica dipede dal rago della matrice di variaza-covariaza. Se la matrice è a pieo rago, si possoo determiare fio a p compoeti pricipali ordiate secodo l ammotare del loro cotributo alla variabilità complessiva. Nella pratica, si è soliti cosiderare solo le m compoeti che spiegao ua frazioe sufficiete di variabilità, riteedo le restati p m compoeti praticamete irrilevati per la descrizioe del feomeo. LA SCELTA DEL NUMERO DI COMPONENTI La percetuale di variaza spiegata Il criterio più immediato per la scelta del umero m di compoeti rispetto a cui rappresetare il feomeo presuppoe che vega prefissatala proporzioe della variabilità complessiva che si desidera tali compoeti spieghio, ad esempio il 70/80%; m sarà perciò il umero più piccolo di compoeti per le quali tale percetuale è superata. I software che calcolao le compoeti pricipali foriscoo tale idicazioe e quidi, se lo si decide, si può traquillamete utilizzare questa strategia. Regola di Kaiser U altro criterio, oto ache co il ome di regola di Kaiser, utile quado si estraggoo le compoeti dalla matrice di correlazioe, suggerisce di tratteere solo le compoeti corrispodeti ad autovalori maggiori o uguali all uità. L idea sottostate questo criterio è che se le variabili X i, i,, p, fossero idipedeti e stadardizzate, le compoeti coiciderebbero co tali variabili e avrebbero variaza uitaria; quidi ogi compoete co variaza iferiore a cotiee meo iformazioi di ua qualsiasi delle variabili origiarie.

A. Lubisco 3 Alcui autori ritegoo che questo criterio sottostimi il umero di compoeti ecessario per ua adeguata rappresetazioe della variabilità del feomeo osservato e propogoo di abbassare la soglia a 0,7 così da teer coto della variabilità campioaria. Qualora l aalisi sia svolta sulla matrice di variaza-covariaza la media degli autovalori l p k lk p può essere utilizzata come valore critico; solo le compoeti co variaza maggiore di l verrao tratteute. Scree diagram Acora, ella scelta di m (il umero di compoeti sufficieti a riprodurre co buoa approssimazioe i dati di parteza) ci si può servire del grafico degli autovalori rispetto al loro ordie di estrazioe (oto come scree diagram o scree plot) e scegliere quel umero m di compoeti i corrispodeza del quale il grafico preseta u gomito.