Tecniche di analisi multivariata Metodi che fanno riferimento ad un modello distributivo assunto per le osservazioni e alla base degli sviluppi inferenziali - tecniche collegate allo studio della dipendenza (modello lineare generale, modelli lineari generalizzati), approccio confermativo (logica del giustificare). Applicazioni prevalentemente nell ambito delle scienze sperimentali. Metodologie giustificate prevalentemente da argomenti logicointuitivi - metodi di analisi dei dati, metodi esplorativi, statistica descrittiva multidimensionale, procedure di analisi euristiche, di carattere intuitivo-analogico (logica del trovare). Applicazioni prevalentemente in ambito socio-economico. A. Pollice - Statistica Multivariata
Analisi discriminante Insieme di metodologie che permettono di assegnare una generica osservazione x ad una delle p sottopopolazioni X 1,..., X p in cui è suddiviso un universo campionario k-dimensionale X R. A. Fisher (1936): attribuizione di alcuni reperti fossili alla categoria dei primati o a quella degli umanoidi in base a diverse misurazioni effettuate sugli stessi
Funzione discriminante lineare di Fisher L obiettivo è quello di individuare la sottopopolazione di appartenenza di un osservazione multidimensionale x in base alla conoscenza campionaria del comportamento delle p sottopopolazioni X 1,..., X p sulle quali non viene effettuata alcuna assunzione distributiva A tal fine si dispone di n osservazioni k-dimensionali già correttamente classificate nelle p sottopopolazioni, ovvero di p campioni X 1,..., X p di numerosità n j da ciascuna sottopopolazione X j con j = 1,..., p
L assegnazione dell osservazione x viene effettuata tramite una combinazione lineare W = a X delle k componenti della variabile X rilevata Il vettore k-dimensionale di costanti a deve essere tale da massimizzare la separazione (o discriminazione) tra i p campioni in modo da rendere meno ambigua la classificazione dell osservazione w = a x Ciò corrisponde a rendere massima la differenza tra le medie di W nei p campioni
matrice n j k del j-esimo campione X j = x 11j. x 1kj. x nj 1j x nj kj = [x ihj ] j-esimo vettore k-dimensionale delle medie campionarie X j = 1 n j X j u n j = ( X 1j,..., X kj ) j-esima matrice k k delle varianze e covarianze campionarie S j = 1 n j (X j u nj X j ) (X j u nj X j ) = [S hlj]
matrice n k di tutte le osservazioni disponibili X = (X 1,..., X p) vettore k-dimensionale delle medie campionarie complessive X = 1 n X u n = ( X 1,..., X k ) matrice k k delle varianze e covarianze campionarie complessive S = 1 n (X u n X ) (X u n X ) = [S hl ]
vettore n-dimensionale di tutte le osservazioni disponibili trasformate W = Xa media di tutte le osservazioni disponibili trasformate W = a X varianza di tutte le osservazioni disponibili trasformate S 2 W = a Sa
scomposizione della matrice di varianze e covarianze campionarie S S = S (w) + S (b) S (w) = p n j j=1 n S j matrice di varianze e covarianze all interno dei p campioni (within) S (b) matrice di varianze e covarianze tra i p campioni (between) scomposizione della varianza campionaria di W S 2 W = a Sa = a S (w) a + a S (b) a
Per definire W bisogna individuare il vettore a che massimizza le differenze tra le medie campionare W 1,..., W p, ovvero la varianza between di W a S (b) a Vincolo sulla dimensione di a dato dall espressione a Sa = 1, che corrisponde a pretendere che W abbia varianza unitaria. Problema di massimo vincolato: { maxa a S (b) a a Sa = 1 Funzione lagrangiana (a, λ) = a S (b) a λ(a Sa 1)
Sistema per la soluzione del problema di massimo vincolato (a,λ) a = 2S (b) a 2λSa = o (a,λ) λ = a Sa 1 = 0 = { λ = a S (b) a a Sa = 1 S 1 S (b) a = λa implica che λ è uno degli autovalori di S 1 S (b) ed a è l autovettore ad esso associato affinché sia λ = a S (b) a = max, bisogna scegliere il massimo tra gli autovalori
Sia a 1 l autovettore associato al maggiore degli autovalori λ 1 prima funzione discriminante lineare: combinazione lineare delle componenti della variabile k-dimensionale di partenza che separa maggiormente i p campioni W (1) = a (1) X l autovalore λ 1, equivalente alla varianza between della variable W (1), è detto potere discriminante di W (1) e ne misura la capacità di separare le medie dei p campioni
La seconda funzione discriminante lineare W (2) deve soddisfare la condizione di massimo e il vincolo precedenti, e deve essere incorrelata con W (1) W (2) = a (2) X il vettore a (2) è dato dalla soluzione del sistema max a(2) a (2) S (b) a (2) a (2) Sa (2) = 1 a (1) Sa (2) = 0 funzione lagrangiana (a (2), µ 1, µ 2 ) = a (2) S (b) a (2) µ 1(a (2) Sa (2) 1) 2µ 2a (1) Sa (2)
sistema per la soluzione del problema di massimo vincolato (a (2),µ 1,µ 2 ) a (2) = 2S (b) a (2) 2µ 1 Sa (2) 2µ 2 Sa (1) = o (a,µ 1,µ 2 ) µ 1 = a (2) Sa (2) 1 = 0 (a,µ 1,µ 2 ) µ 2 = a (1) Sa (2) = 0 dopo qualche passaggio algebrico la prima equazione del sistema diventa S 1 S (b) a (2) = µ 1 a (2) µ 1 = λ 2 è il secondo maggiore autovalore della matrice S 1 S (b) ed a (2) è l autovettore corrispondente e tale che a (2) Sa (2) = 1
tante funzioni discriminanti lineari quanti sono gli autovalori non nulli della matrice S 1 S (b) (numero pari al rango della matrice g = r(s 1 S (b) )) in genere si considera un numero t < g di funzioni discriminanti misura del potere discriminante complessivo delle prime t funzioni discriminanti tq=1 λ tq=1 q λ q g q=1 λ = q tr(s 1 S (b) )
Se si considerano t funzioni discriminanti lineari, l osservazione x è assegnata alla sottopopolazione j -esima tale che, calcolato per q = 1,..., t, si abbia t q=1 w (q) W (q),j = min j t q=1 w (q) W (q),j dove w (q) = a x è il valore dell osservazione non classificata (q) x corrispondente alla q-esima funzione discriminante e W (q),j è la media di W (q) nel j-esimo campione L output di un analisi discriminante deve includere il rango del modello discriminante (t), la posizione di ciascuna sua dimensione rispetto al riferimento originario (i vettori a (q) ), la posizione dei p campioni di osservazioni nel sottospazio delle variabili discriminanti (le medie W (q),j )
Funzioni discriminanti di massima verosimiglianza - sottopopolazioni normali con parametri noti La j-esima sottopopolazione abbia una certa distribuzione k-dimensionale p j (x) nota nella forma e nei parametri per j = 1,..., p L osservazione x è classificata nel gruppo per il quale la verosimiglianza è massima p j (x) p j (x) j j r = 1,..., p implica che x sia classificata nella j -esima sottopopolazione
Assunzione distributiva di normalità delle sottopopolazioni p j (x) = N k (µ j, Σ j ) si assume che µ j e Σ j siano noti Funzione discriminante quadratica: l osservazione x è assegnata alla j -esima sottopopolazione se vale τ j 1 2 (x µ j ) Σ 1 j (x µ j ) = max τ j 1 j 2 (x µ j) Σ 1 j (x µ j ) con τ j = 1 2 ln Σ j
Funzione discriminante lineare: se si può assumere Σ 1 = = Σ p = Σ, la funzione discriminante quadratica diventa con α j = 1 2 µ j Σ 1 µ j α j + x Σ 1 µ j = max j α j + x Σ 1 µ j
Funzioni discriminanti di massima verosimiglianza - sottopopolazioni normali con parametri incogniti Se i parametri delle delle sottopopolazioni µ 1,..., µ p e Σ sono incogniti bisogna stimarli tramite la matrice X = (X 1,..., X p) si calcolano le medie X j campionarie e la matrice di varianze e covarianze within del campione S (w) la funzione discriminante lineare diventa 1 2 ( X j ) S 1 (w) X j + x S 1 (w) X j = max 1 j 2 X j S 1 (w) X j + x S 1 (w) X j
Analisi discriminante bayesiana Alle sottopopolazioni sono assegnate delle probabilità di appartenenza a priori π j = Pr(x X j ) per j = 1,..., p il teorema di Bayes permette di calcolare le probabilità a posteriori che aggiornano le probabilità a priori tramite le osservazioni campionarie Pr(x X j x) = Pr(x X j) Pr(x x X j ) Pr(x) = π jp j (x) p j=1 π jp j (x) essendo p 1,..., p p le distribuzioni completamente specificate del carattere X nelle p sottopopolazioni
l osservazione x viene attribuita alla sottopopolazione j che ha la massima probabilità a posteriori di averla generata p(x j x) = max j p(x j x)
Minimizzazione del costo atteso di errata classificazione p = 2 sottopopolazioni k-dimensionali X 1 e X 2 con distribuzioni p 1 e p 2 Ω = Ω 1 Ω 2 spazio campionario k-dimensionale dei possibili valori di x x Ω 1 x viene assegnata alla prima sottopopolazione x Ω 2 x viene assegnata alla seconda sottopopolazione
probabilità a priori delle due sottopopolazioni: π 1 = Pr(x X 1 ), π 2 = Pr(x X 2 ) probabilità complessiva di una classificazione errata Pr[(x Ω 1 ) (x X 2 )] + Pr[(x Ω 2 ) (x X 1 )] = = Pr(x X 2 ) Pr[x Ω 1 x X 2 ]+Pr(x X 1 ) Pr[x Ω 2 x X 1 ] = = = π 1 + Ω 1 π 2 p 2 (x) π 1 p 1 (x)dx
la probabilità di classificazione errata è minima quando Ω 1 contiene elementi tali che π 2 p 2 (x) π 1 p 1 (x) < 0 = p 1(x) p 2 (x) > π 2 π 1 regola di classificazione: p 1 (x) p 2 (x) > π 2 π 1 x X 1 p 1 (x) p 2 (x) < π 2 π 1 x X 2
c(1 2) e c(2 1) perdite che si determinano assegnando erroneamente l osservazione x alla sottopopolazione X 1 e alla sottopopolazione X 2 perdita attesa complessiva: c(1 2) Pr[(x Ω 1 ) (x X 2 )]+c(2 1) Pr[(x Ω 2 ) (x X 1 )] = = = c(2 1)π 1 + Ω 1 c(1 2)π 2 p 2 (x) c(2 1)π 1 p 1 (x)dx
la perdita attesa complessiva risulta minima quando Ω 1 contiene elementi tali che c(1 2)π 2 p 2 (x) c(2 1)π 1 p 1 (x) < 0 = p 1(x) p 2 (x) > c(1 2)π 2 c(2 1)π 1 regola di classificazione: p 1 (x) p 2 (x) > c(1 2)π 2 c(2 1)π 1 x X 1 p 1 (x) p 2 (x) < c(1 2)π 2 c(2 1)π 1 x X 2
Stima della probabilità di errata classificazione (due gruppi) Metodo parametrico: forma distributiva nota delle due sottopopolazioni, parametri θ 1 e θ 2 stimati. Probabilità complessiva di errata classificazione: π 2 Ω 1 p 2 (x ˆθ 2 )dx + π 1 Ω 2 p 1 (x ˆθ 1 )dx Metodi non parametrici Tassi di errore apparenti: le osservazioni dei due campioni estratti da ciascuna delle sottopopolazioni sono riclassificate tramite la regola di decisione prescelta. Il tasso di errore è ottenuto calcolando la frazione di osservazioni classificate erroneamente
Cross-validation (sample splitting): ciascun campione viene suddiviso in due parti di cui una viene utilizzata per definire la regola di classificazione e l altra per valutarla, calcolando la proporzione degli individui classificati in modo sbagliato Cross-validation (leave one out): si prendono in considerazione n 1 1 osservazioni del primo campione e tutte le n 2 osservazioni del secondo per determinare la regola discriminante. In base ad essa si classifica l osservazione esclusa dal primo campione. Il procedimento esposto viene ripetuto escludendo volta per volta ciascuna osservazione del primo e successivamente ciascuna osservazione del secondo campione