Tecniche di analisi multivariata

Documenti analoghi

Analisi discriminante

Istituzioni di Statistica e Statistica Economica

1. Distribuzioni campionarie

Temi di Esame a.a Statistica - CLEF

E naturale chiedersi alcune cose sulla media campionaria x n

Capitolo 4: Ottimizzazione non lineare non vincolata parte II. E. Amaldi DEIB, Politecnico di Milano

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

STATISTICA ESERCITAZIONE 11 Dott. Giuseppe Pandolfo 3 febbraio Modelli continui di probabilità: la v.c. uniforme continua

1. Sia dato un poliedro. Dire quali delle seguenti affermazioni sono corrette.

Esercizio 1. Proprietà desiderabili degli stimatori (piccoli campioni)

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità C

Correzione dell Esame di Statistica Descrittiva (Mod. B) 1 Appello - 28 Marzo 2007 Facoltà di Astronomia

Elementi di Psicometria con Laboratorio di SPSS 1

Il modello media-varianza con N titoli rischiosi. Una derivazione formale. Enrico Saltari

15 febbraio Soluzione esame di geometria - 12 crediti Ingegneria gestionale - a.a COGNOME... NOME... N. MATRICOLA...

Ottimizzazione Multi Obiettivo

Relazioni tra variabili

Esercitazioni di Calcolo Numerico 23-30/03/2009, Laboratorio 2

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

Inferenza statistica. Statistica medica 1

min 4x 1 +x 2 +x 3 2x 1 +x 2 +2x 3 = 4 3x 1 +3x 2 +x 3 = 3 x 1 +x 2 3x 3 = 5 Innanzitutto scriviamo il problema in forma standard: x 1 x 2 +3x 3 = 5

Esercitazione n.2 Inferenza su medie

Autovalori e Autovettori

Computational Game Theory

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr.

Lezione n. 2 (a cura di Chiara Rossi)

SVM. Veronica Piccialli. Roma 11 gennaio Università degli Studi di Roma Tor Vergata 1 / 14

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

Esempio. Approssimazione con il criterio dei minimi quadrati. Esempio. Esempio. Risultati sperimentali. Interpolazione con spline cubica.

Un modello matematico di investimento ottimale

Ricerca Operativa A.A. 2007/ Dualità in Programmazione Lineare

PROBABILITA CONDIZIONALE

La Programmazione Lineare

Parte 6. Applicazioni lineari

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

Probabilità e Statistica ESERCIZI. EsercizioA3 Data la variabile aleatoria normale standard Z, si calcoli la probabilità

1. la probabilità che siano tutte state uccise con pistole; 2. la probabilità che nessuna sia stata uccisa con pistole;

VARIABILI ALEATORIE MULTIPLE E TEOREMI ASSOCIATI. Dopo aver trattato delle distribuzioni di probabilità di una variabile aleatoria, che

FOGLIO 6 - Esercizi Riepilogativi Svolti. Nei seguenti esercizi, si consideri fissato una volta per tutte un riferimento proiettivo per

Massimi e minimi vincolati

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

Probabilità Calcolo combinatorio, probabilità elementare, probabilità condizionata, indipendenza, th delle probabilità totali, legge di Bayes

11. Analisi statistica degli eventi idrologici estremi

Principi di analisi causale Lezione 2

Statistical Process Control

T DI STUDENT Quando si vogliono confrontare solo due medie, si può utilizzare il test t di Student La formula per calcolare il t è la seguente:

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

ESAME DI STATISTICA Nome: Cognome: Matricola:

Ricerca Operativa e Logistica

Metodi Computazionali

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

ESERCITAZIONE novembre 2012

Sistemi Informativi Territoriali. Map Algebra

1 Applicazioni Lineari tra Spazi Vettoriali

Ricerca Operativa Esercizi sul metodo del simplesso. Luigi De Giovanni, Laura Brentegani

EQUAZIONI DIFFERENZIALI Esercizi svolti. y = xy. y(2) = 1.

Inferenza statistica I Alcuni esercizi. Stefano Tonellato

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

ANALISI DEL CONDIZIONAMENTO DI UN SISTEMA LINEARE

RETTE, PIANI, SFERE, CIRCONFERENZE

STATISTICA INFERENZIALE

VC-dimension: Esempio

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

La teoria dell utilità attesa

Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete Neuronale

Analisi dei gruppi (Cluster analysis)

ELEMENTI DI STATISTICA

MATEMATICA FINANZIARIA A.A Prova del 4 luglio Esercizio 1 (6 punti)

LEZIONE 23. Esempio Si consideri la matrice (si veda l Esempio ) A =

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

Un applicazione della programmazione lineare ai problemi di trasporto

Corso di Psicometria Progredito

Ottimizzazione nella gestione dei progetti Capitolo 4: la gestione dei costi (Programmazione multimodale): formulazioni

ESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI. (Visione 3D)

FONDAMENTI DI PSICOMETRIA - 8 CFU

ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA

Capitolo 4 Probabilità

Economia Applicata ai sistemi produttivi Lezione II Maria Luisa Venuta 1

Teoria in sintesi 10. Attività di sportello 1, 24 - Attività di sportello 2, 24 - Verifica conclusiva, 25. Teoria in sintesi 26

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

( x) ( x) 0. Equazioni irrazionali

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

LE FUNZIONI A DUE VARIABILI

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Esercizi sulle variabili aleatorie Corso di Probabilità e Inferenza Statistica, anno , Prof. Mortera

LEZIONE n. 5 (a cura di Antonio Di Marco)

Metodi statistici per le ricerche di mercato

VERIFICA DELLE IPOTESI

Università degli Studi di Roma Tor Vergata. Corso di Laurea in Ingegneria Meccanica

STATISTICA IX lezione

Problema del trasporto

Esercitazione n.4 Inferenza su varianza

Le equazioni. Diapositive riassemblate e rielaborate da prof. Antonio Manca da materiali offerti dalla rete.

EQUAZIONI DIFFERENZIALI. 1. Trovare tutte le soluzioni delle equazioni differenziali: (a) x = x 2 log t (d) x = e t x log x (e) y = y2 5y+6

Slide Cerbara parte1 5. Le distribuzioni teoriche

Transcript:

Tecniche di analisi multivariata Metodi che fanno riferimento ad un modello distributivo assunto per le osservazioni e alla base degli sviluppi inferenziali - tecniche collegate allo studio della dipendenza (modello lineare generale, modelli lineari generalizzati), approccio confermativo (logica del giustificare). Applicazioni prevalentemente nell ambito delle scienze sperimentali. Metodologie giustificate prevalentemente da argomenti logicointuitivi - metodi di analisi dei dati, metodi esplorativi, statistica descrittiva multidimensionale, procedure di analisi euristiche, di carattere intuitivo-analogico (logica del trovare). Applicazioni prevalentemente in ambito socio-economico. A. Pollice - Statistica Multivariata

Analisi discriminante Insieme di metodologie che permettono di assegnare una generica osservazione x ad una delle p sottopopolazioni X 1,..., X p in cui è suddiviso un universo campionario k-dimensionale X R. A. Fisher (1936): attribuizione di alcuni reperti fossili alla categoria dei primati o a quella degli umanoidi in base a diverse misurazioni effettuate sugli stessi

Funzione discriminante lineare di Fisher L obiettivo è quello di individuare la sottopopolazione di appartenenza di un osservazione multidimensionale x in base alla conoscenza campionaria del comportamento delle p sottopopolazioni X 1,..., X p sulle quali non viene effettuata alcuna assunzione distributiva A tal fine si dispone di n osservazioni k-dimensionali già correttamente classificate nelle p sottopopolazioni, ovvero di p campioni X 1,..., X p di numerosità n j da ciascuna sottopopolazione X j con j = 1,..., p

L assegnazione dell osservazione x viene effettuata tramite una combinazione lineare W = a X delle k componenti della variabile X rilevata Il vettore k-dimensionale di costanti a deve essere tale da massimizzare la separazione (o discriminazione) tra i p campioni in modo da rendere meno ambigua la classificazione dell osservazione w = a x Ciò corrisponde a rendere massima la differenza tra le medie di W nei p campioni

matrice n j k del j-esimo campione X j = x 11j. x 1kj. x nj 1j x nj kj = [x ihj ] j-esimo vettore k-dimensionale delle medie campionarie X j = 1 n j X j u n j = ( X 1j,..., X kj ) j-esima matrice k k delle varianze e covarianze campionarie S j = 1 n j (X j u nj X j ) (X j u nj X j ) = [S hlj]

matrice n k di tutte le osservazioni disponibili X = (X 1,..., X p) vettore k-dimensionale delle medie campionarie complessive X = 1 n X u n = ( X 1,..., X k ) matrice k k delle varianze e covarianze campionarie complessive S = 1 n (X u n X ) (X u n X ) = [S hl ]

vettore n-dimensionale di tutte le osservazioni disponibili trasformate W = Xa media di tutte le osservazioni disponibili trasformate W = a X varianza di tutte le osservazioni disponibili trasformate S 2 W = a Sa

scomposizione della matrice di varianze e covarianze campionarie S S = S (w) + S (b) S (w) = p n j j=1 n S j matrice di varianze e covarianze all interno dei p campioni (within) S (b) matrice di varianze e covarianze tra i p campioni (between) scomposizione della varianza campionaria di W S 2 W = a Sa = a S (w) a + a S (b) a

Per definire W bisogna individuare il vettore a che massimizza le differenze tra le medie campionare W 1,..., W p, ovvero la varianza between di W a S (b) a Vincolo sulla dimensione di a dato dall espressione a Sa = 1, che corrisponde a pretendere che W abbia varianza unitaria. Problema di massimo vincolato: { maxa a S (b) a a Sa = 1 Funzione lagrangiana (a, λ) = a S (b) a λ(a Sa 1)

Sistema per la soluzione del problema di massimo vincolato (a,λ) a = 2S (b) a 2λSa = o (a,λ) λ = a Sa 1 = 0 = { λ = a S (b) a a Sa = 1 S 1 S (b) a = λa implica che λ è uno degli autovalori di S 1 S (b) ed a è l autovettore ad esso associato affinché sia λ = a S (b) a = max, bisogna scegliere il massimo tra gli autovalori

Sia a 1 l autovettore associato al maggiore degli autovalori λ 1 prima funzione discriminante lineare: combinazione lineare delle componenti della variabile k-dimensionale di partenza che separa maggiormente i p campioni W (1) = a (1) X l autovalore λ 1, equivalente alla varianza between della variable W (1), è detto potere discriminante di W (1) e ne misura la capacità di separare le medie dei p campioni

La seconda funzione discriminante lineare W (2) deve soddisfare la condizione di massimo e il vincolo precedenti, e deve essere incorrelata con W (1) W (2) = a (2) X il vettore a (2) è dato dalla soluzione del sistema max a(2) a (2) S (b) a (2) a (2) Sa (2) = 1 a (1) Sa (2) = 0 funzione lagrangiana (a (2), µ 1, µ 2 ) = a (2) S (b) a (2) µ 1(a (2) Sa (2) 1) 2µ 2a (1) Sa (2)

sistema per la soluzione del problema di massimo vincolato (a (2),µ 1,µ 2 ) a (2) = 2S (b) a (2) 2µ 1 Sa (2) 2µ 2 Sa (1) = o (a,µ 1,µ 2 ) µ 1 = a (2) Sa (2) 1 = 0 (a,µ 1,µ 2 ) µ 2 = a (1) Sa (2) = 0 dopo qualche passaggio algebrico la prima equazione del sistema diventa S 1 S (b) a (2) = µ 1 a (2) µ 1 = λ 2 è il secondo maggiore autovalore della matrice S 1 S (b) ed a (2) è l autovettore corrispondente e tale che a (2) Sa (2) = 1

tante funzioni discriminanti lineari quanti sono gli autovalori non nulli della matrice S 1 S (b) (numero pari al rango della matrice g = r(s 1 S (b) )) in genere si considera un numero t < g di funzioni discriminanti misura del potere discriminante complessivo delle prime t funzioni discriminanti tq=1 λ tq=1 q λ q g q=1 λ = q tr(s 1 S (b) )

Se si considerano t funzioni discriminanti lineari, l osservazione x è assegnata alla sottopopolazione j -esima tale che, calcolato per q = 1,..., t, si abbia t q=1 w (q) W (q),j = min j t q=1 w (q) W (q),j dove w (q) = a x è il valore dell osservazione non classificata (q) x corrispondente alla q-esima funzione discriminante e W (q),j è la media di W (q) nel j-esimo campione L output di un analisi discriminante deve includere il rango del modello discriminante (t), la posizione di ciascuna sua dimensione rispetto al riferimento originario (i vettori a (q) ), la posizione dei p campioni di osservazioni nel sottospazio delle variabili discriminanti (le medie W (q),j )

Funzioni discriminanti di massima verosimiglianza - sottopopolazioni normali con parametri noti La j-esima sottopopolazione abbia una certa distribuzione k-dimensionale p j (x) nota nella forma e nei parametri per j = 1,..., p L osservazione x è classificata nel gruppo per il quale la verosimiglianza è massima p j (x) p j (x) j j r = 1,..., p implica che x sia classificata nella j -esima sottopopolazione

Assunzione distributiva di normalità delle sottopopolazioni p j (x) = N k (µ j, Σ j ) si assume che µ j e Σ j siano noti Funzione discriminante quadratica: l osservazione x è assegnata alla j -esima sottopopolazione se vale τ j 1 2 (x µ j ) Σ 1 j (x µ j ) = max τ j 1 j 2 (x µ j) Σ 1 j (x µ j ) con τ j = 1 2 ln Σ j

Funzione discriminante lineare: se si può assumere Σ 1 = = Σ p = Σ, la funzione discriminante quadratica diventa con α j = 1 2 µ j Σ 1 µ j α j + x Σ 1 µ j = max j α j + x Σ 1 µ j

Funzioni discriminanti di massima verosimiglianza - sottopopolazioni normali con parametri incogniti Se i parametri delle delle sottopopolazioni µ 1,..., µ p e Σ sono incogniti bisogna stimarli tramite la matrice X = (X 1,..., X p) si calcolano le medie X j campionarie e la matrice di varianze e covarianze within del campione S (w) la funzione discriminante lineare diventa 1 2 ( X j ) S 1 (w) X j + x S 1 (w) X j = max 1 j 2 X j S 1 (w) X j + x S 1 (w) X j

Analisi discriminante bayesiana Alle sottopopolazioni sono assegnate delle probabilità di appartenenza a priori π j = Pr(x X j ) per j = 1,..., p il teorema di Bayes permette di calcolare le probabilità a posteriori che aggiornano le probabilità a priori tramite le osservazioni campionarie Pr(x X j x) = Pr(x X j) Pr(x x X j ) Pr(x) = π jp j (x) p j=1 π jp j (x) essendo p 1,..., p p le distribuzioni completamente specificate del carattere X nelle p sottopopolazioni

l osservazione x viene attribuita alla sottopopolazione j che ha la massima probabilità a posteriori di averla generata p(x j x) = max j p(x j x)

Minimizzazione del costo atteso di errata classificazione p = 2 sottopopolazioni k-dimensionali X 1 e X 2 con distribuzioni p 1 e p 2 Ω = Ω 1 Ω 2 spazio campionario k-dimensionale dei possibili valori di x x Ω 1 x viene assegnata alla prima sottopopolazione x Ω 2 x viene assegnata alla seconda sottopopolazione

probabilità a priori delle due sottopopolazioni: π 1 = Pr(x X 1 ), π 2 = Pr(x X 2 ) probabilità complessiva di una classificazione errata Pr[(x Ω 1 ) (x X 2 )] + Pr[(x Ω 2 ) (x X 1 )] = = Pr(x X 2 ) Pr[x Ω 1 x X 2 ]+Pr(x X 1 ) Pr[x Ω 2 x X 1 ] = = = π 1 + Ω 1 π 2 p 2 (x) π 1 p 1 (x)dx

la probabilità di classificazione errata è minima quando Ω 1 contiene elementi tali che π 2 p 2 (x) π 1 p 1 (x) < 0 = p 1(x) p 2 (x) > π 2 π 1 regola di classificazione: p 1 (x) p 2 (x) > π 2 π 1 x X 1 p 1 (x) p 2 (x) < π 2 π 1 x X 2

c(1 2) e c(2 1) perdite che si determinano assegnando erroneamente l osservazione x alla sottopopolazione X 1 e alla sottopopolazione X 2 perdita attesa complessiva: c(1 2) Pr[(x Ω 1 ) (x X 2 )]+c(2 1) Pr[(x Ω 2 ) (x X 1 )] = = = c(2 1)π 1 + Ω 1 c(1 2)π 2 p 2 (x) c(2 1)π 1 p 1 (x)dx

la perdita attesa complessiva risulta minima quando Ω 1 contiene elementi tali che c(1 2)π 2 p 2 (x) c(2 1)π 1 p 1 (x) < 0 = p 1(x) p 2 (x) > c(1 2)π 2 c(2 1)π 1 regola di classificazione: p 1 (x) p 2 (x) > c(1 2)π 2 c(2 1)π 1 x X 1 p 1 (x) p 2 (x) < c(1 2)π 2 c(2 1)π 1 x X 2

Stima della probabilità di errata classificazione (due gruppi) Metodo parametrico: forma distributiva nota delle due sottopopolazioni, parametri θ 1 e θ 2 stimati. Probabilità complessiva di errata classificazione: π 2 Ω 1 p 2 (x ˆθ 2 )dx + π 1 Ω 2 p 1 (x ˆθ 1 )dx Metodi non parametrici Tassi di errore apparenti: le osservazioni dei due campioni estratti da ciascuna delle sottopopolazioni sono riclassificate tramite la regola di decisione prescelta. Il tasso di errore è ottenuto calcolando la frazione di osservazioni classificate erroneamente

Cross-validation (sample splitting): ciascun campione viene suddiviso in due parti di cui una viene utilizzata per definire la regola di classificazione e l altra per valutarla, calcolando la proporzione degli individui classificati in modo sbagliato Cross-validation (leave one out): si prendono in considerazione n 1 1 osservazioni del primo campione e tutte le n 2 osservazioni del secondo per determinare la regola discriminante. In base ad essa si classifica l osservazione esclusa dal primo campione. Il procedimento esposto viene ripetuto escludendo volta per volta ciascuna osservazione del primo e successivamente ciascuna osservazione del secondo campione