Analisi discriminante



Documenti analoghi
Tecniche di analisi multivariata

1. Distribuzioni campionarie

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI


Dimensione di uno Spazio vettoriale

( x) ( x) 0. Equazioni irrazionali

Corso di. Dott.ssa Donatella Cocca

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Il concetto di valore medio in generale

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

2. Leggi finanziarie di capitalizzazione

Automazione Industriale (scheduling+mms) scheduling+mms.

Principi di analisi causale Lezione 2

Istituzioni di Statistica e Statistica Economica

Ricerca Operativa Esercizi sul metodo del simplesso. Luigi De Giovanni, Laura Brentegani

LEZIONE 23. Esempio Si consideri la matrice (si veda l Esempio ) A =

LE FUNZIONI A DUE VARIABILI

Elementi di Psicometria con Laboratorio di SPSS 1

11. Analisi statistica degli eventi idrologici estremi

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

VERIFICA DELLE IPOTESI

Esempio. Approssimazione con il criterio dei minimi quadrati. Esempio. Esempio. Risultati sperimentali. Interpolazione con spline cubica.

Parte 6. Applicazioni lineari

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Le equazioni. Diapositive riassemblate e rielaborate da prof. Antonio Manca da materiali offerti dalla rete.

Analisi e diagramma di Pareto

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

E naturale chiedersi alcune cose sulla media campionaria x n

Relazioni statistiche: regressione e correlazione

Temi di Esame a.a Statistica - CLEF

Fondamenti e didattica di Matematica Finanziaria

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Diagonalizzazione di matrici e applicazioni lineari

Luigi Piroddi

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

Statistica. Lezione 6

Corso di Matematica per la Chimica

La teoria dell utilità attesa

STATISTICA IX lezione

ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

x 1 + x 2 3x 4 = 0 x1 + x 2 + x 3 = 0 x 1 + x 2 3x 4 = 0.

Corso di Psicometria Progredito

1 Applicazioni Lineari tra Spazi Vettoriali

Capitolo 13: L offerta dell impresa e il surplus del produttore

Nota interpretativa. La definizione delle imprese di dimensione minori ai fini dell applicazione dei principi di revisione internazionali

Appunti sulla Macchina di Turing. Macchina di Turing

ESAME DI STATISTICA Nome: Cognome: Matricola:

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

1. PRIME PROPRIETÀ 2

LEZIONE n. 5 (a cura di Antonio Di Marco)

RICERCA OPERATIVA GRUPPO B prova scritta del 22 marzo 2007

Capitolo 2 Distribuzioni di frequenza

Capitolo 2. Operazione di limite

VALORE DELLE MERCI SEQUESTRATE

La statistica multivariata

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

2.1 Definizione di applicazione lineare. Siano V e W due spazi vettoriali su R. Un applicazione

Prova di autovalutazione Prof. Roberta Siciliano

INTEGRALI DEFINITI. Tale superficie viene detta trapezoide e la misura della sua area si ottiene utilizzando il calcolo di un integrale definito.

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

RETTE, PIANI, SFERE, CIRCONFERENZE

Capitolo II. La forma del valore. 7. La duplice forma in cui si presenta la merce: naturale e di valore.

3 Confronto fra due popolazioni attraverso il test t e test analoghi

Corso di Laurea in Ingegneria Informatica Anno Accademico 2014/2015 Calcolo delle Probabilità e Statistica Matematica

Ottimizazione vincolata

4. Operazioni elementari per righe e colonne

Algebra Lineare e Geometria

Capitolo 4 Probabilità

Elementi di Psicometria con Laboratorio di SPSS 1

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Lezione 1. Concetti Fondamentali

Capitolo 11 Test chi-quadro

Modulo 2. Domanda aggregata e livello di produzione

La Minimizzazione dei costi

Ottimizzazione Multi Obiettivo

della funzione obiettivo. Questo punto dovrebbe risultare chiaro se consideriamo una generica funzione:

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

Università degli Studi di Roma Tor Vergata. Corso di Laurea in Ingegneria Meccanica

Statistica inferenziale

Funzioni in C. Violetta Lonati

Metodi statistici per le ricerche di mercato

Inferenza statistica. Statistica medica 1

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

Un modello matematico di investimento ottimale

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

SPC e distribuzione normale con Access

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco

Titolo della lezione. Analisi dell associazione tra due caratteri: indipendenza e dipendenza

Sistemi Informativi Territoriali. Map Algebra

SVM. Veronica Piccialli. Roma 11 gennaio Università degli Studi di Roma Tor Vergata 1 / 14

Ricerca di outlier. Ricerca di Anomalie/Outlier

Federico Lastaria. Analisi e Geometria 2. Matrici simmetriche. Il teorema spettrale. 1/24

VC-dimension: Esempio

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 6

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

APPLICAZIONI LINEARI

Slide Cerbara parte1 5. Le distribuzioni teoriche

Transcript:

Capitolo 6 Analisi discriminante L analisi statistica multivariata comprende un corpo di metodologie statistiche che permettono di analizzare simultaneamente misurazioni riguardanti diverse caratteristiche (variabili qualitative o quantitative) di un insieme di individui in esame. Gli obiettivi principali delle metodologie di analisi multivariata sono riassumibili nella sintesi delle osservazioni ovvero nella semplificazione della loro struttura (riduzione del numero delle variabili), nell ordinamento e nel raggruppamento (classificazione) di osservazioni, nello studio delle interdipendenze tra le variabili, nella formulazione e verifica di ipotesi operative. Le diverse tecniche di analisi multivariata possono essere distinte a seconda che facciano o meno riferimento ad un modello distributivo assunto per le osservazioni e alla base degli sviluppi inferenziali. In questo senso le tecniche collegate allo studio della dipendenza (modello lineare generale, modelli lineari generalizzati) si contrappongono ad un insieme di metodologie giustificate prevalentemente da argomenti logico-intuitivi note sotto il nome di metodi di analisi dei dati. Sono questi dei metodi esplorativi (L. Fabbris,1991) ovvero di statistica descrittiva multidimensionale (L. Lebart, A. Morineau, J.P. Fénelon, 1982) che partono dal presupposto espresso chiaramente nella frase di uno dei maggiori esponenti della scuola francese di analisi dei dati: il modello deve seguire i dati, non viceversa (J.P. Benzécri, 1980). Un tale approccio porta a procedure di analisi euristiche, ovvero di carattere intuitivo-analogico, i cui risultati devono essere controllati e convalidati in un secondo tempo (logica del trovare), e si contrappone all approccio confermativo per il quale la verifica della sussistenza di assunzioni effettuate prima ancora della rilevazione dei dati, viene condotta sulla base di metodi statistico inferenziali (logica del giustificare). La scelta di uno dei due 91

92 A. Pollice - Statistica Multivariata approcci dipende sia dagli obiettivi del ricercatore che dalle informazioni disponibili riguardo alla distribuzione delle variabili in esame, ovvero dalla possibilità di controllare sperimentalmente l osservazione dei fenomeni. Per questo motivo l analisi dei dati è tradizionalmente collegata alle applicazioni in ambito socio-economico, mentre i metodi modellistico-inferenziali vengono maggiormente utilizzati nelle scienze sperimentali. 6.1 Funzione discriminante lineare di Fisher Per analisi discriminante si intende un corpo di metodologie che, considerando un universo campionario k-dimensionale X suddiviso in p sottopopolazioni X 1,..., X p, permettono di assegnare una generica osservazione x ad una delle p sottopopolazioni. Uno tra i primi a parlare di analisi discriminante multivariata fu R. A. Fisher (1936) con riferimento all attribuizione di alcuni reperti fossili alla categoria dei primati o a quella degli umanoidi in base a diverse misurazioni effettuate sugli stessi. Nell approccio di Fisher l obiettivo dell analisi discriminante è quello di individuare la sottopopolazione di appartenenza di un osservazione multidimensionale in base alla conoscenza campionaria del comportamento delle diverse sottopopolazioni. Non facendo alcuna assunzione sulla forma distributiva delle p sottopopolazioni da cui vengono estratti i campioni X 1,..., X p, l assegnazione dell osservazione x viene effettuata tramite una combinazione lineare W = a X delle k componenti della variabile X rilevata, tale da rendere massima la separazione (o discriminazione) tra i p campioni. Il criterio che viene utilizzato per definire la trasformazione, ovvero il vettore k-dimensionale di costanti a, consiste pertanto nel pretendere che sia massima la differenza tra le medie di W nei p campioni, in modo da rendere meno ambigua la classificazione dell osservazione w = a x. L informazione parziale di partenza sia dunque costituita da p campioni X 1,..., X p di numerosità n da ciascuna sottopopolazione X con = 1,..., p: X = x 11 x 1k.. x n 1 x n k con i = 1,..., n, h = 1,..., k e = 1,..., p. Siano inoltre = [x ih ] (6.1) X = 1 n X u n = ( X 1,..., X k ) (6.2)

Cap. 6: Analisi discriminante 93 la media campionaria del -esimo campione ed S = 1 n (X u n X ) (X u n X ) = [S hl ] (6.3) la matrice k k delle varianze e covarianze campionarie del -esimo campione (nelle espressioni precedenti h, l = 1,..., k e = 1,..., p). Trasformando tramite il vettore a la matrice n k del generico campione -esimo, si ottiene per = 1,..., p il vettore n -dimensionale con media e varianza campionarie date da W = X a (6.4) W = 1 n W u n = 1 n a X u n = a X (6.5) S 2 W = 1 n (X a u n a X ) (X a u n a X ) = = 1 n a (X u n X ) (X u n X )a = a S a (6.6) Complessivamente, posto n = p =1 n sia X = (X 1,..., X p) la matrice n k di tutte le osservazioni disponibili ed inoltre sia X = 1 n X u n = ( X 1,..., X k ) (6.7) il vettore delle medie campionarie complessive ed S = 1 n (X u n X ) (X u n X ) = [S hl ] (6.8) la matrice k k delle varianze e covarianze campionarie calcolate in base a tutti i p campioni. Considerando il generico elemento (h, l)-esimo della matrice S S hl = 1 n = n p (x ih X h )(x il X l ) = =1 i=1 p =1 n n S hl + 1 n p n ( X h X h )( X l X l ) (6.9) =1

94 A. Pollice - Statistica Multivariata la matrice di varianze e covarianze S può dunque essere scomposta nel modo seguente S = S (w) + S (b) (6.10) dove S (w) indica la matrice delle varianze e covarianze all interno dei p campioni (within) data da S (w) = p =1 n n S (6.11) mentre S (b) è la matrice di varianze e covarianze tra i p campioni (between). Analogamente trasformando tramite a la matrice X n k di tutte le osservazioni disponibili si ottiene il vettore n-dimensionale con media e varianza date dalle espressioni seguenti W = Xa (6.12) W = a X (6.13) S 2 W = a Sa = a S (w) a + a S (b) a (6.14) Si voglia ora definire W (ovvero determinare a) in modo tale da massimizzare le differenze tra le medie campionare W 1,..., W p. Ciò implica la massimizzazione della varianza between di W ovvero di a S (b) a. Ovviamente quanto maggiori in valore assoluto sono gli elementi del vettore a, tanto più elevato è il valore della forma quadratica. Quindi affinché il problema della determinazione del massimo assoluto di a S (b) a rispetto ad a sia ben definito, si considera un vincolo sulla dimensione di a dato dall espressione a Sa = 1. Tale vincolo corrisponde a pretendere che W abbia varianza unitaria. Pertanto per la determinazione di a bisogna risolvere il seguente problema di massimo vincolato: { maxa a S (b) a (6.15) a Sa = 1 La funzione lagrangiana prende la forma seguente, dove λ è il moltiplicatore di Lagrange (a, λ) = a S (b) a λ(a Sa 1) (6.16) Il problema di massimo vincolato si traduce nella soluzione del sistema (a,λ) { a = 2S (b) a 2λSa = o λ = a S (b) a = (6.17) (a,λ) λ = a Sa 1 = 0 a Sa = 1

Cap. 6: Analisi discriminante 95 si noti che la prima equazione del sistema può essere espressa nella forma di equazione caratteristica (o equazione agli autovalori) S 1 S (b) a = λa dalla quale risulta come λ sia uno degli autovalori di S 1 S (b) ed a l autovettore ad esso associato. Inoltre, affinché si verifichi λ = max a a S (b) a, bisogna scegliere tra gli autovalori di S 1 S (b) quello che assume valore massimo. La variabile W (1) = a (1) X (6.18) definita tramite l autovettore a (1) associato al maggiore degli autovalori λ 1 corrisponde dunque alla combinazione lineare delle componenti della variabille k-dimensionale di partenza che separa maggiormente i p campioni ed è detta prima funzione discriminante lineare. L autovalore λ 1 equivalente alla varianza between della variable W (1) è detto potere discriminante di W (1) e misura la capacità di W (1) di separare le medie dei p campioni. La definizione della seconda funzione discriminante lineare W (2) prevede che questa soddisfi la condizione di massimo e il vincolo precedenti, ed inoltre che sia incorrelata con W (1). In tal caso W (2) = a (2) X (6.19) dove il vettore a (2) è dato dalla soluzione del sistema max a(2) a (2) S (b)a (2) a (2) Sa (2) = 1 a (1) Sa (2) = 0 (6.20) Indicando con µ 1 e 2µ 2 i due moltiplicatori di Lagrange, la funzione lagrangiana è data da (a (2), µ 1, µ 2 ) = a (2) S (b)a (2) µ 1 (a (2) Sa (2) 1) 2µ 2 a (1) Sa (2) (6.21) in questo caso la soluzione del problema di massimo vincolato è ottenuta risolvendo il sistema = (a (2),µ 1,µ 2 ) a (2) = 2S (b) a (2) 2µ 1 Sa (2) 2µ 2 Sa (1) = o (a,µ 1,µ 2 ) µ 1 = a (2) Sa (2) 1 = 0 (a,µ 1,µ 2 ) µ 2 = a (1) Sa (2) = 0 S (b) a (2) = µ 1 Sa (2) + µ 2 Sa (1) a (2) Sa (2) 1 = 0 a (1) Sa (2) = 0 (6.22)

96 A. Pollice - Statistica Multivariata Premoltiplicando la prima equazione del sistema per a (1) si ottiene µ 2 = a (1) S (b)a (2), ovvero, poiché λ 1 è autovalore di S 1 S (b), µ 2 = a (2) S (b)a (1) = a (2) λ 1Sa (1) = λ 1 a (1) Sa (2) = 0 (6.23) e sostituendo µ 2 = 0 nella stessa equazione S (b) a (2) = µ 1 Sa (2) ovvero S 1 S (b) a (2) = µ 1 a (2) (6.24) Dall espressione precedente µ 1 = λ 2 risulta essere il secondo maggiore autovalore della matrice S 1 S (b), mentre a (2) è l autovettore corrispondente e tale che a (2) Sa (2) = 1. Si possono individuare tante funzioni discriminanti lineari quanti sono gli autovalori non nulli della matrice S 1 S (b), ossia un numero pari al rango della matrice stessa g = r(s 1 S (b) ). In genere si considera un numero t < g di funzioni discriminanti, interrompendo l analisi quando il potere discriminante della (t + 1)-esima funzione discriminante lineare, ossia il valore del (t + 1)-esimo autovalore di S 1 S (b), diviene trascurabile. Una misura del potere discriminante complessivo delle prime t funzioni discriminanti è data dal rapporto t q=1 λ t q q=1 g q=1 λ = λ q q tr(s 1 (6.25) S (b) ) Nel caso in cui si considerino t funzioni discriminanti lineari, l osservazione x è assegnata individuando il valore tale che, calcolato w (q) = a (q) x per q = 1,..., t, si abbia t q=1 w (q) W (q), = min t w (q) W (q), (6.26) essendo W (q), la media di W (q) nel -esimo campione, per q = 1,..., t. Da un punto di vista geometrico l analisi discriminante consiste nel rappresentare le p nuvole k dimensionali di n punti (i p campioni) in uno spazio euclideo di dimensione t < k tale da evidenziare opportunamente le distanze tra i campioni. L output dell analisi discriminante deve perciò includere il rango t del nuovo riferimento (ovvero del modello discriminante), la posizione di ciascuna dimensione del modello discriminante rispetto al riferimento originario (i vettori a (q) ), la posizione dei p campioni di osservazioni nel sottospazio delle variabili discriminanti (le medie W (q), ). q=1

Cap. 6: Analisi discriminante 97 6.2 Funzione discriminante di massima verosimiglianza In questo caso è necessario assumere che la -esima sottopopolazione k- dimensionale abbia una certa distribuzione p (x) per = 1,..., p. 6.2.1 Completa specificazione delle distribuzioni delle sottopopolazioni Si supponga in prima istanza che le p distribuzioni k-dimensionali siano completamente specificate nella forma e nei parametri (ipotesi poco realistica, ma efficace dal punto di vista teorico). L obiettivo sia quello di classificare l osservazione x nel gruppo per il quale la verosimiglianza è massima. In tal caso x viene assegnata alla -esima sottopopolazione se vale p (x) p r (x) r r = 1,..., p (6.27) essendo p (x) la verosimiglianza dell osservazione x classificata nel -esimo gruppo. Si assuma adesso la normalità delle sottopopolazioni ovvero p (x) = N k (µ, Σ ) = 1,..., p (6.28) ln p (x) = k 2 ln(2π) 1 2 ln Σ 1 2 (x µ ) Σ 1 (x µ ) (6.29) e posto τ = 1 2 ln Σ si ottiene la regola di decisione seguente: l osservazione x è assegnata alla -esima sottopopolazione se vale τ 1 2 (x µ ) Σ 1 (x µ ) = max τ 1 2 (x µ ) Σ 1 (x µ ) (6.30) L espressione precedente è detta funzione discriminante quadratica. Qualora si possa assumere Σ 1 = = Σ p = Σ, ovvero τ 1 = = τ p = τ = 1 2 ln Σ, la funzione discriminante quadratica diventa τ 1 2 x Σ 1 x + x Σ 1 µ 1 2 µ Σ 1 µ (6.31) quindi posto α = 1 2 µ Σ 1 µ tale condizione coincide con α + x Σ 1 µ = max α + x Σ 1 µ (6.32) L espressione precedente è detta anch essa funzione discriminante lineare pur essendo evidentemente diversa da quella vista nel paragrafo precedente.

98 A. Pollice - Statistica Multivariata 6.2.2 Assunzione distributiva di normalità delle sottopopolazioni Supponiamo ora che i parametri delle distribuzioni normali k-dimensionali delle sottopopolazioni X 1,..., X p siano incogniti. In tal caso considerando la matrice X = (X 1,..., X p) contenente tutte le osservazioni campionarie si possono calcolare le medie X e la matrice di varianze e covarianze within del campione S (w). Sostituendo queste stime nella funzione discriminante lineare si ottiene 1 2 ( X ) S 1 (w) X + x S 1 (w) X = max 6.3 Analisi discriminante bayesiana 1 2 X S 1 (w) X + x S 1 (w) X (6.33) Nella statistica bayesiana si assume generalmente di poter attribuire delle probabilità a priori a ciò che costituisce l oggetto dell inferenza (ad esempio ai parametri nell inferenza parametrica). Si parla di analisi discriminante bayesiana se è possibile, grazie a conoscenze preesistenti relative al fenomeno in esame, assegnare delle probabilità a priori π 1,..., π p alle sottopopolazioni in modo tale che π = Pr(x X ) per = 1,..., p. In tal caso, dette p 1,..., p p le distribuzioni completamente specificate del carattere X nelle sottopopolazioni, è possibile utilizzare il teorema di Bayes per calcolare la probabilità a posteriori di ciascuna sottopopolazione. Le probabilità a posteriori consistono nell aggiornamento delle probabilità a priori, effettuato tramite le osservazioni campionarie e pertanto integrano l informazione disponibile prima dell osservazione dei dati con quella contenuta in questi. La probabilità che, condizionatamente al valore osservato, l osservazione x sia generata dalla -esima popolazione è data per = 1,..., p da p(x x) = Pr(x X x) = = Pr(x X ) Pr(x x X ) Pr(x) π p (x) = p =1 π p (x) = (6.34) La regola di classificazione consiste nell attribuire x alla sottopopolazione che ha maggiore probabilità di averla generata, ovvero nel determinare il valore di tale che p(x x) = max p(x x) (6.35)

Cap. 6: Analisi discriminante 99 Questo approccio all analisi discriminante gode di notevoli proprietà che lo rendono ottimale da più punti di vista (Mardia, Kent, Bibby, 1979, Anderson, 1984). 6.4 Minimizzazione del costo atteso di un errata classificazione Un metodo alternativo per l analisi discriminante è dovuto a Welch (1939). In questo caso si considera la restrizione a p = 2 sottopopolazioni k-dimensionali X 1 e X 2 con distribuzioni rispettivamente p 1 e p 2. Sia Ω lo spazio campionario k-dimensionale dei possibili valori di x ed Ω = Ω 1 Ω 2 una sua bipartizione tale che x Ω 1 implichi che x venga assegnata alla prima sottopopolazione, ovvero alla seconda se x Ω 2. Dette ancora π 1 = Pr(x X 1 ) e π 2 = Pr(x X 2 ) le probabilità a priori delle due sottopopolazioni, la probabilità complessiva di una classificazione errata risulta data da Pr[(x Ω 1 ) (x X 2 )] + Pr[(x Ω 2 ) (x X 1 )] = = Pr(x X 2 ) Pr[x Ω 1 x X 2 ] + Pr(x X 1 ) Pr[x Ω 2 x X 1 ] = = π 2 p 2 (x)dx + π 1 p 1 (x)dx = Ω 1 Ω [ 2 ] = π 2 p 2 (x)dx + π 1 1 p 1 (x)dx = Ω 1 Ω 1 = π 1 + π 2 p 2 (x) π 1 p 1 (x)dx (6.36) Ω 1 Affinché tale probabilità sia di dimensioni ridotte l integrale nell ultima espressione, ovvero la funzione integranda, deve essere minore di zero. In altri termini la probabilità di classificazione errata è minima quando Ω 1 contiene elementi tali da soddisfare la condizione π 2 p 2 (x) π 1 p 1 (x) < 0 = p 1(x) p 2 (x) > π 2 π 1 (6.37) La regola di classificazione porta dunque ad assegnare x alla prima sottopopolazione X 1 se si verifica la condizione precedente e ad X 2 se vale p 1 (x) p 2 (x) < π 2 π 1 (6.38) Si assuma ora che c(1 2) e c(2 1) siano rispettivamente la perdita (o il costo) che si determina assegnando erroneamente l osservazione x alla sottopopolazione X 1 e alla sottopopolazione X 2. La perdita attesa complessiva

100 A. Pollice - Statistica Multivariata è dunque data da c = c(1 2)π 2 p 2 (x)dx + c(2 1)π 1 p 1 (x)dx = Ω 1 Ω 2 = c(2 1)π 1 + c(1 2)π 2 p 2 (x) c(2 1)π 1 p 1 (x)dx (6.39) Ω 1 Tale costo risulta minimo quando Ω 1 contiene elementi tali da soddisfare la condizione c(1 2)π 2 p 2 (x) c(2 1)π 1 p 1 (x) < 0 = p 1(x) p 2 (x) > c(1 2)π 2 c(2 1)π 1 (6.40) La regola di classificazione consiste nell assegnare l osservazione x ad X 1 se vale la condizione precedente e ad X 2 se invece vale p 1 (x) p 2 (x) < c(1 2)π 2 c(2 1)π 1 (6.41) 6.5 Stima della probabilità di errata classificazione nel caso di due gruppi 6.5.1 Metodo parametrico Siano p 1 e p 2 le distribuzioni completamente specificate delle sottopopolazioni X 1 e X 2. La probabilità complessiva di errata classificazione è data da π 2 p 2 (x)dx + π 1 p 1 (x)dx (6.42) Ω 1 Ω 2 Nel caso in cui la forma distributiva delle due sottopopolazioni sia nota, mentre i loro parametri θ 1 e θ 2 vengono stimati tramite i dati campionari l espressione precedente diventa π 2 p 2 (x ˆθ 2 )dx + π 1 p 1 (x ˆθ 1 )dx (6.43) Ω 1 Ω 2 Il valore di quest ultimo stimatore dipende fortemente dalle probabilità a priori π 1 e π 2 e dalla sussistenza delle assunzioni distributive. 6.5.2 Metodi non parametrici In questo caso non viene assunto nessun modello distributivo alla base della stima della probabilità di errata classificazione.

Cap. 6: Analisi discriminante 101 Tassi di errore apparenti Anche detto metodo di risostituzione, consiste nel riclassificare le osservazioni dei due campioni estratti da ciascuna delle sottopopolazioni tramite la regola di decisione prescelta. Il tasso di errore è ottenuto calcolando la frazione di osservazioni classificate erroneamente (m 1 + m 2 )/n dove m 1 ed m 2 indicano rispettivamente il numero di osservazioni del primo campione assegnate alla seconda popolazione ed il numero di osservazioni del secondo campione assegnate alla prima. Il principale difetto di questo metodo di stima consiste nel fatto che gli stessi individui vengono utilizzati per definire la regola di discriminazione e per valutarla. Il metodo di risostituzione porta ad una stima distorta (troppo ottimistica) del tasso di errore. Infatti poiché sono le osservazioni dei due campioni a determinare la regola di decisione, la probabilità che esse siano classificate in modo erroneo è minima. Sample splitting (cross-validation) Ciascun campione viene suddiviso in due parti di cui una viene utilizzata per definire la regola di classificazione e l altra per valutarla, calcolando la proporzione degli individui classificati in modo sbagliato. Tale metodo è ritenuto poco economico dal punto di vista dell utilizzo ottimale dei dati a disposizione. Leave one out (cross-validation) Si prendono in considerazione n 1 1 osservazioni del primo campione e tutte le n 2 osservazioni del secondo per determinare la regola discriminante. In base ad essa si classifica l osservazione esclusa dal primo campione. Il procedimento esposto viene ripetuto escludendo volta per volta ciascuna osservazione del primo e successivamente ciascuna osservazione del secondo campione. La stima del tasso di errore è ottenuta dividendo per n il numero di osservazioni assegnate a una popolazione diversa da quella di provenienza.