Metodi di regressione multivariata

Metodi di regressione multivariata Modellamento dei dati per risposte quantitative I metodi di regressione multivariata sono strumenti utilizzati per ricercare relazioni funzionali quantitative tra un insieme di p variabili x 1, x 2,..., x p che descrivono gli oggetti studiati e un insieme di risposte y misurate per gli stessi oggetti. Obiettivo è trovare un modello in grado di predire le risposte per nuovi oggetti sulla base dell informazione data dalle variabili indipendenti.

Metodi di regressione multivariata Se si ha una sola risposta y, il modello di regressione multivariato è in generale: Occorre : y = f (x( 1, x 2,..., x p ) stabilire il tipo di modello stimare i parametri del modello (fitting) valutare l attendibilità delle predizioni del modello

Metodi di regressione multivariata Esempio di relazione funzionale (superficie di risposta) teorica :

Metodi di regressione multivariata Caratteristiche della superficie di risposta nel dominio sperimentale :

Metodi di regressione multivariata Modello lineare della superficie di risposta :

Metodi di regressione multivariata Ordine di un modello: il valore della potenza più grande delle variabili indipendenti. Modello di primo ordine: modello in cui gli esponenti delle variabili indipendenti sono uguali ad uno. Esempio : p j = 1 y = b + b x = b + b x + b x + + b x 0 j j 0 1 1 2 2 K p p

Metodi di regressione multivariata Modello lineare nei parametri: : la risposta è una combinazione lineare delle variabili indipendenti.. I parametri del modello non sono a loro volta una funzione della risposta, sono dei semplici coefficienti moltiplicativi, inoltre è presente un solo coefficiente in ogni termine additivo. Esempi : y = β + β 1 x 1 i o i 2 i o 1 i1 11 i1 y = β + β x + β x y = β + β x + β x + β x x i o 1 i1 2 i2 12 i1 i2

Metodi di regressione multivariata Modello additivo: : modello in cui tutte le variabili hanno un effetto additivo sulla risposta. 2 y = β + β x + β x x + β x + ε 0 j j jk j k jj j Il termine costante β 0 è la stima della risposta quando tutte le variabili assumono valore zero. I coefficienti β j dei termini lineari stimano la dipendenza lineare della risposta dalle corrispondenti variabili (effetti principali). I coefficienti β jk del prodotto incrociato stimano l effetto l di interazione di due variabili sulla risposta. I coefficienti β jj dei termini quadratici stimano l'effetto non-lineare delle variabili sulla risposta. La somma dell effetto principale, degli effetti di interazione e degli effetti non- lineari definisce l influenza complessiva della variabile sulla risposta.

Metodi di regressione multivariata Modello vero non noto y i = f (β( 0, β 1,..., β p, x 1, x 2,..., x p ) + ε i x : variabili indipendenti, descrittori, predittori y : variabile dipendente, risposta cause del fenomeno studiato misura sperimentale del fenomeno studiato Modello stimato y i = f (b( 0, b 1,..., b p, x 1, x 2,..., x p ) + e i

Metodi di regressione multivariata Matrice dei dati X 0 Matrice del modello = x x K x 11 12 1p x x K x 21 22 2 p K K K K K K K K x x K x n1 n2 np (contiene tante colonne quanti sono i parametri del modello, p ) X Mod = 1 1 1 2 11 12 K 1p 11 2 21 22 K 2p 21 x x x x x K x x x x x x x K x x K K K K K K K K 2 2 n1 n2 K np n1 n2 K n1 n2 x x x x x x x 2 12 2 22 11 12 21 22

Metodi di regressione multivariata MODELLI descrizione predizione fitting validation

Metodi di regressione multivariata Fitting : Processo di stima dei parametri del modello. Le stime dei parametri sono ricercate in modo tale da massimizzare l accordo tra le risposte osservate e quelle corrispondenti calcolate dal modello. Validazione : Processo di valutazione della effettiva capacità di predizione del modello.

Metodi di regressione multivariata I parametri β del modello vengono stimati in base agli esperimenti effettuati o ai dati disponibili utilizzando un metodo di regressione. Il numero minimo di esperimenti (oggetti)) per stimare i parametri β è uguale al numero di parametri del modello. Ad esempio,, per un modello lineare ad una variabile x 1, occorrono almeno 2 esperimenti: y = β + β x + ε i o 1 i1 i

Metodo dei minimi quadrati Ordinary Least Squares - O L S - Modello lineare teorico: y = Xβ+ ε (n, 1) = (n, p ) (p, 1) + (n, 1) y vettore delle risposte X matrice del modello β vettore dei parametri veri del modello (coefficienti( di regressione) ε vettore degli errori

Ordinary Least Squares - O L S - Il metodo di regressione dei minimi quadrati (OLS) è un metodo di stima dei parametri del modello di tipo unbiased, cioè il valore medio delle stime dei parametri coincide con il loro valore vero.

Le stime b j dei parametri del modello calcolate dal metodo OLS sono quelle che minimizzano lo scarto quadratico tra le risposte osservate e quelle calcolate dal modello per tutti gli oggetti del training set. Il metodo OLS minimizza la seguente quantità: F min RSS = min y$ y Residual Sum of Squares a f HG a f i i n i= 1 risposta calcolata 2 I KJ risposta osservata

Soluzione algebrica per determinare il vettore delle stime b dei coefficienti di regressione : y = T X y Xb = T X Xb c h c h T 1 T T 1 T X X X y= X X X Xb poichè : c h = T 1 T X X X X I T 1 T b X X X y OLS = c h (p, 1) = (p, p ) (p, n) (n, 1)

Una volta stimato il vettore b dei coefficienti di regressione, le risposte calcolate sono ottenute da: $y= XbOLS... e il vettore e delle stime degli errori (residui) da: e y y = $

Esempio sample preparation signal measure calibration model 60 50? inverse prediction 40 30 20 10 0.1 0.2 0.3 0.4 [C] = 0.28

Condizioni di applicabilità del metodo OLS I coefficienti di regressione β possono assumere qualunque valore. Il modello di regressione è lineare nei parametri. La matrice del modello X deve avere rango uguale a p. I residui (errori) ε i sono variabili random con media uguale 0 e varianza σ 2 : N(0; σ 2 ). I residui ε i sono variabili random indipendenti con covarianza (ε i, ε j ) 0, per ogni i j. Tutti i residui ε i hanno la stessa varianza σ 2.

estimated model: y = b 0 + b 1. x Omoscedasticità

Nota bene : i valori dei coefficienti di regressione stimati b dipendono dalla scala di misura delle variabili x. Coefficienti di regressione standardizzati b* : b * b s j = j s s y e s j sono rispettivamente le deviazioni standard della risposta e della j-esima variabile. j y I coefficienti di regressione standardizzati rappresentano la vera importanza delle variabili nel modello.

Qualità dello stimatore b La varianza del vettore b dei coefficienti di regressione è una misura della stabilità del modello. V a f b tr X T OLS = c Xh 2 1 2 σ = σ p j= 1 1 λ j errore sperimentale errore del modello autovalori della matrice X T X

Qualità dello stimatore b dx T i X 1 Matrice di dispersione Matrice di dispersione : i suoi elementi diagonali (coefficienti di variazione, d jj misurano l incertezza sui parametri del modello. vardbh jj j = d σ 2 jj ) Per un buon modello (stabile) : tutti i coefficienti di variazione devono essere uguali e minimi; gli elementi non diagonali della matrice di dispersione devono essere nulli.

Qualità dello stimatore b σ 2 L errore sperimentale è la variazione prodotta sulla risposta sperimentale da fattori di perturbazione, conosciuti o sconosciuti. Se non è noto a priori, l'errore sperimentale può essere stimato effettuando alcune repliche dello stesso esperimento.

Qualità dello stimatore b Assumendo che l'errore sperimentale sia costante nel dominio sperimentale, replicando esperimenti diversi, l'errore sperimentale può essere stimato da: s e = a f a f a f a f a f a f 2 r1 1 s1 + r2 1 s2+ K+ rn 1 s r 1 + r 1 + K+ r 1 1 2 2 2 n n s 2 i = r b i k = 1 y r i ik 1 y i g 2

Qualità dello stimatore b In tutti i casi in cui si assume che il modello descriva adeguatamente la risposta, l'errore sperimentale può essere stimato dalla somma dei quadrati dei residui,, come errore standard della stima: s = RSS n p '

Qualità dello stimatore b Nota bene: se l errore sperimentale è noto a priori, ancora prima di realizzare gli esperimenti,, è possibile valutare se il modello finale sarà stabile oppure no!

Intervallo di confidenza dei coefficienti di regressione ch 12 / j α; n p' j j α; n p' b ± t V b = b ± t s d jj V(b j ) è la varianza del j-esimo coefficiente t α; ; n-p n è il valore critico della t di Student, al livello di significatività α e con n - p gradi di libertà s è l errore standard della stima d jj è il j-esimo elemento diagonale della matrice (X T X) -1

Qualità delle stime delle risposte La qualità delle stime delle risposte è definita dalla loro varianza: var $y c h d i 1 T T 2 2 i = xi X X xi σ = hii σ Tanto più grande è la varianza di una risposta stimata tanto più grande è la sua incertezza. h ii è detto "leverage" dell'i-esimo esimo campione o "funzione" di varianza".

Matrice dei leverage o matrice di influenza H Poichè $y = Xb e b g T 1 T b = X X X Y allora c h T 1 T $y= X X X X y= Hy c h T 1 T hii = x c T T 1 i X Xh xi H= X X X X (n, n) = (n, p ) (p, p ) (p, n) (1, 1) = (1, p ) (p, p ) p (p,1)

Matrice dei leverage o matrice di influenza H I leverage sono gli elementi diagonali della matrice H, con le seguenti proprietà: hii = p h = p / n h > 3p / n i Il leverage è una misura dell'incertezza con cui le risposte vengono calcolate dal modello. L'incertezza è proporzionale alla distanza di un campione dal centro dello spazio definito dal modello. Per un buon modello : il leverage deve essere il più piccolo e bilanciato possibile. *

Matrice dei leverage o matrice di influenza H y punto ad alto leverage h ii > h* x

Matrice dei leverage o matrice di influenza H Leverage degli oggetti del training set : 1 n h ii 1 Una sperimentazione ove i leverage dei diversi punti sperimentali sono molto sbilanciati indica una sperimentazione ove le diverse regioni dello spazio sperimentale sono valutate dal modello con precisione molto diversa tra loro. Il modello non è egualmente affidabile nelle diverse regioni del dominio sperimentale.

Matrice dei leverage o matrice di influenza H Leverage di nuovi oggetti : 1 n h ii < Per campioni il cui leverage è molto maggiore di 1, non ha senso utilizzare il modello per fare delle predizioni. Non significa che in quella regione il modello non funzioni,, ma che non vi sono ragioni statistiche fondate per ritenere che le stime siano affidabili!

Funzioni di fitness del modello di regressione Total sum of squares (TSS) b n g 2 i i = 1 TSS = y y Residual sum of squares (RSS) c h 2 i Residual sum of squares (RSS) RSS = y $ i y n i = 1 Model sum of squares (MSS) n MSS = y $ i y i = 1 c h 2

Funzioni di fitness del modello di regressione TSS = MSS + RSS funzione obiettivo da massimizzare MSS TSS 2 R = 1 RSS TSS R 2 : coefficiente di determinazione R 2 x 100 : percentuale di varianza spiegata dal modello r or R : coefficiente di correlazione multipla r = 0.90 R 2 = 0.81 r = 0.80 R 2 = 0.64

Funzioni di fitness del modello di regressione 0 1 R y a 1,..., p f Proprietà di R Ry 1 p = 0 Ry j = 0 j = 1 p a f a f,...,,..., R R R K R af a f a f a f y j y j, j y j, j, j y, K, p 1 1 2 1 2 3 1

Regressione Multipla Lineare (MLR) Funzioni di fitness del modello di regressione 100 Number of components vs. R2 e Q2 90 80 R 2 70 60 50 Q 2 40 30 20 1 2 3 4 5 6 7 8 9 10 Number of components

Funzioni di fitness del modello di regressione Predictive error sum of squares - PRESS - PRESS = y$ ii / y n i= 1 a f 2 i risposta predetta per l oggetto i-esimo quando questo è escluso dal modello (tecnica( della cross-validation validation) funzione obiettivo da massimizzare 2 2 R Q massimizzare CV = 1 PRESS TSS

Funzioni di fitness del modello di regressione R R 2 adjusted a f c h RSS / n p' n 1 = 1 1 R TSS / n 1 n p' 2 2 adj = 1 F HG I K J

Errore standard della stima s s = RSS n p' s 2 : stima dell errore errore sperimentale σ 2 Standard Deviation Error in Calculation: SDEC = RSS n Standard Deviation Error in Prediction: SDEP = PRESS n

Test F di Fisher in regressione Il test di Fisher viene in generale utilizzato per confrontare due varianze. In regressione : F calc = MSS a a / p' 1 RSS / n p' H 0 : assenza di modello, tutti i coefficienti di regressione sono nulli. f f H 1 : almeno un coefficiente di regressione è diverso da zero.

Lack of Fit (LOF) Come valutare la bontà dell'approssimazione della relazione funzionale tra la risposta e le variabili? Y Y X 1 1 3 5 1 3 5 X 1 Modello di primo o secondo ordine?

Se il modello è una buona approssimazione della relazione funzionale vera,, i residui (RSS) dipendono solo dall'errore sperimentale. F Lack of Fit (LOF) TEST DI FISHER a fa f RSS / n p = n p, r 1 s 2 e Se F > F critico il modello stimato non è "buono" buono" a f

Analisi della varianza Mean 1 TSS n TSS REG n - 1 n : numero totale di esperimenti (con repliche) p : numero di parametri del modello k : numero di esperimenti indipendenti n - f : numero di repliche MSS p - 1 RSS n - p b 0, b 1,... LOF k - p ERR n - k

Analysis of Variance in Regression Source SS df MS F Regression SS REG p - 1 MS REG MS REG / MS R Residual SS R n - p MS R Lack of fit SS LOF k - p MS LOF MS LOF / MS PE Pure error SS PE n - k MS PE Total SS T n - 1 k: levels for replicates RSS : Residual Sum of Squares TSS : Total Sum of Squares

Esempio di analisi della varianza y = b 0 + b. 1 x model n = 20 k = 5 samples levels n i = 4 replicates ANOVA table Source SS df MS F regression 12447.4 1 12447.5 2109.7 residual 106.1 18 5.9 total 12553.5 19 F 1,18 (5%) = 4.41 Residual variance decomposition Source SS df MS F lack of fit 87.6 3 29.2 24.3 pure error 18.5 15 1.2 total res. 106.1 18 F 3,15 (5%) = 3.29 K O lack of fit! O K

Esempio di analisi di regressione 17 oggetti descritti da 5 variabili e 1 risposta. ID x1 x2 x3 x4 x5 y 1 15.57 2463 472.9 18 4.45 566.5 2 44.02 2048 1339.7 9.5 6.92 696.8 3 20.42 3940 620.3 12.8 4.28 1033.2 4 18.74 6505 568.3 36.7 3.9 1603.6 5 49.2 5723 1497.6 35.7 5.5 1611.4 6 44.92 11520 1365.8 24 4.6 1613.3 7 55.48 5779 1687 43.3 5.62 1854.2 8 59.28 5969 1639.9 46.7 5.15 2160.6 9 94.39 8461 2872.3 78.7 6.18 2305.6 10 128.02 20106 3655.1 180.5 6.15 3503.9 11 96 13313 2912 60.9 5.88 3571.9 12 131.42 10771 3921 103.7 4.88 3741.4 13 127.21 15543 3865.7 126.8 5.5 4026.5 14 252.9 36194 7684.1 157.7 7 10343.8 15 409.2 34703 12446.3 169.4 10.78 11732.2 16 463.7 39204 14098.4 331.4 7.05 15414.9 17 510.22 86533 15524 371.6 6.35 18854.4

Matrice di correlazione x 1 x 2 x 3 x 4 x 5 x 1 1 0.9074 0.9999 0.9357 0.6712 x 2 0.9074 1 0.9071 0.9105 0.4466 x 3 0.9999 0.9071 1 0.9332 0.6711 x 4 0.9357 0.9105 0.9332 1 0.4629 x 5 0.6712 0.4466 0.6711 0.4629 1 Autovalori della matrice di correlazione Eigenvalues 1 2 3 4 5 Value 4.1971 0.6675 0.0946 0.0407 0.0001 % of variability 0.8394 0.1335 0.0189 0.0081 0.0000 Cumulative % 0.8394 0.9729 0.9918 1.0000 1.0000

Risultati della regressione dei minimi quadrati (OLS) Modello scelto : lineare di primo ordine n = 17 p = 5+1 F calc = 237.8 F 0.05;5,11 = 3.20 R 2 = 99.1 % R 2 adj = 98.7 % R 2 loo = Q 2 = 93.5 % F 0.01;5,11 = 5.32 s = 642.1 SDEC = 516.5 SDEP = 1376.2

Histogram for reduced residuals 1 3 Nbr of observation 5 7 9 11 13 15 17-1.5-1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 residuals

Coefficienti di regressione Value Std dev. Lower 95% bound Upper 95% bound Intercept 1962.941 1071.3600-395.1080 4320.9894 x1-15.8583 97.6519-230.7889 199.0722 x2 0.05593 0.0213 0.0091 0.1027 x3 1.589848 3.0921-5.2157 8.3954 x4-4.21919 7.1760-20.0135 11.5751 x5-394.304 209.6424-855.7241 67.1162 Coefficienti di regressione standardizzati Value Std dev. x1-0.459 2.8280 x2 0.214 0.0810 x3 1.403 2.7280 x4-0.082 0.1390 x5-0.111 0.0600

Diagnostica di regressione Valutazione della qualità di un modello mediante strumenti grafici. y(exp exp) vs y(calc calc), y(pred pred) objects vs residuals objects vs leverages leverages vs residuals y(calc calc) vs residuals...

Grafico delle risposte

Analisi dei residui Serve a valutare l adeguatezza del modello stimato. e i e i e i x(y) x(y) x(y) e i e i e i x(y) x(y) x(y)

Grafico di Williams per studiare le influenze degli oggetti