REGRESSIONE LINEARE E POLINOMIALE Nota ua tabella di dati relativi alle osservazioi di due gradezze X e Y, è aturale formulare ipotesi su quale possa essere ua ragioevole fuzioe che rappreseti o che approssimi la relazioe tra X e Y. Il metodo dei miimi quadrati è ua risposta largamete codivisa a tale problema. Di seguito si preseta iizialmete il modello più semplice di regressioe, quello lieare, per trattare poi casi più complessi i cui il modello di regressioe è di tipo polioomiale. Il modello classico di regressioe lieare semplice Il modello di regressioe lieare semplice suppoe ua relazioe lieare tra x e y, ovvero y = + x + e (1) dove ß 1 e ß soo i parametri della cosiddetta retta di regressioe, i quali devoo essere opportuamete valutati sulla base delle osservazioi ed e rappreseta u termie d errore. Le ipotesi del modello classico di regressioe lieare semplice implicao che la y i sia costituita dalla somma di ua compoete determiistica ß 1 + ß x i e ua termie di scarto e i y i = + x i + e i () ifatti i valori x i della variabile esplicativa soo fissati e ß 1 e ß soo parametri e quidi costati. Per stimare i parametri ß 1 e ß del modello di regressioe si cosidera u campioe costituito da coppie di valori (x 1, y 1 ), (x, y ),..., (x, y ), dove x 1, x,..., x soo i valori degli igressi e y 1, y,..., y soo i valori delle osservazioi. Le osservazioi possoo essere rappresetate i u grafico a dispersioe come esemplificato ella Figura 1. Figura 1. Osservazioi sul modello di regressioe
Le stime soo costituite dai valori dei parametri cui corrispode la retta che approssima al meglio i dati. A tal fie si cosiderao le distaze dei puti (x i, y i ) dalla retta di regressioe, ovvero gli scarti e i = y i ( + x i ) per i = 1,,, (3) e i valori di ß 1 e ß soo scelti i modo tale da miimizzare le distaze dei puti (x i, y i ) dalla retta di regressioe stimata. Poiché alcue distaze soo positive e altre egative, si cosidera la somma delle distaze al quadrato Q(, ) = (y i x i ) (4) Figura. Distaza del puto (x i, y i ) dalla retta di regressioe Le stime del metodo dei miimi quadrati soo quei valori ß i che miimizzao la somma dei quadrati delle distaze, per le quali cioè si ha Q(, 1 ) = mi 1, Q(, ) (5) Derivado si ottiee Q(, ) = (y i x i ) 1 Q(, ) = (y i x i )x i 1 (6) Poedo le derivate uguali a zero e dividedo etrambi i membri per - si ottegoo le equazioi: (y i x i ) = 0
(y i x i )x i = 0 (7) Distribuedo la sommatoria ella prima equazioe si ha y i 1 x i = y x = 0 (8) 1 dove x e y soo le medie aritmetiche dei valori degli igressi e delle osservazioi. Dividedo per e risolvedo rispetto a 1 si ottiee la stima dell itercetta: 1 = y x (9) e quidi = (y i y )x i (x i x ) x i (10) La retta di regressioe stimata ha la seguete equazioe ŷ i = 1 + x i (11) Essa passa per il puto di coordiate (x,y ) ; ifatti dalla formula della stima dell'itercetta si ha y = ß 1 + ß x Figura 3. La retta stimata passa per il puto di coordiate (x, y) Notazioe vettoriale della soluzioe dei miimi quadrati Si cosideri la somma delle distaze al quadrato: ε = [ y ( 1 + x)] (1)
dove: y corrispode al vettore dei dati misurati; 1 + x rappreseta la retta di regressioe; e rappresetao i parametri di regressioe lieare (vettori coloa); N è la lughezza del vettore; La (1) diveta: ε =[ y - ( 1 + x) ] T [y - ( 1 + x)] = y T y - y T x - y T 1 + x T x - x T y + x T 1 1 T y + 1 T x + 1 T 1= y T y - y T x - y T 1 + x T x ( x T y ) T + x T 1 ( 1 T y ) T + + (1 T x ) T + 1 T 1 = y T y - y T 1 - y T x + x T x + N + x T 1 I coefficieti e si determiao i modo da miimizzare ε, poedo a zero le derivate parziali di ε rispetto ad e rispetto a : ε = y T x + x T x + x T 1 = 0 ε = y T 1 + x T 1 + N = 0 x T x + x T 1 = y T x x T 1 + N = y T 1 = y T x x T 1 y T 1 N x T x x T 1 x T 1 N = N yt x ( x T 1)( y T 1) Nx T x x T 1 = N k x k y k k x k k y k N N k=1 x k ( x i )
= x T x y T x x T 1 y T 1 x T x x T 1 x T 1 N = ( xt x)( y T 1) ( y T x)( x T 1) Nx T x x T 1 = k x k k y k k x k y k k x k N N k=1 x k ( x i ) oppure si ricava i fuzioe di : = yt 1 x T 1 N Le espressioi simboliche sembrao iguardabili, ma si possoo riscrivere i ua forma più leggibile. Se si idica co - X la media aritmetica di x = {x i,, x } cioè 1 x i - Y la media aritmetica di y = {y i,, y } cioè 1 y i - X la media aritmetica di x = {x i,, x } cioè 1 x i - XY la media aritmetica di xy = {x i y i,, x y } cioè 1 allora dividedo per il sistema diveta X + 1 X = XY x i y i X + = Y (13) La secoda equazioe mette i luce che il baricetro (X, Y ) cioè il puto le cui coordiate soo la media delle ascisse e la media delle ordiate, appartiee alla retta di regressioe, perché soddisfa l equazioe y = + x. Si può ora scrivere la soluzioe mediate u espressioe simbolica più semplice: = XY X Y (14) X X = Y X (15) Regressioe lieare multipla Nel modello di regressioe semplice le variazioi delle osservazioi soo spiegate mediate ua sola variabile d igresso. Si ottiee così u modello molto semplice che tuttavia o è sempre i grado di spiegare i feomei di iteresse i maiera adeguata.
U modello di regressioe multipla spiega la variabile dipedete y i fuzioe di k variabili esplicative o regressori, co k >, y = + x + 3 x 3 + + k x k + ε (16) Per covezioe la prima variabile esplicativa e costate x 1 = 1. Il primo coefficiete di regressioe rappreseta quidi l itercetta del modello. Il modello di regressioe multipla può essere rappresetato i termii matriciali: Si cosideri u campioe di umerosità sul modello di regressioe lieare multipla y = + x i + 3 x 3i + + k x ki + ε i per i = 1,,. (17) Sia Y u vettore le cui compoeti soo costituite dalle variabili y 1, y,..., y e X ua matrice di dimesioi k co i valori delle variabili esplicative, y 1 1 x 1 x k1 Y = y, X = 1 x x k (18) [ y ] [ 1 x x k ] Nella matrice X ogi coloa corrispode ad u regressore: la prima coloa ha tutti elemeti uitari, la secoda cotiee i valori osservati di x e così via fio all ultima coloa che cotiee i valori di x k. Si defiisce quidi il vettore, di dimesioe, co i parametri del modello di regressioe e il vettore, di dimesioi, co gli scarti ε 1 = ε = ε (19) [ ] [ ε ] I forma matriciale il problema è rappresetato da Y = Xβ + ε (0) che corrispode a
y 1 = β 1 + β x 1 + β 3 x 31 + β k x k1 + ε 1 y = β 1 + β x + β 3 x 3 + β k x k + ε (1) y = β 1 + β x + β 3 x 3 + β k x k + ε Regressioe poliomiale Si propoe di descrivere alcue curve di adattameto co il metodo dei miimi quadrati e di forire u metodo iterativo per geeralizzare tali fuzioi a poliomi di grado M. Spesso si può esprimere ua variabile, y, come poliomiale di ua secoda variabile x : y = A + Bx + C x +... + Z x M + ε () Si suppoga per esempio di avere ua poliomiale di forma quadratica, y = A + Bx + C x + ε (3) ota ua serie di valori (xi, yi ), i = 1,..,N per ogi xi il valore yi si ottiee dalla (3) dove A,B,C soo acora icogite. La miglior stima per A,B,C è data da quei valori per cui la sommatoria degli scarti quadratici (i otazioe vettoriale) è miima. Si differezi quidi rispetto a A,B,C : ε N A = (A y i + Bx i + Cx i ) N ε B = 1 σ (Bx i x i y i + Ax i + Cx 3 i ) y ε N = 1 C σ (C 4 y x y i x i i + A x i + Bx 3 i ) (4) poedo uguale a zero, omettedo gli estremi di sommatoria: y i = AN + B x i + C x i y i x i = A x i + B x 3 i + C x i y i x i = A x i + B x i 3 + C x i 4 (5) si tratta si u sistema 3x3 che i forma matriciale diveta
N x i x i A y i x i x i x i 3 B = y i x i (6) 3 [ x i x i x 4 i ] [ C] [ y i x i ] che è del tipo A X = B (7) e si può risolvere i diversi modi tra cui: X = A 1 B (8) Trovati i valori di A,B,C si sostituiscoo ella (3). I geerale voledo ricavare ua poliomiale di grado M si avrao M+1 equazioi i M+1 icogite, la matrice A sarà di dimesiioi (M+1)x(M+1), i vettori B e X avrao lughezza (M+1). I coefficieti della matrice da ivertire e i termii oti del problema risultao quelli del sistema: N x i x i x i A y i x i x i x i +1 B y i x i x i x i 3 x i + C = y i x i (9) +1 [ x i x i x i ] [ Z] [ y i x i ] Risolvedo tale sistema si ottegoo i valori A,B,C,...,Z da sostituire ella (), questa equazioe rappreseta la regressioe poliomiale di adattameto ai dati (x i,y i ).