METODO DEI MINIMI QUADRATI

METODO DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura. Ripetendo varie volte l esperimento con diverse quantità di saccarosio, abbiamo misurato le lunghezze della radice, ottenendo i dati riportati nella seguente tabella: Saccarosio in gr/l : s 5 10 15 20 25 30 35 Lunghezza radice in mm: l 33 44 62 56 74 71 80

METODO DEI MINIMI QUADRATI Ci piacerebbe poter esprimere la dipendenza di l da s mediante una funzione l(s). Abbiamo già controllato, per tre di questi dati, che non è possibile determinare una funzione lineare che corrisponda esattamente ai dati raccolti. I punti (5,33), (15,62), (25,74) non sono allineati! Tuttavia potremmo cercare una funzione lineare che, pur non potendo corrispondere esattamente ai dati, sia il più vicino possibile, in un senso che preciseremo a breve, ad essi.

MEDIA ARITMETICA DEI DATI Alcune nozioni preliminari: Definiamo media aritmetica dei dati campionari x 1,x 2,..,x n, il numero ottenuto facendo la somma dei dati del campione e dividendo tale somma per n, dove n è la numerosità campionaria x*= (x 1 + x 2 +..+ x n )/n Esempio: la quantità media di saccarosio presente nel terreno di coltura nei nostri esperimenti è (5+10+15+20+25+30+30) / 7 = 140/7 = 20 gr/l

MEDIA ARITMETICA DEI DATI La lunghezza media della radice di mais, ottenuta nei nostri esperimenti è (33+44+62+56+74+71+80)/7 = 420/7 = 60 mm Proprietà della media aritmetica x*: n Σ (x*-x i ) = 0 i=1 (dimostralo per esercizio )

MEDIA ARITMETICA DEI DATI La media aritmetica è l unico punto di minimo della funzione n f(x) = Σ (x-x i ) 2 i=1 Sviluppando i quadrati, vediamo che f(x) è una funzione quadratica n n n f(x) = Σ (x 2-2x i x + x i2 ) = nx 2-2( Σ x i )x + Σ x i 2 i=1 i=1 i=1

MEDIA ARITMETICA DEI DATI f(x) = ax 2 + bx + c, dove n a = n, b = 2 Σ x i, c = Σ x i 2 i=1 i=1 Quindi il punto di minimo di f è n x* = b/2a = (Σ x i )/n i=1 che è, appunto, la media aritmetica dei dati campionari n

MEDIA ARITMETICA DEI DATI Si osserva che per ottenere la media dei dati ax 1, ax 2,.., ax n, dove si è moltiplicato ciascuno dato per una costante reale a basta (perché?) moltiplicare per a la media x* dei dati originali. Vale a dire che se cambiamo unità di misura ai dati, basta cambiare allo stesso modo l unità di misura della loro media.

MEDIA ARITMETICA DEI DATI Esempio: Se x 1, x 2,, x n, sono temperature misurate in gradi Fahrenheit e x* = 50 F, qual è la media delle stesse temperature in gradi centigradi? I gradi C si ottengono da quelli F con la trasformazione x (x-32)100/180, la media subisce la stessa trasformazione, dunque 50 F = (50-32)100/180 C = 10 C

MEDIA ARITMETICA DEI DATI Si osserva che per ottenere la media dei dati x 1 + y 1, x 2 + y 2,.., x n + y n, basta (perché?) sommare la media dei dati x alla media dei dati y.

VARIANZA DEI DATI Definiamo la varianza campionaria, indicando con x* la media aritmetica dei dati campionari: Var x = n Σ (x i - x*) 2 / n i=1 La varianza campionaria è un indice di quanto i dati sono dispersi intorno alla media campionaria La radice quadrata della varianza si chiama deviazione standard

VARIANZA DEI DATI ESEMPIO: determiniamo la varianza campionaria della lunghezza della radice di mais. Abbiamo già calcolato la media l* = 60 mm Possiamo procedere applicando direttamente la definizione: Var l =[(33-60) 2 + (44-60) 2 + (62-60) 2 + (56-60) 2 + (74-60) 2 + (71-60) 2 + (80-60) 2 ] /7 = 1722 /7 246 mm 2 La DS è Var l 246 mm 2 15.68 mm

VARIANZA DEI DATI La varianza campionaria può essere calcolata in modo più rapido tenendo conto che, se sviluppiamo i quadrati, otteniamo la differenza tra la media aritmetica dei dati al quadrato e la media aritmetica dei dati elevata al quadrato: n n Σ (x i - x*) 2 / n = Σ (x 2 i -2x i x* + (x * ) 2 )/n = i=1 i=1 n =( Σ x i 2 /n ) - (x * ) 2 i=1 Var x = (x 2 )* - (x*) 2

VARIANZA DEI DATI Esempio:per determinare la varianza campionaria della lunghezza della radice di mais avremmo potuto calcolare dapprima la media dei dati elevati al quadrato (x 2 )* =[(33) 2 + (44) 2 + (62) 2 + (56) 2 + (74) 2 + (71) 2 + (80) 2 ] /7 =3846 A questo numero sottrarre (x*) 2 = 60 2 Ottenendo Var l =3846-3600 =246 mm 2 Attenzione! La varianza non conserva l unità di misura

COEFFICIENTE DI VARIAZIONE Il rapporto tra la deviazione standard campionaria DS, e la media campionaria x*, si chiama coefficiente di variazione CV = DS/x* ESEMPIO: Il coefficiente di variazione della lunghezza della radice di mais CV l 15.68 / 60 0.26 CV è una misura della dispersione dei dati intorno alla media che non dipende dall unità di misura e permette quindi di confrontare la dispersione di dati diversi.

COVARIANZA DEI DATI Un indice di possibile correlazione tra due serie di dati x 1,x 2,..,x n, ed y 1,y 2,..,y n, di medie aritmetiche rispettivamente x* ed y*, è la covarianza, così definita: n Cov x,y = Σ (x i -x*) (y i - y*) / n = Σ x i y i /n - x* y*= i=1 i=1 (xy)*- x* y* n

COVARIANZA DEI DATI Esempio: Abbiamo un campione di 10 comchiglie di Spaeronassa; per ogni unità del campione abbiamo misurato (in cm) l altezza X, la larghezza Y, e l altezza della bocca Z, ottenendo i risultati riportati nella seguente tabella: X 2.40 2.57 2.60 3.27 2.52 1.28 2.15 1.49 1.71 1.55 Y 1.58 1.57 1.78 2.05 1.59 0.79 1.35 0.96 1.07 0.90 Z 1.48 1.55 1.65 1.92 1.55 0.80 1.25 0.87 1.05 0.91

COVARIANZA DEI DATI Determiniamo la covarianza tra x ed y. 1) Calcoliamo le medie aritmetiche di x e di y, si ottiene x*= 2.154 cm, y*=1.364 cm 2) Calcoliamo la media aritmetica del prodotto xy: (xy)*= [(2.40)(1.58) +(2.57)(1.57)+..+(1.55)(0.90)]/10 = 3.1734 3) Otteniamo Cov x,y =3.1734 - (2.154)(1.364) 0.235 Calcola per esercizio: Cov x,z e Cov y,z

COVARIANZA DEI DATI Che cosa ottieni se calcoli Cov x,x? Si ottiene la varianza di x Infatti dalla definizione di covarianza: n Cov x,x = Σ (x i -x*) (x i - x*) / n = Var x i=1

COEFFICIENTE DI CORRELAZIONE La covarianza è un indice sensibile all unità di misura, ad esso è preferibile il coefficiente di correlazione, ottenuto dalla covarianza dividendola per il prodotto delle deviazioni standard delle due serie di dati campionari (e quindi non più sensibile (perché?) alle unità di misura), vale a dire r x,y = Cov x,y /[(DS x )(DS y )] r x,y = [(x y)* - x* y*]/{sqr[((x 2 )*-(x*) 2 ) ((y 2 )*-(y*) 2 )]}

COEFFICIENTE DI CORRELAZIONE Esempio: calcoliamo il coefficiente di correlazione tra l altezza X e la larghezza Y del campione di Spaeronassa. Dobbiamo calcolare la varianza di X e di Y Var x =(x 2 )*-(x*) 2 4.998 - (2.154) 2 0.36 Var y =(y 2 )*-(y*) 2 2.018 - (1.364) 2 0.158 Calcoliamo le deviazioni standard: DS x = sqr(0.36) = 0.6, DS y = sqr(0.158) 0.397 Poiché avevamo calcolato Cov x,y 0.235, abbiamo r x,y 0.235/[(0.6)(0.397)] 0.987

COEFFICIENTE DI CORRELAZIONE Osserviamo che r x,x = 1 per qualsiasi serie di dati campionari, perché? Dalla definizione r x,y = Cov x,y /[(DS x )(DS y )], dunque r x,x = Cov x,x /[(DS x )(DS x )] = Var x /Var x =1

METODO DEI MINIMI QUADRATI Vogliamo determinare una funzione lineare che meglio approssima i nostri dati sperimentali e poter decidere sulla bontà di questa approssimazione. Sia f(x) = mx + q, la coppia di dati (x i, y i ) appartiene al grafico di f(x) se e solo se vale la relazione y i = mx i + q; quindi l errore δ i = mx i + q y i misura la distanza che c è tra il dato sperimentale (x i, y i ) ed il dato teorico (x i, f(x i )).

METODO DEI MINIMI QUADRATI Abbiamo quindi n errori δ 1, δ 2,., δ n Prendiamo come misura di quanto f(x) approssima i dati la media aritmetica degli errori elevati al quadrato: n f(m,q)= Σ (mx i + q - y i ) 2 / n i=1 Vogliamo determinare m e q in modo tale da rendere minima f(m,q)

METODO DEI MINIMI QUADRATI Abbiamo già visto che la media aritmetica è l unico punto di minimo della funzione n f(x) = Σ (x-x i ) 2 i=1 Possiamo quindi dire che, fissato m, abbiamo che q = y* -mx* è senz altro il valore di q che rende minima la media degli errori al quadrato. Sostituiamo q nella media degli errori al quadrato

METODO DEI MINIMI QUADRATI n Σ (mx i - mx*+y* - y i ) 2 / n i=1 Dobbiamo ora determinare m in modo da rendere minima la precedente funzione Se sviluppiamo il quadrato, troviamo una funzione quadratica nell incognita m f(m)= {[ Σ(x i -x*) 2 ] m 2 [2 Σ(x i -x*)(y i -y*)] m + [ Σ(y i - y*) 2 ]}/n Il punto di minimo si ha per m = Σ(x i -x*)(y i -y*)/ Σ(x i -x*) 2 = Cov x,y / Var x

METODO DEI MINIMI QUADRATI Possiamo anche scrivere: m = Σ(x i x*)(y i y*)/ Σ(x i x*) 2 = = [Σ(x i y i )/n x* y*]/[σ(x i ) 2 /n (x * ) 2 ]= = [(x y)* x* y*]/[(x 2 )* (x * ) 2 ] Abbiamo quindi trovato la funzione lineare che meglio approssima i dati; rimane da stabilire la bontà dell approssimazione

METODO DEI MINIMI QUADRATI Possiamo calcolare f(m*), il valore minimo assunto: vale a dire l ordinata del vertice della parabola- grafico della funzione da minimizzare: f(m )=Σ(y i y*) 2 /n [Σ(x i y i )/n x* y*] 2 /[Σ(x i ) 2 /n (x * ) 2 ]= Σ(y i ) 2 /n (y * ) 2 [Σ(x i y i )/n x* y*] 2 /[Σ(x i ) 2 /n (x * ) 2 ] f(m, q ) 0 ed è f(m, q )=0 se e solo se le coppie dei dati stanno tutte sulla retta, per cui più f(m, q ) è vicino a 0 e più l approssimazione è buona

METODO DEI MINIMI QUADRATI Poiché f(m,q ) misura la media degli errori (assoluti) al quadrato nelle ordinate, un indice migliore della bontà dell adattamento della legge lineare ai dati è f(m,q )/Var y Si ottiene 1 {[(x y)* x* y*] 2 /[((x 2 )* (x * ) 2 ) ((y 2 )* (y * ) 2 )]} Dove {[(x y)* x* y*] 2 /[((x 2 )* (x * ) 2 ) ((y 2 )* (y * ) 2 )]} 1 più è vicino a 1 migliore è l approssimazione

METODO DEI MINIMI QUADRATI La radice quadrata di {[(x y)* x* y*] 2 /[((x 2 )* (x * ) 2 ) ((y 2 )* (y * ) 2 )]} è (x y)* x* y* / sqr([((x 2 )* (x * ) 2 ) ((y 2 )* (y * ) 2 )] più vicina è a 1, migliore è l approssimazione. Togliendo il valore assoluto al numeratore, otteniamo il coefficiente di correlazione o coefficiente di Pearson (CP) CP= [(x y)* x* y*]/ (DS x DS y ) [-1, 1]

METODO DEI MINIMI QUADRATI Applichiamo dunque il metodo dei minimi quadrati per determinare la retta di regressione che più si avvicina ai dati sperimentali: Saccarosio in gr/l : s 5 10 15 20 25 30 Lunghezza radice in mm: l Abbiamo visto che il coefficiente angolare della retta di regressione è dato da m = [(l s)* l* s*]/[(s 2 )* (s * ) 2 ] = Cov s,l / Var s, mentre il termine noto q = l* -ms* Per determinare tutti gli indici necessari costruiamo un opportuna tabella: 33 44 62 56 74 71 35 80

METODO DEI MINIMI QUADRATI s l s 2 l 2 s l 5 33 25 1089 165 10 44 100 1936 440 15 62 225 3844 930 20 56 400 3136 1120 25 74 625 5476 1850 30 71 900 5041 2130 35 80 1225 6400 2800 s*=20 l*=60 (s 2 )*=500 (l 2 )*=3846 (s l)*=1347.86

METODO DEI MINIMI QUADRATI Possiamo procedere al calcolo di m e di q: m = (1347.68 (20) (60))/(500 (20) 2 ) = 1.4786 q = 60 - (1.4786) (20) = 30.428 Vediamo se la retta approssima bene i dati sperimentali, calcolando il coefficiente di correlazione, detto anche di Pearson (CP):

METODO DEI MINIMI QUADRATI CP =(s l)* s* l* / sqr([((s 2 )* (s * ) 2 ) ((l 2 )* (l * ) 2 )] =(1347.86 - (20) (60)) / sqr [(500-(20) 2 ) (3846 - (60) 2 )] = 0.94 Dunque, essendo CP vicino ad 1, l approssimazione è buona.

METODO DEI MINIMI QUADRATI

METODO DEI MINIMI QUADRATI Dall analisi grafica si osserva una certa differenza tra i dati del campione per i valori più grandi di s e quelli previsti in base al modello di regressione lineare. La crescita sembra aumentare con l aumentare del contenuto di saccarosio non linearmente, ma piuttosto con una relazione che potrebbe essere, ragionevolmente, di radice quadrata. Possiamo determinare la retta di regressione per i dati trasformati in modo da prendere ancora y=l, mentre x= s, vale a dire l(s) = m s +q. Sostituiamo quindi nella tabella precedente le opportune colonne dei dati trasformati s e s l

METODO DEI MINIMI QUADRATI s l s l 2 s l 5 33 2.24 1089 73.92 10 44 3.16 1936 139.04 15 62 3.87 3844 239.94 20 56 4.47 3136 250.32 25 74 5 5476 370 30 71 5.48 5041 389.08 35 80 5.92 6400 473.6 s*=20 l*=60 ( s)*=4.31 (l 2 )*=3846 ( s l)*=276.56

METODO DEI MINIMI QUADRATI Nella tabella precedente i dati sono stati calcolati arrotondando alla seconda cifra decimale. Calcoliamo coefficiente angolare m ed intercetta q per questa nuova retta di regressione m = [( s l)* s* l*]/[s * (( s) * ) 2 ] = 11.89 q = 60-11.89 4.31 = 8.75 Calcoliamo CP CP = [( s l)*- ( s) * l* ]/sqr[(s * (( s) * ) 2 ) ((l 2 )* (l * ) 2 )] = 17.96/350.28 = 0.96 Quindi questa curva approssima meglio i dati.