Vogliamo determinare una funzione lineare che meglio approssima i nostri dati sperimentali e poter decidere sulla bontà di questa approssimazione. Sia f(x) = mx + q, la coppia di dati (x i, y i ) appartiene al grafico di f(x) se e solo se vale la relazione y i = mx i + q; quindi l errore δ i = mx i + q - y i misura la distanza che c è tra il dato sperimentale (x i, y i ) ed il dato teorico (x i, f(x i )).
Abbiamo quindi n errori δ 1, δ 2,., δ n Prendiamo come misura di quanto f(x) approssima i dati la media aritmetica degli errori elevati al quadrato: n f(m,q)= Σ (mx i + q - y i ) 2 / n i=1 Vogliamo determinare m e q in modo tale da rendere minima f(m,q)
Abbiamo già visto che la media aritmetica è l unico punto di minimo della funzione n f(x) = Σ (x-x i ) 2 i=1 Possiamo quindi dire che, fissato m, abbiamo che q* = y* -mx* è senz altro il valore di q che rende minima la media degli errori al quadrato. Sostituiamo q* nella media degli errori al quadrato
n Σ (mx i - mx*+y* - y i ) 2 / n i=1 Dobbiamo ora determinare m in modo da rendere minima la precedente funzione Se sviluppiamo il quadrato, troviamo una funzione quadratica nell incognita m f(m)= {[ Σ(x i -x*) 2 ] m 2 -[2 Σ(x i -x*)(y i -y*)] m + [ Σ(y i - y*) 2 ]}/n Il punto di minimo si ha per m*= Σ(x i -x*)(y i -y*)/ Σ(x i -x*) 2 = Cov x,y / Var x
Possiamo anche scrivere: m*= Σ(x i - x*)(y i - y*)/ Σ(x i -x*) 2 = = [Σ(x i y i )/n- x* y*]/[σ(x i ) 2 /n- (x * ) 2 ]= = [(x y)* - x* y*]/[(x 2 )* - (x * ) 2 ] Abbiamo quindi trovato la funzione lineare che meglio approssima i dati; rimane da stabilire la bontà dell approssimazione
Possiamo calcolare f(m*), il valore minimo assunto: vale a dire l ordinata del vertice della parabola- grafico della funzione da minimizzare: f(m*)=σ(y i -y*) 2 /n - [Σ(x i y i )/n - x* y*] 2 /[Σ(x i ) 2 /n- (x * ) 2 ]= Σ(y i ) 2 /n- (y * ) 2 - [Σ(x i y i )/n- x* y*] 2 /[Σ(x i ) 2 /n- (x * ) 2 ] f(m*, q*) 0 ed è f(m*, q*)=0 se e solo se le coppie dei dati stanno tutte sulla retta, per cui più f(m*, q*) è vicino a 0 e più l approssimazione è buona
Poiché f(m*,q*) misura la media degli errori (assoluti) al quadrato nelle ordinate, un indice migliore della bontà dell adattamento della legge lineare ai dati è f(m*,q*)/var y Si ottiene 1 - {[(x y)* - x* y*] 2 /[((x 2 )* - (x * ) 2 ) ((y 2 )* - (y * ) 2 )]} Poiché si ha f(m*,q*)/var y 0, ne segue che {[(x y)* - x* y*] 2 /[((x 2 )* - (x * ) 2 ) ((y 2 )* - (y * ) 2 )]} 1 più è vicino a 1 migliore è l approssimazione
La radice quadrata di {[(x y)* - x* y*] 2 /[((x 2 )* - (x * ) 2 ) ((y 2 )* - (y * ) 2 )]} è (x y)* - x* y* / sqr([((x 2 )* - (x * ) 2 ) ((y 2 )* - (y * ) 2 )] più vicina è a 1, migliore è l approssimazione. Togliendo il valore assoluto al numeratore, otteniamo il coefficiente di correlazione o coefficiente di Pearson (CP) CP= [(x y)* - x* y*]/ (DS x DS y ) [-1, 1]
Applichiamo dunque il metodo dei minimi quadrati per determinare la retta di regressione che più si avvicina ai dati sperimentali: Saccarosio in gr/l : s 5 10 15 20 25 30 35 Lunghezza radice in mm: l 33 44 62 56 74 71 80 Abbiamo visto che il coefficiente angolare della retta di regressione è dato da m = [(l s)* - l* s*]/[(s 2 )* - (s * ) 2 ] = Cov s,l / Var s, mentre il termine noto q = l* -ms* Per determinare tutti gli indici necessari costruiamo un opportuna tabella:
s l s 2 l 2 s l 5 33 25 1089 165 10 44 100 1936 440 15 62 225 3844 930 20 56 400 3136 1120 25 74 625 5476 1850 30 71 900 5041 2130 35 80 1225 6400 2800 s*=20 l*=60 (s 2 )*=500 (l 2 )*=3846 (s l)*=1347.86
Possiamo procedere al calcolo di m e di q: m = (1347.68 - (20) (60))/(500-(20) 2 ) = 1.4786 q = 60 - (1.4786) (20) = 30.428 Vediamo se la retta approssima bene i dati sperimentali, calcolando il coefficiente di correlazione, detto anche di Pearson (CP):
CP =(s l)* - s* l* / sqr([((s 2 )* - (s * ) 2 ) ((l 2 )* - (l * ) 2 )] =(1347.86 - (20) (60)) / sqr [(500-(20) 2 ) (3846 - (60) 2 )] = 0.94 Dunque, essendo CP vicino ad 1, l approssimazione è buona.
Dall analisi grafica si osserva una certa differenza tra i dati del campione per i valori più grandi di s e quelli previsti in base al modello di regressione lineare. La crescita sembra aumentare con l aumentare del contenuto di saccarosio non linearmente, ma piuttosto con una relazione che potrebbe essere, ragionevolmente, di radice quadrata. Possiamo determinare la retta di regressione per i dati trasformati in modo da prendere ancora y=l, mentre x= s, vale a dire l(s) = m s +q. Sostituiamo quindi nella tabella precedente le opportune colonne dei dati trasformati s e s l
s l s l 2 s l 5 33 2.24 1089 73.92 10 44 3.16 1936 139.04 15 62 3.87 3844 239.94 20 56 4.47 3136 250.32 25 74 5 5476 370 30 71 5.48 5041 389.08 35 80 5.92 6400 473.6 s*=20 l*=60 ( s)*=4.31 (l 2 )*=3846 ( s l)*=276.56
Nella tabella precedente i dati sono stati calcolati arrotondando alla seconda cifra decimale. Calcoliamo coefficiente angolare m ed intercetta q per questa nuova retta di regressione m = [( s l)* - s* l*]/[s * - (( s) * ) 2 ] = 11.89 q = 60-11.89 4.31 = 8.75 Calcoliamo CP CP = [( s l)*- ( s) * l* ]/sqr[(s * - (( s) * ) 2 ) ((l 2 )* - (l * ) 2 )] = 17.96/350.28 = 0.96 Quindi questa curva approssima meglio i dati.