METODO DEI MINIMI QUADRATI

Похожие документы
Dati campionari:media, varianza, bruchi

REGRESSIONE E CORRELAZIONE

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Esercitazione del

SCOPO DELL ANALISI DI CORRELAZIONE

Statistica. Alfonso Iodice D Enza

La retta di regressione

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Statistica. Alfonso Iodice D Enza

Capitolo 11. minimi quadrati Il metodo dei minimi quadrati

Precorso di Matematica

Elementi di Psicometria con Laboratorio di SPSS 1

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

Dal coefficiente di Correlazione lineare tra due grandezze x, y alla covarianza.

MATEMATICA CORSO A CORSO DI LAUREA IN SCIENZE BIOLOGICHE I PROVA IN ITINERE COMPITO PROVA 1

FUNZIONI QUADRATICHE

Una statistica è una quantità numerica il cui valore è determinato dai dati.

Statistica di base per l analisi socio-economica

Stesso valore medio per distribuzioni diverse

Distribuzioni secondo due caratteri. Rappresentazioni e prime sintesi

Appunti sulla circonferenza

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di dispersione

MATEMATICA EQUAZIONI FRATTE, DI SECONDO GRADO O SUPERIORE GSCATULLO

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Lezione 4 a - Misure di dispersione o di variabilità

Ricordiamo. 1. Tra le equazioni delle seguenti rette individua e disegna quelle parallele all asse delle ascisse:

Distribuzione Normale

Statistica Un Esempio

Tema d esame del 15/02/12

Esercizio. Sia a R non nullo e siano m, n numeri interi non nulli con m n. Allora a m /a n è uguale a. [1] 1/a n m [2] 1/a m n [3] 1/a n m [4] a n m

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

Covarianza, correlazione e retta di regressione. Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Esercitazioni di Statistica

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

ESERCIZI SUI NUMERI COMPLESSI

ESERCITAZIONE IV - Soluzioni

SIMULAZIONE - 29 APRILE QUESITI

LE EQUAZIONI DI SECONDO GRADO

Esercitazione di Statistica Indici di associazione

Test per la correlazione lineare

Associazione tra caratteri quantitativi: gli indici di correlazione

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

Anno 5 Regole di derivazione

Elementi di Psicometria

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:

Piano cartesiano e Retta

MATEMATICA LA CIRCONFERENZA GSCATULLO

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Le derivate parziali

UNIVERSITÀ di ROMA TOR VERGATA

x 2 + (x+4) 2 = 20 Alle equazioni di secondo grado si possono applicare i PRINCIPI di EQUIVALENZA utilizzati per le EQUAZIONI di PRIMO GRADO.

STATISTICA I - CORSO DI LAUREA IN STATISTICA a.a. 2004/2005 Prova intermedia del 01 aprile 2005

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

Esercizi sui sistemi di equazioni lineari.

Esercizi sulle radici

Esercizio 1 Questa tabella esprime i tempi di durata di 200 apparecchiature elettriche:

Esercizi sulle superfici - aprile 2009

a b a : b Il concetto di rapporto

Anno 1. Divisione fra polinomi

EQUAZIONE DELLA RETTA

DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:

Funzioni elementari: funzioni potenza

RISPOSTE MOTIVATE QUIZ D AMMISSIONE MATEMATICA

2 2 2 A = Il Det(A) = 2 quindi la conica è non degenere, di rango 3.

LABORATORIO DI CIRCUITI ELETTRICI Nozioni generali e guida agli esperimenti. Rappresentazione grafica dei risultati sperimentali

Per equazione lineare nelle incognite x, y intendo un equazione del tipo. ax = b,

Statistica descrittiva II

1.4 PRODOTTI NOTEVOLI

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

si tratta del test del chi-quadro di adattamento e di quello di indipendenza. 1 l ipotesi che la popolazione segua una legge fissata;

CAPITOLO 14. Quadriche. Alcuni esercizi di questo capitolo sono ripetuti in quanto risolti in maniera differente.

Il Corso di Fisica per Scienze Biologiche

1 L estrazione di radice

Ellisse. Come fa un giardiniere a creare un aiuola di forma ellittica?

Test di ipotesi su due campioni

Scale Logaritmiche. Matematica con Elementi di Statistica a.a. 2015/16

Intervalli di confidenza

Equazioni lineari con due o più incognite

Capitolo uno STATISTICA DESCRITTIVA BIVARIATA

L errore percentuale di una misura è l errore relativo moltiplicato per 100 ed espresso in percentuale. Si indica con e p e risulta: e ( e 100)%

PROBLEMI DI SECONDO GRADO: ESEMPI

Corso di Psicometria Progredito

DERIVATE E LORO APPLICAZIONE

Si dice parabola il luogo geometrico dei punti del piano, equidistanti da un punto fisso, detto fuoco, e da una retta fissa, detta direttrice.

Sistemi lineari. Lorenzo Pareschi. Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara

Prodotto scalare, ortogonalitá e basi ortonormali

Транскрипт:

METODO DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura. Ripetendo varie volte l esperimento con diverse quantità di saccarosio, abbiamo misurato le lunghezze della radice, ottenendo i dati riportati nella seguente tabella: Saccarosio in gr/l : s 5 10 15 20 25 30 35 Lunghezza radice in mm: l 33 44 62 56 74 71 80

METODO DEI MINIMI QUADRATI Ci piacerebbe poter esprimere la dipendenza di l da s mediante una funzione l(s). Abbiamo già controllato, per tre di questi dati, che non è possibile determinare una funzione lineare che corrisponda esattamente ai dati raccolti. I punti (5,33), (15,62), (25,74) non sono allineati! Tuttavia potremmo cercare una funzione lineare che, pur non potendo corrispondere esattamente ai dati, sia il più vicino possibile, in un senso che preciseremo a breve, ad essi.

MEDIA ARITMETICA DEI DATI Alcune nozioni preliminari: Definiamo media aritmetica dei dati campionari x 1,x 2,..,x n, il numero ottenuto facendo la somma dei dati del campione e dividendo tale somma per n, dove n è la numerosità campionaria x*= (x 1 + x 2 +..+ x n )/n Esempio: la quantità media di saccarosio presente nel terreno di coltura nei nostri esperimenti è (5+10+15+20+25+30+30) / 7 = 140/7 = 20 gr/l

MEDIA ARITMETICA DEI DATI La lunghezza media della radice di mais, ottenuta nei nostri esperimenti è (33+44+62+56+74+71+80)/7 = 420/7 = 60 mm Proprietà della media aritmetica x*: n Σ (x*-x i ) = 0 i=1 (dimostralo per esercizio )

MEDIA ARITMETICA DEI DATI La media aritmetica è l unico punto di minimo della funzione n f(x) = Σ (x-x i ) 2 i=1 Sviluppando i quadrati, vediamo che f(x) è una funzione quadratica n n n f(x) = Σ (x 2-2x i x + x i2 ) = nx 2-2( Σ x i )x + Σ x i 2 i=1 i=1 i=1

MEDIA ARITMETICA DEI DATI f(x) = ax 2 + bx + c, dove n a = n, b = 2 Σ x i, c = Σ x i 2 i=1 i=1 Quindi il punto di minimo di f è n x* = b/2a = (Σ x i )/n i=1 che è, appunto, la media aritmetica dei dati campionari n

MEDIA ARITMETICA DEI DATI Si osserva che per ottenere la media dei dati ax 1, ax 2,.., ax n, dove si è moltiplicato ciascuno dato per una costante reale a basta (perché?) moltiplicare per a la media x* dei dati originali. Vale a dire che se cambiamo unità di misura ai dati, basta cambiare allo stesso modo l unità di misura della loro media.

MEDIA ARITMETICA DEI DATI Esempio: Se x 1, x 2,, x n, sono temperature misurate in gradi Fahrenheit e x* = 50 F, qual è la media delle stesse temperature in gradi centigradi? I gradi C si ottengono da quelli F con la trasformazione x (x-32)100/180, la media subisce la stessa trasformazione, dunque 50 F = (50-32)100/180 C = 10 C

MEDIA ARITMETICA DEI DATI Si osserva che per ottenere la media dei dati x 1 + y 1, x 2 + y 2,.., x n + y n, basta (perché?) sommare la media dei dati x alla media dei dati y.

VARIANZA DEI DATI Definiamo la varianza campionaria, indicando con x* la media aritmetica dei dati campionari: Var x = n Σ (x i - x*) 2 / n i=1 La varianza campionaria è un indice di quanto i dati sono dispersi intorno alla media campionaria La radice quadrata della varianza si chiama deviazione standard

VARIANZA DEI DATI ESEMPIO: determiniamo la varianza campionaria della lunghezza della radice di mais. Abbiamo già calcolato la media l* = 60 mm Possiamo procedere applicando direttamente la definizione: Var l =[(33-60) 2 + (44-60) 2 + (62-60) 2 + (56-60) 2 + (74-60) 2 + (71-60) 2 + (80-60) 2 ] /7 = 1722 /7 246 mm 2 La DS è Var l 246 mm 2 15.68 mm

VARIANZA DEI DATI La varianza campionaria può essere calcolata in modo più rapido tenendo conto che, se sviluppiamo i quadrati, otteniamo la differenza tra la media aritmetica dei dati al quadrato e la media aritmetica dei dati elevata al quadrato: n n Σ (x i - x*) 2 / n = Σ (x 2 i -2x i x* + (x * ) 2 )/n = i=1 i=1 n =( Σ x i 2 /n ) - (x * ) 2 i=1 Var x = (x 2 )* - (x*) 2

VARIANZA DEI DATI Esempio:per determinare la varianza campionaria della lunghezza della radice di mais avremmo potuto calcolare dapprima la media dei dati elevati al quadrato (x 2 )* =[(33) 2 + (44) 2 + (62) 2 + (56) 2 + (74) 2 + (71) 2 + (80) 2 ] /7 =3846 A questo numero sottrarre (x*) 2 = 60 2 Ottenendo Var l =3846-3600 =246 mm 2 Attenzione! La varianza non conserva l unità di misura

COEFFICIENTE DI VARIAZIONE Il rapporto tra la deviazione standard campionaria DS, e la media campionaria x*, si chiama coefficiente di variazione CV = DS/x* ESEMPIO: Il coefficiente di variazione della lunghezza della radice di mais CV l 15.68 / 60 0.26 CV è una misura della dispersione dei dati intorno alla media che non dipende dall unità di misura e permette quindi di confrontare la dispersione di dati diversi.

COVARIANZA DEI DATI Un indice di possibile correlazione tra due serie di dati x 1,x 2,..,x n, ed y 1,y 2,..,y n, di medie aritmetiche rispettivamente x* ed y*, è la covarianza, così definita: n Cov x,y = Σ (x i -x*) (y i - y*) / n = Σ x i y i /n - x* y*= i=1 i=1 (xy)*- x* y* n

COVARIANZA DEI DATI Esempio: Abbiamo un campione di 10 comchiglie di Spaeronassa; per ogni unità del campione abbiamo misurato (in cm) l altezza X, la larghezza Y, e l altezza della bocca Z, ottenendo i risultati riportati nella seguente tabella: X 2.40 2.57 2.60 3.27 2.52 1.28 2.15 1.49 1.71 1.55 Y 1.58 1.57 1.78 2.05 1.59 0.79 1.35 0.96 1.07 0.90 Z 1.48 1.55 1.65 1.92 1.55 0.80 1.25 0.87 1.05 0.91

COVARIANZA DEI DATI Determiniamo la covarianza tra x ed y. 1) Calcoliamo le medie aritmetiche di x e di y, si ottiene x*= 2.154 cm, y*=1.364 cm 2) Calcoliamo la media aritmetica del prodotto xy: (xy)*= [(2.40)(1.58) +(2.57)(1.57)+..+(1.55)(0.90)]/10 = 3.1734 3) Otteniamo Cov x,y =3.1734 - (2.154)(1.364) 0.235 Calcola per esercizio: Cov x,z e Cov y,z

COVARIANZA DEI DATI Che cosa ottieni se calcoli Cov x,x? Si ottiene la varianza di x Infatti dalla definizione di covarianza: n Cov x,x = Σ (x i -x*) (x i - x*) / n = Var x i=1

COEFFICIENTE DI CORRELAZIONE La covarianza è un indice sensibile all unità di misura, ad esso è preferibile il coefficiente di correlazione, ottenuto dalla covarianza dividendola per il prodotto delle deviazioni standard delle due serie di dati campionari (e quindi non più sensibile (perché?) alle unità di misura), vale a dire r x,y = Cov x,y /[(DS x )(DS y )] r x,y = [(x y)* - x* y*]/{sqr[((x 2 )*-(x*) 2 ) ((y 2 )*-(y*) 2 )]}

COEFFICIENTE DI CORRELAZIONE Esempio: calcoliamo il coefficiente di correlazione tra l altezza X e la larghezza Y del campione di Spaeronassa. Dobbiamo calcolare la varianza di X e di Y Var x =(x 2 )*-(x*) 2 4.998 - (2.154) 2 0.36 Var y =(y 2 )*-(y*) 2 2.018 - (1.364) 2 0.158 Calcoliamo le deviazioni standard: DS x = sqr(0.36) = 0.6, DS y = sqr(0.158) 0.397 Poiché avevamo calcolato Cov x,y 0.235, abbiamo r x,y 0.235/[(0.6)(0.397)] 0.987

COEFFICIENTE DI CORRELAZIONE Osserviamo che r x,x = 1 per qualsiasi serie di dati campionari, perché? Dalla definizione r x,y = Cov x,y /[(DS x )(DS y )], dunque r x,x = Cov x,x /[(DS x )(DS x )] = Var x /Var x =1

METODO DEI MINIMI QUADRATI Vogliamo determinare una funzione lineare che meglio approssima i nostri dati sperimentali e poter decidere sulla bontà di questa approssimazione. Sia f(x) = mx + q, la coppia di dati (x i, y i ) appartiene al grafico di f(x) se e solo se vale la relazione y i = mx i + q; quindi l errore δ i = mx i + q y i misura la distanza che c è tra il dato sperimentale (x i, y i ) ed il dato teorico (x i, f(x i )).

METODO DEI MINIMI QUADRATI Abbiamo quindi n errori δ 1, δ 2,., δ n Prendiamo come misura di quanto f(x) approssima i dati la media aritmetica degli errori elevati al quadrato: n f(m,q)= Σ (mx i + q - y i ) 2 / n i=1 Vogliamo determinare m e q in modo tale da rendere minima f(m,q)

METODO DEI MINIMI QUADRATI Abbiamo già visto che la media aritmetica è l unico punto di minimo della funzione n f(x) = Σ (x-x i ) 2 i=1 Possiamo quindi dire che, fissato m, abbiamo che q = y* -mx* è senz altro il valore di q che rende minima la media degli errori al quadrato. Sostituiamo q nella media degli errori al quadrato

METODO DEI MINIMI QUADRATI n Σ (mx i - mx*+y* - y i ) 2 / n i=1 Dobbiamo ora determinare m in modo da rendere minima la precedente funzione Se sviluppiamo il quadrato, troviamo una funzione quadratica nell incognita m f(m)= {[ Σ(x i -x*) 2 ] m 2 [2 Σ(x i -x*)(y i -y*)] m + [ Σ(y i - y*) 2 ]}/n Il punto di minimo si ha per m = Σ(x i -x*)(y i -y*)/ Σ(x i -x*) 2 = Cov x,y / Var x

METODO DEI MINIMI QUADRATI Possiamo anche scrivere: m = Σ(x i x*)(y i y*)/ Σ(x i x*) 2 = = [Σ(x i y i )/n x* y*]/[σ(x i ) 2 /n (x * ) 2 ]= = [(x y)* x* y*]/[(x 2 )* (x * ) 2 ] Abbiamo quindi trovato la funzione lineare che meglio approssima i dati; rimane da stabilire la bontà dell approssimazione

METODO DEI MINIMI QUADRATI Possiamo calcolare f(m*), il valore minimo assunto: vale a dire l ordinata del vertice della parabola- grafico della funzione da minimizzare: f(m )=Σ(y i y*) 2 /n [Σ(x i y i )/n x* y*] 2 /[Σ(x i ) 2 /n (x * ) 2 ]= Σ(y i ) 2 /n (y * ) 2 [Σ(x i y i )/n x* y*] 2 /[Σ(x i ) 2 /n (x * ) 2 ] f(m, q ) 0 ed è f(m, q )=0 se e solo se le coppie dei dati stanno tutte sulla retta, per cui più f(m, q ) è vicino a 0 e più l approssimazione è buona

METODO DEI MINIMI QUADRATI Poiché f(m,q ) misura la media degli errori (assoluti) al quadrato nelle ordinate, un indice migliore della bontà dell adattamento della legge lineare ai dati è f(m,q )/Var y Si ottiene 1 {[(x y)* x* y*] 2 /[((x 2 )* (x * ) 2 ) ((y 2 )* (y * ) 2 )]} Dove {[(x y)* x* y*] 2 /[((x 2 )* (x * ) 2 ) ((y 2 )* (y * ) 2 )]} 1 più è vicino a 1 migliore è l approssimazione

METODO DEI MINIMI QUADRATI La radice quadrata di {[(x y)* x* y*] 2 /[((x 2 )* (x * ) 2 ) ((y 2 )* (y * ) 2 )]} è (x y)* x* y* / sqr([((x 2 )* (x * ) 2 ) ((y 2 )* (y * ) 2 )] più vicina è a 1, migliore è l approssimazione. Togliendo il valore assoluto al numeratore, otteniamo il coefficiente di correlazione o coefficiente di Pearson (CP) CP= [(x y)* x* y*]/ (DS x DS y ) [-1, 1]

METODO DEI MINIMI QUADRATI Applichiamo dunque il metodo dei minimi quadrati per determinare la retta di regressione che più si avvicina ai dati sperimentali: Saccarosio in gr/l : s 5 10 15 20 25 30 Lunghezza radice in mm: l Abbiamo visto che il coefficiente angolare della retta di regressione è dato da m = [(l s)* l* s*]/[(s 2 )* (s * ) 2 ] = Cov s,l / Var s, mentre il termine noto q = l* -ms* Per determinare tutti gli indici necessari costruiamo un opportuna tabella: 33 44 62 56 74 71 35 80

METODO DEI MINIMI QUADRATI s l s 2 l 2 s l 5 33 25 1089 165 10 44 100 1936 440 15 62 225 3844 930 20 56 400 3136 1120 25 74 625 5476 1850 30 71 900 5041 2130 35 80 1225 6400 2800 s*=20 l*=60 (s 2 )*=500 (l 2 )*=3846 (s l)*=1347.86

METODO DEI MINIMI QUADRATI Possiamo procedere al calcolo di m e di q: m = (1347.68 (20) (60))/(500 (20) 2 ) = 1.4786 q = 60 - (1.4786) (20) = 30.428 Vediamo se la retta approssima bene i dati sperimentali, calcolando il coefficiente di correlazione, detto anche di Pearson (CP):

METODO DEI MINIMI QUADRATI CP =(s l)* s* l* / sqr([((s 2 )* (s * ) 2 ) ((l 2 )* (l * ) 2 )] =(1347.86 - (20) (60)) / sqr [(500-(20) 2 ) (3846 - (60) 2 )] = 0.94 Dunque, essendo CP vicino ad 1, l approssimazione è buona.

METODO DEI MINIMI QUADRATI

METODO DEI MINIMI QUADRATI Dall analisi grafica si osserva una certa differenza tra i dati del campione per i valori più grandi di s e quelli previsti in base al modello di regressione lineare. La crescita sembra aumentare con l aumentare del contenuto di saccarosio non linearmente, ma piuttosto con una relazione che potrebbe essere, ragionevolmente, di radice quadrata. Possiamo determinare la retta di regressione per i dati trasformati in modo da prendere ancora y=l, mentre x= s, vale a dire l(s) = m s +q. Sostituiamo quindi nella tabella precedente le opportune colonne dei dati trasformati s e s l

METODO DEI MINIMI QUADRATI s l s l 2 s l 5 33 2.24 1089 73.92 10 44 3.16 1936 139.04 15 62 3.87 3844 239.94 20 56 4.47 3136 250.32 25 74 5 5476 370 30 71 5.48 5041 389.08 35 80 5.92 6400 473.6 s*=20 l*=60 ( s)*=4.31 (l 2 )*=3846 ( s l)*=276.56

METODO DEI MINIMI QUADRATI Nella tabella precedente i dati sono stati calcolati arrotondando alla seconda cifra decimale. Calcoliamo coefficiente angolare m ed intercetta q per questa nuova retta di regressione m = [( s l)* s* l*]/[s * (( s) * ) 2 ] = 11.89 q = 60-11.89 4.31 = 8.75 Calcoliamo CP CP = [( s l)*- ( s) * l* ]/sqr[(s * (( s) * ) 2 ) ((l 2 )* (l * ) 2 )] = 17.96/350.28 = 0.96 Quindi questa curva approssima meglio i dati.