MINIMI QUADRATI. REGRESSIONE LINEARE



Documenti analoghi
VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

Relazioni statistiche: regressione e correlazione

Esempio. Approssimazione con il criterio dei minimi quadrati. Esempio. Esempio. Risultati sperimentali. Interpolazione con spline cubica.


Prof.ssa Paola Vicard

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

Interpolazione ed approssimazione di funzioni

FASCI DI RETTE. scrivere la retta in forma esplicita: 2y = 3x + 4 y = 3 2 x 2. scrivere l equazione del fascio di rette:

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE

Matematica 1 - Corso di Laurea in Ingegneria Meccanica

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

Esercitazione del Analisi I

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Capitolo 13: L offerta dell impresa e il surplus del produttore

LA RETTA. Retta per l'origine, rette orizzontali e verticali

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

Basi di matematica per il corso di micro

La Minimizzazione dei costi

2 + (σ2 - ρσ 1 ) 2 > 0 [da -1 ρ 1] b = (σ ρσ1 σ 2 ) = (σ 1

13. Campi vettoriali

RETTE, PIANI, SFERE, CIRCONFERENZE

Dott.ssa Caterina Gurrieri

LEZIONE n. 5 (a cura di Antonio Di Marco)

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

a) Osserviamo innanzi tutto che dev essere x > 0. Pertanto il dominio è ]0, + [. b) Poniamo t = log x. Innanzi tutto si ha:

VC-dimension: Esempio

Fallimenti del mercato: Il monopolio

Metodi di previsione

SOLUZIONI D = (-1,+ ).

MATEMATICA. { 2 x =12 y 3 y +8 x =0, si pone il problema di trovare, se esistono, un numero x ed un numero y che risolvano entrambe le equazioni.

Parte 2. Determinante e matrice inversa

Capitolo 12 La regressione lineare semplice

Appunti sul corso di Complementi di Matematica - prof. B.Bacchelli Equazioni differenziali lineari omogenee a coefficienti costanti.

La trasformata Zeta. Marco Marcon

Parte 3. Rango e teorema di Rouché-Capelli

Funzioni. Parte prima. Daniele Serra

CORSO DI LAUREA IN INGEGNERIA.

Fondamenti e didattica di Matematica Finanziaria

SOLUZIONE DEL PROBLEMA 1 TEMA DI MATEMATICA ESAME DI STATO 2015

STUDIO DI UNA FUNZIONE

PIANO CARTESIANO: un problema di programmazione lineare

LE FIBRE DI UNA APPLICAZIONE LINEARE

Prova di autovalutazione Prof. Roberta Siciliano

~ Copyright Ripetizionando - All rights reserved ~ STUDIO DI FUNZIONE

LA MASSIMIZZAZIONE DEL PROFITTO ATTRAVERSO LA FISSAZIONE DEL PREZZO IN FUNZIONE DELLE QUANTITÀ

Il mercato di monopolio

LA CORRELAZIONE LINEARE

11) convenzioni sulla rappresentazione grafica delle soluzioni

LE FUNZIONI A DUE VARIABILI

Scelte in condizioni di rischio e incertezza

Matematica generale CTF

SEGNO DELLA FUNZIONE. Anche in questo caso, per lo studio del segno della funzione, occorre risolvere la disequazione: y > 0 Ne segue:

Lezione n. 2 (a cura di Chiara Rossi)

bensì una tendenza a ruotare quando vengono applicate in punti diversi di un corpo

ESERCIZI DI MATEMATICA FINANZIARIA DIPARTIMENTO DI ECONOMIA E MANAGEMENT UNIFE A.A. 2015/ Esercizi: lezione 24/11/2015

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R

Approssimazione polinomiale di funzioni e dati

Funzioni. Funzioni /2

6. Modelli statistici: analisi della regressione lineare

CONTINUITÀ E DERIVABILITÀ Esercizi proposti. 1. Determinare lim M(sinx) (M(t) denota la mantissa di t)

a t Esercizio (tratto dal problema 5.10 del Mazzoldi)

G3. Asintoti e continuità

Rette e piani con le matrici e i determinanti

Corso di Matematica per la Chimica

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

Slide Cerbara parte1 5. Le distribuzioni teoriche

Equazioni alle differenze finite (cenni).

Istituzioni di Statistica e Statistica Economica

CONTINUITÀ E DERIVABILITÀ Esercizi risolti

a) In concorrenza perfetta il ricavo totale è dato dal prodotto tra il prezzo e la quantità venduta:

(a cura di Francesca Godioli)

Programmazione lineare

E naturale chiedersi alcune cose sulla media campionaria x n

Finanza Aziendale. Lezione 12. Analisi del rischio

Correzione dell Esame di Statistica Descrittiva (Mod. B) 1 Appello - 28 Marzo 2007 Facoltà di Astronomia

Il concetto di valore medio in generale

VARIABILI ALEATORIE MULTIPLE E TEOREMI ASSOCIATI. Dopo aver trattato delle distribuzioni di probabilità di una variabile aleatoria, che

L analisi dei dati. Capitolo Il foglio elettronico

1. PRIME PROPRIETÀ 2

APPLICAZIONI LINEARI

Esponenziali elogaritmi

Perché il logaritmo è così importante?

ESERCIZI DI MATEMATICA FINANZIARIA DIPARTIMENTO DI ECONOMIA E MANAGEMENT UNIFE A.A. 2015/ Esercizi 4

Lezione 9: Cambio di base

10. Insiemi non misurabili secondo Lebesgue.

GEOMETRIA DELLE MASSE

Regressione Lineare con un Singolo Regressore

Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale

LEZIONE 31. B i : R n R. R m,n, x = (x 1,..., x n ). Allora sappiamo che è definita. j=1. a i,j x j.

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale

FUNZIONE ESPONENZIALE E FUNZIONE LOGARITMICA

Matematica e Statistica

CONI, CILINDRI, SUPERFICI DI ROTAZIONE

Analisi delle relazioni tra due caratteri

risulta (x) = 1 se x < 0.

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

Il modello media-varianza con N titoli rischiosi. Una derivazione formale. Enrico Saltari

PROBLEMI TRADIZIONALI SIMULAZIONE DELLA PROVA DI MATEMATICA

EQUAZIONI DIFFERENZIALI Esercizi svolti. y = xy. y(2) = 1.

Transcript:

MINIMI QUADRATI. REGRESSIONE LINEARE Se il coefficiente di correlazione r è prossimo a 1 o a -1 e se il diagramma di dispersione suggerisce una relazione di tipo lineare, ha senso determinare l equazione di una retta che approssimi nel modo migliore i dati. Sia dato un insieme di n punti (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ), si vuole determinare la retta y = Ax + B che meglio approssima questi punti.

In questa figura si osserva la retta y = Ax + B ed i punti (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). I segmenti in figura hanno lunghezza Ax i + B y i e rappresetano l errore che si fa a voler rappresentare i dati con una singola retta (e quindi con i soli due parametri A e B).

Se i punti fossero perfettamente allineati, si potrebbe scegliere l unica retta che passa per tutti i punti e si renderebbe quindi nullo l errore. In generale si può quantificare l errore totale E che si commette sommando i quadrati delle lunghezze di tutti i segmenti ossia E(A, B) = ) 2 (Ax i + B y i Per ogni possibile scelta della retta, ossia della scelta dei parametri A e B, l errore è differente. Il criterio che generalmente viene usato per definire il modo migliore è detto metodo dei minimi quadrati e consiste nel minimizzare la quantità E(A, B) rispetto ad A e B.

Definizione. La retta di regressione lineare è la retta di equazione y = Ax + B che rende minimo l errore E(A, B) dove E(A, B) = ) 2 (Ax i + B y i In altre parole, si devono determinare A e B in modo che E(A, B) sia il minimo possibile. Si noti che E(A, B) è una quantità non negativa che puo assumere il valore nullo soltanto quando tutti i punti sono perfettamente allineati.

Se i dati sono perfettemente allineati ossia esattamente linearmente correlati: y i = ax i + b, si avrà: E(A, B) = ) 2 ( ) 2 (Ax i + B y i = Ax i + B ax i + b scegliendo A = a, B = b si ottiene E = 0 che è necessariamente il minimo di E. In altre parole, se i dati sono esattamente disposti su una retta, questa coincide con la retta di regressione lineare.

In generale, per trovare il minimo di E(A, B) basta calcolare le due derivate parziali rispetto ad A e B e imporre che siano nulle. Imponendo che la derivata rispetto ad A sia nulla si ottiene: A x 2 i + B x i x i y i = 0 mentre che la derivata rispetto ad B sia nulla si ottiene: A x i + nb y i = 0 (se lo studente non sa fare le derivate può solo fidarsi).

Usiamo n x i = n x e n y i = nȳ; la seconda equazione diventa An x + nb = nȳ B = ȳ A x Sostituendo nella prima equazione si ha A xi 2 + (ȳ A x)n x = x i y i ( A xi 2 n x 2) = e dividendo ambo i membri per n 1 x i y i n xȳ A s 2 x = s xy

STIMATORI DEI MINIMI QUADRATI Da cui si ottiene: A = s xy s 2 x = r s y s x dove s xy = covarianza, s x = deviazione standard di x, s y = deviazione standard di y e r = coefficiente di correlazione. Abbiamo inoltre già visto che B = ȳ A x dove x= media campionaria di x e ȳ= media campionaria di y.

CASO LINEARE Abbiamo visto che nel caso in sui punti siano del tutto allineati, ossia y i = ax i + b, si ha r = sign(a), si ha inoltre s 2 y = a 2 s 2 x e quindi s y = a s x. In definitiva: A = r s y s x = sign(a) a = a mentre B = ȳ A x = ȳ a x = b La retta di regressione è quindi ȳ = a x + b ossia la retta che passa per i tutti dati.

Esempio (dati non allineati). Acquisto di un automobile usata. Anni (x) 9 12 8 15 6 Costo (y) 18 8 17 7 20 Avevamo già calcolato le medie campionarie x = 1 5 ȳ = 1 5 5 x i = 5 y i = 9 + 12 + 8 + 15 + 6 = 10 5 18 + 8 + 17 + 7 + 20 = 14 5

Avevamo già calcolato anche la covarianza s xy = 1 n 1 (x i x)(y i ȳ) = = ( 1)(4) + (2)( 6) + ( 2)(3) + (5)( 7) + ( 4)(6) 4 = 4 12 6 35 24 4 = = 20, 25 = Si ricordi che la covarianza è negativa perché i dati sono ordinati in modo approssimativamente decrescente.

Calcoliamo ara s 2 x = 1 n 1 (x i x) 2 = = ( 1)2 + (2) 2 + ( 2) 2 + (5) 2 + ( 4) 2 4 e, per completezza, calcoliamo anche = = 12, 5 s 2 y = 1 n 1 (y i ȳ) 2 = = (4)2 + ( 6) 2 + (3) 2 + ( 7) 2 + (6) 2 4 = = 36, 5

Abbiamo quindi tutti i dati necessari ed anche x = 10, ȳ = 14, s xy = 20, 25 s 2 x = 12, 5, s x = 3, 54, s 2 y = 36, 5, s y = 6, 04 E per completezza possiamo anche ricalcolare il coefficiente di correlazione r = s xy s x s y = 20, 25 = 0, 948 3, 54 6.04 La correlazione negativa è molto forte (il coefficiente è prossimo a -1), ha quindi senso interpolare linearmente (cercare la retta di regressione lineare).

Abbiamo quindi A = s xy s 2 x oppure possiamo usare = 20, 25 12, 5 = 1.62 Il parametro B è invece A = r s y 3, 54 = 0, 948 s x 6, 04 = 1.62 B = ȳ A x = 14 + 1, 62 10 = 30, 2 Quindi la retta di regressione lineare è y = 1.62x + 30, 2

22 20 18 16 14 12 10 8 6 4 4 6 8 10 12 14 16 La retta di regressione lineare è y = 1.62x + 30, 2. In generale, più r è prossimo al valore 1, più la retta di regressione lineare rappresenta in modo corretto i dati.