6. Modelli statistici: analisi della regressione lineare



Documenti analoghi
3. Confronto tra medie di due campioni indipendenti o appaiati

4. Confronto tra medie di tre o più campioni indipendenti

Statistica. Lezione 6

Capitolo 12 La regressione lineare semplice

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

LEZIONE n. 5 (a cura di Antonio Di Marco)

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

Inferenza statistica. Statistica medica 1

MINIMI QUADRATI. REGRESSIONE LINEARE

Elementi di Psicometria con Laboratorio di SPSS 1

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Università degli Studi di Milano Bicocca CdS ECOAMM Corso di Metodi Statistici per l Amministrazione delle Imprese CARTE DI CONTROLLO PER VARIABILI

Lezione n. 2 (a cura di Chiara Rossi)

LA CORRELAZIONE LINEARE

Regressione Mario Guarracino Data Mining a.a. 2010/2011


VERIFICA DELLE IPOTESI

Statistiche campionarie

Metodi Matematici e Informatici per la Biologia Maggio 2010

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

Lineamenti di econometria 2

ANALISI DI CORRELAZIONE

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

La distribuzione Normale. La distribuzione Normale

Dott.ssa Caterina Gurrieri

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Relazioni statistiche: regressione e correlazione

Capitolo 13: L offerta dell impresa e il surplus del produttore

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

E naturale chiedersi alcune cose sulla media campionaria x n

Esercitazione n.2 Inferenza su medie

La distribuzione Gaussiana

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

T DI STUDENT Quando si vogliono confrontare solo due medie, si può utilizzare il test t di Student La formula per calcolare il t è la seguente:

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

1 Associazione tra variabili quantitative COVARIANZA E CORRELAZIONE

Facoltà di Psicologia Università di Padova Anno Accademico

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

Metodi statistici per le ricerche di mercato

Prof.ssa Paola Vicard

STATISTICA IX lezione

L analisi dei rischi: l aspetto statistico Ing. Pier Giorgio DELLA ROLE Six Sigma Master Black Belt

Analisi di dati di frequenza

La logica statistica della verifica (test) delle ipotesi

Soluzioni Esercizi elementari

Elementi di Psicometria con Laboratorio di SPSS 1

SPC e distribuzione normale con Access

Il coefficiente di correlazione di Spearman per ranghi

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi :

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

(a cura di Francesca Godioli)

ANALISI DELLE FREQUENZE: IL TEST CHI 2

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Corso di Psicometria Progredito

Il confronto fra proporzioni

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Misure della dispersione o della variabilità

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

Corso di Psicometria Progredito

Elementi di Psicometria con Laboratorio di SPSS 1

Analisi di scenario File Nr. 10

1. Richiami di Statistica. Stefano Di Colli

Il concetto di valore medio in generale

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

Soluzioni degli Esercizi del Parziale del 30/06/201 (Ippoliti-Fontanella-Valentini)

Esempio. Approssimazione con il criterio dei minimi quadrati. Esempio. Esempio. Risultati sperimentali. Interpolazione con spline cubica.

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

La categoria «ES» presenta (di solito) gli stessi comandi

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 6

Elementi di Psicometria con Laboratorio di SPSS 1

Pro e contro delle RNA

Lineamenti di econometria 2

13. Campi vettoriali

Test statistici di verifica di ipotesi

Prova di autovalutazione Prof. Roberta Siciliano

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

Regressione Lineare con un Singolo Regressore

INDICE PREFAZIONE VII

STATISTICA INFERENZIALE

Il modello di regressione lineare multivariata

Nel seguito sono riportati due esercizi che si possono risolvere con la formula di Erlang e le relative risoluzioni.

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

Analisi delle relazioni tra due caratteri

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

Metodi statistici per le ricerche di mercato

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

Il Controllo Interno di Qualità dalla teoria alla pratica: guida passo per passo IL MODELLO TEORICO. Pasquale Iandolo

Basi di matematica per il corso di micro

Correzione dell Esame di Statistica Descrittiva (Mod. B) 1 Appello - 28 Marzo 2007 Facoltà di Astronomia

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Transcript:

BIOSTATISTICA 6. Modelli statistici: analisi della regressione lineare Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.1

MODELLO STATISTICO Rappresentazione seplificata, analogica e necessaria della realtà Semplificazione della realtà: il modello di un bacino idrologico, di un aereoplano, del flusso finanziario di un Paese ottenuti riproducendo gli aspetti essenziali e eliminando quelli ritenuti superficiali. Analogia della realtà: il modello è una riproduzione della realtà Rappresentazione necessaria della realtà: anche se è semplificato il modello è necessario per capire la realtà tramite lo studio di relazioni semplici e di maggiore intellegibilità MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.2

La specificazione di un modello consiste nell esplicitare un legame tra i fenomeni di interesse: Y = f(x 1, X 2,,X p ) Dove Y è la variabile da spiegare, mentre X 1, X 2,,X p sono le variabili scelte per spiegare Y tramite la funzione f(.) Inoltre non è quasi mai plausibile ipotizzare un legame deterministico quindi dobbiamo aggiungere un errore: Y = f(x 1, X 2,,X p ) + ε dove ε è una variabile casuale e riassume la nostra ignoranza circa la vera relazione tra Y e X. Per questo motivo la chiameremo variabile errore. MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.3

In alcuni contesti la specificazione della relazione funzionale risulta immediata dalla natura del problema: 1) Se Y è il peso ed X è l altezza di una persona adulta la prima relazione da specificare è quella proporzionale (maggiore il peso, maggiore l altezza e viceversa) Y=βX+ ε 2) Se Y è il peso di una mattonella rettangolare per la quale X 1 e X 2 sono rispettivamente la lunghezza e la larghezza, allora una relazione funzionale può essere specificata mediante Y=βX 1 X 2 + ε Entrambe le specificazioni evidenziano un parametro β che deve essere determinato per poter utilizzare il modello specificato MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.4

Modelli statistici Semplici (una X e una Y) Lineari Multipli (più di una X ma una Y) Non lineari Multivariati (più di una X e più di una Y) MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.5

Terminologia Y = f(x 1, X 2,,X p ) Y: variabile dipendente X 1,,X p : variabili esplicative ε: variabile casuale errore NOTA: il legame statistico implicato dal modello non è simmetrico. Sono le variabili esplicative a determinare la variabile dipendente e NON viceversa. X: precipitazione giornaliera di un bacino idrografico Y: livello del fiume che si origina dal bacino Relazione: X Y ma NON Y X X: dose di concime somministrato in un campo di grano Y: resa di grano in quel terreno Relazione: X Y ma NON Y X MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.6

Modello di regressione lineare Il termine REGRESSIONE deriva dall applicazione svolta dal biologo Galton che nel 1886 esaminò altezze dei figli (Y) in funzione delle altezze dei genitori (X) in Inghilterra e notò una relazione funzionale tra le due variabili: più alti i genitori, più alti i figli e viceversa. Tuttavia ai genitori che si collocavano agli estremi (molto bassi o molto alti) non corrispondevano figli altrettanto estremi, ovvero Galton osservò che l altezza dei figli si spostava verso la media e quindi concluse che questo costituiva una regression towards mediocrity e la relazione funzionale fu chiamata modello di regressione. MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.7

Oggi il termine regressione è divenuto significato di relazione funzionale tra variabili ottenuta con metodi statistici e la frase regredire Y su (X 1,,X p ) significa ricercare una relazione statistica del tipo: Y = f(x 1, X 2,,X p ) + ε Il modello di regressione semplice è specificato dalla relazione: y i = f(x i ;β) + ε i La funzione f(x i ;β) può essere di primo grado, ad esempio: y i = b 0 + b 1 x i + ε i Oppure di grado superiore al primo, ad esempio di secondo grado: y i = b 0 + b 1 x i + b 2 x i2 + ε i MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.8

Y X = velocità di un autoveicolo Y = spazio di frenata X Modello di regressione lineare semplice y i = β 0 + β 1 x i + ε i Identifica una retta, nota come la retta di regressione: β 0 : intercetta, il valore di Y i quando x i =0 β 1 : pendenza, di quanto cambia Y i quando x i incrementa di un unità ε i : l errore che si commette nella spiegazione dellavariabile y i tramite una funzione lineare di x i MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.9

Che relazione c è tra X e Y? Y Covariano positivamente Y X Covariano negativamente Y X Non covariano X MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.10

La covarianza misura l attitudine a covariare di due caratteri X Y X-X Y-Y (X-X)(Y-Y) 10 14-5 -4 20 15 17 0-1 0 20 19 5 1 5 14 16-1 -2 2 12 15-3 -3 9 16 21 1 3 3 18 24 3 6 18 x =15 y =18 Cov(X,Y) = n Σ i=1 (x x )(y y ) n-1 Cov(X,Y) = 20+0+5+2+9+3+18 7-1 = 9.5 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.11

Cov(X,Y) = n Σ i=1 (x x )(y y ) n-1 Cov(X,Y)> 0 Cov(X,Y)= 0 Cov(X,Y)< 0 Y Y Y X X X MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.12

X 10 15 20 14 12 16 18 Y 14 17 19 16 15 21 24 30 25 20 Y 15 10 5 0 9 11 13 15 17 19 21 X Cov(X,Y)=9.5 > 0 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.13

E utile costruire una misura STANDARDIZZATA che esprima quanto I due caratteri covariano COVARIANZA ρ = COEFFICIENTE DI CORRELAZIONE Cov(X,Y) sd(x). sd(y) Deviazione standard Deviazione standard -1 0 1 Cov(X,Y)= - sd(x). sd(y) PERFETTA Correlazione NEGATIVA Cov(X,Y)=0 NON c è correlazione Cov(X,Y)= sd(x). sd(y) PERFETTA Correlazione POSITIVA MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.14

Modello di regressione lineare semplice y i = β 0 + β 1 x i + ε i Y Y 1 β 1 >0 β 1 <0 1 x x+1 X x x+1 X y i = β 0 + β 1 x i + ε i y i = β 0 - β 1 x i + ε i Y β 1 =0 1 x x+1 X y i = β 0 + ε i MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.15

Y X Per un insieme di punti possono passare infinite rette! Come scegliere la retta migliore? Metodo dei Minimi Quadrati MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.16

Y = βˆ ˆ ŷ 0 + β1 x y i ˆε i ŷi X L idea dei minimi quadrati è quella di scegliere la retta che minimizza la somma degli scarti dalla retta di regressione Scarti: ε i = y i -ŷ i RSS=Σ i ε i2 = Σ i (y i -ŷ i ) 2 = Σ i (y i - β 0 β 1 x i ) 2 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.17

MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.18 6. ANALISI DELLA REGRESSIONE LINEARE Si può dimostrare che i parametri che minimizzano la somma degli scarti dalla media al quadrato sono i seguenti: dove 1 ) )( ( Cov(X,Y) ; ) ( 1 1 ) ( ; 1 ; 1 n 1 i 1 2 = = = = = = n y y x x x x n X Var y n y x n x i i n i i i i x ˆ y ˆ Var(X) Cov(X, Y) x) (x y) x)(y (x ˆ 1 0 n 1 i 2 i n 1 i i i 1 β = β = = β = =

Coefficiente di correlazione? β 1 ρ = Cov(X,Y) sd(x). sd(y) β 1 = Cov(X,Y) Var(X) 1) Ricavo ρ da β 1 sd(x) ρ = β 1 sd(y) 2) Ricavo β da ρ 1 sd(y) β = ρ 1 sd(x) MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.19

Dalla popolazione di camelie estraiamo un campione di 15 foglie della varietà cordiforme sui quali misuriamo la variabile X (peso vivo) e Y (peso secco). Otteniamo i seguenti valori: X 9.705 7.267 8.459 12.476 10.296 8.424 7.910 8.879 11.160 5.295 8.421 12.232 5.422 9.900 12.441 3.816 3.130 2.955 4.809 4.269 3.291 2.274 3.308 4.340 1.948 3.715 5.340 2.212 2.512 5.277 Trovare la retta di regressione dei minimi quadrati che spiega Y in funzione di X MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.20 Y

Y 6 5 4 3 2 1 0 0 2 4 6 8 10 12 14 X Dal campione si calcolano le seguenti quantità x = 9.2191 y = 3.5464 s 2 x = 5.2140 s2 y = 1.1949 n=15 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.21

Per ottenere i parametri della retta di regressione si devono usare le formule seguenti: β 1 = Cov(X,Y) Var(X) β 0 = y β 1 x Cov(X,Y) = (9.705 9.2191). (3.816 3.5464) + + (12.441 9.2191). (5.277 3.5464) 15-1 Cov(X,Y) = 2.2324 Var(X) = 5.2140 β 1 = 2.2324 / 5.2140 = 0.4282 β 0 = 3.5464 0.4282. 9.2191= - 0.4009 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.22

La retta di regressione che minimizza i quadrati degli scarti dalla media è la seguente: y = β 0 + β x 1 y = - 0.4009 + 0.4282. x Y 6 5 4 3 2 1 0 0 2 4 6 8 10 12 14 X Per disegnarla mi servono due punti 1) Quando y = 0 0 = - 0.4009 + 0.4282. x x = 0.4009 / 0.4282 = 0.9363 2) Quando x = 10 y = - 0.4009 + 0.4282. 10 y = - 0.4009 + 4.282 = 3.8807 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.23

6 5 4 Y 3 2 1 0-1 1 3 5 7 9 11 13 X Punto 1 : x=-0.4009, y=0 Punto 2 : x=10, y=3.8807 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.24

Come interpretare i due coefficienti del modello di regressione? y = β 0 + β x 1 Intercetta: valore che assume y quando x=0 punto nel quale la retta incorcia l asse delle y Pendenza: indica di quanto varia y al variare di un unità di x Il segno indica il verso dell inclinazione MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.25

Assunzioni del modello di regressione Nel ipotizzare un modello di regressione stiamo assumendo che: 1. I dati sperimentali siano un campione casuale estratto da una popolazione di unità x,y per i quali vige la relazione y i = β 0 + β 1 x i + ε i tenendo conto di eventuali cause accidentali MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.26

Assunzioni del modello di regressione 2. Fissato un valore di X abbiamo una popolazione di valori di Y distribuiti normalmente con media situata sulla retta di regressione Y β 0 +β 1 x 3 β 0 +β 1 x 2 β 0 +β 1 x 1 Normale per Y quando X=x 1 Normale per Y quando X=x 2 Normale per Y quando X=x 3 x 1 x 2 x 3 Y X=x 1 ~ N(β 0 +β 1 x 1,σ 2 ) Y X=x 2 ~ N(β 0 +β 1 x 2,σ 2 ) Y X=x 3 ~ N(β 0 +β 1 x 3,σ 2 ) X MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.27

Assunzioni del modello di regressione Y X=x i ~ N(β 0 +β 1 x i, σ 2 ) 3. La varianza rimane la stessa indipendentemente da X Omoschedasticità Var(y i ) = σ 2 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.28

Assunzioni del modello di regressione y i = β 0 + β 1 x i + ε i Scarti (Residui): ε i = y i (β 0 +β 1 x i ) ε i ~ N(0,σ 2 ) Stessa variabilità di Y 0 0 ε i Assunzione rispettata ε i Assunzione violata MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.29

Siamo interessati a valutare l esistenza di una relazione tra peso vivo e peso secco nella popolazione delle camelie tramite un modello di regressione. UNIVERSO PARAMETRI CAMPIONE STIMATORI Dalla popolazione di camelie estraiamo un campione di 15 foglie della varietà cordiforme sui quali misuriamo il peso vivo e il peso secco. MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.30

La retta di regressione dei minimi quadrati è la seguente: y = - 0.4009 + 0.4282. x Come valutiamo se la relazione tra le due variabili è significativa o no? CAMPIONE STIMATORI Facciamo INFERENZA sui parametri della retta di regressione. MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.31

POPOLAZIONE BERSAGLIO Tutti i possibili campioni Β 0 ~ T(β 0,σ2 β 0 ) β 0 Media campionaria MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.32

POPOLAZIONE BERSAGLIO Tutti i possibili campioni Β 1 ~ T(β 1,σ2 β 1 ) β 1 Media campionaria MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.33

Usiamo β 0 e β 1 per stimare i veri valori dei parametri β 0 e β 1. β 0 T(β 0,σ2 β 0 ) Ipotesi nulla: H 0 : β 0 = 0 La retta di regressione passa per il punto di coordinate (0,0) Test del T di Student Dal campione: β 0 = y β 1 x Stima campionaria se(β 0 ) = s 1 n + (x) 2 Dev(x) Deviazione standard campionaria MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.34

Usiamo β 0 e β 1 per stimare i veri valori dei parametri β 0 e β 1. β 1 T(β 1,σ2 β 1 ) Ipotesi nulla: H 1 : β 1 = 0 La retta di regressione ha pendeza 0 Test del T di Student Dal campione: Cov(x,y) β = 1 Var(x) Stima campionaria se(β 1 ) = s Dev(x) Deviazione standard campionaria MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.35

L errore standard di entrambi i parametri è funzione di s s = (n-1) s 2 y (1 ρ2 xy ) n-2 I valori empirici per il test T di student sono β 1 β 0 t g = β 1-0 es(β 1 ) = β 1-0 s Dev(x) t g = β 0-0 es(β 0 ) s = 1 n β 0-0 + (x) 2 Dev(x) n-2 n-2 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.36

P-Value: probabilità di ottenere un risultato campionario altrettanto o più estremo di quello osservato, se H 0 è vera P-value = Pr ( B 0 >β 0 sotto H 0 ) Più piccolo è il valore del p-value, 1) più estremo è il valore osservato 2) Più bassa l evidenza che i dati siano coerenti con la distribuzione sotto l ipotesi nulla P-value=0.25 P-value=0.03 β 0 = 0 β 0 β 0 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.37

3. 6. CONFRONTO ANALISI DELLA TRA REGRESSIONE MEDIE DI DUE LINEARE CAMPIONI INDIPENDENTI PROBLEMA: l ipotesi è bidirezionale H 0 : β 0 = 0 vs H 1: β 0 = 0 Unidirezionale P-value = Pr ( B 0 >β 0 sotto H 0 ) Bidirezionale 2*P-value P-value=0.06 P-value=0.03 P-value=0.03 -β 0 β 0 = 0 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.38 β 0

P-Value: probabilità di ottenere un risultato campionario altrettanto o più estremo di quello osservato, se H 0 è vera P-value = Pr ( B 1 >β 1 sotto H 0 ) Più piccolo è il valore del p-value, 1) più estremo è il valore osservato 2) Più bassa l evidenza che i dati siano coerenti con la distribuzione sotto l ipotesi nulla P-value=0.25 P-value=0.03 β 1 = 0 β 1 β 1 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.39

3. 6. CONFRONTO ANALISI DELLA TRA REGRESSIONE MEDIE DI DUE LINEARE CAMPIONI INDIPENDENTI PROBLEMA: l ipotesi è bidirezionale H 0 : β 1 = 0 vs H 1: β 1 = 0 Unidirezionale P-value = Pr ( B 1 >β 1 sotto H 0 ) Bidirezionale 2*P-value P-value=0.06 P-value=0.03 P-value=0.03 -β 1 β 1 = 0 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.40 β 1

Siamo interessati a valutare l esistenza di una relazione tra peso vivo e peso secco nella popolazione delle camelie tramite un modello di regressione. X 9.705 7.267 8.459 12.476 10.296 8.424 7.910 8.879 11.160 5.295 8.421 12.232 5.422 9.900 12.441 Y 3.816 3.130 2.955 4.809 4.269 3.291 2.274 3.308 4.340 1.948 3.715 5.340 2.212 2.512 5.277 Campione n=15 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.41

Dal campione otteniamo le seguenti informazioni Stimatore Misura di variabilità yi i y = n = 3.5464 βˆ βˆ xi i x = n = 9.2191 1 0 s y s Deviazione standard yi y) i = n 1 = 1.1773 Varianza 2 x ( 2 xi x) i = n 1 = 5.2140 Errore standard ( 2 2 ˆ 2 = y β1x 1 ( x) esβ = s + 0 n Dev = 0.4009 x = 2.722 Cov( x, y) Errore standard = 2 s 2 s esβ = x 1 Dev x = 0.4282 = 0.064 s = ( n 1) s n β) β) 1 = βˆ 0 2 es = 0.14 ˆ 1 = β1 2 es 1 = 6.69 = 0.5465 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.42 t g t g 2 y (1 ρ 2 0 2 xy )

P-value(β 0 ) = Pr ( B 0 >β 0 sotto H 0 ) 2*P-value(β 0 ) >2*0.4 che trovo sulle tavole Non ho sufficiente evidenza per rifiutare H 0 Concludo che β 0 non è significativamente diverso da 0 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.43

P-value(β 1 ) = Pr ( B 1 >β 1 sotto H 0 ) 2*P-value(β 1 ) < 2*0.0005 Rifiuto H 0 Concludo che β 1 è significativamente diverso da 0 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.44

6 5 4 Y 3 2 1 0-1 1 3 5 7 9 11 13 X Punto 1 : x=-0.4009, y=0 Punto 2 : x=10, y=3.8807 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.45

Se concludo che β 1 =0 Il modello di regressione lineare non è adatto ad interpretare la relazione tra X e Y. C è un modo per valutare analiticamente la bontà di adattamento del modello? H 0 : il modello non si adatta ai dati MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.46

y i -y y i y x i Devianza totale: Dev TOT = Σ i (y i y) 2 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.47

X 9.705 7.267 8.459 12.476 10.296 8.424 7.910 8.879 11.160 5.295 8.421 12.232 5.422 9.900 12.441 Y 3.816 3.130 2.955 4.809 4.269 3.291 2.274 3.308 4.340 1.948 3.715 5.340 2.212 2.512 5.277 Campione n=15 y = 3.5464 Devianza totale = = (3.816-3.5464) 2 + (3.130-3.5464) 2 +......+ (2.512-3.5464) 2 + (5.277-3.5464) 2 = = 16.7289 Σ (y i y ) 2 i MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.48

Quanta parte della variabilità totale è residua? y i -y i y i y i = β 0 + β 1 x i y x i Devianza RESIDUA: Dev R = Σ i (y i y i ) 2 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.49

X 9.705 7.267 Y 3.816 3.130 Y 3.754 2.711 y i = β 0 + β 1 x i -0.4007 + 0.4282. 9.705 = 3.754 8.459 12.476 10.296 2.955 4.809 4.269 3.221 4.941 4.007.. 8.424 7.910 8.879 3.291 2.274 3.308 3.206 2.986 3.401.. 11.160 5.295 8.421 4.340 1.948 3.715 4.377 1.866 3.205.. 12.232 5.422 5.340 2.212 4.836 1.921. 9.900 2.512 3.838 12.441 5.277 4.926-0.4007 + 0.4282. 12.441 = 4.836 Devianza residua = = (3.816-3.754) 2 + (3.130-2.711) 2 +......+ (2.512-3.838) 2 + (5.277-4.926) 2 = = 3.3472 Σ (y i y i ) 2 i MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.50

Quanta parte della variabilità totale è spiegata dal modello di regressione? y i - y y i y i = β 0 + β 1 x i y x i Devianza SPIEGATA dal modello : Dev S = Σ i (y i y) 2 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.51

X Y Y y i = β 0 + β 1 x i 9.705 3.816 3.754 7.267 3.130 2.711 8.459 2.955 3.221 12.476 4.809 4.941 10.296 8.424 4.269 3.291 4.007 3.206 y = 3.5464 7.910 2.274 2.986 8.879 3.308 3.401 11.160 4.340 4.377 5.295 1.948 1.866 8.421 3.715 3.205 12.232 5.340 4.836 5.422 2.212 1.921 9.900 2.512 3.838 12.441 5.277 4.926 Devianza spiegata = = (3.754-3.5464) 2 + (2.711-2.5464) 2 +......+ (3.838-3.5464) 2 + (4.926-3.5464) 2 = = 13.3817 Σ (y i y ) 2 i MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.52

Fonti di variabilità devianza Gradi di libertà varianza Spiegata dal modello 13.3817 + k-1 = 1 13.3817 Residua 3.3472 = n-k = 13 0.2575 Totale 16.7289 n-1=14 F 1, 13 = Varianza spiegata Varianza residua 13.3817 = = 51.97 0.2575 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.53

Distribuzione F 1,13 Area di accettazione Area di rifiuto 0.95 0.05 4.6672 Valore tabulato Valore empirico rifiutiamo H 0 ovvero la relazione tra le due variabili è ben spiegata da un modello di regressione lineare 51.97 p < 0.05 MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.54

Esercizio di riepilogo Si vuole valutare la relazione tra peso alla nascita e settimane di gestazione in UK. A tal fine si estrae un campione di 26 bambini nati a University College Hospital di Londra, della stessa razza e dello stesso genere. I dati sono I seguenti: X: 42 41 39 40 40 40 39 39 41 42 41 43 43 41 38 37 38 43 35 37 35 38 40 42 39 34 Y: 3.180 2.780 3.630 3.900 3.310 2.896 2.780 3.800 3.900 4.020 4.180 3.460 4.400 3.800 2.990 3.160 2.720 3.560 2.640 2.400 2.320 2.910 3.200 3.800 3.560 2.538 Stimare i parametri della retta di regressione dei minimi quadrati. MARTA BLANGIARDO ANALISI DELLA REGRESSIONE LINEARE 6.55