Università del Piemonte Orientale Corso di Laurea specialistica in Biotecnologie mediche. Corso di Statistica Medica. Correlazione

Documenti analoghi
Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Argomenti della lezione:

Capitolo 12 La regressione lineare semplice

Metodologie Quantitative

Regressione Lineare Semplice e Correlazione

Statistica multivariata Donata Rodi 17/10/2016

Correlazione e regressione

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

La regressione lineare semplice

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Lezione 7 Corso di Statistica. Domenico Cucina

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Correlazione e regressione

Facoltà di Psicologia Università di Padova Anno Accademico Corso di Psicometria - Modulo B

Statistica13-23/11/2015

Esercitazione del

Lezione 7 Corso di Statistica. Francesco Lagona

Regressione semplice: come applicarla come interpretare i risultati

Regressione lineare semplice

Indipendenza, Dipendenza e interdipendenza

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

STATISTICA A K (60 ore)

Statistica descrittiva: analisi di regressione

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

Metodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione

Analisi di Regressione Multipla

Analisi della Regressione Lineare

Rappresentazioni grafiche di distribuzioni doppie

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:

Correlazione tra due variabili

Regressione & Correlazione

Campo di applicazione

Psicometria con Laboratorio di SPSS 2

1. variabili dicotomiche: 2 sole categorie A e B

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello

TRACCIA DI STUDIO. Test di confronto per misure qualitative. Verifica di ipotesi

lezione 4 AA Paolo Brunori

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo

ESERCITAZIONE ANCOVA

STATISTICA. Regressione-2

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

ESERCITAZIONI N. 3 corso di statistica

Corso in Statistica Medica

Matematica Lezione 22

ESERCITAZIONI N. 3 corso di statistica

Cognome e nome Tempo disponibile: 75 minuti

REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori

Relazione tra variabili (cont.) Due variabili continue. Una variabile continua e un altra qualitativa o discreta.

Questo calcolo richiede che si conoscano media e deviazione standard della popolazione.

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

LA REGRESSIONE LINEARE SEMPLICE

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Lezione 6 Corso di Statistica. Domenico Cucina

Metodi statistici per le ricerche di mercato

Esercizi di statistica

Statistica. Alfonso Iodice D Enza

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

TRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Statistica. Alfonso Iodice D Enza

Argomenti della lezione:

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

lezione 5 AA Paolo Brunori

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Il modello di regressione

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

La curva di regressione è il luogo dei punti aventi come ordinate le medie condizionate

LM 88 SOCIOLOGIA E RICERCA SOCIALE. Metodi Statistici per la Ricerca Sociale. Regressione lineare e correlazione

INDICE PARTE METODOLOGICA

Tempo disponibile: 60 minuti

Indice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75

Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23

Analisi bivariata. Il caso di caratteri quantitativi

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. La distribuzione t - student

Esercizio 2: voto e ore dedicate allo studio

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

ESERCITAZIONE REGRESSIONE MULTIPLA

Corso di STATISTICA EGA - Classe 1 aa Docenti: Luca Frigau, Claudio Conversano

RELAZIONE TRA DUE VARIABILI QUANTITATIVE

Statistica di base per l analisi socio-economica

STATISTICA. Esercitazione 5

Interpolazione e metodo dei minimi quadrati

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

Corso di Laurea in Economia Aziendale. Docente: Marta Nai Ruscone. Statistica

Università del Piemonte Orientale. Corso di laurea specialistica in biotecnologie mediche. Corso di Statistica Medica. Analisi dei dati quantitativi :

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. Analisi dei dati quantitativi :

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica e Biometria

Metodi Matematici e Informatici per la biologia. Esercizi

STATISTICA MULTIVARIATA SSD MAT/06

Il modello di regressione

1.1 Obiettivi della statistica Struttura del testo 2

Transcript:

Università del Piemonte Orientale Corso di Laurea specialistica in Biotecnologie mediche Corso di Statistica Medica Correlazione Regressione Lineare Statistica Medica Correlazione e Regressione lineare semplice 1

Campo di applicazione Analisi della relazione tra due variabili continue Es: relazione tra altezza e peso Statistica Medica Correlazione e Regressione lineare semplice

Campo di applicazione Le variabili sono associate? -> correlazione Come varia il valore di una variabile in conseguenza del variare di un altra variabile? -> regressione Statistica Medica Correlazione e Regressione lineare semplice 3

Correlazione Dato un insieme di osservazioni definite da due variabili continue, valutiamo la forza dell associazione tra le due variabili disegnando il diagramma di dispersione e calcolando il coefficiente di correlazione Statistica Medica Correlazione e Regressione lineare semplice 4

Il diagramma di dispersione si disegna riportando i valori delle osservazioni su un sistema di assi cartesiani, in cui l asse x rappresenta una delle due variabili e l asse y l altra variabile Il diagramma consente di collocare ogni osservazione nello spazio definito dai valori possibili delle due variabili Statistica Medica Correlazione e Regressione lineare semplice

Relazione alla nascita tra circonferenza cranica e lunghezza 36, 34, 3, circonferenza cranica 3, 8, 6, 4,,, 19 4 9 34 39 44 49 lunghezza Statistica Medica Correlazione e Regressione lineare semplice 6

La forma della nuvola di punti così ottenuta consente una valutazione visiva del grado di associazione tra le due variabili Statistica Medica Correlazione e Regressione lineare semplice 7

36, Relazione tra circonferenza cranica alla nascita ed età materna 34, 3, circonferenza cranica 3, 8, 6, 4,,, 1 1 3 3 4 4 età materna Statistica Medica Correlazione e Regressione lineare semplice 8

Relazione alla nascita tra circonferenza cranica e lunghezza 36, 34, 3, circonferenza cranica 3, 8, 6, 4,,, 19 4 9 34 39 44 49 lunghezza Statistica Medica Correlazione e Regressione lineare semplice 9

Il coefficiente di correlazione di Pearson (r) consente la valutazione formale del grado di associazione L intervallo dei valori possibili di r è: -1 <= r <=1 Se r=1 o r=-1 tutti i punti giacciono su una retta Statistica Medica Correlazione e Regressione lineare semplice 1

36, 34, Relazione tra circonferenza cranica alla nascita ed età materna r =,1 3, circonferenza cranica 3, 8, 6, 4,,, 1 1 3 3 4 4 età materna Statistica Medica Correlazione e Regressione lineare semplice 11

Relazione alla nascita tra circonferenza cranica e lunghezza 36, 34, r =,7 3, circonferenza cranica 3, 8, 6, 4,,, 19 4 9 34 39 44 49 lunghezza Statistica Medica Correlazione e Regressione lineare semplice 1

Statistica Medica Correlazione e Regressione lineare semplice 13 ( )( ) ( ) ( ) = = = = n i n i i i n i i i y y x x y y x x r 1 1 1 La formula del coefficiente di correlazione di Pearson (r)

Relazione tra concentrazione plasmatica i colesterolo e trigliceridi Colesterolo Trigliceridi (x) (y) 1 3,4 6,4 3, 6,18 3,9, 4 3,77 6,11 3,67 6,36 6,31,67 7,1,48 8 7,8,67 9 8,79 9,4 1 1,3 8,4 medie:,669 6,471 Statistica Medica Correlazione e Regressione lineare semplice 14

Relazione tra concentrazione plasmatica di colesterolo e trigliceridi 1 9 8 7 6 trigliceridi 4 3 1 4 6 8 1 1 14 colesterolo Statistica Medica Correlazione e Regressione lineare semplice 1

Relazione tra concentrazione plasmatica i colesterolo e trigliceridi Colesterolo Trigliceridi (x) x y 1 3,4 6,4 -,49 -,493 3, 6,18 -,49 -,3 3,9, -,99-1,33 4 3,77 6,11 -,139 -,63 3,67 6,36 -,39 -,373 6,31,67 -,99-1,63 7,1,48 -,89-1,3 8 7,8,67 1,941-1,63 9 8,79 9,4,881,667 1 1,3 8,4 6,391 1,667 medie:,669 6,471 (y) ( ) y i xi ( ) Statistica Medica Correlazione e Regressione lineare semplice 16

Relazione tra concentrazione plasmatica di colesterolo e trigliceridi Colesterolo (x) Trigliceridi ( y) xi y i ( x) ( y y) ( x) (y) x i * ( x ) i x i ( y y) i 3,4 6,4 -,49 -,493 1,187 6,46681,4349 3, 6,18 -,49 -,3 1,33177,8381,389,9, -,99-1,33 4,36147 8,7681,389 3,77 6,11 -,139 -,63 1,3397 4,731,38819 3,67 6,36 -,39 -,373,83147,1311,13919,31,67 -,99-1,63,636737,3881 1,19969,1,48 -,89-1,3 1,13677,64481 1,79 7,8,67 1,941-1,63 -,6383 3,767481 1,19969 8,79 9,4,881,667 7,68367 8,3161 7,11889 1,3 8,4 6,391 1,667 1,63797 4,844881,778889 Sommatorie: 6,4411 83,4389 16,46149 r=,7177447 Statistica Medica Correlazione e Regressione lineare semplice 17

Esercizi Correlazione Pag 34 n 1 Pag 34 n Statistica Medica Correlazione e Regressione lineare semplice 18

Regressione Stima della variazione media di una variabile in conseguenza della variazione unitaria di un altra variabile Statistica Medica Correlazione e Regressione lineare semplice 19

Variabile indipendente -> causa -> (sulle ascisse) Variabile dipendente -> effetto -> (sulle ordinate) Statistica Medica Correlazione e Regressione lineare semplice

effetto y V d i p e n d e n t e Var indipendente x causa Statistica Medica Correlazione e Regressione lineare semplice 1

Obiettivo dell analisi di regressione: Individuare la retta che meglio predice il valore di y (variabile dipendente), noto il valore di x (variabile indipendente) y=a+bx Statistica Medica Correlazione e Regressione lineare semplice

y=a+bx a -> intercetta b -> pendenza Come stimiamo i valori dei due coefficienti? Statistica Medica Correlazione e Regressione lineare semplice 3

Il valore atteso di x è la sua media y Media di x x Statistica Medica Correlazione e Regressione lineare semplice 4

Il valore atteso di y è la sua media Media di y x Statistica Medica Correlazione e Regressione lineare semplice

La retta che meglio predice y x passa per la media di x e di y y Media di x e media di y x Statistica Medica Correlazione e Regressione lineare semplice 6

Per un punto passano infinite rette! Quale retta scegliamo? Con quale criterio? y x Statistica Medica Correlazione e Regressione lineare semplice 7

y x Statistica Medica Correlazione e Regressione lineare semplice 8

Residuo (o scarto) = valore y_osservato valore y_predetto La retta migliore minimizza la somma dei quadrati dei residui y Metodo detto dei minimi quadrati valore y_osservato valore y_predetto x Statistica Medica Correlazione e Regressione lineare semplice 9

( )( ) x x y y ( ) x b = i i x i Statistica Medica Correlazione e Regressione lineare semplice 3

a = y b x Statistica Medica Correlazione e Regressione lineare semplice 31

Relazione tra concentrazione plasmatica di colesterolo e trigliceridi Colesterolo (x) Trigliceridi ( y) xi y i ( x) ( y y) ( x) (y) x i * ( x ) i x i 1 3,4 6,4 -,19 -,31,189 4,93961 3, 6,18 -,169 -,91,631179 4,7461 3,9, -,719-1,71 3,4849 7,39961 4 3,77 6,11-1,899 -,361,6839 3,661 3,67 6,36-1,999 -,111,1889 3,9961 6,31,67 -,39 -,81,879,18881 7,1,48 -,69 -,991,63879,33761 8 7,8,67,181 -,81-1,746981 4,76761 9 8,79 9,4 3,11,99 9,14149 9,74641 1 1,3 8,4 6,631 1,99 1,791199 43,97161 medie:,669 6,471 6,4411 83,4389 b=,317763 a= 4,669883 Statistica Medica Correlazione e Regressione lineare semplice 3

variazione del livello di trigliceridi con il livello di colesterolo 1 trigliceridi (y) 8 6 4 4 6 8 1 1 14 colesterolo (x) Statistica Medica Correlazione e Regressione lineare semplice 33

variazione del livello di trigliceridi con il livello di colesterolo trigliceridi (y) 1 8 6 4 4 6 8 1 1 14 colesterolo (x) b =,3 Statistica Medica Correlazione e Regressione lineare semplice 34

variazione del livello di trigliceridi con il livello di colesterolo trigliceridi (y) 1 8 6 4 a=4,67 4 6 8 1 1 14 colesterolo (x) Statistica Medica Correlazione e Regressione lineare semplice 3

variazione del livello di trigliceridi con il livello di colesterolo trigliceridi=4,67 +,3* colesterolo 1 trigliceridi (y) 8 6 4 4 6 8 1 1 14 colesterolo (x) Statistica Medica Correlazione e Regressione lineare semplice 36

Statistica Medica Correlazione e Regressione lineare semplice 37 Formule abbreviate ( )( ) ( )( ) ( ) ( ) = x x y x y x y i n i a i i i i i ( ) ( )( ) ( ) ( ) = x x y x y x i n i n b i i i i Queste formule sono più convenienti per il calcolo a mano Si basano sulle formule abbreviate per il calcolo della varianza

Requisiti dell analisi di regressione Y è una variabile casuale Omoscedasticità (omogeneità della varianza di y x) Distribuzione normale di y x Linearità della relazione tra x ed y Statistica Medica Correlazione e Regressione lineare semplice 38

In questo esempio abbiamo dati campionati da una popolazione in cui le tre assunzioni sono soddisfatte Statistica Medica Correlazione e Regressione lineare semplice 39

Variabilità della retta di regressione y è una variabile casuale x di solito non è una variabile casuale Il ricercatore può scegliere soggetti con i valori della x più adatti per lo studio siamo interessati a valutare la variabilità di y, non quella di x Statistica Medica Correlazione e Regressione lineare semplice 4

Varianza intorno alla retta di regressione (stima campionaria) s ( ) y yˆ i i = n Statistica Medica Correlazione e Regressione lineare semplice 41

Residuo (o scarto) = valore y_osservato valore y_predetto Varianza = scarti ^ / gl y valore y_osservato scarto valore y_predetto x Statistica Medica Correlazione e Regressione lineare semplice 4

s ( ) y yˆ i i = n y ˆ = a + i bx i Sostituisco: s ( y a bx ) = i n i Statistica Medica Correlazione e Regressione lineare semplice 43

Relazione tra concentrazione plasmatica di colesterolo e trigliceridi Colesterolo Triglicerid att(y) y-att(y) (y-att(y))^ (x) i (y) 1 3,4 6,4,7696,4743,479 3, 6,18,78181,398149,18 3,9,,671 -,471,1673 4 3,77 6,11,867637,4363,874 3,67 6,36,8386,413,74718 6,31,67 6,36936 -,68694,471881 7,1,48 6,914 -,811,66446 8 7,8,67 7,16396-1,49396,3191 9 8,79 9,4 7,4664 1,937376 3,7344 1 1,3 8,4 8,7784 -,17784,3169 somma degli scarti^ 8,77 b=,317763 s(b)^= 1,346 a= 4,669883 Statistica Medica Correlazione e Regressione lineare semplice 44

Omoscedasticità: la varianza di y è costante per tutto l intervallo x E un requisito per la corretta applicazione della regressione lineare (voltre) Statistica Medica Correlazione e Regressione lineare semplice 4

Errore standard di b ES( b) = s ( x x) i Statistica Medica Correlazione e Regressione lineare semplice 46

Colesterolo (x) Trigliceridi ( ) (y) x xi att(y) y-att(y) (y-att(y))^ 1 3,4 6,4 4,93961,7696,4743,479 3, 6,18 4,7461,78181,398149,18 3,9, 7,39961,671 -,471,1673 4 3,77 6,11 3,661,867637,4363,874 3,67 6,36 3,9961,8386,413,74718 6,31,67,18881 6,36936 -,68694,471881 7,1,48,33761 6,914 -,811,66446 8 7,8,67 4,76761 7,16396-1,49396,3191 9 8,79 9,4 9,74641 7,4664 1,937376 3,7344 1 1,3 8,4 43,97161 8,7784 -,17784,3169 83,4389 somma degli scarti^ 8,77 b=,317763 s(b)^= 1,346 a= 4,669883 ES(b)=,1996 Statistica Medica Correlazione e Regressione lineare semplice 47

Errore standard di b ES( b) = s ( x x) i L errore standard di b si riduce, a parità di s, quando la variabilità di x è maggiore! Statistica Medica Correlazione e Regressione lineare semplice 48

Intervallo di Confidenza e tests t per il coefficiente di regressione t = distanza tra il valore di b stimato (b) e quello previsto dall ipotesi nulla (ß, di solito H: ß =), in unità di errore standard di b (SE(b)) t = b β SE(b) Statistica Medica Correlazione e Regressione lineare semplice 49

Intervallo di Confidenza del coefficiente di regressione L intervallo di confidenza si calcola nel modo consueto (v lezione precedente) t ha (n-) gradi di libertà ed il valore è scelto in modo corrispondente all errore di I tipo, con test a code CI = b ± t crit SE(b) Statistica Medica Correlazione e Regressione lineare semplice

Colesterolo (x) Trigliceridi ( ) (y) x xi att(y) y-att(y) (y-att(y))^ 1 3,4 6,4 4,93961,7696,4743,479 3, 6,18 4,7461,78181,398149,18 3,9, 7,39961,671 -,471,1673 4 3,77 6,11 3,661,867637,4363,874 3,67 6,36 3,9961,8386,413,74718 6,31,67,18881 6,36936 -,68694,471881 7,1,48,33761 6,914 -,811,66446 8 7,8,67 4,76761 7,16396-1,49396,3191 9 8,79 9,4 9,74641 7,4664 1,937376 3,7344 1 1,3 8,4 43,97161 8,7784 -,17784,3169 83,4389 somma degli scarti^ 8,77 b=,317763 s(b)^= 1,346 a= 4,669883 ES(b)=,1996 IC(9%)_b=,64998 -,74 Statistica Medica Correlazione e Regressione lineare semplice 1

8 6 4 variazione del livello di trigliceridi con il livello di colesterolo trigliceridi=4,67 +,3* colesterolo IC(9%)_b= 1,6 -,7 trigliceridi (y) 4 6 8 1 1 14 colesterolo (x) Statistica Medica Correlazione e Regressione lineare semplice

Relazione alla nascita tra circonferenza cranica e lunghezza circonferenza cranica 36, 34, 3, 3, 8, 6, 4, a=8, b=,1 ES(b)=,1 (IC 9%_b:,41 -,61) y= 8, +,1x,, 18, 19 8 31 34 37 4 43 46 lunghezza Statistica Medica Correlazione e Regressione lineare semplice 3

Valore di y predetto dalla retta di regressione data y=a+bx, dopo aver ricavato a e b possiamo predire il valore atteso di y, corrispondente ad un dato valore di x Il calcolo si effettua sostituendo il valore di x nella formula, noti a e b e risolvendo l equazione Statistica Medica Correlazione e Regressione lineare semplice 4

Valore di y predetto dalla retta di regressione Es il valore di circonferenza cranica predetto per un bambino di lunghezza 41 cm è ŷ =8,+,13 * x ŷ ŷ =8,+,13 * 41 =9, Statistica Medica Correlazione e Regressione lineare semplice

Intervallo di confidenza dei valori predetti PI ( ) x x i ( ) x x 1 = yˆ ± t s 1+ + gl, α n i Statistica Medica Correlazione e Regressione lineare semplice 6

Relazione alla nascita tra circonferenza cranica e lunghezza Es il valore di circonferenza cranica predetto per un bambino di lunghezza 41 cm è ŷ =9, ŷ IC( )=,47-3,63 Statistica Medica Correlazione e Regressione lineare semplice 7

Intervallo di confidenza dei valori predetti PI ( ) x x i ( ) x x 1 = yˆ ± t s 1+ + gl, α n i La predizione ha un errore maggiore allontanandosi dalla media di x La predizione ha un errore minore con un ampia variabilità di x Statistica Medica Correlazione e Regressione lineare semplice 8

Statistica Medica Correlazione e Regressione lineare semplice 9

14 1 1 8 6 4 atteso_y 4 6 8 1 1 14 Statistica Medica Correlazione e Regressione lineare semplice 6

Cautele nella predizione La predizione non è valida fuori dell intervallo osservato di x La predizione è più incerta agli estremi della distribuzione di x Per migliorare la precisione della predizione debbo aumentare la somma dei quadrati degli scarti (devianza) di x Statistica Medica Correlazione e Regressione lineare semplice 61

Outliers ed osservazioni influenti Statistica Medica Correlazione e Regressione lineare semplice 6

Relazione alla nascita tra circonferenza cranica e lunghezza Ho due outliers, indicati come: 1 e 36, 34, 3, 3, circonferenza cranica 8, 6, 4,, 1, 18, 19 8 31 34 37 4 43 46 lunghezza Statistica Medica Correlazione e Regressione lineare semplice 63

Relazione alla nascita tra circonferenza cranica e lunghezza Se escludo outlier 1 36, 34, 3, 3, circonferenza cranica 8, 6, 4,, 1, 18, 19 8 31 34 37 4 43 46 lunghezza Statistica Medica Correlazione e Regressione lineare semplice 64

Relazione alla nascita tra circonferenza cranica e lunghezza 36, 34, Se escludo outliers 1 e 3, circonferenza cranica 3, 8, 6, 4,, 1, 18, 19 8 31 34 37 4 43 46 lunghezza Statistica Medica Correlazione e Regressione lineare semplice 6

Relazione alla nascita tra circonferenza cranica e lunghezza Tutti i dati: a=8, b=,1 Escluso outlier 1: a=4,91 b=,6 Esclusi outlier 1 e : a=4,46 b=,61 Statistica Medica Correlazione e Regressione lineare semplice 66

Valutazione del modello R : proporzione della varianza che è spiegata dal modello di regressione = (coefficiente di correlazione) ^ Statistica Medica Correlazione e Regressione lineare semplice 67

variazione del livello di trigliceridi con il livello di colesterolo trigliceridi=4,67 +,3* colesterolo 1 r =,716 R =,1 trigliceridi (y) 8 6 4 4 6 8 1 1 14 colesterolo (x) Statistica Medica Correlazione e Regressione lineare semplice 68

Verifica dei modelli Omoscedasticità (omogeneità della varianza) Distribuzione normale degli errori Linearità Statistica Medica Correlazione e Regressione lineare semplice 69

Verifica dei modelli Omoscedasticità (omogeneità della varianza) Distribizione normale degli errori Linearità Statistica Medica Correlazione e Regressione lineare semplice 7

Omoscedasticità (omogeneità della varianza) Statistica Medica Correlazione e Regressione lineare semplice 71

Verifica delle assunzioni del modello La verifica delle assunzioni del modello viene condotta esaminando la distribuzione dei residui Se la varianza è costante per tutta la distribuzione della x,anche i residui saranno distribuiti in modo uniforme Statistica Medica Correlazione e Regressione lineare semplice 7

Residuo (o scarto) = valore y_osservato valore y_predetto y valore y_osservato valore y_predetto x Statistica Medica Correlazione e Regressione lineare semplice 73

Verifica delle assunzioni del modello Distribuzione uniforme dei residui Statistica Medica Correlazione e Regressione lineare semplice 74

Distribuzione uniforme dei residui Statistica Medica Correlazione e Regressione lineare semplice 7

Distribuzione non uniforme dei residui Statistica Medica Correlazione e Regressione lineare semplice 76

Distribuzione non uniforme dei residui Statistica Medica Correlazione e Regressione lineare semplice 77

Verifica dei modelli Omoscedasticità (omogeneità della varianza) Distribuzione normale degli errori Linearità Statistica Medica Correlazione e Regressione lineare semplice 78

Distribuzione normale dei residui (errori) Statistica Medica Correlazione e Regressione lineare semplice 79

Distribuzione non normale dei residui (errori) Statistica Medica Correlazione e Regressione lineare semplice 8

Distribuzione non normale dei residui (errori) Statistica Medica Correlazione e Regressione lineare semplice 81

Verifica dei modelli Omoscedasticità (omogeneità della varianza) Distribizione normale degli errori Linearità Statistica Medica Correlazione e Regressione lineare semplice 8

Perchè parliamo di regressione lineare? La variazione lineare è spesso una spiegazione adeguata Variazioni non lineari diventano tali dopo una trasformazione matematica di una delle variabili La variazione lineare è un punto di partenza Statistica Medica Correlazione e Regressione lineare semplice 83

Non-linearità Statistica Medica Correlazione e Regressione lineare semplice 84

Non-linearità Statistica Medica Correlazione e Regressione lineare semplice 8

Non-linearità Statistica Medica Correlazione e Regressione lineare semplice 86

Trasformazioni normalizzanti e linearizzanti Radice quadrata Logaritmo Inversa (meglio se ulteriormente moltiplicata per -1) Statistica Medica Correlazione e Regressione lineare semplice 87

Trasformazioni normalizzanti e linearizzanti Dati trasformati Inversa negativa Log Radice Dati originali Statistica Medica Correlazione e Regressione lineare semplice 88

Statistica Medica Correlazione e Regressione lineare semplice 89 FREQUENCY 1 3 4 6 7 8 9 1 11 1 13 14 1 CORPUSCOMIDPOINT 7 1 1 1 1 7 7 3 3 3 3 7 4 4 4 4 7 7 6 6 6 6 7 7 7 7 7 7 8 8 8 8 7 9 9 9 9 7 1 FREQUENCY 1 3 4 L_c MIDPOINT 7 1 1 1 1 7 7 3 3 3 3 7 4 4 4 4 7 7 6 6 6 6 7 7 7 7 7 7 8 8 8 8 7 9 9 9 9 7 1 1 1 1 7 1 1 1 1 1 1 1 1 7 1 1 1 1 7 1 3 1 3 1 3 1 3 7 1 4

Esercizi regressione Pag36 n 1 Pag36 n 3 Pag36 n 4 Pag36 n 6 Pag36 n 1 Statistica Medica Correlazione e Regressione lineare semplice 9

Statistica Medica Correlazione e Regressione lineare semplice 91

Regressione multipla y = a + b 1 x 1 + b x + b 3 x 3 + b 4 x 4 Statistica Medica Correlazione e Regressione lineare semplice 9

DIAM HT VOL 83 7 13 86 6 13 88 63 1 1 7 164 17 81 188 18 83 197 11 66 16 11 7 18 111 8 6 11 7 199 113 79 4 114 76 1 114 76 14 117 69 13 1 7 191 19 74 19 8 338 133 86 74 137 71 7 138 64 49 14 78 34 14 8 317 14 74 363 16 7 383 163 77 46 173 81 4 17 8 7 179 8 83 18 8 1 18 8 1 6 87 77 MTB > glm lvolume=lht+ldiam; Analysis of Variance for LVOLUME, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P LDIAM 1 794 467 467 69863 LHEIGHT 1 1978 1978 1978 986 Error 8 18 18 66 Total 3 8387 Term Coeff Stdev t-value P Constant -66316 7998-89 LDIAM 1986 71 643 LHEIGHT 11171 44 46 Predicted LVOLUME = = - 66316 + 11171 *LHEIGHT + 1986 *LDIAM Statistica Medica Correlazione e Regressione lineare semplice 93

MTB > glm lvolume=ldiam+lheight; SUBC> covariate ldiam lheight Analysis of Variance for LVOLUME Source DF Seq SS Adj SS Adj MS F P LDIAM 1 794 467 467 69863 LHEIGHT 1 1978 1978 1978 986 Error 8 18 18 66 Total 3 8387 Term Coeff Stdev t-value P Constant -66316 7998-89 LDIAM 1986 71 643 LHEIGHT 11171 44 46 Sequential SS are adjusted for preceding terms in the model Adjusted SS are adjusted for all other terms in the model So the last variable must have Seq SS = Adj SS Adding variables to the end doesn t change the existing Seq SS Statistica Medica Correlazione e Regressione lineare semplice 94

MTB > glm lvolume=ldiam+lheight; SUBC> covariate ldiam lheight Source DF Seq SS Adj SS Adj MS F P LDIAM 1 794 467 467 69863 LHEIGHT 1 1978 1978 1978 986 Error 8 18 18 66 Total 3 8387 MTB > glm lvolume=lheight+ldiam; SUBC> covariate lheight ldiam Source DF Seq SS Adj SS Adj MS F P LHEIGHT 1 3497 1978 1978 986 LDIAM 1 467 467 467 69863 Error 8 18 18 66 Total 3 8387 Statistica Medica Correlazione e Regressione lineare semplice 9

MTB > glm lvolume=ldiam+lheight; SUBC> covariate ldiam lheight Term Coef SE Coef T P Constant -66316 7998-89 LDIAM 1986 71 643 LHEIGHT 11171 44 46 MTB > glm lvolume=lheight+ldiam; SUBC> covariate lheight ldiam Term Coef SE Coef T P Constant -66316 7998-89 LHEIGHT 11171 44 46 LDIAM 1986 71 643 Statistica Medica Correlazione e Regressione lineare semplice 96

Regressione multipla y = a + b 1 x 1 + b x + b 3 x 3 + b 4 x 4 - Selezione del modello più parsimonioso - Confondimento? - Interazione? Statistica Medica Correlazione e Regressione lineare semplice 97