Statistica multivariata Donata Rodi 17/10/2016
Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare
Coefficiente di correlazione Coefficiente di correlazione ρ (popolazione): misura della forza della associazione tra variabili Coefficiente di correlazione r (campione): stima di ρ, misura della forza della relazione lineare nei dati campionari
La Regressione Semplice Relazione di dipendenza tra le variabili (var.dipendente e indipendente) Ricerca di un modello matematico che tende a spiegare l andamento di un fenomeno in funzione dell altro La retta: per legami di tipo lineare Al variare di x stabilisce il valore teorico che y dovrebbe avere sull unità i- esima
La regressione Intercetta Pendenza della retta Rappresenta il valore atteso della variabile dipendente se la variabile indipendente è 0. Indica il cambiamento atteso per la variabile dipendente se quella indipendente varia di una unità
Esempio
Uso della regressione y = β 0 + β 1 x + ε Componente lineare Errore casuale Per predire il valore della variabile dipendente sulla base di almeno una variabile indipendente Per spiegare l impatto del cambiamento di una variabile indipendente sulla VD Interpolazione: quando la previsione di Y corrisponde a un valore di X nell intervallo dei valori campionari Estrapolazione: se la previsione di Y corrisponde a un valore esterno all intervallo
Regressione: stima Regressione: stima della relazione vera tra Y e X ovvero stima dei coefficienti β0 e β1 Valutazione della risposta di Y a un certo livello di X. Le osservazioni campionarie differiscono perché la popolazione di appartenenza è distribuita in un range di possibili valori
Regressione: stima Stima della relazione tra x e y Residuo: stima dell errore di previsione di Y sulla base di X
Stima: metodo dei minimi quadrati
H0: nessuna relazione tra Y e X H1: relazione lineare tra Y e X Misure di variabilità Somma dei quadrati dei residui Somma dei quadrati di regressione
Somma dei quadrati
Statistica test Esempio P<0.001
Coefficiente di determinazione Esempio Misura della variabilità di Y spiegata da X Valutazione del modello di regressione R tra 0 e 1 R 2 = r 2 La retta di regressione trovata spiega il 93% della variazione della risposta nella Y
Errore standard della stima Misura della variabilità degli scostamenti tra valori osservati e valori previsti dal modello
Assunzioni del modello Errori ε statisticamente indipendenti Errori ε distribuiti in modo normale per ogni valore di x: modello robusto Varianza omogenea degli errori Relazione lineare tra X e y
Analisi dei residui Stima della capacità di adattamento ai dati della retta di regressione tramite analisi grafica: grafico di dispersione dei residui Se si evidenzia una relazione: modello non adeguato Lack of fit
Analisi dei residui Omoschedasticità della varianza La variabilità dei residui aumenta se aumenta X
Esempio Sindrome neurologica derivante dall alterata produzione di un NT
Esempio Sindrome neurologica derivante dall alterata produzione di un NT
Esempio Grafico dei residui Se il modello statistico è appropriato, non c è alcun pattern evidente nei residui
Esempio Grafico dei residui: farmaco B Modello di secondo grado
Errori comuni
Errori comuni
Inferenza: inclinazione della retta di regressione Tra X e Y esiste una relazione lineare significativa? Stima di b1 Verifica di ipotesi H0: β1 = 0 Sb1: stima dell errore standard della pendenza dei minimi quadrati Sε = errore standard campionario della stima
Inferenza: inclinazione della retta di regressione Tra X e Y esiste una relazione lineare significativa? Verifica di ipotesi H0: β1 = 0
IC della stima della pendenza β