Correlazione e regressione

Documenti analoghi
Regressione Lineare Semplice e Correlazione

Regressione lineare semplice

Statistica multivariata Donata Rodi 17/10/2016

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

ANALISI MULTIVARIATA

Dispensa di Statistica

REGRESSIONE E CORRELAZIONE

La regressione lineare. Rappresentazione analitica delle distribuzioni

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Tipi di variabili. Indici di tendenza centrale e di dispersione

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

Regressione lineare. Lo studio della relazione lineare tra due variabili. X e Y caratteri entrambi quantitativi. variabile dipendente

Statistica. Alfonso Iodice D Enza

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Statistica. Alfonso Iodice D Enza

GENETICA QUANTITATIVA

LA REGRESSIONE LINEARE NELLA RICERCA CLINICA

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

Statistica di base per l analisi socio-economica

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Esercitazione del

Analisi Multivariata dei Dati. Regressione Multipla

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori

Test per la correlazione lineare

Tra i non fumatori qual è la percentuale di non utilizzatori di sostanze stupefacenti? Scegli un'alternativa: a. 86% b. 10% c. 50% d. 25% e.

LA RETTA. La retta è un insieme illimitato di punti che non ha inizio, né fine.

Statistica. Alfonso Iodice D Enza

STATISTICA A K (60 ore)

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Teoria e tecniche dei test

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Strumenti di indagine per la valutazione psicologica

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

SCOPO DELL ANALISI DI CORRELAZIONE

Ogni misura è composta di almeno tre dati: un numero, un'unità di misura, un'incertezza.

PROBABILITÀ ELEMENTARE

Esercizi di Ricapitolazione

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

Esercizi di statistica

Introduzione all Analisi della Varianza (ANOVA)

Laboratorio di Statistica 1 con R Esercizi per la Relazione. I testi e/o i dati degli esercizi contassegnati da sono tratti dai libri consigliati

Il confronto fra medie

Esercitazioni di statistica

CAPITOLO 11 ANALISI DI REGRESSIONE

Statistica multivariata

standardizzazione dei punteggi di un test

Compiti tematici dai capitoli 2,3,4

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Distribuzione normale

Associazione tra caratteri quantitativi: gli indici di correlazione

Il modello lineare misto

La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.

TRACCIA DI STUDIO. Test di confronto per misure qualitative. Verifica di ipotesi

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Statistica Inferenziale

Covarianza, correlazione e retta di regressione. Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2

Test delle Ipotesi Parte I

DISTRIBUZIONE CAMPIONARIA CONGIUNTA

Giorno n. clienti di attesa

LA DISTRIBUZIONE NORMALE (Vittorio Colagrande)

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:

Questo calcolo richiede che si conoscano media e deviazione standard della popolazione.

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Esercitazioni di statistica

Lezione n. 1 (a cura di Irene Tibidò)

METODO DEI MINIMI QUADRATI

Transcript:

SMID a.a. 2004/2005 Corso di Metodi Statistici in Biomedicina Correlazione e regressione 28/1/2005

Relazioni Che rapporto c'è tra la pressione arteriosa e il peso corporeo? relazione tra due variabili continue C'è un legame tra peso corporeo e complicanze cardiovascolari? una variabile continua (il peso) e una variabile nominale (incidente cerebro-vascolare: si/no) Che rapporto c'è tra sesso e rischio cardiovascolare? due variabili nominali (sesso: maschio/femmina, complicanza cardiovascolare: si/no)

y Variabili continue rapporto tra x e y descritto dall equazione y = a + bx la retta che x meglio interpola i a è l'intercetta (y per x = 0) dati (best fit) b la pendenza (slope) della retta operazione su un campione di dati della popolazione

Interpolazione Il campione fornisce una stima (non una certezza) dei parametri della popolazione per ogni valore della x esistono molti possibili valori della y che hanno una distribuzione Gaussiana il problema è trovare una intercetta e una pendenza della retta tali da minimizzare la distanza di ciascuno dei punti dalla retta Come per la varianza è conveniente elevare al quadrato le deviazioni dei punti rispetto alla retta e minimizzare la somma dei quadrati delle deviazioni metodo dei minimi quadrati o least squares method

y Residui Sono le deviazioni dei singoli punti dalla retta y x le deviazioni dovute alla regressione distanza delle singole y i dalla y media (cioè dalla linea orizzontale) x

Stima variabilità dei dati residui residui 2 dev. regr. (dev. regr.) 2-1,5 2,25-3,2 10,24 1,3 1,69 0,0 0,00-0,7 0,49-1,3 1,69 0,8 0,64 1,5 2,25-0,8 0,64 0,5 0,25 1,3 1,69 3,0 9,00 i punti possono essere più o meno distanti dalla retta residui2 = 7,40 regressione2 = 23,43 se i punti sono molto vicini esiste un rapporto stretto

Coefficiente di correlazione r = regressione 2 residui2 + regressione 2 detto anche coefficiente di Pearson residui = 7,40 regressione = 23,43 r = 23,24 / 30,83 = 0,76 I rapporti tra due variabili possono essere, oltre che consensuali e ascendenti rapporto diretto oppure discordanti e discendenti rapporto inverso

Relazione funzionale 69 67 y = 10 + 0,3 x peso (Kg) 65 63 61 59 57 peso = 10 + 0,3 altezza 55 150 160 170 180 190 200 r = 0,9750 R 2 = 0,9507 altezza (cm) Utilizzo di pacchetti statistici!

Minimi quadrati 95 90 85 80 75 Peso (kg) 70 65 60 55 50 45 40 150 155 160 165 170 175 180 185 190 Altezze (cm) valore che minimizza la distanza (al quadrato) tra il valore y i sperimentale ed il valore y i teorico r = 0.7624 y = 1,1039 x 125.75 R 2 = 0.5812

Variabili ordinali Stadi di malattia, numero di individui affetti, ecc.) uso approccio diverso dal metodo dei minimi quadrati le variabili x e y vengono ordinate in serie crescenti per testare il loro accordo gerarchico (ranghi) L accordo è ideale quando al più basso valore di x corrisponde il più basso valore di y e così via fino ad arrivare ai valori massimi Coefficiente di correlazione di Spearman coincide con il coefficiente di correlazione per serie di dati >20

195 185 175 165 155 145 Esempio ambiguo Date le altezze (cm) di studenti verso il tipo di diploma acquisito qual è il tipo di correlazione? Altezza (cm) 0 1 2 3 4 5 6 Correlazione nulla?! Tipo di diploma Tipo di calcolo identico sia per effettuare un'analisi di correlazione o un'analisi di regressione dei dati

Altra espressione Coefficiente di Pearson indica grado di correlazione r = (x i m x )(y i m y ) / (x i m x ) 2 (y i m y ) 2 Il valore di r assume tutti i numeri reali tra -1 r 1 Valori positivi di r indicano correlazione positiva Valori negativi di r indicano correlazione negativa r = 0 indica assenza di correlazione r = 1 si ha correlazione diretta completa (funzionale) r = 1 correlazione inversa completa (funzionale) Correlazione non implica relazione causale!

Covarianza Come si è definita la varianza di una variabile x Var(x) = (x i m x ) 2 / N si definisce covarianza di due variabili x ed y come: Cov(x, y) = (x i m x )(y i m y ) / N Varianza non è altro che la covarianza di x con x stesso Il coefficiente di correlazione r = (x i m x )(y i m y ) / (x i m x ) 2 (y i m y ) 2 Può essere quindi visto come r(x,y) = Cov(x, y) / Var(x) Var(y)

18000 16000 14000 12000 10000 8000 6000 4000 2000 0 Validità della correlazione Pensione annua ( ) rispetto agli anni di contributi 20000 r = 0,773627 0 5 10 15 20 R = 0,773622 R buono e valido cresce costantemente all aumentare degli anni di contributi 25000 20000 15000 10000 5000 0 R buono ma ingannevole cresce rapidamente, ha un massimo e poi tende a decrescere 0 5 10 15 20

Correlazione Si calcola quando siamo interessati a quantificare la forza dell'associazione tra due variabili continue e la direzione del loro accordo R 2 detto coefficiente di determinazione, esprime in che misura la variabilità di una certa variabile y si associa a quella di un'altra variabile x Se r = 0.70 R 2 = 0.70 0.70 = 0.49 Questo vuol dire che il 49% della variabilità di y è spiegato dalla concomitante variabilità di x stime valide solo se i valori di x sono casuali

Regressione In un problema di regressione le due variabili non svolgono più un ruolo simmetrico (associazione) Nella regressione lo studio consiste nella ricerca della relazione funzionale tra i valori della variabile x ed i valori medi della variabile y non è tanto la forza dell'associazione tra le due variabili quanto la stima di una variabile essendo nota l'altra che sarà ovviamente più o meno precisa in dipendenza della forza della loro correlazione

Uso della regressione peso = 10 + 0,3 altezza peso [Kg] = 10 [Kg] + 0,3 [Kg/cm] altezza [cm] possiamo stimare che un soggetto alto 150 cm ha un peso di 55 kg e uno alto 200 cm pesi 70 Kg ci fideremo poco di questa stima se il coefficiente di correlazione è basso (ad esempio se r = 0.3) R 2 = 0.09 indica che solo il 9% della variabilità del peso è spiegata dalla variabilità dell'altezza Viceversa daremmo valore alla stima se r = 0.80 (R 2 = 0.64) o r = 0.90 (R 2 = 0.81)

Conclusione Correlazione e regressione non sono la stessa cosa Si può trovare un identica correlazione tra due serie di valori senza che questo implichi che le due serie di valori siano descritte da rette identiche cioè con la stessa intercetta e la stessa pendenza Viceversa noi possiamo comunque essere interessati a stimare un certo valore di y a partire da un valore dato di x ossia la regressione di y su x anche se la forza dell associazione non è elevata

Regressione multipla Possiamo stimare la pressione arteriosa media a partire dal peso dei pazienti e stabilire la forza di questa associazione (correlazione) Tuttavia oltre al peso corporeo, molti altri fattori possono influenzare la pressione arteriosa, ad es. il numero di sigarette fumate, l'apporto di sale, ecc Tutte queste informazioni aggiuntive indubbiamente potrebbero arricchire la precisione della stima e pertanto sarebbe riduttivo escluderle dall'analisi Se la variabile è influenzata da più variabili essa può essere stimata con la regressione multipla

Parametri Possiamo immaginare un'equazione analoga alla regressione lineare ma fondata su più variabili la pressione arteriosa media (PAM) può essere stimata in base al peso e al fumo Tutte queste informazioni aggiuntive indubbiamente potrebbero arricchire la precisione della stima e pertanto sarebbe riduttivo escluderle dall'analisi PAM = a + b peso + c n_sigarette a è l'intercetta della regressione multipla b e c sono i coefficienti del peso corporeo e del numero di sigarette

Correlazione multipla PAM a = 90 mmhg, b = 0.6 Kg, c = 0.5 sigarette peso numero sigarette un uomo che pesa 100 Kg e fuma 20 sigarette al giorno PAM = 90 + 0.6 100 + 0.5 20 = 160 mmhg Le equazioni multiple possono avere molte variabili indipendenti e altrettanti coefficienti (b, c, d, e,.) coefficienti di regressione indicati con la lettera B i

Componenti multiple Nella regressione multipla la forza dell'associazione tra la variabile dipendente e le variabili indipendenti è espressa dal coefficiente di regressione multipla (R) e dal relativo coefficiente di determinazione (R 2 ) Ai singoli coefficienti di regressione che compongono l'equazione si può attribuire una significatività basta paragonare di volta in volta il coefficiente di determinazione (R 2 ) del modello (full model) con un secondo coefficiente di determinazione (R 2 ) calcolato escludendo la variabile corrispondente cioè con un modello ridotto (reduced model)

Verifica dei modelli Se l'r 2 non si modifica vuol dire che il coefficiente non è significativo viceversa sarà tanto più significativo quanto più si abbassa l'r 2 I valori espressi nei coefficienti di regressione consentono di predire la variabile dipendente ma non ci danno alcuna informazione sul loro peso relativo Per predire la pressione è più importante il peso o il fumo? I coefficienti di regressione sono espressi in unità di misura differenti e i loro valori non possono essere paragonati

Standardizzazione Per rendere paragonabili i valori dei coefficienti di regressione possiamo standardizzarli Una volta trasformati i coefficienti di regressione in coefficienti di regressione standardizzati (o beta) possiamo metterli a confronto e stabilire l'importanza relativa di ciascuna variabile indipendente Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 il peso è un determinante per la pressione arteriosa media 2 volte più importante del fumo!

Scelta delle variabili Un modello statistico è tanto più efficiente quanto minore è il numero di variabili indipendenti (explanatory variables) che utilizza per predire) la variabile dipendente con adeguata accuratezza Se, ad esempio, abbiamo 7 variabili indipendenti ci possiamo chiedere quali di queste 7 vale la pena introdurre nell'equazione Una variabile indipendente con una coefficiente standardizzato basso contribuisce poco alla stima della variabile dipendente e complica inutilmente l'equazione multipla

Costruzione dei modelli Per costruire un modello multiplo possiamo partire da una sola variabile indipendente quindi aggiungerne una seconda Se il coefficiente di determinazione (R 2 ) aumenta possiamo giudicare opportuno utilizzare anche la seconda variabile indipendente Procediamo quindi con una terza variabile e ripetiamo la stessa verifica e così via Questo modo di procedere introducendo una variabile per volta è la tecnica stepwise I dati vengono in genere presentati in tabelle

step 1 2 3 4 variabile peso fumo sale - Tabelle di scelta R 2 0,32 0,48 0,49 - variazione 16 % 1 % - probabilità <0,01 < 0,01 n.s. Introducendo la seconda variabile l'r 2 passa da 0.32 a 0.48 (cioè l'equazione predice con accuratezza del 16% più alta la variabile dipendente) questo aumento di R 2 è significativo stop quando non c'è più guadagno in significatività -

Sequenza variabili Utilizzare una gerarchia predeterminata in base alla nostra conoscenza dei fenomeni oppure lasciarci guidare dal computer la forza dell'associazione espressa da un certo coefficiente standardizzato è influenzata dalle oscillazioni casuali dei dati Decidiamo di introdurre prima il peso perché il rapporto tra peso e pressione è stato largamente confermato mentre il rapporto fumo/pressione è meno certo fumatori abituali non più ipertesi dei non fumatori

Multicollinearità Una variabile indipendente che molto correlata alla variabile dipendente delude quando viene inserita nella regressione multipla essa si correla anche alle variabili precedentemente introdotte (multicollinearità) e per questo aggiunge poche informazioni all'equazione Se l'apporto alimentare di sale e la pressione arteriosa sono correlati tra loro l'r risulta elevato (0.5) introducendolo nel modello multiplo l'r 2 varia 1% i pazienti che introducono più sale sono anche più grassi e fumano molto e viceversa