LA REGRESSIONE LINEARE NELLA RICERCA CLINICA

Documenti analoghi
L INTERAZIONE NEGLI STUDI EPIDEMIOLOGICI

Regressione Lineare Semplice e Correlazione

LE MISURE DI EFFETTO NELLA RICERCA CLINICA

Statistica multivariata Donata Rodi 17/10/2016

Corso in Statistica Medica

ANALISI MULTIVARIATA

Capitolo 12 La regressione lineare semplice

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Errori (o bias) negli studi epidemiologici

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

lezione 4 AA Paolo Brunori

Esame di Matematica e Abilità Informatiche - 12 Luglio Le soluzioni

CAPITOLO 11 ANALISI DI REGRESSIONE

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Facoltà di Psicologia Università di Padova Anno Accademico Corso di Psicometria - Modulo B

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Esercizio 2: voto e ore dedicate allo studio

Regressione lineare. Lo studio della relazione lineare tra due variabili. X e Y caratteri entrambi quantitativi. variabile dipendente

1. Introduzione ai disegni sperimentali. 5. Analisi della regressione lineare. 6. Confronto tra proporzioni di due o più campioni indipendenti

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Metodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione

Esercitazione del

Vogliamo determinare una funzione lineare che meglio approssima i nostri dati sperimentali e poter decidere sulla bontà di questa approssimazione.

LA REGRESSIONE LINEARE SEMPLICE

STATISTICA A K (60 ore)

Università del Piemonte Orientale Corso di Laurea specialistica in Biotecnologie mediche. Corso di Statistica Medica. Correlazione

Regressione & Correlazione

Statistica descrittiva: analisi di regressione

Psicometria con Laboratorio di SPSS 2

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Metodologie Quantitative

Correlazione e regressione

LE META-ANALISI. Graziella D Arrigo, Fabio Provenzano, Claudia Torino, Carmine Zoccali, Giovanni Tripepi

STATISTICA MULTIVARIATA SSD MAT/06

REGRESSIONE E CORRELAZIONE

Intervallo di fiducia del coefficiente angolare e dell intercetta L intervallo di fiducia del coefficiente angolare (b 1 ) è dato da:

Verifica delle ipotesi

Indipendenza, Dipendenza e interdipendenza

SIMULAZIONE TERZA PROVA DOMANDE CHIUSE CAMPO DI ESISTENZA. 4 è: x 6x. = è:

Metodi statistici per le ricerche di mercato

La regressione lineare. Rappresentazione analitica delle distribuzioni

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello

RELAZIONE TRA DUE VARIABILI QUANTITATIVE

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

I TEST DIAGNOSTICI E L ANALISI DELLA CURVA ROC

Matematica Lezione 22

Cognome e nome Tempo disponibile: 75 minuti

INDICE PARTE METODOLOGICA

STATISTICA. Esercitazione 5

LEZIONI DI STATISTICA MEDICA

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

1. variabili dicotomiche: 2 sole categorie A e B

Statistica di base per l analisi socio-economica

Distribuzione Gaussiana - Facciamo un riassunto -

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

Laboratorio di Fisica I A.A. 2018/ /12/2018

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

STATISTICA. Regressione-2

Correlazione e regressione

Presentazione dell edizione italiana

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

Statistica multivariata! Analisi fattoriale

Determinazione dell azoto totale e ammoniacale in spettrofotometria: modalità di calibrazione e confrontabilità nel tempo

ESERCITAZIONE REGRESSIONE MULTIPLA

11.2. Introduzione alla statistica 2/ed. Marilyn K. Pelosi, Theresa M. Sandifer, Paola Cerchiello, Paolo Giudici

i) Si tratta di uno studio di osservazione V F ii) Quale delle seguenti affermazioni è corretta? a b c

Correlazione e regressione

Correlazione tra due variabili

LM 88 SOCIOLOGIA E RICERCA SOCIALE. Metodi Statistici per la Ricerca Sociale. Regressione lineare e correlazione

5. Per determinare il miglior grado del polinomio di una regressione polimoniale

Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi

Le caratteristiche della ricerca correlazionale

Quantificare la forza dell evidenza scientifica (quando i resoconti aneddotici valgono più di uno studio controllato randomizzato)

La regressione lineare semplice

viii Indice generale

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:

Statistica. Alfonso Iodice D Enza

APPLICAZIONE DELLA DEVIATA GAUSSIANA STANDARD

Dispensa di Statistica

Metodo dei Minimi Quadrati. Dott. Claudio Verona

lezione 7 AA Paolo Brunori

INTRODUZIONE ALLA STATISTICA (parte 3)

Elementi di Epidemiologia per la Valutazione Comparativa di Esito. Mirko Di Martino

Statistica. Alfonso Iodice D Enza

Test per la correlazione lineare

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Parametri statistici

Teoria e tecniche dei test. Concetti di base

Transcript:

G Ital Nefrol 2011; 28 (1): 80-84 MASTER in epidemiologia clinica LA REGRESSIONE LINEARE NELLA RICERCA CLINICA Fabio Provenzano, Carmine Zoccali, Giovanni Tripepi CNR-IBIM, Unità di Ricerca di Epidemiologia Clinica e Fisiopatologia delle Malattie Renali e dell Ipertensione Arteriosa, Reggio Calabria Introduzione I trials clinici controllati e randomizzati sono studi sperimentali disegnati per analizzare l efficacia di uno specifico trattamento in termini quantitativi. I pazienti randomizzati ai due bracci di trattamento di un trial clinico risultano simili per fattori di rischio noti e non noti (1, 2) e, pertanto, alla fine del trial, ogni differenza osservata tra i due gruppi di pazienti può essere attribuita al solo trattamento. A differenza di quanto accade nei trials clinici, negli studi osservazionali gli individui esposti a un determinato fattore di rischio (per esempio, il fumo) generalmente differiscono da quelli non esposti per una serie di importanti caratteristiche (confonditori) (3) che possono alterare il rapporto tra l esposizione oggetto dell indagine e una determinata malattia o esito clinico. Nell ambito della ricerca eziologica, gli epidemiologi utilizzano due principali tecniche statistiche per controllare per il confondimento: l analisi stratificata (3) e la regressione multipla. La regressione multipla, rispetto all analisi stratificata, ha il vantaggio di poter controllare simultaneamente per più fattori di confondimento. In questo articolo, descriveremo la regressione lineare semplice e multipla e, in un articolo successivo, la regressione logistica. KEY WORDS: Confounding, Multiple linear regression analysis, Simple linear regression analysis PAROLE CHIAVE: Confondimento, Regressione lineare multipla, Regressione lineare semplice La Correlazione Lineare La correlazione lineare analizza la forza dell associazione tra due variabili continue e fornisce una stima di quanto la variabilità dell una è spiegata dalla variabilità dell altra. La regressione lineare descrive, invece, la dipendenza lineare della variabile dipendente da una o più variabili indipendenti. Consideriamo uno studio nel quale gli Autori hanno analizzato il rapporto tra i livelli circolanti di albumina e quelli di triodotironina libera (free triiodothyronine, ft3) in 41 pazienti in dialisi peritoneale (4). Dal momento che vi è l evidenza sperimentale che la malnutrizione e l infiammazione influenzano la funzione tiroidea, i ricercatori hanno considerato i livelli plasmatici di ft3 come variabile dipendente e l albuminemia (un indicatore di malnutrizione/infiammazione) come variabile indipendente. Nell analisi di regressione, la variabile indipendente viene sempre riportata sull asse orizzontale (asse X), mentre la variabile dipendente sull asse verticale (asse Y). Nella Figura 1, ogni punto rappresenta un individuo che è identificato da una coppia di valori: il valore dell albumina sull asse delle X e il corrispondente valore di ft3 sull asse delle Y. Dal grafico nella Figura 1 risulta evidente come, all aumentare dei livelli di albumina, aumentano parallelamente anche i livelli di ft3 e il rapporto tra le due variabili è descritto in maniera adeguata da una linea retta (modello lineare). In questo caso, il coefficiente di correlazione (r) tra i livelli di albumina e di ft3 è 0.52. Il quadrato del coefficiente di correlazione (0.52²=0.27, cioè il 27%) indica che circa ¼ della variabilità nei livelli plasmatici di ft3 è spiegato dalle concomitanti variazioni dei livelli di albumina. Inoltre, sia l albuminemia che i livelli di ft3 sono inversamente correlati all età (Fig. 2). 80 2011 Società Italiana di Nefrologia - ISSN 0393-5590

Provenzano et al Fig. 1 - Rapporto tra i livelli di albumina e di ft3 in 41 pazienti in dialisi peritoneale (4). Nel riquadro di destra è descritta graficamente l analisi dei residui. Le linee tratteggiate indicano l intervallo di confidenza al 95% della retta di regressione (vedi testo per maggiori dettagli). Fig. 2 - Rapporto tra età e livelli circolanti di ft3 e di albumina in 41 pazienti in dialisi peritoneale (4). La regressione lineare semplice La dipendenza lineare tra i livelli circolanti di ft3 e quelli dell albumina può essere analizzata calcolando di quanto aumenta in media l ft3 per ogni incremento unitario di albumina. Questa informazione può essere ottenuta tracciando la retta di regressione che descrive il rapporto ft3-albumina nei 41 pazienti dello studio. In termini generali, la retta di regressione tra due variabili è un equazione del tipo: E(y)=b 0 +b 1 x dove E(y) è la stima (cioè il valore predetto) della variabile dipendente Y, b 0 è l intercetta, b 1 è il coefficiente di regressione e x è un determinato valore della variabile indipendente. L intercetta (b 0 ) è il valore teorico che assume la Y quando la X è uguale a 0 (Fig. 1). Il coefficiente di regressione (b 1 o slope) indica di quanto aumenta in media la variabile dipendente (Y) per ogni incremento unitario della variabile indipendente (X). In termini geometrici, il coefficiente di regressione è la tangente dell angolo che la retta di regressione forma con l asse delle X (Fig. 1). Il metodo utilizzato per stimare l intercetta e il coefficiente di regressione è il metodo dei minimi quadrati. Questo metodo consiste nell identificare i parametri (b 0 e b 1 ) che minimizzano la distanza (residui) tra i valori osservati e quelli stimati dalla retta (vedi grafico di destra nella Fig. 1). L equazione matematica che descrive la retta di regressione del rapporto 2011 Società Italiana di Nefrologia - ISSN 0393-5590 81

La regressione lineare nella ricerca clinica ft3-albumina nei 41 pazienti in dialisi peritoneale è la seguente: ft3=-1.84+1.36 x albumina (g/dl) Un coefficiente di regressione di 1.36 indica che, a un aumento di 1 g/ dl di albumina, corrisponde un incremento medio di 1.36 pg/ml di ft3 [ciò implica che, a un aumento di 2 g/dl di albumina, corrisponde un aumento medio di 2.72 pg/ml di ft3 (cioè 1.36x2)]. Un coefficiente di regressione positivo indica l esistenza di un rapporto diretto tra fattore di rischio (variabile indipendente) e variabile di risultato (variabile dipendente), mentre un coefficiente di regressione negativo indica un rapporto inverso. Il valore dell intercetta (-1.84 pg/ml) corrisponde al valore teorico di ft3 quando l albumina è uguale a 0 (Fig. 1). Risulta evidente che un valore negativo di ft3 (-1.84 pg/ml) e un livello di albumina pari a zero sono dei valori puramente teorici. L intercetta è utile perché può essere utilizzata, insieme al coefficiente di regressione, per predire il valore di ft3 per un dato paziente del quale conosciamo solo i livelli di albumina. Per esempio, il valore stimato di ft3 per un paziente in dialisi peritoneale con un albuminemia di 3.4 g/dl (vedi il punto indicato dalla freccia nella Fig. 1) può essere facilmente calcolato con l equazione: ft3=-1.84+1.36x3.4=2.78 pg/ml Pertanto, utilizzando la retta di regressione costruita in 41 pazienti in dialisi peritoneale, è possibile predire un valore di ft3 pari a 2.78 pg/ml per un paziente di cui è nota l albuminemia (3.4 g/dl). Per tale paziente, il residuo (-1.48 pg/ml) è calcolato come differenza tra il valore osservato di ft3 (1.30 pg/ml) e quello stimato dalla retta di regressione (2.78 pg/ml). Ripetendo questo calcolo per tutti i valori osservati e predetti di ft3 nei 41 pazienti in dialisi peritoneale, si ottiene la distribuzione dei residui. L analisi dei residui è fondamentale per la verifica degli assunti sottostanti all uso della regressione lineare: 1) ad ogni valore della variabile indipendente (asse X) deve corrispondere un set di valori normalmente distribuiti della variabile dipendente (asse delle Y), 2) la deviazione standard di questo set di valori deve essere identica per ogni valore della variabile indipendente e 3) il rapporto tra le due variabili considerate deve essere di tipo lineare. Se si verificano tutte queste ipotesi, i residui avranno una distribuzione normale. Nel nostro esempio, i residui hanno una distribuzione normale, il che implica che gli assunti sottostanti all uso della regressione lineare sono soddisfatti. Intervallo di confidenza al 95% della retta di regressione La retta di regressione del rapporto ft3-albumina tracciata nei 41 pazienti in dialisi peritoneale è una stima della vera retta di regressione tra le due variabili, cioè della retta di regressione che descrive il rapporto ft3- albumina nell insieme teorico di tutti i pazienti in dialisi peritoneale (universo campionario). Perciò, è necessario stimare il grado di incertezza della retta di regressione calcolando l intervallo di confidenza al 95% (vedi linee tratteggiate nella Fig. 1). Il concetto di intervallo di confidenza può essere spiegato in maniera semplice: se analizziamo 100 campioni di pazienti in dialisi peritoneale, ciascuno dei quali ha la stessa dimensione del campione sotto esame (n=41), e tracciamo per ogni campione la retta di regressione 82 2011 Società Italiana di Nefrologia - ISSN 0393-5590

Provenzano et al del rapporto ft3-albumina otteniamo una serie di 100 (lievemente differenti) rette di regressione. L intervallo di confidenza al 95% è l intervallo che include il 95% delle rette di regressione dei 100 campioni analizzati. Nel nostro esempio, l intervallo di confidenza al 95% è abbastanza stretto (Fig. 1), il che implica che il modello lineare descrive in maniera adeguata il rapporto ft3-albumina. La regressione lineare multipla La regressione lineare multipla permette di stimare l effetto di una determinata variabile indipendente (per esempio, x 1 ) su livelli di una specifica variabile dipendente (Y), controllando per l effetto confondente di altri fattori, o covariate (per esempio, x 2, x n ). In termini generali, la regressione lineare multipla ha un equazione del tipo: E(y)=b 0 +b 1 xb 1 +b 2 xb 2 +b 3 xb 3 + +b n x n dove E(y) è la stima o valore predetto di Y, b 0 è l intercetta (cioè il valore di Y quando x 1, x 2 sono uguali a 0) e b 1, b 2, b 3 e b n sono i coefficienti di regressione di x 1, x 2 e x n. Nell esempio precedente, abbiamo descritto il rapporto tra ft3 e albumina in 41 pazienti in dialisi peritoneale e abbiamo trovato che le due variabili erano strettamente associate. L obiettivo che gli Autori del lavoro si sono posti (4) è stato anche quello di analizzare il rapporto ft3-albumina correggendo per l effetto confondente dell età, una variabile che risulta linearmente correlata sia ai livelli di ft3 (r=-0.61, P<0.001) che a quelli dell albumina (r=-0.38, P=0.001) (Fig. 2). L età può essere considerata un potenziale fattore di confondimento, in quanto soddisfa tutti i criteri della definizione di confonditore (3). Infatti, l età influenza sia i livelli di ft3 (la variabile dipendente) sia quelli dell albumina (la variabile indipendente) (Fig. 2): non è un effetto dell esposizione (l età non è una conseguenza dei livelli di albumina) e non vi sono evidenze che dimostrino che l età si trovi nella catena patogenetica tra l esposizione (albumina) e la variabile di risultato (ft3). Introducendo l età nel modello lineare multiplo, la retta di regressione ha la seguente equazione: ft3=1.41+0.87 x albumina (g/dl)-0.024 x età (anni) Un coefficiente di regressione di 0.87 indica che, per ogni aumento di 1 g/dl di albumina, si ha un corrispondente aumento di 0.87 pg/ml di ft3. Il coefficiente di regressione aggiustato per l effetto confondente dell età (0.87) differisce in misura importante da quello non corretto (1.36), il che indica che l età è un confonditore di cui tenere conto nell analisi del rapporto tra ft3 e albumina nei pazienti in dialisi peritoneale. In un modello di regressione multipla, il numero delle variabili da testare deve essere in rapporto con il numero dei pazienti inclusi nello studio. Una regola pratica è quella di includere una covariata ogni 10 osservazioni. Pertanto, in un campione di 41 pazienti, è possibile inserire nel modello al massimo 4 covariate. 2011 Società Italiana di Nefrologia - ISSN 0393-5590 83

La regressione lineare nella ricerca clinica Conclusione La regressione lineare è un importante strumento per testare ipotesi negli studi epidemiologici. L uso della regressione lineare dipende criticamente dalla verifica di specifici assunti: 1) ad ogni valore della variabile indipendente (asse X) deve corrispondere un set di valori normalmente distribuiti della variabile dipendente (asse delle Y), 2) la deviazione standard di questo set di valori deve essere identica per ogni valore della variabile indipendente e 3) il rapporto tra le due variabili considerate deve essere di tipo lineare. Se si verificano tutte queste ipotesi, i residui avranno una distribuzione normale. Indirizzo degli Autori: Dr. Giovanni Tripepi, Statistician, MSc (Epidemiology) CNR-IBIM, Istituto di Biomedicina Epidemiologia Clinica e Fisiopatologia delle Malattie Renali e dell Ipertensione Arteriosa Via Vallone Petrara 55/57 89124 Reggio Calabria e-mail: gtripepi@ibim.cnr.it Dichiarazione di conflitto di interessi Gli Autori dichiarano di non avere conflitto di interessi. Bibliografia 1. Provenzano F, Tripepi G, Zoccali C. [Clinical trials (Part I)]. G Ital Nefrol 2010; 27 (4): 396-8. 2. Provenzano F, Tripepi G, Zoccali C. [Clinical trials (Part II)]. G Ital Nefrol 2010; 27 (5): 536-9. 3. Provenzano F, Versace MC, Tripepi R, Zoccali C, Tripepi G. [Confounding in epidemiology.]. G Ital Nefrol 2010; 27 (6): 664-7. 4. Enia G, Panuccio V, Cutrupi S, et al. Subclinical hypothyroidism is linked to micro-inflammation and predicts death in continuous ambulatory peritoneal dialysis. Nephrol Dial Transplant 2007; 22 (2): 538-44. 84 2011 Società Italiana di Nefrologia - ISSN 0393-5590