ANALISI MULTIVARIATA



Похожие документы
Statistica multivariata Donata Rodi 17/10/2016

I metodi per la misura della prognosi

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Inferenza statistica II parte

Esercitazioni di statistica

Regressione Lineare Semplice e Correlazione

Indipendenza, Dipendenza e interdipendenza

Statistica. Alfonso Iodice D Enza

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

Analisi Multivariata dei Dati. Regressione Multipla

Statistica. Alfonso Iodice D Enza

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Errori (o bias) negli studi epidemiologici

REGRESSIONE E CORRELAZIONE

Analisi della varianza a una via

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Introduzione all Analisi della Varianza (ANOVA)

Regressione lineare semplice

Argomenti della lezione:

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Esercizi su Regressione e Connessione

Statistica. Alfonso Iodice D Enza

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Introduzione all Analisi della Varianza (ANOVA)

Capitolo 12 La regressione lineare semplice

SMID a.a. 2004/2005 Corso di Metodi Statistici in Biomedicina Regressione di Cox 7/3/2005

Esercitazioni di statistica

Tecniche statistiche di analisi del cambiamento

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Interpolazione e metodo dei minimi quadrati

7. STATISTICA DESCRITTIVA

LA REGRESSIONE LINEARE NELLA RICERCA CLINICA

Analisi della varianza

Calcolo di una Regressione lineare semplice con Excel

Tecniche statistiche di analisi del cambiamento

Correlazione e regressione

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

RELAZIONE TRA DUE VARIABILI QUANTITATIVE

Il modello di regressione

viii Indice generale

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

DISTRIBUZIONE CAMPIONARIA CONGIUNTA

Strumenti di indagine per la valutazione psicologica

Il modello di regressione

UNIVERSITÀ di ROMA TOR VERGATA

9.3 Il metodo dei minimi quadrati in formalismo matriciale

Транскрипт:

ANALISI MULTIVARIATA Marcella Montico Servizio di epidemiologia e biostatistica... ancora sulla relazione tra due variabili: la regressione lineare semplice VD: quantitativa VI: quantitativa Misura la forza della relazione lineare tra la VD e la VI ES: influenza dell et età sulla pressione sistolica VD = pressione sistolica VI = età

ES: influenza dell et età sulla pressione sistolica VD = pressione sistolica VI = età PS media 50 100 150 200 250 20 40 60 80 100 eta Per riassumere questa relazione si può utilizzare una retta (RETTA( DI REGRESSIONE) PS media 50 100 150 200 250 0 20 40 60 80 100 eta PS media rettareg

Come si costruisce la retta La pressione varia in funzione dell et età (all aumentare aumentare dell et età aumenta la pressione) Pressione ~ età Come quantifico questa relazione? Con un coefficiente che rappresenti la pendenza della retta (che indichiamo con β) L equazione della retta Pressione ~ β X età Manca un termine costante (α) che funzioni da punto di partenza per la retta Pressione ~ α + β X età La pressione adesso è espressa in funzione dell et età,, ma non è ancora una formula matematica

Per poter passare da ~ a = inseriamo un errore: : la pressione non è determinata solamente dall et età! L equazione diventa: Pressione = α + β X età + errore Gli errori rappresentano quella parte di pressione che non è spiegata dall et età e vengono detti RESIDUI Nel nostro esempio α = 90.9 β = 0.8 Risultato Pressione = 90.9 + 0.8 X età + errore

Metodo dei minimi quadrati I parametri α e β vengono calcolati in modo che rendano minimo l errore l di approssimazione Si minimizza il quadrato della somma degli scarti dalla retta, ovvero il quadrato della distanza di ogni osservazione dalla retta: metodo dei minimi quadrati. Alcuni dati età 46 65 20 42 64 60 65 66 38 71 PS misurata 150 141 116 143 160 150 140 142 110 127 PS stimata 90.9+0.8x46 46= 90.9+0.8x65 90.9+0.8x20 90.9+0.8x42 90.9+0.8x64 90.9+0.8x60 90.9+0.8x65 90.9+0.8x66 90.9+0.8x38 90.9+0.8x71 127.4 142.7 107.1 124.9 142.5 138.7 143.3 143.5 121.3 147.4 Differenza 22.6-2.7 8.9 18.4 17.5 11.3-3.3-1.8-11.3 20.1

Alcune domande Che direzione ha la relazione età pressione? La relazione tra pressione ed età è significativa? La variabile età fino a che punto spiega la variabilità della pressione? β: : coefficiente angolare β>0 : relazione diretta, al crescere dell et età cresce la pressione β<0: relazione inversa, al crescere dell et età diminuisce la pressione β=0: indipendenza Es.

R 2 = coefficiente di determinazione β Significatività di β Coefficiente di determinazione R 2 Proporzione di varianza spiegata dalla regressione Più si avvicina a 1, migliore è il modello

Generalizzando: VD = α + β X VI + errore y= α + βx + ε Dove siamo Come verificare se l associazione l tra due variabili non è dovuta al caso (test e IC) Altre variabili possono influire su questa associazione Come misurare la forza di una relazione tra due variabili indipendentemente da potenziali variabili confondenti??

ANALISI MULTIVARIATA Insieme di metodi per considerare diverse variabili indipendenti simultaneamente Descrive la relazione tra una variabile di outcome (VD) e i suoi diversi determinanti, con lo scopo di valutare la forza delle associazioni o di predire l outcomel in condizioni diverse L analisi bivariata fornisce una visione parziale, l analisi multivariata una visione più complessa e che si avvicina di più alla realtà Il principale vantaggio dell analisi multivariata consiste nel poter apprezzare, simultaneamente ed indipendentemente, gli effetti di tutte le variabili considerate, depurandoli delle reciproche interferenze

Spiegazione non matematica ES: vogliamo fare uno studio sulla prognosi di 1 determinata malattia che non ha ancora una cura. La lunghezza della sopravvivenza di un paziente potrebbe dipendere da: Età del paziente Stadio della malattia Presenza di altre malattie (comorbilit( comorbilità) Sintomi (es( es: : dimagrimento) prognosi comorbilità stadio età sintomi

Un po di matematica Prognosi ~ età + stadio + comorbidità + sintomi Queste 4 variabili non hanno tutte necessariamente la stessa importanza, miglioriamo l espressione l dando un peso ad ognuna Prognosi ~ p1xet età + p2xstadio + p3xcomorbidit comorbidità + p4xsintomi Per passare dal circa all uguale inseriamo un termine di errore e una costante che ci serve da ancoraggio Prognosi = costante +p1 x età + p2 x stadio + p3 x comorbidità + p4 x sintomi + errore

Ricorda la regressione lineare, ma non è più semplice, è multipla VD = α + β 1 X VI 1 + β 2 X VI 2 +.. + errore y= α + β 1 x 1 + β 2 x 2 + β 3 x 3 + + ε Modelli L equazione rappresenta un modello lineare (generalizzato) A seconda del tipo di variabili, dipendente/i e indipendenti cambia l analisi l regressione lineare multipla Anova Ancova Regressione logistica Regressione di cox Ecc.

Esempio: pressione sistolica Possibili variabili influenzanti: Età (significativa) BMI (body mass index) Sesso (M o F) 0 50 100 200 PS media 150 100 100 50 eta 0 50 bmi 40 30 20 100 150 200 20 30 40 50

Relazione PS - bmi α = 90.5 β = 1.5 p<0.001 R 2 = 0.13 Relazione bmi - età α = 21.8 β = 0.1 p<0.001

Regressione lineare multipla risultati PS = f(età) Età PS = f(bmi) BMI PS = f(età,, BMI) Età BMI β 0.8 1.5 0.7 0.6 R 2 0.41 0.13 0.43

..inseriamo.inseriamo anche il sesso (1=F 2=M) PS = f(età,, BMI, sesso) Età BMI 0.6 0.44 Sesso β 0.7 2.7 R 2 PS = 74 + 0.7età + 0.6BMI + 2.7 sesso + errore Interpretazione La PS aumenta di 0.7 per ogni anno di età in più (indipendentemente da BMI e sesso) La PS aumenta di 0.6 per ogni punto di BMI in più (indipendentemente da età e sesso) La PS aumenta di 2.7 per i maschi rispetto alle femmine (indipendentemente da età e BMI)

Scopi dell analisi multivariata Spiegare le relazioni tra variabili (indipendentemente dalle altre) Prevedere in base alle variabili indipendenti (esplicative) come sarà la variabile dipendente Controllare l effetto di alcune variabili per verificare l effetto l di altre sulla VD Previsione Date le variabili dipendenti, si prevede il valore che ha la variabile dipendente Es: : 74 + 0.7età +0.6 BMI + 2.7 sesso=? età 40 45 42 bmi 25 30 20 sesso 1 2 2 PS STIMATA 119,7 128,9 120,8

Esempio: previsione della probabilità di evento cardiovascolare in funzione di sesso, età,, diabete, fumo, pressione arteriosa, colesterolemia

Controllo Si vuole verificare qual è la differenza di pressione tra maschi e femmine Maschi e femmine del campione sono però diversi per età e BMI Ho fatto l analisi l multivariata ma vorrei quantificare la differenza tra maschi e femmine Calcolo i valori corretti (o aggiustati) per sesso ed età M F Pressione media aggiustata* 125 124 P-value 0.006 *per età e bmi