ANALISI MULTIVARIATA



Documenti analoghi
Statistica multivariata Donata Rodi 17/10/2016

I metodi per la misura della prognosi

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Inferenza statistica II parte

RELAZIONE TRA DUE VARIABILI QUANTITATIVE

Argomenti della lezione:

Esercitazioni di statistica

Psicometria con Laboratorio di SPSS 2

Regressione Lineare Semplice e Correlazione

Inferenza statistica

Indipendenza, Dipendenza e interdipendenza

Statistica. Alfonso Iodice D Enza

Psicometria con Laboratorio di SPSS 1

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

Analisi Multivariata dei Dati. Regressione Multipla

Statistica. Alfonso Iodice D Enza

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Errori (o bias) negli studi epidemiologici

REGRESSIONE E CORRELAZIONE

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Analisi della varianza a una via

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Cognome e nome Tempo disponibile: 75 minuti

Introduzione all Analisi della Varianza (ANOVA)

Tempo disponibile: 60 minuti

Regressione lineare semplice

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Argomenti della lezione:

Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi Esercitazione

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Esercizi su Regressione e Connessione

I metodi per la misura della prognosi

Esercizio 2: voto e ore dedicate allo studio

Statistica. Alfonso Iodice D Enza

Metodi statistici per le ricerche di mercato

Tecniche statistiche di analisi del cambiamento

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

La regressione lineare semplice

Introduzione all Analisi della Varianza (ANOVA)

Correlazione e regressione

Cognome e nome Tempo disponibile: 60 minuti

Capitolo 12 La regressione lineare semplice

SMID a.a. 2004/2005 Corso di Metodi Statistici in Biomedicina Regressione di Cox 7/3/2005

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Esercitazioni di statistica

Tecniche statistiche di analisi del cambiamento

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Tecniche statistiche di analisi del cambiamento

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Interpolazione e metodo dei minimi quadrati

Metodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione

7. STATISTICA DESCRITTIVA

LA REGRESSIONE LINEARE NELLA RICERCA CLINICA

Analisi della varianza

Regressione & Correlazione

Statistica multivariata Donata Rodi 08/11/2016

Analisi di Regressione Multipla

Calcolo di una Regressione lineare semplice con Excel

Relazioni tra variabili (fenomeni) aziendali

Regressione logistica

Statistica descrittiva: analisi di regressione

Correlazione e regressione

lezione 10 AA Paolo Brunori

Tecniche statistiche di analisi del cambiamento

B il suo coe ciente si interpreta come la variazione di Y dovuta alla variazione unitaria di X (0! 1)

Correlazione e regressione

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

RELAZIONE TRA DUE VARIABILI QUANTITATIVE

βˆ (pendenza della retta) =

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

ESERCITAZIONI N. 3 corso di statistica

Corso in Statistica Medica

STATISTICA. Esercitazione 5

Il modello di regressione

viii Indice generale

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

DISTRIBUZIONE CAMPIONARIA CONGIUNTA

Dr. Marco Vicentini Anno Accademico Rev 02/04/2011

Statistica multivariata! Analisi fattoriale

LM 88 SOCIOLOGIA E RICERCA SOCIALE. Metodi Statistici per la Ricerca Sociale. Regressione lineare e correlazione

La curva di regressione è il luogo dei punti aventi come ordinate le medie condizionate

Esercitazione 1. 6 Marzo 2019

Strumenti di indagine per la valutazione psicologica

Il modello di regressione

Metodi Matematici e Informatici per la biologia. Esercizi

Statistica inferenziale

UNIVERSITÀ di ROMA TOR VERGATA

STIMA DELLA PIENA INDICE

9.3 Il metodo dei minimi quadrati in formalismo matriciale

Statistica13-23/11/2015

MISURA DELLA VARIAZIONE CONCOMITANTE (COVARIAZIONE/ CONTROVARIAZIONE) DI VARIABILI CARDINALI O QUASI- CARDINALI

Metodologie Quantitative

Gli oggetti della ricerca osservazionale

ESERCIZIO 1. Di seguito vengono riportati i risultati di una regressione multipla effettuata secondo il metodo standard (o per blocchi )

Università del Piemonte Orientale Corso di Laurea specialistica in Biotecnologie mediche. Corso di Statistica Medica. Correlazione

STATISTICA. Esercitazione 6

Transcript:

ANALISI MULTIVARIATA Marcella Montico Servizio di epidemiologia e biostatistica... ancora sulla relazione tra due variabili: la regressione lineare semplice VD: quantitativa VI: quantitativa Misura la forza della relazione lineare tra la VD e la VI ES: influenza dell et età sulla pressione sistolica VD = pressione sistolica VI = età

ES: influenza dell et età sulla pressione sistolica VD = pressione sistolica VI = età PS media 50 100 150 200 250 20 40 60 80 100 eta Per riassumere questa relazione si può utilizzare una retta (RETTA( DI REGRESSIONE) PS media 50 100 150 200 250 0 20 40 60 80 100 eta PS media rettareg

Come si costruisce la retta La pressione varia in funzione dell et età (all aumentare aumentare dell et età aumenta la pressione) Pressione ~ età Come quantifico questa relazione? Con un coefficiente che rappresenti la pendenza della retta (che indichiamo con β) L equazione della retta Pressione ~ β X età Manca un termine costante (α) che funzioni da punto di partenza per la retta Pressione ~ α + β X età La pressione adesso è espressa in funzione dell et età,, ma non è ancora una formula matematica

Per poter passare da ~ a = inseriamo un errore: : la pressione non è determinata solamente dall et età! L equazione diventa: Pressione = α + β X età + errore Gli errori rappresentano quella parte di pressione che non è spiegata dall et età e vengono detti RESIDUI Nel nostro esempio α = 90.9 β = 0.8 Risultato Pressione = 90.9 + 0.8 X età + errore

Metodo dei minimi quadrati I parametri α e β vengono calcolati in modo che rendano minimo l errore l di approssimazione Si minimizza il quadrato della somma degli scarti dalla retta, ovvero il quadrato della distanza di ogni osservazione dalla retta: metodo dei minimi quadrati. Alcuni dati età 46 65 20 42 64 60 65 66 38 71 PS misurata 150 141 116 143 160 150 140 142 110 127 PS stimata 90.9+0.8x46 46= 90.9+0.8x65 90.9+0.8x20 90.9+0.8x42 90.9+0.8x64 90.9+0.8x60 90.9+0.8x65 90.9+0.8x66 90.9+0.8x38 90.9+0.8x71 127.4 142.7 107.1 124.9 142.5 138.7 143.3 143.5 121.3 147.4 Differenza 22.6-2.7 8.9 18.4 17.5 11.3-3.3-1.8-11.3 20.1

Alcune domande Che direzione ha la relazione età pressione? La relazione tra pressione ed età è significativa? La variabile età fino a che punto spiega la variabilità della pressione? β: : coefficiente angolare β>0 : relazione diretta, al crescere dell et età cresce la pressione β<0: relazione inversa, al crescere dell et età diminuisce la pressione β=0: indipendenza Es.

R 2 = coefficiente di determinazione β Significatività di β Coefficiente di determinazione R 2 Proporzione di varianza spiegata dalla regressione Più si avvicina a 1, migliore è il modello

Generalizzando: VD = α + β X VI + errore y= α + βx + ε Dove siamo Come verificare se l associazione l tra due variabili non è dovuta al caso (test e IC) Altre variabili possono influire su questa associazione Come misurare la forza di una relazione tra due variabili indipendentemente da potenziali variabili confondenti??

ANALISI MULTIVARIATA Insieme di metodi per considerare diverse variabili indipendenti simultaneamente Descrive la relazione tra una variabile di outcome (VD) e i suoi diversi determinanti, con lo scopo di valutare la forza delle associazioni o di predire l outcomel in condizioni diverse L analisi bivariata fornisce una visione parziale, l analisi multivariata una visione più complessa e che si avvicina di più alla realtà Il principale vantaggio dell analisi multivariata consiste nel poter apprezzare, simultaneamente ed indipendentemente, gli effetti di tutte le variabili considerate, depurandoli delle reciproche interferenze

Spiegazione non matematica ES: vogliamo fare uno studio sulla prognosi di 1 determinata malattia che non ha ancora una cura. La lunghezza della sopravvivenza di un paziente potrebbe dipendere da: Età del paziente Stadio della malattia Presenza di altre malattie (comorbilit( comorbilità) Sintomi (es( es: : dimagrimento) prognosi comorbilità stadio età sintomi

Un po di matematica Prognosi ~ età + stadio + comorbidità + sintomi Queste 4 variabili non hanno tutte necessariamente la stessa importanza, miglioriamo l espressione l dando un peso ad ognuna Prognosi ~ p1xet età + p2xstadio + p3xcomorbidit comorbidità + p4xsintomi Per passare dal circa all uguale inseriamo un termine di errore e una costante che ci serve da ancoraggio Prognosi = costante +p1 x età + p2 x stadio + p3 x comorbidità + p4 x sintomi + errore

Ricorda la regressione lineare, ma non è più semplice, è multipla VD = α + β 1 X VI 1 + β 2 X VI 2 +.. + errore y= α + β 1 x 1 + β 2 x 2 + β 3 x 3 + + ε Modelli L equazione rappresenta un modello lineare (generalizzato) A seconda del tipo di variabili, dipendente/i e indipendenti cambia l analisi l regressione lineare multipla Anova Ancova Regressione logistica Regressione di cox Ecc.

Esempio: pressione sistolica Possibili variabili influenzanti: Età (significativa) BMI (body mass index) Sesso (M o F) 0 50 100 200 PS media 150 100 100 50 eta 0 50 bmi 40 30 20 100 150 200 20 30 40 50

Relazione PS - bmi α = 90.5 β = 1.5 p<0.001 R 2 = 0.13 Relazione bmi - età α = 21.8 β = 0.1 p<0.001

Regressione lineare multipla risultati PS = f(età) Età PS = f(bmi) BMI PS = f(età,, BMI) Età BMI β 0.8 1.5 0.7 0.6 R 2 0.41 0.13 0.43

..inseriamo.inseriamo anche il sesso (1=F 2=M) PS = f(età,, BMI, sesso) Età BMI 0.6 0.44 Sesso β 0.7 2.7 R 2 PS = 74 + 0.7età + 0.6BMI + 2.7 sesso + errore Interpretazione La PS aumenta di 0.7 per ogni anno di età in più (indipendentemente da BMI e sesso) La PS aumenta di 0.6 per ogni punto di BMI in più (indipendentemente da età e sesso) La PS aumenta di 2.7 per i maschi rispetto alle femmine (indipendentemente da età e BMI)

Scopi dell analisi multivariata Spiegare le relazioni tra variabili (indipendentemente dalle altre) Prevedere in base alle variabili indipendenti (esplicative) come sarà la variabile dipendente Controllare l effetto di alcune variabili per verificare l effetto l di altre sulla VD Previsione Date le variabili dipendenti, si prevede il valore che ha la variabile dipendente Es: : 74 + 0.7età +0.6 BMI + 2.7 sesso=? età 40 45 42 bmi 25 30 20 sesso 1 2 2 PS STIMATA 119,7 128,9 120,8

Esempio: previsione della probabilità di evento cardiovascolare in funzione di sesso, età,, diabete, fumo, pressione arteriosa, colesterolemia

Controllo Si vuole verificare qual è la differenza di pressione tra maschi e femmine Maschi e femmine del campione sono però diversi per età e BMI Ho fatto l analisi l multivariata ma vorrei quantificare la differenza tra maschi e femmine Calcolo i valori corretti (o aggiustati) per sesso ed età M F Pressione media aggiustata* 125 124 P-value 0.006 *per età e bmi