Regressione Logistica



Похожие документы
Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

Capitolo 12 La regressione lineare semplice

(a cura di Francesca Godioli)

STATISTICA IX lezione

Regressione Logistica: un Modello per Variabili Risposta Categoriali

Misure della relazione di occorrenza

Metodologie Quantitative

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

FACOLTÀ DI ECONOMIA Soluzione della Prova di autovalutazione 2012 (primi 6 CFU) ANALISI STATISTICA PER L IMPRESA

LEZIONE n. 5 (a cura di Antonio Di Marco)

Strumenti informatici 13.1

Elementi di Psicometria con Laboratorio di SPSS 1

ANALISI DEI DATI EPIDEMIOLOGICI

Strumenti informatici Realizzare analisi statistiche su una tavola di contingenza con Excel e SPSS

Excel Terza parte. Excel 2003

Lineamenti di econometria 2

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE

Strumenti informatici Realizzare grafici e tabelle con Excel e SPSS

Statistiche campionarie

Regressione logistica

I MENU IMPOSTAZIONI. Codice: indica il codice di abilitazione. Lingua: versioni in italiano, inglese e francese

Pro e contro delle RNA

Limited Dependent Variable Models

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

Inferenza statistica. Statistica medica 1

Regressione logistica. Strumenti quantitativi per la gestione

Effetti sull opinione di pazienti riguardo all utilizzo di un computer in uno studio medico nell assistenza ordinaria

1 BREVE RIPASSO DEI TEST STATISTICI 2 I TEST STATISTICI NEI SOFTWARE ECONOMETRICI E IL P-VALUE 3 ESERCIZI DI ALLENAMENTO

Elementi di Psicometria con Laboratorio di SPSS 1

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

Aggiornamento Titoli

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

Relazioni statistiche: regressione e correlazione

Elementi di Psicometria con Laboratorio di SPSS 1

Corso di. Dott.ssa Donatella Cocca

OBIETTIVI DEL DOCUMENTO INTRODUZIONE

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

Metodi statistici per le ricerche di mercato

Cluster Analysis. Paese Cereali (Ce) Riso (R) Patate (P) Zucchero (Z) Verdure (Ver) Vino (Vi) Carne (Ca) Latte (L) Burro (B) Uova (U)

Gestione ed Analisi Statistica dei dati (per costruire il report: step by step con SPSS)

Elaborazione dei dati su PC Regressione Multipla

Risultati dello studio sperimentale sull uso del prodotto Zerosmoke Come coadiuvante nella cessazione del tabagismo Soggetti

In alcuni casi è possibile applicare sia l analisi log lineare che la regressione logistica. Analisi log lineare e regressione logistica:

Confronto di metodologie statistiche per l analisi di risultati di Customer Satisfaction

TRASMISSIONE RAPPORTO ARBITRALE IN FORMATO PDF

Concetto di potenza statistica

Applicazione alla domanda di sigarette (SW Par 12.4)

Gestione ed Analisi Statistica dei dati

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

NUOVO SISTEMA AGGIORNAMENTO DA FYO

Prova di autovalutazione Prof. Roberta Siciliano

Il sistema C.R.M. / E.R.M.

Analisi di dati di frequenza

Creazione Account PEC puntozeri su Outlook Express

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Modelli per variabili dipendenti qualitative

CAPITOLO III CONFRONTI TRA DISTRIBUZIONI

Prof.ssa Paola Vicard

Strumenti informatici Realizzare un test per proporzioni dipendenti in Excel ed SPSS

Gli studi epidemiologici

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

ammesso solo con il tuo consenso. Le modifiche apportate hanno lo scopo di semplificare il controllo di quali

LA TRASMISSIONE DELLE INFORMAZIONI QUARTA PARTE 1

Analisi dei residui. Test Esatto di Fisher. Differenza fra proporzioni

INTRODUZIONE AL DOE come strumento di sviluppo prodotto Francesca Campana Parte 3 Piani a fattore singolo e relativi test di interpretazione

Guida alla registrazione on-line di un DataLogger

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI

GARA UNICA. Impostiamo il punteggio minimo (Target Low) e il punteggio massimo (Target High). Il Valore è espresso in PUNTI.

Manuale di Aggiornamento BOLLETTINO. Rel H4. DATALOG Soluzioni Integrate a 32 Bit

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Lineamenti di econometria 2

La distribuzione Gaussiana

3) ANALISI DEI RESIDUI

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

Corso di laurea in Scienze Motorie. Corso di Statistica. Docente: Dott.ssa Immacolata Scancarello Lezione 2: Misurazione, tabelle

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Statistical learning Strumenti quantitativi per la gestione

Mon Ami 3000 Produzione base Produzione articoli con distinta base e calcolo dei fabbisogni

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

LE MOVIMENTAZIONI DI MAGAZZINO

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione2:

Titolo della lezione. Analisi dell associazione tra due caratteri: indipendenza e dipendenza

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Strumenti Informatici 8.1. Realizzare il test della binomiale (o test dei segni) con Excel e SPSS

Statistica. Lezione 6

OSSERVAZIONI TEORICHE Lezione n. 4

ESERCITAZIONE 2. TRATTO E MODIFICATO DA: Esercizi di epidemiologia - MORO, DAVOLI, PIRASTU Il pensiero scientifico editore

PROCEDURA PRESENTAZIONE CANDIDATURA ESPERTO DI AREA PROFESSIONALE / QUALIFICA

Principi di analisi causale Lezione 2

IL TEST CHI QUADRATO χ 2

Verifica parte IIA. Test (o analisi dinamica) Mancanza di continuità. Esempio

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

SISTEMI DI NUMERAZIONE E CODICI

Verifica di ipotesi

Disegni di Ricerca e Analisi dei Dati in Psicologia Clinica. Indici di Affidabilità

Транскрипт:

Regressione Logistica Esercizio Data set: Nel data set heart.txt (o heart.sav) sono contenute informazioni riguardo 302 pazienti che hanno avuto infarto e 60 che non hanno avuto infarto in uno studio retrospettivo di uomini, i risultati dello studio sono pubblicati in Rousseauw et al, 983, South African Medical Journal South African Heart Disease (Rousseauw et al. 983) Pressione Fumo tabacco cumulativo (kg) Colest low-density lipoprotein (colesterolo) Adipos Familiarità Presente/Assente TypeA type A behaviour (più alto lo score maggiore segnale di stress) Obesità BMI Alcohol consumo di alcohol (gr/die) età Infarto variabile di risposta Quesiti Siamo in grado di predire la presenza o assenza di infarto basandoci sulle variabili disponibili? Possiamo inoltre quantificare il rischio di infarto, ad esempio, di un fumatore rispetto ad un non fumatore? Analisi Dal menu Analyse, selezioniamo Regression. SPSS permette di scegliere tra diverse opzioni; volendo stimare un modello di regressione logistica, scegliamo Binary Regression E necessario ora individuare la variabile dipendente (presenza o assenza di infarto) e le variabili concomitanti (dette con un inglesismo covariate ; per ora selezioniamo tutte le variabili disponibili). La variabile family è una variabile qualitativa; selezionando il bottone Categorical si ha la possibilità di specificare che family sia effettivamente variabile qualitativa (nel caso in cui la variabile sia già classificata come variabile stringa sarà automaticamente considerata qualitativa).

2

Ci chiediamo preliminarmente quali siano le variabili rilevanti per spiegare il rischio di infarto. L opzione Method permette di scegliere tra 7 possibili metodi di selezione delle variabili. Il metodo di default è Enter: in questo modo il modello considera come predittori le variabili presenti nella tabella Covariates. Altri metodi sono: Forward Conditional, LR, Wald: il metodo forward, cioè inserimento in avanti, inizia con un modello con solo l intercetta e aggiunge una ad una le variabili significative. La scelta delle variabili può avvenire tramite Likelihood Ratio, Conditional Likelihood o Statistica di Wald. Backward Conditional, LR, Wald il metodo backward, cioè eliminazione all indietro, inizia con un modello con tutte le variabili e rimuove una ad una le variabili non significative. La scelta delle variabili può avvenire tramite Likelihood Ratio, Conditional Likelihood o Statistica di Wald. Procediamo selezionando Method=Entry. Nell output è possibile confrontare i risultati relativi a due modelli: il modello con solo intercetta: 3

Classification Table a,b Predicted Step 0 Observed response Overall Percentage 0 a. Constant is included in the model. b. The cut value is.500 response Percentage 0 Correct 302 0 00.0 60 0.0 65.4 Step 0 Constant Variables in the Equation B S.E. Wald df Sig. Exp(B) -.635.098 42.99.000.530 e il modello con tutte le variabili presenti: Model Summary Step -2 Log Cox & Snell Nagelkerke likelihood R Square R Square 472.40.235.325 Classification Table a Predicted Observed Step response Overall Percentage a. The cut value is.500 0 response Percentage 0 Correct 256 46 84.8 77 83 5.9 73.4 4

Step a SBP TABACCO CHOLEST ADIPOSIT FAMILY() TYPEA OBESITY ALCOHOL AGE Constant Variables in the Equation B S.E. Wald df Sig. Exp(B).007.006.288.256.007.079.027 8.903.003.083.74.060 8.498.004.90.09.029.403.526.09.925.228 6.488.000 2.523.040.02 0.329.00.040 -.063.044 2.02.55.939.000.004.00.978.000.045.02 3.90.000.046-6.5.308 22.03.000.002 a. Variable(s) entered on step : SBP, TABACCO, CHOLEST, ADIPOSIT, FAMILY, TYPEA, OBESITY, ALCOHOL, AGE. Dalla tabella Classification Table, vediamo che il 65.4% delle osservazioni risultano correttamente classificate con un modello con la sola intercetta (quindi un modello che indipendentemente dalle covariate disponibili classifica tutti i soggetti come a rischio di infarto), mentre un modello la cui predizione dipende dalle variabili disponibili classifica correttamente il 73.4% dei soggetti. Dalla tabella Variables in the Equation leggiamo nella seconda colonna la stima dei parametri del modello logistico; la terza colonna fornisce una stima del relativo standard error, in modo tale che nella sesta colonna leggiamo il p-value relativo alla significatività del parametro. Infine nell ultima colonna leggiamo una stima dell odds ratio. Nel caso di studio retrospettivi caso/controllo come questo, l odds ratio viene stimato con exp ( βˆ ). L odds ratio, come misura di associazione, approssima il rischio relativo, ossia la probabilità di avere la malattia dato che si è esposti rapportata alla probabilità di avere la malattia dato che NON si è esposti. Tra le variabili disponibili abbiamo una sola variabile di esposizione binaria: familiarità/non familiarità. Leggiamo dalla tabella che la probabilità di avere un infarto dato che si ha familiarità sulla probabilità di avere l infarto dato che NON si ha familiarità è 2.523. Come leggere l odds ratio relativo a variabili di esposizione continue? Leggiamo, ad esempio, che.083 è l odds ratio all aumentare di un unità (kg) del consumo di tabacco. Dalla tabella leggiamo inoltre che alcool non è una variabile significativa, così come adiposità e obesità; è possibile quindi rimuovere tali variabili, ottenendo il seguente modello finale (a cui si arriva anche scegliendo altri metodi di entry delle variabili): 5

Step a SBP TABACCO CHOLEST FAMILY() TYPEA AGE Constant Variables in the Equation B S.E. Wald df Sig. Exp(B).006.006.028.3.006.08.026 9.582.002.084.59.055 8.340.004.72.94.226 6.345.000 2.495.038.02 9.487.002.038.048.0 20.279.000.049-7.22.45 38.66.000.00 a. Variable(s) entered on step : SBP, TABACCO, CHOLEST, FAMILY, TYPEA, AGE. Molte opzioni sono possibili utilizzando SPSS per la stima di un modello logistico. 6

Richiedendo: Classification Plot abbiamo il seguente istogramma che mostra il numero di osservazioni correttamente o erroneamente classificate al variare della probabilità predette di avere l evento. Step number: Observed Groups and Predicted Probabilities 20 ô 0 ô ó 00 ó 00 ó F ó 00 0 ó R 5 ô 00 0 ô E ó 00 00 ó Q ó 0000000 0 ó U ó 00000000 00 0 ó E 0 ô 0000000000 00 0 ô N ó 0000000000 00 0 ó C ó 0000000000 00 000 0 0 ó Y ó 0000000000 000000 000 ó 5 ô 0000000000000000000 0000000 0 0 ô ó 0000000000000000000 00000000000 0 ó 000000000000000000000000000000000000000 0 ó 00000000000000000000000000000000000000000000 00 Predicted òòòòòòòòòòòòòòôòòòòòòòòòòòòòòôòòòòòòòòòòòòòòôòòòòòòòòòòòòòòò Prob: 0.25.5.75 Group: 000000000000000000000000000000 Predicted Probability is of Membership for The Cut Value is.50 Symbols: 0-0 - Each Symbol Represents.25 Cases. ó ó ó ó Richiedendo invece Hosmer-Lemeshow Goodness of fit otteniamo la seguente tabella: 7

Step 2 3 4 5 6 7 8 9 0 Contingency Table for Hosmer and Lemeshow Test response = 0 Expected Observed response = Expected Observed Total 45 44.292.708 46 42 42.052 4 3.948 46 37 39.623 9 6.377 46 39 36.888 7 9.2 46 34 33.398 2 2.602 46 26 29.922 20 6.078 46 27 25.85 9 20.85 46 25 2.788 2 24.22 46 9 7.94 27 28.806 46 8.028 40 36.972 48 Le osservazioni sono divise in decili sulla base della probabilità stimata del verificarsi o meno dell evento, e un test di confronto tra le osservazioni di evento e non evento e i valori attesi sotto l ipotesi di un modello che ben predice la variabile di risposta, procede dalla seguente tabella, fornendo il seguente risultato: Hosmer and Lemeshow Test Step Chi-square df Sig. 6.085 8.638 Accettiamo l ipotesi che il modello spieghi bene i dati. 8