Metodologie Quantitative



Documenti analoghi
Modelli Lineari Generalizzati. (Cap. 10) Marcello Gallucci Univerisità Milano-Bicocca

Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia

Regressione Logistica

Introduzione all Analisi della Varianza (ANOVA)

Analisi Multivariata dei Dati. Regressione Multipla

Introduzione all Analisi della Varianza (ANOVA)

Esercizi. 1. Disegnare il grafico qualitativo della seguente funzione:

Il modello di regressione

Il modello di regressione

Metodologie Quantitative

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

Analisi Multivariata dei Dati

Scale Logaritmiche. Matematica con Elementi di Statistica, Anna Torre a.a

METODI E TECNICHE DELLA RICERCA IN PSICOLOGIA CLINICA E LABORATORIO MEDIAZIONE

Regressione logistica

Regressioni Non Lineari

ANALISI MULTIVARIATA

Statistica multivariata

Scale Logaritmiche. Matematica con Elementi di Statistica a.a. 2015/16

Analisi della Varianza Fattoriale. (Cap. 8)

LABORATORI DI STATISTICA SOCIALE

Proprietà della varianza

Le Funzioni. Modulo Esponenziali Logaritmiche. Prof.ssa Maddalena Dominijanni

Trasformazioni Logaritmiche

ESERCITAZIONE: ESPONENZIALI E LOGARITMI

Statistica multivariata

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Misure Ripetute. Analisi dei dati in disegni di ricerca con misure ripetute. Marcello Gallucci

Metodologie Quantitative

Regressione logistica

Analisi avanzate basate sulla regressione (Cap. 7)

Argomenti della lezione:

Tecniche statistiche di analisi del cambiamento

Regressione Lineare Semplice e Correlazione

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Modelli Log-lineari Bivariati

Funzioni di regressione non lineari

Analisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca

Analisi della Varianza Fattoriale

Elementi di Epidemiologia per la Valutazione Comparativa di Esito

ESEMPI DI DOMANDE PER LA PROVA SCRITTA DI STATISTICA SOCIALE

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

Equazione esponenziale a x = b con 0<a<1 oppure a>1; x R; b>0

Elementi di Psicometria con Laboratorio di SPSS 1

Introduzione alla Regressione Logistica

Disequazioni - ulteriori esercizi proposti 1

Regressione con una variabile dipendente binaria

Analisi avanzate della regressione: la moderazione (Cap. 5 )

Statistica descrittiva: misure di associazione

Transcript:

Metodologie Quantitative Regressione Logistica II M Q Marco Perugini Milano-Bicocca 1

La regressione logistica La regressione logistica si propone di studiare e quantificare le relazioni tra una o più variabili indipendenti quantitative (es. età, salario, atteggiamento verso qualcosa, dimensione di personalita ) e una variabile dipendente dicotomica (es. stato civile, voto al referendum, appartenenza ad un gruppo, scelta tra due opzioni) 2

Trasformazione Logit La regressione logistica non predice la variabile dipendente così come è, ma la trasforma Variabile Originale Probabilità P i ( Y 1) 1 ( Y 0) P i Appartenenza ad un gruppo Odd ratio Rapporto di probabilità Pi OR 1 P Quanto è più (o meno) probabile un gruppo rispetto all altro i Logit Logaritmo del OR ln( 1 Pi P Variabile continua definita su tutto l asse delle Y i ) 3

Trasformazione Logit In sostanza, per predire la probabilità di appartenenza ad un gruppo, si usa non la probabilità grezza, ma una sua funzione con proprietà migliori P i ( Y 1) 1 ( Y 0) P i Appartenenza ad un gruppo Pi OR 1 P Quanto è più (o meno) probabile un gruppo rispetto all altro i ln( 1 Pi P Variabile continua definita su tutto l asse delle Y i ) 4

Regressione logistica La regressione logistica percio è una regressione in cui la variabile dipendente è dicotomica, e dunque si predice mediante una regressione lineare il logaritmo del rapporto tra la probabilità di essere in un gruppo piuttosto che l altro P P i ln( ) 1 i a b yx x i 5

Regressione Logistica Dato che la variabile è stata trasformata, la regressione ora è possibile Rispetto alla regressione che già conosciamo, cambierà: Come interpretare i coefficienti Il test di significatività (si usa il Wald test, ma la logica e come con il t-test) Come interpretare l R 2 6

Logistica in pratica Ci proponiamo di studiare in un campione di 133 soggetti, le relazioni tra atteggiamento politico (conserv, positivo= conservatore, 0=incerto, negativo=liberal) e voto alle elezioni presidenziali americane del 2008 La variabile dipendente è: 0 se ha votato Obama 1 se ha votato McCain Voto votobush McCain Validi.00 1.00 Tot ale Percentuale Percentuale Frequenza Percentuale v alida cumulat a 60 45.1 45.1 45.1 73 54. 9 54. 9 100.0 133 100.0 100.0 7

Logistica in pratica SPSS 8

Logistica in pratica SPSS Voto McCain Variabile Dipendente Variabile Indipendente 9

Output: Risultati Essendo una regressione, ci aspettiamo di trovare un coefficiente B, un coefficiente costante, e un test di significatività del coefficiente Effetto della VI Test di significatività Passo 1 a conserv Costante a. Variabili immesse al passo 1: conserv. Variabil i nel l'equazione B E.S. Wald df Sig. Exp(B).907.224 16. 399 1.000 2. 476.132.188.487 1.485 1. 141 Costante Errore standard Significatività (valore p) Non c è il coefficiente standardizzato, ma c è exp(b) 10

Intepretazione Essendo una regressione, possiamo interpretare i coefficiente come al solito Cambiamento atteso nel logaritmo di OR, per uno spostamento di una unità nella VI Passo 1 a conserv Costante a. Variabili immesse al passo 1: conserv. Variabil i nel l'equazione B E.S. Wald df Sig. Exp(B).907.224 16. 399 1.000 2. 476.132.188.487 1.485 1. 141 Valore atteso nel logaritmo di OR, quando la VI è zero Significatività (valore p): se minore di 0.05, rifiutiamo l ipotesi nulla di B=0 11

Intepretazione: Problema Il problema sta nel fatto che tutte le informazioni (come in ogni regressione) sono espresse nell unità di misura della VD Nel caso del logaritmo di OR, questa unità è non intuitiva e poco informativa Variabil i nel l'equazione Passo 1 a conserv Costante a. Variabili immesse al passo 1: conserv. B E.S. Wald df Sig. Exp(B).907.224 16. 399 1.000 2. 476.132.188.487 1.485 1. 141 Per ogni unità in più di conserv, ci aspettiamo un aumento del logaritmo di OR di.907! Ma cosa significa? E tanto o poco? 12

Svantaggi del Logaritmo Il problema del logaritmo è che la sua unità di misura non è intuitivamente interpretabile Una differenza di.903 nella scala logaritmica è tanto o poco in termini di probabilità? n=e Per ovviare a ciò, le quantità espresse su scala logaritmiche possono essere riportate all unità originale mediante la funzione esponenziale Ln( 100) 4.605 e 4.605 100 exp( 4.605) 100 13

Unità più comprensibili base Dato che nella logistica le informazioni sono ottenute sulla base di una VD logaritmica, la funzione esponenziale le riporta all unità precedente (funzione inversa) L unità precedente è l odd ratio Logit Odd ratio Pi Ln( ) Pi Pi exp( Ln( )) 1 Pi 1 Pi 1 Pi argomento In generale funzione esponenziale exp( Ln( q)) q logaritmo argomento 14

L esponenziale La funzione esponenziale di un logaritmo ci da l argomento orginale del logaritmo X Ln(X) Exp(Ln(X)) 15

Relazioni tra unità di misure Al fine interpretativo è importante ricordare che: La somma tra due logaritmi equivale al prodotto tra gli argomenti Logit Odd ratio q Ln( a) Ln( b) exp( q ) a* b Ln( 2) Ln(3) 1.79 exp( 1.79) 3 2 6 B Ln( OR1 ) Ln( OR2 ) exp( B) OR1 * OR2 16

B espresso come OR Per facilitare l interpretazione, il legame tra VD e VI si esprime mediante l esponenziale di B Passo 1 a conserv Costante a. Variabili immesse al passo 1: conserv. Variabil i nel l'equazione Odd ratio B E.S. Wald df Sig. Exp(B).907.224 16. 399 1.000 2. 476.132.188.487 1.485 1. 141 Exp(B) trasforma il B espresso in scala logaritmica in un B expresso in termini di odd ratio 17

Interpretazione di exp(b) Exp(B) è il tasso con cui aumenta OR per ogni unità della VI Cioè il tasso con cui cambia il rapporto di probabilità al variare della VI Passo 1 a conserv Costante a. Variabili immesse al passo 1: conserv. Variabil i nel l'equazione B E.S. Wald df Sig. Exp(B).907.224 16. 399 1.000 2. 476.132.188.487 1.485 1. 141 Per ogni unità in più di conserv, il rapporto di probabilità tra votare McCain e votare Obama aumenta di 2.47 volte 18

Interpretazione di exp(costante) Exp(Costante) è l OR atteso quanto la VI è zero Se conservatorismo è uguale a zero, ci aspettiamo un odd ratio di 1.141, cioè votare McCain è 1.141 volte più probabile che votare Obama Passo 1 a conserv Costante a. Variabili immesse al passo 1: conserv. Variabil i nel l'equazione B E.S. Wald df Sig. Exp(B).907.224 16. 399 1.000 2. 476.132.188.487 1.485 1. 141 P( votaremccain) P( votareobama ) 1.141 Se conservatorismo è uguale a zero (soggetto intermedio politicamente), è leggermente più probabile votare McCain che Obama 19

Interpretazione di exp(b) Exp(B) è quanto aumenta l OR per ogni unità in più della VI Se passiamo da conservatorismo=0 a conservatorismo=1 (aumentiamo x di una unità), ci aspettiamo che l odd ratio aumenti di 2.476 Passo 1 a conserv Costante a. Variabili immesse al passo 1: conserv. Variabil i nel l'equazione B E.S. Wald df Sig. Exp(B).907.224 16. 399 1.000 2. 476.132.188.487 1.485 1. 141 OR x 1 ORx 0 * Exp ( B) 1.141*2.476 2.825 OR se X=1 OR se X=0 Tasso di cambio OR per X=1 20

Ricordiamo dalla lineare Nella regressione lineare yˆ a b x a è il valore atteso di y per x=0 yˆ x 0 a b è quanto dobbiamo aggiungere ad a passando da X=0 a X=1 ˆ 1 a b1 y x In generale, b è quanto dobbiamo aggiungere ad a passando da X a yˆ ˆ x 1 yx b1 X+1 21

Se la scala è logaritmica Con la scala logaritmica, la sostanza è la stessa ) ln( OR a b x a è il valore atteso di y per x=0 ln( ORx0) a b è quanto dobbiamo aggiungere ad a passando da X=0 a X=1 ln( ORx1) a b1 In generale, b è quanto dobbiamo aggiungere ad a passando da X a X+1 ln( OR 1) ln( ORx) b1 x 22

Relazioni tra unità di misure Ma la somma di due logaritmi equivale alla esponenziale dei prodotti degli argomenti Logit Odd ratio q Ln( a) Ln( b) exp( q ) a* b 23

Se la scala è riportata in OR Con la scala riportata in OR Logit a è il valore atteso di y per x=0 ln( ORx0) a Odd ratio Exp(a) è il valore atteso di OR per x=0 exp( a) OR x0 b è quanto dobbiamo aggiungere ad a passando da X=0 a X=1 b è quanto dobbiamo moltiplicare a passando da X=0 a X=1 ln( ORx1) a b1 OR OR x1 x0 b 24

Interpretazione di exp(b) Paragone con la regressione lineare Regressione lineare Regressione logistica yˆ a b x ln( OR) a b x a è il valore atteso di y per x=0 Exp(a) è il valore atteso di OR per x=0 b è quanto dobbiamo Exp(b) è quanto dobbiamo moltiplicare aggiungere ad a passando da a passando da X=0 a X=1 X=0 a X=1 25

Interpretazione di exp(b) Aumentando X di 1, aumento in termini di logaritmo di.907 L esponenziale di.907 è 2.476 Passo 1 a conserv Costante a. Variabili immesse al passo 1: conserv. Variabil i nel l'equazione B E.S. Wald df Sig. Exp(B).907.224 16. 399 1.000 2. 476.132.188.487 1.485 1. 141 Dunque in termini di OR aumento di 2.476 Cioè se un soggetto ha conservatorismo uguale ad 1, il suo OR di votare McCain sarà 2.476 volte più grande del soggetto che ha conservatorismo uguale a 0 in assoluto sara 2.825 (1.141*2.476) 26

Inversione della VD Passo 1 a Ovviamente, se prediciamo OR di votare McCain, o OR di votare Obama, i risultati sono equivalenti Qui McCain=1 Passo 1 a prevbush Voto McCain Costante a. Variabili immesse al passo 1: Voto prev McCain Bush. Qui Obama=1 prevbush Voto McCain Costante Variabil i nell'equaz ione a. Variabili immesse al passo 1: Voto prevmccain Bush. B E.S. Wald df Sig. Exp(B) 1. 333.368 13. 126 1.000 3. 792 -. 486.259 3. 502 1.061.615 OR McCain Variabil i nell'equaz ione 1.264 3.792 B E.S. Wald df Sig. Exp(B) -1.333.368 13. 126 1.000.264.486.259 3. 502 1.061 1. 625 OR 1 Obama 27

Regressione logistica multipla Tutto cio che sappiamo sulla regressione lineare (interazione, effetti parziali, mediazione, path analysis) rimane concettualmente equivalente per la logistica Cambia cosa si predice ed il calcolo dei coefficienti Esempio di RL multipla: Vogliamo predire se le persone preferiscono il vino (1) o la birra (0) in funzione della loro nazionalita (Italiani, 1, vs. Inglesi, 0) tenendo sotto controllo la quantita (quanti bicchieri bevono ogni giorno) 28

Coefficienti I coefficienti sono espressi nella scala logaritmica [B] e nella scala dei rapporti di probabilita o odd ratio [exp(b)] Ln B Test di significativita Odd Ratio B Variables in the Equation Step 1 a NATION GLASSESC Constant 95.0% C.I.for EXP(B) B S.E. Wald df Sig. Exp(B) Lower Upper 1.935.467 17.164 1.000 6.921 2.771 17.283.694.229 9.157 1.002 2.002 1.277 3.138-1.663.420 15.694 1.000.189 a. Variable(s) entered on step 1: NATION, GLASSESC. 29

Interpretazione B e il cambiamento predetto nella logit per un unita di cambiamento nella VI, mantenendo costante (al netto, parzializzando) l altra VI exp(b) e di quanto il OR di appartenere al gruppo 1 si moltiplica quando muoviamo la VI di 1 unita Step 1 a NATION GLASSESC Constant Variables in the Equation 95.0% C.I.for EXP(B) B S.E. Wald df Sig. Exp(B) Lower Upper 1.935.467 17.164 1.000 6.921 2.771 17.283.694.229 9.157 1.002 2.002 1.277 3.138-1.663.420 15.694 1.000.189 a. Variable(s) entered on step 1: NATION, GLASSESC. 30

Interpretazione Step 1 a OR per Inglesi (Nation=0) sulla preferenza di vino rispetto alla birra e di 0.189 Se ci spostiamo da Inglesi ad Italiani, OR diviene.189*6.921=1.3 NATION GLASSESC Constant Variables in the Equation 95.0% C.I.for EXP(B) B S.E. Wald df Sig. Exp(B) Lower Upper 1.935.467 17.164 1.000 6.921 2.771 17.283.694.229 9.157 1.002 2.002 1.277 3.138-1.663.420 15.694 1.000.189 a. Variable(s) entered on step 1: NATION, GLASSESC. OR per preferire il vino per gli Italiani e 6.92 volte maggiore che per gli Inglesi 31

Interpretazione exp(b) della VI e di quanto il OR di appartenere al gruppo 1 si moltiplica quano muoviamo la VI di 1 unita exp(b) della costante e OR quando la VI e eguale a 0 (Nation=Inglesi) OR per Inglesi=.189 OR per vino per Italiani e 6.92 piu grande che per gli Inglesi OR per Italiani, 189*6.921=1.3 Inglesi preferiscono birra Italiani preferiscono vino 7 volte di piu degli Inglesi Italiani preferiscono vino Step 1 a NATION GLASSESC Constant Variables in the Equation 95.0% C.I.for EXP(B) B S.E. Wald df Sig. Exp(B) Lower Upper 1.935.467 17.164 1.000 6.921 2.771 17.283.694.229 9.157 1.002 2.002 1.277 3.138-1.663.420 15.694 1.000.189 a. Variable(s) entered on step 1: NATION, GLASSESC. 32

Bonta dell equazione complessiva Abbiamo tre indici di bonta complessiva dell equazione Quasi equivalente alla R 2 nella RLM Piu usata Step 1 Model Summary -2 Log Cox & Snell Nagelkerke likelihood R Square R Square 181.522.240.320 Nagelkerke: 1) Piu e grande, meglio e 2) Come Cox, ma raggiunge 1 Likelihood ratio: 1) Piu e grande, peggio e 2) Quanto della VD non e spiegato dopo avere considerato le VI Cox & Snell: 1) Piu e grande, meglio e (0<r<1) 2) Quanto la VI spiega la VD rispetto a quanto e possibile spiegarla 3) Non raggiunge 1 33

Significativita complessiva Possiamo testare la significativita complessiva della regressione con un test del Chi-quadro Quasi equivalente al test F per la R 2 in RLM Omnibus Tests of Model Coefficients Step 1 Step Block Model Chi-square df Sig. 44.952 2.000 44.952 2.000 44.952 2.000 34

Predetto vs. Reale Dato che i valori predetti sono probabilita, le persone possono essere classificati nei due gruppi (vino vs. birra) secondo la probabilita predetta Il gruppo predetto puo essere comparato con il gruppo reale Piu i due coincidono, meglio la VI spiega la VD Classification Table a Predice meglio gli Italiani che gli Inglesi Predicted Step 1 Observed WINE Overall Percentage a. The cut value is.500 50% si ottiene per caso (le VI non predicono nulla) 0 1 WINE 0 1 Percentage Correct 54 34 61.4 11 65 85.5 72.6 % of persone predette correttamente 35

Un esempio di interazione Dilemma del prigioniero: Scelte simultanee di cooperazione o defezione. Ai ss viene chiesto anche se si aspettano cosa fara l altro e viene anche misurata la loro reciprocita (PNR) 36

Grafico dell interazione 1.0.8.6.4.2 Expectation PD Defect 0.0-3 -2-1 0 1 2 3 Cooperation Positive Reciprocity (Zscore) 37

SRHI x IAT (VD= barretta cioccolato) 38

Riassumendo La Regressione Logistica e una regressione con una VD binaria Si focalizza sulla probabilita di appartenza al gruppo I coefficienti sono espressi in scala logaritmica (B) come Odd Ratio exp(b) Il exp(b) e la quantita per la quale OR viene moltiplicato quando muoviamo la VI di 1 unita La bonta dell equazione complessiva e espressa con il likelihood ratio e delle approssimazioni di R 2 (Cox & Snell, NagelKerke), con la classificazione nei gruppi predetti vs. reali, e la significativita con un test Chi-Quadro La logica di fondo e come per la Regressione Lineare Multipla 39