Metodi statistici per la ricerca sociale Capitolo 15. Regressione logistica: modellare variabili risposta categoriali

Transcript

1 Metodi statistici per la ricerca sociale Capitolo 15. Regressione logistica: modellare variabili risposta categoriali Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni (DiSIA) Università degli Studi di Firenze LM 88 SOCIOLOGIA E RICERCA SOCIALE A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 1 / 44

2 Modelli per risposte binarie Variabile risposta binaria Y i = { 1 successo 0 insuccesso Pratica dell autopalpazione Decisioni: Si/No Presenza/assenza di una certa caratteristica (Occupato/Non occupato) Sopravvivenza/Morte Variabile esplicativa: X i Parametro di interesse = Probabilità di successo condizionata Pr(Y i = 1 X i = x i ) A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 2 / 44

3 Esempio: Pozzi di acqua potabile in Bangladesh Obiettivo: studiare la decisione delle famiglie in Bangladesh di cambiare la loro fonte di acqua da bere Campione di 3020 famiglie Variabili x i1 x i2 y i = Distanza (in ettometri) dal pozzo di acqua potabile più vicino = Livello di arsenico nel pozzo di acqua potabile utilizzato dalla famiglia = Indicatore della decisione della famiglia Y i = { 1 La famiglia i cambia fonte di acqua potabile 0 Altrimenti A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 3 / 44

4 Esempio: Pozzi di acqua potabile in Bangladesh u i y i x i1 x i Statistiche descrittive Frequenze Y i = 0 Y i = 1 Assolute Relative Variabile Media x i x i y i A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 4 / 44

5 Pozzi di acqua potabile in Bangladesh: Relazione tra decisione e livello di arsenico Livello di arsenico A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 5 / 44

6 Modello lineare nelle probabilità Le osservazioni Y i sono variabili aleatorie indipendenti e hanno distribuzione Bernoulliana Y i X i = x i Bernoulli(π i ) con probabilità di successo π i = Pr(Y i = 1 X i = x i ) che dipendono da x i Modello lineare nelle probabilità π i = Pr(Y i = 1 X i = x i ) = E[Y i X i = x i ] = β 0 + β 1 x i A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 6 / 44

7 Modello lineare nelle probabilità Livello di arsenico β 0 + β 1 x i = x i A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 7 / 44

8 Modello lineare nelle probabilità Il modello lineare nelle probabilità può dar luogo a probabilità stimate non comprese tra 0 e 1 Le varianze var(y i X i = x i ) = π i (1 π i ) non sono costanti, ma funzione delle variabili esplicative x Il modello di regressione multipla con assunzione di omoschedasticità non è correttamente specificato Le stime dei minimi quadrati sono inefficienti A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 8 / 44

9 Modello lineare nelle probabilità: Pozzi di acqua potabile in Bangladesh Livello di arsenico β 0 + β 1 x i = x i A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 9 / 44

10 Il logit delle probabilità ψ i = logit(pr(y i = 1 X i = x i )) = log ( Pr(Y i = 1 X i = x i ) 1 Pr(Y i = 1 X i = x i ) ) Il logit assume valori nell insieme dei numeri reali Trasformazione inversa exp(ψ i ) π i = Pr(Y i = 1 X i = x i ) = 1 + exp(ψ i ) exp(ψ i) (1 + exp(ψi)) ψ i A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 10 / 44

11 Modello di regressione logistica lineare Le osservazioni Y i sono variabili aleatorie indipendenti e hanno distribuzione Bernoulliana Y i X i = x i Bernoulli(π i ) con probabilità di successo π i = P(Y i = 1 X i = x i ) che dipendono da x i Modello logit logit(π i ) = log ( Pr(Y i = 1 X i = x i ) 1 Pr(Y i = 1 X i = x i ) ) = β 0 + β 1 x i exp(β 0 + β 1 x i ) π i = 1 + exp(β 0 + β 1 x i ) A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 11 / 44

12 Modello di regressione logistica lineare Pozzi di acqua potabile in Bangladesh π i = exp( β 0 + β 1 x i ) 1 + exp( β 0 + β 1 x i ) = exp( x i ) 1 + exp( x i ) Logit 2 1 Probabilità Livello di arsenico Livello di arsenico A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 12 / 44

13 Modello di regressione logistica lineare Funzione di regressione logistica β 0 π(x = 0) = π i = exp(β 0) 1 + exp(β 0) exp(β 0 + β 1x i ) 1 + exp(β 0 + β 1x i ) È crescente se β 1 > 0 Probabilità di successo aumenta all aumentare di x È decrescente se β 1 < 0 Probabilità di successo diminuisce all aumentare di x È costante se β 1 = 0 Probabilità di successo costante Pendenza della retta tangente alla curva: β 1 π i (1 π i ) La massima pendenza della curva si ha nel punto x = β 0/β 1 nel quale π i = 0.5 La pendenza della curva nel punto x = β 0/β 1 è β 1/4: Un incremento unitario in x implica una variazione nella probabilità di successo di al massimo β 1/4 A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 13 / 44

14 Modello di regressione logistica lineare: Il parametro β 1 logit(π(x)) = β 0 + β 1 x β 1 = logit(π(x + 1)) logit(π(x)) per qualsiasi valore di x Si ricorda che Quindi logit(π(x)) = log ( π(x) 1 π(x) ) = log(odds(x)) π(x + 1) π(x) β 1 = logit(π(x + 1)) logit(π(x)) = log ( ) log ( 1 π(x + 1) 1 π(x) ) = log π(x + 1) 1 π(x + 1) π(x) 1 π(x) Odds(x + 1) = log ( Odds(x) ) Odds(x + 1) e β1 = passando da x a x + 1 gli odds sono moltiplicati per e β1 Odds(x) per qualsiasi valore di x A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 14 / 44

15 Modello di regressione logistica lineare Pozzi di acqua potabile in Bangladesh π i = exp( β 0 + β 1 x i ) 1 + exp( β 0 + β 1 x i ) = exp( x i ) 1 + exp( x i ) exp( 0.31) β 0 = 0.31 π(x = 0) = 1 + exp( 0.31) = 0.42 La funzione cresce ( β 1 = 0.38 è positivo) e le quote di successo crescono a un tasso di e 0.4 = 1.49 ossia ogni incremento unitario nel livello di arsenico implica che gli odds siano moltiplicati per 1.49 La massima pendenza della curva, uguale a si ha nel punto β 1 /4 = 0.38/4 = 0.09 x = β 0 / β 1 = ( 0.31)/(0.38) = 0.81 A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 15 / 44

16 Modello di regressione logistica lineare Pozzi di acqua potabile in Bangladesh π i = exp( β 0 + β 1 x i ) 1 + exp( β 0 + β 1 x i ) = exp( x i ) 1 + exp( x i ) π(x = 0.75) = 0.49 π(x = 1.75) = 0.59 π(x = 1.75) π(x = 0.75) = 0.10 π(x = 5) = 0.83 π(x = 6) = 0.88 π(x = 6) π(x = 5) = 0.05 Incrementi non costanti Un incremento nella concentrazione di arsenico da 0.75 a 1.75 implica un incremento nella probabilità di cambiare fonte di acqua potabile da 0.49 a 0.59 Un incremento nella concentrazione di arsenico da 5 a 6 implica un incremento nella probabilità di cambiare fonte di acqua potabile da 0.83 a 0.88 Probabilità attesa per una concentrazione media di arsenico: x = 1.66 π(x) = exp( ) 1 + exp( ) = 0.58 A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 16 / 44

17 Stimare i parametri di un modello logistico Metodo della massima verosimiglianza La funzione di verosimiglianza da informazioni sulla probabilità di osservare i dati effettivamente osservati al variare del valore dei parametri: Ogni valore della funzione di verosimiglianza in corrispondenza di un dato valore dei parametri dice quanto è verosimile che i dati osservati provengano da una popolazione in cui i parametri assumono quel valore Determinare i valori di β 0 e β 1 che rendono massima la funzione di verosimiglianza (o equivalentemente la funzione di log-verosimiglianza) Le stime di massima verosimiglianza per i parametri del modello logit sono ottenute numericamente attraverso procedure iterative In generale non esistono espressioni in forma chiusa delle stime di massima verosimiglianza per i parametri del modello logit Funzione di verosimiglianza: L(β 0, β 1 ) B 0 = e B 1 =: stimatori di massima verosimiglianza dei parametri β 0 e β 1, rispettivamente A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 17 / 44

18 Inferenza nel modello logistico: Verifica di ipotesi e IC per β 1 Ipotesi: H 0 β 1 = 0 versus H a β 1 0 Statistica test B 1 Z = ê.s.( B 1) dove ê.s.( B 1) è la stima dell errore standard di B1 Sotto l ipotesi nulla la statistica test Z ha una distribuzione asintotica Normale standard: se il campione non è estremamente piccolo, si può approssimare la distribuzione della statistica test Z con la distribuzione normale Regione critica asintotica Statistica test di Wald RC α Z z α/2 oppure Z z α/2 B 1 W = ( ê.s.( B ) = Z 2 1) 2 Sotto l ipotesi nulla H 0 la statistica test W ha una distribuzione asintotica χ 2 1 Il test Z e di Wald sono equivalenti (stesso p value) Intervallo di confidenza per exp(β 1) al livello di confidenza 1 α IC 1 α(exp(β 1)) = [exp { β 1 z α/2 ê.s.( B 1)} ; exp { β 1 + z α/2 ê.s.( B 1)}] A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 18 / 44

19 Stima di massima verosimiglianza nel modello logistico Pozzi di acqua potabile in Bangladesh Variabile Stima Errore standard z value p value Costante Arsenico La statistica test z = 0.38/ = 9.8 con p value = RC α=0.01 = Z 2.58 oppure Z 2.58 Evidenza contro l ipotesi nulla al livello di significatività del 1%. Statistica di Wald: w = (0.38/0.0385) 2 = (9.8) 2 = con p value = Pr(χ ) = Intervallo di confidenza per exp(β 1 ) al livello di confidenza 1 α = 0.99 IC 0.99 (exp(β 1 )) = [exp( ); exp( )] = [exp(0.28); exp(0.48)] = [1.32; 1.61] A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 19 / 44

20 Confronto tra modelli Modello esteso: logit(π i ) = β 0 + β 1 x i π i = exp(β 0 ) Modello ridotto: logit(π i ) = β 0 π i = 1 + exp(β 0 ) (modello nullo) exp(β 0 + β 1 x i ) 1 + exp(β 0 + β 1 x i ) Test del rapporto di verosimiglianza max β0 L(β 0 ) 2 log ( max β0,β 1 L(β 0, β 1 ) ) = 2 log ( L( β 0 ) L( β 0, β 1 ) ) = 2 log ( L r L e ) = 2 (log L r log L e ) A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 20 / 44

21 Confronto tra modelli La statistica test del rapporto di verosimiglianza ha una distribuzione asintotica (sotto H 0 ) χ 2 con gdl uguale al numero di parametri posti a zero sotto l ipotesi nulla (1 nel caso considerato) In presenza di una sola variabile esplicativa il test del rapporto di verosimiglianza per il confronto tra modello esteso e modello nullo usualmente conduce a risultati simili al test di Wald (e al test Z) per campioni di grandi dimensioni A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 21 / 44

22 Confronto tra modelli Pozzi di acqua potabile in Bangladesh Modello completo: log L( β 0, β 1 ) = Variabile Stima Errore standard z value p value Costante Arsenico Modello nullo log L( β 0 ) = Variabile Stima Errore standard z value p value Costante Statistica test del rapporto di verosimiglianza 2 (log L r log L e ) = 2 ( ( )) = Fissato α = 0.01, χ 2 1 (0.01) = Evidenza contro l ipotesi nulla al livello di significatività del 1% p value = Pr(χ 2 1 > ) = A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 22 / 44

23 Modello di regressione logistica multiplo Le osservazioni sulle variabile esplicative x i1,..., x ik sono fisse Le osservazioni Y i sono variabili aleatorie indipendenti e hanno distribuzione Bernoulliana Y i X i1 = x i1,..., X ik = x ik Bernoulli(π i ) con probabilità di successo π i = P(Y i = 1 X i1 = x i1,..., X ik = x ik ) che dipendono da x i1,..., x ik Modello logit logit(π i ) = logit ( Pr(Y i = 1 X i1 = x i1,..., X ik = x ik ) 1 Pr(Y i = 1 X i1 = x i1,..., X ik = x ik ) ) = β 0 + β 1 x i1 + + β k x ik π i = Pr(Y i = 1 X i1 = x i1,..., X ik = x ik ) = exp(β 0 +β 1 x i1 + + β k x ik ) 1 + exp(β 0 +β 1 x i1 + + β k x ik ) A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 23 / 44

24 Esempio: Pozzi di acqua potabile in Bangladesh Variabile Stima Errore standard z value p value Costante Distanza Arsenico β 0 = π(x 1 = 0, x 2 = 0) = exp(0.0027) 1 + exp(0.0027) = Confrontando famiglie che utilizzano pozzi di acqua caratterizzati dallo stesso livello di arsenico, ogni incremento di 100 metri nella distanza determina una riduzione di 0.90 nel logit della probabilità di cambiare fonte di acqua potabile gli odds di successo a favore del cambiamento si moltiplicano per e = per ogni incremento di 100 metri della distanza fissato il livello di arsenico Confrontando famiglie che si trovano alla stessa distanza dal pozzo di acqua utilizzato con fonte di acqua potabile, un incremento unitario nella concentrazione di arsenico determina un incremento di 0.46 nel logit della probabilità di cambiare fonte di acqua potabile gli odds di successo a favore del cambiamento si moltiplicano per e 0.46 = per ogni incremento unitario della concentrazione di arsenico fissata la distanza A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 24 / 44

25 Esempio: Pozzi di acqua potabile in Bangladesh Variabile Stima Errore standard z value p value Costante Distanza Arsenico Il segno dei coefficienti delle variabili esplicative sembrano ragionevoli: una famiglia ha maggiore probabilità di cambiare fonte di acqua potabile se si trova lontana dall attuale fonte e se l attuale fonte ha un elevata concentrazione di arsenico Entrambi i coefficienti delle variabili esplicative sono statisticamente significativi A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 25 / 44

26 Esempio: Pozzi di acqua potabile in Bangladesh Probabilità Conc. arsenico = Conc. arsenico = Conc. arsenico = Probabilità Distanza = Distanza = Distanza = Distanza Concentrazione di arsenico.. A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 26 / 44

27 Esempio: Pozzi di acqua potabile in Bangladesh Modello con interazione Variabile Stima Errore standard z value p value Costante Distanza Arsenico Interazione Probabilità Conc. arsenico = Conc. arsenico = Conc. arsenico = Probabilità Distanza = Distanza = Distanza = Distanza Concentrazione di arsenico A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 27 / 44

28 Esempio: Pozzi di acqua potabile in Bangladesh Modello con interazione exp( ) β 0 = π(x 1 = 0, x 2 = 0) = 1 + exp( ) = Confrontando famiglie che utilizzano pozzi di acqua caratterizzati da una concentrazione nulla di arsenico, ogni incremento di 100 metri nella distanza determina una riduzione di 0.58 nel logit della probabilità di cambiare fonte di acqua potabile gli odds di successo a favore del cambiamento si moltiplicano per e = per ogni incremento di 100 metri della distanza fissato il livello di arsenico a zero Confrontando famiglie che si trovano distanza zero dal pozzo di acqua utilizzato con fonte di acqua potabile, un incremento unitario nella concentrazione di arsenico determina un incremento di nel logit della probabilità di cambiare fonte di acqua potabile gli odds di successo a favore del cambiamento si moltiplicano per e = per ogni incremento unitario concentrazione di arsenico fissata la distanza a zero Interpretazione del coefficiente di interazione: Per ogni incremento unitario nella distanza (concentrazione di arsenico) un valore di è aggiunto al coefficiente della concentrazione di arsenico (distanza) A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 28 / 44

29 Esempio: Pozzi di acqua potabile in Bangladesh Modello con interazione (variabili centrate rispetto alla media) Variabile Stima Errore standard z value p value Costante Distanza Arsenico Interazione A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 29 / 44

30 Confronto tra modelli Modello esteso Modello ridotto Test del rapporto di verosimiglianza logit(π i ) = β 0 + β 1x i1 + + β h x ih + + β k x ik logit(π i ) = β 0 + β 1x i1 + + β h x ih 2 log ( Lr L e ) = 2 (log L r log L e) La statistica test del rapporto di verosimiglianza ha una distribuzione asintotica (sotto H 0) χ 2 con gdl uguale al numero di parametri posti a zero sotto l ipotesi nulla (k h) A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 30 / 44

31 Confronto tra modelli Pozzi di acqua potabile in Bangladesh Modello log L 2 (log L r log L e ) GdL p value Modello con interazione (Modello esteso) Modello additivo: H 0 β Interazione = Solo Distanza: H 0 β Interazione = 0 e β A = Solo Arsenico: H 0 β Interazione = 0 e β D = Modello nullo: H 0 β Interazione = β D = β A = A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 31 / 44

32 Confronto tra modelli Pozzi di acqua potabile in Bangladesh Modello log L 2 (log L r log L e ) GdL p value Modello additivo (Modello esteso) Solo Distanza: H 0 β A = Solo Arsenico: H 0 β D = Modello nullo: H 0 β D = β A = A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 32 / 44

33 Information Criteria Akaike (1973) Information Criteria (AIC) AIC = 2 log L + 2 (k + 1) dove k + 1 è il numero di parametri (inclusa l intercetta) L indice AIC si basa su un criterio di bilanciamento tra bontà di adattamento del modello e semplicità del modello (in termini di numero di variabili esplicative considerate) Il modello con l indice AIC più basso è preferibile Può essere utilizzato per confrontare modelli non-nested Bayes (1973) Information Criteria (BIC) BIC = 2 log L + (k + 1) log(n) Rispetto all indice AIC, l indice BIC attribuisce una maggiore penalità a modelli con un numero maggiore di parametri per n > 8 (log(8) > 2) A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 33 / 44

34 Information Criteria Pozzi di acqua potabile in Bangladesh Modello AIC BIC Modello con interazione Modello additivo Solo Distanza Solo Arsenico Modello nullo A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 34 / 44

35 Il modello di regressione logistica multinomiale Il modello di regressione logistica può essere esteso a situazioni in cui la variabile risposta assume più di due valori Esempio: Studio condotto da Florida Game and Fresh Water Fish Commission finalizzato a investigare i fattori che influenzano le scelta nutrizionale primaria degli alligatori Variabile risposta: Scelta nutrizionale primaria di alligatori determinata in base al contenuto trovato nello stomaco dell alligatore 1 Invertebrati Y i = 2 Pesce 3 Altro dove Invertebrati = Chiocciole, insetti acquatici, gamberi; Altro = rettili; anfibi, mammiferi, piante, sassi, detriti vari La variabile risposta è una variabile categorica con 3 modalità tra cui non esiste un ordine naturale Variabile esplicativa = Lunghezza dell alligatore (in metri) Campione di 59 alligatori del Lago George in Florida (USA) A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 35 / 44

36 Scelta nutrizionale primaria di alligatori x i y i x i y i x i y i x i y i A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 36 / 44

37 Il modello di regressione logistica multinomiale Le osservazioni Y i sono variabili aleatorie indipendenti categoriali con modalità codificate come {1, 2,..., J} Una modalità m {1, 2,..., J} è considerata come categoria di riferimento (la scelta è arbitraria: spesso m = 1 o m = J.) Considerando la categoria m come categoria di riferimento si ha π ij = Pr(Y i = j X i1 = x i1,..., X ik = x ik ) per j m con π im = 1 j m π ij A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 37 / 44

38 Il modello di regressione logistica multinomiale Modello di regressione logistica multinomiale log ( π ij π im ) = log ( Pr(Y i = j X i1 = x i1,..., X ik = x ik ) Pr(Y i = m X i1 = x i1,..., X ik = x ik ) ) = β 0j + β 1j x i1 + + β Kj x ik i = 1,..., n, m = categoria di riferimento e j m (Per m = 1, j = 2, 3,..., J, per m = J,j = 1, 2,..., J 1). Probabilità nel modello di regressione logistica multinomiale π ij = Pr(Y i = j X i1 = x i1,..., X ik = x ik ) = exp(β 0j + β 1j x i1 + + β Kj x ik ) 1 + j m exp(β 0j + β 1j x i1 + + β Kj x ik ) I parametri del modello sono stimati utilizzando il metodo della massima verosimiglianza A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 38 / 44

39 Esempio: Scelta nutrizionale primaria di alligatori Modello di regressione logistica multinomiale: Per i = 1,..., n = 59 log ( π i1 π i3 ) = log ( Pr(Y i = 1 X i1 = x i1 ) Pr(Y i = 3 X i1 = x i1 ) ) = β 0j=1 + β 1j=1 x i1 log ( π i2 π i3 ) = log ( Pr(Y i = 2 X i1 = x i1 ) Pr(Y i = 3 X i1 = x i1 ) ) = β 0j=2 + β 1j=2 x i1 Probabilità nel modello di regressione logistica multinomiale π ij = Pr(Y i = j X i1 = x i1 ) = exp(β 0j + β 1j x i1 ) 1 + exp(β 0j=1 + β 1j=1 x i1 ) + exp(β 0j=2 + β 1j=2 x i1 ) A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 39 / 44

40 Esempio: Scelta nutrizionale primaria di alligatori Stime di massima verosimiglianza dei parametri Logit Invertebrati vs Altro Variabile Stima E.S. Costante Lunghezza log L = Dalle stime dei parametri si ha : Logit Pesce vs Altro Variabile Stima E.S. Costante Lunghezza log ( ˆπ i1 ˆπ i3 ) = x i1 log ( ˆπ i2 ˆπ i3 ) = x i1 Lo stima che il log degli odds a favore del pesce rispetto agli invertebrati è log ( ˆπ i2 ˆπ i3 ) log ( ˆπ i1 ˆπ i3 ) = log ( ˆπ i2 ˆπ i1 ) = ( ) + ( ( 2.465)) x i1 = x i1 A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 40 / 44

41 Esempio - Scelta nutrizionale primaria di alligatori: Interpretazione Per ogni logit, le stime dei parametri si interpretano come modelli di regressione logistica per variabili risposta binarie, focalizzando l attenzione sulle due categorie coinvolte Esempio: Scelta nutrizionale primaria: pesce versus invertebrati log ( ˆπ i2 ˆπ i1 ) = x i1 Dato che la scelta nutrizionale primaria è pesce o invertebrati, la probabilità stimata che la scelta sia pesce cresce con la lunghezza dell alligatore secondo una forma a S Per gli alligatori di lunghezza x + 1 metri gli odds stimati che la scelta nutrizionale primaria sia pesce piuttosto che invertebrati è e = volte gli odds stimati per alligatori di lunghezza x A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 41 / 44

42 Esempio - Scelta nutrizionale primaria di alligatori: Probabilità Le probabilità stimate relative alla variabile risposta (Invertebrati, Pesce, Altro) sono ˆπ i1 = ˆπ i2 = ˆπ i3 = exp( x i1 ) 1 + exp( x i1 ) + exp( x i1 ) exp( x i1 ) 1 + exp( x i1 ) + exp( x i1 ) exp( x i1 ) + exp( x i1 ) Il termine 1 in ogni denominatore e al numeratore della terza equazione rappresenta exp( ˆβ 0j=3 + ˆβ 1j=3 x i1 ) posto ˆβ 0j=3 = ˆβ 1j=3 = 0 Per un alligatore di lunghezza x = 3.9 metri, la probabilità stimata che la scelta nutrizionale primaria sia Altro è ˆπ 3 = exp( ) + exp( ) = 0.23 A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 42 / 44

43 Esempio - Scelta nutrizionale primaria di alligatori: Probabilità Probabilita' stimate Invertebrati Pesce Altro Lunghezza alligatore A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 43 / 44

44 Esempio - Scelta nutrizionale primaria di alligatori Confronto tra modello esteso e modello nullo: La scelta nutrizionale primaria è indipendente dalla lunghezza H 0 β 11 = 0 e β 12 = 0 vs H a β 11 0 o β 12 0 Test del rapporto di verosimiglianza Regione critica (α = 0.01) 2(log L 0 log L) = gdl = 2 RC (log L 0 log L) > χ 2 2(0.01) = 9.21 Il valore osservato della statistica test del rapporto di verosimiglianza cade nella regione critica: Evidenza contro l ipotesi nulla p value < A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 44 / 44