Regressione Logistica: un Modello per Variabili Risposta Categoriali
|
|
|
- Achille Ferro
- 10 anni fa
- Visualizzazioni
Transcript
1 : un Modello per Variabili Risposta Categoriali Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 1 / 54
2 Introduzione Premessa I modelli di regressione hanno lo scopo di studiare le determinanti di variabili risposta quantitative (continue) Tuttavia è possibile costruire modelli di regressione anche per variabili risposta categoriali e/o discrete Il caso delle variabili discrete è particolarmente complesso Nel caso delle variabili categoriali possiamo distinguere 3 casi: 1 Variabili risposta dicotomiche o binarie (del tipo 0 1, V-F, Sì-No, ecc.); 2 Variabili risposta politomiche o multinomiali ordinali (almeno 3 categorie di risposta ordinate); 3 Variabili risposta politomiche o multinomiali non ordinali o nominali (almeno 3 categorie di risposta ordinate). Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 2 / 54
3 Introduzione Premessa I modelli di regressione hanno lo scopo di studiare le determinanti di variabili risposta quantitative (continue) Tuttavia è possibile costruire modelli di regressione anche per variabili risposta categoriali e/o discrete Il caso delle variabili discrete è particolarmente complesso Nel caso delle variabili categoriali possiamo distinguere 3 casi: 1 Variabili risposta dicotomiche o binarie (del tipo 0 1, V-F, Sì-No, ecc.); 2 Variabili risposta politomiche o multinomiali ordinali (almeno 3 categorie di risposta ordinate); 3 Variabili risposta politomiche o multinomiali non ordinali o nominali (almeno 3 categorie di risposta ordinate). Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 2 / 54
4 Introduzione Premessa I modelli di regressione hanno lo scopo di studiare le determinanti di variabili risposta quantitative (continue) Tuttavia è possibile costruire modelli di regressione anche per variabili risposta categoriali e/o discrete Il caso delle variabili discrete è particolarmente complesso Nel caso delle variabili categoriali possiamo distinguere 3 casi: 1 Variabili risposta dicotomiche o binarie (del tipo 0 1, V-F, Sì-No, ecc.); 2 Variabili risposta politomiche o multinomiali ordinali (almeno 3 categorie di risposta ordinate); 3 Variabili risposta politomiche o multinomiali non ordinali o nominali (almeno 3 categorie di risposta ordinate). Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 2 / 54
5 Introduzione Premessa I modelli di regressione hanno lo scopo di studiare le determinanti di variabili risposta quantitative (continue) Tuttavia è possibile costruire modelli di regressione anche per variabili risposta categoriali e/o discrete Il caso delle variabili discrete è particolarmente complesso Nel caso delle variabili categoriali possiamo distinguere 3 casi: 1 Variabili risposta dicotomiche o binarie (del tipo 0 1, V-F, Sì-No, ecc.); 2 Variabili risposta politomiche o multinomiali ordinali (almeno 3 categorie di risposta ordinate); 3 Variabili risposta politomiche o multinomiali non ordinali o nominali (almeno 3 categorie di risposta ordinate). Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 2 / 54
6 Introduzione Premessa I modelli di regressione hanno lo scopo di studiare le determinanti di variabili risposta quantitative (continue) Tuttavia è possibile costruire modelli di regressione anche per variabili risposta categoriali e/o discrete Il caso delle variabili discrete è particolarmente complesso Nel caso delle variabili categoriali possiamo distinguere 3 casi: 1 Variabili risposta dicotomiche o binarie (del tipo 0 1, V-F, Sì-No, ecc.); 2 Variabili risposta politomiche o multinomiali ordinali (almeno 3 categorie di risposta ordinate); 3 Variabili risposta politomiche o multinomiali non ordinali o nominali (almeno 3 categorie di risposta ordinate). Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 2 / 54
7 Regressione Logistica Si consideri una variabile risposta dicotomica Y. Essa prende valori 0 o 1 Solitamente si parla, rispettivamente, di fallimento e successo Ricordiamo che la µ(y) = E(Y) è pari alla proporzione di soggetti per i quali si osserva il successo (Σ1/n) Quindi i modelli di regressione logistica stimano le proporzioni dei successi in una popolazione Ovviamente P(y = 1) rappresenta la probabilità di osservare un successo per ciascun soggetto della popolazione Nel caso di Y dicotomica, si assumerà che la sua distribuzione sia una v.c. binomiale Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 3 / 54
8 Regressione Logistica Si consideri una variabile risposta dicotomica Y. Essa prende valori 0 o 1 Solitamente si parla, rispettivamente, di fallimento e successo Ricordiamo che la µ(y) = E(Y) è pari alla proporzione di soggetti per i quali si osserva il successo (Σ1/n) Quindi i modelli di regressione logistica stimano le proporzioni dei successi in una popolazione Ovviamente P(y = 1) rappresenta la probabilità di osservare un successo per ciascun soggetto della popolazione Nel caso di Y dicotomica, si assumerà che la sua distribuzione sia una v.c. binomiale Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 3 / 54
9 Regressione Logistica Si consideri una variabile risposta dicotomica Y. Essa prende valori 0 o 1 Solitamente si parla, rispettivamente, di fallimento e successo Ricordiamo che la µ(y) = E(Y) è pari alla proporzione di soggetti per i quali si osserva il successo (Σ1/n) Quindi i modelli di regressione logistica stimano le proporzioni dei successi in una popolazione Ovviamente P(y = 1) rappresenta la probabilità di osservare un successo per ciascun soggetto della popolazione Nel caso di Y dicotomica, si assumerà che la sua distribuzione sia una v.c. binomiale Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 3 / 54
10 Regressione Logistica Si consideri una variabile risposta dicotomica Y. Essa prende valori 0 o 1 Solitamente si parla, rispettivamente, di fallimento e successo Ricordiamo che la µ(y) = E(Y) è pari alla proporzione di soggetti per i quali si osserva il successo (Σ1/n) Quindi i modelli di regressione logistica stimano le proporzioni dei successi in una popolazione Ovviamente P(y = 1) rappresenta la probabilità di osservare un successo per ciascun soggetto della popolazione Nel caso di Y dicotomica, si assumerà che la sua distribuzione sia una v.c. binomiale Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 3 / 54
11 Regressione Logistica Si consideri una variabile risposta dicotomica Y. Essa prende valori 0 o 1 Solitamente si parla, rispettivamente, di fallimento e successo Ricordiamo che la µ(y) = E(Y) è pari alla proporzione di soggetti per i quali si osserva il successo (Σ1/n) Quindi i modelli di regressione logistica stimano le proporzioni dei successi in una popolazione Ovviamente P(y = 1) rappresenta la probabilità di osservare un successo per ciascun soggetto della popolazione Nel caso di Y dicotomica, si assumerà che la sua distribuzione sia una v.c. binomiale Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 3 / 54
12 Regressione Logistica Si consideri una variabile risposta dicotomica Y. Essa prende valori 0 o 1 Solitamente si parla, rispettivamente, di fallimento e successo Ricordiamo che la µ(y) = E(Y) è pari alla proporzione di soggetti per i quali si osserva il successo (Σ1/n) Quindi i modelli di regressione logistica stimano le proporzioni dei successi in una popolazione Ovviamente P(y = 1) rappresenta la probabilità di osservare un successo per ciascun soggetto della popolazione Nel caso di Y dicotomica, si assumerà che la sua distribuzione sia una v.c. binomiale Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 3 / 54
13 La distribuzione binomiale Per dati categoriali, possono verificarsi le seguenti condizioni: 1 Ciascuna osservazione cade in una di due categorie 2 Le probabilità per le due categorie sono le stesse per ciascuna osservazione. Indichiamo le probabilità con π per la categoria 1 e (1 π) per la categoria 2 3 I risultati di osservazioni successive sono indipendenti. Cioè, il risultato per una osservazione non dipende dal risultato delle altre osservazioni Un buon esempio è rappresentato dal lancio di una moneta: due possibili risultati (T o C), probabilità costante ad ogni lancio (π = 0.50) e il risultato ad ogni lancio è indipendente dai precedenti Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 4 / 54
14 La distribuzione binomiale Per dati categoriali, possono verificarsi le seguenti condizioni: 1 Ciascuna osservazione cade in una di due categorie 2 Le probabilità per le due categorie sono le stesse per ciascuna osservazione. Indichiamo le probabilità con π per la categoria 1 e (1 π) per la categoria 2 3 I risultati di osservazioni successive sono indipendenti. Cioè, il risultato per una osservazione non dipende dal risultato delle altre osservazioni Un buon esempio è rappresentato dal lancio di una moneta: due possibili risultati (T o C), probabilità costante ad ogni lancio (π = 0.50) e il risultato ad ogni lancio è indipendente dai precedenti Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 4 / 54
15 La distribuzione binomiale Per dati categoriali, possono verificarsi le seguenti condizioni: 1 Ciascuna osservazione cade in una di due categorie 2 Le probabilità per le due categorie sono le stesse per ciascuna osservazione. Indichiamo le probabilità con π per la categoria 1 e (1 π) per la categoria 2 3 I risultati di osservazioni successive sono indipendenti. Cioè, il risultato per una osservazione non dipende dal risultato delle altre osservazioni Un buon esempio è rappresentato dal lancio di una moneta: due possibili risultati (T o C), probabilità costante ad ogni lancio (π = 0.50) e il risultato ad ogni lancio è indipendente dai precedenti Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 4 / 54
16 La distribuzione binomiale Per dati categoriali, possono verificarsi le seguenti condizioni: 1 Ciascuna osservazione cade in una di due categorie 2 Le probabilità per le due categorie sono le stesse per ciascuna osservazione. Indichiamo le probabilità con π per la categoria 1 e (1 π) per la categoria 2 3 I risultati di osservazioni successive sono indipendenti. Cioè, il risultato per una osservazione non dipende dal risultato delle altre osservazioni Un buon esempio è rappresentato dal lancio di una moneta: due possibili risultati (T o C), probabilità costante ad ogni lancio (π = 0.50) e il risultato ad ogni lancio è indipendente dai precedenti Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 4 / 54
17 La distribuzione binomiale Per dati categoriali, possono verificarsi le seguenti condizioni: 1 Ciascuna osservazione cade in una di due categorie 2 Le probabilità per le due categorie sono le stesse per ciascuna osservazione. Indichiamo le probabilità con π per la categoria 1 e (1 π) per la categoria 2 3 I risultati di osservazioni successive sono indipendenti. Cioè, il risultato per una osservazione non dipende dal risultato delle altre osservazioni Un buon esempio è rappresentato dal lancio di una moneta: due possibili risultati (T o C), probabilità costante ad ogni lancio (π = 0.50) e il risultato ad ogni lancio è indipendente dai precedenti Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 4 / 54
18 Definizione: Probabilità per una Distribuzione Binomiale Sia π la probabilità che un osservazione assuma un valore della categoria 1. Nel caso di n osservazioni indipendenti, la probabilità di x successi per la categoria 1 è P(x) = n! x!(n x)! πx (1 π) n x, x = 0,1,2,...,n. Il simbolo n! è chiamato n fattoriale. Rappresenta n! = n. Ad esempio, 1! = 1, 2! = 1 2 = 2, 3! = = 6, e così via. Per definizione, 0! è pari a 1. Sostituendo ad x il valore del numero di successi desiderato per n e π fissati, si avrà la P(x), cioè la probabilità di avere x successi in n lanci della moneta Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 5 / 54
19 Definizione: Probabilità per una Distribuzione Binomiale Sia π la probabilità che un osservazione assuma un valore della categoria 1. Nel caso di n osservazioni indipendenti, la probabilità di x successi per la categoria 1 è P(x) = n! x!(n x)! πx (1 π) n x, x = 0,1,2,...,n. Il simbolo n! è chiamato n fattoriale. Rappresenta n! = n. Ad esempio, 1! = 1, 2! = 1 2 = 2, 3! = = 6, e così via. Per definizione, 0! è pari a 1. Sostituendo ad x il valore del numero di successi desiderato per n e π fissati, si avrà la P(x), cioè la probabilità di avere x successi in n lanci della moneta Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 5 / 54
20 Definizione: Probabilità per una Distribuzione Binomiale Sia π la probabilità che un osservazione assuma un valore della categoria 1. Nel caso di n osservazioni indipendenti, la probabilità di x successi per la categoria 1 è P(x) = n! x!(n x)! πx (1 π) n x, x = 0,1,2,...,n. Il simbolo n! è chiamato n fattoriale. Rappresenta n! = n. Ad esempio, 1! = 1, 2! = 1 2 = 2, 3! = = 6, e così via. Per definizione, 0! è pari a 1. Sostituendo ad x il valore del numero di successi desiderato per n e π fissati, si avrà la P(x), cioè la probabilità di avere x successi in n lanci della moneta Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 5 / 54
21 Definizione: Probabilità per una Distribuzione Binomiale Sia π la probabilità che un osservazione assuma un valore della categoria 1. Nel caso di n osservazioni indipendenti, la probabilità di x successi per la categoria 1 è P(x) = n! x!(n x)! πx (1 π) n x, x = 0,1,2,...,n. Il simbolo n! è chiamato n fattoriale. Rappresenta n! = n. Ad esempio, 1! = 1, 2! = 1 2 = 2, 3! = = 6, e così via. Per definizione, 0! è pari a 1. Sostituendo ad x il valore del numero di successi desiderato per n e π fissati, si avrà la P(x), cioè la probabilità di avere x successi in n lanci della moneta Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 5 / 54
22 Definizione: Probabilità per una Distribuzione Binomiale Sia π la probabilità che un osservazione assuma un valore della categoria 1. Nel caso di n osservazioni indipendenti, la probabilità di x successi per la categoria 1 è P(x) = n! x!(n x)! πx (1 π) n x, x = 0,1,2,...,n. Il simbolo n! è chiamato n fattoriale. Rappresenta n! = n. Ad esempio, 1! = 1, 2! = 1 2 = 2, 3! = = 6, e così via. Per definizione, 0! è pari a 1. Sostituendo ad x il valore del numero di successi desiderato per n e π fissati, si avrà la P(x), cioè la probabilità di avere x successi in n lanci della moneta Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 5 / 54
23 Definizione: Probabilità per una Distribuzione Binomiale Sia π la probabilità che un osservazione assuma un valore della categoria 1. Nel caso di n osservazioni indipendenti, la probabilità di x successi per la categoria 1 è P(x) = n! x!(n x)! πx (1 π) n x, x = 0,1,2,...,n. Il simbolo n! è chiamato n fattoriale. Rappresenta n! = n. Ad esempio, 1! = 1, 2! = 1 2 = 2, 3! = = 6, e così via. Per definizione, 0! è pari a 1. Sostituendo ad x il valore del numero di successi desiderato per n e π fissati, si avrà la P(x), cioè la probabilità di avere x successi in n lanci della moneta Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 5 / 54
24 Definizione: Probabilità per una Distribuzione Binomiale Sia π la probabilità che un osservazione assuma un valore della categoria 1. Nel caso di n osservazioni indipendenti, la probabilità di x successi per la categoria 1 è P(x) = n! x!(n x)! πx (1 π) n x, x = 0,1,2,...,n. Il simbolo n! è chiamato n fattoriale. Rappresenta n! = n. Ad esempio, 1! = 1, 2! = 1 2 = 2, 3! = = 6, e così via. Per definizione, 0! è pari a 1. Sostituendo ad x il valore del numero di successi desiderato per n e π fissati, si avrà la P(x), cioè la probabilità di avere x successi in n lanci della moneta Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 5 / 54
25 Proprietà di una distribuzione binomiale Proprietà di una distribuzione binomiale La distribuzione binomiale tende alla simmetria per π 0.50 ed è perfettamente simmetrica quando π = 0.50 con µ = nπ, σ = nπ(1 π). Ciò vale anche per la distribuzione campionaria di ˆπ Inoltre tale comportamento si ha anche per valori di π vicini a 0 o a 1, ma molto più lentamente Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 6 / 54
26 Proprietà di una distribuzione binomiale Proprietà di una distribuzione binomiale La distribuzione binomiale tende alla simmetria per π 0.50 ed è perfettamente simmetrica quando π = 0.50 con µ = nπ, σ = nπ(1 π). Ciò vale anche per la distribuzione campionaria di ˆπ Inoltre tale comportamento si ha anche per valori di π vicini a 0 o a 1, ma molto più lentamente Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 6 / 54
27 Proprietà di una distribuzione binomiale Proprietà di una distribuzione binomiale La distribuzione binomiale tende alla simmetria per π 0.50 ed è perfettamente simmetrica quando π = 0.50 con µ = nπ, σ = nπ(1 π). Ciò vale anche per la distribuzione campionaria di ˆπ Inoltre tale comportamento si ha anche per valori di π vicini a 0 o a 1, ma molto più lentamente Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 6 / 54
28 Proprietà di una distribuzione binomiale Proprietà di una distribuzione binomiale La distribuzione binomiale tende alla simmetria per π 0.50 ed è perfettamente simmetrica quando π = 0.50 con µ = nπ, σ = nπ(1 π). Ciò vale anche per la distribuzione campionaria di ˆπ Inoltre tale comportamento si ha anche per valori di π vicini a 0 o a 1, ma molto più lentamente Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 6 / 54
29 Proprietà di una distribuzione binomiale Distribuzione campionaria di ˆπ per vari valori di π e n Probability n 10 Probability p.1 p p.1 Probability pˆ 1.0 n 50 Probability 0 p pˆ p.1 p.5 pˆ p.1 n 100 Probability 0 p.5 Probability pˆ 1.0 p.1 p.5 pˆ p.1 p.5 pˆ 1.0 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 7 / 54
30 Proprietà di una distribuzione binomiale Distribuzione campionaria di ˆπ per vari valori di π e n Probability n 10 Probability p.1 p p.1 Probability pˆ 1.0 n 50 Probability 0 p pˆ p.1 p.5 pˆ p.1 n 100 Probability 0 p.5 Probability pˆ 1.0 p.1 p.5 pˆ p.1 p.5 pˆ 1.0 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 7 / 54
31 Proprietà di una distribuzione binomiale Esempio 6.10 Genere e scelta degli allievi per il corso di management Nell Esempio 6.1 avevamo trattato il caso di una popolazione di dipendenti per metà M e metà F Scelti a caso n = 10 dipendenti, sia x il numero di F e π = 0.50 la probabilità di scegliere una F La probabilità di avere x F scegliendo n = 10 dipendenti è P(x) = 10! x!(10 x)! (0.50)x (0.50) 10 x, x = 0,1,...,10. Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 8 / 54
32 Proprietà di una distribuzione binomiale Esempio 6.10 Genere e scelta degli allievi per il corso di management Nell Esempio 6.1 avevamo trattato il caso di una popolazione di dipendenti per metà M e metà F Scelti a caso n = 10 dipendenti, sia x il numero di F e π = 0.50 la probabilità di scegliere una F La probabilità di avere x F scegliendo n = 10 dipendenti è P(x) = 10! x!(10 x)! (0.50)x (0.50) 10 x, x = 0,1,...,10. Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 8 / 54
33 Proprietà di una distribuzione binomiale Esempio 6.10 Genere e scelta degli allievi per il corso di management Nell Esempio 6.1 avevamo trattato il caso di una popolazione di dipendenti per metà M e metà F Scelti a caso n = 10 dipendenti, sia x il numero di F e π = 0.50 la probabilità di scegliere una F La probabilità di avere x F scegliendo n = 10 dipendenti è P(x) = 10! x!(10 x)! (0.50)x (0.50) 10 x, x = 0,1,...,10. Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 8 / 54
34 Proprietà di una distribuzione binomiale Esempio 6.10 Genere e scelta degli allievi per il corso di management Nell Esempio 6.1 avevamo trattato il caso di una popolazione di dipendenti per metà M e metà F Scelti a caso n = 10 dipendenti, sia x il numero di F e π = 0.50 la probabilità di scegliere una F La probabilità di avere x F scegliendo n = 10 dipendenti è P(x) = 10! x!(10 x)! (0.50)x (0.50) 10 x, x = 0,1,...,10. Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 8 / 54
35 Proprietà di una distribuzione binomiale Ad esempio, la probabilità di non avere nessuna F (x = 0) è P(0) = 10! 0!10! (0.50)0 (0.50) 10 = (0.50) 10 = La probabilità che sia scelta esattamente una femmina è pari a P(1) = 10! 1!9! (0.50)1 (0.50) 9 = 10(0.50)(0.50) 9 = Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 9 / 54
36 Proprietà di una distribuzione binomiale Ad esempio, la probabilità di non avere nessuna F (x = 0) è P(0) = 10! 0!10! (0.50)0 (0.50) 10 = (0.50) 10 = La probabilità che sia scelta esattamente una femmina è pari a P(1) = 10! 1!9! (0.50)1 (0.50) 9 = 10(0.50)(0.50) 9 = Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 9 / 54
37 Proprietà di una distribuzione binomiale Modello a Probabilità Lineare Nel caso di un modello con una sola variabile esplicativa (che sarà continua) avremo P(y = 1) = α+βx In questo caso si suppone che la probabilità di successo sia in funzione lineare con X Per questa ragione prende il nome di Modello a Probabilità Lineare Tuttavia è facile mostrare come tale modello sia inadeguato per prevedere la P(y = 1) Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 10 / 54
38 Proprietà di una distribuzione binomiale Modello a Probabilità Lineare Nel caso di un modello con una sola variabile esplicativa (che sarà continua) avremo P(y = 1) = α+βx In questo caso si suppone che la probabilità di successo sia in funzione lineare con X Per questa ragione prende il nome di Modello a Probabilità Lineare Tuttavia è facile mostrare come tale modello sia inadeguato per prevedere la P(y = 1) Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 10 / 54
39 Proprietà di una distribuzione binomiale Modello a Probabilità Lineare Nel caso di un modello con una sola variabile esplicativa (che sarà continua) avremo P(y = 1) = α+βx In questo caso si suppone che la probabilità di successo sia in funzione lineare con X Per questa ragione prende il nome di Modello a Probabilità Lineare Tuttavia è facile mostrare come tale modello sia inadeguato per prevedere la P(y = 1) Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 10 / 54
40 Proprietà di una distribuzione binomiale Modello a Probabilità Lineare Nel caso di un modello con una sola variabile esplicativa (che sarà continua) avremo P(y = 1) = α+βx In questo caso si suppone che la probabilità di successo sia in funzione lineare con X Per questa ragione prende il nome di Modello a Probabilità Lineare Tuttavia è facile mostrare come tale modello sia inadeguato per prevedere la P(y = 1) Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 10 / 54
41 Proprietà di una distribuzione binomiale Sappiamo che la P(y = 1) è un valore dell intevallo [0,1] e non eccede tale intervallo La figura mostra che il Modello a Probabilità Lineare non rispetta questa condizione P(y 1) 1 Logistic (1) Linear Logistic (2) 0 x Al contrario, la funzione logistica (casi 1 e 2), si dimostra adatta allo scopo A questo punto il problema è: come faccio a linearizzare una funzione logistica? Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 11 / 54
42 Proprietà di una distribuzione binomiale Sappiamo che la P(y = 1) è un valore dell intevallo [0,1] e non eccede tale intervallo La figura mostra che il Modello a Probabilità Lineare non rispetta questa condizione P(y 1) 1 Logistic (1) Linear Logistic (2) 0 x Al contrario, la funzione logistica (casi 1 e 2), si dimostra adatta allo scopo A questo punto il problema è: come faccio a linearizzare una funzione logistica? Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 11 / 54
43 Proprietà di una distribuzione binomiale Sappiamo che la P(y = 1) è un valore dell intevallo [0,1] e non eccede tale intervallo La figura mostra che il Modello a Probabilità Lineare non rispetta questa condizione P(y 1) 1 Logistic (1) Linear Logistic (2) 0 x Al contrario, la funzione logistica (casi 1 e 2), si dimostra adatta allo scopo A questo punto il problema è: come faccio a linearizzare una funzione logistica? Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 11 / 54
44 Il Modello di Regressione Logistica per Risposte Binarie Il Modello di Regressione Logistica per Risposte Binarie In primo luogo scriviamo l equazione di regressione di Y su X, utilizzando la funzione logistica P(y = 1) = eα+βx 1+e α+βx. In seguito riprenderemo questa formulazione. Per ora ci basti osservare come la relazione tra Y e X non sia lineare, bensì logistica Per semplificare la notazione e ottenere risultati più semplici, linearizziamo questa espressione Il modo più semplice è passare al logaritmo naturale (base e) ambo i membri dell equazione e otteniamo log[p(y = 1)] = log(e α+βx ) log(1+e α+βx ) = = log(e α+βx ) 0 log(e α+βx ) = 0 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 12 / 54
45 Il Modello di Regressione Logistica per Risposte Binarie Il Modello di Regressione Logistica per Risposte Binarie In primo luogo scriviamo l equazione di regressione di Y su X, utilizzando la funzione logistica P(y = 1) = eα+βx 1+e α+βx. In seguito riprenderemo questa formulazione. Per ora ci basti osservare come la relazione tra Y e X non sia lineare, bensì logistica Per semplificare la notazione e ottenere risultati più semplici, linearizziamo questa espressione Il modo più semplice è passare al logaritmo naturale (base e) ambo i membri dell equazione e otteniamo log[p(y = 1)] = log(e α+βx ) log(1+e α+βx ) = = log(e α+βx ) 0 log(e α+βx ) = 0 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 12 / 54
46 Il Modello di Regressione Logistica per Risposte Binarie Il Modello di Regressione Logistica per Risposte Binarie In primo luogo scriviamo l equazione di regressione di Y su X, utilizzando la funzione logistica P(y = 1) = eα+βx 1+e α+βx. In seguito riprenderemo questa formulazione. Per ora ci basti osservare come la relazione tra Y e X non sia lineare, bensì logistica Per semplificare la notazione e ottenere risultati più semplici, linearizziamo questa espressione Il modo più semplice è passare al logaritmo naturale (base e) ambo i membri dell equazione e otteniamo log[p(y = 1)] = log(e α+βx ) log(1+e α+βx ) = = log(e α+βx ) 0 log(e α+βx ) = 0 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 12 / 54
47 Il Modello di Regressione Logistica per Risposte Binarie Il Modello di Regressione Logistica per Risposte Binarie In primo luogo scriviamo l equazione di regressione di Y su X, utilizzando la funzione logistica P(y = 1) = eα+βx 1+e α+βx. In seguito riprenderemo questa formulazione. Per ora ci basti osservare come la relazione tra Y e X non sia lineare, bensì logistica Per semplificare la notazione e ottenere risultati più semplici, linearizziamo questa espressione Il modo più semplice è passare al logaritmo naturale (base e) ambo i membri dell equazione e otteniamo log[p(y = 1)] = log(e α+βx ) log(1+e α+βx ) = = log(e α+βx ) 0 log(e α+βx ) = 0 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 12 / 54
48 Il Modello di Regressione Logistica per Risposte Binarie Per risolvere il problema, si costruisce il rapporto tra la probabilità di successo e la probabilità di insuccesso e lo si passa al logaritmo [ ] P(y = 1) log = α+βx. 1 P(y = 1) Il rapporto di probabilità P(y = 1)/[1 P(y = 1)] è definito odds o rapporto tra quote Ad es., se P(y = 1) = 0.75, l odds vale 0.75/0.25= 3.0, cioè la probabilità del successo è 3 volte il valore di quella dell insuccesso La quantità log [P(y = 1)/(1 P(y = 1))] trasformazione logistica o logit In tal modo si avrà il modello di regressione logistica logit[p(y = 1)] = α+βx. Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 13 / 54
49 Il Modello di Regressione Logistica per Risposte Binarie Per risolvere il problema, si costruisce il rapporto tra la probabilità di successo e la probabilità di insuccesso e lo si passa al logaritmo [ ] P(y = 1) log = α+βx. 1 P(y = 1) Il rapporto di probabilità P(y = 1)/[1 P(y = 1)] è definito odds o rapporto tra quote Ad es., se P(y = 1) = 0.75, l odds vale 0.75/0.25= 3.0, cioè la probabilità del successo è 3 volte il valore di quella dell insuccesso La quantità log [P(y = 1)/(1 P(y = 1))] trasformazione logistica o logit In tal modo si avrà il modello di regressione logistica logit[p(y = 1)] = α+βx. Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 13 / 54
50 Il Modello di Regressione Logistica per Risposte Binarie Per risolvere il problema, si costruisce il rapporto tra la probabilità di successo e la probabilità di insuccesso e lo si passa al logaritmo [ ] P(y = 1) log = α+βx. 1 P(y = 1) Il rapporto di probabilità P(y = 1)/[1 P(y = 1)] è definito odds o rapporto tra quote Ad es., se P(y = 1) = 0.75, l odds vale 0.75/0.25= 3.0, cioè la probabilità del successo è 3 volte il valore di quella dell insuccesso La quantità log [P(y = 1)/(1 P(y = 1))] trasformazione logistica o logit In tal modo si avrà il modello di regressione logistica logit[p(y = 1)] = α+βx. Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 13 / 54
51 Il Modello di Regressione Logistica per Risposte Binarie Per risolvere il problema, si costruisce il rapporto tra la probabilità di successo e la probabilità di insuccesso e lo si passa al logaritmo [ ] P(y = 1) log = α+βx. 1 P(y = 1) Il rapporto di probabilità P(y = 1)/[1 P(y = 1)] è definito odds o rapporto tra quote Ad es., se P(y = 1) = 0.75, l odds vale 0.75/0.25= 3.0, cioè la probabilità del successo è 3 volte il valore di quella dell insuccesso La quantità log [P(y = 1)/(1 P(y = 1))] trasformazione logistica o logit In tal modo si avrà il modello di regressione logistica logit[p(y = 1)] = α+βx. Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 13 / 54
52 Il Modello di Regressione Logistica per Risposte Binarie Per risolvere il problema, si costruisce il rapporto tra la probabilità di successo e la probabilità di insuccesso e lo si passa al logaritmo [ ] P(y = 1) log = α+βx. 1 P(y = 1) Il rapporto di probabilità P(y = 1)/[1 P(y = 1)] è definito odds o rapporto tra quote Ad es., se P(y = 1) = 0.75, l odds vale 0.75/0.25= 3.0, cioè la probabilità del successo è 3 volte il valore di quella dell insuccesso La quantità log [P(y = 1)/(1 P(y = 1))] trasformazione logistica o logit In tal modo si avrà il modello di regressione logistica logit[p(y = 1)] = α+βx. Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 13 / 54
53 Il Modello di Regressione Logistica per Risposte Binarie Interpretazione del parametro β Il logit[p(y = 1)] varia linearmente in funzione di X oltre l intervallo [0, 1], mentre la [P(y = 1)] varia seguendo la funzione logistica entro l intervallo [0,1] Il valore di β indica se la [P(y = 1)] cresce (β > 0) o decresce (β < 0) al crescere di X Nelle due curve del grafico, la (2) ha un β più grande di quello della curva (1) P(y 1) 1 Logistic (1) Linear Logistic (2) 0 x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 14 / 54
54 Il Modello di Regressione Logistica per Risposte Binarie Interpretazione del parametro β Il logit[p(y = 1)] varia linearmente in funzione di X oltre l intervallo [0, 1], mentre la [P(y = 1)] varia seguendo la funzione logistica entro l intervallo [0,1] Il valore di β indica se la [P(y = 1)] cresce (β > 0) o decresce (β < 0) al crescere di X Nelle due curve del grafico, la (2) ha un β più grande di quello della curva (1) P(y 1) 1 Logistic (1) Linear Logistic (2) 0 x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 14 / 54
55 Il Modello di Regressione Logistica per Risposte Binarie Interpretazione del parametro β Il logit[p(y = 1)] varia linearmente in funzione di X oltre l intervallo [0, 1], mentre la [P(y = 1)] varia seguendo la funzione logistica entro l intervallo [0,1] Il valore di β indica se la [P(y = 1)] cresce (β > 0) o decresce (β < 0) al crescere di X Nelle due curve del grafico, la (2) ha un β più grande di quello della curva (1) P(y 1) 1 Logistic (1) Linear Logistic (2) 0 x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 14 / 54
56 Il Modello di Regressione Logistica per Risposte Binarie Interpretazione del parametro β Quando P(y = 1) = 0.50, l odds P(y = 1)/[1 P(y = 1)] = 1, conseguentemente il log[p(y = 1)/(1 P(y = 1))] = 0 Per determinare il valore di x per il quale P(y = 1) = 0.50, eguagliamo il log(odds) pari a 0 al secondo membro dell equazione del modello α+βx Risolvendo per x otteniamo P(y = 1) = 0.50 quando x = α/β In questo modo siamo in grado di determinare il valore di X per il quale la probabilità di successo eguaglia quella di insuccesso Le stime dei parametri α e β sono ottenute applicando il Metodo della Massima Verosimiglianza e non quello dei Minimi Quadrati Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 15 / 54
57 Il Modello di Regressione Logistica per Risposte Binarie Interpretazione del parametro β Quando P(y = 1) = 0.50, l odds P(y = 1)/[1 P(y = 1)] = 1, conseguentemente il log[p(y = 1)/(1 P(y = 1))] = 0 Per determinare il valore di x per il quale P(y = 1) = 0.50, eguagliamo il log(odds) pari a 0 al secondo membro dell equazione del modello α+βx Risolvendo per x otteniamo P(y = 1) = 0.50 quando x = α/β In questo modo siamo in grado di determinare il valore di X per il quale la probabilità di successo eguaglia quella di insuccesso Le stime dei parametri α e β sono ottenute applicando il Metodo della Massima Verosimiglianza e non quello dei Minimi Quadrati Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 15 / 54
58 Il Modello di Regressione Logistica per Risposte Binarie Interpretazione del parametro β Quando P(y = 1) = 0.50, l odds P(y = 1)/[1 P(y = 1)] = 1, conseguentemente il log[p(y = 1)/(1 P(y = 1))] = 0 Per determinare il valore di x per il quale P(y = 1) = 0.50, eguagliamo il log(odds) pari a 0 al secondo membro dell equazione del modello α+βx Risolvendo per x otteniamo P(y = 1) = 0.50 quando x = α/β In questo modo siamo in grado di determinare il valore di X per il quale la probabilità di successo eguaglia quella di insuccesso Le stime dei parametri α e β sono ottenute applicando il Metodo della Massima Verosimiglianza e non quello dei Minimi Quadrati Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 15 / 54
59 Il Modello di Regressione Logistica per Risposte Binarie Interpretazione del parametro β Quando P(y = 1) = 0.50, l odds P(y = 1)/[1 P(y = 1)] = 1, conseguentemente il log[p(y = 1)/(1 P(y = 1))] = 0 Per determinare il valore di x per il quale P(y = 1) = 0.50, eguagliamo il log(odds) pari a 0 al secondo membro dell equazione del modello α+βx Risolvendo per x otteniamo P(y = 1) = 0.50 quando x = α/β In questo modo siamo in grado di determinare il valore di X per il quale la probabilità di successo eguaglia quella di insuccesso Le stime dei parametri α e β sono ottenute applicando il Metodo della Massima Verosimiglianza e non quello dei Minimi Quadrati Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 15 / 54
60 Il Modello di Regressione Logistica per Risposte Binarie Interpretazione del parametro β Quando P(y = 1) = 0.50, l odds P(y = 1)/[1 P(y = 1)] = 1, conseguentemente il log[p(y = 1)/(1 P(y = 1))] = 0 Per determinare il valore di x per il quale P(y = 1) = 0.50, eguagliamo il log(odds) pari a 0 al secondo membro dell equazione del modello α+βx Risolvendo per x otteniamo P(y = 1) = 0.50 quando x = α/β In questo modo siamo in grado di determinare il valore di X per il quale la probabilità di successo eguaglia quella di insuccesso Le stime dei parametri α e β sono ottenute applicando il Metodo della Massima Verosimiglianza e non quello dei Minimi Quadrati Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 15 / 54
61 Il Modello di Regressione Logistica per Risposte Binarie Esempio 15.1 Reddito e Possesso delle Carte di Credito Si consideri un campione di n = 100 adulti selezionati casualmente in Italia. Si è rilevato il reddito annuale e se possedevano o meno una carta di credito La variabile risposta è dicotomica (possesso CC: 1 = Sì, 0 = No). Il predittore è quantitativo A ciascun livello di X, si può calcolare la probabilità di possedere una CC, attraverso il rapporto tra i soggetti che posseggono una CC e il totale soggetti per quel valore di X Tabella: Reddito Annuale (in Migliaia di Euro) e Possesso di una Carta di Credito. Number Credit Number Credit Number Credit Income Cases Cards Income Cases Cards Income Cases Cards Fonte: Si ringrazia R. Piccarreta, Università Bocconi University, Milano. Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 16 / 54
62 Il Modello di Regressione Logistica per Risposte Binarie Esempio 15.1 Reddito e Possesso delle Carte di Credito Si consideri un campione di n = 100 adulti selezionati casualmente in Italia. Si è rilevato il reddito annuale e se possedevano o meno una carta di credito La variabile risposta è dicotomica (possesso CC: 1 = Sì, 0 = No). Il predittore è quantitativo A ciascun livello di X, si può calcolare la probabilità di possedere una CC, attraverso il rapporto tra i soggetti che posseggono una CC e il totale soggetti per quel valore di X Tabella: Reddito Annuale (in Migliaia di Euro) e Possesso di una Carta di Credito. Number Credit Number Credit Number Credit Income Cases Cards Income Cases Cards Income Cases Cards Fonte: Si ringrazia R. Piccarreta, Università Bocconi University, Milano. Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 16 / 54
63 Il Modello di Regressione Logistica per Risposte Binarie Esempio 15.1 Reddito e Possesso delle Carte di Credito Si consideri un campione di n = 100 adulti selezionati casualmente in Italia. Si è rilevato il reddito annuale e se possedevano o meno una carta di credito La variabile risposta è dicotomica (possesso CC: 1 = Sì, 0 = No). Il predittore è quantitativo A ciascun livello di X, si può calcolare la probabilità di possedere una CC, attraverso il rapporto tra i soggetti che posseggono una CC e il totale soggetti per quel valore di X Tabella: Reddito Annuale (in Migliaia di Euro) e Possesso di una Carta di Credito. Number Credit Number Credit Number Credit Income Cases Cards Income Cases Cards Income Cases Cards Fonte: Si ringrazia R. Piccarreta, Università Bocconi University, Milano. Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 16 / 54
64 Il Modello di Regressione Logistica per Risposte Binarie Il modello stimato è logit[ˆp(y = 1)] = x. Il valore di β = > 0, indica che al crescere del Reddito Annuale cresce la probabilità di possedere una CC Il software fornisce il seguente prospetto Tabella: Modello di Regressione Logistica sul Possesso della Carta di Credito in Italia B S.E. Exp(B) reddito costante Il valore exp(b) = exp(.1054) = consente di calcolare l odds ratio (OR) Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 17 / 54
65 Il Modello di Regressione Logistica per Risposte Binarie Il modello stimato è logit[ˆp(y = 1)] = x. Il valore di β = > 0, indica che al crescere del Reddito Annuale cresce la probabilità di possedere una CC Il software fornisce il seguente prospetto Tabella: Modello di Regressione Logistica sul Possesso della Carta di Credito in Italia B S.E. Exp(B) reddito costante Il valore exp(b) = exp(.1054) = consente di calcolare l odds ratio (OR) Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 17 / 54
66 Il Modello di Regressione Logistica per Risposte Binarie Il modello stimato è logit[ˆp(y = 1)] = x. Il valore di β = > 0, indica che al crescere del Reddito Annuale cresce la probabilità di possedere una CC Il software fornisce il seguente prospetto Tabella: Modello di Regressione Logistica sul Possesso della Carta di Credito in Italia B S.E. Exp(B) reddito costante Il valore exp(b) = exp(.1054) = consente di calcolare l odds ratio (OR) Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 17 / 54
67 Il Modello di Regressione Logistica per Risposte Binarie Il modello stimato è logit[ˆp(y = 1)] = x. Il valore di β = > 0, indica che al crescere del Reddito Annuale cresce la probabilità di possedere una CC Il software fornisce il seguente prospetto Tabella: Modello di Regressione Logistica sul Possesso della Carta di Credito in Italia B S.E. Exp(B) reddito costante Il valore exp(b) = exp(.1054) = consente di calcolare l odds ratio (OR) Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 17 / 54
68 Il Modello di Regressione Logistica per Risposte Binarie Il grafico mostra la funzione di previsione per il logit 1 P(y ˆ 1) 0 Income La probabilità di successo vale 0.50 per x = ˆα/ˆβ = (3.518)/(0.105)= 33.5 Cioè la probabilità stimata di possedere una CC è inferiore a 0.50 per redditi inferiori a 33.5 migliaia di euro, superiore a 0.50 per redditi superiori a quella soglia Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 18 / 54
69 Il Modello di Regressione Logistica per Risposte Binarie Il grafico mostra la funzione di previsione per il logit 1 P(y ˆ 1) 0 Income La probabilità di successo vale 0.50 per x = ˆα/ˆβ = (3.518)/(0.105)= 33.5 Cioè la probabilità stimata di possedere una CC è inferiore a 0.50 per redditi inferiori a 33.5 migliaia di euro, superiore a 0.50 per redditi superiori a quella soglia Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 18 / 54
70 Il Modello di Regressione Logistica per Risposte Binarie Il grafico mostra la funzione di previsione per il logit 1 P(y ˆ 1) 0 Income La probabilità di successo vale 0.50 per x = ˆα/ˆβ = (3.518)/(0.105)= 33.5 Cioè la probabilità stimata di possedere una CC è inferiore a 0.50 per redditi inferiori a 33.5 migliaia di euro, superiore a 0.50 per redditi superiori a quella soglia Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 18 / 54
71 Il Modello di Regressione Logistica per Risposte Binarie Il grafico mostra la funzione di previsione per il logit 1 P(y ˆ 1) 0 Income La probabilità di successo vale 0.50 per x = ˆα/ˆβ = (3.518)/(0.105)= 33.5 Cioè la probabilità stimata di possedere una CC è inferiore a 0.50 per redditi inferiori a 33.5 migliaia di euro, superiore a 0.50 per redditi superiori a quella soglia Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 18 / 54
72 Il Modello di Regressione Logistica per Risposte Binarie Equazione di Regressione Logistica per le Probabilità Abbiamo visto a cosa corrisponde direttamente la P(y = 1) Si può, quindi, costruire un equazione che stimi direttamente tale probabilità e non il suo logit, cioè P(y = 1) = eα+βx 1+eα+βx. (1) In questa equazione la potenza di e rappresenta l antilogaritmo Ricordiamo che il numero di Nepero e rappresenta la base del logaritmo naturale, cioè il numero a cui bisogna elevare la base per avere l argomento. Ad es., log e (1) = 0 in quanto e 0 = 1 Attraverso la formula (1) è possibile determinare la probabilità di successo per qualunque valore di x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 19 / 54
73 Il Modello di Regressione Logistica per Risposte Binarie Equazione di Regressione Logistica per le Probabilità Abbiamo visto a cosa corrisponde direttamente la P(y = 1) Si può, quindi, costruire un equazione che stimi direttamente tale probabilità e non il suo logit, cioè P(y = 1) = eα+βx 1+eα+βx. (1) In questa equazione la potenza di e rappresenta l antilogaritmo Ricordiamo che il numero di Nepero e rappresenta la base del logaritmo naturale, cioè il numero a cui bisogna elevare la base per avere l argomento. Ad es., log e (1) = 0 in quanto e 0 = 1 Attraverso la formula (1) è possibile determinare la probabilità di successo per qualunque valore di x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 19 / 54
74 Il Modello di Regressione Logistica per Risposte Binarie Equazione di Regressione Logistica per le Probabilità Abbiamo visto a cosa corrisponde direttamente la P(y = 1) Si può, quindi, costruire un equazione che stimi direttamente tale probabilità e non il suo logit, cioè P(y = 1) = eα+βx 1+eα+βx. (1) In questa equazione la potenza di e rappresenta l antilogaritmo Ricordiamo che il numero di Nepero e rappresenta la base del logaritmo naturale, cioè il numero a cui bisogna elevare la base per avere l argomento. Ad es., log e (1) = 0 in quanto e 0 = 1 Attraverso la formula (1) è possibile determinare la probabilità di successo per qualunque valore di x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 19 / 54
75 Il Modello di Regressione Logistica per Risposte Binarie Equazione di Regressione Logistica per le Probabilità Abbiamo visto a cosa corrisponde direttamente la P(y = 1) Si può, quindi, costruire un equazione che stimi direttamente tale probabilità e non il suo logit, cioè P(y = 1) = eα+βx 1+eα+βx. (1) In questa equazione la potenza di e rappresenta l antilogaritmo Ricordiamo che il numero di Nepero e rappresenta la base del logaritmo naturale, cioè il numero a cui bisogna elevare la base per avere l argomento. Ad es., log e (1) = 0 in quanto e 0 = 1 Attraverso la formula (1) è possibile determinare la probabilità di successo per qualunque valore di x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 19 / 54
76 Il Modello di Regressione Logistica per Risposte Binarie Equazione di Regressione Logistica per le Probabilità Abbiamo visto a cosa corrisponde direttamente la P(y = 1) Si può, quindi, costruire un equazione che stimi direttamente tale probabilità e non il suo logit, cioè P(y = 1) = eα+βx 1+eα+βx. (1) In questa equazione la potenza di e rappresenta l antilogaritmo Ricordiamo che il numero di Nepero e rappresenta la base del logaritmo naturale, cioè il numero a cui bisogna elevare la base per avere l argomento. Ad es., log e (1) = 0 in quanto e 0 = 1 Attraverso la formula (1) è possibile determinare la probabilità di successo per qualunque valore di x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 19 / 54
77 Il Modello di Regressione Logistica per Risposte Binarie Equazione di Regressione Logistica per le Probabilità Abbiamo visto a cosa corrisponde direttamente la P(y = 1) Si può, quindi, costruire un equazione che stimi direttamente tale probabilità e non il suo logit, cioè P(y = 1) = eα+βx 1+eα+βx. (1) In questa equazione la potenza di e rappresenta l antilogaritmo Ricordiamo che il numero di Nepero e rappresenta la base del logaritmo naturale, cioè il numero a cui bisogna elevare la base per avere l argomento. Ad es., log e (1) = 0 in quanto e 0 = 1 Attraverso la formula (1) è possibile determinare la probabilità di successo per qualunque valore di x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 19 / 54
78 Il Modello di Regressione Logistica per Risposte Binarie Nel nostro caso, per un soggetto con Reddito Annuale x = 12 avremo ˆP(y = 1) = e (12) 1+e (12) = e 2.26 La probabilità stimata di possedere una CC è = 1+e = Per redditi pari a x = 40 e x = 65 avremo, rispettivamente ˆP(y = 1) = e (40) 1+e ˆP(y = 1) = e (65) 1+e (40) = e (65) = e = 1+e = = 1+e = In pratica chi ha un reddito di x = 40 ha una probabilità di possedere una CC pari a Per chi ha un reddito pari a x = 65, tale probabilità è Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 20 / 54
79 Il Modello di Regressione Logistica per Risposte Binarie Nel nostro caso, per un soggetto con Reddito Annuale x = 12 avremo ˆP(y = 1) = e (12) 1+e (12) = e 2.26 La probabilità stimata di possedere una CC è = 1+e = Per redditi pari a x = 40 e x = 65 avremo, rispettivamente ˆP(y = 1) = e (40) 1+e ˆP(y = 1) = e (65) 1+e (40) = e (65) = e = 1+e = = 1+e = In pratica chi ha un reddito di x = 40 ha una probabilità di possedere una CC pari a Per chi ha un reddito pari a x = 65, tale probabilità è Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 20 / 54
80 Il Modello di Regressione Logistica per Risposte Binarie Nel nostro caso, per un soggetto con Reddito Annuale x = 12 avremo ˆP(y = 1) = e (12) 1+e (12) = e 2.26 La probabilità stimata di possedere una CC è = 1+e = Per redditi pari a x = 40 e x = 65 avremo, rispettivamente ˆP(y = 1) = e (40) 1+e ˆP(y = 1) = e (65) 1+e (40) = e (65) = e = 1+e = = 1+e = In pratica chi ha un reddito di x = 40 ha una probabilità di possedere una CC pari a Per chi ha un reddito pari a x = 65, tale probabilità è Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 20 / 54
81 Il Modello di Regressione Logistica per Risposte Binarie Nel nostro caso, per un soggetto con Reddito Annuale x = 12 avremo ˆP(y = 1) = e (12) 1+e (12) = e 2.26 La probabilità stimata di possedere una CC è = 1+e = Per redditi pari a x = 40 e x = 65 avremo, rispettivamente ˆP(y = 1) = e (40) 1+e ˆP(y = 1) = e (65) 1+e (40) = e (65) = e = 1+e = = 1+e = In pratica chi ha un reddito di x = 40 ha una probabilità di possedere una CC pari a Per chi ha un reddito pari a x = 65, tale probabilità è Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 20 / 54
82 Interpretazione del Modello di Regressione Logistica Interpretazione del Modello di Regressione Logistica L interpretazione di β non è semplice. Presenteremo due approcci distinti Abbiamo visto come il suo segno ci segnala una crescita (β > 0) o un decremento β < 0 nella P(Y = 1), all aumentare di x Tuttavia non siamo in grado di dire di quanto cresce/descresce P(Y = 1) Tale difficoltà deriva dalla particolare forma a S della funzione logistica Solo nel caso del Modello a Probabilità Lineare, β viene interpretato come nel Modello di Regressione Lineare. Tuttavia abbiamo già visto che il MPL non è adeguato Un adeguata interpretazione di β si ottiene sfruttando il concetto di tangente della funzione logistica. Infatti solo in questo modo siamo in grado di capire di quanto cresce/descesce la P(Y = 1) per ogni valore di x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 21 / 54
83 Interpretazione del Modello di Regressione Logistica Interpretazione del Modello di Regressione Logistica L interpretazione di β non è semplice. Presenteremo due approcci distinti Abbiamo visto come il suo segno ci segnala una crescita (β > 0) o un decremento β < 0 nella P(Y = 1), all aumentare di x Tuttavia non siamo in grado di dire di quanto cresce/descresce P(Y = 1) Tale difficoltà deriva dalla particolare forma a S della funzione logistica Solo nel caso del Modello a Probabilità Lineare, β viene interpretato come nel Modello di Regressione Lineare. Tuttavia abbiamo già visto che il MPL non è adeguato Un adeguata interpretazione di β si ottiene sfruttando il concetto di tangente della funzione logistica. Infatti solo in questo modo siamo in grado di capire di quanto cresce/descesce la P(Y = 1) per ogni valore di x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 21 / 54
84 Interpretazione del Modello di Regressione Logistica Interpretazione del Modello di Regressione Logistica L interpretazione di β non è semplice. Presenteremo due approcci distinti Abbiamo visto come il suo segno ci segnala una crescita (β > 0) o un decremento β < 0 nella P(Y = 1), all aumentare di x Tuttavia non siamo in grado di dire di quanto cresce/descresce P(Y = 1) Tale difficoltà deriva dalla particolare forma a S della funzione logistica Solo nel caso del Modello a Probabilità Lineare, β viene interpretato come nel Modello di Regressione Lineare. Tuttavia abbiamo già visto che il MPL non è adeguato Un adeguata interpretazione di β si ottiene sfruttando il concetto di tangente della funzione logistica. Infatti solo in questo modo siamo in grado di capire di quanto cresce/descesce la P(Y = 1) per ogni valore di x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 21 / 54
85 Interpretazione del Modello di Regressione Logistica Interpretazione del Modello di Regressione Logistica L interpretazione di β non è semplice. Presenteremo due approcci distinti Abbiamo visto come il suo segno ci segnala una crescita (β > 0) o un decremento β < 0 nella P(Y = 1), all aumentare di x Tuttavia non siamo in grado di dire di quanto cresce/descresce P(Y = 1) Tale difficoltà deriva dalla particolare forma a S della funzione logistica Solo nel caso del Modello a Probabilità Lineare, β viene interpretato come nel Modello di Regressione Lineare. Tuttavia abbiamo già visto che il MPL non è adeguato Un adeguata interpretazione di β si ottiene sfruttando il concetto di tangente della funzione logistica. Infatti solo in questo modo siamo in grado di capire di quanto cresce/descesce la P(Y = 1) per ogni valore di x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 21 / 54
86 Interpretazione del Modello di Regressione Logistica Interpretazione del Modello di Regressione Logistica L interpretazione di β non è semplice. Presenteremo due approcci distinti Abbiamo visto come il suo segno ci segnala una crescita (β > 0) o un decremento β < 0 nella P(Y = 1), all aumentare di x Tuttavia non siamo in grado di dire di quanto cresce/descresce P(Y = 1) Tale difficoltà deriva dalla particolare forma a S della funzione logistica Solo nel caso del Modello a Probabilità Lineare, β viene interpretato come nel Modello di Regressione Lineare. Tuttavia abbiamo già visto che il MPL non è adeguato Un adeguata interpretazione di β si ottiene sfruttando il concetto di tangente della funzione logistica. Infatti solo in questo modo siamo in grado di capire di quanto cresce/descesce la P(Y = 1) per ogni valore di x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 21 / 54
87 Interpretazione del Modello di Regressione Logistica Interpretazione del Modello di Regressione Logistica L interpretazione di β non è semplice. Presenteremo due approcci distinti Abbiamo visto come il suo segno ci segnala una crescita (β > 0) o un decremento β < 0 nella P(Y = 1), all aumentare di x Tuttavia non siamo in grado di dire di quanto cresce/descresce P(Y = 1) Tale difficoltà deriva dalla particolare forma a S della funzione logistica Solo nel caso del Modello a Probabilità Lineare, β viene interpretato come nel Modello di Regressione Lineare. Tuttavia abbiamo già visto che il MPL non è adeguato Un adeguata interpretazione di β si ottiene sfruttando il concetto di tangente della funzione logistica. Infatti solo in questo modo siamo in grado di capire di quanto cresce/descesce la P(Y = 1) per ogni valore di x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 21 / 54
88 Interpretazione del Modello di Regressione Logistica La Figura mostra chiaramente a cosa corrisponde l incremento in P(Y = 1) considerando l inclinazione della tangente pari a βp(y = 1)[1 P(y = 1)] 1 P(y 1) 1 bp(y 1) [1 P(y 1)] 0 Slope bp(y 1) [1 P(y 1)] x L inclinazione β è massima, quando P(y = 1) = 1/2. In questo caso β(1/2)(1/2) = β/4 rappresenta l effetto massimo Così, quando P(y = 1) è prossimo ad 1/2, un quarto dell effetto del parametro β indica di quanto cresce la P(y = 1) in corrispondenza ad un incremento unitario in x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 22 / 54
89 Interpretazione del Modello di Regressione Logistica La Figura mostra chiaramente a cosa corrisponde l incremento in P(Y = 1) considerando l inclinazione della tangente pari a βp(y = 1)[1 P(y = 1)] 1 P(y 1) 1 bp(y 1) [1 P(y 1)] 0 Slope bp(y 1) [1 P(y 1)] x L inclinazione β è massima, quando P(y = 1) = 1/2. In questo caso β(1/2)(1/2) = β/4 rappresenta l effetto massimo Così, quando P(y = 1) è prossimo ad 1/2, un quarto dell effetto del parametro β indica di quanto cresce la P(y = 1) in corrispondenza ad un incremento unitario in x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 22 / 54
90 Interpretazione del Modello di Regressione Logistica La Figura mostra chiaramente a cosa corrisponde l incremento in P(Y = 1) considerando l inclinazione della tangente pari a βp(y = 1)[1 P(y = 1)] 1 P(y 1) 1 bp(y 1) [1 P(y 1)] 0 Slope bp(y 1) [1 P(y 1)] x L inclinazione β è massima, quando P(y = 1) = 1/2. In questo caso β(1/2)(1/2) = β/4 rappresenta l effetto massimo Così, quando P(y = 1) è prossimo ad 1/2, un quarto dell effetto del parametro β indica di quanto cresce la P(y = 1) in corrispondenza ad un incremento unitario in x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 22 / 54
91 Interpretazione del Modello di Regressione Logistica Riprendiamo l esempio sulle Carte di Credito dove ˆβ = In corrispondenza di una probabilità stimata di possesso di una CC pari a ˆP(y = 1) =1/2,la tangente alla logistica ha un inclinazione pari a ˆβ/4 = 0.105/4= Quindi considerando un incremento di 1000 euro al reddito cui corrisponde P(Y = 1)=1/2, la P(Y = 1) cresce di ˆβ/4 = 0.026, cioè il 2,6% L intensità dell effetto di X su Y non sarà la stessa x Ad es., per un valore del reddito pari a x = 25, si ha ˆP(y = 1) = 0.29, da cui ˆβˆP(y = 1)[1 ˆP(y = 1)] = 0.105(0.29)(0.71)= In questo caso la robabilità di possedere una CC cresce del 2.2% Osservando la Figura, si comprende come l effetto di X su Y sia debole per valori bassi o alti di X, più consistente per valori centrali, massima per x = 33.5 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 23 / 54
92 Interpretazione del Modello di Regressione Logistica Riprendiamo l esempio sulle Carte di Credito dove ˆβ = In corrispondenza di una probabilità stimata di possesso di una CC pari a ˆP(y = 1) =1/2,la tangente alla logistica ha un inclinazione pari a ˆβ/4 = 0.105/4= Quindi considerando un incremento di 1000 euro al reddito cui corrisponde P(Y = 1)=1/2, la P(Y = 1) cresce di ˆβ/4 = 0.026, cioè il 2,6% L intensità dell effetto di X su Y non sarà la stessa x Ad es., per un valore del reddito pari a x = 25, si ha ˆP(y = 1) = 0.29, da cui ˆβˆP(y = 1)[1 ˆP(y = 1)] = 0.105(0.29)(0.71)= In questo caso la robabilità di possedere una CC cresce del 2.2% Osservando la Figura, si comprende come l effetto di X su Y sia debole per valori bassi o alti di X, più consistente per valori centrali, massima per x = 33.5 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 23 / 54
93 Interpretazione del Modello di Regressione Logistica Riprendiamo l esempio sulle Carte di Credito dove ˆβ = In corrispondenza di una probabilità stimata di possesso di una CC pari a ˆP(y = 1) =1/2,la tangente alla logistica ha un inclinazione pari a ˆβ/4 = 0.105/4= Quindi considerando un incremento di 1000 euro al reddito cui corrisponde P(Y = 1)=1/2, la P(Y = 1) cresce di ˆβ/4 = 0.026, cioè il 2,6% L intensità dell effetto di X su Y non sarà la stessa x Ad es., per un valore del reddito pari a x = 25, si ha ˆP(y = 1) = 0.29, da cui ˆβˆP(y = 1)[1 ˆP(y = 1)] = 0.105(0.29)(0.71)= In questo caso la robabilità di possedere una CC cresce del 2.2% Osservando la Figura, si comprende come l effetto di X su Y sia debole per valori bassi o alti di X, più consistente per valori centrali, massima per x = 33.5 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 23 / 54
94 Interpretazione del Modello di Regressione Logistica Riprendiamo l esempio sulle Carte di Credito dove ˆβ = In corrispondenza di una probabilità stimata di possesso di una CC pari a ˆP(y = 1) =1/2,la tangente alla logistica ha un inclinazione pari a ˆβ/4 = 0.105/4= Quindi considerando un incremento di 1000 euro al reddito cui corrisponde P(Y = 1)=1/2, la P(Y = 1) cresce di ˆβ/4 = 0.026, cioè il 2,6% L intensità dell effetto di X su Y non sarà la stessa x Ad es., per un valore del reddito pari a x = 25, si ha ˆP(y = 1) = 0.29, da cui ˆβˆP(y = 1)[1 ˆP(y = 1)] = 0.105(0.29)(0.71)= In questo caso la robabilità di possedere una CC cresce del 2.2% Osservando la Figura, si comprende come l effetto di X su Y sia debole per valori bassi o alti di X, più consistente per valori centrali, massima per x = 33.5 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 23 / 54
95 Interpretazione del Modello di Regressione Logistica Riprendiamo l esempio sulle Carte di Credito dove ˆβ = In corrispondenza di una probabilità stimata di possesso di una CC pari a ˆP(y = 1) =1/2,la tangente alla logistica ha un inclinazione pari a ˆβ/4 = 0.105/4= Quindi considerando un incremento di 1000 euro al reddito cui corrisponde P(Y = 1)=1/2, la P(Y = 1) cresce di ˆβ/4 = 0.026, cioè il 2,6% L intensità dell effetto di X su Y non sarà la stessa x Ad es., per un valore del reddito pari a x = 25, si ha ˆP(y = 1) = 0.29, da cui ˆβˆP(y = 1)[1 ˆP(y = 1)] = 0.105(0.29)(0.71)= In questo caso la robabilità di possedere una CC cresce del 2.2% Osservando la Figura, si comprende come l effetto di X su Y sia debole per valori bassi o alti di X, più consistente per valori centrali, massima per x = 33.5 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 23 / 54
96 Interpretazione del Modello di Regressione Logistica Riprendiamo l esempio sulle Carte di Credito dove ˆβ = In corrispondenza di una probabilità stimata di possesso di una CC pari a ˆP(y = 1) =1/2,la tangente alla logistica ha un inclinazione pari a ˆβ/4 = 0.105/4= Quindi considerando un incremento di 1000 euro al reddito cui corrisponde P(Y = 1)=1/2, la P(Y = 1) cresce di ˆβ/4 = 0.026, cioè il 2,6% L intensità dell effetto di X su Y non sarà la stessa x Ad es., per un valore del reddito pari a x = 25, si ha ˆP(y = 1) = 0.29, da cui ˆβˆP(y = 1)[1 ˆP(y = 1)] = 0.105(0.29)(0.71)= In questo caso la robabilità di possedere una CC cresce del 2.2% Osservando la Figura, si comprende come l effetto di X su Y sia debole per valori bassi o alti di X, più consistente per valori centrali, massima per x = 33.5 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 23 / 54
97 Interpretazione del Modello di Regressione Logistica Riprendiamo l esempio sulle Carte di Credito dove ˆβ = In corrispondenza di una probabilità stimata di possesso di una CC pari a ˆP(y = 1) =1/2,la tangente alla logistica ha un inclinazione pari a ˆβ/4 = 0.105/4= Quindi considerando un incremento di 1000 euro al reddito cui corrisponde P(Y = 1)=1/2, la P(Y = 1) cresce di ˆβ/4 = 0.026, cioè il 2,6% L intensità dell effetto di X su Y non sarà la stessa x Ad es., per un valore del reddito pari a x = 25, si ha ˆP(y = 1) = 0.29, da cui ˆβˆP(y = 1)[1 ˆP(y = 1)] = 0.105(0.29)(0.71)= In questo caso la robabilità di possedere una CC cresce del 2.2% Osservando la Figura, si comprende come l effetto di X su Y sia debole per valori bassi o alti di X, più consistente per valori centrali, massima per x = 33.5 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 23 / 54
98 Interpretazione del Modello di Regressione Logistica Ogni software è in grado di stimare il Modello a Probabilità Lineare P(y = 1) = α+βx Nel ns esempio si ha ˆP(y = 1) = x. Sostanzialmente al crescere di 1000 euro, la ˆP(y = 1) cresce di circa 0.02 Ovviamente per valori estremi di X, le stime di ˆP(y = 1) possono eccedere l intervallo [0, 1] Ad es., se x 61 allora ˆP(y = 1) > 1 In alternativa si potrebbero confrontare i valori di ˆP(y = 1) per alcuni valori di x In questo caso, in presenza di un effetto rilevante, abbiamo già visto che la ˆP(y = 1) varia tra 0.09 e 0.97 confrontando i valori estremi di X Come si può ovviare ai problemi mostrati nell interpretare in maniera univoca la stima ˆβ? Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 24 / 54
99 Interpretazione del Modello di Regressione Logistica Ogni software è in grado di stimare il Modello a Probabilità Lineare P(y = 1) = α+βx Nel ns esempio si ha ˆP(y = 1) = x. Sostanzialmente al crescere di 1000 euro, la ˆP(y = 1) cresce di circa 0.02 Ovviamente per valori estremi di X, le stime di ˆP(y = 1) possono eccedere l intervallo [0, 1] Ad es., se x 61 allora ˆP(y = 1) > 1 In alternativa si potrebbero confrontare i valori di ˆP(y = 1) per alcuni valori di x In questo caso, in presenza di un effetto rilevante, abbiamo già visto che la ˆP(y = 1) varia tra 0.09 e 0.97 confrontando i valori estremi di X Come si può ovviare ai problemi mostrati nell interpretare in maniera univoca la stima ˆβ? Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 24 / 54
100 Interpretazione del Modello di Regressione Logistica Ogni software è in grado di stimare il Modello a Probabilità Lineare P(y = 1) = α+βx Nel ns esempio si ha ˆP(y = 1) = x. Sostanzialmente al crescere di 1000 euro, la ˆP(y = 1) cresce di circa 0.02 Ovviamente per valori estremi di X, le stime di ˆP(y = 1) possono eccedere l intervallo [0, 1] Ad es., se x 61 allora ˆP(y = 1) > 1 In alternativa si potrebbero confrontare i valori di ˆP(y = 1) per alcuni valori di x In questo caso, in presenza di un effetto rilevante, abbiamo già visto che la ˆP(y = 1) varia tra 0.09 e 0.97 confrontando i valori estremi di X Come si può ovviare ai problemi mostrati nell interpretare in maniera univoca la stima ˆβ? Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 24 / 54
101 Interpretazione del Modello di Regressione Logistica Ogni software è in grado di stimare il Modello a Probabilità Lineare P(y = 1) = α+βx Nel ns esempio si ha ˆP(y = 1) = x. Sostanzialmente al crescere di 1000 euro, la ˆP(y = 1) cresce di circa 0.02 Ovviamente per valori estremi di X, le stime di ˆP(y = 1) possono eccedere l intervallo [0, 1] Ad es., se x 61 allora ˆP(y = 1) > 1 In alternativa si potrebbero confrontare i valori di ˆP(y = 1) per alcuni valori di x In questo caso, in presenza di un effetto rilevante, abbiamo già visto che la ˆP(y = 1) varia tra 0.09 e 0.97 confrontando i valori estremi di X Come si può ovviare ai problemi mostrati nell interpretare in maniera univoca la stima ˆβ? Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 24 / 54
102 Interpretazione del Modello di Regressione Logistica Ogni software è in grado di stimare il Modello a Probabilità Lineare P(y = 1) = α+βx Nel ns esempio si ha ˆP(y = 1) = x. Sostanzialmente al crescere di 1000 euro, la ˆP(y = 1) cresce di circa 0.02 Ovviamente per valori estremi di X, le stime di ˆP(y = 1) possono eccedere l intervallo [0, 1] Ad es., se x 61 allora ˆP(y = 1) > 1 In alternativa si potrebbero confrontare i valori di ˆP(y = 1) per alcuni valori di x In questo caso, in presenza di un effetto rilevante, abbiamo già visto che la ˆP(y = 1) varia tra 0.09 e 0.97 confrontando i valori estremi di X Come si può ovviare ai problemi mostrati nell interpretare in maniera univoca la stima ˆβ? Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 24 / 54
103 Interpretazione del Modello di Regressione Logistica Ogni software è in grado di stimare il Modello a Probabilità Lineare P(y = 1) = α+βx Nel ns esempio si ha ˆP(y = 1) = x. Sostanzialmente al crescere di 1000 euro, la ˆP(y = 1) cresce di circa 0.02 Ovviamente per valori estremi di X, le stime di ˆP(y = 1) possono eccedere l intervallo [0, 1] Ad es., se x 61 allora ˆP(y = 1) > 1 In alternativa si potrebbero confrontare i valori di ˆP(y = 1) per alcuni valori di x In questo caso, in presenza di un effetto rilevante, abbiamo già visto che la ˆP(y = 1) varia tra 0.09 e 0.97 confrontando i valori estremi di X Come si può ovviare ai problemi mostrati nell interpretare in maniera univoca la stima ˆβ? Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 24 / 54
104 Interpretazione del Modello di Regressione Logistica Ogni software è in grado di stimare il Modello a Probabilità Lineare P(y = 1) = α+βx Nel ns esempio si ha ˆP(y = 1) = x. Sostanzialmente al crescere di 1000 euro, la ˆP(y = 1) cresce di circa 0.02 Ovviamente per valori estremi di X, le stime di ˆP(y = 1) possono eccedere l intervallo [0, 1] Ad es., se x 61 allora ˆP(y = 1) > 1 In alternativa si potrebbero confrontare i valori di ˆP(y = 1) per alcuni valori di x In questo caso, in presenza di un effetto rilevante, abbiamo già visto che la ˆP(y = 1) varia tra 0.09 e 0.97 confrontando i valori estremi di X Come si può ovviare ai problemi mostrati nell interpretare in maniera univoca la stima ˆβ? Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 24 / 54
105 Interpretazione del Modello di Regressione Logistica Interpretazione di β Utilizzando Odds e Odds Ratio La soluzione che consente di interpretare adeguatamente β prevede di utilizzare l odds ratio Applichiamo l antilogaritmo ad ambo i membri dell equazione log P(y = 1) 1 P(y = 1) = α+βx Otteniamo P(y = 1) 1 P(y = 1) = eα+βx = e α (e β ) x. Si osserva chiaramente come il termine e β indichi di quanto si modifichi l odds (il rapporto tra le probabilità) in corrispondenza ad un incremento unitario in x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 25 / 54
106 Interpretazione del Modello di Regressione Logistica Interpretazione di β Utilizzando Odds e Odds Ratio La soluzione che consente di interpretare adeguatamente β prevede di utilizzare l odds ratio Applichiamo l antilogaritmo ad ambo i membri dell equazione log P(y = 1) 1 P(y = 1) = α+βx Otteniamo P(y = 1) 1 P(y = 1) = eα+βx = e α (e β ) x. Si osserva chiaramente come il termine e β indichi di quanto si modifichi l odds (il rapporto tra le probabilità) in corrispondenza ad un incremento unitario in x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 25 / 54
107 Interpretazione del Modello di Regressione Logistica Interpretazione di β Utilizzando Odds e Odds Ratio La soluzione che consente di interpretare adeguatamente β prevede di utilizzare l odds ratio Applichiamo l antilogaritmo ad ambo i membri dell equazione log P(y = 1) 1 P(y = 1) = α+βx Otteniamo P(y = 1) 1 P(y = 1) = eα+βx = e α (e β ) x. Si osserva chiaramente come il termine e β indichi di quanto si modifichi l odds (il rapporto tra le probabilità) in corrispondenza ad un incremento unitario in x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 25 / 54
108 Interpretazione del Modello di Regressione Logistica Interpretazione di β Utilizzando Odds e Odds Ratio La soluzione che consente di interpretare adeguatamente β prevede di utilizzare l odds ratio Applichiamo l antilogaritmo ad ambo i membri dell equazione log P(y = 1) 1 P(y = 1) = α+βx Otteniamo P(y = 1) 1 P(y = 1) = eα+βx = e α (e β ) x. Si osserva chiaramente come il termine e β indichi di quanto si modifichi l odds (il rapporto tra le probabilità) in corrispondenza ad un incremento unitario in x Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 25 / 54
109 Interpretazione del Modello di Regressione Logistica Interpretazione di β Utilizzando Odds e Odds Ratio Sui dati dell esempio sulle CC si ottiene e ˆβ = e = 1.11 Cioè, all incremento di 1000 euro di reddito, l odds cresce di un fattore moltiplicativo pari a 1.11; in pratica cresce dell 11% L odds per x = 25 è Odds Stimato = ˆP(y = 1) 1 ˆP(y = 1) = e (25) = Considerando un incremento unitario in X, per x = 25 si ha Odds Stimato = ˆP(y = 1) 1 ˆP(y = 1) = e (26) = 0.460, In pratica 0.460/0.414 = 1.11 = e Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 26 / 54
110 Interpretazione del Modello di Regressione Logistica Interpretazione di β Utilizzando Odds e Odds Ratio Sui dati dell esempio sulle CC si ottiene e ˆβ = e = 1.11 Cioè, all incremento di 1000 euro di reddito, l odds cresce di un fattore moltiplicativo pari a 1.11; in pratica cresce dell 11% L odds per x = 25 è Odds Stimato = ˆP(y = 1) 1 ˆP(y = 1) = e (25) = Considerando un incremento unitario in X, per x = 25 si ha Odds Stimato = ˆP(y = 1) 1 ˆP(y = 1) = e (26) = 0.460, In pratica 0.460/0.414 = 1.11 = e Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 26 / 54
111 Interpretazione del Modello di Regressione Logistica Interpretazione di β Utilizzando Odds e Odds Ratio Sui dati dell esempio sulle CC si ottiene e ˆβ = e = 1.11 Cioè, all incremento di 1000 euro di reddito, l odds cresce di un fattore moltiplicativo pari a 1.11; in pratica cresce dell 11% L odds per x = 25 è Odds Stimato = ˆP(y = 1) 1 ˆP(y = 1) = e (25) = Considerando un incremento unitario in X, per x = 25 si ha Odds Stimato = ˆP(y = 1) 1 ˆP(y = 1) = e (26) = 0.460, In pratica 0.460/0.414 = 1.11 = e Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 26 / 54
112 Interpretazione del Modello di Regressione Logistica Interpretazione di β Utilizzando Odds e Odds Ratio Sui dati dell esempio sulle CC si ottiene e ˆβ = e = 1.11 Cioè, all incremento di 1000 euro di reddito, l odds cresce di un fattore moltiplicativo pari a 1.11; in pratica cresce dell 11% L odds per x = 25 è Odds Stimato = ˆP(y = 1) 1 ˆP(y = 1) = e (25) = Considerando un incremento unitario in X, per x = 25 si ha Odds Stimato = ˆP(y = 1) 1 ˆP(y = 1) = e (26) = 0.460, In pratica 0.460/0.414 = 1.11 = e Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 26 / 54
113 Interpretazione del Modello di Regressione Logistica Interpretazione di β Utilizzando Odds e Odds Ratio Sui dati dell esempio sulle CC si ottiene e ˆβ = e = 1.11 Cioè, all incremento di 1000 euro di reddito, l odds cresce di un fattore moltiplicativo pari a 1.11; in pratica cresce dell 11% L odds per x = 25 è Odds Stimato = ˆP(y = 1) 1 ˆP(y = 1) = e (25) = Considerando un incremento unitario in X, per x = 25 si ha Odds Stimato = ˆP(y = 1) 1 ˆP(y = 1) = e (26) = 0.460, In pratica 0.460/0.414 = 1.11 = e Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 26 / 54
114 Interpretazione del Modello di Regressione Logistica Interpretazione di β Utilizzando Odds e Odds Ratio La quantità e non è altro che l Odds Ratio (Rapporto tra Quote), dato appunto dal rapporto tra l odds avendo un reddito = 26, diviso l odds avendo un reddito = 25 L utilizzo dell Odds Ratio (OR) risolve i problemi di rappresentazione e interpretazione di β Infatti, può variare tra 0 e 1 (se l odds a numeratore è inferiore di quello a denominatore), oppure eccedere il valore 1 indefinitamente. Cioè 0 OR + Supponiamo di confrontare due individui con, rispettivamente, reddito pari a x = 20 e x = 30 Sarà sufficiente calcolare e 10β = (e β ) 10 = (1.11) 10 = 2.9 L odds per x = 30 è 2.9 volte l odds per x = 20 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 27 / 54
115 Interpretazione del Modello di Regressione Logistica Interpretazione di β Utilizzando Odds e Odds Ratio La quantità e non è altro che l Odds Ratio (Rapporto tra Quote), dato appunto dal rapporto tra l odds avendo un reddito = 26, diviso l odds avendo un reddito = 25 L utilizzo dell Odds Ratio (OR) risolve i problemi di rappresentazione e interpretazione di β Infatti, può variare tra 0 e 1 (se l odds a numeratore è inferiore di quello a denominatore), oppure eccedere il valore 1 indefinitamente. Cioè 0 OR + Supponiamo di confrontare due individui con, rispettivamente, reddito pari a x = 20 e x = 30 Sarà sufficiente calcolare e 10β = (e β ) 10 = (1.11) 10 = 2.9 L odds per x = 30 è 2.9 volte l odds per x = 20 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 27 / 54
116 Interpretazione del Modello di Regressione Logistica Interpretazione di β Utilizzando Odds e Odds Ratio La quantità e non è altro che l Odds Ratio (Rapporto tra Quote), dato appunto dal rapporto tra l odds avendo un reddito = 26, diviso l odds avendo un reddito = 25 L utilizzo dell Odds Ratio (OR) risolve i problemi di rappresentazione e interpretazione di β Infatti, può variare tra 0 e 1 (se l odds a numeratore è inferiore di quello a denominatore), oppure eccedere il valore 1 indefinitamente. Cioè 0 OR + Supponiamo di confrontare due individui con, rispettivamente, reddito pari a x = 20 e x = 30 Sarà sufficiente calcolare e 10β = (e β ) 10 = (1.11) 10 = 2.9 L odds per x = 30 è 2.9 volte l odds per x = 20 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 27 / 54
117 Interpretazione del Modello di Regressione Logistica Interpretazione di β Utilizzando Odds e Odds Ratio La quantità e non è altro che l Odds Ratio (Rapporto tra Quote), dato appunto dal rapporto tra l odds avendo un reddito = 26, diviso l odds avendo un reddito = 25 L utilizzo dell Odds Ratio (OR) risolve i problemi di rappresentazione e interpretazione di β Infatti, può variare tra 0 e 1 (se l odds a numeratore è inferiore di quello a denominatore), oppure eccedere il valore 1 indefinitamente. Cioè 0 OR + Supponiamo di confrontare due individui con, rispettivamente, reddito pari a x = 20 e x = 30 Sarà sufficiente calcolare e 10β = (e β ) 10 = (1.11) 10 = 2.9 L odds per x = 30 è 2.9 volte l odds per x = 20 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 27 / 54
118 Interpretazione del Modello di Regressione Logistica Interpretazione di β Utilizzando Odds e Odds Ratio La quantità e non è altro che l Odds Ratio (Rapporto tra Quote), dato appunto dal rapporto tra l odds avendo un reddito = 26, diviso l odds avendo un reddito = 25 L utilizzo dell Odds Ratio (OR) risolve i problemi di rappresentazione e interpretazione di β Infatti, può variare tra 0 e 1 (se l odds a numeratore è inferiore di quello a denominatore), oppure eccedere il valore 1 indefinitamente. Cioè 0 OR + Supponiamo di confrontare due individui con, rispettivamente, reddito pari a x = 20 e x = 30 Sarà sufficiente calcolare e 10β = (e β ) 10 = (1.11) 10 = 2.9 L odds per x = 30 è 2.9 volte l odds per x = 20 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 27 / 54
119 Interpretazione del Modello di Regressione Logistica Interpretazione di β Utilizzando Odds e Odds Ratio La quantità e non è altro che l Odds Ratio (Rapporto tra Quote), dato appunto dal rapporto tra l odds avendo un reddito = 26, diviso l odds avendo un reddito = 25 L utilizzo dell Odds Ratio (OR) risolve i problemi di rappresentazione e interpretazione di β Infatti, può variare tra 0 e 1 (se l odds a numeratore è inferiore di quello a denominatore), oppure eccedere il valore 1 indefinitamente. Cioè 0 OR + Supponiamo di confrontare due individui con, rispettivamente, reddito pari a x = 20 e x = 30 Sarà sufficiente calcolare e 10β = (e β ) 10 = (1.11) 10 = 2.9 L odds per x = 30 è 2.9 volte l odds per x = 20 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 27 / 54
120 Regressione Logistica Multipla Regressione Logistica Multipla Naturalmente è possibile estendere il Modello di Regressione Logistica a k predittori logit[p(y = 1)] = α+β 1 x 1 + +β k x k Per calcolare la probabilità di successo avremo P(y = 1) = eα+β1x1+ +β kx k 1+e α+β1x1+ +β kx k. Ciascuna stima di β rappresenta l effetto di quel predittore sul logit, controllando per le altre variabili Oppure indicherà l effetto moltiplicativo di quel predittore sulla probabilità di successo, controllando per le altre variabili Quanto più β > 0, tanto più l OR > 1 e rappresenterà un effetto più forte Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 28 / 54
121 Regressione Logistica Multipla Regressione Logistica Multipla Naturalmente è possibile estendere il Modello di Regressione Logistica a k predittori logit[p(y = 1)] = α+β 1 x 1 + +β k x k Per calcolare la probabilità di successo avremo P(y = 1) = eα+β1x1+ +β kx k 1+e α+β1x1+ +β kx k. Ciascuna stima di β rappresenta l effetto di quel predittore sul logit, controllando per le altre variabili Oppure indicherà l effetto moltiplicativo di quel predittore sulla probabilità di successo, controllando per le altre variabili Quanto più β > 0, tanto più l OR > 1 e rappresenterà un effetto più forte Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 28 / 54
122 Regressione Logistica Multipla Regressione Logistica Multipla Naturalmente è possibile estendere il Modello di Regressione Logistica a k predittori logit[p(y = 1)] = α+β 1 x 1 + +β k x k Per calcolare la probabilità di successo avremo P(y = 1) = eα+β1x1+ +β kx k 1+e α+β1x1+ +β kx k. Ciascuna stima di β rappresenta l effetto di quel predittore sul logit, controllando per le altre variabili Oppure indicherà l effetto moltiplicativo di quel predittore sulla probabilità di successo, controllando per le altre variabili Quanto più β > 0, tanto più l OR > 1 e rappresenterà un effetto più forte Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 28 / 54
123 Regressione Logistica Multipla Regressione Logistica Multipla Naturalmente è possibile estendere il Modello di Regressione Logistica a k predittori logit[p(y = 1)] = α+β 1 x 1 + +β k x k Per calcolare la probabilità di successo avremo P(y = 1) = eα+β1x1+ +β kx k 1+e α+β1x1+ +β kx k. Ciascuna stima di β rappresenta l effetto di quel predittore sul logit, controllando per le altre variabili Oppure indicherà l effetto moltiplicativo di quel predittore sulla probabilità di successo, controllando per le altre variabili Quanto più β > 0, tanto più l OR > 1 e rappresenterà un effetto più forte Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 28 / 54
124 Regressione Logistica Multipla Regressione Logistica Multipla Naturalmente è possibile estendere il Modello di Regressione Logistica a k predittori logit[p(y = 1)] = α+β 1 x 1 + +β k x k Per calcolare la probabilità di successo avremo P(y = 1) = eα+β1x1+ +β kx k 1+e α+β1x1+ +β kx k. Ciascuna stima di β rappresenta l effetto di quel predittore sul logit, controllando per le altre variabili Oppure indicherà l effetto moltiplicativo di quel predittore sulla probabilità di successo, controllando per le altre variabili Quanto più β > 0, tanto più l OR > 1 e rappresenterà un effetto più forte Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 28 / 54
125 Regressione Logistica Multipla Regressione Logistica Multipla con Interazioni L estensione al modello con interazioni è immediata e del tutto analoga a quanto visto per il Modello di Regressione Multivariato. Con due predittori X 1 e X 2 avremo oppure logit[p(y = 1)] = α+β 1 x 1 +β 2 x 2 +β 3 x 1 x 2 logit[p(y = 1)] = α+β 1 x 1 +β 2 x 2 +γ 12 x 1 x 2 L interpretazione dell interazione non è semplice. L approfondiremo in seguito Si possono inserire predittori qualitativi utilizzando le variabili dummy Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 29 / 54
126 Regressione Logistica Multipla Regressione Logistica Multipla con Interazioni L estensione al modello con interazioni è immediata e del tutto analoga a quanto visto per il Modello di Regressione Multivariato. Con due predittori X 1 e X 2 avremo oppure logit[p(y = 1)] = α+β 1 x 1 +β 2 x 2 +β 3 x 1 x 2 logit[p(y = 1)] = α+β 1 x 1 +β 2 x 2 +γ 12 x 1 x 2 L interpretazione dell interazione non è semplice. L approfondiremo in seguito Si possono inserire predittori qualitativi utilizzando le variabili dummy Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 29 / 54
127 Regressione Logistica Multipla Regressione Logistica Multipla con Interazioni L estensione al modello con interazioni è immediata e del tutto analoga a quanto visto per il Modello di Regressione Multivariato. Con due predittori X 1 e X 2 avremo oppure logit[p(y = 1)] = α+β 1 x 1 +β 2 x 2 +β 3 x 1 x 2 logit[p(y = 1)] = α+β 1 x 1 +β 2 x 2 +γ 12 x 1 x 2 L interpretazione dell interazione non è semplice. L approfondiremo in seguito Si possono inserire predittori qualitativi utilizzando le variabili dummy Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 29 / 54
128 Regressione Logistica Multipla Esempio 15.2 Pena di Morte e Influenza della Razza di Vittime e Imputati Si tratta di un celebre caso-studio, molto noto in bibliografia. Si vuole determinare se la probabilità di essere condannato a morte dipenda (o meno) dalla razza dell accusato e/o da quella della vittima Tabella: Verdetti di Pena di Morte secondo la Razza dell Imputato e della Vittima, nei Casi di Omicidi Plurimi in Florida Pena di Morte Razza Razza % imputato vittima Sì No Sì Bianca Bianca Nera Nera Bianca Nera La variabile risposta (Y) è la condanna (Pena di Morte Sì-No), i predittori sono la Razza della Vittima e quella dell Imputato I predittori sono qualitativi categorici (Bianca-Nera) Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 30 / 54
129 Regressione Logistica Multipla Esempio 15.2 Pena di Morte e Influenza della Razza di Vittime e Imputati Si tratta di un celebre caso-studio, molto noto in bibliografia. Si vuole determinare se la probabilità di essere condannato a morte dipenda (o meno) dalla razza dell accusato e/o da quella della vittima Tabella: Verdetti di Pena di Morte secondo la Razza dell Imputato e della Vittima, nei Casi di Omicidi Plurimi in Florida Pena di Morte Razza Razza % imputato vittima Sì No Sì Bianca Bianca Nera Nera Bianca Nera La variabile risposta (Y) è la condanna (Pena di Morte Sì-No), i predittori sono la Razza della Vittima e quella dell Imputato I predittori sono qualitativi categorici (Bianca-Nera) Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 30 / 54
130 Regressione Logistica Multipla Esempio 15.2 Pena di Morte e Influenza della Razza di Vittime e Imputati Si tratta di un celebre caso-studio, molto noto in bibliografia. Si vuole determinare se la probabilità di essere condannato a morte dipenda (o meno) dalla razza dell accusato e/o da quella della vittima Tabella: Verdetti di Pena di Morte secondo la Razza dell Imputato e della Vittima, nei Casi di Omicidi Plurimi in Florida Pena di Morte Razza Razza % imputato vittima Sì No Sì Bianca Bianca Nera Nera Bianca Nera La variabile risposta (Y) è la condanna (Pena di Morte Sì-No), i predittori sono la Razza della Vittima e quella dell Imputato I predittori sono qualitativi categorici (Bianca-Nera) Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 30 / 54
131 Regressione Logistica Multipla Nell ultima colonna è riportata la percentuale di imputati per ogni combinazione, che è stata condannata a morte Abbiamo i seguenti casi: 1 in caso di imputato bianco e vittima bianca, l 11.3% è stato condannato a morte; 2 in caso di imputato bianco e vittima nera, nessuno è stato condannato a morte; 3 in caso di imputato nero e vittima bianca, il 22.9% è stato condannato a morte; 4 in caso di imputato nero e vittima nera, il 2.8% è stato condannato a morte. In caso di vittima è bianca a la probabilità per un imputato bianco di essere condannato a morte è l 11.3% superiore rispetto al caso di una vittima nera b la probabilità per un imputato nero di essere condannato a morte è il 20.1% superiore rispetto al caso di una vittima nera (22.9% 2.8%) Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 31 / 54
132 Regressione Logistica Multipla Nell ultima colonna è riportata la percentuale di imputati per ogni combinazione, che è stata condannata a morte Abbiamo i seguenti casi: 1 in caso di imputato bianco e vittima bianca, l 11.3% è stato condannato a morte; 2 in caso di imputato bianco e vittima nera, nessuno è stato condannato a morte; 3 in caso di imputato nero e vittima bianca, il 22.9% è stato condannato a morte; 4 in caso di imputato nero e vittima nera, il 2.8% è stato condannato a morte. In caso di vittima è bianca a la probabilità per un imputato bianco di essere condannato a morte è l 11.3% superiore rispetto al caso di una vittima nera b la probabilità per un imputato nero di essere condannato a morte è il 20.1% superiore rispetto al caso di una vittima nera (22.9% 2.8%) Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 31 / 54
133 Regressione Logistica Multipla Nell ultima colonna è riportata la percentuale di imputati per ogni combinazione, che è stata condannata a morte Abbiamo i seguenti casi: 1 in caso di imputato bianco e vittima bianca, l 11.3% è stato condannato a morte; 2 in caso di imputato bianco e vittima nera, nessuno è stato condannato a morte; 3 in caso di imputato nero e vittima bianca, il 22.9% è stato condannato a morte; 4 in caso di imputato nero e vittima nera, il 2.8% è stato condannato a morte. In caso di vittima è bianca a la probabilità per un imputato bianco di essere condannato a morte è l 11.3% superiore rispetto al caso di una vittima nera b la probabilità per un imputato nero di essere condannato a morte è il 20.1% superiore rispetto al caso di una vittima nera (22.9% 2.8%) Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 31 / 54
134 Regressione Logistica Multipla In buona sostanza, controllando per la razza dell imputato, risulta evidente che la probabilità di essere condannato a morte è decisamente superiore se la vittima è bianca L analisi con il controllo secondo la razza della vittima, evidenzia chiaramente come se la vittima è bianca, la probabilità di essere condannati a morte è superiore Tale probabilità è decisamente più elevata per un imputato nero (22.9 %) rispetto ad uno bianco (11.3 %) Quando la vittima è nera, le due probababilità sono quasi uguali (2,8% per un imputato nero, 0.0% per un imputato bianco), anche se il confronto merita un approfondimento Infatti, in termini relativi 2.8% rispetto a 0.0% può essere ritenuto molto più elevato Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 32 / 54
135 Regressione Logistica Multipla In buona sostanza, controllando per la razza dell imputato, risulta evidente che la probabilità di essere condannato a morte è decisamente superiore se la vittima è bianca L analisi con il controllo secondo la razza della vittima, evidenzia chiaramente come se la vittima è bianca, la probabilità di essere condannati a morte è superiore Tale probabilità è decisamente più elevata per un imputato nero (22.9 %) rispetto ad uno bianco (11.3 %) Quando la vittima è nera, le due probababilità sono quasi uguali (2,8% per un imputato nero, 0.0% per un imputato bianco), anche se il confronto merita un approfondimento Infatti, in termini relativi 2.8% rispetto a 0.0% può essere ritenuto molto più elevato Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 32 / 54
136 Regressione Logistica Multipla In buona sostanza, controllando per la razza dell imputato, risulta evidente che la probabilità di essere condannato a morte è decisamente superiore se la vittima è bianca L analisi con il controllo secondo la razza della vittima, evidenzia chiaramente come se la vittima è bianca, la probabilità di essere condannati a morte è superiore Tale probabilità è decisamente più elevata per un imputato nero (22.9 %) rispetto ad uno bianco (11.3 %) Quando la vittima è nera, le due probababilità sono quasi uguali (2,8% per un imputato nero, 0.0% per un imputato bianco), anche se il confronto merita un approfondimento Infatti, in termini relativi 2.8% rispetto a 0.0% può essere ritenuto molto più elevato Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 32 / 54
137 Regressione Logistica Multipla In buona sostanza, controllando per la razza dell imputato, risulta evidente che la probabilità di essere condannato a morte è decisamente superiore se la vittima è bianca L analisi con il controllo secondo la razza della vittima, evidenzia chiaramente come se la vittima è bianca, la probabilità di essere condannati a morte è superiore Tale probabilità è decisamente più elevata per un imputato nero (22.9 %) rispetto ad uno bianco (11.3 %) Quando la vittima è nera, le due probababilità sono quasi uguali (2,8% per un imputato nero, 0.0% per un imputato bianco), anche se il confronto merita un approfondimento Infatti, in termini relativi 2.8% rispetto a 0.0% può essere ritenuto molto più elevato Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 32 / 54
138 Regressione Logistica Multipla In buona sostanza, controllando per la razza dell imputato, risulta evidente che la probabilità di essere condannato a morte è decisamente superiore se la vittima è bianca L analisi con il controllo secondo la razza della vittima, evidenzia chiaramente come se la vittima è bianca, la probabilità di essere condannati a morte è superiore Tale probabilità è decisamente più elevata per un imputato nero (22.9 %) rispetto ad uno bianco (11.3 %) Quando la vittima è nera, le due probababilità sono quasi uguali (2,8% per un imputato nero, 0.0% per un imputato bianco), anche se il confronto merita un approfondimento Infatti, in termini relativi 2.8% rispetto a 0.0% può essere ritenuto molto più elevato Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 32 / 54
139 Regressione Logistica Multipla Costruiamo il modello. Ovviamente Y = Condanna a Morte. Se Y = 1 la risposta è Sì I due predittori sono dicotomici, per cui sono sufficienti 2 variabili dummy, d per la razza dell imputato e v per la razza della vittima d = 1, defendant = white;d = 0,defendant = black, v = 1,victims = white; v = 0,victims = black. Il modello di regressione logistica multivariato sarà logit[p(y = 1)] = α+β 1 d +β 2 v, dove β 1 indica l effetto della razza dell imputato, controllando per quella della vittima e β 2 indica l effetto della razza della vittima, controllando per quella dell imputato La quantità e β1 è l OR tra Y e la razza dell imputato, controllando per quella della vittima La quantità e β2 è l OR tra Y e la razza della vittima, controllando per quella dell imputato Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 33 / 54
140 Regressione Logistica Multipla Costruiamo il modello. Ovviamente Y = Condanna a Morte. Se Y = 1 la risposta è Sì I due predittori sono dicotomici, per cui sono sufficienti 2 variabili dummy, d per la razza dell imputato e v per la razza della vittima d = 1, defendant = white;d = 0,defendant = black, v = 1,victims = white; v = 0,victims = black. Il modello di regressione logistica multivariato sarà logit[p(y = 1)] = α+β 1 d +β 2 v, dove β 1 indica l effetto della razza dell imputato, controllando per quella della vittima e β 2 indica l effetto della razza della vittima, controllando per quella dell imputato La quantità e β1 è l OR tra Y e la razza dell imputato, controllando per quella della vittima La quantità e β2 è l OR tra Y e la razza della vittima, controllando per quella dell imputato Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 33 / 54
141 Regressione Logistica Multipla Costruiamo il modello. Ovviamente Y = Condanna a Morte. Se Y = 1 la risposta è Sì I due predittori sono dicotomici, per cui sono sufficienti 2 variabili dummy, d per la razza dell imputato e v per la razza della vittima d = 1, defendant = white;d = 0,defendant = black, v = 1,victims = white; v = 0,victims = black. Il modello di regressione logistica multivariato sarà logit[p(y = 1)] = α+β 1 d +β 2 v, dove β 1 indica l effetto della razza dell imputato, controllando per quella della vittima e β 2 indica l effetto della razza della vittima, controllando per quella dell imputato La quantità e β1 è l OR tra Y e la razza dell imputato, controllando per quella della vittima La quantità e β2 è l OR tra Y e la razza della vittima, controllando per quella dell imputato Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 33 / 54
142 Regressione Logistica Multipla Costruiamo il modello. Ovviamente Y = Condanna a Morte. Se Y = 1 la risposta è Sì I due predittori sono dicotomici, per cui sono sufficienti 2 variabili dummy, d per la razza dell imputato e v per la razza della vittima d = 1, defendant = white;d = 0,defendant = black, v = 1,victims = white; v = 0,victims = black. Il modello di regressione logistica multivariato sarà logit[p(y = 1)] = α+β 1 d +β 2 v, dove β 1 indica l effetto della razza dell imputato, controllando per quella della vittima e β 2 indica l effetto della razza della vittima, controllando per quella dell imputato La quantità e β1 è l OR tra Y e la razza dell imputato, controllando per quella della vittima La quantità e β2 è l OR tra Y e la razza della vittima, controllando per quella dell imputato Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 33 / 54
143 Regressione Logistica Multipla Costruiamo il modello. Ovviamente Y = Condanna a Morte. Se Y = 1 la risposta è Sì I due predittori sono dicotomici, per cui sono sufficienti 2 variabili dummy, d per la razza dell imputato e v per la razza della vittima d = 1, defendant = white;d = 0,defendant = black, v = 1,victims = white; v = 0,victims = black. Il modello di regressione logistica multivariato sarà logit[p(y = 1)] = α+β 1 d +β 2 v, dove β 1 indica l effetto della razza dell imputato, controllando per quella della vittima e β 2 indica l effetto della razza della vittima, controllando per quella dell imputato La quantità e β1 è l OR tra Y e la razza dell imputato, controllando per quella della vittima La quantità e β2 è l OR tra Y e la razza della vittima, controllando per quella dell imputato Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 33 / 54
144 Regressione Logistica Multipla Costruiamo il modello. Ovviamente Y = Condanna a Morte. Se Y = 1 la risposta è Sì I due predittori sono dicotomici, per cui sono sufficienti 2 variabili dummy, d per la razza dell imputato e v per la razza della vittima d = 1, defendant = white;d = 0,defendant = black, v = 1,victims = white; v = 0,victims = black. Il modello di regressione logistica multivariato sarà logit[p(y = 1)] = α+β 1 d +β 2 v, dove β 1 indica l effetto della razza dell imputato, controllando per quella della vittima e β 2 indica l effetto della razza della vittima, controllando per quella dell imputato La quantità e β1 è l OR tra Y e la razza dell imputato, controllando per quella della vittima La quantità e β2 è l OR tra Y e la razza della vittima, controllando per quella dell imputato Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 33 / 54
145 Regressione Logistica Multipla Costruiamo il modello. Ovviamente Y = Condanna a Morte. Se Y = 1 la risposta è Sì I due predittori sono dicotomici, per cui sono sufficienti 2 variabili dummy, d per la razza dell imputato e v per la razza della vittima d = 1, defendant = white;d = 0,defendant = black, v = 1,victims = white; v = 0,victims = black. Il modello di regressione logistica multivariato sarà logit[p(y = 1)] = α+β 1 d +β 2 v, dove β 1 indica l effetto della razza dell imputato, controllando per quella della vittima e β 2 indica l effetto della razza della vittima, controllando per quella dell imputato La quantità e β1 è l OR tra Y e la razza dell imputato, controllando per quella della vittima La quantità e β2 è l OR tra Y e la razza della vittima, controllando per quella dell imputato Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 33 / 54
146 Regressione Logistica Multipla Il modello applicato ai dati è logit[ˆp(y = 1)] = d v. La stima di β 1 = indica come essendo bianco (d = 1), si ha una probabilità di essere condannato a morte inferiore rispetto ad un nero (d = 0) La stima di β 2 = indica come in caso di vittima bianca (v = 1), si ha una probabilità di essere condannato a morte superiore rispetto al caso di una vittima nera (v = 0) Vedremo tra poco di quantificare l intensità di questi effetti Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 34 / 54
147 Regressione Logistica Multipla Il modello applicato ai dati è logit[ˆp(y = 1)] = d v. La stima di β 1 = indica come essendo bianco (d = 1), si ha una probabilità di essere condannato a morte inferiore rispetto ad un nero (d = 0) La stima di β 2 = indica come in caso di vittima bianca (v = 1), si ha una probabilità di essere condannato a morte superiore rispetto al caso di una vittima nera (v = 0) Vedremo tra poco di quantificare l intensità di questi effetti Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 34 / 54
148 Regressione Logistica Multipla Il modello applicato ai dati è logit[ˆp(y = 1)] = d v. La stima di β 1 = indica come essendo bianco (d = 1), si ha una probabilità di essere condannato a morte inferiore rispetto ad un nero (d = 0) La stima di β 2 = indica come in caso di vittima bianca (v = 1), si ha una probabilità di essere condannato a morte superiore rispetto al caso di una vittima nera (v = 0) Vedremo tra poco di quantificare l intensità di questi effetti Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 34 / 54
149 Regressione Logistica Multipla Il modello applicato ai dati è logit[ˆp(y = 1)] = d v. La stima di β 1 = indica come essendo bianco (d = 1), si ha una probabilità di essere condannato a morte inferiore rispetto ad un nero (d = 0) La stima di β 2 = indica come in caso di vittima bianca (v = 1), si ha una probabilità di essere condannato a morte superiore rispetto al caso di una vittima nera (v = 0) Vedremo tra poco di quantificare l intensità di questi effetti Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 34 / 54
150 Regressione Logistica Multipla Il software produce il seguente prospetto Tabella: Stime dei Parametri del Modello Logistico sui Dati della Pena di Morte B Std Error Exp(β) Intercetta imputato=bianco imputato=nero 0. vittima=bianca vittima=nera 0. La stima della probabilità di essere condannati a morte è ˆP(y = 1) = e d+2.404v 1+e d+2.404v Nel caso di imputato nero (d = 0) e vittima bianca (v = 1) si ha ˆP(y = 1) = e (0)+2.404(1) 1+e (0)+2.404(1) = e = 1+e = Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 35 / 54
151 Regressione Logistica Multipla Il software produce il seguente prospetto Tabella: Stime dei Parametri del Modello Logistico sui Dati della Pena di Morte B Std Error Exp(β) Intercetta imputato=bianco imputato=nero 0. vittima=bianca vittima=nera 0. La stima della probabilità di essere condannati a morte è ˆP(y = 1) = e d+2.404v 1+e d+2.404v Nel caso di imputato nero (d = 0) e vittima bianca (v = 1) si ha ˆP(y = 1) = e (0)+2.404(1) 1+e (0)+2.404(1) = e = 1+e = Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 35 / 54
152 Regressione Logistica Multipla Il software produce il seguente prospetto Tabella: Stime dei Parametri del Modello Logistico sui Dati della Pena di Morte B Std Error Exp(β) Intercetta imputato=bianco imputato=nero 0. vittima=bianca vittima=nera 0. La stima della probabilità di essere condannati a morte è ˆP(y = 1) = e d+2.404v 1+e d+2.404v Nel caso di imputato nero (d = 0) e vittima bianca (v = 1) si ha ˆP(y = 1) = e (0)+2.404(1) 1+e (0)+2.404(1) = e = 1+e = Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 35 / 54
153 Regressione Logistica Multipla In pratica, se un imputato nero è riconosciuto colpevole di aver ucciso un bianco, ha il 23.3% di possibilità di essere condannato a morte Questa stima è molto simile al valore osservato nel campione, pari a 22.9% Proviamo a calcolare l OR tra Y e razza dell imputato. Si ottiene e ˆβ 1 = e = 0.42 OR = 0.42 Un imputato bianco ha un odds pari a 0.42 volte quello di un imputato nero di essere condannato a morte Curiosità: se nel costruire la dummy per la razza dell imputato invertissimo le categorie (d = 1 per la razza nera) otterremmo e ˆβ 1 = e = 2.38 OR = 2.38 Lavorando direttamente sull OR, basta fare il reciproco del primo per ottenere il secondo 1/0.42= 2.38 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 36 / 54
154 Regressione Logistica Multipla In pratica, se un imputato nero è riconosciuto colpevole di aver ucciso un bianco, ha il 23.3% di possibilità di essere condannato a morte Questa stima è molto simile al valore osservato nel campione, pari a 22.9% Proviamo a calcolare l OR tra Y e razza dell imputato. Si ottiene e ˆβ 1 = e = 0.42 OR = 0.42 Un imputato bianco ha un odds pari a 0.42 volte quello di un imputato nero di essere condannato a morte Curiosità: se nel costruire la dummy per la razza dell imputato invertissimo le categorie (d = 1 per la razza nera) otterremmo e ˆβ 1 = e = 2.38 OR = 2.38 Lavorando direttamente sull OR, basta fare il reciproco del primo per ottenere il secondo 1/0.42= 2.38 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 36 / 54
155 Regressione Logistica Multipla In pratica, se un imputato nero è riconosciuto colpevole di aver ucciso un bianco, ha il 23.3% di possibilità di essere condannato a morte Questa stima è molto simile al valore osservato nel campione, pari a 22.9% Proviamo a calcolare l OR tra Y e razza dell imputato. Si ottiene e ˆβ 1 = e = 0.42 OR = 0.42 Un imputato bianco ha un odds pari a 0.42 volte quello di un imputato nero di essere condannato a morte Curiosità: se nel costruire la dummy per la razza dell imputato invertissimo le categorie (d = 1 per la razza nera) otterremmo e ˆβ 1 = e = 2.38 OR = 2.38 Lavorando direttamente sull OR, basta fare il reciproco del primo per ottenere il secondo 1/0.42= 2.38 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 36 / 54
156 Regressione Logistica Multipla In pratica, se un imputato nero è riconosciuto colpevole di aver ucciso un bianco, ha il 23.3% di possibilità di essere condannato a morte Questa stima è molto simile al valore osservato nel campione, pari a 22.9% Proviamo a calcolare l OR tra Y e razza dell imputato. Si ottiene e ˆβ 1 = e = 0.42 OR = 0.42 Un imputato bianco ha un odds pari a 0.42 volte quello di un imputato nero di essere condannato a morte Curiosità: se nel costruire la dummy per la razza dell imputato invertissimo le categorie (d = 1 per la razza nera) otterremmo e ˆβ 1 = e = 2.38 OR = 2.38 Lavorando direttamente sull OR, basta fare il reciproco del primo per ottenere il secondo 1/0.42= 2.38 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 36 / 54
157 Regressione Logistica Multipla In pratica, se un imputato nero è riconosciuto colpevole di aver ucciso un bianco, ha il 23.3% di possibilità di essere condannato a morte Questa stima è molto simile al valore osservato nel campione, pari a 22.9% Proviamo a calcolare l OR tra Y e razza dell imputato. Si ottiene e ˆβ 1 = e = 0.42 OR = 0.42 Un imputato bianco ha un odds pari a 0.42 volte quello di un imputato nero di essere condannato a morte Curiosità: se nel costruire la dummy per la razza dell imputato invertissimo le categorie (d = 1 per la razza nera) otterremmo e ˆβ 1 = e = 2.38 OR = 2.38 Lavorando direttamente sull OR, basta fare il reciproco del primo per ottenere il secondo 1/0.42= 2.38 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 36 / 54
158 Regressione Logistica Multipla In pratica, se un imputato nero è riconosciuto colpevole di aver ucciso un bianco, ha il 23.3% di possibilità di essere condannato a morte Questa stima è molto simile al valore osservato nel campione, pari a 22.9% Proviamo a calcolare l OR tra Y e razza dell imputato. Si ottiene e ˆβ 1 = e = 0.42 OR = 0.42 Un imputato bianco ha un odds pari a 0.42 volte quello di un imputato nero di essere condannato a morte Curiosità: se nel costruire la dummy per la razza dell imputato invertissimo le categorie (d = 1 per la razza nera) otterremmo e ˆβ 1 = e = 2.38 OR = 2.38 Lavorando direttamente sull OR, basta fare il reciproco del primo per ottenere il secondo 1/0.42= 2.38 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 36 / 54
159 Regressione Logistica Multipla Studiando la relazione tra Y e razza della vittima, la stima ottenuta mostra un fortissimo effetto del predittore su Y Infatti, e = 11.1, quindi OR=11.1 Ciò sisgnifica che l odds di essere condannato a morte in caso di vittima bianca è 11.1 volte quello nel caso di vittima nera In termini più semplicistici, potremmo sintetizzare i due OR ottenuti in questo modo: 1 Si registra una propensione (tendenza) a condannare a morte inferiore alla metà se l imputato è bianco rispetto ad uno nero; 2 Si registra una propensione (tendenza) a condannare a morte pari a circa 11 volte se la vittima è bianca rispetto ad una nera. In buona sostanza esiste una discriminizione razziale nelle condanne a morte, più forte in relazione alla razza della vittima rispetto a quella dell imputato, pur sempre presente Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 37 / 54
160 Regressione Logistica Multipla Studiando la relazione tra Y e razza della vittima, la stima ottenuta mostra un fortissimo effetto del predittore su Y Infatti, e = 11.1, quindi OR=11.1 Ciò sisgnifica che l odds di essere condannato a morte in caso di vittima bianca è 11.1 volte quello nel caso di vittima nera In termini più semplicistici, potremmo sintetizzare i due OR ottenuti in questo modo: 1 Si registra una propensione (tendenza) a condannare a morte inferiore alla metà se l imputato è bianco rispetto ad uno nero; 2 Si registra una propensione (tendenza) a condannare a morte pari a circa 11 volte se la vittima è bianca rispetto ad una nera. In buona sostanza esiste una discriminizione razziale nelle condanne a morte, più forte in relazione alla razza della vittima rispetto a quella dell imputato, pur sempre presente Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 37 / 54
161 Regressione Logistica Multipla Studiando la relazione tra Y e razza della vittima, la stima ottenuta mostra un fortissimo effetto del predittore su Y Infatti, e = 11.1, quindi OR=11.1 Ciò sisgnifica che l odds di essere condannato a morte in caso di vittima bianca è 11.1 volte quello nel caso di vittima nera In termini più semplicistici, potremmo sintetizzare i due OR ottenuti in questo modo: 1 Si registra una propensione (tendenza) a condannare a morte inferiore alla metà se l imputato è bianco rispetto ad uno nero; 2 Si registra una propensione (tendenza) a condannare a morte pari a circa 11 volte se la vittima è bianca rispetto ad una nera. In buona sostanza esiste una discriminizione razziale nelle condanne a morte, più forte in relazione alla razza della vittima rispetto a quella dell imputato, pur sempre presente Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 37 / 54
162 Regressione Logistica Multipla Studiando la relazione tra Y e razza della vittima, la stima ottenuta mostra un fortissimo effetto del predittore su Y Infatti, e = 11.1, quindi OR=11.1 Ciò sisgnifica che l odds di essere condannato a morte in caso di vittima bianca è 11.1 volte quello nel caso di vittima nera In termini più semplicistici, potremmo sintetizzare i due OR ottenuti in questo modo: 1 Si registra una propensione (tendenza) a condannare a morte inferiore alla metà se l imputato è bianco rispetto ad uno nero; 2 Si registra una propensione (tendenza) a condannare a morte pari a circa 11 volte se la vittima è bianca rispetto ad una nera. In buona sostanza esiste una discriminizione razziale nelle condanne a morte, più forte in relazione alla razza della vittima rispetto a quella dell imputato, pur sempre presente Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 37 / 54
163 Regressione Logistica Multipla Studiando la relazione tra Y e razza della vittima, la stima ottenuta mostra un fortissimo effetto del predittore su Y Infatti, e = 11.1, quindi OR=11.1 Ciò sisgnifica che l odds di essere condannato a morte in caso di vittima bianca è 11.1 volte quello nel caso di vittima nera In termini più semplicistici, potremmo sintetizzare i due OR ottenuti in questo modo: 1 Si registra una propensione (tendenza) a condannare a morte inferiore alla metà se l imputato è bianco rispetto ad uno nero; 2 Si registra una propensione (tendenza) a condannare a morte pari a circa 11 volte se la vittima è bianca rispetto ad una nera. In buona sostanza esiste una discriminizione razziale nelle condanne a morte, più forte in relazione alla razza della vittima rispetto a quella dell imputato, pur sempre presente Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 37 / 54
164 Regressione Logistica Multipla Effetti sugli Odds Possiamo rivedere alcuni aspetti dell interpretazione dei parametri β i e di cosa comportano sugli odds Riprendiamo il modello sulla pena di morte e la razza di imputato e vittima log[ˆp(y = 1)/(1 ˆP(y = 1))] = d v Calcolando l antilogaritmo di ambo i membri otteniamo odds = e d+2.404v = e e 0.868d e 2.404v. Rapportando gli odds per imputato bianco (d = 1) e nero (d = 0) otteniamo che è proprio l OR e e e 2.404v e e 2.404v = e = 0.42 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 38 / 54
165 Regressione Logistica Multipla Effetti sugli Odds Possiamo rivedere alcuni aspetti dell interpretazione dei parametri β i e di cosa comportano sugli odds Riprendiamo il modello sulla pena di morte e la razza di imputato e vittima log[ˆp(y = 1)/(1 ˆP(y = 1))] = d v Calcolando l antilogaritmo di ambo i membri otteniamo odds = e d+2.404v = e e 0.868d e 2.404v. Rapportando gli odds per imputato bianco (d = 1) e nero (d = 0) otteniamo che è proprio l OR e e e 2.404v e e 2.404v = e = 0.42 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 38 / 54
166 Regressione Logistica Multipla Effetti sugli Odds Possiamo rivedere alcuni aspetti dell interpretazione dei parametri β i e di cosa comportano sugli odds Riprendiamo il modello sulla pena di morte e la razza di imputato e vittima log[ˆp(y = 1)/(1 ˆP(y = 1))] = d v Calcolando l antilogaritmo di ambo i membri otteniamo odds = e d+2.404v = e e 0.868d e 2.404v. Rapportando gli odds per imputato bianco (d = 1) e nero (d = 0) otteniamo che è proprio l OR e e e 2.404v e e 2.404v = e = 0.42 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 38 / 54
167 Regressione Logistica Multipla Effetti sugli Odds Possiamo rivedere alcuni aspetti dell interpretazione dei parametri β i e di cosa comportano sugli odds Riprendiamo il modello sulla pena di morte e la razza di imputato e vittima log[ˆp(y = 1)/(1 ˆP(y = 1))] = d v Calcolando l antilogaritmo di ambo i membri otteniamo odds = e d+2.404v = e e 0.868d e 2.404v. Rapportando gli odds per imputato bianco (d = 1) e nero (d = 0) otteniamo che è proprio l OR e e e 2.404v e e 2.404v = e = 0.42 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 38 / 54
168 Regressione Logistica Multipla Allo stesso modo possiamo calcolare gli odds per qualsiasi combinazione dei predittori Nel caso di imputato nero (d = 0) e vittima bianca (v = 1), la stima dell odds sarà odds = e d+2.404v = e (0)+2.404(1) = e = Questo risultato indica che in caso di imputato nero e vittima bianca il rapporto tra probabilità di condanna e non condanna è Per calcolare la P(Y = 1), avremo ˆP(y = 1) = e d+2.404v = 1+e d+2.404v = che è proprio la stima della Probabilità di Successo vista in precedenza Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 39 / 54
169 Regressione Logistica Multipla Allo stesso modo possiamo calcolare gli odds per qualsiasi combinazione dei predittori Nel caso di imputato nero (d = 0) e vittima bianca (v = 1), la stima dell odds sarà odds = e d+2.404v = e (0)+2.404(1) = e = Questo risultato indica che in caso di imputato nero e vittima bianca il rapporto tra probabilità di condanna e non condanna è Per calcolare la P(Y = 1), avremo ˆP(y = 1) = e d+2.404v = 1+e d+2.404v = che è proprio la stima della Probabilità di Successo vista in precedenza Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 39 / 54
170 Regressione Logistica Multipla Allo stesso modo possiamo calcolare gli odds per qualsiasi combinazione dei predittori Nel caso di imputato nero (d = 0) e vittima bianca (v = 1), la stima dell odds sarà odds = e d+2.404v = e (0)+2.404(1) = e = Questo risultato indica che in caso di imputato nero e vittima bianca il rapporto tra probabilità di condanna e non condanna è Per calcolare la P(Y = 1), avremo ˆP(y = 1) = e d+2.404v = 1+e d+2.404v = che è proprio la stima della Probabilità di Successo vista in precedenza Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 39 / 54
171 Regressione Logistica Multipla Allo stesso modo possiamo calcolare gli odds per qualsiasi combinazione dei predittori Nel caso di imputato nero (d = 0) e vittima bianca (v = 1), la stima dell odds sarà odds = e d+2.404v = e (0)+2.404(1) = e = Questo risultato indica che in caso di imputato nero e vittima bianca il rapporto tra probabilità di condanna e non condanna è Per calcolare la P(Y = 1), avremo ˆP(y = 1) = e d+2.404v = 1+e d+2.404v = che è proprio la stima della Probabilità di Successo vista in precedenza Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 39 / 54
172 Regressione Logistica Multipla Esempio 15.3 Fattori Influenti l Acquisto della Prima Casa In tabella è riportato il modello logistico sulle relazioni tra il Possesso della Casa (Sì-No) e una serie di predittori che afferiscono alle caratteristiche ed ai comportamenti familiari quali: 1 reddito percepito dal marito (incremento di $10,000 dollari) 2 reddito percepito dalla moglie (incremento di $10,000 dollari) 3 numero di anni dal matrimonio 4 status coniugale a 2 anni dal matrimonio (1=Sì) 5 moglie occupata nei primi 2 anni dal matrimonio (1=Sì) 6 numero di figli in età 0 17 anni 7 ulteriori figli in età 0 17 anni a 2 anni dall osservazione (1=Sì) 8 anni di istruzione del capo famiglia 9 Genitori proprietari di casa nell ultimo anno di permanenza del figlio (1=Sì) Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 40 / 54
173 Regressione Logistica Multipla Il modello stimato è Tabella: Risultati della Regressione Logistica sulla Probabilità del Possesso della Casa Variable Estimate Std. Error Est./S.E. Intercept Husband earnings ($10,000) Wife earnings ($10,000) No. years married Married in 2 years (1 = yes) Working wife in 2 years (1 = yes) No. children Add child in 2 years (1 = yes) Head s education (no. years) Parents home ownership (1 = yes) Inizialmente osserviamo l ultima colonna, soffermandoci sui valori esterni l intervallo [-2,2], poi l entità delle stime Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 41 / 54
174 Regressione Logistica Multipla Il modello stimato è Tabella: Risultati della Regressione Logistica sulla Probabilità del Possesso della Casa Variable Estimate Std. Error Est./S.E. Intercept Husband earnings ($10,000) Wife earnings ($10,000) No. years married Married in 2 years (1 = yes) Working wife in 2 years (1 = yes) No. children Add child in 2 years (1 = yes) Head s education (no. years) Parents home ownership (1 = yes) Inizialmente osserviamo l ultima colonna, soffermandoci sui valori esterni l intervallo [-2,2], poi l entità delle stime Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 41 / 54
175 Regressione Logistica Multipla Prendiamo alcune stime: 1 L effetto di ogni figlio in più è positivo e = In protica la stima dell odds cresce del 25% 2 Un incremento di $10,000 dollari all anno ha un effetto moltiplicativo sull odds pari a e = 1.77 per il marito e e = 1.36 per la moglie 3 Avere genitori con la casa di proprietà ha un effetto moltiplicativo sull odds pari a e = 1.47 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 42 / 54
176 Regressione Logistica Multipla Prendiamo alcune stime: 1 L effetto di ogni figlio in più è positivo e = In protica la stima dell odds cresce del 25% 2 Un incremento di $10,000 dollari all anno ha un effetto moltiplicativo sull odds pari a e = 1.77 per il marito e e = 1.36 per la moglie 3 Avere genitori con la casa di proprietà ha un effetto moltiplicativo sull odds pari a e = 1.47 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 42 / 54
177 Regressione Logistica Multipla Prendiamo alcune stime: 1 L effetto di ogni figlio in più è positivo e = In protica la stima dell odds cresce del 25% 2 Un incremento di $10,000 dollari all anno ha un effetto moltiplicativo sull odds pari a e = 1.77 per il marito e e = 1.36 per la moglie 3 Avere genitori con la casa di proprietà ha un effetto moltiplicativo sull odds pari a e = 1.47 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 42 / 54
178 Regressione Logistica Multipla Effetti sulle Probabilità Abbiamo già visto che possiamo sintetizzare la misura dell effetto di un predittore utilizzando l OR Tuttavia la sua interpretazione non è agevole, pertanto si preferisce misurare la dimensione dell effetto su una scala di probabilità Si possono scegliere vari approcci: 1 si riporta il valore di ˆP(y = 1) per particolari valori del predittore di interesse. In questo caso gli altri predittori sono fissi, nel senso che assumono un valore caratteristico (media o altro definito preliminarmente) 2 si riporta di quanto si modifica la ˆP(y = 1) quando il predittore cresce di un certo valore. Le scelte possono essere: a il predittore cresce di un unità b il predittore cresce di un valore pari alla deviazione standard c il predittore cresce dell intero range di valori assunti da X d il predittore cresce di un valore pari allo scarto interquartile Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 43 / 54
179 Regressione Logistica Multipla Effetti sulle Probabilità Abbiamo già visto che possiamo sintetizzare la misura dell effetto di un predittore utilizzando l OR Tuttavia la sua interpretazione non è agevole, pertanto si preferisce misurare la dimensione dell effetto su una scala di probabilità Si possono scegliere vari approcci: 1 si riporta il valore di ˆP(y = 1) per particolari valori del predittore di interesse. In questo caso gli altri predittori sono fissi, nel senso che assumono un valore caratteristico (media o altro definito preliminarmente) 2 si riporta di quanto si modifica la ˆP(y = 1) quando il predittore cresce di un certo valore. Le scelte possono essere: a il predittore cresce di un unità b il predittore cresce di un valore pari alla deviazione standard c il predittore cresce dell intero range di valori assunti da X d il predittore cresce di un valore pari allo scarto interquartile Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 43 / 54
180 Regressione Logistica Multipla Effetti sulle Probabilità Abbiamo già visto che possiamo sintetizzare la misura dell effetto di un predittore utilizzando l OR Tuttavia la sua interpretazione non è agevole, pertanto si preferisce misurare la dimensione dell effetto su una scala di probabilità Si possono scegliere vari approcci: 1 si riporta il valore di ˆP(y = 1) per particolari valori del predittore di interesse. In questo caso gli altri predittori sono fissi, nel senso che assumono un valore caratteristico (media o altro definito preliminarmente) 2 si riporta di quanto si modifica la ˆP(y = 1) quando il predittore cresce di un certo valore. Le scelte possono essere: a il predittore cresce di un unità b il predittore cresce di un valore pari alla deviazione standard c il predittore cresce dell intero range di valori assunti da X d il predittore cresce di un valore pari allo scarto interquartile Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 43 / 54
181 Regressione Logistica Multipla Effetti sulle Probabilità Abbiamo già visto che possiamo sintetizzare la misura dell effetto di un predittore utilizzando l OR Tuttavia la sua interpretazione non è agevole, pertanto si preferisce misurare la dimensione dell effetto su una scala di probabilità Si possono scegliere vari approcci: 1 si riporta il valore di ˆP(y = 1) per particolari valori del predittore di interesse. In questo caso gli altri predittori sono fissi, nel senso che assumono un valore caratteristico (media o altro definito preliminarmente) 2 si riporta di quanto si modifica la ˆP(y = 1) quando il predittore cresce di un certo valore. Le scelte possono essere: a il predittore cresce di un unità b il predittore cresce di un valore pari alla deviazione standard c il predittore cresce dell intero range di valori assunti da X d il predittore cresce di un valore pari allo scarto interquartile Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 43 / 54
182 Regressione Logistica Multipla Nel caso dell esempio sul Possesso della Casa si vuole studiare l effetto del Reddito del Marito Gli altri predittori assumono i seguenti valori: 1 reddito percepito dalla moglie = $50,000 dollari 2 anni dal matrimonio = 3 3 moglie occupata nei primi 2 anni dal matrimonio = 1 (Sì) 4 numero di figli = 0 5 ulteriori figli = 0 (no) 6 anni di istruzione del capo famiglia = 16 7 Genitori proprietari di casa nell ultimo anno di permanenza del figlio = 0 (No) Nel caso di reddito del marito pari a $ dollari, avremo ˆP(y = 1) = e (2)+0.306(5) 0.039(3)+0.373(1) 0.027(16) = e (2)+0.306(5) 0.039(3)+0.373(1) 0.027(16) Per un reddito di $30,000, ˆP(y = 1)=0.55. Per un reddito di $50,000, ˆP(y = 1)=0.79. Per un reddito di $100,000, ˆP(y = 1)=0.98. Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 44 / 54
183 Regressione Logistica Multipla Nel caso dell esempio sul Possesso della Casa si vuole studiare l effetto del Reddito del Marito Gli altri predittori assumono i seguenti valori: 1 reddito percepito dalla moglie = $50,000 dollari 2 anni dal matrimonio = 3 3 moglie occupata nei primi 2 anni dal matrimonio = 1 (Sì) 4 numero di figli = 0 5 ulteriori figli = 0 (no) 6 anni di istruzione del capo famiglia = 16 7 Genitori proprietari di casa nell ultimo anno di permanenza del figlio = 0 (No) Nel caso di reddito del marito pari a $ dollari, avremo ˆP(y = 1) = e (2)+0.306(5) 0.039(3)+0.373(1) 0.027(16) = e (2)+0.306(5) 0.039(3)+0.373(1) 0.027(16) Per un reddito di $30,000, ˆP(y = 1)=0.55. Per un reddito di $50,000, ˆP(y = 1)=0.79. Per un reddito di $100,000, ˆP(y = 1)=0.98. Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 44 / 54
184 Regressione Logistica Multipla Nel caso dell esempio sul Possesso della Casa si vuole studiare l effetto del Reddito del Marito Gli altri predittori assumono i seguenti valori: 1 reddito percepito dalla moglie = $50,000 dollari 2 anni dal matrimonio = 3 3 moglie occupata nei primi 2 anni dal matrimonio = 1 (Sì) 4 numero di figli = 0 5 ulteriori figli = 0 (no) 6 anni di istruzione del capo famiglia = 16 7 Genitori proprietari di casa nell ultimo anno di permanenza del figlio = 0 (No) Nel caso di reddito del marito pari a $ dollari, avremo ˆP(y = 1) = e (2)+0.306(5) 0.039(3)+0.373(1) 0.027(16) = e (2)+0.306(5) 0.039(3)+0.373(1) 0.027(16) Per un reddito di $30,000, ˆP(y = 1)=0.55. Per un reddito di $50,000, ˆP(y = 1)=0.79. Per un reddito di $100,000, ˆP(y = 1)=0.98. Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 44 / 54
185 Regressione Logistica Multipla Nel caso dell esempio sul Possesso della Casa si vuole studiare l effetto del Reddito del Marito Gli altri predittori assumono i seguenti valori: 1 reddito percepito dalla moglie = $50,000 dollari 2 anni dal matrimonio = 3 3 moglie occupata nei primi 2 anni dal matrimonio = 1 (Sì) 4 numero di figli = 0 5 ulteriori figli = 0 (no) 6 anni di istruzione del capo famiglia = 16 7 Genitori proprietari di casa nell ultimo anno di permanenza del figlio = 0 (No) Nel caso di reddito del marito pari a $ dollari, avremo ˆP(y = 1) = e (2)+0.306(5) 0.039(3)+0.373(1) 0.027(16) = e (2)+0.306(5) 0.039(3)+0.373(1) 0.027(16) Per un reddito di $30,000, ˆP(y = 1)=0.55. Per un reddito di $50,000, ˆP(y = 1)=0.79. Per un reddito di $100,000, ˆP(y = 1)=0.98. Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 44 / 54
186 Inferenza per il Modello di Regressione Logistica Inferenza per il Modello di Regressione Logistica Le assunzioni sono: 1 I dati sono estratti casualmente 2 La variabile risposta ha una distribuzione binomiale Presenteremo due Test per l Indipendenza: il Test di Wald e il Test del Rapporto delle Massime Verosimiglianze Si tratta di due tecniche che hanno lo stesso obiettivo Tuttavia il Test di Wald può essere applicato solo su campioni sufficientemente numerosi Il Test del rapporto delle Massime Verosimigliaze va bene anche in presenza di campioni poco numerosi Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 45 / 54
187 Inferenza per il Modello di Regressione Logistica Inferenza per il Modello di Regressione Logistica Le assunzioni sono: 1 I dati sono estratti casualmente 2 La variabile risposta ha una distribuzione binomiale Presenteremo due Test per l Indipendenza: il Test di Wald e il Test del Rapporto delle Massime Verosimiglianze Si tratta di due tecniche che hanno lo stesso obiettivo Tuttavia il Test di Wald può essere applicato solo su campioni sufficientemente numerosi Il Test del rapporto delle Massime Verosimigliaze va bene anche in presenza di campioni poco numerosi Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 45 / 54
188 Inferenza per il Modello di Regressione Logistica Inferenza per il Modello di Regressione Logistica Le assunzioni sono: 1 I dati sono estratti casualmente 2 La variabile risposta ha una distribuzione binomiale Presenteremo due Test per l Indipendenza: il Test di Wald e il Test del Rapporto delle Massime Verosimiglianze Si tratta di due tecniche che hanno lo stesso obiettivo Tuttavia il Test di Wald può essere applicato solo su campioni sufficientemente numerosi Il Test del rapporto delle Massime Verosimigliaze va bene anche in presenza di campioni poco numerosi Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 45 / 54
189 Inferenza per il Modello di Regressione Logistica Inferenza per il Modello di Regressione Logistica Le assunzioni sono: 1 I dati sono estratti casualmente 2 La variabile risposta ha una distribuzione binomiale Presenteremo due Test per l Indipendenza: il Test di Wald e il Test del Rapporto delle Massime Verosimiglianze Si tratta di due tecniche che hanno lo stesso obiettivo Tuttavia il Test di Wald può essere applicato solo su campioni sufficientemente numerosi Il Test del rapporto delle Massime Verosimigliaze va bene anche in presenza di campioni poco numerosi Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 45 / 54
190 Inferenza per il Modello di Regressione Logistica Inferenza per il Modello di Regressione Logistica Le assunzioni sono: 1 I dati sono estratti casualmente 2 La variabile risposta ha una distribuzione binomiale Presenteremo due Test per l Indipendenza: il Test di Wald e il Test del Rapporto delle Massime Verosimiglianze Si tratta di due tecniche che hanno lo stesso obiettivo Tuttavia il Test di Wald può essere applicato solo su campioni sufficientemente numerosi Il Test del rapporto delle Massime Verosimigliaze va bene anche in presenza di campioni poco numerosi Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 45 / 54
191 Inferenza per il Modello di Regressione Logistica Test di Wald Si consideri il modello logit[p(y = 1)] = α+βx, L ipotesi di indipendenza H 0 : β = 0 rappresenta l assenza di effetto di X sul logit Nel caso di campioni sufficientemente numerosi, una buona statistica test è data dal rapporto tra ˆβ e il suo errore standard Si tratta di una statistica che si distribuisce come una Z In molti casi si riporta il quadrato di questa statistica, che si distribuisce come un Chi 2 con un gdl. Il P valore corrispondente è uguale a quello di un test Z per un alternativa bilaterale H a : β 0 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 46 / 54
192 Inferenza per il Modello di Regressione Logistica Test di Wald Si consideri il modello logit[p(y = 1)] = α+βx, L ipotesi di indipendenza H 0 : β = 0 rappresenta l assenza di effetto di X sul logit Nel caso di campioni sufficientemente numerosi, una buona statistica test è data dal rapporto tra ˆβ e il suo errore standard Si tratta di una statistica che si distribuisce come una Z In molti casi si riporta il quadrato di questa statistica, che si distribuisce come un Chi 2 con un gdl. Il P valore corrispondente è uguale a quello di un test Z per un alternativa bilaterale H a : β 0 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 46 / 54
193 Inferenza per il Modello di Regressione Logistica Test di Wald Si consideri il modello logit[p(y = 1)] = α+βx, L ipotesi di indipendenza H 0 : β = 0 rappresenta l assenza di effetto di X sul logit Nel caso di campioni sufficientemente numerosi, una buona statistica test è data dal rapporto tra ˆβ e il suo errore standard Si tratta di una statistica che si distribuisce come una Z In molti casi si riporta il quadrato di questa statistica, che si distribuisce come un Chi 2 con un gdl. Il P valore corrispondente è uguale a quello di un test Z per un alternativa bilaterale H a : β 0 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 46 / 54
194 Inferenza per il Modello di Regressione Logistica Test di Wald Si consideri il modello logit[p(y = 1)] = α+βx, L ipotesi di indipendenza H 0 : β = 0 rappresenta l assenza di effetto di X sul logit Nel caso di campioni sufficientemente numerosi, una buona statistica test è data dal rapporto tra ˆβ e il suo errore standard Si tratta di una statistica che si distribuisce come una Z In molti casi si riporta il quadrato di questa statistica, che si distribuisce come un Chi 2 con un gdl. Il P valore corrispondente è uguale a quello di un test Z per un alternativa bilaterale H a : β 0 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 46 / 54
195 Inferenza per il Modello di Regressione Logistica Test di Wald Si consideri il modello logit[p(y = 1)] = α+βx, L ipotesi di indipendenza H 0 : β = 0 rappresenta l assenza di effetto di X sul logit Nel caso di campioni sufficientemente numerosi, una buona statistica test è data dal rapporto tra ˆβ e il suo errore standard Si tratta di una statistica che si distribuisce come una Z In molti casi si riporta il quadrato di questa statistica, che si distribuisce come un Chi 2 con un gdl. Il P valore corrispondente è uguale a quello di un test Z per un alternativa bilaterale H a : β 0 Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 46 / 54
196 Inferenza per il Modello di Regressione Logistica Test del rapporto delle Massime Verosimiglianze In questo caso il test consente di confrontare due modelli che differiscono tra di loro per la presenza di uno o più parametri in più L ipotesi di base è che i parametri in più presenti nel modello pieno siano uguali a zero Nel caso del modello con un solo predittore si confrontano i modelli logit[p(y = 1)] = α+βx e logit[p(y = 1)] = α Il test si basa sul calcolo della funzione di verosimiglianza, indicata con l Essa fornisce la probabilità di osservare i dati del ns campione come funzione dei parametri utilizzati Il massimo di questa funzione fornisce le stime di massima verosimiglianza Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 47 / 54
197 Inferenza per il Modello di Regressione Logistica Test del rapporto delle Massime Verosimiglianze In questo caso il test consente di confrontare due modelli che differiscono tra di loro per la presenza di uno o più parametri in più L ipotesi di base è che i parametri in più presenti nel modello pieno siano uguali a zero Nel caso del modello con un solo predittore si confrontano i modelli logit[p(y = 1)] = α+βx e logit[p(y = 1)] = α Il test si basa sul calcolo della funzione di verosimiglianza, indicata con l Essa fornisce la probabilità di osservare i dati del ns campione come funzione dei parametri utilizzati Il massimo di questa funzione fornisce le stime di massima verosimiglianza Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 47 / 54
198 Inferenza per il Modello di Regressione Logistica Test del rapporto delle Massime Verosimiglianze In questo caso il test consente di confrontare due modelli che differiscono tra di loro per la presenza di uno o più parametri in più L ipotesi di base è che i parametri in più presenti nel modello pieno siano uguali a zero Nel caso del modello con un solo predittore si confrontano i modelli logit[p(y = 1)] = α+βx e logit[p(y = 1)] = α Il test si basa sul calcolo della funzione di verosimiglianza, indicata con l Essa fornisce la probabilità di osservare i dati del ns campione come funzione dei parametri utilizzati Il massimo di questa funzione fornisce le stime di massima verosimiglianza Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 47 / 54
199 Inferenza per il Modello di Regressione Logistica Test del rapporto delle Massime Verosimiglianze In questo caso il test consente di confrontare due modelli che differiscono tra di loro per la presenza di uno o più parametri in più L ipotesi di base è che i parametri in più presenti nel modello pieno siano uguali a zero Nel caso del modello con un solo predittore si confrontano i modelli logit[p(y = 1)] = α+βx e logit[p(y = 1)] = α Il test si basa sul calcolo della funzione di verosimiglianza, indicata con l Essa fornisce la probabilità di osservare i dati del ns campione come funzione dei parametri utilizzati Il massimo di questa funzione fornisce le stime di massima verosimiglianza Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 47 / 54
200 Inferenza per il Modello di Regressione Logistica Test del rapporto delle Massime Verosimiglianze In questo caso il test consente di confrontare due modelli che differiscono tra di loro per la presenza di uno o più parametri in più L ipotesi di base è che i parametri in più presenti nel modello pieno siano uguali a zero Nel caso del modello con un solo predittore si confrontano i modelli logit[p(y = 1)] = α+βx e logit[p(y = 1)] = α Il test si basa sul calcolo della funzione di verosimiglianza, indicata con l Essa fornisce la probabilità di osservare i dati del ns campione come funzione dei parametri utilizzati Il massimo di questa funzione fornisce le stime di massima verosimiglianza Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 47 / 54
201 Inferenza per il Modello di Regressione Logistica Test del rapporto delle Massime Verosimiglianze In questo caso il test consente di confrontare due modelli che differiscono tra di loro per la presenza di uno o più parametri in più L ipotesi di base è che i parametri in più presenti nel modello pieno siano uguali a zero Nel caso del modello con un solo predittore si confrontano i modelli logit[p(y = 1)] = α+βx e logit[p(y = 1)] = α Il test si basa sul calcolo della funzione di verosimiglianza, indicata con l Essa fornisce la probabilità di osservare i dati del ns campione come funzione dei parametri utilizzati Il massimo di questa funzione fornisce le stime di massima verosimiglianza Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 47 / 54
202 Inferenza per il Modello di Regressione Logistica Test del rapporto delle Massime Verosimiglianze Si indichi con l 0 il massimo della funzione di verosimiglianza quando H 0 è vera e con l 1 il massimo della funzione di verosimiglianza quando H 0 non è vera La statistica test del rapporto delle massime verosimiglianza sarà ( ) l0 2log = ( 2logl 0 ) ( 2logl 1 ). l 1 Si fa il log del rapporto poi moltiplicato per -2, in quanto la quantità che si ottiene tende a distribuirsi come una v.c. Chi 2 con gdl pari al numero dei parametri che differenziano i modelli La discussione del test avviene sempre nel medesimo modo Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 48 / 54
203 Inferenza per il Modello di Regressione Logistica Test del rapporto delle Massime Verosimiglianze Si indichi con l 0 il massimo della funzione di verosimiglianza quando H 0 è vera e con l 1 il massimo della funzione di verosimiglianza quando H 0 non è vera La statistica test del rapporto delle massime verosimiglianza sarà ( ) l0 2log = ( 2logl 0 ) ( 2logl 1 ). l 1 Si fa il log del rapporto poi moltiplicato per -2, in quanto la quantità che si ottiene tende a distribuirsi come una v.c. Chi 2 con gdl pari al numero dei parametri che differenziano i modelli La discussione del test avviene sempre nel medesimo modo Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 48 / 54
204 Inferenza per il Modello di Regressione Logistica Test del rapporto delle Massime Verosimiglianze Si indichi con l 0 il massimo della funzione di verosimiglianza quando H 0 è vera e con l 1 il massimo della funzione di verosimiglianza quando H 0 non è vera La statistica test del rapporto delle massime verosimiglianza sarà ( ) l0 2log = ( 2logl 0 ) ( 2logl 1 ). l 1 Si fa il log del rapporto poi moltiplicato per -2, in quanto la quantità che si ottiene tende a distribuirsi come una v.c. Chi 2 con gdl pari al numero dei parametri che differenziano i modelli La discussione del test avviene sempre nel medesimo modo Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 48 / 54
205 Inferenza per il Modello di Regressione Logistica Test del rapporto delle Massime Verosimiglianze Si indichi con l 0 il massimo della funzione di verosimiglianza quando H 0 è vera e con l 1 il massimo della funzione di verosimiglianza quando H 0 non è vera La statistica test del rapporto delle massime verosimiglianza sarà ( ) l0 2log = ( 2logl 0 ) ( 2logl 1 ). l 1 Si fa il log del rapporto poi moltiplicato per -2, in quanto la quantità che si ottiene tende a distribuirsi come una v.c. Chi 2 con gdl pari al numero dei parametri che differenziano i modelli La discussione del test avviene sempre nel medesimo modo Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 48 / 54
206 Inferenza per il Modello di Regressione Logistica Esempio 15.4 Inferenza sulla Relazione Reddito e Possesso di una Carta di Credito In questo caso l ipotesi H 0 : β = 0 indica che il Reddito non influenza la probabilità di possedere una CC. Il modello è Tabella: Logistic Regression Inference for Italian Credit Card Data B S.E. Wald df Sig. 95% CI per exp(b) reddito Costante Il test Z sarebbe uguale a z = /0.0262= Si vede chiaramente che = è il valore del test di Wald Si può concludere che c è una forte evidenza contro l ipotesi H 0 : β = 0, di assenza di effetto del Reddito sulla Probabilità di Possedere una CC Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 49 / 54
207 Inferenza per il Modello di Regressione Logistica Esempio 15.4 Inferenza sulla Relazione Reddito e Possesso di una Carta di Credito In questo caso l ipotesi H 0 : β = 0 indica che il Reddito non influenza la probabilità di possedere una CC. Il modello è Tabella: Logistic Regression Inference for Italian Credit Card Data B S.E. Wald df Sig. 95% CI per exp(b) reddito Costante Il test Z sarebbe uguale a z = /0.0262= Si vede chiaramente che = è il valore del test di Wald Si può concludere che c è una forte evidenza contro l ipotesi H 0 : β = 0, di assenza di effetto del Reddito sulla Probabilità di Possedere una CC Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 49 / 54
208 Inferenza per il Modello di Regressione Logistica Esempio 15.4 Inferenza sulla Relazione Reddito e Possesso di una Carta di Credito In questo caso l ipotesi H 0 : β = 0 indica che il Reddito non influenza la probabilità di possedere una CC. Il modello è Tabella: Logistic Regression Inference for Italian Credit Card Data B S.E. Wald df Sig. 95% CI per exp(b) reddito Costante Il test Z sarebbe uguale a z = /0.0262= Si vede chiaramente che = è il valore del test di Wald Si può concludere che c è una forte evidenza contro l ipotesi H 0 : β = 0, di assenza di effetto del Reddito sulla Probabilità di Possedere una CC Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 49 / 54
209 Inferenza per il Modello di Regressione Logistica Il test del Rapporto delle Massime Verosimiglianze per l ipotesi H 0 : β = 0, confronterà il modello pieno con il parametro β e quello ridotto con solo l intercetta Il software (SPSS) riporta un valore 2logl = per il modello pieno e un valore pari a 2logl = per quello ridotto La quantità 2log ( l0 l 1 ) = ( 2logl 0 ) ( 2logl 1 ) = = mostra come l effetto sia fortemente significativo Infatti, la quantità Chi 2 = con gdl = 1, ha un P valore < Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 50 / 54
210 Inferenza per il Modello di Regressione Logistica Il test del Rapporto delle Massime Verosimiglianze per l ipotesi H 0 : β = 0, confronterà il modello pieno con il parametro β e quello ridotto con solo l intercetta Il software (SPSS) riporta un valore 2logl = per il modello pieno e un valore pari a 2logl = per quello ridotto La quantità 2log ( l0 l 1 ) = ( 2logl 0 ) ( 2logl 1 ) = = mostra come l effetto sia fortemente significativo Infatti, la quantità Chi 2 = con gdl = 1, ha un P valore < Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 50 / 54
211 Inferenza per il Modello di Regressione Logistica Il test del Rapporto delle Massime Verosimiglianze per l ipotesi H 0 : β = 0, confronterà il modello pieno con il parametro β e quello ridotto con solo l intercetta Il software (SPSS) riporta un valore 2logl = per il modello pieno e un valore pari a 2logl = per quello ridotto La quantità 2log ( l0 l 1 ) = ( 2logl 0 ) ( 2logl 1 ) = = mostra come l effetto sia fortemente significativo Infatti, la quantità Chi 2 = con gdl = 1, ha un P valore < Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 50 / 54
212 Inferenza per il Modello di Regressione Logistica Il test del Rapporto delle Massime Verosimiglianze per l ipotesi H 0 : β = 0, confronterà il modello pieno con il parametro β e quello ridotto con solo l intercetta Il software (SPSS) riporta un valore 2logl = per il modello pieno e un valore pari a 2logl = per quello ridotto La quantità 2log ( l0 l 1 ) = ( 2logl 0 ) ( 2logl 1 ) = = mostra come l effetto sia fortemente significativo Infatti, la quantità Chi 2 = con gdl = 1, ha un P valore < Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 50 / 54
213 Inferenza per il Modello di Regressione Logistica Inferenza per la Regressione Logistica Multivariata Nel caso di una Regressione Logistica Multivariata, l inferenza viene condotta allo stesso modo Naturalmente si tratta di saggiare l effetto di un predittore, controllando per gli altri predittori Nel caso di predittori categoriali, che prevedono l utilizzo di variabili dummy, più che il test di Wald, molto utile risulta il test del Rapporto delle Massime Verosimiglianze Infatti, in presenza di predittori categoriali politomici, è possibile saggiare l effetto dell intero predittore attraverso la rimozione dal modello dei parametri delle dummy che lo caratterizzano Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 51 / 54
214 Inferenza per il Modello di Regressione Logistica Inferenza per la Regressione Logistica Multivariata Nel caso di una Regressione Logistica Multivariata, l inferenza viene condotta allo stesso modo Naturalmente si tratta di saggiare l effetto di un predittore, controllando per gli altri predittori Nel caso di predittori categoriali, che prevedono l utilizzo di variabili dummy, più che il test di Wald, molto utile risulta il test del Rapporto delle Massime Verosimiglianze Infatti, in presenza di predittori categoriali politomici, è possibile saggiare l effetto dell intero predittore attraverso la rimozione dal modello dei parametri delle dummy che lo caratterizzano Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 51 / 54
215 Inferenza per il Modello di Regressione Logistica Inferenza per la Regressione Logistica Multivariata Nel caso di una Regressione Logistica Multivariata, l inferenza viene condotta allo stesso modo Naturalmente si tratta di saggiare l effetto di un predittore, controllando per gli altri predittori Nel caso di predittori categoriali, che prevedono l utilizzo di variabili dummy, più che il test di Wald, molto utile risulta il test del Rapporto delle Massime Verosimiglianze Infatti, in presenza di predittori categoriali politomici, è possibile saggiare l effetto dell intero predittore attraverso la rimozione dal modello dei parametri delle dummy che lo caratterizzano Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 51 / 54
216 Inferenza per il Modello di Regressione Logistica Inferenza per la Regressione Logistica Multivariata Nel caso di una Regressione Logistica Multivariata, l inferenza viene condotta allo stesso modo Naturalmente si tratta di saggiare l effetto di un predittore, controllando per gli altri predittori Nel caso di predittori categoriali, che prevedono l utilizzo di variabili dummy, più che il test di Wald, molto utile risulta il test del Rapporto delle Massime Verosimiglianze Infatti, in presenza di predittori categoriali politomici, è possibile saggiare l effetto dell intero predittore attraverso la rimozione dal modello dei parametri delle dummy che lo caratterizzano Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 51 / 54
217 Inferenza per il Modello di Regressione Logistica Esempio 15.5 Inferenza sul Modello per la Pena di Morte e la Razza di Imputato e Vittima Riprendiamo il modello precedente logit[p(y = 1)] = α+β 1 d +β 2 v, Le variabili dummy d e v indicano, rispettivamente, la razza dell imputato e quella della vittima (Bianca vs Nera in entramnbi i casi) Se β 1 = 0 il verdetto di pena di morte è indipendente dalla razza dell imputato, controllando per quella della vittima Ne consegue che, a livello di popolazione, l odds ratio corrispondente sarà e 0 = 1, per ciascuna razza della vittima Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 52 / 54
218 Inferenza per il Modello di Regressione Logistica Esempio 15.5 Inferenza sul Modello per la Pena di Morte e la Razza di Imputato e Vittima Riprendiamo il modello precedente logit[p(y = 1)] = α+β 1 d +β 2 v, Le variabili dummy d e v indicano, rispettivamente, la razza dell imputato e quella della vittima (Bianca vs Nera in entramnbi i casi) Se β 1 = 0 il verdetto di pena di morte è indipendente dalla razza dell imputato, controllando per quella della vittima Ne consegue che, a livello di popolazione, l odds ratio corrispondente sarà e 0 = 1, per ciascuna razza della vittima Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 52 / 54
219 Inferenza per il Modello di Regressione Logistica Esempio 15.5 Inferenza sul Modello per la Pena di Morte e la Razza di Imputato e Vittima Riprendiamo il modello precedente logit[p(y = 1)] = α+β 1 d +β 2 v, Le variabili dummy d e v indicano, rispettivamente, la razza dell imputato e quella della vittima (Bianca vs Nera in entramnbi i casi) Se β 1 = 0 il verdetto di pena di morte è indipendente dalla razza dell imputato, controllando per quella della vittima Ne consegue che, a livello di popolazione, l odds ratio corrispondente sarà e 0 = 1, per ciascuna razza della vittima Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 52 / 54
220 Inferenza per il Modello di Regressione Logistica Esempio 15.5 Inferenza sul Modello per la Pena di Morte e la Razza di Imputato e Vittima Riprendiamo il modello precedente logit[p(y = 1)] = α+β 1 d +β 2 v, Le variabili dummy d e v indicano, rispettivamente, la razza dell imputato e quella della vittima (Bianca vs Nera in entramnbi i casi) Se β 1 = 0 il verdetto di pena di morte è indipendente dalla razza dell imputato, controllando per quella della vittima Ne consegue che, a livello di popolazione, l odds ratio corrispondente sarà e 0 = 1, per ciascuna razza della vittima Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 52 / 54
221 Inferenza per il Modello di Regressione Logistica Esempio 15.5 Inferenza sul Modello per la Pena di Morte e la Razza di Imputato e Vittima Il software SPSS riporta il seguente prospetto Tabella: Inferenza sul Modello di Regressione Logistica della Pena di Morte rispetto alla Razza dell Imputato e della Vittima B S.E. Wald χ 2 Sig. 95% CI per exp(b) Intercetta imputato=bianco vittima=bianca In riferimento alla razza dell imputato il test Z per H 0 : β 1 = 0 sarà z = 0.868/0.367= 2.36 La corrispondente statistica di Wald sarà ( 2.36) 2 = 5.59, con un P valore pari a Allo stesso modo si osserva un effetto della Razza della Vittima decisamente più rilevante, sia per la dimensione sia per il P valore Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 53 / 54
222 Inferenza per il Modello di Regressione Logistica Esempio 15.5 Inferenza sul Modello per la Pena di Morte e la Razza di Imputato e Vittima Il software SPSS riporta il seguente prospetto Tabella: Inferenza sul Modello di Regressione Logistica della Pena di Morte rispetto alla Razza dell Imputato e della Vittima B S.E. Wald χ 2 Sig. 95% CI per exp(b) Intercetta imputato=bianco vittima=bianca In riferimento alla razza dell imputato il test Z per H 0 : β 1 = 0 sarà z = 0.868/0.367= 2.36 La corrispondente statistica di Wald sarà ( 2.36) 2 = 5.59, con un P valore pari a Allo stesso modo si osserva un effetto della Razza della Vittima decisamente più rilevante, sia per la dimensione sia per il P valore Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 53 / 54
223 Inferenza per il Modello di Regressione Logistica Esempio 15.5 Inferenza sul Modello per la Pena di Morte e la Razza di Imputato e Vittima Il software SPSS riporta il seguente prospetto Tabella: Inferenza sul Modello di Regressione Logistica della Pena di Morte rispetto alla Razza dell Imputato e della Vittima B S.E. Wald χ 2 Sig. 95% CI per exp(b) Intercetta imputato=bianco vittima=bianca In riferimento alla razza dell imputato il test Z per H 0 : β 1 = 0 sarà z = 0.868/0.367= 2.36 La corrispondente statistica di Wald sarà ( 2.36) 2 = 5.59, con un P valore pari a Allo stesso modo si osserva un effetto della Razza della Vittima decisamente più rilevante, sia per la dimensione sia per il P valore Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 53 / 54
224 Inferenza per il Modello di Regressione Logistica Esempio 15.5 Inferenza sul Modello per la Pena di Morte e la Razza di Imputato e Vittima Il software SPSS riporta il seguente prospetto Tabella: Inferenza sul Modello di Regressione Logistica della Pena di Morte rispetto alla Razza dell Imputato e della Vittima B S.E. Wald χ 2 Sig. 95% CI per exp(b) Intercetta imputato=bianco vittima=bianca In riferimento alla razza dell imputato il test Z per H 0 : β 1 = 0 sarà z = 0.868/0.367= 2.36 La corrispondente statistica di Wald sarà ( 2.36) 2 = 5.59, con un P valore pari a Allo stesso modo si osserva un effetto della Razza della Vittima decisamente più rilevante, sia per la dimensione sia per il P valore Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 53 / 54
225 Inferenza per il Modello di Regressione Logistica Test del rapporto delle Massime Verosimiglianze per il Confronto di Modelli di Regressione Logistica Quando si desidera confrontare modelli che differiscono per più di un parametro, conviene applicare il Test per il Rapporto delle Massime Verosimiglianze Si rammenta che la differenza tra ( 2logl 0-2logl 0 ) è una statistca Chi 2 con gdl= numero di parametri rimossi Nel caso del ns modello abbiamo 2log ( l0 l 1 ) = ( 2logl 0 ) ( 2logl 1 ) = = I gdl = 2, per cui il P valore sarà < Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 54 / 54
226 Inferenza per il Modello di Regressione Logistica Test del rapporto delle Massime Verosimiglianze per il Confronto di Modelli di Regressione Logistica Quando si desidera confrontare modelli che differiscono per più di un parametro, conviene applicare il Test per il Rapporto delle Massime Verosimiglianze Si rammenta che la differenza tra ( 2logl 0-2logl 0 ) è una statistca Chi 2 con gdl= numero di parametri rimossi Nel caso del ns modello abbiamo 2log ( l0 l 1 ) = ( 2logl 0 ) ( 2logl 1 ) = = I gdl = 2, per cui il P valore sarà < Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 54 / 54
227 Inferenza per il Modello di Regressione Logistica Test del rapporto delle Massime Verosimiglianze per il Confronto di Modelli di Regressione Logistica Quando si desidera confrontare modelli che differiscono per più di un parametro, conviene applicare il Test per il Rapporto delle Massime Verosimiglianze Si rammenta che la differenza tra ( 2logl 0-2logl 0 ) è una statistca Chi 2 con gdl= numero di parametri rimossi Nel caso del ns modello abbiamo 2log ( l0 l 1 ) = ( 2logl 0 ) ( 2logl 1 ) = = I gdl = 2, per cui il P valore sarà < Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 54 / 54
228 Inferenza per il Modello di Regressione Logistica Test del rapporto delle Massime Verosimiglianze per il Confronto di Modelli di Regressione Logistica Quando si desidera confrontare modelli che differiscono per più di un parametro, conviene applicare il Test per il Rapporto delle Massime Verosimiglianze Si rammenta che la differenza tra ( 2logl 0-2logl 0 ) è una statistca Chi 2 con gdl= numero di parametri rimossi Nel caso del ns modello abbiamo 2log ( l0 l 1 ) = ( 2logl 0 ) ( 2logl 1 ) = = I gdl = 2, per cui il P valore sarà < Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 54 / 54
1. Distribuzioni campionarie
Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013 lezioni di statistica del 3 e 6 giugno 2013 - di Massimo Cristallo - 1. Distribuzioni campionarie
Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo
Metodi statistici per l economia (Prof. Capitanio) Slide n. 9 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 TEST D IPOTESI Partiamo da un esempio presente sul libro di testo.
Probabilità II Variabili casuali discrete
Probabilità II Variabili casuali discrete Definizioni principali. Valore atteso e Varianza. Teorema di Bienaymé - Čebičev. V.C. Notevoli: Bernoulli e Binomiale. Concetto di variabile casuale Cos'è una
LE FUNZIONI A DUE VARIABILI
Capitolo I LE FUNZIONI A DUE VARIABILI In questo primo capitolo introduciamo alcune definizioni di base delle funzioni reali a due variabili reali. Nel seguito R denoterà l insieme dei numeri reali mentre
Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.
Analisi multivariata Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Cercare di capire le relazioni
Statistica inferenziale
Statistica inferenziale Popolazione e campione Molto spesso siamo interessati a trarre delle conclusioni su persone che hanno determinate caratteristiche (pazienti, atleti, bambini, gestanti, ) Osserveremo
La distribuzione Normale. La distribuzione Normale
La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una
Stima per intervalli Nei metodi di stima puntuale è sempre presente un ^ errore θ θ dovuto al fatto che la stima di θ in genere non coincide con il parametro θ. Sorge quindi l esigenza di determinare una
Logaritmi ed esponenziali
Logaritmi ed esponenziali definizioni, proprietà ITIS Feltrinelli anno scolastico 2007-2008 A cosa servono i logaritmi I logaritmi rendono possibile trasformare prodotti in somme, quozienti in differenze,
Funzioni. Parte prima. Daniele Serra
Funzioni Parte prima Daniele Serra Nota: questi appunti non sostituiscono in alcun modo le lezioni del prof. Favilli, né alcun libro di testo. Sono piuttosto da intendersi a integrazione di entrambi. 1
La variabile casuale Binomiale
La variabile casuale Binomiale Si costruisce a partire dalla nozione di esperimento casuale Bernoulliano che consiste in un insieme di prove ripetute con le seguenti caratteristiche: i) ad ogni singola
Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza
Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica
Viene lanciata una moneta. Se esce testa vinco 100 euro, se esce croce non vinco niente. Quale è il valore della mia vincita?
Viene lanciata una moneta. Se esce testa vinco 00 euro, se esce croce non vinco niente. Quale è il valore della mia vincita? Osserviamo che il valore della vincita dipende dal risultato dell esperimento
Il concetto di valore medio in generale
Il concetto di valore medio in generale Nella statistica descrittiva si distinguono solitamente due tipi di medie: - le medie analitiche, che soddisfano ad una condizione di invarianza e si calcolano tenendo
Metodi statistici per le ricerche di mercato
Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2014-2015 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per
Regressione logistica
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer Metodi di classificazione Tecniche principali Alcuni esempi Data set Default I dati La regressione logistica Esempio Il modello
Regressione logistica. Strumenti quantitativi per la gestione
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 1/25 Metodi di classificazione I metodi usati per analizzare
Limited Dependent Variable Models
Limited Dependent Variable Models Logit Tobit Probit Modelli Logit e Probit Latent variable models for binary choice Models for descrete dependent variable Traducendo Spesso vogliamo studiare (le determinanti
La distribuzione Gaussiana
Università del Piemonte Orientale Corso di Laurea in Biotecnologie Corso di Statistica Medica La distribuzione Normale (o di Gauss) Corso di laurea in biotecnologie - Corso di Statistica Medica La distribuzione
PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE
Matematica e statistica: dai dati ai modelli alle scelte www.dima.unige/pls_statistica Responsabili scientifici M.P. Rogantin e E. Sasso (Dipartimento di Matematica Università di Genova) PROBABILITÀ -
1 Serie di Taylor di una funzione
Analisi Matematica 2 CORSO DI STUDI IN SMID CORSO DI ANALISI MATEMATICA 2 CAPITOLO 7 SERIE E POLINOMI DI TAYLOR Serie di Taylor di una funzione. Definizione di serie di Taylor Sia f(x) una funzione definita
Capitolo 12 La regressione lineare semplice
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara
lezione 18 AA 2015-2016 Paolo Brunori
AA 2015-2016 Paolo Brunori Previsioni - spesso come economisti siamo interessati a prevedere quale sarà il valore di una certa variabile nel futuro - quando osserviamo una variabile nel tempo possiamo
Elementi di Psicometria con Laboratorio di SPSS 1
Elementi di Psicometria con Laboratorio di SPSS 1 29-Analisi della potenza statistica vers. 1.0 (12 dicembre 2014) Germano Rossi 1 [email protected] 1 Dipartimento di Psicologia, Università di Milano-Bicocca
Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)
Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B Eventi indipendenti: un evento non influenza l altro Eventi disgiunti: il verificarsi di un evento esclude l altro Evento prodotto:
Intorni Fissato un punto sull' asse reale, si definisce intorno del punto, un intervallo aperto contenente e tutto contenuto in
Intorni Fissato un punto sull' asse reale, si definisce intorno del punto, un intervallo aperto contenente e tutto contenuto in Solitamente si fa riferimento ad intorni simmetrici =, + + Definizione: dato
Prova di autovalutazione Prof. Roberta Siciliano
Prova di autovalutazione Prof. Roberta Siciliano Esercizio 1 Nella seguente tabella è riportata la distribuzione di frequenza dei prezzi per camera di alcuni agriturismi, situati nella regione Basilicata.
Schemi delle Lezioni di Matematica Generale. Pierpaolo Montana
Schemi delle Lezioni di Matematica Generale Pierpaolo Montana A volte i fenomeni economici che ci interessano non variano con continuitá oppure non possono essere osservati con continuitá, ma solo a intervalli
E naturale chiedersi alcune cose sulla media campionaria x n
Supponiamo che un fabbricante stia introducendo un nuovo tipo di batteria per un automobile elettrica. La durata osservata x i delle i-esima batteria è la realizzazione (valore assunto) di una variabile
Basi di matematica per il corso di micro
Basi di matematica per il corso di micro Microeconomia (anno accademico 2006-2007) Lezione del 21 Marzo 2007 Marianna Belloc 1 Le funzioni 1.1 Definizione Una funzione è una regola che descrive una relazione
Transitori del primo ordine
Università di Ferrara Corso di Elettrotecnica Transitori del primo ordine Si consideri il circuito in figura, composto da un generatore ideale di tensione, una resistenza ed una capacità. I tre bipoli
MICROECONOMIA La teoria del consumo: Alcuni Arricchimenti. Enrico Saltari Università di Roma La Sapienza
MICROECONOMIA La teoria del consumo: Alcuni Arricchimenti Enrico Saltari Università di Roma La Sapienza 1 Dotazioni iniziali Il consumatore dispone ora non di un dato reddito monetario ma di un ammontare
Esercizio 2. 2.1 Scrivi l equazione di equilibrio nel mercato dei beni. Qual è il livello della produzione di equilibrio?
Sergio Vergalli Corso di Economia Politica A-G Università di Brescia Esercizio 2 L economia del principato di Andorra è descritta dalle seguenti equazioni: Md = 6Y -120 i Ms = 5400 T = 400 G = 400 dove,
Analisi di scenario File Nr. 10
1 Analisi di scenario File Nr. 10 Giorgio Calcagnini Università di Urbino Dip. Economia, Società, Politica [email protected] http://www.econ.uniurb.it/calcagnini/ http://www.econ.uniurb.it/calcagnini/forecasting.html
Esercitazione n.1 (v.c. Binomiale, Poisson, Normale)
Esercizio 1. Un azienda produce palline da tennis che hanno probabilità 0,02 di essere difettose, indipendentemente l una dall altra. La confezione di vendita contiene 8 palline prese a caso dalla produzione
Capitolo 11 Test chi-quadro
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 11 Test chi-quadro Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università di Padova
Relazioni statistiche: regressione e correlazione
Relazioni statistiche: regressione e correlazione È detto studio della connessione lo studio si occupa della ricerca di relazioni fra due variabili statistiche o fra una mutabile e una variabile statistica
Lezione 9: Cambio di base
Lezione 9: Cambio di base In questa lezione vogliamo affrontare uno degli argomenti piu ostici per lo studente e cioè il cambio di base all interno di uno spazio vettoriale, inoltre cercheremo di capire
Pro e contro delle RNA
Pro e contro delle RNA Pro: - flessibilità: le RNA sono approssimatori universali; - aggiornabilità sequenziale: la stima dei pesi della rete può essere aggiornata man mano che arriva nuova informazione;
Funzioni inverse Simmetrie rispetto alla bisettrice dei quadranti dispari. Consideriamo la trasformazione descritta dalle equazioni : = y
Funzioni inverse Simmetrie rispetto alla bisettrice dei quadranti dispari. Consideriamo la trasformazione descritta dalle equazioni : ' = y y' = Consideriamo il punto P(,5) se eseguiamo tra trasformazione
CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 6
CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 6 Dott.ssa Antonella Costanzo [email protected] Esercizio 1. Stima puntuale per la proporzione Da un lotto di arance se ne estraggono 400, e di queste 180
Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)
Esercitazione #5 di Statistica Test ed Intervalli di Confidenza (per una popolazione) Dicembre 00 1 Esercizi 1.1 Test su media (con varianza nota) Esercizio n. 1 Il calore (in calorie per grammo) emesso
Corrispondenze e funzioni
Corrispondenze e funzioni L attività fondamentale della mente umana consiste nello stabilire corrispondenze e relazioni tra oggetti; è anche per questo motivo che il concetto di corrispondenza è uno dei
LA MASSIMIZZAZIONE DEL PROFITTO ATTRAVERSO LA FISSAZIONE DEL PREZZO IN FUNZIONE DELLE QUANTITÀ
LA MASSIMIZZAZIONE DEL PROFITTO ATTRAVERSO LA FISSAZIONE DEL PREZZO IN FUNZIONE DELLE QUANTITÀ In questa Appendice mostreremo come trovare la tariffa in due parti che massimizza i profitti di Clearvoice,
Statistica Matematica A - Ing. Meccanica, Aerospaziale I prova in itinere - 19 novembre 2004
Statistica Matematica A - Ing. Meccanica, Aerospaziale I prova in itinere - 19 novembre 200 Esercizio 1 Tre apparecchiature M 1, M 2 e M 3 in un anno si guastano, in maniera indipendente, con probabilità
Un po di statistica. Christian Ferrari. Laboratorio di Matematica
Un po di statistica Christian Ferrari Laboratorio di Matematica 1 Introduzione La statistica è una parte della matematica applicata che si occupa della raccolta, dell analisi e dell interpretazione di
SPC e distribuzione normale con Access
SPC e distribuzione normale con Access In questo articolo esamineremo una applicazione Access per il calcolo e la rappresentazione grafica della distribuzione normale, collegata con tabelle di Clienti,
Proposta di soluzione della prova di matematica Liceo scientifico di Ordinamento - 2014
Proposta di soluzione della prova di matematica Liceo scientifico di Ordinamento - 14 Problema 1 Punto a) Osserviamo che g (x) = f(x) e pertanto g () = f() = in quanto Γ è tangente all asse delle ascisse,
Capitolo 5. Funzioni. Grafici.
Capitolo 5 Funzioni. Grafici. Definizione: Una funzione f di una variabile reale,, è una corrispondenza che associa ad ogni numero reale appartenente ad un insieme D f R un unico numero reale, y R, denotato
3 GRAFICI DI FUNZIONI
3 GRAFICI DI FUNZIONI Particolari sottoinsiemi di R che noi studieremo sono i grafici di funzioni. Il grafico di una funzione f (se non è specificato il dominio di definizione) è dato da {(x, y) : x dom
Proof. Dimostrazione per assurdo. Consideriamo l insieme complementare di P nell insieme
G Pareschi Principio di induzione Il Principio di Induzione (che dovreste anche avere incontrato nel Corso di Analisi I) consente di dimostrare Proposizioni il cui enunciato è in funzione di un numero
f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da
Data una funzione reale f di variabile reale x, definita su un sottoinsieme proprio D f di R (con questo voglio dire che il dominio di f è un sottoinsieme di R che non coincide con tutto R), ci si chiede
Matematica generale CTF
Equazioni differenziali 9 dicembre 2015 Si chiamano equazioni differenziali quelle equazioni le cui incognite non sono variabili reali ma funzioni di una o più variabili. Le equazioni differenziali possono
CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI
VERO FALSO CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI 1. V F Un ipotesi statistica è un assunzione sulle caratteristiche di una o più variabili in una o più popolazioni 2. V F L ipotesi nulla unita
Blanchard, Macroeconomia Una prospettiva europea, Il Mulino 2011 Capitolo IV. I mercati finanziari. Capitolo IV. I mercati finanziari
Capitolo IV. I mercati finanziari 1. La domanda di moneta La moneta può essere usata per transazioni, ma non paga interessi. In realtà ci sono due tipi di moneta: il circolante, la moneta metallica e cartacea,
COEFFICIENTI BINOMIALI
COEFFICIENTI BINOMIALI Michele Impedovo micheleimpedovo@uni-bocconiit Una definizione insiemistica Se n è un numero naturale e è un numero naturale compreso tra e n, si indica con il simbolo il coefficiente
LA CORRELAZIONE LINEARE
LA CORRELAZIONE LINEARE La correlazione indica la tendenza che hanno due variabili (X e Y) a variare insieme, ovvero, a covariare. Ad esempio, si può supporre che vi sia una relazione tra l insoddisfazione
Relazioni tra variabili
Università degli Studi di Padova Facoltà di Medicina e Chirurgia Corso di Laurea in Medicina e Chirurgia - A.A. 009-10 Scuole di specializzazione in: Medicina Legale, Medicina del Lavoro, Igiene e Medicina
Scelte in condizioni di rischio e incertezza
CAPITOLO 5 Scelte in condizioni di rischio e incertezza Esercizio 5.1. Tizio ha risparmiato nel corso dell anno 500 euro; può investirli in obbligazioni che rendono, in modo certo, il 10% oppure in azioni
Probabilità discreta
Probabilità discreta Daniele A. Gewurz 1 Che probabilità c è che succeda...? Una delle applicazioni della combinatoria è nel calcolo di probabilità discrete. Quando abbiamo a che fare con un fenomeno che
Verifica di ipotesi e intervalli di confidenza nella regressione multipla
Verifica di ipotesi e intervalli di confidenza nella regressione multipla Eduardo Rossi 2 2 Università di Pavia (Italy) Maggio 2014 Rossi MRLM Econometria - 2014 1 / 23 Sommario Variabili di controllo
STRATEGIA DI TRADING. Turning Points
STRATEGIA DI TRADING Turning Points ANALISI E OBIETTIVI DA RAGGIUNGERE Studiare l andamento dei prezzi dei mercati finanziari con una certa previsione su tendenze future Analisi Tecnica: studio dell andamento
Funzioni funzione dominio codominio legge argomento variabile indipendente variabile dipendente
Funzioni In matematica, una funzione f da X in Y consiste in: 1. un insieme X detto dominio di f 2. un insieme Y detto codominio di f 3. una legge che ad ogni elemento x in X associa uno ed un solo elemento
ESAME DI STATISTICA Nome: Cognome: Matricola:
ESAME DI STATISTICA Nome: Cognome: Matricola: ISTRUZIONI: Per la prova è consentito esclusivamente l uso di una calcolatrice tascabile, delle tavole della normale e della t di Student. I risultati degli
Anno 5 4 Funzioni reali. elementari
Anno 5 4 Funzioni reali elementari 1 Introduzione In questa lezione studieremo alcune funzioni molto comuni, dette per questo funzioni elementari. Al termine di questa lezione sarai in grado di definire
Il confronto fra proporzioni
L. Boni Il rapporto Un rapporto (ratio), attribuendo un ampio significato al termine, è il risultato della divisione di una certa quantità a per un altra quantità b Il rapporto Spesso, in maniera più specifica,
Matematica Finanziaria Soluzione della prova scritta del 15/05/09
Matematica Finanziaria Soluzione della prova scritta del 15/05/09 ESERCIZIO 1 Il valore in t = 60 semestri dei versamenti effettuati dall individuo è W (m) = R(1 + i 2 ) m + R(1 + i 2 ) m 1 +... R(1 +
Funzione logaritmo con. funzione inversa della funzione di
FUNZIONE LOGARITMO a è la base della funzione logaritmo ed è una costante positiva fissata e diversa da 1 x è l argomento della funzione logaritmo e varia nel dominio Funzione logaritmo con funzione inversa
Statistica. Lezione 6
Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 6 a.a 011-01 Dott.ssa Daniela Ferrante
FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE SIMULAZIONE della PROVA SCRITTA di STATISTICA 23/03/2011
FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE SIMULAZIONE della PROVA SCRITTA di STATISTICA 23/3/2 ESERCIZIO (2+2+2+2) La seguente tabella riporta la distribuzione della variabile "Stato Civile"
CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8
CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8 Dott.ssa Antonella Costanzo [email protected] Esercizio 1. Test delle ipotesi sulla varianza In un azienda che produce componenti meccaniche, è stato
Esercizi riassuntivi di probabilità
Esercizi riassuntivi di probabilità Esercizio 1 Una ditta produttrice di fotocopiatrici sa che la durata di una macchina (in migliaia di copie) si distribuisce come una normale con µ = 1600 e 2 = 3600.
Facciamo qualche precisazione
Abbiamo introdotto alcuni indici statistici (di posizione, di variabilità e di forma) ottenibili da Excel con la funzione Riepilogo Statistiche Facciamo qualche precisazione Al fine della partecipazione
La categoria «ES» presenta (di solito) gli stessi comandi
Utilizzo delle calcolatrici FX 991 ES+ Parte II PARMA, 11 Marzo 2014 Prof. Francesco Bologna [email protected] ARGOMENTI DELLA LEZIONE 1. Richiami lezione precedente 2.Calcolo delle statistiche di regressione:
Lezione 14. Risparmio e investimento. Leonardo Bargigli
Lezione 14. Risparmio e investimento Leonardo Bargigli Risparmio e investimento nella contabilità nazionale Ripartiamo dalla definizione di PIL in termini di spesa finale Y = C + I + G + NX Consideriamo
Certificati di investimento e strategie di yield enchancement
Certificati di investimento e strategie di yield enchancement Isabella Liso Deutsche Bank Trading Online Expo 2014 Milano - Palazzo Mezzanotte - 24 ottobre 2014 1 INDICE Introduzione. Express Autocallable...
( x) ( x) 0. Equazioni irrazionali
Equazioni irrazionali Definizione: si definisce equazione irrazionale un equazione in cui compaiono uno o più radicali contenenti l incognita. Esempio 7 Ricordiamo quanto visto sulle condizioni di esistenza
Capitolo 10 Z Elasticità della domanda
Capitolo 10 Z Elasticità della domanda Sommario Z 1. L elasticità della domanda rispetto al prezzo. - 2. La misura dell elasticità. - 3. I fattori determinanti l elasticità. - 4. L elasticità rispetto
Successioni di funzioni reali
E-school di Arrigo Amadori Analisi I Successioni di funzioni reali 01 Introduzione. In questo capitolo applicheremo i concetti di successione e di serie alle funzioni numeriche reali. Una successione di
Econometria. lezione 17. variabili dipendenti binarie. Econometria. lezione 17. AA 2014-2015 Paolo Brunori
AA 2014-2015 Paolo Brunori domande di mutui rigettate - nei dati raccolti a Boston negli anni 90 il tasso di rifiuto è 28% per i neri e 9% per i bianchi - si può parlare di discriminazione? - è possibili
Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza
Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza CALCOLO DELLE PROBABILITÀ E STATISTICA ESAME DEL 17/06/2015 NOME: COGNOME: MATRICOLA: Esercizio 1 Un sistema
Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco
Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco Alfonso Iodice D Enza April 26, 2007 1...prima di cominciare Contare, operazione solitamente semplice, può diventare complicata se lo scopo
Esponenziali elogaritmi
Esponenziali elogaritmi Potenze ad esponente reale Ricordiamo che per un qualsiasi numero razionale m n prendere n>0) si pone a m n = n a m (in cui si può sempre a patto che a sia un numero reale positivo.
Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla
Il metodo della regressione può essere esteso dal caso in cui si considera la variabilità della risposta della y in relazione ad una sola variabile indipendente X ad una situazione più generale in cui
Capitolo 2. Operazione di limite
Capitolo 2 Operazione di ite In questo capitolo vogliamo occuparci dell operazione di ite, strumento indispensabile per scoprire molte proprietà delle funzioni. D ora in avanti riguarderemo i domini A
Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale
Corso di Scienza Economica (Economia Politica) prof. G. Di Bartolomeo Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale Facoltà di Scienze della Comunicazione Università di Teramo Scelta
Elementi di Psicometria con Laboratorio di SPSS 1
Elementi di Psicometria con Laboratorio di SPSS 1 10-Il test t per un campione e la stima intervallare (vers. 1.1, 25 ottobre 2015) Germano Rossi 1 [email protected] 1 Dipartimento di Psicologia,
E NECESSARIO RICORRERE ALLE VARIABILI CASUALI
IL CONCETTO DI VARIABILE CASUALE Associare una misura di probabilità al verificarsi di un certo evento (come esito di un esperimento) non sempre è sufficiente a risolvere gran parte dei problemi reali
Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.
Iniziamo con definizione (capiremo fra poco la sua utilità): DEFINIZIONE DI VARIABILE ALEATORIA Una variabile aleatoria (in breve v.a.) X è funzione che ha come dominio Ω e come codominio R. In formule:
Stime sul costo e sugli effetti distributivi di programmi di contrasto alla povertà. Massimo Baldini (CAPP) Daniele Pacifico (CAPP e MLPS)
Stime sul costo e sugli effetti distributivi di programmi di contrasto alla povertà Massimo Baldini (CAPP) Daniele Pacifico (CAPP e MLPS) Il modello di riferimento Per le simulazioni è stato impiegato
Raccolta degli Scritti d Esame di ANALISI MATEMATICA U.D. 1 assegnati nei Corsi di Laurea di Fisica, Fisica Applicata, Matematica
DIPARTIMENTO DI MATEMATICA Università degli Studi di Trento Via Sommarive - Povo (TRENTO) Raccolta degli Scritti d Esame di ANALISI MATEMATICA U.D. 1 assegnati nei Corsi di Laurea di Fisica, Fisica Applicata,
Tema A. 1.2. Se due eventi A e B sono indipendenti e tali che P (A) = 1/2 e P (B) = 2/3, si può certamente concludere che
Statistica Cognome: Laurea Triennale in Biologia Nome: 26 luglio 2012 Matricola: Tema A 1. Parte A 1.1. Sia x 1, x 2,..., x n un campione di n dati con media campionaria x e varianza campionaria s 2 x
Paperone e Rockerduck: a cosa serve l antitrust?
Paperone e Rockerduck: a cosa serve l antitrust? Paperone Anna Torre, Rockerduck Ludovico Pernazza 1-14 giugno 01 Università di Pavia, Dipartimento di Matematica Concorrenza Due imprese Pap e Rock operano
Matematica Applicata. Probabilità e statistica
Matematica Applicata Probabilità e statistica Fenomeni casuali Fenomeni che si verificano in modi non prevedibili a priori 1. Lancio di una moneta: non sono in grado di prevedere con certezza se il risultato
STATISTICA IX lezione
Anno Accademico 013-014 STATISTICA IX lezione 1 Il problema della verifica di un ipotesi statistica In termini generali, si studia la distribuzione T(X) di un opportuna grandezza X legata ai parametri
Corso di Analisi Matematica. Polinomi e serie di Taylor
a.a. 2013/14 Laurea triennale in Informatica Corso di Analisi Matematica Polinomi e serie di Taylor Avvertenza Questi sono appunti informali delle lezioni, che vengono resi disponibili per comodità degli
CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1
CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1 Dott.ssa Antonella Costanzo [email protected] Esercizio 1. Distribuzione di probabilità, funzione di ripartizione di una v.c. discreta Il tasso di cambio
3. Confronto tra medie di due campioni indipendenti o appaiati
BIOSTATISTICA 3. Confronto tra medie di due campioni indipendenti o appaiati Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health [email protected] MARTA BLANGIARDO
Inferenza statistica I Alcuni esercizi. Stefano Tonellato
Inferenza statistica I Alcuni esercizi Stefano Tonellato Anno Accademico 2006-2007 Avvertenza Una parte del materiale è stato tratto da Grigoletto M. e Ventura L. (1998). Statistica per le scienze economiche,
Università di Napoli Parthenope Facoltà di Ingegneria
Università di Napoli Parthenope Facoltà di Ingegneria Corso di rasmissione Numerica docente: Prof. Vito Pascazio 18 a Lezione: 13/1/4 19 a Lezione: 14/1/4 Sommario rasmissione di segnali PM numerici su
