Concetti introduttivi



Documenti analoghi
1. Distribuzioni campionarie

Regressione Logistica: un Modello per Variabili Risposta Categoriali

Basi di matematica per il corso di micro

LE FUNZIONI A DUE VARIABILI

Dimensione di uno Spazio vettoriale

Capitolo 13: L offerta dell impresa e il surplus del produttore

LEZIONE n. 5 (a cura di Antonio Di Marco)

STATISTICA IX lezione

Relazioni statistiche: regressione e correlazione

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

Il concetto di valore medio in generale

Corso di. Dott.ssa Donatella Cocca

(a cura di Francesca Godioli)

Ottimizazione vincolata

13. Campi vettoriali

Capitolo 2 Distribuzioni di frequenza

E naturale chiedersi alcune cose sulla media campionaria x n

LEZIONE 23. Esempio Si consideri la matrice (si veda l Esempio ) A =

1. PRIME PROPRIETÀ 2

1 Applicazioni Lineari tra Spazi Vettoriali

La distribuzione Normale. La distribuzione Normale

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Parte 3. Rango e teorema di Rouché-Capelli

ESAME DI STATO DI LICEO SCIENTIFICO CORSO SPERIMENTALE P.N.I. 2004

Parte 2. Determinante e matrice inversa

Esercizio 1 Dato il gioco ({1, 2, 3}, v) con v funzione caratteristica tale che:

2. Leggi finanziarie di capitalizzazione

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

Slide Cerbara parte1 5. Le distribuzioni teoriche

2.1 Definizione di applicazione lineare. Siano V e W due spazi vettoriali su R. Un applicazione

LEZIONE 7. Esercizio 7.1. Quale delle seguenti funzioni è decrescente in ( 3, 0) e ha derivata prima in 3 che vale 0? x x2. 2, x3 +2x +3.

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

SPC e distribuzione normale con Access

risulta (x) = 1 se x < 0.

La scelta in condizioni di incertezza

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

4. Operazioni elementari per righe e colonne

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco


b. Che cosa succede alla frazione di reddito nazionale che viene risparmiata?

La Programmazione Lineare

ANALISI DELLE FREQUENZE: IL TEST CHI 2

CONTINUITÀ E DERIVABILITÀ Esercizi risolti

Intorni Fissato un punto sull' asse reale, si definisce intorno del punto, un intervallo aperto contenente e tutto contenuto in

Esercizi su lineare indipendenza e generatori

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

G3. Asintoti e continuità

Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale

UNIVERSITÀ DEGLI STUDI DI TERAMO

Statistica inferenziale

La variabile casuale Binomiale

Luigi Piroddi

LA MASSIMIZZAZIONE DEL PROFITTO ATTRAVERSO LA FISSAZIONE DEL PREZZO IN FUNZIONE DELLE QUANTITÀ

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

Controlli Automatici T. Trasformata di Laplace e Funzione di trasferimento. Parte 3 Aggiornamento: Settembre Prof. L.

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Le funzioni continue. A. Pisani Liceo Classico Dante Alighieri A.S A. Pisani, appunti di Matematica 1

Capitolo 25: Lo scambio nel mercato delle assicurazioni

FUNZIONI ELEMENTARI - ESERCIZI SVOLTI

ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA

2 + (σ2 - ρσ 1 ) 2 > 0 [da -1 ρ 1] b = (σ ρσ1 σ 2 ) = (σ 1

Domande a scelta multipla 1

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

Corso di Matematica per la Chimica

Il confronto fra proporzioni

Funzioni. Parte prima. Daniele Serra

Lezioni di Matematica 1 - I modulo

1. Scopo dell esperienza.

2 Argomenti introduttivi e generali

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

RICERCA OPERATIVA GRUPPO B prova scritta del 22 marzo 2007

MATEMATICA p = 4/6 = 2/3; q = 1-2/3 = 1/3. La risposta corretta è quindi la E).

Lezione 9: Cambio di base

Interesse, sconto, ratei e risconti

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Premesse alla statistica

( x) ( x) 0. Equazioni irrazionali

a) Il campo di esistenza di f(x) è dato da 2x 0, ovvero x 0. Il grafico di f(x) è quello di una iperbole -1 1

Appunti sul corso di Complementi di Matematica - prof. B.Bacchelli Equazioni differenziali lineari omogenee a coefficienti costanti.

Capitolo 25: Lo scambio nel mercato delle assicurazioni

Capitolo 2. Operazione di limite

Determinare la grandezza della sottorete

2 FUNZIONI REALI DI VARIABILE REALE

CONTINUITÀ E DERIVABILITÀ Esercizi proposti. 1. Determinare lim M(sinx) (M(t) denota la mantissa di t)

Facciamo qualche precisazione

Statistiche campionarie

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

SOLUZIONE DEL PROBLEMA 1 TEMA DI MATEMATICA ESAME DI STATO 2015

Matematica 1 - Corso di Laurea in Ingegneria Meccanica

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Un gioco con tre dadi

Vademecum studio funzione

Capitolo 4 Probabilità

Calcolo delle probabilità

Transitori del primo ordine

Transcript:

Indice 1 Concetti introduttivi 3 1.1 Studi sperimentali e studi osservazionali..................... 3 1.2 Concetti iniziali: indipendenza fra eventi..................... 6 1.3 Indipendenza fra variabili casuali......................... 9 1.4 Notazione...................................... 10 1.5 Misure teoriche di associazione fra due v.c. binarie............... 11 1.6 Il cross-product ratio................................ 13 1.7 Misure empiriche.................................. 17 1.8 Il caso di due variabili a più livelli........................ 19 1.9 Il caso di tre variabili binarie: odds di tabelle condizionate........... 20 1.10 Il caso di tre variabili generiche.......................... 22 1.11 In generale....................................... 23 2 Il modello logistico 24 2.1 Introduzione..................................... 24 2.2 La matrice dei dati................................. 24 2.3 Il modello di regressione lineare.......................... 26 2.4 Il modello logistico semplice............................ 28 2.4.1 La forma matriciale............................ 31 2.5 Il modello logistico con due variabili esplicative................. 32 2.6 In generale: il modello logistico multiplo..................... 37 2.6.1 La forma matriciale............................ 39 2.7 La stima mediante massima verosimiglianza................... 39 2.7.1 Matrice di varianze e covarianza asintotica................ 42 2.8 Verifica d ipotesi.................................. 42 2.8.1 Verifica di ipotesi sul modello....................... 43 2.8.2 Verifica d ipotesi sull effetto di una variabile............... 45 2.8.3 Test sul singolo coefficiente........................ 45 1

Capitolo 1 Concetti introduttivi 1.1 Studi sperimentali e studi osservazionali Gli studi statistici si possono suddividere in due grandi gruppi: gli studi sperimentali e quelli osservazionali. Nei primi, l analista controlla alcuni dei fattori che ritiene rilevanti, attraverso ad esempio dosaggi successivi, e può minimizzare gli errori su quelli che non può controllare, attraverso ad esempio assegnazione randomizzata dei dosaggi alle unità. Nei secondi, invece, lo sperimentatore si limita ad osservare i fenomeni così come si manifestano. Il seguente esempio tratta di un esperimento sulla resistenza alla tossicità delle tarme del tabacco. Gruppi di 20 maschi e 20 femmine di tarma sono stati esposti per tre giorni ad un tossico a cui le tarme hanno cominciato a mostrare resistenza. La seguente tabella riporta quanti di essi sono morti. Esempio 1.1 Dose Sesso 1 2 4 8 16 32 Maschio 1 4 9 13 18 20 Femmina 0 2 6 10 12 16 L obbiettivo di questo studio è quantificare gli effetti del tossico, e verificare se questi effetti sono diversi a seconda del sesso. 2

E.Stanghellini Dispense di Statistica IV 3 Negli studi puramente osservazionali, non si può controllare nessuna delle variabili in studio. La seguente tabella di contingenza è relativa a 661 bambini nati in Scozia dal 1981 al 1988 e seguiti per almeno un anno dalla nascita. La variabile Problemi cardiaci vale Sì se la madre ha avuto problemi di cuore durante la gravidanza. La variabile Complicazioni vale Sì se la madre ha avuto altri problemi ginecologici, la variabile Fumo vale Sì se la madre ha fumato almeno una sigaretta al giorno nei primi sei mesi di gravidanza. Esempio 1.2 Problemi Cardiaci Si No Complicazioni Si No Si No Peso \ Fumo Si No Si No Si No Si No 1250 gr. 10 25 12 15 18 12 42 45 > 1250 gr. 7 5 22 19 10 12 202 205 Vi sono vari aspetti che non possono essere tenuti sotto controllo. Ad esempio è possibile che la popolazione di coloro che fumano sia diversa anche per altre caratteristiche rilevanti da quella di coloro che non fumano. In tal caso, l effetto del fumo viene mascherato da questi ulteriori fattori non misurati.

4 E.Stanghellini Dispense di Statistica IV La distinzione fra i due tipi di studio tuttavia può non essere netta. Il seguente esempio tratta di uno studio a carattere sperimentale ma con componenti di natura osservazionale. Si vuole studiare la relazione fra lo screening con la mammografia e il cancro al seno. Il seguente studio è relativo a 62.000 donne di cui 31.000 assegnate a caso allo screening e 31.000 controlli. Queste sono state seguite per 5 anni, registrando le morti per cancro o per altre cause. Solo una parte di coloro assegnate allo screening accetta di farlo (vi sono 10.800 rifiuti). Esempio 1.3 Dimensioni gruppo Cancro Altre cause Trattamento Num. Tasso Num. Tasso Screening 20.200 23 1.1 428 21 Rifiuti 10.800 16 1.5 409 38 Totali 31.000 39 1.3 837 27 Controlli 31.000 63 2.0 879 28 Quali tassi debbono essere presi in considerazione? Se i rifiuti fossero stati casuali, il tasso di mortalità per cancro dei rifiuti (1.5) dovrebbe essere simile a quello dei controlli (2.0). Invece è molto inferiore. Questo fa ritenere che la popolazione dei rifiuti (e di conseguenza dei non rifiuti, ovvero degli screening) sia diversa per caratteristiche non misurate (istruzione, tipo di lavoro ecc. ) da quella degli screening. A conferma di questo, il tasso di mortalità per altre cause è molto di verso nel gruppo dei rifiuti (e nel gruppo dei controlli, questa volta molto superiore). Un analisi statistica ben fatta deve tenere conto di questi effetti.

E.Stanghellini Dispense di Statistica IV 5 1.2 Concetti iniziali: indipendenza fra eventi Sia P la probabilità definita sullo spazio degli eventi associato ad un esperimento casuale e siano A, B,C,..., eventi definiti in quello spazio. Si indichi con Ā, B,... l evento che si verifica se, in ordine, A, B non si verifica. La probabilità condizionata di A dato B è P (A B) = P (A B)/P (B) ed è definita solo se P (B) > 0. Definizione. Indipendenza fra eventi. Due eventi A e B sono indipendenti se: P (A B) = P (A)P (B). Una definizione alternativa di eventi indipendenti è la seguente: P (A B) = P (A). Nel seguito, due eventi A e B indipendenti verrano denotati con A B. Si noti che se A B allora A B. Di conseguenza, la definizione di indipendenza fra due eventi si estende anche alla negazione degli eventi su cui è definita, come si dimostra dal seguente esercizio. ESERCIZIO 1.1 Si verifichi che se A e B sono due eventi indipendenti allora anche A e B sono due eventi indipendenti.

6 E.Stanghellini Dispense di Statistica IV Definizione. Indipendenza condizionata fra eventi. Siano A, B e C tre eventi con P (C) > 0. A e B sono indipendenti condizionatamente a C se e solo se: P (A B C) = P (A C)P (B C). P (A BC) = P (A C) Nel seguito due eventi A e B indipendenti condizionatamente a C sono denotati con A B C. Questa definizione è una riscrittura della indipendenza fra eventi con le probabilità condizionate al posto delle probabilità marginali. Di conseguenza, se A B C allora A B C. Tuttavia, A B C non implica nè è implicato da A B C. Il seguente esempio dà un idea di un fenomeno chepuò generare una tale situazione. L esempio è tratto dal credit scoring. Esempio 1.4 Sia A l evento {il cliente è solvibilie} B l evento {il cliente ha almeno un figlio} e C l evento {il cliente ha un età inferiore a 45 anni}. E plausibile che per clienti con età superiore a 45 anni, l essere solvibili sia indipendente dall avere figli o meno, mentre tale indipendenza non valga in clienti con età inferiore a 45 anni.

E.Stanghellini Dispense di Statistica IV 7 Si noti, inoltre, che l indipendenza fra A e C condizionatamente a B non implica l indipendenza marginale fra A e C. Questo fatto ha una spiegazione intuitiva nel caso in cui, ad esempio, C sia una causa comune di A e B, oppure B sia un evento che influenza C che a sua volta influenza A, come nel seguente esempio. Esempio 1.5 Sia A l evento {il cliente è solvibile} C l evento {il cliente ha una fascia di reddito elevata} e B l evento il cliente {il cliente è libero professionista}. Si supponga che un libero professionista ha una probabilità più elevata di posizionarsi su fasce alte di reddito di chi non lo è e, di conseguenza, di essere un buon cliente. Trascurando l informazione sul reddito, si può concludere che i liberi professionisti sono migliori clienti degli altri. Tuttavia, il fattore determinante della solvibilità è il reddito.

8 E.Stanghellini Dispense di Statistica IV 1.3 Indipendenza fra variabili casuali Come si estende il concetto di indipendenza fra due eventi a quello di indipendenza fra due variabili casuali? Siano X 1, X 2, due variabili casuali qualsiasi. Nel seguito, indicheremo genericamente con f 12 (x 1, x 2 ) la funzione di densità o di massa di probabilità congiunta. Inoltre, indicheremo con, ad esempio, f 12 3 (x 1, x 2 x 3 ) la funzione di densità o di massa di probabilità di X 1 e X 2 condizionata a X 3 (definita solo se f 3 (x 3 ) > 0). Nel caso in cui sia specificato dal contesto che le variabili casuali sono categoriche, allora indicheremo con p 12 (x 1, x 2 ) la funzione di massa di probabilità congiunta e con, ad esempio, p 12 3 (x 1, x 2 x 3 ) la funzione di massa di probabilità di X 1 e X 2 condizionata a X 3. Definizione Indipendenza marginale fra variabili casuali. Due variabili casuali X 1 e X 2 sono indipendenti se e solo se: f 12 (x 1, x 2 ) = f 1 (x 1 )f 2 (x 2 ) per ogni x 1 e x 2. Una definizione equivalente è la seguente: f 1 2 (x 1 x 2 ) = f 1 (x 1 ) per ogni x 1 e x 2 t.c. f 2 (x 2 ) > 0 Nel seguito due v.c. indipendenti saranno indicate con X 1 X 2.

E.Stanghellini Dispense di Statistica IV 9 Definizione Indipendenza condizionale fra variabili casuali. Due variabili casuali X 1 e X 2 sono indipendenti condizionatamente a X 3 se e solo se: f 12 3 (x 1, x 2 x 3 ) = f 1 3 (x 1 x 3 )f 2 3 (x 2 x 3 ) per ogni x 1, x 2 e per ogni x 3 t.c. f 3 (x 3 ) > 0. Equivalenti formulazioni della definizione di indipendenza condizionata sono le seguenti: f 123 (x 1, x 2, x 3 ) = f 13 (x 1, x 3 )f 23 (x 2 x 3 )/f(x 3 ) f 1 23 (x 1, x 2 x 3 ) = f 1 3 (x 1 x 3 ) 1.4 Notazione Siano X 1 e X 2 due variabili casuale categoriche con livelli I 1 e I 2. La loro distribuzione congiunta può essere sintetizzata attraverso una tabella di contingenza rettangolare che ha I 1 righe e I 2 colonne. In questo corso utilizzeremo la convezione di numerare i livelli delle variabili categoriche a partire da 0. Ad esempio, se I 1 = 2 e I 2 = 3 la tabella di contingenza è la seguente: X 2 Totale X 1 0 1 2 0 p 12 (0, 0) p 12 (0, 1) p 12 (0, 2) p 1 (0) 1 p 12 (1, 0) p 12 (1, 1) p 12 (1, 2) p 1 (1) Totale p 2 (0) p 2 (1) p 2 (2) 1 in cui, come detto, p 12 (0, 0) sta ad indicare P (X 1 = 0, X 2 = 0), p 12 (0, 1) sta ad indicare P (X 1 = 0, X 2 = 1) e così via. Inoltre, p 1 (0) sta ad indicare P (X 1 = 0).

10 E.Stanghellini Dispense di Statistica IV 1.5 Misure teoriche di associazione fra due v.c. binarie Sia X 1 una variabile casuale binaria con valori {0, 1} e p 1 (0) = P (X 1 = 0) e p 1 (1) = P (X 1 = 1). Si definisce odds di X 1 il seguente rapporto: odds(x 1 ) = p 1(1) p 1 (0) Non è difficile verificare che esso assume valori fra 0 e +. Inoltre, cresce al crescere della p 1 (0) e assume valore 1 se gli eventi sono equiprobabili. In seguito lavoreremo anche sul logaritmo naturale dell odds, il logit, che è una trasformazione monotona dell odds e varia fra e +. Inoltre, assume inoltre valore 0 se i due eventi sono equiprobabili. Importante Se l odds è maggiore di 1, vuole dire che l evento al numeratore ha probabilità maggiore di 0.5 di verificarsi. Se l odds è minore di 1 vuol dire che l evento al numeratore ha probabilità minore di 0.5 di verificarsi.

E.Stanghellini Dispense di Statistica IV 11 Siano X 1 e X 2 due variabili casuali binarie. La distribuzione congiunta può essere rappresentata dalla seguente tabella: X 2 Totale X 1 0 1 0 p 12 (0, 0) p 12 (0, 1) p 1 (0) 1 p 12 (1, 0) p 12 (1, 1) p 1 (1) Totale p 2 (0) p 2 (1) 1 Si definisca adesso l odds di X 1 condizionato a X 2 = 0. Ovvero, odds(x 1 X 2 = 0) = p 1 2(1 0) p 1 2 (0 0) Moltiplicando numeratore e denominatore per p 2 (0) si può verificare che: odds(x 1 X 2 = 0) = p 12(1, 0) p 12 (0, 0). In maniera analoga se definisca adesso l odds di X 1 condizionato a X 2 = 1: odds(x 1 X 2 = 1) = p 12(1, 1) p 12 (0, 1)

12 E.Stanghellini Dispense di Statistica IV 1.6 Il cross-product ratio Un confronto interessante è fra i due odds condizionati. Se sono uguali l odds di X 1 non varia al variare di X 2. Inoltre, se sono uguali, allora anche gli odds di X 2 condizionati a X 1 sono uguali. Infatti, se allora: da cui p 12 (1, 0) p 12 (0, 0) = p 12(1, 1) p 12 (0, 1) p 12 (0, 1)p 12 (1, 0) = p 12 (0, 0)p 12 (1, 1) p 12 (0, 1) p 1 2(0, 0) = p 12(1, 1) p 12 (1, 0) ovvero odds(x 2 X 1 = 0) = odds(x 2 X 1 = 1). Definiamo il rapporto degli odds, noto come odds ratio o rapporto dei prodotti incrociati che indicheremo talvolta anche con cpr dall inglese cross product ratio: cpr(x 1, X 2 ) = odds(x 1 X 2 = 1) odds(x 1 X 2 = 0) = p 12(1, 1)p 12 (0, 0) p 12 (0, 1)p 12 (1, 0) Invertiamo ora il ruolo delle variabili X 1 e X 2. Come avviamo visto: odds(x 1 midx 2 = x 2 ) = p 12(1, x2) p 12 (0, x2). Ne segue che se i due odds condizionati sono uguali, allora p 12 (1, 0) p 12 (0, 0) = p 12(1, 1) p 12 (0, 1), e il loro rapporto è pari ad 1. Ma quanto il loro rapporto??? Esso è esattamente il cpr(x 1, X 2 ) scritto sopra. Da quanto detto, il cpr è una misura non direzionale di associazione. Essa è anche detta di interazione fra due variabili.

E.Stanghellini Dispense di Statistica IV 13 Importante Se il cpr è maggiore di 1 vuol dire che l odds di X 1 condizionatamente a X 2 = 1 è maggiore dell odds di X 1 condizionatamente a X 2 = 0. Dal momento che X 1 e X 2 si possono scambiare di ruolo, allora se il cpr è maggiore di 1 vuol dire che l odds di X 2 condizionatamente a X 1 = 1 è maggiore dell odds di X 2 condizionatamente a X 1 = 0. Questo si sintetizza con il dire che vi è una associazione positiva fra le due variabili casuali binarie.

14 E.Stanghellini Dispense di Statistica IV Esempio 1.6 Consideriamo la seguente distribuzione ipotetica di probabilità. X 2 Totale X 1 0 1 0 0.05 0.15 0.2 1 0.20 0.60 0.8 Totale 0.25 0.75 1 Il rapporto degli odds è pari a: 0.05 0.6 0.15 0.2 = 1 Di conseguenza, la probabilità condizionata che X 1 sia uguale ad uno non varia al variare di X 2. Analogamente, la probabilità condizionata che X 2 sia uguale a 1 non varia al variare di X 1. Si può dimostrare, infatti, che X 1 e X 2 sono indipendenti. Teorema 1.1 Siano X 1 e X 2 due variabili casuali binarie. Se odds(x 1 X 2 = x 2 ) = a, x 2 = {0, 1}, allora odds(x 1 ) = a. Dimostrazione. Essendo odds(x 1 X 2 = 0) = odds(x 1 X 2 = 1) = a allora p 12 (1, 0) = ap 12 (0, 0) p 12 (1, 1) = ap 12 (0, 1) Sommando termine a termine le due uguaglianze si ottiene (1.1) p 1 (1) = ap 1 (0) e il risultato segue.

E.Stanghellini Dispense di Statistica IV 15 Teorema 1.2 Siano X 1 e X 2 due variabili casuali binarie. Allora, cpr(x 1, X 2 ) = 1 se e solo se X 1 e X 2 sono indipendenti. Dimostrazione. Se sono indipendenti p 12 (x 1, x 2 ) = p 1 (x 1 )p 2 (x 2 ) per ogni valore di x 1 e x 2. Per cui: cpr = p 12(0, 0)p 12 (1, 1) p 12 (0, 1)p 12 (1, 0) = p 1(0)p 2 (0)p 1 (1)p 2 (1) p 1 (0)p 2 (1)p 1 (1)p 2 (0) = 1 Viceversa, se cpr(x 1, X 2 ) = 1 allora p(x 1 X 2 = 0) = p(x 1 X 2 = 1) per ogni x 1. Infatti: da cui Pertanto: 1 p(x 1 X 2 = 0) p(x 1 X 2 = 0) = 1 p(x 1 X 2 = 1) p(x 1 X 2 = 1) 1 p(x 1 X 2 = 0) = 1 p(x 1 X 2 = 1) p(x 1 ) = x 2 p(x 1 x 2 )p(x 2 ) = p(x 1 x 2 ) x 2 p(x 2 ) = p(x 1 x 2 ) per ogni valore di x 1 e x 2.

16 E.Stanghellini Dispense di Statistica IV 1.7 Misure empiriche Il rapporto degli odds è definito su probabilità. Tuttavia, esso può essere usato come misura descrittiva della associazione fra due variabili, quando si dispone di un campione di osservazioni. Si consideri la seguente tabella a doppia entrata, con due righe e tre colonne: X 2 Totale X 1 0 1 2 0 n 12 (0, 0) n 12 (0, 1) n 12 (0, 2) n 1 (0) 1 n 12 (1, 0) n 12 (1, 1) n 12 (1, 2) n 1 (1) Totale n 2 (0) n 2 (1) n 2 (2) n Si ricordi che il rapporto n 12 (0, 0)/n 1 (0) indica la frequenza relativa delle unità che hanno X 1 = 0 nel gruppo di unità che hanno X 2 = 0. Invece, il rapporto n 12 (0, 0)/n 2 (0) indica la frequenza relativa delle unità che hanno X 2 = 0 nel gruppo di unità che hanno X 1 = 0. Domanda: Che interpretazione ha la frequenza relativa n 12 (0, 2)/n 1 (0)? E la frequenza relativa n 12 (0, 2)/n 2 (0)? Il rapporto dei prodotti incrociati si calcola su una tabella di contingenza di dimensioni due per due, come la seguente: X 2 Totale X 1 0 1 0 n 12 (0, 0) n 12 (0, 1) n 1 (0) 1 n 12 (1, 0) n 12 (1, 1) n 1 (1) Totale n 2 (0) n 2 (1) n Con un ragionamento analogo al precedente possiamo vedere il rapporto dei prodotti incrociati come un rapporto di frequenze relative, di riga o di colonna. Tuttavia, data la sua struttura, esso si può calcolare anche sulle frequenze assolute. Ovvero: cpr = n 12(0, 0)n 12 (0, 1) n 12 (0, 1)n 12 (1, 0)

E.Stanghellini Dispense di Statistica IV 17 Esempio 1.7 (segue da 1.2) Si calcoli il cpr della tabella a doppia entrata secondo Problemi cardiaci e Peso. Essa sarà : Problemi cardiaci Totale Peso No Sì 1250 gr. 117 62 179 > 1250 gr. 429 53 482 Totale 546 115 661 Il rapporto degli odds in questa tabella, ottenuta come marginale rispetto alla precedente è pari a: 53 117 62 429 = 0.233 che denota una elevata associazione fra le due variabili. Come la possiamo interpretare? L odds osservato che un bambino nasca con un peso superiore a 1250 gr. dato che la madre ha problemi cardiaci è pari a 0.85 (ovvero 53/62). Questo vuol dire che la frequenza relativa dei nati sottopeso in questo sottogruppo è maggiore della frequenza relativa dei nati normali. L odds che un bambino nasca con un peso superiore a 1250 gr. dato che la madre non ha problemi cardiaci è pari a 3.67 (ovvero 429/117). Pertanto il primo odds è 0.233 volte inferiore al secondo. Questo valore è il rapporto degli odds. Si noti che la interpretazione direzionale della associazione nell esempio precedente deriva dalle nostre informazioni a priori sui fenomeni in studio, secondo cui il fatto che la madre abbia problemi cardiaci è una variabile potenzialmente esplicativa del peso alla nascita del figlio e non il viceversa. Vi sono studi che hanno come scopo fare inferenza anche sulla direzione della associazione. Noi però faremo riferimento solo a situazioni in cui tal direzione è implicita nel fenomeno di studio.

18 E.Stanghellini Dispense di Statistica IV 1.8 Il caso di due variabili a più livelli In questa sezione si estendono le misure di associazione viste in precedenza alla situazione in cui X 1 è binaria e e X 2 e assume un numero generico k di livelli. Siano X 1 e X 2 due variabili casuali categoriche, con X 1 binaria e X 2 che assume I 2 > 2 valori. Ad esempio, se I 2 = 3 la distribuzione doppia può essere sintetizzata attraverso la seguente tabella a doppia entrata: X 2 Totale X 1 0 1 2 0 p 12 (0, 0) p 12 (0, 1) p 12 (0, 2) p 1 (0) 1 p 12 (1, 0) p 12 (1, 1) p 12 (1, 2) p 1 (1) Totale p 2 (0) p 2 (1) p 2 (2) 1 Un modo naturale di procedere è quello di scegliere un livello di X 2 come riferimento e confrontare gli odds condizionati degli altri livelli con il livello di riferimento. La convenzione adottata in questo lavoro è che il livello di riferimento è il livello 0. Questo implica il calcolo di un odds condizionato e di I 2 1 oddsratio nelle corrispondenti I 2 1 sottotabelle 2 2 così evidenziate: X 2 X 1 0 r 0 p 12 (0, 0) p 12 (0, r) 1 p 12 (1, 0) p 12 (1, r) E possibile mostrare, in estensione del teorema 1.2, il seguente: Teorema 1.3 Sia X 1 una v.c. binaria e X 2 una v.c. categorica con I 2 livelli. Se tutti gli I 2 1 odds ratio sono uguali ad 1, le due variabili sono indipendenti, e viceversa.

E.Stanghellini Dispense di Statistica IV 19 1.9 Il caso di tre variabili binarie: odds di tabelle condizionate Siano X 1, X 2 e X 3 tre variabili casuali binarie. La distribuzione congiunta può essere sintetizzata attraverso una tabella di contingenza a tre entrate, come quella seguente: X 3 = 0 X 2 Totale X 1 0 1 0 p 123 (0, 0, 0) p 123 (0, 1, 0) p 13 (0, 0) 1 p 123 (1, 0, 0) p 123 (1, 1, 0) p 13 (1, 0) Totale p 23 (0, 3) p 23 (10) p 3 (0) X 3 =1 X 2 Totale X 1 0 1 0 p 123 (0, 0, 1) p 123 (0, 1, 1) p 13 (0, 1) 1 p 123 (1, 0, 1) p 123 (1, 1, 1) p 13 (1, 1) Totale p 23 (0, 1) p 23 (1, 1) p 3 (1) Si può calcolare per la tabella condizionata, ad esempio ad X 3 = 0, il cross product ratio fra X 1 e X 2. Esso sarà cpr(x 1, X 2 X 3 = 0). Analogamente, si può calcolare il cross product ratio fra X 1 e X 2 per la tabella con X 3 = 1. Esso sarà cpr(x 1, X 2 X 3 = 1). In generale, si indichi con cpr(x 1, X 2 X 3 = x 3 ) il generico cpr. Esso è così dato: cpr(x 1, X 2 X 3 = x 3 ) = p 12 3(1, 1 x 3 )p 12 3 (0, 0 x 3 ) p 12 3 (0, 1 x 3 )p 12 3 (1, 0 x 3 ) ma anche cpr(x 1, X 2 X 3 = x 3 ) = p 123(1, 1, x 3 )p 123 (0, 0, x 3 ) p 123 (0, 1, x 3 )p 123 (1, 0, x 3 )

20 E.Stanghellini Dispense di Statistica IV Di conseguenza, una naturale estensione della misura di associazione fra due variabili binarie al caso di tre variabili binarie è il seguente rapporto di cpr: cpr(x 1, X 2 X 3 = 1) cpr(x 1, X 2 X 3 = 0) = p 123(1, 1, 1)p 123 (0, 0, 1)p 123 (0, 1, 0)p 123 (1, 0, 0) p 123 (0, 1, 1)p 123 (1, 0, 1)p 123 (1, 1, 0)p 123 (0, 0, 0) Esso è uguale ad 1 se l odds ratio fra X 1 e X 2 nella tabella condizionata di X 3 = 0 è uguale all odds ratio fra X 1 e X 2 nella tabella condizionata di X 3 = 1. Dalla formulazione precedente, è possibile verificare che: cpr(x 1, X 2 X 3 = 1) cpr(x 1, X 2 X 3 = 0) = cpr(x 1, X 3 X 2 = 1) cpr(x 1, X 3 X 2 = 0) = cpr(x 2, X 3 X 1 = 1) cpr(x 2, X 3 X 1 = 0) ovvero anche questa misura è una misura di associazione che considera le tre variabili sullo stesso piano. Per questo, è detta misura di interazione del terzo ordine. Si noti che se rapporto odds ratio è pari ad uno, questo implica che l interazione fra due delle tre variabili non variabili non varia al variare della terza. Si può verificare agevolmente che se cpr(x 1, X 2 X 3 = 0) = 1 = cpr(x 1, X 2 X 3 = 1) e allora X 1 X 2 X 3 e viceversa.

E.Stanghellini Dispense di Statistica IV 21 Esempio 1.8 (segue da 1.2). Si calcoli il rapporto degli odds fra Complicazione cardiache e Peso nelle due sottotabelle individuate dai livelli di Complicazioni. Complicazioni =No Problemi cardiaci Totale Peso No Sì 1250 gr. 87 27 114 > 1250 gr. 407 41 448 Totale 494 68 562 Complicazioni =Sì Problemi cardiaci Totale Peso No Sì 1250 gr. 30 35 65 > 1250 gr. 22 12 34 Totale 52 47 99 Il rapporto degli odds nella prima tabella è pari a 0.32, denotando una maggiore frequenza di nati sottopeso nella popolazione delle madri con problemi cardiaci anche nel sottogruppo di madri che non hanno avuto complicazioni. Il rapporto degli odds nella seconda tabella è pari a 0.47, denotando anche qui una maggiore frequenza di nati sottopeso da madri con problemi cardiaci anche nel caso di madri che hanno avuto complicazioni. Ci possiamo adesso chiedere se vi è una differenza significativa fra i due valori (0.32 e 0.47). Se non vi è vuol dire che l effetto dell avere problemi cardiaci non varia al variare del quadro delle altre complicazioni. Altrimenti, se vi è, vuol dire che l effetto varia a seconda del quadro delle complicazioni. In questo secondo caso si dice che vi è una interazione. 1.10 Il caso di tre variabili generiche Siano X 1, X 2, X 3 variabili casuali categoriche, con X 1 binaria X 2 e X 3 categoriche con livelli, rispettivamente, I 2 > 2 e I 3 > 2. In questo caso si sceglie un livello di riferimento per X 3, per convenzione indicato con 0 (si veda la tabella successiva si è posto I 2 = 3).

22 E.Stanghellini Dispense di Statistica IV X 3 = 0 X 2 Totale X 1 0 1 2 0 p 123 (0, 0, 0) p 123 (0, 1, 0) p 123 (0, 2, 0) p 13 (0, 0) 1 p 123 (1, 0, 0) p 123 (1, 1, 0) p 123 (1, 2, 0) p 13 (1, 0) Totale p 23 (0, 0) p 23 (1, 0) p 23 (2, 0) p 3 (0) In questo livello di riferimento si calcola l odds di X 1 condizionato al livello di riferimento di X 2, ovvero l odds(x 1 X 2 = 0X 3 = 0). Inoltre, si calcolano gli I 2 1 odds ratio nel modo visto in precedenza. Successivamente si raffrontano queste grandezze, mediante rapporto, con le analoghe grandezze valutate negli I 3 1 livelli della terza variabile. I raffronti non ridondanti da effettuare saranno pertanto (I 2 1)(I 3 1). 1.11 In generale... Nel caso in cui vi siano più di tre variabili causali, la costruzione delle misure di associazione segue le linee adesso delineate. Nel caso ad esempio di p = 4 con X 1 binaria, i raffronti non ridondanti saranno (I 2 1)(I 3 1)(I 4 1). Relazioni di indipendenza condizionata e marginale fra variabili potranno essere delineate qualora ad esempio si trovino determinate configurazioni di sottoinsiemi odds ratio pari ad uno. Tuttavia in questo corso lavoreremo sempre con modelli con una risposta binaria. Non considereremo mai il caso di più di tre variabili esplicative. SOLUZIONE ES. 1.1. Se A e B sono indipendenti, allora P (A B) = P (A)P (B). Essendo A = (A B) (A B) con A B e A B incompatibili, avremo P (A) = P (A B) + P (A B) = P (A B) + P (A)P (B). Pertanto, P (A B) = P (A)[1 P (B)] e il risultato segue. ESERCIZIO 1.2 Siano X 1 e X 2 due variabili casuali binarie. Si dica come cambia il cpr(x 1, X 2 ) se invertiamo le categorie di X 1. ESERCIZIO 1.3 Siano X 1 e X 2 due variabili casuali con X 1 binaria e X 2 categorica con più di due livelli. Se gli odds(x 1 X 2 = i) sono uguali fra loro e uguali ad a, quanto vale il odds(x 1 ) della marginale di X 1?

Capitolo 2 Il modello logistico 2.1 Introduzione In questo capitolo studieremo modelli in cui una variabile casuale è considerata dipendente, o di risposta, da altre variabili casuali, dette esplicative. Utilizzeremo la convenzione di indicare con Y la v.c. dipendente e con X 1,..., X k le variabili esplicative. Le distribuzioni di interesse per la variabile casuale di risposta Y nei modelli che considereremo sono tipicamente la distribuzione di Bernoulli, la distribuzione binomiale relativa e, per raffronti con il modello di regressione lineare, la distribuzione normale o di Gauss. 2.2 La matrice dei dati Si consideri la seguente rappresentazione dei dati dell esempio 1.1. 23

24 E.Stanghellini Dispense di Statistica IV Sesso. Dose Successi Num. totale 0 1 1 20 0 2 4 20 0 4 9 20 0 8 13 20 0 16 18 20 0 32 20 20 1 1 0 20 1 2 2 20 1 4 6 20 1 8 10 20 1 16 12 20 1 32 16 20 Questo secondo modo di rappresentare i dati ci avvicina alla logica del modello logistico. Infatti, possiamo vedere ogni riga della tabella precedente formata da configurazioni diverse delle esplicative. Sia X 1 la v.c. che descrive il sesso e X 2 la v.c. che descrive il dosaggio. Ogni riga è una configurazione diversa (x 1, x 2 ). Inoltre, in ogni riga si sono effettuate tante ripetizioni di un esperimento di Bernoulliano (in questo caso il num. delle ripetizioni è costante e pari a 20) e si sono contati i successi. L obiettivo dello studio è vedere come cambia la probabilità di successo in ogni riga della tabella precedente. Sia Y la v.c. di Bernoulli. Si vuole mettere in relazione la P (Y = 1 X 1 = x 1, X 2 = x 2 ) con x 1 e x 2. In modo del tutto analogo, possiamo vedere le righe della tabella precedente come un unico esperimento di una binomiale relativa. Il valore atteso della binomiale relativa è ancora P (Y = 1 X 1 = x 1, X 2 = x 2 ). Possiamo rappresentare i dati dell esempio 1.2 con la stessa logica. Nella seguente rappresentazione si pone come successo la nascita di un bambino con peso superiore a 1250gr. Inoltre, si pone Fumo =0 se la madre non ha fumato e 1 altrimenti; Complicazioni =0 se la madre non ha avuto complicazioni e 1 altrimenti; Problemi cardiaci =0 se la madre non ha avuto problemi cardiaci e 1 altrimenti.

E.Stanghellini Dispense di Statistica IV 25 Fumo Complicazioni Problemi Successi Num. totale 0 0 0 205 250 1 0 0 202 244 0 1 0 12 24 1 1 0 10 28 0 0 1 19 34 1 0 1 22 34 0 1 1 5 30 1 1 1 7 17 2.3 Il modello di regressione lineare In questo paragrafo si richiamano alcune nozioni della regressione lineare, necessarie alla comprensione del modello logistico. Sia Y una variabile di risposta continua e X una variabile continua esplicativa. Il modello di regressione lineare assume che: Y = a + bx + ε in cui ε è una variabile casuale continua che esprime l effetto di fattori non osservati che concorrono alla formazione del valore di Y in maniera additiva. Si suppone inoltre E(ε) = 0 e V ar(ε) = σ 2. La prima ipotesi implica che il valore atteso della distribuzione di Y condizionato a X = x è dato da: E(Y X = x) = a + bx. (2.1) La seconda ipotesi implica che la varianza di ogni distribuzione condizionata è costante. I coefficienti a e b sono detti coefficienti di regressione. In particolare, il coefficiente b esprime la variazione sul valore atteso dovuta ad un incremento unitario di x. Il modello di regressione lineare si estende al caso generico di variabili esplicative. Sia adesso x il vettore di variabili esplicative continue con valori x = (x 1, x 2,..., x p ). Il modello di regressione lineare può estendersi al caso multiplo come: E(Y X = x) = a + b 1 x 1 +... + b r x r.

26 E.Stanghellini Dispense di Statistica IV Sia y il vettore N 1 delle osservazioni della variabile casuale risposta Y e X la matrice N p delle variabili esplicative comprensiva dell intercetta, come descritta in precedenza. Indicando con b = (a, b 1, b 2,..., b p ) T il vettore dei parametri, le stime mediante metodo dei minimi quadrati di b possono derivarsi come quel vettore ˆb che minimizza la somma dei quadrati: (y Xb) T (y Xb). Ponendo ŷ = Xˆb, si verifica agevolmente che la stima ˆb soddisfa simultaneamente le equazioni: da cui X T y = X T ŷ (2.2) ˆb = (X T X) 1 X T y. Sotto le ipotesi del modello di regressione, le stime mediante metodo dei minimi quadrati hanno proprietà ottimali. Inoltre, se la distribuzione della variabile casuale Y condizionata alle esplicative è normale, lo stimatore ˆb coincide con quello ottenuto con il metodo della massima verosimiglianza. Nel contesto in studio, la v.c. di risposta è binaria. Se codifichiamo i valori che essa assume in 0 e 1, la Y ha una distribuzioni di Bernoulli. In tal caso, volendo mantenere il parallelismo con il modello di regressione semplice (2.1, sorgono alcuni problemi: Il valore atteso condizionato E(Y X = x) = π(x) = P (Y = 1 X = x) è una probabilità, pertanto compresa fra 0 e 1. Se non introduciamo vincoli sui parametri a e b, il modello di regressione lineare non assicura che il valore atteso sia compreso in questo intervallo, anzi per valori x sufficientemente grandi, o sufficientemente piccoli, può verificarsi che π(x) < 0 oppure π(x) > 1. Di conseguenza, il modello può essere valido in un intervallo ristretto di valori della esplicativa x in cui π(x) è compreso fra 0 e 1. Anche in questo caso, tuttavia, l ipotesi di linearità nell andamento di π(x) può non essere rispettata per valori di π(x) vicini a 0 e 1. In molti fenomeni, in particolare quelli economici, infatti, l incremento di π(x) varia con x e tende a diminuire nei dintorni dei valori limite.

E.Stanghellini Dispense di Statistica IV 27 La varianza condizionata dipende da x, essendo V ar(y X = x) = π(x)[1 π(x)]. Essa tende a zero nei valori di X in cui π(x) tende a zero e ad uno. Inoltre è massima nei valori di x in cui π(x) = 0.5. Questo fatto comporta che le stime del modello di regressione lineare ottenute mediante il metodo dei minimi quadrati ordinari non hanno proprietà ottimali. Per tutti questi motivi nell ambito del credit scoring il modello di regressione lineare non può essere utilizzato, ed occorre considerare una classe di modelli diversa. 2.4 Il modello logistico semplice Sia Y una variabile risposta con distribuzione Bernoulli e X una variabile esplicativa. Si indichi con π(x) = P (Y = 1 X = x) = 1 P (Y = 0 X = x). Pertanto: π(0) = P (Y = 1 X = 0) e π(1) = P (Y = 1 X = 1). Si indichi con logit[π(x)] la grandezza: logit[π(x)] = log P (Y = 1 X = x) P (Y = 0 X = x). Essa è il logaritmo dell odds di Y condizionato a X e varia fra e + ; vale 0 quanto la probabilità condizionata di successo è 0.5. Il modello logistico semplice è il seguente: logit[π(x)] = log π(x) 1 π(x) = α + βx. Come si può agevolmente verificare, se β > 0 allora π(x) tende ad 1 al crescere di x. Altrimenti, se β < 0 allora π(x) tende ad 0 al crescere di x. Se β = 0 allora π(x) è costante rispetto a x, ovvero Y e X sono indipendenti. Risolvendo rispetto a π(x): π(x) = exp(α + βx) 1 + exp(α + βx). Questo modello è detto di regressione logistica, o anche modello logistico. L interpretazione di α e β varia a seconda della natura di X. (a) Se X è continua possiamo calcolare dπ(x)/dx = βπ(x)(1 π(x)) che esprime la velocità con cui la π(x) tende a 0 o ad 1. Si può

28 E.Stanghellini Dispense di Statistica IV 1 0.9 0.8 0.7 0.6 π (x) 0.5 0.4 0.3 0.2 0.1 0 20 15 10 5 0 5 10 15 20 x Figura 2.1: Un esempio di funzione logistica con α = 0.7 e β = 0.5. osservare che la velocità con cui tende a 0 è la stessa con cui tende a 1. Inoltre, il punto più ripido della curva è in corrispondenza della x t.c. π(x) = 0.5. Questo punto è dato da α/β. In Figura 2.1 è riportato il grafico di una funzione logistica con α = 0.7 e β = 0.5. (b) Supponiamo adesso che X sia binaria. Si codifichino i livello della X con 0 e 1. Avremo: logit[π(x)] = log π(x) 1 π(x) = α + βx. Questo è in realtà un modo sintetico di scrivere le due equazioni: logit[π(0)] = log logit[π(1)] = log π(0) 1 π(0) = α π(1) 1 π(1) = α + β.

E.Stanghellini Dispense di Statistica IV 29 Il parametro α è il logaritmo dell odds di Y nel livello 0 di X, inoltre β è il log dell cpr della tabella 2 2 di Y contro X, ovvero cpr(y, X) = e β. Infatti sottraendo la prima equazione dalla seconda, si ottiene: Infatti, ricordando che e che logit[π(1)] logit[π(0)] = β. P (Y = 1 X = 1) logit[π(1)] = log P (Y = 0 X = 1) P (Y = 1 X = 0) logit[π(0)] = log P (Y = 0 X = 0) = logp (Y = 1, X = 1) P (Y = 0, X = 0) = logp (Y = 1, X = 0) P (Y = 0, X = 0) il risultato segue. Se β è positivo (negativo), la probabilità P (Y = 1 X) nel passare dal valore X = 0 al valore X = 1 aumenta (diminuisce). Si noti che il modello precedente ricostruisce perfettamente le probabilità della distribuzione congiunta di Y e X. Questo pertanto è un modello saturo, ovvero non impone nessuna semplificazione. Se β = 0, allora cpr(y, X) = 0 e, come visto nel capitolo precedente, Y e X sono indipendenti, ovvero non vi è in X nessuna informazione sulla v.c. Y. (c) Il modello di regressione logistico si estende al caso in cui la variabile esplicativa è categorica con I livelli, che codifichiamo con {0, 1,..., r,... I 1}. Si indichi, per semplicità, con π(r) = P (Y = 1 X = r). Il modello può pertanto scriversi nel modo seguente: logit[π(0)] = log π(0) 1 π(0) = α logit[π(r)] = log π(r) 1 π(r) = α + β r r {1,..., I 1} (2.3) con β r il log del cpr della sottotabella: X Y 0 r 0 p Y X (0, 0) p Y X (0, r) 1 p Y X (1, 0) p Y X (1, r)

30 E.Stanghellini Dispense di Statistica IV Una espressione equivalente del modello (2.3) usa le variabili dummy. Sia X r una variabile casuale binaria che assume valore 1 se la v.c. categorica assume valore r e 0 altrimenti, r {1,..., I 1}. Il modello è logit[π(x 1, x 2,..., x I 1 )] = α + β 1 x 1 + β 2 x 2 +... + β I 1 x I 1. La scelta della parametrizzazione del modello logistico non è unica. Quella qui presentata, detta d angolo, è quella maggiormente utilizzata dai software statistici che stimano il modello logistico. Il nome deriva dal fatto che una modalità viene presa come riferimento, e i parametri relativi alle altre modalità rappresentano la distanza da questa. Si osservi che esiste sempre un modello che ricostruisce perfettamente le probabilità della distribuzione congiunta di (Y, X). Questo modello è detto saturo ed ha tutti i parametri diversi da zero. Tuttavia l obiettivo dell analisi statistica è trovare delle regolarità nella descrizione delle associazioni verificando se alcuni parametri possono essere posti uguale a zero senza perdita di informazione. Ad esempio, se tutti i β r sono uguali a zero, allora logit[π(r)] = α per ogni r {1,..., I 1} e pertanto Y e X sono indipendenti. Di conseguenza, la classificazione delle unità secondo la variabile X è ridondante e non aggiunge informazioni sulla variabile Y. 2.4.1 La forma matriciale Il modello logistico semplice può essere scritto in forma matriciale, attraverso la costruzione della matrice del disegno X. Nel caso in cui la la variabile esplicativa sia continua, questa coincide con quella del modello di regressione classico. Illustriamo con un esempio il caso in cui questa è categorica. Esempio 2.1 Si abbia la seguente tabella di contingenza doppia:

E.Stanghellini Dispense di Statistica IV 31 X Totale Y 0 1 2 0 p Y X (0, 0) p Y X (0, 1) p Y X (0, 2) p Y (0) 1 p Y X (1, 0) p Y X (1, 1) p Y X (1, 2) p Y (1) Totale p X (0) p X (1) p X (2) 1 Si indichino i livelli della X attraverso due variabili dummy e si crei il vettore dei logit in ogni livello della X, come la seguente tabella mette in evidenza. logit[π(i)] logit[π(x 2, x 3 )] Parametri logit[π(1)] logit[π(0, 0)] α logit[π(2)] logit[π(1, 0)] α + β 1 logit[π(3)] logit[π(0, 1)] α + β 2 La configurazione precedente suggerisce una forma matriciale. ponga: Si η = logit[π(0, 0)] logit[π(1, 0)] logit[π(0, 1)]. Vi si associ la matrice X del disegno così costruita: X = 1 0 0 1 1 0. 1 0 1 Sia β T = {α, β 1, β 2 }. Il modello si può riscrivere come: η = X β. 2.5 Il modello logistico con due variabili esplicative Si distinguono i casi a seconda della natura delle variabili esplicative. Si hanno due casi di interesse.

32 E.Stanghellini Dispense di Statistica IV (a) Le X j sono una v.c. continua e una v.c. binaria. Sia X 1 la variabile binaria. Un primo modello è il seguente: logit[π(x 1, x 2 )] = α + β 1 x 1 + β 2 x 2 che implica, nel caso in cui X 1 = 0, e, nel caso in cui X 1 = 1: logit[π(0, x 2 )] = α + β 2 x 2 logit[π(1, x 2 )] = α + β 1 + β 2 x 2. L interpretazione del modello è la seguente: vi è un effetto della v.c. X 1 e un effetto della v.c. X 2. L effetto della prima ha come conseguenza quella di innalzare (se β 1 è positivo, abbassare altrimenti) la retta che spiega l andamento del logit. Infatti: logit[π(1, x 2 )] logit[π(0, x 2 )] = β 1. La pendenza della retta, tuttavia, che descrive la dipendenza del logit rispetto a X 2 è costante e pari a β 2 nei due valori X 1. Questo modello contiene solo gli effetti principali delle variabili esplicative. In Figura 2.2 è presentato il grafico delle due rette per α = 0.2, β 1 = 0.4 e β 2 = 0.02. Un modello più complesso del precedente contiene anche le interazioni ed è costruito nel seguente modo. Si crei una variabile x 3 data dal prodotto della x 1 x 2. Così costruita, x 3 vale 0 se X 1 = 0 e x 2 se X 1 = 1. Il modello sarà allora: logit[π(x 1, x 2 )] = α + β 1 x 1 + β 2 x 2 + β 3 x 3. Esso è un modo sintetico di scrivere le due equazioni: nel caso in cui X 1 = 0, e: logit[π(0, x 2 )] = α + β 2 x 2

E.Stanghellini Dispense di Statistica IV 33 2 1.8 1.6 1.4 logit π(1,x 2 )=α+β 1 +β 2 x 2 logit π(x 1,x 2 ) 1.2 1 0.8 logit π(0,x 2 )=α+β 2 x 2 0.6 0.4 0.2 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 x 2 Figura 2.2: Un esempio di modello logistico con α = 0.2, β 1 = 0.4 e β 2 = 0.02. logit[π(1, x 2 )] = α + β 1 + β 2 x 2 + β 3 x 2 altrimenti. La pendenza della retta che descrive l andamento del logit rispetto a X 2 nella popolazione con X 1 = 1 è pertanto β 2 + β 3. L interpretazione del modello è la seguente: vi è un effetto di X 1 e un effetto di X 2. L effetto di X 1 ha come conseguenza sia quella di innalzare (se β 1 è positivo, abbassare altrimenti) la retta che spiega l andamento del logit, sia quella di aumentarne la pendenza (se β 3 è positivo, diminuirne altrimenti). Infatti: logit[π(1, x 2 )] logit[π(0, x 2 )] = β 1 + β 3 x 2. Nel grafico del modello, a differenza di quello in Figura 2.2, le due rette che descrivono l andamento del logit rispetto alla x 2 non sono parallele. Quando l effetto di una variabile sulla variabili risposta si modifica in conseguenza del variare di una seconda variabile si dice che vi è una

34 E.Stanghellini Dispense di Statistica IV interazione di primo ordine. interazione. (b) Le X j sono due v.c. binarie. Il coefficiente β 3 è detto coefficiente di Nel caso di due variabili esplicative binarie X 1 e X 2, i dati possono essere sintetizzati da una tabella 2 2 2. Il modello logistico con solo gli effetti principali può scriversi anche nel modo seguente: logit[π(x 1, x 2 )] = α + β X 1 x 1 + β X 2 x 2. (2.4) Per l interpretazione dei coefficienti si seguono le linee già delineate. Avremo: logit[π(1, m)] logit[π(0, m)] = β X 1 per ogni m = {0, 1} ovvero, β X 1 è il logaritmo del rapporto dei prodotti incrociati nelle due tabelle individuate dai valori di X 2. Infatti, supponiamo m = 0: e pertanto β X 1 = logit[π(1, 0)] logit[π(0, 0)] β X 1 = log P (Y = 1 X 1 = 1, X 2 = 0) P (Y = 0 X 1 = 1, X 2 = 0) logp (Y = 1 X 1 = 0, X 2 = 0) P (Y = 0 X 1 = 0, X 2 = 0). Moltiplicando per P (X 1 = 1 X 2 = 0) il numeratore e il denominatore della prima frazione e per P (X 1 = 0 X 2 = 0) il numeratore e il denominatore della seconda, si ottiene: da cui β X 1 = log P (Y = 1, X 1 = 1 X 2 = 0)P (Y = 0, X 1 = 0 X 2 = 0) P (Y = 0, X 1 = 1 X 2 = 0)P (Y = 1, X 1 = 0 X 2 = 0) β X 1 = log cpr(y, X 1 X 2 = 0). Come la precedente equazione mette in evidenza, β X 1 è il logaritmo del cpr nella sottotabella in cui X 2 = 0. Ponendo m = 1 si arriva,

E.Stanghellini Dispense di Statistica IV 35 attraverso analoghi passaggi, a verificare che β X 1 è il logaritmo del cpr nella sottotabella in cui X 2 = 1. Per simmetria, il coefficiente β X 2 si presta alll interpretazione analoga, di logaritmo del cpr nella sottotabella in cui X 1 = 0 e, anche, di logaritmo del cpr nella sottotabella in cui X 1 = 1. Da quanto detto, il modello precedente implica che l effetto di X 1 su Y non varia al variare della X 2 e, analogamente, l effetto di X 2 su Y non varia al variare di X 1. Questa ipotesi è spesso irrealistica. Per fare questo occorre inserire un ulteriore coefficiente nel modello, come spiega il prossimo esempio. Esempio 2.2 Si consideri il seguente modello logistico con due variabili esplicative binarie X 1 e X 2 : logit[π(x 1, x 2 )] = α + β X 1 x 1 + β X 2 x 2 + β X 1X 2 x 1 x 2. (2.5) Come la seguente tabella mette in evidenza, il modello è saturo. logit[π(x 1, x 2 )] Parametri logit[π(0, 0)] α logit[π(1, 0)] α + β X 1 logit[π(0, 1)] α + 0 + β X 2 logit[π(1, 1)] α + β X 1 + β X 2 + β X 1X 2 In questo modello: logit[π(1, 0)] logit[π(0, 0)] = β X 1 da cui deriva che β X 1 è il logaritmo del cpr(y, X 1 X 2 = 0). Inoltre, logit[π(1, 1)] logit[π(0, 1)] = β X 1 + β X 1X 2 = log cpr(y, X 1 X 2 = 1) Di conseguenza: log cpr(y, X 1 X 2 = 1) cpr(y, X 1 X 2 = 0) = βx 1X 2.

36 E.Stanghellini Dispense di Statistica IV Ma, per simmetria, log cpr(y, X 2 X 1 = 0) cpr(y, X 2 X 1 = 1) = βx 1X 2. Pertanto, β X 1X 2 è il parametro che esprime l effetto su Y dovuto all interazione di X 1 e X 2. 2.6 In generale: il modello logistico multiplo Analogamente al modello di regressione lineare, il modello di regressione logistico si estende al caso multiplo. Sia X un vettore di v.c. p-dimensionale che assume valori x = (x 1, x 2,..., x p ) T. Sia π(x) = P (Y = 1 x). Il modello logistico multiplo ha la seguente espressione: da cui: logit[π(x)] = log π(x) 1 π(x) = α + β 1x 1 +... + β p x p P (Y = 1 x) = π x) = exp(α + β 1x 1 +... + β p x p ) 1 + exp(α + β 1 x 1 +... + β p x p ) e anche: P (Y = 0 x) = 1 1 + exp(α + β 1 x 1 +... + β p x p ). Anche in questo caso, l interpretazione dei coefficienti varia a seconda della natura delle variabili in X. Nel caso in cui le variabili in X siano continue, il coefficiente β j esprime come varia il logit di Y ad una variazione unitaria di X j, mantenendo costanti le altre variabili. Più difficile invece è l interpretazione dei coefficienti nel caso in cui le variabile esplicative sono categoriche. Allo scopo di introdurre gradualmente il lettore, si inizia dalla situazione più semplice, in cui si hanno variabili esplicative binarie. (c) Le X j sono p variabili casuali binarie con p > 2.

E.Stanghellini Dispense di Statistica IV 37 Supponiamo di avere tre v.c. variabili binarie X 1, X 2, X 3. Un possibile modello è il seguente: logit[π(x 1, x 2, x 3 )] = α + β X 1 x 1 + β X 2 x 2 + β X 3 x 3 + β X 1X 2 x 1 x 2. (2.6) Questo modello implica che: logit[π(x 1, x 2, 1)] logit[π(x 1, x 2, 0)] = β X 3 ovvero, il rapporto dei prodotti incrociati fra Y e X 3 è costante in tutte le 2 2 tabelle condizionate congiuntamente a X 1 e X 2. Inoltre: log cpr(y, X 1 X 2 = 1, X 3 = 0) cpr(y, X 1 X 2 = 0, X 3 = 0) = βx 1X 2 = cpr(y, X 1 X 2 = 1, X 3 = 1) cpr(y, X 1 X 2 = 0, X 3 = 1) ovvero, il rapporto dei prodotti incrociati fra Y e X 1 varia al variare di X 2 ma è costante rispetto a X 3. Pertanto, β X 1X 2 è il parametro che esprime l effetto su Y dovuto alla interazione fra X 1 e X 2. Tale parametro non dipende dai livelli di X 3, ovvero non varia se X 3 assume valore 0 o 1. Il modello saturo con tre variabili esplicative binarie avrà un parametro α; 3 parametri β X j che esprimono gli effetti principali; ( 3 2) parametri di interazione doppia e un parametro di interazione tripla. In tal caso, ogni combinazione (x 1, x 2, x 3 ) delle variabili esplicative esprime un diverso valore atteso della variabile casuale Y. Con un generico numero p di v.c. binarie la determinazione dei parametri di un modello saturo può farsi di conseguenza. (d) Caso in cui le X j sono p variabili sono categoriche. La teoria precedente permette di estendere abbastanza agevolmente l interpretazione del modello logistico multiplo al caso generico di p variabili esplicative categoriche. Il modello 2.6 può scriversi alternativamente: logitπ(k, m, r) = α + β X 1 k + β X 2 m + β X 3 r + β X 1X 2 km in cui, per evitare la ridondanza fra parametri, si impone che β X 1 0 = β X 2 0 + β X 3 0 = 0 e anche β X 1X 2 km = 0 in ogni configurazione (k, m) in cui

38 E.Stanghellini Dispense di Statistica IV k = 0 oppure m = 0. Questo permette di scrivere l equazione di un modello con un numero generico di variabili esplicative categoriche. Ad esempio, si consideri il seguente modello con quattro variabili esplicative: logit[π(k, m, r, l)] = α + β X 1 k + β X 2 m + β X 3 r + β X 4 l + β X 1X 2 km + βx 1X 4 kl. Esso implica che tutte le variabili hanno un effetto sulla Y ; l effetto della variabile X 1 varia con X 2 ; l effetto della variabile X 1 varia con X 4 ; infine l effetto di X 3 non varia al variare delle altre variabili. Per convenzione si assegna valore zero a tutti i parametri relativi a configurazioni delle X che coinvolgono le modalità 0 di riferimento. 2.6.1 La forma matriciale Anche il modello logistico multiplo può essere scritto in forma matriciale, attraverso la costruzione della matrice del disegno X. Sia η il vettore dei logit nella tabella ottenuta attraverso la classificazione congiunta delle variabili esplicative. Avremo: η = Xβ in cui X è la matrice del disegno. Si comprende quindi che il numero di parametri del modello coincide con il rango della matrice X, ovvero con il numero di colonne linearmente indipendenti nella matrice del disegno. Si veda l Esercizio 2.5 per la forma matriciale del modello (2.5). 2.7 La stima mediante massima verosimiglianza Si indichi con x i il vettore riga delle variabili esplicative associato alla i-esima cella della tabella di contingenza ottenuta dalla classificazione congiunta delle unità secondo le variabili esplicative. Le variabili in x i, x ij, sono continue o variabili dummy di variabili categoriche e delle loro interazioni. Siano N le celle della tabella così ottenuta. Per ogni cella i si hanno n i osservazioni di cui w i sono successi. Si scriva il modello di regressione logistico nella seguente forma: logitπ(x i ) = p β j x ij (2.7) j=1

E.Stanghellini Dispense di Statistica IV 39 in cui si è posto α = β 1 e x i1 = 1. Si assume che ogni cella sia una estrazione di una v.c. binomiale relativa W i di dimensione n i e valore atteso π(x i ). La funzione di probabilità nella cella i-esima è pertanto pari a ( ) ni π(x i ) w i [1 π(x i )] n i w i con e w i π(x i ) = 1 π(x i ) = exp( p j=1 β jx ij ) 1 + exp( p j=1 β jx ij ). (2.8) 1 1 + exp( p j=1 β jx ij ). Si indichi con l i (β) la log-verosimiglianza della i-esima estrazione. Questa è proporzionale alla seguente espressione: l i (β) = w i log π(x i ) + (n i w i ) log[1 π(x i )] (2.9) in cui w i è la somma dei successi in ogni cella i. Per N estrazioni indipendenti, la log-verosimiglianza del campione L = i l i è proporzionale alla seguente: L(β) = i {w i log π(x i ) + (n i w i ) log[1 π(x i )]} da cui: L(β) = i w i log π(x i) 1 π(x i ) + i n i log [1 π(x i )]. (2.10) Notando che w i log π(x i) 1 π(x i i ) = i w i ( j β j x ij ) = j β j ( i w i x ij ) avremo w i x ij ) [ n i log 1 + exp ( )] β j x ij. L(β) = j β j ( i i j

40 E.Stanghellini Dispense di Statistica IV La stima di massima verosimiglianza si ottiene uguagliando a zero le derivate parziali L(β)/ β j. Essendo L(β) β j = i w i x ij i n i x ij exp( k β kx ik ) 1 + exp( k β kx ik ) il sistema di equazioni di verosimiglianza è pertanto w i x ij x ij n iˆπ(x i ) = 0, j = {1,..., p} (2.11) i i in cui ˆπ(x i ) è la probabilità di successo stimata, ottenuta sostituendo in (2.8) le stime ˆβ j e n iˆπ(x i ) sono le frequenze teoriche, ovvero stimate dal modello. Se con X indichiamo adesso la matrice di dimensioni N p con righe x i e con w indichiamo il vettore N 1 di elementi w i e con ŵ il vettore N 1 di elementi n iˆπ(x i ), possiamo riscrivere le equazioni di verosimiglianza in forma matriciale: X T w = X T ŵ. Si noti l analogia con la (2.2). Tuttavia, a differenza del modello di regressione lineare, in questo caso il sistema non ha soluzione esplicita, tranne nel caso non interessante in cui il modello è un modello saturo. In tutti gli altri casi, la massimizzazione della funzione di verosimiglianza si ottiene attraverso algoritmi iterativi. Gli algoritmi di massimizzazione della funzione di verosimiglianza maggiormente utilizzati nei software statistici sono il Newton-Raphson o il Fisher scoring (si veda, ad esempio, Tanner, 1996, cap. 2). Le stime di massima verosimiglianza esistono e sono uniche, ad eccezione di alcuni casi in cui vi è una relazione deterministica fra Y e le esplicative. Si osservi che, al crescere del numero N di righe della matrice, diminuisce il numero dei successi osservati w i per ogni cella i sui quali si basano le equazioni di verosimiglianza. Di conseguenza, le stime diventano meno accurate. Si noti infine che un modo alternativo di scrivere il modello è quello di vedere il campione nel seguente modo. Per ogni cella i si hanno n i estrazioni di una v.c. Y i con distribuzione di Bernoulli. Si verifica agevolmente che la funzione di verosimiglianza in questo secondo modello è proporzionale a quella scritta precedentemente a meno di un