Concetti introduttivi

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Concetti introduttivi"

Transcript

1 Indice 1 Concetti introduttivi Studi sperimentali e studi osservazionali Concetti iniziali: indipendenza fra eventi Indipendenza fra variabili casuali Notazione Misure teoriche di associazione fra due v.c. binarie Il cross-product ratio Misure empiriche Il caso di due variabili a più livelli Il caso di tre variabili binarie: odds di tabelle condizionate Il caso di tre variabili generiche In generale Il modello logistico Introduzione La matrice dei dati Il modello di regressione lineare Il modello logistico semplice La forma matriciale Il modello logistico con due variabili esplicative In generale: il modello logistico multiplo La forma matriciale La stima mediante massima verosimiglianza Matrice di varianze e covarianza asintotica Verifica d ipotesi Verifica di ipotesi sul modello Verifica d ipotesi sull effetto di una variabile Test sul singolo coefficiente

2 Capitolo 1 Concetti introduttivi 1.1 Studi sperimentali e studi osservazionali Gli studi statistici si possono suddividere in due grandi gruppi: gli studi sperimentali e quelli osservazionali. Nei primi, l analista controlla alcuni dei fattori che ritiene rilevanti, attraverso ad esempio dosaggi successivi, e può minimizzare gli errori su quelli che non può controllare, attraverso ad esempio assegnazione randomizzata dei dosaggi alle unità. Nei secondi, invece, lo sperimentatore si limita ad osservare i fenomeni così come si manifestano. Il seguente esempio tratta di un esperimento sulla resistenza alla tossicità delle tarme del tabacco. Gruppi di 20 maschi e 20 femmine di tarma sono stati esposti per tre giorni ad un tossico a cui le tarme hanno cominciato a mostrare resistenza. La seguente tabella riporta quanti di essi sono morti. Esempio 1.1 Dose Sesso Maschio Femmina L obbiettivo di questo studio è quantificare gli effetti del tossico, e verificare se questi effetti sono diversi a seconda del sesso. 2

3 E.Stanghellini Dispense di Statistica IV 3 Negli studi puramente osservazionali, non si può controllare nessuna delle variabili in studio. La seguente tabella di contingenza è relativa a 661 bambini nati in Scozia dal 1981 al 1988 e seguiti per almeno un anno dalla nascita. La variabile Problemi cardiaci vale Sì se la madre ha avuto problemi di cuore durante la gravidanza. La variabile Complicazioni vale Sì se la madre ha avuto altri problemi ginecologici, la variabile Fumo vale Sì se la madre ha fumato almeno una sigaretta al giorno nei primi sei mesi di gravidanza. Esempio 1.2 Problemi Cardiaci Si No Complicazioni Si No Si No Peso \ Fumo Si No Si No Si No Si No 1250 gr > 1250 gr Vi sono vari aspetti che non possono essere tenuti sotto controllo. Ad esempio è possibile che la popolazione di coloro che fumano sia diversa anche per altre caratteristiche rilevanti da quella di coloro che non fumano. In tal caso, l effetto del fumo viene mascherato da questi ulteriori fattori non misurati.

4 4 E.Stanghellini Dispense di Statistica IV La distinzione fra i due tipi di studio tuttavia può non essere netta. Il seguente esempio tratta di uno studio a carattere sperimentale ma con componenti di natura osservazionale. Si vuole studiare la relazione fra lo screening con la mammografia e il cancro al seno. Il seguente studio è relativo a donne di cui assegnate a caso allo screening e controlli. Queste sono state seguite per 5 anni, registrando le morti per cancro o per altre cause. Solo una parte di coloro assegnate allo screening accetta di farlo (vi sono rifiuti). Esempio 1.3 Dimensioni gruppo Cancro Altre cause Trattamento Num. Tasso Num. Tasso Screening Rifiuti Totali Controlli Quali tassi debbono essere presi in considerazione? Se i rifiuti fossero stati casuali, il tasso di mortalità per cancro dei rifiuti (1.5) dovrebbe essere simile a quello dei controlli (2.0). Invece è molto inferiore. Questo fa ritenere che la popolazione dei rifiuti (e di conseguenza dei non rifiuti, ovvero degli screening) sia diversa per caratteristiche non misurate (istruzione, tipo di lavoro ecc. ) da quella degli screening. A conferma di questo, il tasso di mortalità per altre cause è molto di verso nel gruppo dei rifiuti (e nel gruppo dei controlli, questa volta molto superiore). Un analisi statistica ben fatta deve tenere conto di questi effetti.

5 E.Stanghellini Dispense di Statistica IV Concetti iniziali: indipendenza fra eventi Sia P la probabilità definita sullo spazio degli eventi associato ad un esperimento casuale e siano A, B,C,..., eventi definiti in quello spazio. Si indichi con Ā, B,... l evento che si verifica se, in ordine, A, B non si verifica. La probabilità condizionata di A dato B è P (A B) = P (A B)/P (B) ed è definita solo se P (B) > 0. Definizione. Indipendenza fra eventi. Due eventi A e B sono indipendenti se: P (A B) = P (A)P (B). Una definizione alternativa di eventi indipendenti è la seguente: P (A B) = P (A). Nel seguito, due eventi A e B indipendenti verrano denotati con A B. Si noti che se A B allora A B. Di conseguenza, la definizione di indipendenza fra due eventi si estende anche alla negazione degli eventi su cui è definita, come si dimostra dal seguente esercizio. ESERCIZIO 1.1 Si verifichi che se A e B sono due eventi indipendenti allora anche A e B sono due eventi indipendenti.

6 6 E.Stanghellini Dispense di Statistica IV Definizione. Indipendenza condizionata fra eventi. Siano A, B e C tre eventi con P (C) > 0. A e B sono indipendenti condizionatamente a C se e solo se: P (A B C) = P (A C)P (B C). P (A BC) = P (A C) Nel seguito due eventi A e B indipendenti condizionatamente a C sono denotati con A B C. Questa definizione è una riscrittura della indipendenza fra eventi con le probabilità condizionate al posto delle probabilità marginali. Di conseguenza, se A B C allora A B C. Tuttavia, A B C non implica nè è implicato da A B C. Il seguente esempio dà un idea di un fenomeno chepuò generare una tale situazione. L esempio è tratto dal credit scoring. Esempio 1.4 Sia A l evento {il cliente è solvibilie} B l evento {il cliente ha almeno un figlio} e C l evento {il cliente ha un età inferiore a 45 anni}. E plausibile che per clienti con età superiore a 45 anni, l essere solvibili sia indipendente dall avere figli o meno, mentre tale indipendenza non valga in clienti con età inferiore a 45 anni.

7 E.Stanghellini Dispense di Statistica IV 7 Si noti, inoltre, che l indipendenza fra A e C condizionatamente a B non implica l indipendenza marginale fra A e C. Questo fatto ha una spiegazione intuitiva nel caso in cui, ad esempio, C sia una causa comune di A e B, oppure B sia un evento che influenza C che a sua volta influenza A, come nel seguente esempio. Esempio 1.5 Sia A l evento {il cliente è solvibile} C l evento {il cliente ha una fascia di reddito elevata} e B l evento il cliente {il cliente è libero professionista}. Si supponga che un libero professionista ha una probabilità più elevata di posizionarsi su fasce alte di reddito di chi non lo è e, di conseguenza, di essere un buon cliente. Trascurando l informazione sul reddito, si può concludere che i liberi professionisti sono migliori clienti degli altri. Tuttavia, il fattore determinante della solvibilità è il reddito.

8 8 E.Stanghellini Dispense di Statistica IV 1.3 Indipendenza fra variabili casuali Come si estende il concetto di indipendenza fra due eventi a quello di indipendenza fra due variabili casuali? Siano X 1, X 2, due variabili casuali qualsiasi. Nel seguito, indicheremo genericamente con f 12 (x 1, x 2 ) la funzione di densità o di massa di probabilità congiunta. Inoltre, indicheremo con, ad esempio, f 12 3 (x 1, x 2 x 3 ) la funzione di densità o di massa di probabilità di X 1 e X 2 condizionata a X 3 (definita solo se f 3 (x 3 ) > 0). Nel caso in cui sia specificato dal contesto che le variabili casuali sono categoriche, allora indicheremo con p 12 (x 1, x 2 ) la funzione di massa di probabilità congiunta e con, ad esempio, p 12 3 (x 1, x 2 x 3 ) la funzione di massa di probabilità di X 1 e X 2 condizionata a X 3. Definizione Indipendenza marginale fra variabili casuali. Due variabili casuali X 1 e X 2 sono indipendenti se e solo se: f 12 (x 1, x 2 ) = f 1 (x 1 )f 2 (x 2 ) per ogni x 1 e x 2. Una definizione equivalente è la seguente: f 1 2 (x 1 x 2 ) = f 1 (x 1 ) per ogni x 1 e x 2 t.c. f 2 (x 2 ) > 0 Nel seguito due v.c. indipendenti saranno indicate con X 1 X 2.

9 E.Stanghellini Dispense di Statistica IV 9 Definizione Indipendenza condizionale fra variabili casuali. Due variabili casuali X 1 e X 2 sono indipendenti condizionatamente a X 3 se e solo se: f 12 3 (x 1, x 2 x 3 ) = f 1 3 (x 1 x 3 )f 2 3 (x 2 x 3 ) per ogni x 1, x 2 e per ogni x 3 t.c. f 3 (x 3 ) > 0. Equivalenti formulazioni della definizione di indipendenza condizionata sono le seguenti: f 123 (x 1, x 2, x 3 ) = f 13 (x 1, x 3 )f 23 (x 2 x 3 )/f(x 3 ) f 1 23 (x 1, x 2 x 3 ) = f 1 3 (x 1 x 3 ) 1.4 Notazione Siano X 1 e X 2 due variabili casuale categoriche con livelli I 1 e I 2. La loro distribuzione congiunta può essere sintetizzata attraverso una tabella di contingenza rettangolare che ha I 1 righe e I 2 colonne. In questo corso utilizzeremo la convezione di numerare i livelli delle variabili categoriche a partire da 0. Ad esempio, se I 1 = 2 e I 2 = 3 la tabella di contingenza è la seguente: X 2 Totale X p 12 (0, 0) p 12 (0, 1) p 12 (0, 2) p 1 (0) 1 p 12 (1, 0) p 12 (1, 1) p 12 (1, 2) p 1 (1) Totale p 2 (0) p 2 (1) p 2 (2) 1 in cui, come detto, p 12 (0, 0) sta ad indicare P (X 1 = 0, X 2 = 0), p 12 (0, 1) sta ad indicare P (X 1 = 0, X 2 = 1) e così via. Inoltre, p 1 (0) sta ad indicare P (X 1 = 0).

10 10 E.Stanghellini Dispense di Statistica IV 1.5 Misure teoriche di associazione fra due v.c. binarie Sia X 1 una variabile casuale binaria con valori {0, 1} e p 1 (0) = P (X 1 = 0) e p 1 (1) = P (X 1 = 1). Si definisce odds di X 1 il seguente rapporto: odds(x 1 ) = p 1(1) p 1 (0) Non è difficile verificare che esso assume valori fra 0 e +. Inoltre, cresce al crescere della p 1 (0) e assume valore 1 se gli eventi sono equiprobabili. In seguito lavoreremo anche sul logaritmo naturale dell odds, il logit, che è una trasformazione monotona dell odds e varia fra e +. Inoltre, assume inoltre valore 0 se i due eventi sono equiprobabili. Importante Se l odds è maggiore di 1, vuole dire che l evento al numeratore ha probabilità maggiore di 0.5 di verificarsi. Se l odds è minore di 1 vuol dire che l evento al numeratore ha probabilità minore di 0.5 di verificarsi.

11 E.Stanghellini Dispense di Statistica IV 11 Siano X 1 e X 2 due variabili casuali binarie. La distribuzione congiunta può essere rappresentata dalla seguente tabella: X 2 Totale X p 12 (0, 0) p 12 (0, 1) p 1 (0) 1 p 12 (1, 0) p 12 (1, 1) p 1 (1) Totale p 2 (0) p 2 (1) 1 Si definisca adesso l odds di X 1 condizionato a X 2 = 0. Ovvero, odds(x 1 X 2 = 0) = p 1 2(1 0) p 1 2 (0 0) Moltiplicando numeratore e denominatore per p 2 (0) si può verificare che: odds(x 1 X 2 = 0) = p 12(1, 0) p 12 (0, 0). In maniera analoga se definisca adesso l odds di X 1 condizionato a X 2 = 1: odds(x 1 X 2 = 1) = p 12(1, 1) p 12 (0, 1)

12 12 E.Stanghellini Dispense di Statistica IV 1.6 Il cross-product ratio Un confronto interessante è fra i due odds condizionati. Se sono uguali l odds di X 1 non varia al variare di X 2. Inoltre, se sono uguali, allora anche gli odds di X 2 condizionati a X 1 sono uguali. Infatti, se allora: da cui p 12 (1, 0) p 12 (0, 0) = p 12(1, 1) p 12 (0, 1) p 12 (0, 1)p 12 (1, 0) = p 12 (0, 0)p 12 (1, 1) p 12 (0, 1) p 1 2(0, 0) = p 12(1, 1) p 12 (1, 0) ovvero odds(x 2 X 1 = 0) = odds(x 2 X 1 = 1). Definiamo il rapporto degli odds, noto come odds ratio o rapporto dei prodotti incrociati che indicheremo talvolta anche con cpr dall inglese cross product ratio: cpr(x 1, X 2 ) = odds(x 1 X 2 = 1) odds(x 1 X 2 = 0) = p 12(1, 1)p 12 (0, 0) p 12 (0, 1)p 12 (1, 0) Invertiamo ora il ruolo delle variabili X 1 e X 2. Come avviamo visto: odds(x 1 midx 2 = x 2 ) = p 12(1, x2) p 12 (0, x2). Ne segue che se i due odds condizionati sono uguali, allora p 12 (1, 0) p 12 (0, 0) = p 12(1, 1) p 12 (0, 1), e il loro rapporto è pari ad 1. Ma quanto il loro rapporto??? Esso è esattamente il cpr(x 1, X 2 ) scritto sopra. Da quanto detto, il cpr è una misura non direzionale di associazione. Essa è anche detta di interazione fra due variabili.

13 E.Stanghellini Dispense di Statistica IV 13 Importante Se il cpr è maggiore di 1 vuol dire che l odds di X 1 condizionatamente a X 2 = 1 è maggiore dell odds di X 1 condizionatamente a X 2 = 0. Dal momento che X 1 e X 2 si possono scambiare di ruolo, allora se il cpr è maggiore di 1 vuol dire che l odds di X 2 condizionatamente a X 1 = 1 è maggiore dell odds di X 2 condizionatamente a X 1 = 0. Questo si sintetizza con il dire che vi è una associazione positiva fra le due variabili casuali binarie.

14 14 E.Stanghellini Dispense di Statistica IV Esempio 1.6 Consideriamo la seguente distribuzione ipotetica di probabilità. X 2 Totale X Totale Il rapporto degli odds è pari a: = 1 Di conseguenza, la probabilità condizionata che X 1 sia uguale ad uno non varia al variare di X 2. Analogamente, la probabilità condizionata che X 2 sia uguale a 1 non varia al variare di X 1. Si può dimostrare, infatti, che X 1 e X 2 sono indipendenti. Teorema 1.1 Siano X 1 e X 2 due variabili casuali binarie. Se odds(x 1 X 2 = x 2 ) = a, x 2 = {0, 1}, allora odds(x 1 ) = a. Dimostrazione. Essendo odds(x 1 X 2 = 0) = odds(x 1 X 2 = 1) = a allora p 12 (1, 0) = ap 12 (0, 0) p 12 (1, 1) = ap 12 (0, 1) Sommando termine a termine le due uguaglianze si ottiene (1.1) p 1 (1) = ap 1 (0) e il risultato segue.

15 E.Stanghellini Dispense di Statistica IV 15 Teorema 1.2 Siano X 1 e X 2 due variabili casuali binarie. Allora, cpr(x 1, X 2 ) = 1 se e solo se X 1 e X 2 sono indipendenti. Dimostrazione. Se sono indipendenti p 12 (x 1, x 2 ) = p 1 (x 1 )p 2 (x 2 ) per ogni valore di x 1 e x 2. Per cui: cpr = p 12(0, 0)p 12 (1, 1) p 12 (0, 1)p 12 (1, 0) = p 1(0)p 2 (0)p 1 (1)p 2 (1) p 1 (0)p 2 (1)p 1 (1)p 2 (0) = 1 Viceversa, se cpr(x 1, X 2 ) = 1 allora p(x 1 X 2 = 0) = p(x 1 X 2 = 1) per ogni x 1. Infatti: da cui Pertanto: 1 p(x 1 X 2 = 0) p(x 1 X 2 = 0) = 1 p(x 1 X 2 = 1) p(x 1 X 2 = 1) 1 p(x 1 X 2 = 0) = 1 p(x 1 X 2 = 1) p(x 1 ) = x 2 p(x 1 x 2 )p(x 2 ) = p(x 1 x 2 ) x 2 p(x 2 ) = p(x 1 x 2 ) per ogni valore di x 1 e x 2.

16 16 E.Stanghellini Dispense di Statistica IV 1.7 Misure empiriche Il rapporto degli odds è definito su probabilità. Tuttavia, esso può essere usato come misura descrittiva della associazione fra due variabili, quando si dispone di un campione di osservazioni. Si consideri la seguente tabella a doppia entrata, con due righe e tre colonne: X 2 Totale X n 12 (0, 0) n 12 (0, 1) n 12 (0, 2) n 1 (0) 1 n 12 (1, 0) n 12 (1, 1) n 12 (1, 2) n 1 (1) Totale n 2 (0) n 2 (1) n 2 (2) n Si ricordi che il rapporto n 12 (0, 0)/n 1 (0) indica la frequenza relativa delle unità che hanno X 1 = 0 nel gruppo di unità che hanno X 2 = 0. Invece, il rapporto n 12 (0, 0)/n 2 (0) indica la frequenza relativa delle unità che hanno X 2 = 0 nel gruppo di unità che hanno X 1 = 0. Domanda: Che interpretazione ha la frequenza relativa n 12 (0, 2)/n 1 (0)? E la frequenza relativa n 12 (0, 2)/n 2 (0)? Il rapporto dei prodotti incrociati si calcola su una tabella di contingenza di dimensioni due per due, come la seguente: X 2 Totale X n 12 (0, 0) n 12 (0, 1) n 1 (0) 1 n 12 (1, 0) n 12 (1, 1) n 1 (1) Totale n 2 (0) n 2 (1) n Con un ragionamento analogo al precedente possiamo vedere il rapporto dei prodotti incrociati come un rapporto di frequenze relative, di riga o di colonna. Tuttavia, data la sua struttura, esso si può calcolare anche sulle frequenze assolute. Ovvero: cpr = n 12(0, 0)n 12 (0, 1) n 12 (0, 1)n 12 (1, 0)

17 E.Stanghellini Dispense di Statistica IV 17 Esempio 1.7 (segue da 1.2) Si calcoli il cpr della tabella a doppia entrata secondo Problemi cardiaci e Peso. Essa sarà : Problemi cardiaci Totale Peso No Sì 1250 gr > 1250 gr Totale Il rapporto degli odds in questa tabella, ottenuta come marginale rispetto alla precedente è pari a: = che denota una elevata associazione fra le due variabili. Come la possiamo interpretare? L odds osservato che un bambino nasca con un peso superiore a 1250 gr. dato che la madre ha problemi cardiaci è pari a 0.85 (ovvero 53/62). Questo vuol dire che la frequenza relativa dei nati sottopeso in questo sottogruppo è maggiore della frequenza relativa dei nati normali. L odds che un bambino nasca con un peso superiore a 1250 gr. dato che la madre non ha problemi cardiaci è pari a 3.67 (ovvero 429/117). Pertanto il primo odds è volte inferiore al secondo. Questo valore è il rapporto degli odds. Si noti che la interpretazione direzionale della associazione nell esempio precedente deriva dalle nostre informazioni a priori sui fenomeni in studio, secondo cui il fatto che la madre abbia problemi cardiaci è una variabile potenzialmente esplicativa del peso alla nascita del figlio e non il viceversa. Vi sono studi che hanno come scopo fare inferenza anche sulla direzione della associazione. Noi però faremo riferimento solo a situazioni in cui tal direzione è implicita nel fenomeno di studio.

18 18 E.Stanghellini Dispense di Statistica IV 1.8 Il caso di due variabili a più livelli In questa sezione si estendono le misure di associazione viste in precedenza alla situazione in cui X 1 è binaria e e X 2 e assume un numero generico k di livelli. Siano X 1 e X 2 due variabili casuali categoriche, con X 1 binaria e X 2 che assume I 2 > 2 valori. Ad esempio, se I 2 = 3 la distribuzione doppia può essere sintetizzata attraverso la seguente tabella a doppia entrata: X 2 Totale X p 12 (0, 0) p 12 (0, 1) p 12 (0, 2) p 1 (0) 1 p 12 (1, 0) p 12 (1, 1) p 12 (1, 2) p 1 (1) Totale p 2 (0) p 2 (1) p 2 (2) 1 Un modo naturale di procedere è quello di scegliere un livello di X 2 come riferimento e confrontare gli odds condizionati degli altri livelli con il livello di riferimento. La convenzione adottata in questo lavoro è che il livello di riferimento è il livello 0. Questo implica il calcolo di un odds condizionato e di I 2 1 oddsratio nelle corrispondenti I 2 1 sottotabelle 2 2 così evidenziate: X 2 X 1 0 r 0 p 12 (0, 0) p 12 (0, r) 1 p 12 (1, 0) p 12 (1, r) E possibile mostrare, in estensione del teorema 1.2, il seguente: Teorema 1.3 Sia X 1 una v.c. binaria e X 2 una v.c. categorica con I 2 livelli. Se tutti gli I 2 1 odds ratio sono uguali ad 1, le due variabili sono indipendenti, e viceversa.

19 E.Stanghellini Dispense di Statistica IV Il caso di tre variabili binarie: odds di tabelle condizionate Siano X 1, X 2 e X 3 tre variabili casuali binarie. La distribuzione congiunta può essere sintetizzata attraverso una tabella di contingenza a tre entrate, come quella seguente: X 3 = 0 X 2 Totale X p 123 (0, 0, 0) p 123 (0, 1, 0) p 13 (0, 0) 1 p 123 (1, 0, 0) p 123 (1, 1, 0) p 13 (1, 0) Totale p 23 (0, 3) p 23 (10) p 3 (0) X 3 =1 X 2 Totale X p 123 (0, 0, 1) p 123 (0, 1, 1) p 13 (0, 1) 1 p 123 (1, 0, 1) p 123 (1, 1, 1) p 13 (1, 1) Totale p 23 (0, 1) p 23 (1, 1) p 3 (1) Si può calcolare per la tabella condizionata, ad esempio ad X 3 = 0, il cross product ratio fra X 1 e X 2. Esso sarà cpr(x 1, X 2 X 3 = 0). Analogamente, si può calcolare il cross product ratio fra X 1 e X 2 per la tabella con X 3 = 1. Esso sarà cpr(x 1, X 2 X 3 = 1). In generale, si indichi con cpr(x 1, X 2 X 3 = x 3 ) il generico cpr. Esso è così dato: cpr(x 1, X 2 X 3 = x 3 ) = p 12 3(1, 1 x 3 )p 12 3 (0, 0 x 3 ) p 12 3 (0, 1 x 3 )p 12 3 (1, 0 x 3 ) ma anche cpr(x 1, X 2 X 3 = x 3 ) = p 123(1, 1, x 3 )p 123 (0, 0, x 3 ) p 123 (0, 1, x 3 )p 123 (1, 0, x 3 )

20 20 E.Stanghellini Dispense di Statistica IV Di conseguenza, una naturale estensione della misura di associazione fra due variabili binarie al caso di tre variabili binarie è il seguente rapporto di cpr: cpr(x 1, X 2 X 3 = 1) cpr(x 1, X 2 X 3 = 0) = p 123(1, 1, 1)p 123 (0, 0, 1)p 123 (0, 1, 0)p 123 (1, 0, 0) p 123 (0, 1, 1)p 123 (1, 0, 1)p 123 (1, 1, 0)p 123 (0, 0, 0) Esso è uguale ad 1 se l odds ratio fra X 1 e X 2 nella tabella condizionata di X 3 = 0 è uguale all odds ratio fra X 1 e X 2 nella tabella condizionata di X 3 = 1. Dalla formulazione precedente, è possibile verificare che: cpr(x 1, X 2 X 3 = 1) cpr(x 1, X 2 X 3 = 0) = cpr(x 1, X 3 X 2 = 1) cpr(x 1, X 3 X 2 = 0) = cpr(x 2, X 3 X 1 = 1) cpr(x 2, X 3 X 1 = 0) ovvero anche questa misura è una misura di associazione che considera le tre variabili sullo stesso piano. Per questo, è detta misura di interazione del terzo ordine. Si noti che se rapporto odds ratio è pari ad uno, questo implica che l interazione fra due delle tre variabili non variabili non varia al variare della terza. Si può verificare agevolmente che se cpr(x 1, X 2 X 3 = 0) = 1 = cpr(x 1, X 2 X 3 = 1) e allora X 1 X 2 X 3 e viceversa.

21 E.Stanghellini Dispense di Statistica IV 21 Esempio 1.8 (segue da 1.2). Si calcoli il rapporto degli odds fra Complicazione cardiache e Peso nelle due sottotabelle individuate dai livelli di Complicazioni. Complicazioni =No Problemi cardiaci Totale Peso No Sì 1250 gr > 1250 gr Totale Complicazioni =Sì Problemi cardiaci Totale Peso No Sì 1250 gr > 1250 gr Totale Il rapporto degli odds nella prima tabella è pari a 0.32, denotando una maggiore frequenza di nati sottopeso nella popolazione delle madri con problemi cardiaci anche nel sottogruppo di madri che non hanno avuto complicazioni. Il rapporto degli odds nella seconda tabella è pari a 0.47, denotando anche qui una maggiore frequenza di nati sottopeso da madri con problemi cardiaci anche nel caso di madri che hanno avuto complicazioni. Ci possiamo adesso chiedere se vi è una differenza significativa fra i due valori (0.32 e 0.47). Se non vi è vuol dire che l effetto dell avere problemi cardiaci non varia al variare del quadro delle altre complicazioni. Altrimenti, se vi è, vuol dire che l effetto varia a seconda del quadro delle complicazioni. In questo secondo caso si dice che vi è una interazione Il caso di tre variabili generiche Siano X 1, X 2, X 3 variabili casuali categoriche, con X 1 binaria X 2 e X 3 categoriche con livelli, rispettivamente, I 2 > 2 e I 3 > 2. In questo caso si sceglie un livello di riferimento per X 3, per convenzione indicato con 0 (si veda la tabella successiva si è posto I 2 = 3).

22 22 E.Stanghellini Dispense di Statistica IV X 3 = 0 X 2 Totale X p 123 (0, 0, 0) p 123 (0, 1, 0) p 123 (0, 2, 0) p 13 (0, 0) 1 p 123 (1, 0, 0) p 123 (1, 1, 0) p 123 (1, 2, 0) p 13 (1, 0) Totale p 23 (0, 0) p 23 (1, 0) p 23 (2, 0) p 3 (0) In questo livello di riferimento si calcola l odds di X 1 condizionato al livello di riferimento di X 2, ovvero l odds(x 1 X 2 = 0X 3 = 0). Inoltre, si calcolano gli I 2 1 odds ratio nel modo visto in precedenza. Successivamente si raffrontano queste grandezze, mediante rapporto, con le analoghe grandezze valutate negli I 3 1 livelli della terza variabile. I raffronti non ridondanti da effettuare saranno pertanto (I 2 1)(I 3 1) In generale... Nel caso in cui vi siano più di tre variabili causali, la costruzione delle misure di associazione segue le linee adesso delineate. Nel caso ad esempio di p = 4 con X 1 binaria, i raffronti non ridondanti saranno (I 2 1)(I 3 1)(I 4 1). Relazioni di indipendenza condizionata e marginale fra variabili potranno essere delineate qualora ad esempio si trovino determinate configurazioni di sottoinsiemi odds ratio pari ad uno. Tuttavia in questo corso lavoreremo sempre con modelli con una risposta binaria. Non considereremo mai il caso di più di tre variabili esplicative. SOLUZIONE ES Se A e B sono indipendenti, allora P (A B) = P (A)P (B). Essendo A = (A B) (A B) con A B e A B incompatibili, avremo P (A) = P (A B) + P (A B) = P (A B) + P (A)P (B). Pertanto, P (A B) = P (A)[1 P (B)] e il risultato segue. ESERCIZIO 1.2 Siano X 1 e X 2 due variabili casuali binarie. Si dica come cambia il cpr(x 1, X 2 ) se invertiamo le categorie di X 1. ESERCIZIO 1.3 Siano X 1 e X 2 due variabili casuali con X 1 binaria e X 2 categorica con più di due livelli. Se gli odds(x 1 X 2 = i) sono uguali fra loro e uguali ad a, quanto vale il odds(x 1 ) della marginale di X 1?

23 Capitolo 2 Il modello logistico 2.1 Introduzione In questo capitolo studieremo modelli in cui una variabile casuale è considerata dipendente, o di risposta, da altre variabili casuali, dette esplicative. Utilizzeremo la convenzione di indicare con Y la v.c. dipendente e con X 1,..., X k le variabili esplicative. Le distribuzioni di interesse per la variabile casuale di risposta Y nei modelli che considereremo sono tipicamente la distribuzione di Bernoulli, la distribuzione binomiale relativa e, per raffronti con il modello di regressione lineare, la distribuzione normale o di Gauss. 2.2 La matrice dei dati Si consideri la seguente rappresentazione dei dati dell esempio

24 24 E.Stanghellini Dispense di Statistica IV Sesso. Dose Successi Num. totale Questo secondo modo di rappresentare i dati ci avvicina alla logica del modello logistico. Infatti, possiamo vedere ogni riga della tabella precedente formata da configurazioni diverse delle esplicative. Sia X 1 la v.c. che descrive il sesso e X 2 la v.c. che descrive il dosaggio. Ogni riga è una configurazione diversa (x 1, x 2 ). Inoltre, in ogni riga si sono effettuate tante ripetizioni di un esperimento di Bernoulliano (in questo caso il num. delle ripetizioni è costante e pari a 20) e si sono contati i successi. L obiettivo dello studio è vedere come cambia la probabilità di successo in ogni riga della tabella precedente. Sia Y la v.c. di Bernoulli. Si vuole mettere in relazione la P (Y = 1 X 1 = x 1, X 2 = x 2 ) con x 1 e x 2. In modo del tutto analogo, possiamo vedere le righe della tabella precedente come un unico esperimento di una binomiale relativa. Il valore atteso della binomiale relativa è ancora P (Y = 1 X 1 = x 1, X 2 = x 2 ). Possiamo rappresentare i dati dell esempio 1.2 con la stessa logica. Nella seguente rappresentazione si pone come successo la nascita di un bambino con peso superiore a 1250gr. Inoltre, si pone Fumo =0 se la madre non ha fumato e 1 altrimenti; Complicazioni =0 se la madre non ha avuto complicazioni e 1 altrimenti; Problemi cardiaci =0 se la madre non ha avuto problemi cardiaci e 1 altrimenti.

25 E.Stanghellini Dispense di Statistica IV 25 Fumo Complicazioni Problemi Successi Num. totale Il modello di regressione lineare In questo paragrafo si richiamano alcune nozioni della regressione lineare, necessarie alla comprensione del modello logistico. Sia Y una variabile di risposta continua e X una variabile continua esplicativa. Il modello di regressione lineare assume che: Y = a + bx + ε in cui ε è una variabile casuale continua che esprime l effetto di fattori non osservati che concorrono alla formazione del valore di Y in maniera additiva. Si suppone inoltre E(ε) = 0 e V ar(ε) = σ 2. La prima ipotesi implica che il valore atteso della distribuzione di Y condizionato a X = x è dato da: E(Y X = x) = a + bx. (2.1) La seconda ipotesi implica che la varianza di ogni distribuzione condizionata è costante. I coefficienti a e b sono detti coefficienti di regressione. In particolare, il coefficiente b esprime la variazione sul valore atteso dovuta ad un incremento unitario di x. Il modello di regressione lineare si estende al caso generico di variabili esplicative. Sia adesso x il vettore di variabili esplicative continue con valori x = (x 1, x 2,..., x p ). Il modello di regressione lineare può estendersi al caso multiplo come: E(Y X = x) = a + b 1 x b r x r.

26 26 E.Stanghellini Dispense di Statistica IV Sia y il vettore N 1 delle osservazioni della variabile casuale risposta Y e X la matrice N p delle variabili esplicative comprensiva dell intercetta, come descritta in precedenza. Indicando con b = (a, b 1, b 2,..., b p ) T il vettore dei parametri, le stime mediante metodo dei minimi quadrati di b possono derivarsi come quel vettore ˆb che minimizza la somma dei quadrati: (y Xb) T (y Xb). Ponendo ŷ = Xˆb, si verifica agevolmente che la stima ˆb soddisfa simultaneamente le equazioni: da cui X T y = X T ŷ (2.2) ˆb = (X T X) 1 X T y. Sotto le ipotesi del modello di regressione, le stime mediante metodo dei minimi quadrati hanno proprietà ottimali. Inoltre, se la distribuzione della variabile casuale Y condizionata alle esplicative è normale, lo stimatore ˆb coincide con quello ottenuto con il metodo della massima verosimiglianza. Nel contesto in studio, la v.c. di risposta è binaria. Se codifichiamo i valori che essa assume in 0 e 1, la Y ha una distribuzioni di Bernoulli. In tal caso, volendo mantenere il parallelismo con il modello di regressione semplice (2.1, sorgono alcuni problemi: Il valore atteso condizionato E(Y X = x) = π(x) = P (Y = 1 X = x) è una probabilità, pertanto compresa fra 0 e 1. Se non introduciamo vincoli sui parametri a e b, il modello di regressione lineare non assicura che il valore atteso sia compreso in questo intervallo, anzi per valori x sufficientemente grandi, o sufficientemente piccoli, può verificarsi che π(x) < 0 oppure π(x) > 1. Di conseguenza, il modello può essere valido in un intervallo ristretto di valori della esplicativa x in cui π(x) è compreso fra 0 e 1. Anche in questo caso, tuttavia, l ipotesi di linearità nell andamento di π(x) può non essere rispettata per valori di π(x) vicini a 0 e 1. In molti fenomeni, in particolare quelli economici, infatti, l incremento di π(x) varia con x e tende a diminuire nei dintorni dei valori limite.

27 E.Stanghellini Dispense di Statistica IV 27 La varianza condizionata dipende da x, essendo V ar(y X = x) = π(x)[1 π(x)]. Essa tende a zero nei valori di X in cui π(x) tende a zero e ad uno. Inoltre è massima nei valori di x in cui π(x) = 0.5. Questo fatto comporta che le stime del modello di regressione lineare ottenute mediante il metodo dei minimi quadrati ordinari non hanno proprietà ottimali. Per tutti questi motivi nell ambito del credit scoring il modello di regressione lineare non può essere utilizzato, ed occorre considerare una classe di modelli diversa. 2.4 Il modello logistico semplice Sia Y una variabile risposta con distribuzione Bernoulli e X una variabile esplicativa. Si indichi con π(x) = P (Y = 1 X = x) = 1 P (Y = 0 X = x). Pertanto: π(0) = P (Y = 1 X = 0) e π(1) = P (Y = 1 X = 1). Si indichi con logit[π(x)] la grandezza: logit[π(x)] = log P (Y = 1 X = x) P (Y = 0 X = x). Essa è il logaritmo dell odds di Y condizionato a X e varia fra e + ; vale 0 quanto la probabilità condizionata di successo è 0.5. Il modello logistico semplice è il seguente: logit[π(x)] = log π(x) 1 π(x) = α + βx. Come si può agevolmente verificare, se β > 0 allora π(x) tende ad 1 al crescere di x. Altrimenti, se β < 0 allora π(x) tende ad 0 al crescere di x. Se β = 0 allora π(x) è costante rispetto a x, ovvero Y e X sono indipendenti. Risolvendo rispetto a π(x): π(x) = exp(α + βx) 1 + exp(α + βx). Questo modello è detto di regressione logistica, o anche modello logistico. L interpretazione di α e β varia a seconda della natura di X. (a) Se X è continua possiamo calcolare dπ(x)/dx = βπ(x)(1 π(x)) che esprime la velocità con cui la π(x) tende a 0 o ad 1. Si può

28 28 E.Stanghellini Dispense di Statistica IV π (x) x Figura 2.1: Un esempio di funzione logistica con α = 0.7 e β = 0.5. osservare che la velocità con cui tende a 0 è la stessa con cui tende a 1. Inoltre, il punto più ripido della curva è in corrispondenza della x t.c. π(x) = 0.5. Questo punto è dato da α/β. In Figura 2.1 è riportato il grafico di una funzione logistica con α = 0.7 e β = 0.5. (b) Supponiamo adesso che X sia binaria. Si codifichino i livello della X con 0 e 1. Avremo: logit[π(x)] = log π(x) 1 π(x) = α + βx. Questo è in realtà un modo sintetico di scrivere le due equazioni: logit[π(0)] = log logit[π(1)] = log π(0) 1 π(0) = α π(1) 1 π(1) = α + β.

29 E.Stanghellini Dispense di Statistica IV 29 Il parametro α è il logaritmo dell odds di Y nel livello 0 di X, inoltre β è il log dell cpr della tabella 2 2 di Y contro X, ovvero cpr(y, X) = e β. Infatti sottraendo la prima equazione dalla seconda, si ottiene: Infatti, ricordando che e che logit[π(1)] logit[π(0)] = β. P (Y = 1 X = 1) logit[π(1)] = log P (Y = 0 X = 1) P (Y = 1 X = 0) logit[π(0)] = log P (Y = 0 X = 0) = logp (Y = 1, X = 1) P (Y = 0, X = 0) = logp (Y = 1, X = 0) P (Y = 0, X = 0) il risultato segue. Se β è positivo (negativo), la probabilità P (Y = 1 X) nel passare dal valore X = 0 al valore X = 1 aumenta (diminuisce). Si noti che il modello precedente ricostruisce perfettamente le probabilità della distribuzione congiunta di Y e X. Questo pertanto è un modello saturo, ovvero non impone nessuna semplificazione. Se β = 0, allora cpr(y, X) = 0 e, come visto nel capitolo precedente, Y e X sono indipendenti, ovvero non vi è in X nessuna informazione sulla v.c. Y. (c) Il modello di regressione logistico si estende al caso in cui la variabile esplicativa è categorica con I livelli, che codifichiamo con {0, 1,..., r,... I 1}. Si indichi, per semplicità, con π(r) = P (Y = 1 X = r). Il modello può pertanto scriversi nel modo seguente: logit[π(0)] = log π(0) 1 π(0) = α logit[π(r)] = log π(r) 1 π(r) = α + β r r {1,..., I 1} (2.3) con β r il log del cpr della sottotabella: X Y 0 r 0 p Y X (0, 0) p Y X (0, r) 1 p Y X (1, 0) p Y X (1, r)

30 30 E.Stanghellini Dispense di Statistica IV Una espressione equivalente del modello (2.3) usa le variabili dummy. Sia X r una variabile casuale binaria che assume valore 1 se la v.c. categorica assume valore r e 0 altrimenti, r {1,..., I 1}. Il modello è logit[π(x 1, x 2,..., x I 1 )] = α + β 1 x 1 + β 2 x β I 1 x I 1. La scelta della parametrizzazione del modello logistico non è unica. Quella qui presentata, detta d angolo, è quella maggiormente utilizzata dai software statistici che stimano il modello logistico. Il nome deriva dal fatto che una modalità viene presa come riferimento, e i parametri relativi alle altre modalità rappresentano la distanza da questa. Si osservi che esiste sempre un modello che ricostruisce perfettamente le probabilità della distribuzione congiunta di (Y, X). Questo modello è detto saturo ed ha tutti i parametri diversi da zero. Tuttavia l obiettivo dell analisi statistica è trovare delle regolarità nella descrizione delle associazioni verificando se alcuni parametri possono essere posti uguale a zero senza perdita di informazione. Ad esempio, se tutti i β r sono uguali a zero, allora logit[π(r)] = α per ogni r {1,..., I 1} e pertanto Y e X sono indipendenti. Di conseguenza, la classificazione delle unità secondo la variabile X è ridondante e non aggiunge informazioni sulla variabile Y La forma matriciale Il modello logistico semplice può essere scritto in forma matriciale, attraverso la costruzione della matrice del disegno X. Nel caso in cui la la variabile esplicativa sia continua, questa coincide con quella del modello di regressione classico. Illustriamo con un esempio il caso in cui questa è categorica. Esempio 2.1 Si abbia la seguente tabella di contingenza doppia:

31 E.Stanghellini Dispense di Statistica IV 31 X Totale Y p Y X (0, 0) p Y X (0, 1) p Y X (0, 2) p Y (0) 1 p Y X (1, 0) p Y X (1, 1) p Y X (1, 2) p Y (1) Totale p X (0) p X (1) p X (2) 1 Si indichino i livelli della X attraverso due variabili dummy e si crei il vettore dei logit in ogni livello della X, come la seguente tabella mette in evidenza. logit[π(i)] logit[π(x 2, x 3 )] Parametri logit[π(1)] logit[π(0, 0)] α logit[π(2)] logit[π(1, 0)] α + β 1 logit[π(3)] logit[π(0, 1)] α + β 2 La configurazione precedente suggerisce una forma matriciale. ponga: Si η = logit[π(0, 0)] logit[π(1, 0)] logit[π(0, 1)]. Vi si associ la matrice X del disegno così costruita: X = Sia β T = {α, β 1, β 2 }. Il modello si può riscrivere come: η = X β. 2.5 Il modello logistico con due variabili esplicative Si distinguono i casi a seconda della natura delle variabili esplicative. Si hanno due casi di interesse.

32 32 E.Stanghellini Dispense di Statistica IV (a) Le X j sono una v.c. continua e una v.c. binaria. Sia X 1 la variabile binaria. Un primo modello è il seguente: logit[π(x 1, x 2 )] = α + β 1 x 1 + β 2 x 2 che implica, nel caso in cui X 1 = 0, e, nel caso in cui X 1 = 1: logit[π(0, x 2 )] = α + β 2 x 2 logit[π(1, x 2 )] = α + β 1 + β 2 x 2. L interpretazione del modello è la seguente: vi è un effetto della v.c. X 1 e un effetto della v.c. X 2. L effetto della prima ha come conseguenza quella di innalzare (se β 1 è positivo, abbassare altrimenti) la retta che spiega l andamento del logit. Infatti: logit[π(1, x 2 )] logit[π(0, x 2 )] = β 1. La pendenza della retta, tuttavia, che descrive la dipendenza del logit rispetto a X 2 è costante e pari a β 2 nei due valori X 1. Questo modello contiene solo gli effetti principali delle variabili esplicative. In Figura 2.2 è presentato il grafico delle due rette per α = 0.2, β 1 = 0.4 e β 2 = Un modello più complesso del precedente contiene anche le interazioni ed è costruito nel seguente modo. Si crei una variabile x 3 data dal prodotto della x 1 x 2. Così costruita, x 3 vale 0 se X 1 = 0 e x 2 se X 1 = 1. Il modello sarà allora: logit[π(x 1, x 2 )] = α + β 1 x 1 + β 2 x 2 + β 3 x 3. Esso è un modo sintetico di scrivere le due equazioni: nel caso in cui X 1 = 0, e: logit[π(0, x 2 )] = α + β 2 x 2

33 E.Stanghellini Dispense di Statistica IV logit π(1,x 2 )=α+β 1 +β 2 x 2 logit π(x 1,x 2 ) logit π(0,x 2 )=α+β 2 x x 2 Figura 2.2: Un esempio di modello logistico con α = 0.2, β 1 = 0.4 e β 2 = logit[π(1, x 2 )] = α + β 1 + β 2 x 2 + β 3 x 2 altrimenti. La pendenza della retta che descrive l andamento del logit rispetto a X 2 nella popolazione con X 1 = 1 è pertanto β 2 + β 3. L interpretazione del modello è la seguente: vi è un effetto di X 1 e un effetto di X 2. L effetto di X 1 ha come conseguenza sia quella di innalzare (se β 1 è positivo, abbassare altrimenti) la retta che spiega l andamento del logit, sia quella di aumentarne la pendenza (se β 3 è positivo, diminuirne altrimenti). Infatti: logit[π(1, x 2 )] logit[π(0, x 2 )] = β 1 + β 3 x 2. Nel grafico del modello, a differenza di quello in Figura 2.2, le due rette che descrivono l andamento del logit rispetto alla x 2 non sono parallele. Quando l effetto di una variabile sulla variabili risposta si modifica in conseguenza del variare di una seconda variabile si dice che vi è una

34 34 E.Stanghellini Dispense di Statistica IV interazione di primo ordine. interazione. (b) Le X j sono due v.c. binarie. Il coefficiente β 3 è detto coefficiente di Nel caso di due variabili esplicative binarie X 1 e X 2, i dati possono essere sintetizzati da una tabella Il modello logistico con solo gli effetti principali può scriversi anche nel modo seguente: logit[π(x 1, x 2 )] = α + β X 1 x 1 + β X 2 x 2. (2.4) Per l interpretazione dei coefficienti si seguono le linee già delineate. Avremo: logit[π(1, m)] logit[π(0, m)] = β X 1 per ogni m = {0, 1} ovvero, β X 1 è il logaritmo del rapporto dei prodotti incrociati nelle due tabelle individuate dai valori di X 2. Infatti, supponiamo m = 0: e pertanto β X 1 = logit[π(1, 0)] logit[π(0, 0)] β X 1 = log P (Y = 1 X 1 = 1, X 2 = 0) P (Y = 0 X 1 = 1, X 2 = 0) logp (Y = 1 X 1 = 0, X 2 = 0) P (Y = 0 X 1 = 0, X 2 = 0). Moltiplicando per P (X 1 = 1 X 2 = 0) il numeratore e il denominatore della prima frazione e per P (X 1 = 0 X 2 = 0) il numeratore e il denominatore della seconda, si ottiene: da cui β X 1 = log P (Y = 1, X 1 = 1 X 2 = 0)P (Y = 0, X 1 = 0 X 2 = 0) P (Y = 0, X 1 = 1 X 2 = 0)P (Y = 1, X 1 = 0 X 2 = 0) β X 1 = log cpr(y, X 1 X 2 = 0). Come la precedente equazione mette in evidenza, β X 1 è il logaritmo del cpr nella sottotabella in cui X 2 = 0. Ponendo m = 1 si arriva,

35 E.Stanghellini Dispense di Statistica IV 35 attraverso analoghi passaggi, a verificare che β X 1 è il logaritmo del cpr nella sottotabella in cui X 2 = 1. Per simmetria, il coefficiente β X 2 si presta alll interpretazione analoga, di logaritmo del cpr nella sottotabella in cui X 1 = 0 e, anche, di logaritmo del cpr nella sottotabella in cui X 1 = 1. Da quanto detto, il modello precedente implica che l effetto di X 1 su Y non varia al variare della X 2 e, analogamente, l effetto di X 2 su Y non varia al variare di X 1. Questa ipotesi è spesso irrealistica. Per fare questo occorre inserire un ulteriore coefficiente nel modello, come spiega il prossimo esempio. Esempio 2.2 Si consideri il seguente modello logistico con due variabili esplicative binarie X 1 e X 2 : logit[π(x 1, x 2 )] = α + β X 1 x 1 + β X 2 x 2 + β X 1X 2 x 1 x 2. (2.5) Come la seguente tabella mette in evidenza, il modello è saturo. logit[π(x 1, x 2 )] Parametri logit[π(0, 0)] α logit[π(1, 0)] α + β X 1 logit[π(0, 1)] α β X 2 logit[π(1, 1)] α + β X 1 + β X 2 + β X 1X 2 In questo modello: logit[π(1, 0)] logit[π(0, 0)] = β X 1 da cui deriva che β X 1 è il logaritmo del cpr(y, X 1 X 2 = 0). Inoltre, logit[π(1, 1)] logit[π(0, 1)] = β X 1 + β X 1X 2 = log cpr(y, X 1 X 2 = 1) Di conseguenza: log cpr(y, X 1 X 2 = 1) cpr(y, X 1 X 2 = 0) = βx 1X 2.

36 36 E.Stanghellini Dispense di Statistica IV Ma, per simmetria, log cpr(y, X 2 X 1 = 0) cpr(y, X 2 X 1 = 1) = βx 1X 2. Pertanto, β X 1X 2 è il parametro che esprime l effetto su Y dovuto all interazione di X 1 e X In generale: il modello logistico multiplo Analogamente al modello di regressione lineare, il modello di regressione logistico si estende al caso multiplo. Sia X un vettore di v.c. p-dimensionale che assume valori x = (x 1, x 2,..., x p ) T. Sia π(x) = P (Y = 1 x). Il modello logistico multiplo ha la seguente espressione: da cui: logit[π(x)] = log π(x) 1 π(x) = α + β 1x β p x p P (Y = 1 x) = π x) = exp(α + β 1x β p x p ) 1 + exp(α + β 1 x β p x p ) e anche: P (Y = 0 x) = exp(α + β 1 x β p x p ). Anche in questo caso, l interpretazione dei coefficienti varia a seconda della natura delle variabili in X. Nel caso in cui le variabili in X siano continue, il coefficiente β j esprime come varia il logit di Y ad una variazione unitaria di X j, mantenendo costanti le altre variabili. Più difficile invece è l interpretazione dei coefficienti nel caso in cui le variabile esplicative sono categoriche. Allo scopo di introdurre gradualmente il lettore, si inizia dalla situazione più semplice, in cui si hanno variabili esplicative binarie. (c) Le X j sono p variabili casuali binarie con p > 2.

37 E.Stanghellini Dispense di Statistica IV 37 Supponiamo di avere tre v.c. variabili binarie X 1, X 2, X 3. Un possibile modello è il seguente: logit[π(x 1, x 2, x 3 )] = α + β X 1 x 1 + β X 2 x 2 + β X 3 x 3 + β X 1X 2 x 1 x 2. (2.6) Questo modello implica che: logit[π(x 1, x 2, 1)] logit[π(x 1, x 2, 0)] = β X 3 ovvero, il rapporto dei prodotti incrociati fra Y e X 3 è costante in tutte le 2 2 tabelle condizionate congiuntamente a X 1 e X 2. Inoltre: log cpr(y, X 1 X 2 = 1, X 3 = 0) cpr(y, X 1 X 2 = 0, X 3 = 0) = βx 1X 2 = cpr(y, X 1 X 2 = 1, X 3 = 1) cpr(y, X 1 X 2 = 0, X 3 = 1) ovvero, il rapporto dei prodotti incrociati fra Y e X 1 varia al variare di X 2 ma è costante rispetto a X 3. Pertanto, β X 1X 2 è il parametro che esprime l effetto su Y dovuto alla interazione fra X 1 e X 2. Tale parametro non dipende dai livelli di X 3, ovvero non varia se X 3 assume valore 0 o 1. Il modello saturo con tre variabili esplicative binarie avrà un parametro α; 3 parametri β X j che esprimono gli effetti principali; ( 3 2) parametri di interazione doppia e un parametro di interazione tripla. In tal caso, ogni combinazione (x 1, x 2, x 3 ) delle variabili esplicative esprime un diverso valore atteso della variabile casuale Y. Con un generico numero p di v.c. binarie la determinazione dei parametri di un modello saturo può farsi di conseguenza. (d) Caso in cui le X j sono p variabili sono categoriche. La teoria precedente permette di estendere abbastanza agevolmente l interpretazione del modello logistico multiplo al caso generico di p variabili esplicative categoriche. Il modello 2.6 può scriversi alternativamente: logitπ(k, m, r) = α + β X 1 k + β X 2 m + β X 3 r + β X 1X 2 km in cui, per evitare la ridondanza fra parametri, si impone che β X 1 0 = β X β X 3 0 = 0 e anche β X 1X 2 km = 0 in ogni configurazione (k, m) in cui

38 38 E.Stanghellini Dispense di Statistica IV k = 0 oppure m = 0. Questo permette di scrivere l equazione di un modello con un numero generico di variabili esplicative categoriche. Ad esempio, si consideri il seguente modello con quattro variabili esplicative: logit[π(k, m, r, l)] = α + β X 1 k + β X 2 m + β X 3 r + β X 4 l + β X 1X 2 km + βx 1X 4 kl. Esso implica che tutte le variabili hanno un effetto sulla Y ; l effetto della variabile X 1 varia con X 2 ; l effetto della variabile X 1 varia con X 4 ; infine l effetto di X 3 non varia al variare delle altre variabili. Per convenzione si assegna valore zero a tutti i parametri relativi a configurazioni delle X che coinvolgono le modalità 0 di riferimento La forma matriciale Anche il modello logistico multiplo può essere scritto in forma matriciale, attraverso la costruzione della matrice del disegno X. Sia η il vettore dei logit nella tabella ottenuta attraverso la classificazione congiunta delle variabili esplicative. Avremo: η = Xβ in cui X è la matrice del disegno. Si comprende quindi che il numero di parametri del modello coincide con il rango della matrice X, ovvero con il numero di colonne linearmente indipendenti nella matrice del disegno. Si veda l Esercizio 2.5 per la forma matriciale del modello (2.5). 2.7 La stima mediante massima verosimiglianza Si indichi con x i il vettore riga delle variabili esplicative associato alla i-esima cella della tabella di contingenza ottenuta dalla classificazione congiunta delle unità secondo le variabili esplicative. Le variabili in x i, x ij, sono continue o variabili dummy di variabili categoriche e delle loro interazioni. Siano N le celle della tabella così ottenuta. Per ogni cella i si hanno n i osservazioni di cui w i sono successi. Si scriva il modello di regressione logistico nella seguente forma: logitπ(x i ) = p β j x ij (2.7) j=1

39 E.Stanghellini Dispense di Statistica IV 39 in cui si è posto α = β 1 e x i1 = 1. Si assume che ogni cella sia una estrazione di una v.c. binomiale relativa W i di dimensione n i e valore atteso π(x i ). La funzione di probabilità nella cella i-esima è pertanto pari a ( ) ni π(x i ) w i [1 π(x i )] n i w i con e w i π(x i ) = 1 π(x i ) = exp( p j=1 β jx ij ) 1 + exp( p j=1 β jx ij ). (2.8) exp( p j=1 β jx ij ). Si indichi con l i (β) la log-verosimiglianza della i-esima estrazione. Questa è proporzionale alla seguente espressione: l i (β) = w i log π(x i ) + (n i w i ) log[1 π(x i )] (2.9) in cui w i è la somma dei successi in ogni cella i. Per N estrazioni indipendenti, la log-verosimiglianza del campione L = i l i è proporzionale alla seguente: L(β) = i {w i log π(x i ) + (n i w i ) log[1 π(x i )]} da cui: L(β) = i w i log π(x i) 1 π(x i ) + i n i log [1 π(x i )]. (2.10) Notando che w i log π(x i) 1 π(x i i ) = i w i ( j β j x ij ) = j β j ( i w i x ij ) avremo w i x ij ) [ n i log 1 + exp ( )] β j x ij. L(β) = j β j ( i i j

40 40 E.Stanghellini Dispense di Statistica IV La stima di massima verosimiglianza si ottiene uguagliando a zero le derivate parziali L(β)/ β j. Essendo L(β) β j = i w i x ij i n i x ij exp( k β kx ik ) 1 + exp( k β kx ik ) il sistema di equazioni di verosimiglianza è pertanto w i x ij x ij n iˆπ(x i ) = 0, j = {1,..., p} (2.11) i i in cui ˆπ(x i ) è la probabilità di successo stimata, ottenuta sostituendo in (2.8) le stime ˆβ j e n iˆπ(x i ) sono le frequenze teoriche, ovvero stimate dal modello. Se con X indichiamo adesso la matrice di dimensioni N p con righe x i e con w indichiamo il vettore N 1 di elementi w i e con ŵ il vettore N 1 di elementi n iˆπ(x i ), possiamo riscrivere le equazioni di verosimiglianza in forma matriciale: X T w = X T ŵ. Si noti l analogia con la (2.2). Tuttavia, a differenza del modello di regressione lineare, in questo caso il sistema non ha soluzione esplicita, tranne nel caso non interessante in cui il modello è un modello saturo. In tutti gli altri casi, la massimizzazione della funzione di verosimiglianza si ottiene attraverso algoritmi iterativi. Gli algoritmi di massimizzazione della funzione di verosimiglianza maggiormente utilizzati nei software statistici sono il Newton-Raphson o il Fisher scoring (si veda, ad esempio, Tanner, 1996, cap. 2). Le stime di massima verosimiglianza esistono e sono uniche, ad eccezione di alcuni casi in cui vi è una relazione deterministica fra Y e le esplicative. Si osservi che, al crescere del numero N di righe della matrice, diminuisce il numero dei successi osservati w i per ogni cella i sui quali si basano le equazioni di verosimiglianza. Di conseguenza, le stime diventano meno accurate. Si noti infine che un modo alternativo di scrivere il modello è quello di vedere il campione nel seguente modo. Per ogni cella i si hanno n i estrazioni di una v.c. Y i con distribuzione di Bernoulli. Si verifica agevolmente che la funzione di verosimiglianza in questo secondo modello è proporzionale a quella scritta precedentemente a meno di un

1. Distribuzioni campionarie

1. Distribuzioni campionarie Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013 lezioni di statistica del 3 e 6 giugno 2013 - di Massimo Cristallo - 1. Distribuzioni campionarie

Dettagli

Regressione Logistica: un Modello per Variabili Risposta Categoriali

Regressione Logistica: un Modello per Variabili Risposta Categoriali : un Modello per Variabili Risposta Categoriali Nicola Tedesco (Statistica Sociale) Regressione Logistica: un Modello per Variabili Risposta Categoriali 1 / 54 Introduzione Premessa I modelli di regressione

Dettagli

Basi di matematica per il corso di micro

Basi di matematica per il corso di micro Basi di matematica per il corso di micro Microeconomia (anno accademico 2006-2007) Lezione del 21 Marzo 2007 Marianna Belloc 1 Le funzioni 1.1 Definizione Una funzione è una regola che descrive una relazione

Dettagli

LE FUNZIONI A DUE VARIABILI

LE FUNZIONI A DUE VARIABILI Capitolo I LE FUNZIONI A DUE VARIABILI In questo primo capitolo introduciamo alcune definizioni di base delle funzioni reali a due variabili reali. Nel seguito R denoterà l insieme dei numeri reali mentre

Dettagli

Dimensione di uno Spazio vettoriale

Dimensione di uno Spazio vettoriale Capitolo 4 Dimensione di uno Spazio vettoriale 4.1 Introduzione Dedichiamo questo capitolo ad un concetto fondamentale in algebra lineare: la dimensione di uno spazio vettoriale. Daremo una definizione

Dettagli

Capitolo 13: L offerta dell impresa e il surplus del produttore

Capitolo 13: L offerta dell impresa e il surplus del produttore Capitolo 13: L offerta dell impresa e il surplus del produttore 13.1: Introduzione L analisi dei due capitoli precedenti ha fornito tutti i concetti necessari per affrontare l argomento di questo capitolo:

Dettagli

LEZIONE n. 5 (a cura di Antonio Di Marco)

LEZIONE n. 5 (a cura di Antonio Di Marco) LEZIONE n. 5 (a cura di Antonio Di Marco) IL P-VALUE (α) Data un ipotesi nulla (H 0 ), questa la si può accettare o rifiutare in base al valore del p- value. In genere il suo valore è un numero molto piccolo,

Dettagli

STATISTICA IX lezione

STATISTICA IX lezione Anno Accademico 013-014 STATISTICA IX lezione 1 Il problema della verifica di un ipotesi statistica In termini generali, si studia la distribuzione T(X) di un opportuna grandezza X legata ai parametri

Dettagli

Relazioni statistiche: regressione e correlazione

Relazioni statistiche: regressione e correlazione Relazioni statistiche: regressione e correlazione È detto studio della connessione lo studio si occupa della ricerca di relazioni fra due variabili statistiche o fra una mutabile e una variabile statistica

Dettagli

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla Il metodo della regressione può essere esteso dal caso in cui si considera la variabilità della risposta della y in relazione ad una sola variabile indipendente X ad una situazione più generale in cui

Dettagli

Il concetto di valore medio in generale

Il concetto di valore medio in generale Il concetto di valore medio in generale Nella statistica descrittiva si distinguono solitamente due tipi di medie: - le medie analitiche, che soddisfano ad una condizione di invarianza e si calcolano tenendo

Dettagli

Corso di. Dott.ssa Donatella Cocca

Corso di. Dott.ssa Donatella Cocca Corso di Statistica medica e applicata Dott.ssa Donatella Cocca 1 a Lezione Cos'è la statistica? Come in tutta la ricerca scientifica sperimentale, anche nelle scienze mediche e biologiche è indispensabile

Dettagli

(a cura di Francesca Godioli)

(a cura di Francesca Godioli) lezione n. 12 (a cura di Francesca Godioli) Ad ogni categoria della variabile qualitativa si può assegnare un valore numerico che viene chiamato SCORE. Passare dalla variabile qualitativa X2 a dei valori

Dettagli

Ottimizazione vincolata

Ottimizazione vincolata Ottimizazione vincolata Ricordiamo alcuni risultati provati nella scheda sulla Teoria di Dini per una funzione F : R N+M R M di classe C 1 con (x 0, y 0 ) F 1 (a), a = (a 1,, a M ), punto in cui vale l

Dettagli

13. Campi vettoriali

13. Campi vettoriali 13. Campi vettoriali 1 Il campo di velocità di un fluido Il concetto di campo in fisica non è limitato ai fenomeni elettrici. In generale il valore di una grandezza fisica assegnato per ogni punto dello

Dettagli

Capitolo 2 Distribuzioni di frequenza

Capitolo 2 Distribuzioni di frequenza Edizioni Simone - Vol. 43/1 Compendio di statistica Capitolo 2 Distribuzioni di frequenza Sommario 1. Distribuzioni semplici. - 2. Distribuzioni doppie. - 3. Distribuzioni parziali: condizionate e marginali.

Dettagli

E naturale chiedersi alcune cose sulla media campionaria x n

E naturale chiedersi alcune cose sulla media campionaria x n Supponiamo che un fabbricante stia introducendo un nuovo tipo di batteria per un automobile elettrica. La durata osservata x i delle i-esima batteria è la realizzazione (valore assunto) di una variabile

Dettagli

LEZIONE 23. Esempio 23.1.3. Si consideri la matrice (si veda l Esempio 22.2.5) A = 1 2 2 3 3 0

LEZIONE 23. Esempio 23.1.3. Si consideri la matrice (si veda l Esempio 22.2.5) A = 1 2 2 3 3 0 LEZIONE 23 231 Diagonalizzazione di matrici Abbiamo visto nella precedente lezione che, in generale, non è immediato che, data una matrice A k n,n con k = R, C, esista sempre una base costituita da suoi

Dettagli

1. PRIME PROPRIETÀ 2

1. PRIME PROPRIETÀ 2 RELAZIONI 1. Prime proprietà Il significato comune del concetto di relazione è facilmente intuibile: due elementi sono in relazione se c è un legame tra loro descritto da una certa proprietà; ad esempio,

Dettagli

1 Applicazioni Lineari tra Spazi Vettoriali

1 Applicazioni Lineari tra Spazi Vettoriali 1 Applicazioni Lineari tra Spazi Vettoriali Definizione 1 (Applicazioni lineari) Si chiama applicazione lineare una applicazione tra uno spazio vettoriale ed uno spazio vettoriale sul campo tale che "!$%!

Dettagli

La distribuzione Normale. La distribuzione Normale

La distribuzione Normale. La distribuzione Normale La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una

Dettagli

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Verifica di ipotesi e intervalli di confidenza nella regressione multipla Verifica di ipotesi e intervalli di confidenza nella regressione multipla Eduardo Rossi 2 2 Università di Pavia (Italy) Maggio 2014 Rossi MRLM Econometria - 2014 1 / 23 Sommario Variabili di controllo

Dettagli

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: Esempi di domande risposta multipla (Modulo II) 1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: 1) ha un numero di elementi pari a 5; 2) ha un numero di elementi

Dettagli

Parte 3. Rango e teorema di Rouché-Capelli

Parte 3. Rango e teorema di Rouché-Capelli Parte 3. Rango e teorema di Rouché-Capelli A. Savo Appunti del Corso di Geometria 203-4 Indice delle sezioni Rango di una matrice, 2 Teorema degli orlati, 3 3 Calcolo con l algoritmo di Gauss, 6 4 Matrici

Dettagli

ESAME DI STATO DI LICEO SCIENTIFICO CORSO SPERIMENTALE P.N.I. 2004

ESAME DI STATO DI LICEO SCIENTIFICO CORSO SPERIMENTALE P.N.I. 2004 ESAME DI STAT DI LICE SCIENTIFIC CRS SPERIMENTALE P.N.I. 004 Il candidato risolva uno dei due problemi e 5 dei 0 quesiti in cui si articola il questionario. PRBLEMA Sia la curva d equazione: ke ove k e

Dettagli

Parte 2. Determinante e matrice inversa

Parte 2. Determinante e matrice inversa Parte. Determinante e matrice inversa A. Savo Appunti del Corso di Geometria 013-14 Indice delle sezioni 1 Determinante di una matrice, 1 Teorema di Cramer (caso particolare), 3 3 Determinante di una matrice

Dettagli

Esercizio 1 Dato il gioco ({1, 2, 3}, v) con v funzione caratteristica tale che:

Esercizio 1 Dato il gioco ({1, 2, 3}, v) con v funzione caratteristica tale che: Teoria dei Giochi, Trento, 2004/05 c Fioravante Patrone 1 Teoria dei Giochi Corso di laurea specialistica: Decisioni economiche, impresa e responsabilità sociale, A.A. 2004/05 Soluzioni degli esercizi

Dettagli

2. Leggi finanziarie di capitalizzazione

2. Leggi finanziarie di capitalizzazione 2. Leggi finanziarie di capitalizzazione Si chiama legge finanziaria di capitalizzazione una funzione atta a definire il montante M(t accumulato al tempo generico t da un capitale C: M(t = F(C, t C t M

Dettagli

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1 CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1 Dott.ssa Antonella Costanzo a.costanzo@unicas.it A.Studio dell interdipendenza tra variabili: riepilogo Concetto relativo allo studio delle relazioni tra

Dettagli

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE LE SUCCESSIONI 1. COS E UNA SUCCESSIONE La sequenza costituisce un esempio di SUCCESSIONE. Ecco un altro esempio di successione: Una successione è dunque una sequenza infinita di numeri reali (ma potrebbe

Dettagli

Slide Cerbara parte1 5. Le distribuzioni teoriche

Slide Cerbara parte1 5. Le distribuzioni teoriche Slide Cerbara parte1 5 Le distribuzioni teoriche I fenomeni biologici, demografici, sociali ed economici, che sono il principale oggetto della statistica, non sono retti da leggi matematiche. Però dalle

Dettagli

2.1 Definizione di applicazione lineare. Siano V e W due spazi vettoriali su R. Un applicazione

2.1 Definizione di applicazione lineare. Siano V e W due spazi vettoriali su R. Un applicazione Capitolo 2 MATRICI Fra tutte le applicazioni su uno spazio vettoriale interessa esaminare quelle che mantengono la struttura di spazio vettoriale e che, per questo, vengono dette lineari La loro importanza

Dettagli

LEZIONE 7. Esercizio 7.1. Quale delle seguenti funzioni è decrescente in ( 3, 0) e ha derivata prima in 3 che vale 0? x 3 3 + x2. 2, x3 +2x +3.

LEZIONE 7. Esercizio 7.1. Quale delle seguenti funzioni è decrescente in ( 3, 0) e ha derivata prima in 3 che vale 0? x 3 3 + x2. 2, x3 +2x +3. 7 LEZIONE 7 Esercizio 7.1. Quale delle seguenti funzioni è decrescente in ( 3, 0) e ha derivata prima in 3 che vale 0? x 3 3 + x2 2 6x, x3 +2x 2 6x, 3x + x2 2, x3 +2x +3. Le derivate sono rispettivamente,

Dettagli

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della RELAZIONE TRA VARIABILI QUANTITATIVE Lezione 7 a Accade spesso nella ricerca in campo biomedico, così come in altri campi della scienza, di voler studiare come il variare di una o più variabili (variabili

Dettagli

SPC e distribuzione normale con Access

SPC e distribuzione normale con Access SPC e distribuzione normale con Access In questo articolo esamineremo una applicazione Access per il calcolo e la rappresentazione grafica della distribuzione normale, collegata con tabelle di Clienti,

Dettagli

risulta (x) = 1 se x < 0.

risulta (x) = 1 se x < 0. Questo file si pone come obiettivo quello di mostrarvi come lo studio di una funzione reale di una variabile reale, nella cui espressione compare un qualche valore assoluto, possa essere svolto senza necessariamente

Dettagli

La scelta in condizioni di incertezza

La scelta in condizioni di incertezza La scelta in condizioni di incertezza 1 Stati di natura e utilità attesa. L approccio delle preferenza per gli stati Il problema posto dall incertezza riformulato (state-preference approach). L individuo

Dettagli

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo. DALLE PESATE ALL ARITMETICA FINITA IN BASE 2 Si è trovato, partendo da un problema concreto, che con la base 2, utilizzando alcune potenze della base, operando con solo addizioni, posso ottenere tutti

Dettagli

4. Operazioni elementari per righe e colonne

4. Operazioni elementari per righe e colonne 4. Operazioni elementari per righe e colonne Sia K un campo, e sia A una matrice m n a elementi in K. Una operazione elementare per righe sulla matrice A è una operazione di uno dei seguenti tre tipi:

Dettagli

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco Alfonso Iodice D Enza April 26, 2007 1...prima di cominciare Contare, operazione solitamente semplice, può diventare complicata se lo scopo

Dettagli

Stima per intervalli Nei metodi di stima puntuale è sempre presente un ^ errore θ θ dovuto al fatto che la stima di θ in genere non coincide con il parametro θ. Sorge quindi l esigenza di determinare una

Dettagli

b. Che cosa succede alla frazione di reddito nazionale che viene risparmiata?

b. Che cosa succede alla frazione di reddito nazionale che viene risparmiata? Esercitazione 7 Domande 1. L investimento programmato è pari a 100. Le famiglie decidono di risparmiare una frazione maggiore del proprio reddito e la funzione del consumo passa da C = 0,8Y a C = 0,5Y.

Dettagli

La Programmazione Lineare

La Programmazione Lineare 4 La Programmazione Lineare 4.1 INTERPRETAZIONE GEOMETRICA DI UN PROBLEMA DI PROGRAMMAZIONE LINEARE Esercizio 4.1.1 Fornire una rappresentazione geometrica e risolvere graficamente i seguenti problemi

Dettagli

ANALISI DELLE FREQUENZE: IL TEST CHI 2

ANALISI DELLE FREQUENZE: IL TEST CHI 2 ANALISI DELLE FREQUENZE: IL TEST CHI 2 Quando si hanno scale nominali o ordinali, non è possibile calcolare il t, poiché non abbiamo medie, ma solo frequenze. In questi casi, per verificare se un evento

Dettagli

CONTINUITÀ E DERIVABILITÀ Esercizi risolti

CONTINUITÀ E DERIVABILITÀ Esercizi risolti CONTINUITÀ E DERIVABILITÀ Esercizi risolti. Determinare kπ/ [cos] al variare di k in Z. Ove tale ite non esista, discutere l esistenza dei iti laterali. Identificare i punti di discontinuità della funzione

Dettagli

Intorni Fissato un punto sull' asse reale, si definisce intorno del punto, un intervallo aperto contenente e tutto contenuto in

Intorni Fissato un punto sull' asse reale, si definisce intorno del punto, un intervallo aperto contenente e tutto contenuto in Intorni Fissato un punto sull' asse reale, si definisce intorno del punto, un intervallo aperto contenente e tutto contenuto in Solitamente si fa riferimento ad intorni simmetrici =, + + Definizione: dato

Dettagli

Esercizi su lineare indipendenza e generatori

Esercizi su lineare indipendenza e generatori Esercizi su lineare indipendenza e generatori Per tutto il seguito, se non specificato esplicitamente K indicherà un campo e V uno spazio vettoriale su K Cose da ricordare Definizione Dei vettori v,,v

Dettagli

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI Indice 1 Le frazioni algebriche 1.1 Il minimo comune multiplo e il Massimo Comun Divisore fra polinomi........ 1. Le frazioni algebriche....................................

Dettagli

G3. Asintoti e continuità

G3. Asintoti e continuità G3 Asintoti e continuità Un asintoto è una retta a cui la funzione si avvicina sempre di più senza mai toccarla Non è la definizione formale, ma sicuramente serve per capire il concetto di asintoto Nei

Dettagli

Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale

Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale Corso di Scienza Economica (Economia Politica) prof. G. Di Bartolomeo Lezione 10: Il problema del consumatore: Preferenze e scelta ottimale Facoltà di Scienze della Comunicazione Università di Teramo Scelta

Dettagli

UNIVERSITÀ DEGLI STUDI DI TERAMO

UNIVERSITÀ DEGLI STUDI DI TERAMO UNIVERSITÀ DEGLI STUDI DI TERAMO CORSO DI LAUREA IN ECONOMIA BANCARIA FINANZIARIA ED ASSICURATIVA (Classe 7) Corso di Matematica per l Economia (Prof. F. Eugeni) TEST DI INGRESSO Teramo, ottobre 00 SEZIONE

Dettagli

Statistica inferenziale

Statistica inferenziale Statistica inferenziale Popolazione e campione Molto spesso siamo interessati a trarre delle conclusioni su persone che hanno determinate caratteristiche (pazienti, atleti, bambini, gestanti, ) Osserveremo

Dettagli

La variabile casuale Binomiale

La variabile casuale Binomiale La variabile casuale Binomiale Si costruisce a partire dalla nozione di esperimento casuale Bernoulliano che consiste in un insieme di prove ripetute con le seguenti caratteristiche: i) ad ogni singola

Dettagli

Luigi Piroddi piroddi@elet.polimi.it

Luigi Piroddi piroddi@elet.polimi.it Automazione industriale dispense del corso 10. Reti di Petri: analisi strutturale Luigi Piroddi piroddi@elet.polimi.it Analisi strutturale Un alternativa all analisi esaustiva basata sul grafo di raggiungibilità,

Dettagli

LA MASSIMIZZAZIONE DEL PROFITTO ATTRAVERSO LA FISSAZIONE DEL PREZZO IN FUNZIONE DELLE QUANTITÀ

LA MASSIMIZZAZIONE DEL PROFITTO ATTRAVERSO LA FISSAZIONE DEL PREZZO IN FUNZIONE DELLE QUANTITÀ LA MASSIMIZZAZIONE DEL PROFITTO ATTRAVERSO LA FISSAZIONE DEL PREZZO IN FUNZIONE DELLE QUANTITÀ In questa Appendice mostreremo come trovare la tariffa in due parti che massimizza i profitti di Clearvoice,

Dettagli

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE e-mail: tommei@dm.unipi.it web: www.dm.unipi.it/ tommei Ricevimento: su appuntamento Dipartimento di Matematica, piano terra, studio 114

Dettagli

Controlli Automatici T. Trasformata di Laplace e Funzione di trasferimento. Parte 3 Aggiornamento: Settembre 2010. Prof. L.

Controlli Automatici T. Trasformata di Laplace e Funzione di trasferimento. Parte 3 Aggiornamento: Settembre 2010. Prof. L. Parte 3 Aggiornamento: Settembre 2010 Parte 3, 1 Trasformata di Laplace e Funzione di trasferimento Prof. Lorenzo Marconi DEIS-Università di Bologna Tel. 051 2093788 Email: lmarconi@deis.unibo.it URL:

Dettagli

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Un po di statistica. Christian Ferrari. Laboratorio di Matematica Un po di statistica Christian Ferrari Laboratorio di Matematica 1 Introduzione La statistica è una parte della matematica applicata che si occupa della raccolta, dell analisi e dell interpretazione di

Dettagli

Le funzioni continue. A. Pisani Liceo Classico Dante Alighieri A.S. 2002-03. A. Pisani, appunti di Matematica 1

Le funzioni continue. A. Pisani Liceo Classico Dante Alighieri A.S. 2002-03. A. Pisani, appunti di Matematica 1 Le funzioni continue A. Pisani Liceo Classico Dante Alighieri A.S. -3 A. Pisani, appunti di Matematica 1 Nota bene Questi appunti sono da intendere come guida allo studio e come riassunto di quanto illustrato

Dettagli

Capitolo 25: Lo scambio nel mercato delle assicurazioni

Capitolo 25: Lo scambio nel mercato delle assicurazioni Capitolo 25: Lo scambio nel mercato delle assicurazioni 25.1: Introduzione In questo capitolo la teoria economica discussa nei capitoli 23 e 24 viene applicata all analisi dello scambio del rischio nel

Dettagli

FUNZIONI ELEMENTARI - ESERCIZI SVOLTI

FUNZIONI ELEMENTARI - ESERCIZI SVOLTI FUNZIONI ELEMENTARI - ESERCIZI SVOLTI 1) Determinare il dominio delle seguenti funzioni di variabile reale: (a) f(x) = x 4 (c) f(x) = 4 x x + (b) f(x) = log( x + x) (d) f(x) = 1 4 x 5 x + 6 ) Data la funzione

Dettagli

ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA

ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA ESERCIZI DI ALGEBRA LINEARE E GEOMETRIA Francesco Bottacin Padova, 24 febbraio 2012 Capitolo 1 Algebra Lineare 1.1 Spazi e sottospazi vettoriali Esercizio 1.1. Sia U il sottospazio di R 4 generato dai

Dettagli

2 + (σ2 - ρσ 1 ) 2 > 0 [da -1 ρ 1] b = (σ 2. 2 - ρσ1 σ 2 ) = (σ 1

2 + (σ2 - ρσ 1 ) 2 > 0 [da -1 ρ 1] b = (σ 2. 2 - ρσ1 σ 2 ) = (σ 1 1 PORTAFOGLIO Portafoglio Markowitz (2 titoli) (rischiosi) due titoli rendimento/varianza ( μ 1, σ 1 ), ( μ 2, σ 2 ) Si suppone μ 1 > μ 2, σ 1 > σ 2 portafoglio con pesi w 1, w 2 w 1 = w, w 2 = 1- w 1

Dettagli

Domande a scelta multipla 1

Domande a scelta multipla 1 Domande a scelta multipla Domande a scelta multipla 1 Rispondete alle domande seguenti, scegliendo tra le alternative proposte. Cercate di consultare i suggerimenti solo in caso di difficoltà. Dopo l elenco

Dettagli

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da Data una funzione reale f di variabile reale x, definita su un sottoinsieme proprio D f di R (con questo voglio dire che il dominio di f è un sottoinsieme di R che non coincide con tutto R), ci si chiede

Dettagli

Corso di Matematica per la Chimica

Corso di Matematica per la Chimica Dott.ssa Maria Carmela De Bonis a.a. 203-4 I sistemi lineari Generalità sui sistemi lineari Molti problemi dell ingegneria, della fisica, della chimica, dell informatica e dell economia, si modellizzano

Dettagli

Il confronto fra proporzioni

Il confronto fra proporzioni L. Boni Il rapporto Un rapporto (ratio), attribuendo un ampio significato al termine, è il risultato della divisione di una certa quantità a per un altra quantità b Il rapporto Spesso, in maniera più specifica,

Dettagli

Funzioni. Parte prima. Daniele Serra

Funzioni. Parte prima. Daniele Serra Funzioni Parte prima Daniele Serra Nota: questi appunti non sostituiscono in alcun modo le lezioni del prof. Favilli, né alcun libro di testo. Sono piuttosto da intendersi a integrazione di entrambi. 1

Dettagli

Lezioni di Matematica 1 - I modulo

Lezioni di Matematica 1 - I modulo Lezioni di Matematica 1 - I modulo Luciano Battaia 16 ottobre 2008 Luciano Battaia - http://www.batmath.it Matematica 1 - I modulo. Lezione del 16/10/2008 1 / 13 L introduzione dei numeri reali si può

Dettagli

1. Scopo dell esperienza.

1. Scopo dell esperienza. 1. Scopo dell esperienza. Lo scopo di questa esperienza è ricavare la misura di tre resistenze il 4 cui ordine di grandezza varia tra i 10 e 10 Ohm utilizzando il metodo olt- Amperometrico. Tale misura

Dettagli

2 Argomenti introduttivi e generali

2 Argomenti introduttivi e generali 1 Note Oltre agli esercizi di questa lista si consiglia di svolgere quelli segnalati o assegnati sul registro e genericamente quelli presentati dal libro come esercizio o come esempio sugli argomenti svolti

Dettagli

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R Studio di funzione Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R : allo scopo di determinarne le caratteristiche principali.

Dettagli

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE Matematica e statistica: dai dati ai modelli alle scelte www.dima.unige/pls_statistica Responsabili scientifici M.P. Rogantin e E. Sasso (Dipartimento di Matematica Università di Genova) PROBABILITÀ -

Dettagli

RICERCA OPERATIVA GRUPPO B prova scritta del 22 marzo 2007

RICERCA OPERATIVA GRUPPO B prova scritta del 22 marzo 2007 RICERCA OPERATIVA GRUPPO B prova scritta del 22 marzo 2007 Rispondere alle seguenti domande marcando a penna la lettera corrispondente alla risposta ritenuta corretta (una sola tra quelle riportate). Se

Dettagli

MATEMATICA 2001. p = 4/6 = 2/3; q = 1-2/3 = 1/3. La risposta corretta è quindi la E).

MATEMATICA 2001. p = 4/6 = 2/3; q = 1-2/3 = 1/3. La risposta corretta è quindi la E). MATEMATICA 2001 66. Quale fra le seguenti affermazioni è sbagliata? A) Tutte le funzioni ammettono la funzione inversa B) Una funzione dispari è simmetrica rispetto all origine C) Una funzione pari è simmetrica

Dettagli

Lezione 9: Cambio di base

Lezione 9: Cambio di base Lezione 9: Cambio di base In questa lezione vogliamo affrontare uno degli argomenti piu ostici per lo studente e cioè il cambio di base all interno di uno spazio vettoriale, inoltre cercheremo di capire

Dettagli

Interesse, sconto, ratei e risconti

Interesse, sconto, ratei e risconti TXT HTM PDF pdf P1 P2 P3 P4 293 Interesse, sconto, ratei e risconti Capitolo 129 129.1 Interesse semplice....................................................... 293 129.1.1 Esercizio per il calcolo dell

Dettagli

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8 CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Test delle ipotesi sulla varianza In un azienda che produce componenti meccaniche, è stato

Dettagli

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione : analisi delle relazioni tra due caratteristiche osservate sulle stesse unità statistiche studio del comportamento di due caratteri

Dettagli

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a) Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B Eventi indipendenti: un evento non influenza l altro Eventi disgiunti: il verificarsi di un evento esclude l altro Evento prodotto:

Dettagli

Premesse alla statistica

Premesse alla statistica Premesse alla statistica Versione 22.10.08 Premesse alla statistica 1 Insiemi e successioni I dati di origine sperimentale si presentano spesso non come singoli valori, ma come insiemi di valori. Richiamiamo

Dettagli

( x) ( x) 0. Equazioni irrazionali

( x) ( x) 0. Equazioni irrazionali Equazioni irrazionali Definizione: si definisce equazione irrazionale un equazione in cui compaiono uno o più radicali contenenti l incognita. Esempio 7 Ricordiamo quanto visto sulle condizioni di esistenza

Dettagli

a) Il campo di esistenza di f(x) è dato da 2x 0, ovvero x 0. Il grafico di f(x) è quello di una iperbole -1 1

a) Il campo di esistenza di f(x) è dato da 2x 0, ovvero x 0. Il grafico di f(x) è quello di una iperbole -1 1 LE FUNZIONI EALI DI VAIABILE EALE Soluzioni di quesiti e problemi estratti dal Corso Base Blu di Matematica volume 5 Q[] Sono date le due funzioni: ) = e g() = - se - se = - Determina il campo di esistenza

Dettagli

Appunti sul corso di Complementi di Matematica - prof. B.Bacchelli. 03 - Equazioni differenziali lineari omogenee a coefficienti costanti.

Appunti sul corso di Complementi di Matematica - prof. B.Bacchelli. 03 - Equazioni differenziali lineari omogenee a coefficienti costanti. Appunti sul corso di Complementi di Matematica - prof. B.Bacchelli 03 - Equazioni differenziali lineari omogenee a coefficienti costanti. Def. Si dice equazione differenziale lineare del secondo ordine

Dettagli

Capitolo 25: Lo scambio nel mercato delle assicurazioni

Capitolo 25: Lo scambio nel mercato delle assicurazioni Capitolo 25: Lo scambio nel mercato delle assicurazioni 25.1: Introduzione In questo capitolo la teoria economica discussa nei capitoli 23 e 24 viene applicata all analisi dello scambio del rischio nel

Dettagli

Capitolo 2. Operazione di limite

Capitolo 2. Operazione di limite Capitolo 2 Operazione di ite In questo capitolo vogliamo occuparci dell operazione di ite, strumento indispensabile per scoprire molte proprietà delle funzioni. D ora in avanti riguarderemo i domini A

Dettagli

Determinare la grandezza della sottorete

Determinare la grandezza della sottorete Determinare la grandezza della sottorete Ogni rete IP possiede due indirizzi non assegnabili direttamente agli host l indirizzo della rete a cui appartiene e l'indirizzo di broadcast. Quando si creano

Dettagli

2 FUNZIONI REALI DI VARIABILE REALE

2 FUNZIONI REALI DI VARIABILE REALE 2 FUNZIONI REALI DI VARIABILE REALE 2.1 CONCETTO DI FUNZIONE Definizione 2.1 Siano A e B due insiemi. Una funzione (o applicazione) f con dominio A a valori in B è una legge che associa ad ogni elemento

Dettagli

CONTINUITÀ E DERIVABILITÀ Esercizi proposti. 1. Determinare lim M(sinx) (M(t) denota la mantissa di t)

CONTINUITÀ E DERIVABILITÀ Esercizi proposti. 1. Determinare lim M(sinx) (M(t) denota la mantissa di t) CONTINUITÀ E DERIVABILITÀ Esercizi proposti 1. Determinare lim M(sin) (M(t) denota la mantissa di t) kπ/ al variare di k in Z. Ove tale limite non esista, discutere l esistenza dei limiti laterali. Identificare

Dettagli

Facciamo qualche precisazione

Facciamo qualche precisazione Abbiamo introdotto alcuni indici statistici (di posizione, di variabilità e di forma) ottenibili da Excel con la funzione Riepilogo Statistiche Facciamo qualche precisazione Al fine della partecipazione

Dettagli

Statistiche campionarie

Statistiche campionarie Statistiche campionarie Sul campione si possono calcolare le statistiche campionarie (come media campionaria, mediana campionaria, varianza campionaria,.) Le statistiche campionarie sono stimatori delle

Dettagli

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate Introduzione alle relazioni multivariate Associazione e causalità Associazione e causalità Nell analisi dei dati notevole importanza è rivestita dalle relazioni causali tra variabili Date due variabili

Dettagli

SOLUZIONE DEL PROBLEMA 1 TEMA DI MATEMATICA ESAME DI STATO 2015

SOLUZIONE DEL PROBLEMA 1 TEMA DI MATEMATICA ESAME DI STATO 2015 SOLUZIONE DEL PROBLEMA 1 TEMA DI MATEMATICA ESAME DI STATO 015 1. Indicando con i minuti di conversazione effettuati nel mese considerato, la spesa totale mensile in euro è espressa dalla funzione f()

Dettagli

Matematica 1 - Corso di Laurea in Ingegneria Meccanica

Matematica 1 - Corso di Laurea in Ingegneria Meccanica Matematica 1 - Corso di Laurea in Ingegneria Meccanica Esercitazione su massimi e minimi vincolati 9 dicembre 005 Esercizio 1. Considerare l insieme C = {(x,y) R : (x + y ) = x } e dire se è una curva

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

Un gioco con tre dadi

Un gioco con tre dadi Un gioco con tre dadi Livello scolare: biennio Abilità interessate Costruire lo spazio degli eventi in casi semplici e determinarne la cardinalità. Valutare la probabilità in diversi contesti problematici.

Dettagli

Vademecum studio funzione

Vademecum studio funzione Vademecum studio funzione Campo di Esistenza di una funzione o dominio: Studiare una funzione significa determinare gli elementi caratteristici che ci permettono di disegnarne il grafico, a partire dalla

Dettagli

Capitolo 4 Probabilità

Capitolo 4 Probabilità Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 4 Probabilità Insegnamento: Statistica Corso di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara Docenti: Dott.

Dettagli

Calcolo delle probabilità

Calcolo delle probabilità Calcolo delle probabilità Laboratorio di Bioinformatica Corso A aa 2005-2006 Statistica Dai risultati di un esperimento si determinano alcune caratteristiche della popolazione Calcolo delle probabilità

Dettagli

Transitori del primo ordine

Transitori del primo ordine Università di Ferrara Corso di Elettrotecnica Transitori del primo ordine Si consideri il circuito in figura, composto da un generatore ideale di tensione, una resistenza ed una capacità. I tre bipoli

Dettagli