Metodi statistici per la ricerca sociale Capitolo 15. Regressione logistica: modellare variabili risposta categoriali

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Metodi statistici per la ricerca sociale Capitolo 15. Regressione logistica: modellare variabili risposta categoriali"

Transcript

1 Metodi statistici per la ricerca sociale Capitolo 15. Regressione logistica: modellare variabili risposta categoriali Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni (DiSIA) Università degli Studi di Firenze LM 88 SOCIOLOGIA E RICERCA SOCIALE A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 1 / 44

2 Modelli per risposte binarie Variabile risposta binaria Y i = { 1 successo 0 insuccesso Pratica dell autopalpazione Decisioni: Si/No Presenza/assenza di una certa caratteristica (Occupato/Non occupato) Sopravvivenza/Morte Variabile esplicativa: X i Parametro di interesse = Probabilità di successo condizionata Pr(Y i = 1 X i = x i ) A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 2 / 44

3 Esempio: Pozzi di acqua potabile in Bangladesh Obiettivo: studiare la decisione delle famiglie in Bangladesh di cambiare la loro fonte di acqua da bere Campione di 3020 famiglie Variabili x i1 x i2 y i = Distanza (in ettometri) dal pozzo di acqua potabile più vicino = Livello di arsenico nel pozzo di acqua potabile utilizzato dalla famiglia = Indicatore della decisione della famiglia Y i = { 1 La famiglia i cambia fonte di acqua potabile 0 Altrimenti A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 3 / 44

4 Esempio: Pozzi di acqua potabile in Bangladesh u i y i x i1 x i Statistiche descrittive Frequenze Y i = 0 Y i = 1 Assolute Relative Variabile Media x i x i y i A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 4 / 44

5 Pozzi di acqua potabile in Bangladesh: Relazione tra decisione e livello di arsenico Livello di arsenico A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 5 / 44

6 Modello lineare nelle probabilità Le osservazioni Y i sono variabili aleatorie indipendenti e hanno distribuzione Bernoulliana Y i X i = x i Bernoulli(π i ) con probabilità di successo π i = Pr(Y i = 1 X i = x i ) che dipendono da x i Modello lineare nelle probabilità π i = Pr(Y i = 1 X i = x i ) = E[Y i X i = x i ] = β 0 + β 1 x i A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 6 / 44

7 Modello lineare nelle probabilità Livello di arsenico β 0 + β 1 x i = x i A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 7 / 44

8 Modello lineare nelle probabilità Il modello lineare nelle probabilità può dar luogo a probabilità stimate non comprese tra 0 e 1 Le varianze var(y i X i = x i ) = π i (1 π i ) non sono costanti, ma funzione delle variabili esplicative x Il modello di regressione multipla con assunzione di omoschedasticità non è correttamente specificato Le stime dei minimi quadrati sono inefficienti A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 8 / 44

9 Modello lineare nelle probabilità: Pozzi di acqua potabile in Bangladesh Livello di arsenico β 0 + β 1 x i = x i A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 9 / 44

10 Il logit delle probabilità ψ i = logit(pr(y i = 1 X i = x i )) = log ( Pr(Y i = 1 X i = x i ) 1 Pr(Y i = 1 X i = x i ) ) Il logit assume valori nell insieme dei numeri reali Trasformazione inversa exp(ψ i ) π i = Pr(Y i = 1 X i = x i ) = 1 + exp(ψ i ) exp(ψ i) (1 + exp(ψi)) ψ i A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 10 / 44

11 Modello di regressione logistica lineare Le osservazioni Y i sono variabili aleatorie indipendenti e hanno distribuzione Bernoulliana Y i X i = x i Bernoulli(π i ) con probabilità di successo π i = P(Y i = 1 X i = x i ) che dipendono da x i Modello logit logit(π i ) = log ( Pr(Y i = 1 X i = x i ) 1 Pr(Y i = 1 X i = x i ) ) = β 0 + β 1 x i exp(β 0 + β 1 x i ) π i = 1 + exp(β 0 + β 1 x i ) A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 11 / 44

12 Modello di regressione logistica lineare Pozzi di acqua potabile in Bangladesh π i = exp( β 0 + β 1 x i ) 1 + exp( β 0 + β 1 x i ) = exp( x i ) 1 + exp( x i ) Logit 2 1 Probabilità Livello di arsenico Livello di arsenico A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 12 / 44

13 Modello di regressione logistica lineare Funzione di regressione logistica β 0 π(x = 0) = π i = exp(β 0) 1 + exp(β 0) exp(β 0 + β 1x i ) 1 + exp(β 0 + β 1x i ) È crescente se β 1 > 0 Probabilità di successo aumenta all aumentare di x È decrescente se β 1 < 0 Probabilità di successo diminuisce all aumentare di x È costante se β 1 = 0 Probabilità di successo costante Pendenza della retta tangente alla curva: β 1 π i (1 π i ) La massima pendenza della curva si ha nel punto x = β 0/β 1 nel quale π i = 0.5 La pendenza della curva nel punto x = β 0/β 1 è β 1/4: Un incremento unitario in x implica una variazione nella probabilità di successo di al massimo β 1/4 A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 13 / 44

14 Modello di regressione logistica lineare: Il parametro β 1 logit(π(x)) = β 0 + β 1 x β 1 = logit(π(x + 1)) logit(π(x)) per qualsiasi valore di x Si ricorda che Quindi logit(π(x)) = log ( π(x) 1 π(x) ) = log(odds(x)) π(x + 1) π(x) β 1 = logit(π(x + 1)) logit(π(x)) = log ( ) log ( 1 π(x + 1) 1 π(x) ) = log π(x + 1) 1 π(x + 1) π(x) 1 π(x) Odds(x + 1) = log ( Odds(x) ) Odds(x + 1) e β1 = passando da x a x + 1 gli odds sono moltiplicati per e β1 Odds(x) per qualsiasi valore di x A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 14 / 44

15 Modello di regressione logistica lineare Pozzi di acqua potabile in Bangladesh π i = exp( β 0 + β 1 x i ) 1 + exp( β 0 + β 1 x i ) = exp( x i ) 1 + exp( x i ) exp( 0.31) β 0 = 0.31 π(x = 0) = 1 + exp( 0.31) = 0.42 La funzione cresce ( β 1 = 0.38 è positivo) e le quote di successo crescono a un tasso di e 0.4 = 1.49 ossia ogni incremento unitario nel livello di arsenico implica che gli odds siano moltiplicati per 1.49 La massima pendenza della curva, uguale a si ha nel punto β 1 /4 = 0.38/4 = 0.09 x = β 0 / β 1 = ( 0.31)/(0.38) = 0.81 A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 15 / 44

16 Modello di regressione logistica lineare Pozzi di acqua potabile in Bangladesh π i = exp( β 0 + β 1 x i ) 1 + exp( β 0 + β 1 x i ) = exp( x i ) 1 + exp( x i ) π(x = 0.75) = 0.49 π(x = 1.75) = 0.59 π(x = 1.75) π(x = 0.75) = 0.10 π(x = 5) = 0.83 π(x = 6) = 0.88 π(x = 6) π(x = 5) = 0.05 Incrementi non costanti Un incremento nella concentrazione di arsenico da 0.75 a 1.75 implica un incremento nella probabilità di cambiare fonte di acqua potabile da 0.49 a 0.59 Un incremento nella concentrazione di arsenico da 5 a 6 implica un incremento nella probabilità di cambiare fonte di acqua potabile da 0.83 a 0.88 Probabilità attesa per una concentrazione media di arsenico: x = 1.66 π(x) = exp( ) 1 + exp( ) = 0.58 A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 16 / 44

17 Stimare i parametri di un modello logistico Metodo della massima verosimiglianza La funzione di verosimiglianza da informazioni sulla probabilità di osservare i dati effettivamente osservati al variare del valore dei parametri: Ogni valore della funzione di verosimiglianza in corrispondenza di un dato valore dei parametri dice quanto è verosimile che i dati osservati provengano da una popolazione in cui i parametri assumono quel valore Determinare i valori di β 0 e β 1 che rendono massima la funzione di verosimiglianza (o equivalentemente la funzione di log-verosimiglianza) Le stime di massima verosimiglianza per i parametri del modello logit sono ottenute numericamente attraverso procedure iterative In generale non esistono espressioni in forma chiusa delle stime di massima verosimiglianza per i parametri del modello logit Funzione di verosimiglianza: L(β 0, β 1 ) B 0 = e B 1 =: stimatori di massima verosimiglianza dei parametri β 0 e β 1, rispettivamente A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 17 / 44

18 Inferenza nel modello logistico: Verifica di ipotesi e IC per β 1 Ipotesi: H 0 β 1 = 0 versus H a β 1 0 Statistica test B 1 Z = ê.s.( B 1) dove ê.s.( B 1) è la stima dell errore standard di B1 Sotto l ipotesi nulla la statistica test Z ha una distribuzione asintotica Normale standard: se il campione non è estremamente piccolo, si può approssimare la distribuzione della statistica test Z con la distribuzione normale Regione critica asintotica Statistica test di Wald RC α Z z α/2 oppure Z z α/2 B 1 W = ( ê.s.( B ) = Z 2 1) 2 Sotto l ipotesi nulla H 0 la statistica test W ha una distribuzione asintotica χ 2 1 Il test Z e di Wald sono equivalenti (stesso p value) Intervallo di confidenza per exp(β 1) al livello di confidenza 1 α IC 1 α(exp(β 1)) = [exp { β 1 z α/2 ê.s.( B 1)} ; exp { β 1 + z α/2 ê.s.( B 1)}] A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 18 / 44

19 Stima di massima verosimiglianza nel modello logistico Pozzi di acqua potabile in Bangladesh Variabile Stima Errore standard z value p value Costante Arsenico La statistica test z = 0.38/ = 9.8 con p value = RC α=0.01 = Z 2.58 oppure Z 2.58 Evidenza contro l ipotesi nulla al livello di significatività del 1%. Statistica di Wald: w = (0.38/0.0385) 2 = (9.8) 2 = con p value = Pr(χ ) = Intervallo di confidenza per exp(β 1 ) al livello di confidenza 1 α = 0.99 IC 0.99 (exp(β 1 )) = [exp( ); exp( )] = [exp(0.28); exp(0.48)] = [1.32; 1.61] A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 19 / 44

20 Confronto tra modelli Modello esteso: logit(π i ) = β 0 + β 1 x i π i = exp(β 0 ) Modello ridotto: logit(π i ) = β 0 π i = 1 + exp(β 0 ) (modello nullo) exp(β 0 + β 1 x i ) 1 + exp(β 0 + β 1 x i ) Test del rapporto di verosimiglianza max β0 L(β 0 ) 2 log ( max β0,β 1 L(β 0, β 1 ) ) = 2 log ( L( β 0 ) L( β 0, β 1 ) ) = 2 log ( L r L e ) = 2 (log L r log L e ) A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 20 / 44

21 Confronto tra modelli La statistica test del rapporto di verosimiglianza ha una distribuzione asintotica (sotto H 0 ) χ 2 con gdl uguale al numero di parametri posti a zero sotto l ipotesi nulla (1 nel caso considerato) In presenza di una sola variabile esplicativa il test del rapporto di verosimiglianza per il confronto tra modello esteso e modello nullo usualmente conduce a risultati simili al test di Wald (e al test Z) per campioni di grandi dimensioni A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 21 / 44

22 Confronto tra modelli Pozzi di acqua potabile in Bangladesh Modello completo: log L( β 0, β 1 ) = Variabile Stima Errore standard z value p value Costante Arsenico Modello nullo log L( β 0 ) = Variabile Stima Errore standard z value p value Costante Statistica test del rapporto di verosimiglianza 2 (log L r log L e ) = 2 ( ( )) = Fissato α = 0.01, χ 2 1 (0.01) = Evidenza contro l ipotesi nulla al livello di significatività del 1% p value = Pr(χ 2 1 > ) = A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 22 / 44

23 Modello di regressione logistica multiplo Le osservazioni sulle variabile esplicative x i1,..., x ik sono fisse Le osservazioni Y i sono variabili aleatorie indipendenti e hanno distribuzione Bernoulliana Y i X i1 = x i1,..., X ik = x ik Bernoulli(π i ) con probabilità di successo π i = P(Y i = 1 X i1 = x i1,..., X ik = x ik ) che dipendono da x i1,..., x ik Modello logit logit(π i ) = logit ( Pr(Y i = 1 X i1 = x i1,..., X ik = x ik ) 1 Pr(Y i = 1 X i1 = x i1,..., X ik = x ik ) ) = β 0 + β 1 x i1 + + β k x ik π i = Pr(Y i = 1 X i1 = x i1,..., X ik = x ik ) = exp(β 0 +β 1 x i1 + + β k x ik ) 1 + exp(β 0 +β 1 x i1 + + β k x ik ) A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 23 / 44

24 Esempio: Pozzi di acqua potabile in Bangladesh Variabile Stima Errore standard z value p value Costante Distanza Arsenico β 0 = π(x 1 = 0, x 2 = 0) = exp(0.0027) 1 + exp(0.0027) = Confrontando famiglie che utilizzano pozzi di acqua caratterizzati dallo stesso livello di arsenico, ogni incremento di 100 metri nella distanza determina una riduzione di 0.90 nel logit della probabilità di cambiare fonte di acqua potabile gli odds di successo a favore del cambiamento si moltiplicano per e = per ogni incremento di 100 metri della distanza fissato il livello di arsenico Confrontando famiglie che si trovano alla stessa distanza dal pozzo di acqua utilizzato con fonte di acqua potabile, un incremento unitario nella concentrazione di arsenico determina un incremento di 0.46 nel logit della probabilità di cambiare fonte di acqua potabile gli odds di successo a favore del cambiamento si moltiplicano per e 0.46 = per ogni incremento unitario della concentrazione di arsenico fissata la distanza A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 24 / 44

25 Esempio: Pozzi di acqua potabile in Bangladesh Variabile Stima Errore standard z value p value Costante Distanza Arsenico Il segno dei coefficienti delle variabili esplicative sembrano ragionevoli: una famiglia ha maggiore probabilità di cambiare fonte di acqua potabile se si trova lontana dall attuale fonte e se l attuale fonte ha un elevata concentrazione di arsenico Entrambi i coefficienti delle variabili esplicative sono statisticamente significativi A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 25 / 44

26 Esempio: Pozzi di acqua potabile in Bangladesh Probabilità Conc. arsenico = Conc. arsenico = Conc. arsenico = Probabilità Distanza = Distanza = Distanza = Distanza Concentrazione di arsenico.. A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 26 / 44

27 Esempio: Pozzi di acqua potabile in Bangladesh Modello con interazione Variabile Stima Errore standard z value p value Costante Distanza Arsenico Interazione Probabilità Conc. arsenico = Conc. arsenico = Conc. arsenico = Probabilità Distanza = Distanza = Distanza = Distanza Concentrazione di arsenico A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 27 / 44

28 Esempio: Pozzi di acqua potabile in Bangladesh Modello con interazione exp( ) β 0 = π(x 1 = 0, x 2 = 0) = 1 + exp( ) = Confrontando famiglie che utilizzano pozzi di acqua caratterizzati da una concentrazione nulla di arsenico, ogni incremento di 100 metri nella distanza determina una riduzione di 0.58 nel logit della probabilità di cambiare fonte di acqua potabile gli odds di successo a favore del cambiamento si moltiplicano per e = per ogni incremento di 100 metri della distanza fissato il livello di arsenico a zero Confrontando famiglie che si trovano distanza zero dal pozzo di acqua utilizzato con fonte di acqua potabile, un incremento unitario nella concentrazione di arsenico determina un incremento di nel logit della probabilità di cambiare fonte di acqua potabile gli odds di successo a favore del cambiamento si moltiplicano per e = per ogni incremento unitario concentrazione di arsenico fissata la distanza a zero Interpretazione del coefficiente di interazione: Per ogni incremento unitario nella distanza (concentrazione di arsenico) un valore di è aggiunto al coefficiente della concentrazione di arsenico (distanza) A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 28 / 44

29 Esempio: Pozzi di acqua potabile in Bangladesh Modello con interazione (variabili centrate rispetto alla media) Variabile Stima Errore standard z value p value Costante Distanza Arsenico Interazione A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 29 / 44

30 Confronto tra modelli Modello esteso Modello ridotto Test del rapporto di verosimiglianza logit(π i ) = β 0 + β 1x i1 + + β h x ih + + β k x ik logit(π i ) = β 0 + β 1x i1 + + β h x ih 2 log ( Lr L e ) = 2 (log L r log L e) La statistica test del rapporto di verosimiglianza ha una distribuzione asintotica (sotto H 0) χ 2 con gdl uguale al numero di parametri posti a zero sotto l ipotesi nulla (k h) A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 30 / 44

31 Confronto tra modelli Pozzi di acqua potabile in Bangladesh Modello log L 2 (log L r log L e ) GdL p value Modello con interazione (Modello esteso) Modello additivo: H 0 β Interazione = Solo Distanza: H 0 β Interazione = 0 e β A = Solo Arsenico: H 0 β Interazione = 0 e β D = Modello nullo: H 0 β Interazione = β D = β A = A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 31 / 44

32 Confronto tra modelli Pozzi di acqua potabile in Bangladesh Modello log L 2 (log L r log L e ) GdL p value Modello additivo (Modello esteso) Solo Distanza: H 0 β A = Solo Arsenico: H 0 β D = Modello nullo: H 0 β D = β A = A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 32 / 44

33 Information Criteria Akaike (1973) Information Criteria (AIC) AIC = 2 log L + 2 (k + 1) dove k + 1 è il numero di parametri (inclusa l intercetta) L indice AIC si basa su un criterio di bilanciamento tra bontà di adattamento del modello e semplicità del modello (in termini di numero di variabili esplicative considerate) Il modello con l indice AIC più basso è preferibile Può essere utilizzato per confrontare modelli non-nested Bayes (1973) Information Criteria (BIC) BIC = 2 log L + (k + 1) log(n) Rispetto all indice AIC, l indice BIC attribuisce una maggiore penalità a modelli con un numero maggiore di parametri per n > 8 (log(8) > 2) A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 33 / 44

34 Information Criteria Pozzi di acqua potabile in Bangladesh Modello AIC BIC Modello con interazione Modello additivo Solo Distanza Solo Arsenico Modello nullo A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 34 / 44

35 Il modello di regressione logistica multinomiale Il modello di regressione logistica può essere esteso a situazioni in cui la variabile risposta assume più di due valori Esempio: Studio condotto da Florida Game and Fresh Water Fish Commission finalizzato a investigare i fattori che influenzano le scelta nutrizionale primaria degli alligatori Variabile risposta: Scelta nutrizionale primaria di alligatori determinata in base al contenuto trovato nello stomaco dell alligatore 1 Invertebrati Y i = 2 Pesce 3 Altro dove Invertebrati = Chiocciole, insetti acquatici, gamberi; Altro = rettili; anfibi, mammiferi, piante, sassi, detriti vari La variabile risposta è una variabile categorica con 3 modalità tra cui non esiste un ordine naturale Variabile esplicativa = Lunghezza dell alligatore (in metri) Campione di 59 alligatori del Lago George in Florida (USA) A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 35 / 44

36 Scelta nutrizionale primaria di alligatori x i y i x i y i x i y i x i y i A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 36 / 44

37 Il modello di regressione logistica multinomiale Le osservazioni Y i sono variabili aleatorie indipendenti categoriali con modalità codificate come {1, 2,..., J} Una modalità m {1, 2,..., J} è considerata come categoria di riferimento (la scelta è arbitraria: spesso m = 1 o m = J.) Considerando la categoria m come categoria di riferimento si ha π ij = Pr(Y i = j X i1 = x i1,..., X ik = x ik ) per j m con π im = 1 j m π ij A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 37 / 44

38 Il modello di regressione logistica multinomiale Modello di regressione logistica multinomiale log ( π ij π im ) = log ( Pr(Y i = j X i1 = x i1,..., X ik = x ik ) Pr(Y i = m X i1 = x i1,..., X ik = x ik ) ) = β 0j + β 1j x i1 + + β Kj x ik i = 1,..., n, m = categoria di riferimento e j m (Per m = 1, j = 2, 3,..., J, per m = J,j = 1, 2,..., J 1). Probabilità nel modello di regressione logistica multinomiale π ij = Pr(Y i = j X i1 = x i1,..., X ik = x ik ) = exp(β 0j + β 1j x i1 + + β Kj x ik ) 1 + j m exp(β 0j + β 1j x i1 + + β Kj x ik ) I parametri del modello sono stimati utilizzando il metodo della massima verosimiglianza A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 38 / 44

39 Esempio: Scelta nutrizionale primaria di alligatori Modello di regressione logistica multinomiale: Per i = 1,..., n = 59 log ( π i1 π i3 ) = log ( Pr(Y i = 1 X i1 = x i1 ) Pr(Y i = 3 X i1 = x i1 ) ) = β 0j=1 + β 1j=1 x i1 log ( π i2 π i3 ) = log ( Pr(Y i = 2 X i1 = x i1 ) Pr(Y i = 3 X i1 = x i1 ) ) = β 0j=2 + β 1j=2 x i1 Probabilità nel modello di regressione logistica multinomiale π ij = Pr(Y i = j X i1 = x i1 ) = exp(β 0j + β 1j x i1 ) 1 + exp(β 0j=1 + β 1j=1 x i1 ) + exp(β 0j=2 + β 1j=2 x i1 ) A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 39 / 44

40 Esempio: Scelta nutrizionale primaria di alligatori Stime di massima verosimiglianza dei parametri Logit Invertebrati vs Altro Variabile Stima E.S. Costante Lunghezza log L = Dalle stime dei parametri si ha : Logit Pesce vs Altro Variabile Stima E.S. Costante Lunghezza log ( ˆπ i1 ˆπ i3 ) = x i1 log ( ˆπ i2 ˆπ i3 ) = x i1 Lo stima che il log degli odds a favore del pesce rispetto agli invertebrati è log ( ˆπ i2 ˆπ i3 ) log ( ˆπ i1 ˆπ i3 ) = log ( ˆπ i2 ˆπ i1 ) = ( ) + ( ( 2.465)) x i1 = x i1 A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 40 / 44

41 Esempio - Scelta nutrizionale primaria di alligatori: Interpretazione Per ogni logit, le stime dei parametri si interpretano come modelli di regressione logistica per variabili risposta binarie, focalizzando l attenzione sulle due categorie coinvolte Esempio: Scelta nutrizionale primaria: pesce versus invertebrati log ( ˆπ i2 ˆπ i1 ) = x i1 Dato che la scelta nutrizionale primaria è pesce o invertebrati, la probabilità stimata che la scelta sia pesce cresce con la lunghezza dell alligatore secondo una forma a S Per gli alligatori di lunghezza x + 1 metri gli odds stimati che la scelta nutrizionale primaria sia pesce piuttosto che invertebrati è e = volte gli odds stimati per alligatori di lunghezza x A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 41 / 44

42 Esempio - Scelta nutrizionale primaria di alligatori: Probabilità Le probabilità stimate relative alla variabile risposta (Invertebrati, Pesce, Altro) sono ˆπ i1 = ˆπ i2 = ˆπ i3 = exp( x i1 ) 1 + exp( x i1 ) + exp( x i1 ) exp( x i1 ) 1 + exp( x i1 ) + exp( x i1 ) exp( x i1 ) + exp( x i1 ) Il termine 1 in ogni denominatore e al numeratore della terza equazione rappresenta exp( ˆβ 0j=3 + ˆβ 1j=3 x i1 ) posto ˆβ 0j=3 = ˆβ 1j=3 = 0 Per un alligatore di lunghezza x = 3.9 metri, la probabilità stimata che la scelta nutrizionale primaria sia Altro è ˆπ 3 = exp( ) + exp( ) = 0.23 A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 42 / 44

43 Esempio - Scelta nutrizionale primaria di alligatori: Probabilità Probabilita' stimate Invertebrati Pesce Altro Lunghezza alligatore A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 43 / 44

44 Esempio - Scelta nutrizionale primaria di alligatori Confronto tra modello esteso e modello nullo: La scelta nutrizionale primaria è indipendente dalla lunghezza H 0 β 11 = 0 e β 12 = 0 vs H a β 11 0 o β 12 0 Test del rapporto di verosimiglianza Regione critica (α = 0.01) 2(log L 0 log L) = gdl = 2 RC (log L 0 log L) > χ 2 2(0.01) = 9.21 Il valore osservato della statistica test del rapporto di verosimiglianza cade nella regione critica: Evidenza contro l ipotesi nulla p value < A. Mattei (Università di Firenze) Metodi statistici per la ricerca sociale 44 / 44

Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi

Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni (DiSIA)

Dettagli

Metodi Statistici per la Ricerca Sociale: Formulario

Metodi Statistici per la Ricerca Sociale: Formulario Metodi Statistici per la Ricerca Sociale: Formulario Attenzione. Il Formulario contiene una selezione delle formule. Le formule non riportate sono supposte note Associazione tra variabili categoriche Misure

Dettagli

Metodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione

Metodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione Metodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni (DiSIA) Università degli Studi di Firenze

Dettagli

Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi Esercitazione

Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi Esercitazione Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi Esercitazione Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni

Dettagli

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

0 altimenti 1 soggetto trova lavoroentro 6 mesi} Lezione n. 16 (a cura di Peluso Filomena Francesca) Oltre alle normali variabili risposta che presentano una continuità almeno all'interno di un certo intervallo di valori, esistono variabili risposta

Dettagli

Capitolo 12 La regressione lineare semplice

Capitolo 12 La regressione lineare semplice Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università

Dettagli

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni (DiSIA) Università degli Studi di Firenze

Dettagli

Metodi statistici per la ricerca sociale Capitolo 12. Confronto fra gruppi: L analisi della varianza. Esercitazione

Metodi statistici per la ricerca sociale Capitolo 12. Confronto fra gruppi: L analisi della varianza. Esercitazione Metodi statistici per la ricerca sociale Capitolo 12. Confronto fra gruppi: L analisi della varianza Esercitazione Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni (DiSIA) Università

Dettagli

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice STATISTICA Regressione-3 L inferenza per il modello lineare semplice Regressione lineare: GRAFICO DI DISPERSIONE & & analisi residui A. Valutazione preliminare se una retta possa essere una buona approssimazione

Dettagli

Metodi statistici per la ricerca sociale Capitolo 9. Regressione Lineare e Correlazione Esercitazione

Metodi statistici per la ricerca sociale Capitolo 9. Regressione Lineare e Correlazione Esercitazione Metodi statistici per la ricerca sociale Capitolo 9. Regressione Lineare e Correlazione Esercitazione Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni (DiSIA) Università degli Studi

Dettagli

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1 Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare

Dettagli

Statistica Applicata all edilizia: il modello di regressione

Statistica Applicata all edilizia: il modello di regressione Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione

Dettagli

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)

Dettagli

Analisi di Regressione Multipla

Analisi di Regressione Multipla Analisi di Regressione Multipla Stima OLS della relazione Test Score/STR : TestScore! = 698.9.8 STR, R =.05, SER = 18.6 (10.4) (0.5) E una stima credibile dell effetto causale sul rendimento nei test di

Dettagli

Statistica multivariata Donata Rodi 17/10/2016

Statistica multivariata Donata Rodi 17/10/2016 Statistica multivariata Donata Rodi 17/10/2016 Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare

Dettagli

Contenuti: Capitolo 14 del libro di testo

Contenuti: Capitolo 14 del libro di testo Test d Ipotesi / TIPICI PROBLEMI DI VERIFICA DI IPOTESI SONO Test per la media Test per una proporzione Test per la varianza Test per due campioni indipendenti Test di indipendenza Contenuti Capitolo 4

Dettagli

lezione 5 AA Paolo Brunori

lezione 5 AA Paolo Brunori AA 2016-2017 Paolo Brunori dove eravamo arrivati - le stime OLS ci consentono di approssimare linearmente la relazione fra una variabile dipendente (Y) e una indipendente (X) - i parametri stimati su un

Dettagli

PROBABILITÀ ELEMENTARE

PROBABILITÀ ELEMENTARE Prefazione alla seconda edizione XI Capitolo 1 PROBABILITÀ ELEMENTARE 1 Esperimenti casuali 1 Spazi dei campioni 1 Eventi 2 Il concetto di probabilità 3 Gli assiomi della probabilità 3 Alcuni importanti

Dettagli

LM 88 SOCIOLOGIA E RICERCA SOCIALE. Metodi Statistici per la Ricerca Sociale. Regressione lineare e correlazione

LM 88 SOCIOLOGIA E RICERCA SOCIALE. Metodi Statistici per la Ricerca Sociale. Regressione lineare e correlazione LM 88 SOCIOLOGIA E RICERCA SOCIALE Metodi Statistici per la Ricerca Sociale Regressione lineare e correlazione 1. Su un campione di individui sono rilevati i caratteri X (peso in Kg) e Y (altezza in cm),

Dettagli

STATISTICA A K (60 ore)

STATISTICA A K (60 ore) STATISTICA A K (60 ore) Marco Riani mriani@unipr.it http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta

Dettagli

Corso di STATISTICA EGA - Classe 1 aa Docenti: Luca Frigau, Claudio Conversano

Corso di STATISTICA EGA - Classe 1 aa Docenti: Luca Frigau, Claudio Conversano Corso di STATISTICA EGA - Classe 1 aa 2017-2018 Docenti: Luca Frigau, Claudio Conversano Il corso è organizzato in 36 incontri, per un totale di 72 ore di lezione. Sono previste 18 ore di esercitazione

Dettagli

lezione 4 AA Paolo Brunori

lezione 4 AA Paolo Brunori AA 2016-2017 Paolo Brunori dove eravamo arrivati - abbiamo individuato la regressione lineare semplice (OLS) come modo immediato per sintetizzare una relazione fra una variabile dipendente (Y) e una indipendente

Dettagli

Introduzione alla Regressione Logistica

Introduzione alla Regressione Logistica Introduzione alla Regressione Logistica Contenuto regressione lineare semplice e multipla regressione logistica lineare semplice La funzione logistica Stima dei parametri Interpretazione dei coefficienti

Dettagli

1. variabili dicotomiche: 2 sole categorie A e B

1. variabili dicotomiche: 2 sole categorie A e B Variabile X su scala qualitativa (due categorie) modello di regressione: variabili quantitative misurate almeno su scala intervallo (meglio se Y è di questo tipo e preferibilmente anche le X i ) variabili

Dettagli

Corso di Laurea: Numero di Matricola: Esame del 31 maggio 2018 Tempo consentito: 120 minuti

Corso di Laurea: Numero di Matricola: Esame del 31 maggio 2018 Tempo consentito: 120 minuti Corso di Laurea: Numero di Matricola: Esame del 31 maggio 2018 Tempo consentito: 120 minuti Professor Paolo Vitale Anno Accademico 2017-8 UdA, Scuola d Economia Domanda 1 [6 punti]. (a) La multi-collineartità

Dettagli

Statistica Applicata all edilizia: Stime e stimatori

Statistica Applicata all edilizia: Stime e stimatori Statistica Applicata all edilizia E-mail: orietta.nicolis@unibg.it 15 marzo 2011 Statistica Applicata all edilizia: Indice 1 2 Statistica Applicata all edilizia: Uno dei problemi principali della statistica

Dettagli

Esercizi di statistica

Esercizi di statistica Esercizi di statistica Test a scelta multipla (la risposta corretta è la prima) [1] Il seguente campione è stato estratto da una popolazione distribuita normalmente: -.4, 5.5,, -.5, 1.1, 7.4, -1.8, -..

Dettagli

Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1

Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1 Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1 Lezione 1 - Martedì 23 Settembre 2014 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,

Dettagli

Metodi statistici per la ricerca sociale Capitolo 12. Confronto fra gruppi: L analisi della varianza (ANOVA)

Metodi statistici per la ricerca sociale Capitolo 12. Confronto fra gruppi: L analisi della varianza (ANOVA) Metodi statistici per la ricerca sociale Capitolo 12. Confronto fra gruppi: L analisi della varianza (ANOVA) Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni (DiSIA) Università degli

Dettagli

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1 Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1 Lezione 1 - Mercoledì 28 Settembre 2016 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,

Dettagli

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1 lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,

Dettagli

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è

Dettagli

per togliere l influenza di un fattore es.: quoziente di mortalità = morti / popolazione

per togliere l influenza di un fattore es.: quoziente di mortalità = morti / popolazione Rapporti statistici di composizione la parte rispetto al tutto percentuali di derivazione per togliere l influenza di un fattore es.: quoziente di mortalità = morti / popolazione di frequenza (tassi) rapporti

Dettagli

Modelli lineari generalizzati

Modelli lineari generalizzati Modelli lineari generalizzati Estensione del modello lineare generale Servono allo studio della dipendenza in media di una variabile risposta da una o più variabili antecedenti Vengono attenuate alcune

Dettagli

Regressione logistica

Regressione logistica SMID a.a. 2004/2005 Corso di Metodi Statistici in Biomedicina Regressione logistica 31/1/2005 Regressione categoriale Una delle applicazioni più utili della regressione multipla potrebbe essere quella

Dettagli

STATISTICA. Regressione-2

STATISTICA. Regressione-2 STATISTICA Regressione-2 Esempio Su un campione di =5unità sono state osservate due variabili, ed : x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5 1. Rappresentare l andamento congiunto di in funzione di mediante

Dettagli

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza XIII Presentazione del volume XV L Editore ringrazia 3 1. Introduzione alla Statistica 5 1.1 Definizione di Statistica 6 1.2 I Rami della Statistica Statistica Descrittiva, 6 Statistica Inferenziale, 6

Dettagli

Esercitazione del

Esercitazione del Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36

Dettagli

Esercitazione III Soluzione

Esercitazione III Soluzione Esercitazione III Soluzione Esercizio 1 a) Frequenze congiunte assolute: n ij Reddito mensile Titolo di studio 1000-000 000-5000 5000-8000 Totale Laurea triennale 4 1 0 5 Laurea magistrale 1 4 7 Dottorato

Dettagli

Modelli Statistici per l Economia. Regressione lineare con un singolo regressore (terza parte)

Modelli Statistici per l Economia. Regressione lineare con un singolo regressore (terza parte) Modelli Statistici per l Economia Regressione lineare con un singolo regressore (terza parte) 1 Verifica di ipotesi su β 1 H 0 : β 1 = β 1,0 H 1 : β 1 β 1,0 Se è vera H 0 (cioè sotto H 0 ) e n è grande,

Dettagli

Stima dei parametri. La v.c. multipla (X 1, X 2,.., X n ) ha probabilità (o densità): Le f( ) sono uguali per tutte le v.c.

Stima dei parametri. La v.c. multipla (X 1, X 2,.., X n ) ha probabilità (o densità): Le f( ) sono uguali per tutte le v.c. Stima dei parametri Sia il carattere X rappresentato da una variabile casuale (v.c.) che si distribuisce secondo la funzione di probabilità f(x). Per investigare su tale carattere si estrae un campione

Dettagli

ECONOMETRIA: Laboratorio I

ECONOMETRIA: Laboratorio I ECONOMETRIA: Laboratorio I Luca De Angelis CLASS - Università di Bologna Programma Laboratorio I Valori attesi e varianze Test di ipotesi Stima di un modello lineare attraverso OLS Valore atteso Data una

Dettagli

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0. Regressione [] el modello di regressione lineare si assume una relazione di tipo lineare tra il valore medio della variabile dipendente Y e quello della variabile indipendente X per cui Il modello si scrive

Dettagli

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE Università degli Studi di Padova Corso di Laurea Magistrale in Informatica a.a. 2016/2017 Data Mining Docente: Annamaria Guolo Prova parziale del 20 aprile 2017: SOLUZIONE ISTRUZIONI: La durata della prova

Dettagli

Statistica economica

Statistica economica Statistica economica a.a. 013/14 Dr. Luca Secondi 10.a. Output tipico di un modello di regressione lineare multipla 1 Le analisi basate sul modello di regressione prevedono la stima dei coefficienti associati

Dettagli

Computazione per l interazione naturale: Regressione probabilistica

Computazione per l interazione naturale: Regressione probabilistica Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2016.html

Dettagli

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza, MODELLO DI REGRESSIONE LINEARE le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza, teorema di Gauss-Markov, verifica di ipotesi e test di

Dettagli

Statistica per le ricerche di mercato. 16. Il modello di regressione logistica: definizione, specificazione e

Statistica per le ricerche di mercato. 16. Il modello di regressione logistica: definizione, specificazione e Statistica per le ricerche di mercato A.A. 2011/12 Prof.ssa Tiziana Laureti Dott. Luca Secondi 16. Il modello di regressione logistica: definizione, specificazione e stima L analisi delle variabili dipendenti

Dettagli

METODI E TECNICHE DELLA RICERCA IN PSICOLOGIA CLINICA E LABORATORIO MEDIAZIONE

METODI E TECNICHE DELLA RICERCA IN PSICOLOGIA CLINICA E LABORATORIO MEDIAZIONE METODI E TECNICHE DELLA RICERCA IN PSICOLOGIA CLINICA E LABORATORIO AA 2016/2017 PROF. V.P. SENESE http://psiclab.altervista.org/mettecpsicclinica2016/2016_2017.html https://goo.gl/iuaiqx Seconda Università

Dettagli

Dispensa di Statistica

Dispensa di Statistica Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza

Dettagli

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi) CHEMIOMETRIA Applicazione di metodi matematici e statistici per estrarre (massima) informazione chimica (affidabile) da dati chimici INCERTEZZA DI MISURA (intervallo di confidenza/fiducia) CONFRONTO CON

Dettagli

Analisi multivariata per osservazioni appaiate. Analisi multivariata per osservazioni appaiate

Analisi multivariata per osservazioni appaiate. Analisi multivariata per osservazioni appaiate Introduzione Notazione Modello additivo Verifica d ipotesi Sia X una variabile q-dimensionale, a valori reali, non degenere, osservata in k tempi diversi (τ 1, τ 2,..., τ k ), sulle stesse n unità statistiche

Dettagli

Facoltà di SCIENZE Anno Accademico 2016/17 Registro lezioni del docente COLUMBU SILVIA

Facoltà di SCIENZE Anno Accademico 2016/17 Registro lezioni del docente COLUMBU SILVIA Facoltà di SCIENZE Anno Accademico 2016/17 Registro lezioni del docente COLUMBU SILVIA Attività didattica ELEMENTI DI PROBABILITA' E STATISTICA [60/65/264] Periodo di svolgimento: Primo Semestre Docente

Dettagli

ESERCITAZIONE REGRESSIONE MULTIPLA

ESERCITAZIONE REGRESSIONE MULTIPLA ESERCITAZIONE REGRESSIONE MULTIPLA Dati delle Nazioni Unite del 2005 riferiti, per diverse nazioni, al tasso di feconditá (bambini per donna) (variabile Fert), alla percentuale di donne che usa contraccettivi

Dettagli

Analisi della Regressione Lineare

Analisi della Regressione Lineare Analisi della Regressione Lineare Master in Tecnologie Bioinformatiche 29/09/06 Adriano Decarli 1 29/09/06 Adriano Decarli 2 29/09/06 Adriano Decarli 3 29/09/06 Adriano Decarli 4 29/09/06 Adriano Decarli

Dettagli

SOLUZIONI PROVA SCRITTA DI STATISTICA (cod. 4038, 5047, 371, 377) 8 settembre 2005

SOLUZIONI PROVA SCRITTA DI STATISTICA (cod. 4038, 5047, 371, 377) 8 settembre 2005 SOLUZIONI PROVA SCRITTA DI STATISTICA cod. 4038, 5047, 371, 377) 8 settembre 2005 MODALITÀ B APPROSSIMARE TUTTI I CALCOLI ALLA QUARTA CIFRA DECIMALE Esercizio 1. 7 punti) Su un collettivo di 13 nuclei

Dettagli

Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1

Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1 Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1 Lezione 1 - Mercoledì 27 Settembre 2017 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,

Dettagli

Presentazione dell edizione italiana

Presentazione dell edizione italiana 1 Indice generale Presentazione dell edizione italiana Prefazione xi xiii Capitolo 1 Una introduzione alla statistica 1 1.1 Raccolta dei dati e statistica descrittiva... 1 1.2 Inferenza statistica e modelli

Dettagli

Modelli a effetti misti

Modelli a effetti misti Probabilità e Statistica per l analisi di dati sperimentali Modelli a effetti misti Sviluppo e gestione di Data Center per il calcolo scientifico ad alte prestazioni Master Progetto PRISMA, UniBA/INFN

Dettagli

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.

Dettagli

PROVA SCRITTA DI STATISTICA (COD COD ) 7 luglio 2005 APPROSSIMARE TUTTI I CALCOLI ALLA QUARTA CIFRA DECIMALE SOLUZIONI MODALITÀ A

PROVA SCRITTA DI STATISTICA (COD COD ) 7 luglio 2005 APPROSSIMARE TUTTI I CALCOLI ALLA QUARTA CIFRA DECIMALE SOLUZIONI MODALITÀ A PROVA SCRITTA DI STATISTICA (COD. 047 - COD. 403-37-377) 7 luglio 200 APPROSSIMARE TUTTI I CALCOLI ALLA QUARTA CIFRA DECIMALE SOLUZIONI MODALITÀ A Esercizio (9 punti) Supponiamo di aver osservato la seguente

Dettagli

STATISTICA. Federico M. Stefanini. e.mail: a.a (3 CFU)

STATISTICA. Federico M. Stefanini. e.mail: a.a (3 CFU) STATISTICA a.a. 2001-2002 (3 CFU) Federico M. Stefanini Dipartimento di Statistica G.Parenti viale Morgagni 59, 50134 Firenze, tel. 055-4237211 PARTE 5-3.12.2001 e.mail: stefanin@ds.unifi.it http://www.ds.unifi.it/ricerca/pagperson/docenti/stefanini.htm

Dettagli

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello Metodi Quantitativi per Economia, Finanza e Management Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello 1. Introduzione ai modelli di regressione 2. Obiettivi 3. Le

Dettagli

STATISTICA MULTIVARIATA SSD MAT/06

STATISTICA MULTIVARIATA SSD MAT/06 Università degli studi di Ferrara Dipartimento di Matematica A.A. 2018/2019 I semestre STATISTICA MULTIVARIATA SSD MAT/06 LEZIONE 4 - Questioni di analisi e applicazione della regressione lineare Pratica

Dettagli

Regressione Lineare Semplice e Correlazione

Regressione Lineare Semplice e Correlazione Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)

Dettagli

Indice. Parte I. 2.4 Confrontare variabili numeriche tra gruppi 23 Confronto di istogrammi tra gruppi 23 Confronto delle frequenze cumulative 23

Indice. Parte I. 2.4 Confrontare variabili numeriche tra gruppi 23 Confronto di istogrammi tra gruppi 23 Confronto delle frequenze cumulative 23 Indice Parte I Capitolo 1 Statistica e campioni 1.1 Che cos è la statistica? 2 1.2 Campionare le popolazioni 3 Popolazioni e campioni 4 Proprietà dei buoni campioni 4 Il campionamento casuale 5 Come ottenere

Dettagli

Indice. Parte I. 2.4 Confrontare variabili numeriche tra gruppi 23 Confronto di istogrammi tra gruppi 23 Confronto delle frequenze cumulative 23

Indice. Parte I. 2.4 Confrontare variabili numeriche tra gruppi 23 Confronto di istogrammi tra gruppi 23 Confronto delle frequenze cumulative 23 Indice Parte I Capitolo 1 Statistica e campioni 1.1 Che cos è la statistica? 2 1.2 Campionare le popolazioni 3 Popolazioni e campioni 4 Proprietà dei buoni campioni 4 Il campionamento casuale 5 Come ottenere

Dettagli

STATISTICA A D (72 ore)

STATISTICA A D (72 ore) STATISTICA A D (72 ore) Marco Riani mriani@unipr.it http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta

Dettagli

Computazione per l interazione naturale: Regressione probabilistica

Computazione per l interazione naturale: Regressione probabilistica Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2018.html

Dettagli

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 45 Outline 1 2 3 4 5 () Statistica 2 / 45 Modello di In molte applicazioni il ruolo delle variabili

Dettagli

STATISTICA. Regressione-2

STATISTICA. Regressione-2 STATISTICA Regressione-2 Fare sempre il grafico! Fig. 5.12 pg 178, Statistica di S. Iacus Fare sempre il grafico! y 0 2 4 6 8 10 =-1 =+0.79 outlier o dato influente 0 2 4 6 8 10 x Inferenza Il modello

Dettagli

PROVA SCRITTA DI STATISTICA. CLEA/CLEFIN/CLEMIT (cod. 5047/4038/371/377) 3 Novembre 2004 MOD. A

PROVA SCRITTA DI STATISTICA. CLEA/CLEFIN/CLEMIT (cod. 5047/4038/371/377) 3 Novembre 2004 MOD. A PROVA SCRITTA DI STATISTICA CLEA/CLEFIN/CLEMIT (cod. 547/438/37/377) 3 Novembre 4 MOD. A Esercizio N. (3 punti). Data la v.s. X avente funzione di densità: / x < 9/4 x < 3 f(x) = / 3 x < 7 / 7 x < 9 altrove

Dettagli

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value Inferenza: singolo parametro Sistema di ipotesi: H 0 : β j = β j0 H 1 : β j β j0 statistica test t b j - b s a jj j0 > t a, 2 ( n-k) confronto con valore t o p-value Se β j0 = 0 X j non ha nessuna influenza

Dettagli

9. Test del χ 2 e test di Smirnov-Kolmogorov. 9.1 Stimatori di massima verosimiglianza per distribuzioni con densità finita

9. Test del χ 2 e test di Smirnov-Kolmogorov. 9.1 Stimatori di massima verosimiglianza per distribuzioni con densità finita 9. Test del χ 2 e test di Smirnov-Kolmogorov 9. Stimatori di massima verosimiglianza per distribuzioni con densità finita Supponiamo di avere un campione statistico X,..., X n e di sapere che esso è relativo

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Associazione, correlazione e dipendenza tra caratteri In un collettivo di 11 famiglie è stata

Dettagli

Esercizio 2: voto e ore dedicate allo studio

Esercizio 2: voto e ore dedicate allo studio La seguente tabella riporta il voto riportato da 10 studenti all esame di Statistica Sociale e il numero di ore di lezione non seguite dallo studente (il corso prevede 30 ore di lezione). Ci si chiede

Dettagli

Regressione & Correlazione

Regressione & Correlazione Regressione & Correlazione Monia Ranalli Ranalli M. Dipendenza Settimana # 4 1 / 20 Sommario Regressione Modello di regressione lineare senplice Stima dei parametri Adattamento del modello ai dati Correlazione

Dettagli

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51 Sommario 1 I dati...15 1.1 Classificazione delle rilevazioni...17 1.1.1 Esperimenti ripetibili (controllabili)...17 1.1.2 Rilevazioni su fenomeni non ripetibili...18 1.1.3 Censimenti...19 1.1.4 Campioni...19

Dettagli

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza Test 1: Concetti base di inferenza 1. Se uno stimatore T n è non distorto per il parametro θ, allora A T n è anche consistente B lim Var[T n] = 0 n C E[T n ] = θ, per ogni θ 2. Se T n è uno stimatore con

Dettagli

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre R - Esercitazione 6 Andrea Fasulo fasulo.andrea@yahoo.it Università Roma Tre Venerdì 22 Dicembre 2017 Il modello di regressione lineare semplice (I) Esempi tratti da: Stock, Watson Introduzione all econometria

Dettagli

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: esercitazione 7 p. 1/13 STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: 20-05-2004 Luca Monno Università degli studi di Pavia luca.monno@unipv.it http://www.lucamonno.it

Dettagli

Relazioni tra variabili (fenomeni) aziendali

Relazioni tra variabili (fenomeni) aziendali Relazioni tra variabili (fenomeni) aziendali - giornate di assenza dal lavoro è collegato a qualifica professionale, anzianità, sesso, dei dipendenti? - incidenti sul lavoro sono collegati a orario di

Dettagli

La relazione causa-effetto

La relazione causa-effetto La relazione causa-effetto valutare il rischio in epidemiologia associazione statistica e rapporto causa-effetto gli studi analitici: generalità Misurare l incidenza di malattia in un gruppo di popolazione...

Dettagli

Computazione per l interazione naturale: Regressione probabilistica

Computazione per l interazione naturale: Regressione probabilistica Computazione per l interazione naturale: Regressione probabilistica Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2017.html

Dettagli

Richiami di Statistica

Richiami di Statistica Università di Pavia Richiami di Statistica Eduardo Rossi Popolazione e campione casuale Un idea centrale della statistica è che un campione sia una rappresentazione della popolazione. Si possono sfruttare

Dettagli

Regressione lineare. Lucio Demeio Dipartimento di Ingegneria Industriale e Scienze Matematiche Università Politecnica delle Marche.

Regressione lineare. Lucio Demeio Dipartimento di Ingegneria Industriale e Scienze Matematiche Università Politecnica delle Marche. Regressione lineare Lucio Demeio Dipartimento di Ingegneria Industriale e Scienze Matematiche Università Politecnica delle Marche Siano x ed y due variabili legate tra loro da una forma funzionale del

Dettagli

Metodi Statistici per il Management

Metodi Statistici per il Management Metodi Statistici per il Management Modelli statistici di dipendenza Simone Borra - Roberto Rocci Modelli statistici di dipendenza Modelli: strutture formali che hanno l obiettivo di descrivere, spiegare

Dettagli

lezione 10 AA Paolo Brunori

lezione 10 AA Paolo Brunori AA 2016-2017 Paolo Brunori Redditi svedesi - il dataset contiene i dati di reddito di 838 individui - il dataset contiene le variabili: sex = sesso age = età edu = anni di istruzione y_gross = reddito

Dettagli

Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo

Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo 1 Controllo di ipotesi sui parametri In questo contesto risulta necessario avvalersi dell assunzione di normalita

Dettagli

Test delle Ipotesi Parte I

Test delle Ipotesi Parte I Test delle Ipotesi Parte I Test delle Ipotesi sulla media Introduzione Definizioni basilari Teoria per il caso di varianza nota Rischi nel test delle ipotesi Teoria per il caso di varianza non nota Test

Dettagli

Indipendenza, Dipendenza e interdipendenza

Indipendenza, Dipendenza e interdipendenza Indipendenza, Dipendenza e interdipendenza In analisi bivariata la tabella di contingenza consente di esaminare congiuntamente due variabili consente di rilevare le relazioni esistenti tra le variabili

Dettagli

Analisi della regressione multipla

Analisi della regressione multipla Analisi della regressione multipla y = β 0 + β 1 x 1 + β 2 x 2 +... β k x k + u 2. Inferenza Assunzione del Modello Classico di Regressione Lineare (CLM) Sappiamo che, date le assunzioni Gauss- Markov,

Dettagli

ESAME. 9 Gennaio 2017 COMPITO B

ESAME. 9 Gennaio 2017 COMPITO B ESAME 9 Gennaio 2017 COMPITO B Cognome Nome Numero di matricola 1) Approssimare tutti i calcoli alla quarta cifra decimale. 2) Ai fini della valutazione si terrà conto solo ed esclusivamente di quanto

Dettagli

COGNOME.NOME...MATR..

COGNOME.NOME...MATR.. STATISTICA 29.01.15 - PROVA GENERALE (CHALLENGE) Modalità A (A) ai fini della valutazione verranno considerate solo le risposte riportate dallo studente negli appositi riquadri bianchi: in caso di necessità

Dettagli

ESAME. 9 Gennaio 2017 COMPITO A

ESAME. 9 Gennaio 2017 COMPITO A ESAME 9 Gennaio 2017 COMPITO A Cognome Nome Numero di matricola 1) Approssimare tutti i calcoli alla quarta cifra decimale. 2) Ai fini della valutazione si terrà conto solo ed esclusivamente di quanto

Dettagli

ANALISI DELLE SERIE STORICHE

ANALISI DELLE SERIE STORICHE ANALISI DELLE SERIE STORICHE De Iaco S. s.deiaco@economia.unile.it UNIVERSITÀ del SALENTO DIP.TO DI SCIENZE ECONOMICHE E MATEMATICO-STATISTICHE FACOLTÀ DI ECONOMIA 24 settembre 2012 Indice 1 Funzione di

Dettagli