La regressione logistica

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "La regressione logistica"

Transcript

1 La regressione logistica Supponiamo che la variabile di interesse y sia una variabile dicotoma, che assuma solo i valori 0 ovvero 1, corrispondenti a successo o insuccesso. Sia p = P (S) = P (Y = 1) la probabilità di osservare un successo. In molte applicazioni è realistico pensare che p dipenda dal valore di una qualche variabile x quantitativa, o anche da più di una, p = p(x). Ad esempio la probabilità che una macchina abbia bisogno del servizio di soccorso può dipendere dai km percorsi, dal numero di interventi di manutenzione, etc. Se supponiamo un modello lineare del tipo Y = β 0 + β 1 x β k x k + ε allora E(Y x) = p(x) = β 0 + β 1 x β k x k = β x non sembra essere realistico in quanto deve essere 0 < p(x) < 1 per ogni x. Si richiede allora a E(Y x) di essere una funzione di β 0 + β 1 x β k x k. La funzione che si è dimostrata utile in molte applicazioni è la funzione logistica f(z) = 1+e ez z. Si suppone quindi che il legame sia E(Y x) = p(x) = eβ x 1 + e β x ovvero logitp(x) = ln p(x) 1 p(x) = β x 1

2 p(x) β 1 < 0 p(x) β 1 > x x I grafici rappresentano la funzione p(x) per particolari valori di β 0 e β 1. In particolare per β 1 < 0 la probabilità di successo decresce al crescere di x, mentre per β 1 > 0 la probabilità del successo cresce al crescere di x. p(x) La funzione è detto ODDS RATIO e rappresenta quante volte il 1 p(x) successo è più plausibile dell insuccesso. 2

3 La regressione logistica è una caso particolare di Modello lineare generalizzato (glm). In questi modelli è una trasformazione (tramite la link function) di E(Y ) che segue un modello lineare. Nel modello logit la link function è la funzione logit. Abbiamo infatti E(Y ) = p ln p 1 p = β x La stima dei parametri avviene, una volta costruita la funzione di verosimiglianza per le osservazioni Y i, con metodi iterativi in quanto non si riesce a dare una forma esplicita al massimo della logverosimiglianza. Il metodo usato è l IWLS (iterative weighted least squares). Si noti che nella regressione logistica si ipotizza che Y è distribuita come una Binomiale con parametri n = 1 e p incognita. Si può dimostrare che asintoticamente i parametri si distribuiscono normalmente per cui si possono effettuare i test di significatività sui parametri, e quando ci sono più parametri i test sull opportunità di includerli nel modello. 3

4 Esempio: Si considerino i dati relativi alla temperatura di lancio e all incidenza dei fallimenti per gli O rings in 24 lanci dello Space Shuttle prima del disastro del Challenger nel gennaio Temp Failure 1 53 Y 2 56 Y 3 57 Y 4 63 N 5 66 N 6 67 N 7 67 N 8 67 N Temp Failure 9 68 N N N Y Y Y N N Temp Failure N Y N N N N N N In questo caso abbiamo solo una variabile esplicativa, Temp. Ipotizziamo un modello logistico per l incidenza dei successi (No Failure= successo). ln p(x) 1 p(x) = β 0 + β 1 x p(x) è la probabilità di successo, ovvero di Failure=No, quando osserviamo T emp = x. 4

5 I valori dei parametri stimati sono riportati nella seguente tabella Estimate Std. Error z value Pr(> z ) (Intercept) Temp La curva stimata per p(x) è data da La funzione p(x) stimata p(x) x Siamo in grado anche di stimare l odds ratio per x = 31 (Temp per il Challenger esploso) che vale cioè la probabilità di un successo (N) è volte quella di un insuccesso (Y). 5

6 Regressione non lineare A volte, per motivi teorici o esaminando i risultati della diagnostica basata sull analisi dei residui, il modello lineare semplice o multiplo può risultare non adatto a spiegare la variabilità della variabile y. Si ricorre allora a modelli alternativi. Consideriamo una vasta gamma di modelli che non sono lineari nei parametri o nella variabili esplicative. Supponiamo che il legame tra le variabili y e x sia del tipo y = f(x) ma a causa di un errore non osserviamo y ma il valore di una v.c. Y = f(x) + ε In generale f è una funzione che dipende da un certo numero di parametri (θ) e da un certo numero di variabili esplicative x. Il termine di errore ε si suppone normalmente distribuito. Se la forma della funzione f è nota a meno di un numero finito di parametri si parla di regressione parametrica. Se la f è totalmente incognita si parla di regressione non parametrica. 6

7 Se il modello è del tipo Y = f(x, θ) + ε, θ = (θ 1,..., θ p ), E(ε) = 0, V ar(ε) = σ 2 supponiamo di avere n osservazioni indipendenti (x i, y i ) che soddisfano y i = f(x i, θ) + ε i, θ = (θ 1,..., θ p ), ε i i.i.d, E(ε i ) = 0, V ar(ε i ) = σ 2 Introducendo la notazione matriciale y = (y 1,..., y n ), f(x, θ) = (f(x 1, θ),..., f(x n, θ)), ɛ = (ε 1,..., ε n ) la stima ai minimi quadrati è data da ˆθ = argmin θ SSE, dove SSE = y f(x, θ) 2 = n i=1 (y i f(x i, θ)) 2 La procedura che ci da la stima ˆθ si chiama NLS (non linear least squares) e differisce da quella OLS in quanto: a) non c è una formula esplicita per la stima ˆθ b) per trovare ˆθ si usano procedure iterative c) occorre fornire dei valori iniziali ai parametri 7

8 La procedura iterativa Seppure esistano numerose tecniche per trovare ˆθ = argmin θ SSE, molte seguono questo schema. Sia θ (0) un valore iniziale del parametro θ. Possiamo scrivere f(x, θ) = f(x, θ (0) ) + p j=1 (θ j θ (0) j ) θ j f(x, θ) θ=θ (0) Questo definisce un piano tangente alla superficie definita da f nel punto θ (0). Posto F kj (x k, θ (0) ) = possiamo riscrivere θ j f(x k, θ) θ=θ (0) w (0) k = f(x k, θ (0) ) p j=1 θ (0) j F kj (x k, θ (0) ) f(x, θ) = w (0) + F (x, θ (0) ) θ, dove w (0) = (w (0) 1,..., w(0) n ) e F (x, θ (0) ) è la matrice di componenti F kj (x k, θ (0) ), k = 1,..., n, j = 1,..., p. 8

9 Il processo iterativo consiste nel regredire f sul piano tangente con intercetta w (0). Il modello approssimato diviene, posto F (x, θ) = F (θ) y = w (0) + F (θ (0) ) θ e la stima ai minimi quadrati ci da l approssimazione successiva θ (1) = ( F (θ (0) ) T F (θ (0) ) ) 1 F (θ (0) ) T (y w (0) ) Il processo continua fino a convergenza, cioè fino a quando la differenza tra due valori successivi di θ (k) non è più piccolo di un valore prefissato. La stima ˆθ ottenuta è una approssimazione della stima ˆθ NLS. Si noti che nel modello lineare w (0) = 0, F (θ (0) ) = X e il processo converge in un passo. 9

10 Inferenza per ˆθ Sotto opportune ipotesi (legate alla derivabilità) sulla funzione f si ha che asintoticamente (quando il numero delle osservazioni n ) ˆθ N(θ, σ 2 (F (θ) F (θ)) 1 ). La stima della varianza asintotica di ˆθ si ottiene sostituendo F (θ) con una sua stima ˆF = F (ˆθ) e come stima di σ 2 la quantità s 2 = SSE n p. La stima della matrice di varianza e covarianza di ˆθ risulta quindi s 2 ( ˆF ˆF ) 1. In analogia a quanto fatto nel caso dell analisi di regressione multivariata, indichiamo con C = ( ˆF ˆF ) 1. L intervallo di confidenza (asintotico) a livello di fiducia 1 α per il parametro θ i è dato da ) (ˆθ i t 1 α/2 s 2 c ii ; ˆθ i + t 1 α/2 s 2 c ii, dove c ii sono gli elementi sulla diagonale principale della matrice C. La verifica di ipotesi per la significatività dei parametri θ si basa sulla statistica che asintoticamente si distribuisce come una t n p. t = ˆθ i θ 0 i s 2 c ii 10

11 Modelli intrinsecamente lineari Una funzione y = f(x) è detta intrinsecamente lineare se attraverso una trasformazione di x, di y o di entrambe le variabili la funzione può essere espressa come y = β 0 + β 1 x, y = g(y), x = h(x). Le più utilizzate funzioni di questo tipo sono descritte nella tabella seguente dove si riportano anche le trasformazioni da applicare per rendere il legame lineare Funzione Trasf. variabile x Trasf. variabile y Forma Lineare y = αe βx y = ln y y = ln(α) + βx y = αx β x = log x y = ln y y = ln(α) + βx y = α + β log x x = log x y = α + βx y = α + β 1 x x = 1 x y = α + βx Un modello probabilistico che lega il valore di una v.c. Y a x è detto intrinsecamente lineare se attraverso una trasformazione di x o di Y o di entrambe le variabili la funzione può essere espressa come Y = β 0 + β 1 x + ε 11

12 e (βx) β > 0 e (βx) β < 0 x β β < 0 β > 1 x β < β < x x x x βlog(x) β > 0 βlog(x) β < 0 α + β1 x y = α β < 0 α + β1 x y = α β < x x x x 12

13 I modelli probabilistici che corrispondono alle quattro funzioni della tabella precedente sono Il modello esponenziale moltiplicativo: Y = αe βx ε Con la trasformazione Y = ln Y otteniamo il modello Y = β 0 +β 1 x +ε con x = x, β 0 = ln α β 1 = β e ε = ln ε. Se ε ha una distribuzione Lognormale con E(ε) = e σ2 /2 e V ar(ε) = e σ2 (e σ2 1) allora ε è N(0, σ 2 ). Il modello con potenza moltiplicativo: Y = αx β ε Otteniamo il modello Y = β 0 + β 1 x + ε con Y = ln Y, x = ln x, β 0 = ln α β 1 = β e ε = ln ε. Se ε ha una distribuzione Lognormale con E(ε) = e σ2 /2 e V ar(ε) = e σ2 (e σ2 1) allora ε è N(0, σ 2 ). 13

14 Il modello logaritmico additivo: Y = α + β log x + ε Otteniamo il modello Y = β 0 + β 1 x + ε con Y = Y, x = log x, β 0 = α β 1 = β e ε = ε. In questo caso ε = ε è N(0, σ 2 ). Il modello reciproco additivo: Y = α + β 1 x + ε Otteniamo il modello Y = β 0 + β 1 x + ε con Y = Y, x = 1 x, β 0 = α β 1 = β e ε = ε. In questo caso ε = ε è N(0, σ 2 ). Si noti che il modello esponenziale additivo Y = αe βx + ε e il modello con potenza additivo Y = αx β + ε non sono intrinsecamente lineari. I parametri dei modelli trasformati si possono direttamente stimare utilizzando OLS per i dati trasformati y e x. Dalle stime di di ˆβ 0 e ˆβ 1 si può eventualmente risalire ai parametri dei modelli di partenza trasformandoli opportunamente. Queste stime in generale non coincidono con quelle ottenute direttamente con NLS sui dati non trasformati. 14

15 Esempio: I seguenti dati sono tratti dall articolo Thermal Endurance of Polyester Enameled Wires Using Twisted Wire Specimens, IEEE Trans. Insulation, 1965, 38 44, dove in un test per verificare la resistenza termica si vuole capire il legame tra la temperatura e il tempo di vita del filo di poliestere smaltato Temp Lifetime Temp Lifetime I seguenti grafici riportano i dati con varie trasformazioni sia per la variabile x che per la variabile y. 15

16 Lifetime Lifetime Temp /Temp log(lifetime) log(lifetime) Temp /Temp 16

17 Se applichiamo il modello lineare semplice Y = β 0 + β 1 x + ε otteniamo la retta riportata in figura Modello 1 Lifetime Temp Le stime dei parametri sono β 0 = e β 1 = , entrambi significativi, la statistica r 2 = denota un discreto adattamento ma dal grafico si nota come i valori previsti per x = 240 siano negativi (y è un tempo di attesa!) L analisi dei residui mostra delle patologie per cui il modello lineare non sembra adatto a spiegare la dipendenza di y da x. 17

18 x vs residui y stimati vs residui Residui Standardizzati Residui Standardizzati x i y^i y vs y stimati Normal Q Q Plot y^i Sample Quantiles y Theoretical Quantiles 18

19 La relazione tra ln(y) e x sembra essere lineare per cui ipotizziamo un legame esponenziale del tipo y = αe βx. Il modello trasformato risulta ln y = ln α + βx. Supponendo che il modello probabilistico sia il modello esponenziale moltiplicativo, possiamo stimare con il metodo OLS i parametri del modello trasformato Otteniamo i seguenti risultati y = β 0 + β 1 x Estimate Std. Error t value Pr(> t ) (Intercept) Temp Inoltre r 2 = Questo valore si riferisce all adattibilità della retta ai dati trasformati. Per misurare la performance del modello è meglio risalire dai valori previsti dal modello ŷ i tramite l antitrasformata ai dati ŷ i = eŷ i e quindi effettuare il grafico di y i contro ŷ i 19

20 Modello 2 y vs y stimati Modello 2 log(lifetime) y^i Temp y Una ulteriore misura della performance del modello può essere valutata andando a calcolare la somma dei residui sui dati di partenza per entrambi i modelli. 20

21 Osservando il grafico dei dati originari si può anche ipotizzare un modello del tipo y = αe β 1 x In questo caso le stime sono Estimate Std. Error t value Pr(> t ) (Intercept) I(1/Temp) Si noti che calcolare la stima di s per i tre modelli sui dati originali da questi risultati s 1 = , s 2 = , s 3 = poichè il numero di parametri utilizzati nei tre modelli è lo stesso si preferisce il terzo. 21

22 I grafici riportano la retta stimata per i dati trasformati e il grafico dei valori y contro i valori ŷ ottenuti ritrasformando i dati previsti con il modello lineare Modello 3 y vs y stimati Modello 3 log(lifetime) y^i /Temp y Si noti come l adattabilità sia lievemente migliorata rispetto al modello 2. 22

23 Osservazioni 1. Stimare i parametri β 0 e β 1 del modello lineare trasformato e poi trasformare questi parametri per ottenere i parametri del modello originario non è come stimare con il metodo NLS i parametri del modello non linearizzato. 2. Se i modelli non sono intrinsecamente lineari occorre ricorrere direttamente alla stima dei parametri del modello tramite NLS. Le soluzioni si trovano con procedure iterative 3. Per i modelli trasformati le stime ottenute con OLS sono ottime per la stima dei parametri trasformati. L ottimalità non si trasmette sulla stima dei parametri dei modelli originari ottenuta trasformando le stime ottenute con OLS. 4. Una volta stimati i parametri del modello trasformato, r 2 si riferisce all adattabilità di questo modello ai dati trasformati. Sebbene un r 2 alto sia indice di una buona adattabilità del modello originario non lineare ai dati osservati, questo valore non è riferito alle osservazioni originarie. 23

24 Minimi quadrati pesati WLS In molti contesti applicativi non è realistico pensare ad errori omoschedastici. Ad esempio se pensiamo ad uno studio sulla dipendenza del profitto di un impresa dal livello di investimenti in ricerca e sviluppo è ragionevole pensare che la variabilià del profitto cresca all aumentare degli investimenti. Errori Eteroschedastici y x 24

25 Supponiamo che gli errori del modello Y = Xβ + ɛ siano tali che E(ε i ) = 0 e Var(ε i ) = λ i σ 2, Cov(ε i, ε j ) = 0 con λ i noti e σ 2 incognito. Se denotiamo con Ω la matrice (n n) varianza e covarianza del vettore ɛ il miglior stimatore lineare non distorto risulta ˆβ = (X T Ω 1 X) 1 X T Ω 1 y ˆβ è detto stima ai minimi quadrati pesati (WLS, weighted least squares) in quanto è ottenuto con OLS sui dati trasformati opportunamente in modo da ricondursi ad errori omoschedastici. La matrice varianza e covarianza per lo stimatore ˆβ è Varˆβ = σ 2 (X T Ω 1 X) 1 25

26 Esempio: il seguente grafico rappresenta i dati rilevati su 39 aziende relativi agli investimenti effettuati in ricerca e sviluppo (x in migliaia di euro) e il profitto (y in centinaia di migliaia di euro) Scatter plot y x 26

27 Dalla regressione lineare otteniamo i seguenti risultati Estimate Std. Error t value Pr(> t ) (Intercept) x con un standard error pari a s = e r 2 =

28 L analisi dei residui mostra una forte eteroschedasticità. Residui Residui x Valori Stimati 28

29 Proponiamo quindi una regressione con errori eteroschedastici e con i WLS otteniamo i seguenti risultati Estimate Std. Error t value Pr(> t ) (Intercept) x con un standard error pari a e r 2 =

Statistica Applicata all edilizia: il modello di regressione

Statistica Applicata all edilizia: il modello di regressione Statistica Applicata all edilizia: il modello di regressione E-mail: [email protected] 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione

Dettagli

Regressione multipla

Regressione multipla Regressione multipla L obiettivo è costruire un modello probabilistico per spiegare la variabile y tramite più di una variabile indipendente x 1, x 2,..., x k. Esempio: Per un efficiente progettazione

Dettagli

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa

Dettagli

Corso di Statistica Industriale

Corso di Statistica Industriale Corso di Statistica Industriale Corsi di Laurea Specialistica in Ingegneria Gestionale e Ingegneria Meccanica Docente: Ilia Negri Orario del corso: Martedì: dalle 14.00 alle 16.00 Venerdì: dalle 10.30

Dettagli

Regressione Lineare Semplice e Correlazione

Regressione Lineare Semplice e Correlazione Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)

Dettagli

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli. Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:

Dettagli

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

0 altimenti 1 soggetto trova lavoroentro 6 mesi} Lezione n. 16 (a cura di Peluso Filomena Francesca) Oltre alle normali variabili risposta che presentano una continuità almeno all'interno di un certo intervallo di valori, esistono variabili risposta

Dettagli

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)

Dettagli

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è

Dettagli

Test F per la significatività del modello

Test F per la significatività del modello Test F per la significatività del modello Per verificare la significatività dell intero modello si utilizza il test F Si vuole verificare l ipotesi H 0 : β 1 = 0,, β k = 0 contro l alternativa che almeno

Dettagli

STATISTICA A K (60 ore)

STATISTICA A K (60 ore) STATISTICA A K (60 ore) Marco Riani [email protected] http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta

Dettagli

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale

Dettagli

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: esercitazione 7 p. 1/13 STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: 20-05-2004 Luca Monno Università degli studi di Pavia [email protected] http://www.lucamonno.it

Dettagli

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati ISTITUZIONI DI STATISTICA A. A. 2007/2008 Marco Minozzo e Annamaria Guolo Laurea in Economia del Commercio Internazionale Laurea in Economia e Amministrazione delle Imprese Università degli Studi di Verona

Dettagli

La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.

La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative. Lezione 14 (a cura di Ludovica Peccia) MULTICOLLINEARITA La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative. In un modello di regressione Y= X 1, X 2, X 3

Dettagli

Regressione lineare semplice

Regressione lineare semplice Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro

Dettagli

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE Università degli Studi di Padova Corso di Laurea Magistrale in Informatica a.a. 2016/2017 Data Mining Docente: Annamaria Guolo Prova parziale del 20 aprile 2017: SOLUZIONE ISTRUZIONI: La durata della prova

Dettagli

Il modello di regressione lineare multipla con regressori stocastici

Il modello di regressione lineare multipla con regressori stocastici Università di Pavia Il modello di regressione lineare multipla con regressori stocastici Eduardo Rossi Il valore atteso condizionale Modellare l esperimento casuale bivariato nel quale le variabili casuali

Dettagli

Modelli lineari generalizzati

Modelli lineari generalizzati Modelli lineari generalizzati Estensione del modello lineare generale Servono allo studio della dipendenza in media di una variabile risposta da una o più variabili antecedenti Vengono attenuate alcune

Dettagli

Statistica 1 A.A. 2015/2016

Statistica 1 A.A. 2015/2016 Corso di Laurea in Economia e Finanza Statistica 1 A.A. 2015/2016 (8 CFU, corrispondenti a 48 ore di lezione frontale e 24 ore di esercitazione) Prof. Luigi Augugliaro 1 / 35 Il modello di regressione

Dettagli

UNIVERSITÀ DEGLI STUDI DI PERUGIA

UNIVERSITÀ DEGLI STUDI DI PERUGIA SIGI, Statistica II, esercitazione n. 3 1 UNIVERSITÀ DEGLI STUDI DI PERUGIA FACOLTÀ DI ECONOMIA CORSO DI LAUREA S.I.G.I. STATISTICA II Esercitazione n. 3 Esercizio 1 Una v.c. X si dice v.c. esponenziale

Dettagli

Dispensa di Statistica

Dispensa di Statistica Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza

Dettagli

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1 lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,

Dettagli

Esercitazione del

Esercitazione del Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative

Dettagli

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza Test 1: Concetti base di inferenza 1. Se uno stimatore T n è non distorto per il parametro θ, allora A T n è anche consistente B lim Var[T n] = 0 n C E[T n ] = θ, per ogni θ 2. Se T n è uno stimatore con

Dettagli

Distribuzioni e inferenza statistica

Distribuzioni e inferenza statistica Distribuzioni e inferenza statistica Distribuzioni di probabilità L analisi statistica spesso studia i fenomeni collettivi confrontandoli con modelli teorici di riferimento. Tra di essi, vedremo: la distribuzione

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri

Dettagli

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 45 Outline 1 2 3 4 5 () Statistica 2 / 45 Modello di In molte applicazioni il ruolo delle variabili

Dettagli

Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017

Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017 Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017 Contents 1 Inferenza sulla regressione semplice 1 1.1 Test sulla pendenza della retta................................... 1 1.2 Test sull

Dettagli

Capitolo 6. La distribuzione normale

Capitolo 6. La distribuzione normale Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 6 La distribuzione normale Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università

Dettagli

Statistica Metodologica

Statistica Metodologica Statistica Metodologica Esercizi di Probabilita e Inferenza Silvia Figini e-mail: [email protected] Problema 1 Sia X una variabile aleatoria Bernoulliana con parametro p = 0.7. 1. Determinare la media

Dettagli

Capitolo 6 La distribuzione normale

Capitolo 6 La distribuzione normale Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 6 La distribuzione normale Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università

Dettagli

ESERCIZI EPOS. { C x 3 (1 x) 0 x 1 0 altrove

ESERCIZI EPOS. { C x 3 (1 x) 0 x 1 0 altrove ESERCIZI EPOS 1. Sia X una v.c. con densità f X (x) = { C x 3 (1 x) 0 x 1 0 altrove (a) Determinare il valore della costante C (b) Calcolare la funzione di ripartizione F X (x) (c) Calcolare P (X > 1/2)

Dettagli

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1 Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare

Dettagli

Minimi quadrati vincolati e test F

Minimi quadrati vincolati e test F Minimi quadrati vincolati e test F Impostazione del problema Spesso, i modelli econometrici che stimiamo hanno dei parametri che sono passibili di interpretazione diretta nella teoria economica. Consideriamo

Dettagli

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 2

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 2 CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 2 Dott.ssa Antonella Costanzo [email protected] Esercizio 1. La variabile Uniforme Continua Data una scheda telefonica da 5 euro di cui non si sa se sia

Dettagli

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza, MODELLO DI REGRESSIONE LINEARE le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza, teorema di Gauss-Markov, verifica di ipotesi e test di

Dettagli

PROBABILITÀ ELEMENTARE

PROBABILITÀ ELEMENTARE Prefazione alla seconda edizione XI Capitolo 1 PROBABILITÀ ELEMENTARE 1 Esperimenti casuali 1 Spazi dei campioni 1 Eventi 2 Il concetto di probabilità 3 Gli assiomi della probabilità 3 Alcuni importanti

Dettagli

Calcolo delle Probabilità 2

Calcolo delle Probabilità 2 Prova d esame di Calcolo delle Probabilità 2 Maggio 2006 Sia X una variabile aleatoria distribuita secondo la densità seguente ke x 1 x < 0 f X (x) = 1/2 0 x 1. 1. Determinare il valore del parametro reale

Dettagli

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3 CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3 Dott.ssa Antonella Costanzo [email protected] Esercizio 1. La v.c. Uniforme Continua Secondo alcuni sondaggi sul sito della Apple (technical support site,

Dettagli

Università della Calabria

Università della Calabria Università della Calabria FACOLTA DI INGEGNERIA Corso di Laurea in Ingegneria Civile CORSO DI IDROLOGIA N.O. Prof. Pasquale Versace SCHEDA DIDATTICA N 3 CURVE DI PROBABILITÀ PLUVIOMETRICA A.A. 00- CURVE

Dettagli

Elementi di statistica per l econometria

Elementi di statistica per l econometria Indice Prefazione i 1 Teoria della probabilità 1 1.1 Definizioni di base............................. 2 1.2 Probabilità................................. 7 1.2.1 Teoria classica...........................

Dettagli

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n. 5 STIMA PUNTUALE DEI PARAMETRI [Adattato dal libro Excel per la statistica di Enzo Belluco] Sia θ un parametro incognito della distribuzione di un carattere in una determinata popolazione. Il problema

Dettagli

Cognome e Nome:... Corso di laurea:...

Cognome e Nome:... Corso di laurea:... Statistica - corso base Prof. B. Liseo Prova di esame dell 8 gennaio 201 Cognome e Nome:................................................................... Corso di laurea:.......................................................................

Dettagli

Analisi delle componenti principali

Analisi delle componenti principali Analisi delle componenti principali Serve a rappresentare un fenomeno k-dimensionale tramite un numero inferiore o uguale a k di variabili incorrelate, ottenute trasformando le variabili osservate Consiste

Dettagli

Esercitazioni di Statistica

Esercitazioni di Statistica Esercitazioni di Statistica Stima Puntuale Prof. Livia De Giovanni [email protected] Esercizio In ciascuno dei casi seguenti determinare quale tra i due stimatori S e T per il parametro θ è distorto

Dettagli

Analisi della regressione multipla

Analisi della regressione multipla Analisi della regressione multipla y = β 0 + β 1 x 1 + β 2 x 2 +... β k x k + u 2. Inferenza Assunzione del Modello Classico di Regressione Lineare (CLM) Sappiamo che, date le assunzioni Gauss- Markov,

Dettagli

La regressione fuzzy. Capitolo I limiti della regressione classica. a cura di Fabrizio Maturo

La regressione fuzzy. Capitolo I limiti della regressione classica. a cura di Fabrizio Maturo Capitolo 14 La regressione fuzzy a cura di Fabrizio Maturo 14.1 I limiti della regressione classica L analisi di regressione offre una possibile soluzione per studiare l effetto di una o più variabili

Dettagli

CURVE DI DURATA: Introduzione e Rappresentazione analitica

CURVE DI DURATA: Introduzione e Rappresentazione analitica CURVE DI DURATA: Introduzione e Rappresentazione analitica Premesse Si definisce durata di una portata Q riferita ad una sezione di misura, l'intervallo di tempo in cui le portate naturali del corso d

Dettagli

REGRESSIONE E CORRELAZIONE

REGRESSIONE E CORRELAZIONE REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.

Dettagli

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y ) Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 0/03 lezioni di statistica del 5 e 8 aprile 03 - di Massimo Cristallo - A. Le relazioni tra i fenomeni

Dettagli

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 8 Intervalli di confidenza Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università

Dettagli

Introduzione alla Regressione Logistica

Introduzione alla Regressione Logistica Introduzione alla Regressione Logistica Contenuto regressione lineare semplice e multipla regressione logistica lineare semplice La funzione logistica Stima dei parametri Interpretazione dei coefficienti

Dettagli

1 Endogeneità, variabili strumentali

1 Endogeneità, variabili strumentali 1 Endogeneità, variabili strumentali 1.1 Proprieta dello stimatore OLS Modello statistico y t = β 1 +β 2 x t2 +...+β k x tk +ε t y t = x tβ+ε t, Brevesommario: y t ex t sonovariabiliosservablimentre ε

Dettagli

Intervalli di confidenza

Intervalli di confidenza Probabilità e Statistica Esercitazioni a.a. 2006/2007 C.d.L.: Ingegneria per l Ambiente ed il Territorio, Ingegneria Civile, Ingegneria Gestionale, Ingegneria dell Informazione C.d.L.S.: Ingegneria Civile

Dettagli

DISTRIBUZIONI DI PROBABILITA

DISTRIBUZIONI DI PROBABILITA DISTRIBUZIONI DI PROBABILITA La distribuzione di probabilità e un modello matematico, uno schema di riferimento, che ha caratteristiche note e che può essere utilizzato per rispondere a delle domande derivate

Dettagli

IL MODELLO DI REGRESSIONE LINEARE SEMPLICE E MULTIPLA* La violazione delle ipotesi. Statistica Economica A.A. 2011/2012. Prof.ssa Tiziana Laureti

IL MODELLO DI REGRESSIONE LINEARE SEMPLICE E MULTIPLA* La violazione delle ipotesi. Statistica Economica A.A. 2011/2012. Prof.ssa Tiziana Laureti IL MODELLO DI REGRESSIONE LINEARE SEMPLICE E MULTIPLA* La violazione delle ipotesi Statistica Economica A.A. 2011/2012 Prof.ssa Tiziana Laureti *Libro di testo: Stock J.H. e Watson, M.W. Introduzione all

Dettagli

Statistica multivariata Donata Rodi 17/10/2016

Statistica multivariata Donata Rodi 17/10/2016 Statistica multivariata Donata Rodi 17/10/2016 Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare

Dettagli

Regressione lineare con un solo regressore

Regressione lineare con un solo regressore Regressione lineare con un solo regressore La regressione lineare è uno strumento che ci permette di stimare e di fare inferenza sui coefficienti incogniti di una retta. Lo scopo principale è di stimare

Dettagli

Test delle Ipotesi Parte I

Test delle Ipotesi Parte I Test delle Ipotesi Parte I Test delle Ipotesi sulla media Introduzione Definizioni basilari Teoria per il caso di varianza nota Rischi nel test delle ipotesi Teoria per il caso di varianza non nota Test

Dettagli

Calcolo delle Probabilità e Statistica, Ingegneria Civile e A&T e Informatica I prova finale a.a. 2016/17

Calcolo delle Probabilità e Statistica, Ingegneria Civile e A&T e Informatica I prova finale a.a. 2016/17 Calcolo delle Probabilità e Statistica, Ingegneria Civile e A&T e Informatica I prova finale aa 6/ Punteggi: : 3 + 6; : + + + ; 3: + Una scatola contiene monete; 8 di queste sono equilibrate, mentre le

Dettagli

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.

Dettagli

Corso di Matematica per la Chimica. Dott.ssa Maria Carmela De Bonis a.a

Corso di Matematica per la Chimica. Dott.ssa Maria Carmela De Bonis a.a Dott.ssa Maria Carmela De Bonis a.a. 2013-14 Risoluzione di Equazioni non lineari Sia F C 0 ([a, b]), cioé F è una funzione continua in un intervallo [a, b] R, tale che F(a)F(b) < 0 1.5 1 F(b) 0.5 0 a

Dettagli

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1 Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1 Lezione 1 - Mercoledì 28 Settembre 2016 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,

Dettagli

Modelli Log-lineari Bivariati

Modelli Log-lineari Bivariati Modelli Log-lineari Bivariati Luca Stefanutti Università di Padova Dipartimento di Psicologia Applicata Via Venezia 8, 35131 Padova L.Stefanutti (Università di Padova) Modelli Log-lineari 1 / 71 Contenuti

Dettagli

Modelli lineari generalizzati

Modelli lineari generalizzati Capitolo 5 Modelli lineari generalizzati I modelli lineari generalizzati costituiscono un estensione del modello lineare generale e servono anch essi allo studio della dipendenza in media di una variabile

Dettagli

UNIVERSITÀ di ROMA TOR VERGATA

UNIVERSITÀ di ROMA TOR VERGATA UNIVERSITÀ di ROMA TOR VERGATA Corso di Statistica, anno 2010-11 P.Baldi Lista di esercizi 3. Corso di Laurea in Biotecnologie Esercizio 1 Una v.a. X segue una legge N(2, ). Calcolare a1) P(X 1) a2) P(2

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 1 Outline 1 () Statistica 2 / 1 Outline 1 2 () Statistica 2 / 1 Outline 1 2 3 () Statistica 2 / 1

Dettagli

Distribuzione esponenziale. f(x) = 0 x < 0

Distribuzione esponenziale. f(x) = 0 x < 0 Distribuzione esponenziale Funzione densità f(x) = λe λx x 0 0 x < 0 Funzione parametrica (λ) 72 Funzione di densità della distribuzione esponenziale 1 0.9 0.8 0.7 λ=1 0.6 f(x) 0.5 0.4 0.3 λ=1/2 0.2 0.1

Dettagli

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17 C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica

Dettagli

Stima puntuale di parametri

Stima puntuale di parametri Probabilità e Statistica Esercitazioni a.a. 006/007 C.d.L.: Ingegneria per l Ambiente ed il Territorio, Ingegneria Civile, Ingegneria Gestionale, Ingegneria dell Informazione C.d.L.S.: Ingegneria Civile

Dettagli

05. Errore campionario e numerosità campionaria

05. Errore campionario e numerosità campionaria Statistica per le ricerche di mercato A.A. 01/13 05. Errore campionario e numerosità campionaria Gli schemi di campionamento condividono lo stesso principio di fondo: rappresentare il più fedelmente possibile,

Dettagli

Il campionamento e l inferenza. Il campionamento e l inferenza

Il campionamento e l inferenza. Il campionamento e l inferenza Il campionamento e l inferenza Popolazione Campione Dai dati osservati mediante scelta campionaria si giunge ad affermazioni che riguardano la popolazione da cui essi sono stati prescelti Il campionamento

Dettagli

Variabili aleatorie discrete. Giovanni M. Marchetti Statistica Capitolo 5 Corso di Laurea in Economia

Variabili aleatorie discrete. Giovanni M. Marchetti Statistica Capitolo 5 Corso di Laurea in Economia Variabili aleatorie discrete Giovanni M. Marchetti Statistica Capitolo 5 Corso di Laurea in Economia 2015-16 1 / 45 Variabili aleatorie Una variabile aleatoria è simile a una variabile statistica Una variabile

Dettagli

STATISTICA ESERCITAZIONE 13

STATISTICA ESERCITAZIONE 13 STATISTICA ESERCITAZIONE 13 Dott. Giuseppe Pandolfo 9 Marzo 2015 Errore di I tipo: si commette se l'ipotesi nulla H 0 viene rifiutata quando essa è vera Errore di II tipo: si commette se l'ipotesi nulla

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 27 Outline 1 () Statistica 2 / 27 Outline 1 2 () Statistica 2 / 27 Outline 1 2 3 () Statistica 2 /

Dettagli

Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23

Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23 Confronto fra gruppi: il metodo ANOVA Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23 1 Nella popolazione, per ciascun gruppo la distribuzione della variabile risposta

Dettagli