La regressione logistica
|
|
|
- Sabina Visconti
- 9 anni fa
- Visualizzazioni
Transcript
1 La regressione logistica Supponiamo che la variabile di interesse y sia una variabile dicotoma, che assuma solo i valori 0 ovvero 1, corrispondenti a successo o insuccesso. Sia p = P (S) = P (Y = 1) la probabilità di osservare un successo. In molte applicazioni è realistico pensare che p dipenda dal valore di una qualche variabile x quantitativa, o anche da più di una, p = p(x). Ad esempio la probabilità che una macchina abbia bisogno del servizio di soccorso può dipendere dai km percorsi, dal numero di interventi di manutenzione, etc. Se supponiamo un modello lineare del tipo Y = β 0 + β 1 x β k x k + ε allora E(Y x) = p(x) = β 0 + β 1 x β k x k = β x non sembra essere realistico in quanto deve essere 0 < p(x) < 1 per ogni x. Si richiede allora a E(Y x) di essere una funzione di β 0 + β 1 x β k x k. La funzione che si è dimostrata utile in molte applicazioni è la funzione logistica f(z) = 1+e ez z. Si suppone quindi che il legame sia E(Y x) = p(x) = eβ x 1 + e β x ovvero logitp(x) = ln p(x) 1 p(x) = β x 1
2 p(x) β 1 < 0 p(x) β 1 > x x I grafici rappresentano la funzione p(x) per particolari valori di β 0 e β 1. In particolare per β 1 < 0 la probabilità di successo decresce al crescere di x, mentre per β 1 > 0 la probabilità del successo cresce al crescere di x. p(x) La funzione è detto ODDS RATIO e rappresenta quante volte il 1 p(x) successo è più plausibile dell insuccesso. 2
3 La regressione logistica è una caso particolare di Modello lineare generalizzato (glm). In questi modelli è una trasformazione (tramite la link function) di E(Y ) che segue un modello lineare. Nel modello logit la link function è la funzione logit. Abbiamo infatti E(Y ) = p ln p 1 p = β x La stima dei parametri avviene, una volta costruita la funzione di verosimiglianza per le osservazioni Y i, con metodi iterativi in quanto non si riesce a dare una forma esplicita al massimo della logverosimiglianza. Il metodo usato è l IWLS (iterative weighted least squares). Si noti che nella regressione logistica si ipotizza che Y è distribuita come una Binomiale con parametri n = 1 e p incognita. Si può dimostrare che asintoticamente i parametri si distribuiscono normalmente per cui si possono effettuare i test di significatività sui parametri, e quando ci sono più parametri i test sull opportunità di includerli nel modello. 3
4 Esempio: Si considerino i dati relativi alla temperatura di lancio e all incidenza dei fallimenti per gli O rings in 24 lanci dello Space Shuttle prima del disastro del Challenger nel gennaio Temp Failure 1 53 Y 2 56 Y 3 57 Y 4 63 N 5 66 N 6 67 N 7 67 N 8 67 N Temp Failure 9 68 N N N Y Y Y N N Temp Failure N Y N N N N N N In questo caso abbiamo solo una variabile esplicativa, Temp. Ipotizziamo un modello logistico per l incidenza dei successi (No Failure= successo). ln p(x) 1 p(x) = β 0 + β 1 x p(x) è la probabilità di successo, ovvero di Failure=No, quando osserviamo T emp = x. 4
5 I valori dei parametri stimati sono riportati nella seguente tabella Estimate Std. Error z value Pr(> z ) (Intercept) Temp La curva stimata per p(x) è data da La funzione p(x) stimata p(x) x Siamo in grado anche di stimare l odds ratio per x = 31 (Temp per il Challenger esploso) che vale cioè la probabilità di un successo (N) è volte quella di un insuccesso (Y). 5
6 Regressione non lineare A volte, per motivi teorici o esaminando i risultati della diagnostica basata sull analisi dei residui, il modello lineare semplice o multiplo può risultare non adatto a spiegare la variabilità della variabile y. Si ricorre allora a modelli alternativi. Consideriamo una vasta gamma di modelli che non sono lineari nei parametri o nella variabili esplicative. Supponiamo che il legame tra le variabili y e x sia del tipo y = f(x) ma a causa di un errore non osserviamo y ma il valore di una v.c. Y = f(x) + ε In generale f è una funzione che dipende da un certo numero di parametri (θ) e da un certo numero di variabili esplicative x. Il termine di errore ε si suppone normalmente distribuito. Se la forma della funzione f è nota a meno di un numero finito di parametri si parla di regressione parametrica. Se la f è totalmente incognita si parla di regressione non parametrica. 6
7 Se il modello è del tipo Y = f(x, θ) + ε, θ = (θ 1,..., θ p ), E(ε) = 0, V ar(ε) = σ 2 supponiamo di avere n osservazioni indipendenti (x i, y i ) che soddisfano y i = f(x i, θ) + ε i, θ = (θ 1,..., θ p ), ε i i.i.d, E(ε i ) = 0, V ar(ε i ) = σ 2 Introducendo la notazione matriciale y = (y 1,..., y n ), f(x, θ) = (f(x 1, θ),..., f(x n, θ)), ɛ = (ε 1,..., ε n ) la stima ai minimi quadrati è data da ˆθ = argmin θ SSE, dove SSE = y f(x, θ) 2 = n i=1 (y i f(x i, θ)) 2 La procedura che ci da la stima ˆθ si chiama NLS (non linear least squares) e differisce da quella OLS in quanto: a) non c è una formula esplicita per la stima ˆθ b) per trovare ˆθ si usano procedure iterative c) occorre fornire dei valori iniziali ai parametri 7
8 La procedura iterativa Seppure esistano numerose tecniche per trovare ˆθ = argmin θ SSE, molte seguono questo schema. Sia θ (0) un valore iniziale del parametro θ. Possiamo scrivere f(x, θ) = f(x, θ (0) ) + p j=1 (θ j θ (0) j ) θ j f(x, θ) θ=θ (0) Questo definisce un piano tangente alla superficie definita da f nel punto θ (0). Posto F kj (x k, θ (0) ) = possiamo riscrivere θ j f(x k, θ) θ=θ (0) w (0) k = f(x k, θ (0) ) p j=1 θ (0) j F kj (x k, θ (0) ) f(x, θ) = w (0) + F (x, θ (0) ) θ, dove w (0) = (w (0) 1,..., w(0) n ) e F (x, θ (0) ) è la matrice di componenti F kj (x k, θ (0) ), k = 1,..., n, j = 1,..., p. 8
9 Il processo iterativo consiste nel regredire f sul piano tangente con intercetta w (0). Il modello approssimato diviene, posto F (x, θ) = F (θ) y = w (0) + F (θ (0) ) θ e la stima ai minimi quadrati ci da l approssimazione successiva θ (1) = ( F (θ (0) ) T F (θ (0) ) ) 1 F (θ (0) ) T (y w (0) ) Il processo continua fino a convergenza, cioè fino a quando la differenza tra due valori successivi di θ (k) non è più piccolo di un valore prefissato. La stima ˆθ ottenuta è una approssimazione della stima ˆθ NLS. Si noti che nel modello lineare w (0) = 0, F (θ (0) ) = X e il processo converge in un passo. 9
10 Inferenza per ˆθ Sotto opportune ipotesi (legate alla derivabilità) sulla funzione f si ha che asintoticamente (quando il numero delle osservazioni n ) ˆθ N(θ, σ 2 (F (θ) F (θ)) 1 ). La stima della varianza asintotica di ˆθ si ottiene sostituendo F (θ) con una sua stima ˆF = F (ˆθ) e come stima di σ 2 la quantità s 2 = SSE n p. La stima della matrice di varianza e covarianza di ˆθ risulta quindi s 2 ( ˆF ˆF ) 1. In analogia a quanto fatto nel caso dell analisi di regressione multivariata, indichiamo con C = ( ˆF ˆF ) 1. L intervallo di confidenza (asintotico) a livello di fiducia 1 α per il parametro θ i è dato da ) (ˆθ i t 1 α/2 s 2 c ii ; ˆθ i + t 1 α/2 s 2 c ii, dove c ii sono gli elementi sulla diagonale principale della matrice C. La verifica di ipotesi per la significatività dei parametri θ si basa sulla statistica che asintoticamente si distribuisce come una t n p. t = ˆθ i θ 0 i s 2 c ii 10
11 Modelli intrinsecamente lineari Una funzione y = f(x) è detta intrinsecamente lineare se attraverso una trasformazione di x, di y o di entrambe le variabili la funzione può essere espressa come y = β 0 + β 1 x, y = g(y), x = h(x). Le più utilizzate funzioni di questo tipo sono descritte nella tabella seguente dove si riportano anche le trasformazioni da applicare per rendere il legame lineare Funzione Trasf. variabile x Trasf. variabile y Forma Lineare y = αe βx y = ln y y = ln(α) + βx y = αx β x = log x y = ln y y = ln(α) + βx y = α + β log x x = log x y = α + βx y = α + β 1 x x = 1 x y = α + βx Un modello probabilistico che lega il valore di una v.c. Y a x è detto intrinsecamente lineare se attraverso una trasformazione di x o di Y o di entrambe le variabili la funzione può essere espressa come Y = β 0 + β 1 x + ε 11
12 e (βx) β > 0 e (βx) β < 0 x β β < 0 β > 1 x β < β < x x x x βlog(x) β > 0 βlog(x) β < 0 α + β1 x y = α β < 0 α + β1 x y = α β < x x x x 12
13 I modelli probabilistici che corrispondono alle quattro funzioni della tabella precedente sono Il modello esponenziale moltiplicativo: Y = αe βx ε Con la trasformazione Y = ln Y otteniamo il modello Y = β 0 +β 1 x +ε con x = x, β 0 = ln α β 1 = β e ε = ln ε. Se ε ha una distribuzione Lognormale con E(ε) = e σ2 /2 e V ar(ε) = e σ2 (e σ2 1) allora ε è N(0, σ 2 ). Il modello con potenza moltiplicativo: Y = αx β ε Otteniamo il modello Y = β 0 + β 1 x + ε con Y = ln Y, x = ln x, β 0 = ln α β 1 = β e ε = ln ε. Se ε ha una distribuzione Lognormale con E(ε) = e σ2 /2 e V ar(ε) = e σ2 (e σ2 1) allora ε è N(0, σ 2 ). 13
14 Il modello logaritmico additivo: Y = α + β log x + ε Otteniamo il modello Y = β 0 + β 1 x + ε con Y = Y, x = log x, β 0 = α β 1 = β e ε = ε. In questo caso ε = ε è N(0, σ 2 ). Il modello reciproco additivo: Y = α + β 1 x + ε Otteniamo il modello Y = β 0 + β 1 x + ε con Y = Y, x = 1 x, β 0 = α β 1 = β e ε = ε. In questo caso ε = ε è N(0, σ 2 ). Si noti che il modello esponenziale additivo Y = αe βx + ε e il modello con potenza additivo Y = αx β + ε non sono intrinsecamente lineari. I parametri dei modelli trasformati si possono direttamente stimare utilizzando OLS per i dati trasformati y e x. Dalle stime di di ˆβ 0 e ˆβ 1 si può eventualmente risalire ai parametri dei modelli di partenza trasformandoli opportunamente. Queste stime in generale non coincidono con quelle ottenute direttamente con NLS sui dati non trasformati. 14
15 Esempio: I seguenti dati sono tratti dall articolo Thermal Endurance of Polyester Enameled Wires Using Twisted Wire Specimens, IEEE Trans. Insulation, 1965, 38 44, dove in un test per verificare la resistenza termica si vuole capire il legame tra la temperatura e il tempo di vita del filo di poliestere smaltato Temp Lifetime Temp Lifetime I seguenti grafici riportano i dati con varie trasformazioni sia per la variabile x che per la variabile y. 15
16 Lifetime Lifetime Temp /Temp log(lifetime) log(lifetime) Temp /Temp 16
17 Se applichiamo il modello lineare semplice Y = β 0 + β 1 x + ε otteniamo la retta riportata in figura Modello 1 Lifetime Temp Le stime dei parametri sono β 0 = e β 1 = , entrambi significativi, la statistica r 2 = denota un discreto adattamento ma dal grafico si nota come i valori previsti per x = 240 siano negativi (y è un tempo di attesa!) L analisi dei residui mostra delle patologie per cui il modello lineare non sembra adatto a spiegare la dipendenza di y da x. 17
18 x vs residui y stimati vs residui Residui Standardizzati Residui Standardizzati x i y^i y vs y stimati Normal Q Q Plot y^i Sample Quantiles y Theoretical Quantiles 18
19 La relazione tra ln(y) e x sembra essere lineare per cui ipotizziamo un legame esponenziale del tipo y = αe βx. Il modello trasformato risulta ln y = ln α + βx. Supponendo che il modello probabilistico sia il modello esponenziale moltiplicativo, possiamo stimare con il metodo OLS i parametri del modello trasformato Otteniamo i seguenti risultati y = β 0 + β 1 x Estimate Std. Error t value Pr(> t ) (Intercept) Temp Inoltre r 2 = Questo valore si riferisce all adattibilità della retta ai dati trasformati. Per misurare la performance del modello è meglio risalire dai valori previsti dal modello ŷ i tramite l antitrasformata ai dati ŷ i = eŷ i e quindi effettuare il grafico di y i contro ŷ i 19
20 Modello 2 y vs y stimati Modello 2 log(lifetime) y^i Temp y Una ulteriore misura della performance del modello può essere valutata andando a calcolare la somma dei residui sui dati di partenza per entrambi i modelli. 20
21 Osservando il grafico dei dati originari si può anche ipotizzare un modello del tipo y = αe β 1 x In questo caso le stime sono Estimate Std. Error t value Pr(> t ) (Intercept) I(1/Temp) Si noti che calcolare la stima di s per i tre modelli sui dati originali da questi risultati s 1 = , s 2 = , s 3 = poichè il numero di parametri utilizzati nei tre modelli è lo stesso si preferisce il terzo. 21
22 I grafici riportano la retta stimata per i dati trasformati e il grafico dei valori y contro i valori ŷ ottenuti ritrasformando i dati previsti con il modello lineare Modello 3 y vs y stimati Modello 3 log(lifetime) y^i /Temp y Si noti come l adattabilità sia lievemente migliorata rispetto al modello 2. 22
23 Osservazioni 1. Stimare i parametri β 0 e β 1 del modello lineare trasformato e poi trasformare questi parametri per ottenere i parametri del modello originario non è come stimare con il metodo NLS i parametri del modello non linearizzato. 2. Se i modelli non sono intrinsecamente lineari occorre ricorrere direttamente alla stima dei parametri del modello tramite NLS. Le soluzioni si trovano con procedure iterative 3. Per i modelli trasformati le stime ottenute con OLS sono ottime per la stima dei parametri trasformati. L ottimalità non si trasmette sulla stima dei parametri dei modelli originari ottenuta trasformando le stime ottenute con OLS. 4. Una volta stimati i parametri del modello trasformato, r 2 si riferisce all adattabilità di questo modello ai dati trasformati. Sebbene un r 2 alto sia indice di una buona adattabilità del modello originario non lineare ai dati osservati, questo valore non è riferito alle osservazioni originarie. 23
24 Minimi quadrati pesati WLS In molti contesti applicativi non è realistico pensare ad errori omoschedastici. Ad esempio se pensiamo ad uno studio sulla dipendenza del profitto di un impresa dal livello di investimenti in ricerca e sviluppo è ragionevole pensare che la variabilià del profitto cresca all aumentare degli investimenti. Errori Eteroschedastici y x 24
25 Supponiamo che gli errori del modello Y = Xβ + ɛ siano tali che E(ε i ) = 0 e Var(ε i ) = λ i σ 2, Cov(ε i, ε j ) = 0 con λ i noti e σ 2 incognito. Se denotiamo con Ω la matrice (n n) varianza e covarianza del vettore ɛ il miglior stimatore lineare non distorto risulta ˆβ = (X T Ω 1 X) 1 X T Ω 1 y ˆβ è detto stima ai minimi quadrati pesati (WLS, weighted least squares) in quanto è ottenuto con OLS sui dati trasformati opportunamente in modo da ricondursi ad errori omoschedastici. La matrice varianza e covarianza per lo stimatore ˆβ è Varˆβ = σ 2 (X T Ω 1 X) 1 25
26 Esempio: il seguente grafico rappresenta i dati rilevati su 39 aziende relativi agli investimenti effettuati in ricerca e sviluppo (x in migliaia di euro) e il profitto (y in centinaia di migliaia di euro) Scatter plot y x 26
27 Dalla regressione lineare otteniamo i seguenti risultati Estimate Std. Error t value Pr(> t ) (Intercept) x con un standard error pari a s = e r 2 =
28 L analisi dei residui mostra una forte eteroschedasticità. Residui Residui x Valori Stimati 28
29 Proponiamo quindi una regressione con errori eteroschedastici e con i WLS otteniamo i seguenti risultati Estimate Std. Error t value Pr(> t ) (Intercept) x con un standard error pari a e r 2 =
Statistica Applicata all edilizia: il modello di regressione
Statistica Applicata all edilizia: il modello di regressione E-mail: [email protected] 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione
Regressione multipla
Regressione multipla L obiettivo è costruire un modello probabilistico per spiegare la variabile y tramite più di una variabile indipendente x 1, x 2,..., x k. Esempio: Per un efficiente progettazione
Il modello di regressione lineare multipla. Il modello di regressione lineare multipla
Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa
Corso di Statistica Industriale
Corso di Statistica Industriale Corsi di Laurea Specialistica in Ingegneria Gestionale e Ingegneria Meccanica Docente: Ilia Negri Orario del corso: Martedì: dalle 14.00 alle 16.00 Venerdì: dalle 10.30
Regressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.
Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:
0 altimenti 1 soggetto trova lavoroentro 6 mesi}
Lezione n. 16 (a cura di Peluso Filomena Francesca) Oltre alle normali variabili risposta che presentano una continuità almeno all'interno di un certo intervallo di valori, esistono variabili risposta
STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo
STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è
Test F per la significatività del modello
Test F per la significatività del modello Per verificare la significatività dell intero modello si utilizza il test F Si vuole verificare l ipotesi H 0 : β 1 = 0,, β k = 0 contro l alternativa che almeno
STATISTICA A K (60 ore)
STATISTICA A K (60 ore) Marco Riani [email protected] http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta
IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA
Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale
STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:
esercitazione 7 p. 1/13 STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: 20-05-2004 Luca Monno Università degli studi di Pavia [email protected] http://www.lucamonno.it
Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati
ISTITUZIONI DI STATISTICA A. A. 2007/2008 Marco Minozzo e Annamaria Guolo Laurea in Economia del Commercio Internazionale Laurea in Economia e Amministrazione delle Imprese Università degli Studi di Verona
La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.
Lezione 14 (a cura di Ludovica Peccia) MULTICOLLINEARITA La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative. In un modello di regressione Y= X 1, X 2, X 3
Regressione lineare semplice
Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro
Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE
Università degli Studi di Padova Corso di Laurea Magistrale in Informatica a.a. 2016/2017 Data Mining Docente: Annamaria Guolo Prova parziale del 20 aprile 2017: SOLUZIONE ISTRUZIONI: La durata della prova
Il modello di regressione lineare multipla con regressori stocastici
Università di Pavia Il modello di regressione lineare multipla con regressori stocastici Eduardo Rossi Il valore atteso condizionale Modellare l esperimento casuale bivariato nel quale le variabili casuali
Modelli lineari generalizzati
Modelli lineari generalizzati Estensione del modello lineare generale Servono allo studio della dipendenza in media di una variabile risposta da una o più variabili antecedenti Vengono attenuate alcune
Statistica 1 A.A. 2015/2016
Corso di Laurea in Economia e Finanza Statistica 1 A.A. 2015/2016 (8 CFU, corrispondenti a 48 ore di lezione frontale e 24 ore di esercitazione) Prof. Luigi Augugliaro 1 / 35 Il modello di regressione
UNIVERSITÀ DEGLI STUDI DI PERUGIA
SIGI, Statistica II, esercitazione n. 3 1 UNIVERSITÀ DEGLI STUDI DI PERUGIA FACOLTÀ DI ECONOMIA CORSO DI LAUREA S.I.G.I. STATISTICA II Esercitazione n. 3 Esercizio 1 Una v.c. X si dice v.c. esponenziale
Dispensa di Statistica
Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza
lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1
lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,
Esercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative
Statistica Metodologica Avanzato Test 1: Concetti base di inferenza
Test 1: Concetti base di inferenza 1. Se uno stimatore T n è non distorto per il parametro θ, allora A T n è anche consistente B lim Var[T n] = 0 n C E[T n ] = θ, per ogni θ 2. Se T n è uno stimatore con
Distribuzioni e inferenza statistica
Distribuzioni e inferenza statistica Distribuzioni di probabilità L analisi statistica spesso studia i fenomeni collettivi confrontandoli con modelli teorici di riferimento. Tra di essi, vedremo: la distribuzione
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri
Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 45 Outline 1 2 3 4 5 () Statistica 2 / 45 Modello di In molte applicazioni il ruolo delle variabili
Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017
Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017 Contents 1 Inferenza sulla regressione semplice 1 1.1 Test sulla pendenza della retta................................... 1 1.2 Test sull
Capitolo 6. La distribuzione normale
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 6 La distribuzione normale Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università
Statistica Metodologica
Statistica Metodologica Esercizi di Probabilita e Inferenza Silvia Figini e-mail: [email protected] Problema 1 Sia X una variabile aleatoria Bernoulliana con parametro p = 0.7. 1. Determinare la media
Capitolo 6 La distribuzione normale
Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 6 La distribuzione normale Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università
ESERCIZI EPOS. { C x 3 (1 x) 0 x 1 0 altrove
ESERCIZI EPOS 1. Sia X una v.c. con densità f X (x) = { C x 3 (1 x) 0 x 1 0 altrove (a) Determinare il valore della costante C (b) Calcolare la funzione di ripartizione F X (x) (c) Calcolare P (X > 1/2)
Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1
Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare
Minimi quadrati vincolati e test F
Minimi quadrati vincolati e test F Impostazione del problema Spesso, i modelli econometrici che stimiamo hanno dei parametri che sono passibili di interpretazione diretta nella teoria economica. Consideriamo
CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 2
CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 2 Dott.ssa Antonella Costanzo [email protected] Esercizio 1. La variabile Uniforme Continua Data una scheda telefonica da 5 euro di cui non si sa se sia
MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,
MODELLO DI REGRESSIONE LINEARE le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza, teorema di Gauss-Markov, verifica di ipotesi e test di
PROBABILITÀ ELEMENTARE
Prefazione alla seconda edizione XI Capitolo 1 PROBABILITÀ ELEMENTARE 1 Esperimenti casuali 1 Spazi dei campioni 1 Eventi 2 Il concetto di probabilità 3 Gli assiomi della probabilità 3 Alcuni importanti
Calcolo delle Probabilità 2
Prova d esame di Calcolo delle Probabilità 2 Maggio 2006 Sia X una variabile aleatoria distribuita secondo la densità seguente ke x 1 x < 0 f X (x) = 1/2 0 x 1. 1. Determinare il valore del parametro reale
CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3
CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3 Dott.ssa Antonella Costanzo [email protected] Esercizio 1. La v.c. Uniforme Continua Secondo alcuni sondaggi sul sito della Apple (technical support site,
Università della Calabria
Università della Calabria FACOLTA DI INGEGNERIA Corso di Laurea in Ingegneria Civile CORSO DI IDROLOGIA N.O. Prof. Pasquale Versace SCHEDA DIDATTICA N 3 CURVE DI PROBABILITÀ PLUVIOMETRICA A.A. 00- CURVE
Elementi di statistica per l econometria
Indice Prefazione i 1 Teoria della probabilità 1 1.1 Definizioni di base............................. 2 1.2 Probabilità................................. 7 1.2.1 Teoria classica...........................
Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.
5 STIMA PUNTUALE DEI PARAMETRI [Adattato dal libro Excel per la statistica di Enzo Belluco] Sia θ un parametro incognito della distribuzione di un carattere in una determinata popolazione. Il problema
Cognome e Nome:... Corso di laurea:...
Statistica - corso base Prof. B. Liseo Prova di esame dell 8 gennaio 201 Cognome e Nome:................................................................... Corso di laurea:.......................................................................
Analisi delle componenti principali
Analisi delle componenti principali Serve a rappresentare un fenomeno k-dimensionale tramite un numero inferiore o uguale a k di variabili incorrelate, ottenute trasformando le variabili osservate Consiste
Esercitazioni di Statistica
Esercitazioni di Statistica Stima Puntuale Prof. Livia De Giovanni [email protected] Esercizio In ciascuno dei casi seguenti determinare quale tra i due stimatori S e T per il parametro θ è distorto
Analisi della regressione multipla
Analisi della regressione multipla y = β 0 + β 1 x 1 + β 2 x 2 +... β k x k + u 2. Inferenza Assunzione del Modello Classico di Regressione Lineare (CLM) Sappiamo che, date le assunzioni Gauss- Markov,
La regressione fuzzy. Capitolo I limiti della regressione classica. a cura di Fabrizio Maturo
Capitolo 14 La regressione fuzzy a cura di Fabrizio Maturo 14.1 I limiti della regressione classica L analisi di regressione offre una possibile soluzione per studiare l effetto di una o più variabili
CURVE DI DURATA: Introduzione e Rappresentazione analitica
CURVE DI DURATA: Introduzione e Rappresentazione analitica Premesse Si definisce durata di una portata Q riferita ad una sezione di misura, l'intervallo di tempo in cui le portate naturali del corso d
REGRESSIONE E CORRELAZIONE
REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.
x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )
Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 0/03 lezioni di statistica del 5 e 8 aprile 03 - di Massimo Cristallo - A. Le relazioni tra i fenomeni
Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica
Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 8 Intervalli di confidenza Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università
Introduzione alla Regressione Logistica
Introduzione alla Regressione Logistica Contenuto regressione lineare semplice e multipla regressione logistica lineare semplice La funzione logistica Stima dei parametri Interpretazione dei coefficienti
1 Endogeneità, variabili strumentali
1 Endogeneità, variabili strumentali 1.1 Proprieta dello stimatore OLS Modello statistico y t = β 1 +β 2 x t2 +...+β k x tk +ε t y t = x tβ+ε t, Brevesommario: y t ex t sonovariabiliosservablimentre ε
Intervalli di confidenza
Probabilità e Statistica Esercitazioni a.a. 2006/2007 C.d.L.: Ingegneria per l Ambiente ed il Territorio, Ingegneria Civile, Ingegneria Gestionale, Ingegneria dell Informazione C.d.L.S.: Ingegneria Civile
DISTRIBUZIONI DI PROBABILITA
DISTRIBUZIONI DI PROBABILITA La distribuzione di probabilità e un modello matematico, uno schema di riferimento, che ha caratteristiche note e che può essere utilizzato per rispondere a delle domande derivate
IL MODELLO DI REGRESSIONE LINEARE SEMPLICE E MULTIPLA* La violazione delle ipotesi. Statistica Economica A.A. 2011/2012. Prof.ssa Tiziana Laureti
IL MODELLO DI REGRESSIONE LINEARE SEMPLICE E MULTIPLA* La violazione delle ipotesi Statistica Economica A.A. 2011/2012 Prof.ssa Tiziana Laureti *Libro di testo: Stock J.H. e Watson, M.W. Introduzione all
Statistica multivariata Donata Rodi 17/10/2016
Statistica multivariata Donata Rodi 17/10/2016 Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare
Regressione lineare con un solo regressore
Regressione lineare con un solo regressore La regressione lineare è uno strumento che ci permette di stimare e di fare inferenza sui coefficienti incogniti di una retta. Lo scopo principale è di stimare
Test delle Ipotesi Parte I
Test delle Ipotesi Parte I Test delle Ipotesi sulla media Introduzione Definizioni basilari Teoria per il caso di varianza nota Rischi nel test delle ipotesi Teoria per il caso di varianza non nota Test
Calcolo delle Probabilità e Statistica, Ingegneria Civile e A&T e Informatica I prova finale a.a. 2016/17
Calcolo delle Probabilità e Statistica, Ingegneria Civile e A&T e Informatica I prova finale aa 6/ Punteggi: : 3 + 6; : + + + ; 3: + Una scatola contiene monete; 8 di queste sono equilibrate, mentre le
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.
Corso di Matematica per la Chimica. Dott.ssa Maria Carmela De Bonis a.a
Dott.ssa Maria Carmela De Bonis a.a. 2013-14 Risoluzione di Equazioni non lineari Sia F C 0 ([a, b]), cioé F è una funzione continua in un intervallo [a, b] R, tale che F(a)F(b) < 0 1.5 1 F(b) 0.5 0 a
Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1
Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1 Lezione 1 - Mercoledì 28 Settembre 2016 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,
Modelli Log-lineari Bivariati
Modelli Log-lineari Bivariati Luca Stefanutti Università di Padova Dipartimento di Psicologia Applicata Via Venezia 8, 35131 Padova L.Stefanutti (Università di Padova) Modelli Log-lineari 1 / 71 Contenuti
Modelli lineari generalizzati
Capitolo 5 Modelli lineari generalizzati I modelli lineari generalizzati costituiscono un estensione del modello lineare generale e servono anch essi allo studio della dipendenza in media di una variabile
UNIVERSITÀ di ROMA TOR VERGATA
UNIVERSITÀ di ROMA TOR VERGATA Corso di Statistica, anno 2010-11 P.Baldi Lista di esercizi 3. Corso di Laurea in Biotecnologie Esercizio 1 Una v.a. X segue una legge N(2, ). Calcolare a1) P(X 1) a2) P(2
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 1 Outline 1 () Statistica 2 / 1 Outline 1 2 () Statistica 2 / 1 Outline 1 2 3 () Statistica 2 / 1
Distribuzione esponenziale. f(x) = 0 x < 0
Distribuzione esponenziale Funzione densità f(x) = λe λx x 0 0 x < 0 Funzione parametrica (λ) 72 Funzione di densità della distribuzione esponenziale 1 0.9 0.8 0.7 λ=1 0.6 f(x) 0.5 0.4 0.3 λ=1/2 0.2 0.1
3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
Stima puntuale di parametri
Probabilità e Statistica Esercitazioni a.a. 006/007 C.d.L.: Ingegneria per l Ambiente ed il Territorio, Ingegneria Civile, Ingegneria Gestionale, Ingegneria dell Informazione C.d.L.S.: Ingegneria Civile
05. Errore campionario e numerosità campionaria
Statistica per le ricerche di mercato A.A. 01/13 05. Errore campionario e numerosità campionaria Gli schemi di campionamento condividono lo stesso principio di fondo: rappresentare il più fedelmente possibile,
Il campionamento e l inferenza. Il campionamento e l inferenza
Il campionamento e l inferenza Popolazione Campione Dai dati osservati mediante scelta campionaria si giunge ad affermazioni che riguardano la popolazione da cui essi sono stati prescelti Il campionamento
Variabili aleatorie discrete. Giovanni M. Marchetti Statistica Capitolo 5 Corso di Laurea in Economia
Variabili aleatorie discrete Giovanni M. Marchetti Statistica Capitolo 5 Corso di Laurea in Economia 2015-16 1 / 45 Variabili aleatorie Una variabile aleatoria è simile a una variabile statistica Una variabile
STATISTICA ESERCITAZIONE 13
STATISTICA ESERCITAZIONE 13 Dott. Giuseppe Pandolfo 9 Marzo 2015 Errore di I tipo: si commette se l'ipotesi nulla H 0 viene rifiutata quando essa è vera Errore di II tipo: si commette se l'ipotesi nulla
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 27 Outline 1 () Statistica 2 / 27 Outline 1 2 () Statistica 2 / 27 Outline 1 2 3 () Statistica 2 /
Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23
Confronto fra gruppi: il metodo ANOVA Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23 1 Nella popolazione, per ciascun gruppo la distribuzione della variabile risposta
