Modelli lineari generalizzati
|
|
|
- Marisa Scala
- 8 anni fa
- Visualizzazioni
Transcript
1 Capitolo 5 Modelli lineari generalizzati I modelli lineari generalizzati costituiscono un estensione del modello lineare generale e servono anch essi allo studio della dipendenza in media di una variabile risposta da una o più variabili antecedenti. Nei modelli lineari generalizzati vengono attenuate alcune ipotesi fondamentali nel modello lineare generale, ovvero la linearità del modello di dipendenza, la normalità e l omoschedasticità delle osservazioni. Il modello distributivo assunto per le osservazioni della variabile conseguente costituisce un estensione di quello gaussiano. 5.1 Famiglia esponenziale di distribuzioni Sia Y una variabile aleatoria discreta o continua la cui distribuzione dipenda dal parametro unidimensionale θ. La distribuzione è detta appartenere alla famiglia esponenziale di distribuzioni se è esprimibile nella forma f(y, θ) s(y)t(θ) exp[a(y)b(θ)] (5.1) con s, t, a e b funzioni note. La forma appena vista può alternativamente esprimersi nel modo seguente con s(y) exp[d(y)] e t(θ) exp[c(θ)]. Osservazioni f(y, θ) exp[a(y)b(θ) + c(θ) + d(y)] (5.2) (i) quando a(y) y la famiglia esponenziale è detta espressa in forma canonica; 79
2 80 A. Pollice - Statistica Multivariata (ii) φ b(θ) è detto parametro naturale; (iii) se la distribuzione contiene altri parametri oltre a θ questi vengono detti parametri di disturbo; (iv) appartengono alla famiglia esponenziale le distribuzioni di Poisson, Binomiale, Normale, Gamma e altre Funzione score e informazione attesa di Fisher Definizione 5.1 Si definisce funzione score la seguente funzione di y e θ d log f(y, θ) u dθ Proprietà 5.2 La funzione score ha valore atteso nullo. (5.3) d log f(y, θ) E(u) f(y, θ)dy dθ 1 df(y, θ) f(y, θ)dy f(y, θ) dθ d f(y, θ)dy d dθ dθ 1 0 (5.4) La (5.4) vale se posso scambiare il segno di integrazione con quello di derivazione, e cioè sotto le condizioni di regolarità proprie del teorema di Fubini. Proprietà 5.3 Se u du/dθ, allora Var(u) E(u 2 ) E( u ) e la funzione E( u ) è denominata informazione attesa di Fisher. Infatti sotto le stesse condizioni vale: 0 d dθ E(u) d d log f(y, θ) f(y, θ)dy dθ dθ d 2 log f(y, θ) d log f(y, θ) df(y, θ) dθ 2 f(y, θ)dy + dy dθ dθ d 2 log f(y, θ) d log f(y, θ) d log f(y, θ) dθ 2 f(y, θ)dy + f(y, θ)dy dθ dθ E(u ) + E(u 2 ) (5.5) Si supponga ora di disporre di un campione di n osservazioni indipendenti e che ciascuna osservazione y i provenga da una distribuzione f(y i, θ i ) caratterizzata dal parametro θ i variabile per i 1,..., n. Siano y (y 1,..., y n ), θ (θ 1,..., θ n ) ed L(θ, y) n i1 f(y i, θ i ) la verosimiglianza.
3 Cap. 5: Modelli lineari generalizzati 81 Definizione 5.4 Si definisce total score il vettore U (U 1,..., U n ) con U i log L(θ, y) θ i i 1,..., n (5.6) Con procedimento analogo a quello utilizzato nella (5.4) si può dimostrare che E(U i ) 0. Inoltre l elemento generico della matrice di varianze e covarianze di U detta matrice di informazione attesa di Fisher, data da I E(UU ), è ottenuto come nella (5.5) ed è dato da [ ] I ij E(U i U j ) E 2 log L(θ, y) (5.7) θ i θ j Famiglia esponenziale in forma canonica Si consideri ora la famiglia esponenziale in forma canonica f(y, θ) s(y)t(θ) exp[yb(θ)] exp[yb(θ) + c(θ) + d(y)] (5.8) In tal caso la funzione score è data da u d log f(y, θ) dθ quindi dalla Proprietà 5.2 si ricava E(Y ) c (θ) b (θ) ed inoltre poiché Var(u) [b (θ)] 2 Var(Y ) Si osservi che Var(u) E( u ) e che, poiché vale yb (θ) + c (θ) (5.9) (5.10) Var(Y ) Var(u) [b (θ)] 2 (5.11) E( u ) E[ Y b (θ) c (θ)] E(Y )b (θ) c (θ) c (θ) b (θ) b (θ) c (θ) (5.12) si ha che la varianza della variabile aleatoria Y con distribuzione appartenente alla famiglia esponenziale in forma canonica è data da Var(Y ) b (θ)c (θ) c (θ)b (θ) [b (θ)] 3 (5.13)
4 82 A. Pollice - Statistica Multivariata 5.2 Modelli lineari generalizzati L unitarietà di diverse di metodologie statistiche facenti riferimento a combinazioni lineari di parametri fu dimostrata da Nelder e Wedderburn (1972) partendo dall idea di un modello lineare generalizzato. La teoria dei modelli lineari generalizzati è stata in seguito codificata nel libro che costituisce il riferimento essenziale sull argomento, ad opera di Mc Cullagh e Nelder (1989). Siano Y 1,..., Y n variabili aleatorie indipendenti aventi la stessa distribuzione f(y i, θ i ) per i 1,..., n appartenente alla famiglia esponenziale ed in forma canonica f(y i, θ i ) exp[y i b(θ i ) + c(θ i ) + d(y i )] i 1,..., n (5.14) Si noti come con tale modello distributivo ciascuna osservazione possa essere associata ad un proprio parametro θ i. Tali parametri, qualora effettivamente diversi tra loro, non risultano particolarmente interessanti a fini investigativi poiché non forniscono alcuna sintesi della distribuzione delle osservazioni, ma servono a caratterizzarla in modo flessibile. Si considerino inoltre un vettore di p < n parametri β (β 1,..., β p ) e una funzione g che metta in relazione una combinazione lineare degli elementi di β con il valore atteso E(Y i ) µ i dell i-esima osservazione g(µ i ) X iβ η i i 1,..., n (5.15) in quanto precede g è una funzione monotona e differenziabile detta funzione link, X i è un vettore di p osservazioni di altrettante covariate o di indicatori di livello di fattori, β è il vettore dei parametri, mentre η i prende il nome di predittore lineare. In quanto segue vengono illustrate alcune forme distributive appartenenti alla famiglia esponenziale insieme alle funzioni link piu usate nei diversi casi. (i) Siano Y i,..., Y n variabili dicotomiche aventi distribuzione bernoulliana: { θi y f(y i, θ i ) i 1 i 1,..., n (5.16) 1 θ i y i 0 ovvero per y i 0, 1 e i 1,..., n f(y i, θ i ) θ y i i (1 θ i) 1 y i exp [ y i log ] θ i + log(1 θ i ) 1 θ i (5.17) pertanto la distribuzione bernoulliana appartiene alla famiglia esponenziale in forma canonica e φ i log[θ i /(1 θ i )] è il parametro naturale. Inoltre dalla (5.10) si ottiene µ i E(Y i ) θ i. Se per i dati
5 Cap. 5: Modelli lineari generalizzati 83 a disposizione si ipotizza una distribuzione bernoulliana una possibile forma di link è la cosiddetta funzione logit ( ) θi g(µ i ) g(θ i ) log (5.18) 1 θ i che dà luogo al modello di dipendenza per variabili binarie noto come modello logit o di regressione logistica µ i exp(x i β) exp(x i β) + 1 i 1,..., n (5.19) Indicando invece con Φ la funzione di ripartizione della normale standardizzata si definisce funzione probit la seguente funzione link g(µ i ) g(θ i ) Φ 1 (θ i ) (5.20) ed il conseguente modello di dipendenza per dati dicotomici è dato da µ i Φ(X iβ) i 1,..., n (5.21) Si può infine considerare la funzione link doppio logaritmica ed il modello g(µ i ) g(θ i ) log[ log(1 θ i )] (5.22) µ i 1 exp[ exp(x iβ)] i 1,..., n (5.23) (ii) Siano Y 1,..., Y n variabili continue aventi distribuzione normale [ 1 f(y i, θ i ) (2πσ 2 exp 1 ] ) 1/2 2σ 2 (y i θ i ) 2 [ exp y2 i 2σ 2 + y iθ i σ 2 θ2 i 2σ 2 1 ] 2 log(2πσ2 ) (5.24) nell espressione precedente siano θ i per i 1,..., n i parametri di interesse mentre σ sia un parametro di disturbo. Anche questa distribuzione ha dunque la forma canonica della famiglia esponenziale con parametro naturale φ i θ i /σ 2. E noto come anche in questo caso sia µ i E(Y i ) θ i. Se come funzione link si considera la funzione identità g(µ i ) g(θ i ) θ i (5.25) si ottiene come modello di dipendenza il modello lineare generale µ i X iβ i 1,..., n (5.26)
6 84 A. Pollice - Statistica Multivariata (iii) Si assuma ora che Y i abbia distribuzione di Poisson per i 1,..., n f(y i, θ i ) θy i i e θ i y i! exp[y i log θ i θ i log y i!] (5.27) dove φ i log θ i è il parametro naturale, mentre µ i E(Y i ) θ i. Una possibile funzione link è quella logaritmica g(µ i ) g(θ i ) log θ i (5.28) il modello che ne deriva detto regressione di Poisson è dato da µ i exp(x iβ) i 1,..., n (5.29) (iv) Nei casi precedenti in cui l espressione del link coincide con la funzione di θ che definisce il parametro naturale si parla di funzione link canonica. L uso delle funzioni link canoniche facilita molto le inferenze sui parametri dei modelli lineari generalizzati le cui stime godono in tal caso di importanti proprietà legate alle statistiche sufficienti. Per quanto appena detto se la distribuzione assunta alla base del modello è bernoulliana, normale o di Poisson le rispettive funzioni link canoniche sono la funzione logit, l identità e la funzione logaritmica. (v) In generale se la distribuzione delle Y i è continua si può utilizzare come link la funzione potenza g(µ i ) { µ α i α 0 log µ i α 0 (5.30) che, per α prefissato dà luogo al modello { µ α i X i β α 0 log µ i X i β α 0 i 1,..., n (5.31) 5.3 Stima dei parametri Nel caso della famiglia esponenziale in forma canonica la log-verosimiglianza di y (y 1,..., y n ) è data da l(θ, y) y i b(θ i ) + c(θ i ) + d(y i ) (5.32) i1 i1 i1
7 Cap. 5: Modelli lineari generalizzati 85 Ponendo l i y i b(θ i ) + c(θ i ) + d(y i ) per i 1,..., n, il j-esimo elemento della funzione total score rispetto a β j risulta definito da U(β j ) l(θ, y) β j i1 l i β j j 1,..., p (5.33) Si noti che l i-esimo addendo della (5.33) è fattorizzabile nel modo seguente Il primo fattore può essere calcolato direttamente l i β j l i θ i θ i β j (5.34) l i θ i y i b (θ i ) + c (θ i ) y i b (θ i ) b (θ i )µ i b (θ i )(y i µ i ) (5.35) L inverso del secondo fattore è dato da ( ) c (θ i ) θ i θ i b c (θ i )b (θ i ) c (θ i )b (θ i ) (θ i ) [b (θ i )] 2 b (θ i )var(y i ) (5.36) Il terzo fattore risulta β j η i η i β j η i X ij (5.37) Di conseguenza la (5.33) prende complessivamente la forma seguente U(β j ) i1 (y i µ i )X ij var(y i ) η i (5.38) La famiglia esponenziale di distribuzioni gode di numerose proprietà di regolarità che garantiscono che il massimo assoluto della funzione di verosimiglianza L(θ, y) sia dato dalla soluzione di dl(θ, y)/d(θ) 0 (in altri termini è superfluo il calcolo della derivata seconda), ovvero di U(β j ) l(θ, y)/ β j 0 per j 1,..., p. Quindi per determinare gli stimatori di massima verosimiglianza di β j bisogna risolvere rispetto a β j il sistema di p equazioni non lineari U(β j ) i1 (y i µ i )X ij var(y i ) η i 0 j 1,..., p (5.39)
8 86 A. Pollice - Statistica Multivariata Metodo di Newton Raphson Il metodo iterativo di Newton Raphson consiste in generale nel considerare come m-esima approssimazione della soluzione dell equazione non lineare h(x) 0 l espressione x (m) x (m 1) h[x(m 1) ] h [x (m 1) ] (5.40) Nel caso della (5.39), detta U 1 ( ˆβ (m 1) ) la matrice delle derivate seconde, di generico elemento (j, k)-esimo 2 l(y, θ)/ β j β k β ˆβ(m 1) per j, k 1,..., p, la m-esima approssimazione della soluzione del sistema derivante dall applicazione del metodo della massima verosimiglianza è data da ˆβ (m) ˆβ (m 1) [U 1 ( ˆβ (m 1) )] 1 U( ˆβ (m 1) ) (5.41) Metodo di scoring Un metodo iterativo alternativo per risolvere le equazioni di verosimiglianza si ottiene sostituendo nel metodo di Newton Raphson la matrice delle derivate seconde U 1 con il suo valore atteso, ovvero con la matrice di elemento generico [ 2 ] l E E[U(β j )U(β k )] I(β) jk j, k 1,..., p (5.42) β j β k Quindi detta I( ˆβ (m 1) ) la matrice informazione calcolata in corrispondenza di β ˆβ (m 1), si ha che l approssimazione della soluzione m-esima è data da ˆβ (m) ˆβ (m 1) + [I( ˆβ (m 1) )] 1 U( ˆβ (m 1) ) (5.43) ovvero I( ˆβ (m 1) ) ˆβ (m) I( ˆβ (m 1) ) ˆβ (m 1) + U( ˆβ (m 1) ) (5.44) Poiché in questo caso l elemento generico della matrice informazione è dato da [ ] li l i I(β) jk E[U(β j )U(β k )] E β i1 j β k [ (y i µ i ) 2 ( ) ] X ij X 2 ik µi E [var(y i1 i )] 2 η i ( ) X ij X 2 ik µi (5.45) var(y i ) η i i1
9 Cap. 5: Modelli lineari generalizzati 87 allora il generico elemento j-esimo del vettore I( ˆβ (m 1) ) ˆβ (m 1) +U( ˆβ (m 1) ) può essere espresso per j 1,..., p nel modo seguente p ( ) X ij X 2 ik µi (y ˆβ(m 1) i µ i )X ij var(y i ) η k + (5.46) i var(y i ) η i k1 i1 ovvero complessivamente la (5.44) diventa dove i1 X W X ˆβ (m) X W Z (5.47) ( ( ) 1 2 ( ) ) µ1 1 2 µn W diag,..., var(y 1 ) η 1 var(y n ) η n e Z (z 1,..., z n ), con z i p h1 (5.48) X ih ˆβ(m 1) + (y i µ i ) η i (5.49) Nelle due espressioni precedenti si intende che µ i dipende da β ˆβ (m 1). L espressione (5.47) che definisce il metodo iterativo di scoring ricorda l equazione normale del metodo dei minimi quadrati ponderati applicato al modello lineare generale. Il precedente sistema di equazioni va comunque risolto iterativamente poiché sia Z che W dipendono da ˆβ (m 1). In conclusione gli stimatori di massima verosimiglianza per i modelli lineari generalizzati possono essere ottenuti risolvendo iterativamente il metodo dei minimi quadrati ponderati. In genere un approssimazione iniziale ˆβ (0) è utilizzata per valutare Z e W, quindi si stima ˆβ (1). Dall equazione suddetta si ottengono nuovi valori per Z e W e così via sinchè non si raggiunge un adeguata convergenza, ovvero sino a quando la differenza tra due successive approssimazioni ˆβ (m) e ˆβ (m+1) non sia sufficientemente piccola. I metodi di scoring e di Newton Raphson coincidono nel caso di funzioni link canoniche. 5.4 Distribuzione campionaria degli stimatori Se lo stimatore ˆβ può essere assunto prossimo al valore del parametro β allora il calcolo dell espansione in serie di Taylor del primo ordine del vettore U(β) nel punto β ˆβ porta a U(β) U( ˆβ) + U 1 ( ˆβ)(β ˆβ) (5.50)
10 88 A. Pollice - Statistica Multivariata Al divergere dell ampiezza campionaria si può assumere che U 1 (β) e il suo valore atteso coincidano, quindi, poiché E[U 1 (β)] I(β) ed U( ˆβ) 0 essendo ˆβ stimatore di massima verosimiglianza, dalla (5.50) si ottiene ( ˆβ β) I 1 (β)u(β) (5.51) ammesso che I(β) sia non singolare. Inoltre, prendendo il valore atteso di ambo i membri della (5.51), poiché E[U(β)] 0, ˆβ risulta essere uno stimatore asintoticamente corretto di β. La matrice di varianze e covarianze di ˆβ è invece data da E[( ˆβ β)( ˆβ β) ] E[I 1 (β)u(β)u (β)i 1 (β)] I 1 (β)e[u(β)u (β)]i 1 (β) I 1 (β) (5.52) In conclusione per campioni numerosi si considera l approssimazione ovvero ˆβ β N p ( o, I 1 (β) ) (5.53) ( ˆβ β) I(β)( ˆβ β) χ 2 p (5.54) L ultima statistica detta statistica di Wald viene utilizzata per le inferenze sul vettore β dei parametri del modello. 5.5 Verifica dell adeguatezza del modello L adeguatezza di un modello lineare generalizzato nel descrivere la dipendenza all interno di un certo data-set può essere valutata confrontandone la verosimiglianza con quella di un modello massimale o saturato, ovvero di un modello lineare generalizzato basato sulla stessa forma distributiva e con la stessa funzione link del modello di interesse, ma il cui numero di parametri coincide con la numerosità n del collettivo. Pertanto, avendo fissato l assunzione distributiva e la funzione link, il modello massimale fornisce la descrizione più completa della dipendenza presente nei dati a disposizione. A tal fine può considerarsi il test del rapporto di verosimiglianze generalizzato ottenuto facendo il rapporto tra la massima verosimiglianza riferita al modello corrente e quella riferita al modello saturato λ L( ˆβ, y) L( ˆβ max, y) (5.55)
11 Cap. 5: Modelli lineari generalizzati 89 La sua distribuzione asintotica è ottenuta tramite l approssimazione di Wilks (3.23) con n p gradi di libertà. La statistica D 2 log λ 2[l( ˆβ, y) l( ˆβ max, y)] è denominata da Nelder e Wedderburn (1972) devianza. Quando l ipotesi distributiva è quella di normalità delle Y i, la distribuzione di D è esattamente (e non asintoticamente) χ 2 n p. Infine la devianza rappresenta la misura del miglior adattamento del modello saturato rispetto a quello con p < n variabili esplicative. 5.6 Quasi verosimiglianza (cenni) E questo un metodo di stima applicabile senza effettuare assunzioni distributive. La funzione di quasi verosimiglianza viene utilizzata per produrre stimatori con caratteristiche simili a quelle degli stimatori di massima verosimiglianza e funzioni test simili a quelle ottenute tramite il rapporto di verosimiglianze. Le assunzioni alla base di questo metodo non riguardano l intera distribuzione delle osservazioni, ma piuttosto i suoi momenti secondi (come nel caso dei minimi quadrati ordinari): (i) E(Y i ) µ i i 1,..., n (ii) µ i g 1 (X iβ) i 1,..., n (iii) cov(y ) σ 2 Ω(µ) essendo σ 2 ed Ω(µ) rispettivamente un parametro di dispersione ed una matrice n n di funzioni note di µ i per i 1,..., n. In questo caso per pervenire a una stima del vettore β dei parametri del modello si utilizza il metodo dei minimi quadrati ponderati che consiste nell individuare il vettore β che minimizza la forma quadratica [Y g 1 (X β)] [Ω(µ)] 1 [Y g 1 (X β)] (5.56) il che darebbe luogo, se Ω(µ) non dipendesse da β, alle equazioni di stima D [Ω(µ)] 1 [Y g 1 (X ˆβ)] o (5.57) dove con D si è indicata la matrice n p di elemento generico / β j. Poiché invece Ω(µ) dipende da β, la soluzione delle equazioni di stima, dette
12 90 A. Pollice - Statistica Multivariata in tal caso equazioni di quasi verosimiglianza, non porta alla minimizzazione della forma quadratica suddetta. Tuttavia se si indica la cosiddetta funzione di quasi verosimiglianza con q(β) D [Ω(µ)] 1 [Y g 1 (X β)] (5.58) si può dimostrare che valgono le seguenti tre proprietà (i) (ii) (iii) E[q(β)] o E[q (β)] D [Ω(µ)] 1 D σ 2 D [Ω(µ)] 1 D Cov[q(β)] Quindi, confrontando la (i) con la Proprietà 5.2 e la (ii) e la (iii) con la Proprietà 5.3 si può concludere che prescindendo dal fattore costante σ 2, la funzione q(β) si comporta in modo analogo alla funzione score dal punto di vista dei primi due momenti. Si può dimostrare che le proprietà appena viste implicano la consistenza e la normalità asintotica degli stimatori ˆβ ottenuti come soluzione dell equazione q( ˆβ) o. Inoltre se è possibile ricavare in forma esplicita una funzione l(β) tale che valga l(β) q(β) (5.59) β essa è detta funzione di quasi log-verosimiglianza e può essere utilizzata in modo simile ad una normale funzione di log-verosimiglianza (per costruire intervalli di confidenza e funzioni test).
Modelli lineari generalizzati
Modelli lineari generalizzati Estensione del modello lineare generale Servono allo studio della dipendenza in media di una variabile risposta da una o più variabili antecedenti Vengono attenuate alcune
MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,
MODELLO DI REGRESSIONE LINEARE le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza, teorema di Gauss-Markov, verifica di ipotesi e test di
Statistica Applicata all edilizia: il modello di regressione
Statistica Applicata all edilizia: il modello di regressione E-mail: [email protected] 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione
0 altimenti 1 soggetto trova lavoroentro 6 mesi}
Lezione n. 16 (a cura di Peluso Filomena Francesca) Oltre alle normali variabili risposta che presentano una continuità almeno all'interno di un certo intervallo di valori, esistono variabili risposta
Analisi delle corrispondenze
Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello
Statistica Metodologica Avanzato Test 1: Concetti base di inferenza
Test 1: Concetti base di inferenza 1. Se uno stimatore T n è non distorto per il parametro θ, allora A T n è anche consistente B lim Var[T n] = 0 n C E[T n ] = θ, per ogni θ 2. Se T n è uno stimatore con
Analisi della correlazione canonica
Analisi della correlazione canonica Su un collettivo di unità statistiche si osservano due gruppi di k ed m variabili L analisi della correlazione canonica ha per obiettivo lo studio delle relazioni di
Elementi di statistica per l econometria
Indice Prefazione i 1 Teoria della probabilità 1 1.1 Definizioni di base............................. 2 1.2 Probabilità................................. 7 1.2.1 Teoria classica...........................
lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1
lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,
Variabili casuali multidimensionali
Capitolo 1 Variabili casuali multidimensionali Definizione 1.1 Le variabili casuali multidimensionali sono k-ple ordinate di variabili casuali unidimensionali definite sullo stesso spazio di probabilità.
Analisi della correlazione canonica
Capitolo 8 Analisi della correlazione canonica Si supponga che su un collettivo di unità statistiche si siano osservati due gruppi di k ed m variabili corrispondenti ad altrettanti aspetti di un fenomeno
Dispensa di Statistica
Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza
Il modello di regressione lineare multipla. Il modello di regressione lineare multipla
Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa
UNIVERSITÀ DEGLI STUDI DI PERUGIA
SIGI, Statistica II, esercitazione n. 3 1 UNIVERSITÀ DEGLI STUDI DI PERUGIA FACOLTÀ DI ECONOMIA CORSO DI LAUREA S.I.G.I. STATISTICA II Esercitazione n. 3 Esercizio 1 Una v.c. X si dice v.c. esponenziale
VIII Indice 2.6 Esperimenti Dicotomici Ripetuti: Binomiale ed Ipergeometrica Processi Stocastici: Bernoul
1 Introduzione alla Teoria della Probabilità... 1 1.1 Introduzione........................................ 1 1.2 Spazio dei Campioni ed Eventi Aleatori................ 2 1.3 Misura di Probabilità... 5
(a) Determinare lo stimatore di massima verosimiglianza θ di θ. (b) Calcolare la funzione di score e l informazione di Fisher.
Statistica Matematica, Anno Accademico 216/17, 27 Gennaio 217 ESERCIZIO 1 Siano X 1, X 2, X 3 variabili aleatorie indipendenti con legge X 1 Gamma(3,2), X 2 Gamma(5,1) e X 3 Gamma(4,3) Determinare la funzione
Stima puntuale di parametri
Probabilità e Statistica Esercitazioni a.a. 006/007 C.d.L.: Ingegneria per l Ambiente ed il Territorio, Ingegneria Civile, Ingegneria Gestionale, Ingegneria dell Informazione C.d.L.S.: Ingegneria Civile
STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo
STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)
Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica
Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 8 Intervalli di confidenza Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università
Statistica ARGOMENTI. Calcolo combinatorio
Statistica ARGOMENTI Calcolo combinatorio Probabilità Disposizioni semplici Disposizioni con ripetizione Permutazioni semplici Permutazioni con ripetizioni Combinazioni semplici Assiomi di probabilità
La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.
Lezione 14 (a cura di Ludovica Peccia) MULTICOLLINEARITA La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative. In un modello di regressione Y= X 1, X 2, X 3
Analisi delle corrispondenze
Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza
PROBABILITÀ ELEMENTARE
Prefazione alla seconda edizione XI Capitolo 1 PROBABILITÀ ELEMENTARE 1 Esperimenti casuali 1 Spazi dei campioni 1 Eventi 2 Il concetto di probabilità 3 Gli assiomi della probabilità 3 Alcuni importanti
Capitolo 6. La distribuzione normale
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 6 La distribuzione normale Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università
Statistica Metodologica
Statistica Metodologica Esercizi di Probabilita e Inferenza Silvia Figini e-mail: [email protected] Problema 1 Sia X una variabile aleatoria Bernoulliana con parametro p = 0.7. 1. Determinare la media
Capitolo 6 La distribuzione normale
Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 6 La distribuzione normale Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università
Metodi computazionali per i Minimi Quadrati
Metodi computazionali per i Minimi Quadrati Come introdotto in precedenza si considera la matrice. A causa di mal condizionamenti ed errori di inversione, si possono avere casi in cui il e quindi S sarebbe
TEORIA DEI SISTEMI ANALISI DEI SISTEMI LTI
TEORIA DEI SISTEMI Laurea Specialistica in Ingegneria Meccatronica Laurea Specialistica in Ingegneria Gestionale Indirizzo Gestione Industriale TEORIA DEI SISTEMI ANALISI DEI SISTEMI LTI Ing. Cristian
Appunti su Indipendenza Lineare di Vettori
Appunti su Indipendenza Lineare di Vettori Claudia Fassino a.a. Queste dispense, relative a una parte del corso di Matematica Computazionale (Laurea in Informatica), rappresentano solo un aiuto per lo
STATISTICA: esercizi svolti sulle VARIABILI CASUALI
STATISTICA: esercizi svolti sulle VARIABILI CASUALI VARIABILI CASUALI 2 VARIABILI CASUALI. Variabili casuali generiche. Si supponga che un dado truccato, formato da sei facce contrassegnate dai numeri
Calcolo delle Probabilità 2
Prova d esame di Calcolo delle Probabilità 2 Maggio 2006 Sia X una variabile aleatoria distribuita secondo la densità seguente ke x 1 x < 0 f X (x) = 1/2 0 x 1. 1. Determinare il valore del parametro reale
Università della Calabria
Università della Calabria FACOLTA DI INGEGNERIA Corso di Laurea in Ingegneria Civile CORSO DI IDROLOGIA N.O. Prof. Pasquale Versace SCHEDA DIDATTICA N 3 CURVE DI PROBABILITÀ PLUVIOMETRICA A.A. 00- CURVE
Esercitazione 8 maggio 2014
Esercitazione 8 maggio 2014 Esercizio 2 dal tema d esame del 13.01.2014 (parte II). L età media di n gruppo di 10 studenti che hanno appena conseguito la laurea triennale è di 22 anni. a) Costruire un
STATISTICA ESERCITAZIONE
STATISTICA ESERCITAZIONE Dott. Giuseppe Pandolfo 1 Giugno 2015 Esercizio 1 Una fabbrica di scatole di cartone evade il 96% degli ordini entro un mese. Estraendo 300 campioni casuali di 300 consegne, in
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è
Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.
Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:
Esercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
Politecnico di Milano - Scuola di Ingegneria Industriale. II Prova in Itinere di Statistica per Ingegneria Energetica 25 luglio 2011
Politecnico di Milano - Scuola di Ingegneria Industriale II Prova in Itinere di Statistica per Ingegneria Energetica 25 luglio 2011 c I diritti d autore sono riservati. Ogni sfruttamento commerciale non
Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione
Statistica Esercitazione alessandro polli facoltà di scienze politiche, sociologia, comunicazione Obiettivo Esercizio 1. Questo e alcuni degli esercizi che proporremo nei prossimi giorni si basano sul
Sviluppi e derivate delle funzioni elementari
Sviluppi e derivate delle funzioni elementari In queste pagine dimostriamo gli sviluppi del prim ordine e le formule di derivazioni delle principali funzioni elementari. Utilizzeremo le uguaglianze lim
Esercitazioni di Statistica
Esercitazioni di Statistica Stima Puntuale Prof. Livia De Giovanni [email protected] Esercizio In ciascuno dei casi seguenti determinare quale tra i due stimatori S e T per il parametro θ è distorto
Test per l omogeneità delle varianze
Test per l omogeneità delle varianze Le carte di controllo hanno lo scopo di verificare se i campioni estratti provengono da un processo produttivo caratterizzato da un unico valore dello s.q.m. σ. Una
4. Si supponga che il tempo impiegato da una lettera spedita dall Italia per arrivare a destinazione segua una distribuzione normale con media
Esercizi sulle distribuzioni, il teorema limite centrale e la stima puntuale Corso di Probabilità e Inferenza Statistica, anno 007-008, Prof. Mortera 1. Sia X la durata in mesi di una valvola per radio.
IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA
Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale
Il campionamento e l inferenza. Il campionamento e l inferenza
Il campionamento e l inferenza Popolazione Campione Dai dati osservati mediante scelta campionaria si giunge ad affermazioni che riguardano la popolazione da cui essi sono stati prescelti Il campionamento
Esercizi svolti di statistica. Gianpaolo Gabutti
Esercizi svolti di statistica Gianpaolo Gabutti ([email protected]) 1 Introduzione Questo breve documento contiene lo svolgimento di alcuni esercizi di statistica da me svolti durante la preparazione
PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 2006/07
PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 006/07 Esercizio 1 Prova scritta del 16/1/006 In un ufficio postale lavorano due impiegati che svolgono lo stesso compito in maniera indipendente, sbrigando
Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari"
Levine, Krehbiel, Berenson Statistica Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari" Unità Integrata Organizzativa
Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.
5 STIMA PUNTUALE DEI PARAMETRI [Adattato dal libro Excel per la statistica di Enzo Belluco] Sia θ un parametro incognito della distribuzione di un carattere in una determinata popolazione. Il problema
05. Errore campionario e numerosità campionaria
Statistica per le ricerche di mercato A.A. 01/13 05. Errore campionario e numerosità campionaria Gli schemi di campionamento condividono lo stesso principio di fondo: rappresentare il più fedelmente possibile,
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative
REGRESSIONE E CORRELAZIONE
REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.
Statistical Process Control
Statistical Process Control ESERCIZI II Esercizio 1. Una ditta che produce schermi a cristalli liquidi deve tenere in controllo il numero di pixel non funzionanti. Vengono ispezionati venti schermi alla
Intervallo di confidenza
Intervallo di confidenza Prof. Giuseppe Verlato, Prof. Roberto de Marco Sezione di Epidemiologia e Statistica Medica, Università di Verona campione inferenza popolazione Media Riportare sempre anche Stima
Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura
INDICE GENERALE Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura XI XIV XV XVII XVIII 1 LA RILEVAZIONE DEI FENOMENI
LE DISTRIBUZIONI CAMPIONARIE
LE DISTRIBUZIONI CAMPIONARIE Argomenti Principi e metodi dell inferenza statistica Metodi di campionamento Campioni casuali Le distribuzioni campionarie notevoli: La distribuzione della media campionaria
ẋ 1 = 2x 1 + (sen 2 (x 1 ) + 1)x 2 + 2u (1) y = x 1
Alcuni esercizi risolti su: - calcolo dell equilibrio di un sistema lineare e valutazione delle proprietà di stabilità dell equilibrio attraverso linearizzazione - calcolo del movimento dello stato e dell
Corso di Calcolo Numerico
Corso di Calcolo Numerico Dott.ssa M.C. De Bonis Università degli Studi della Basilicata, Potenza Facoltà di Ingegneria Corso di Laurea in Ingegneria Meccanica Risoluzione di Equazioni Algebriche Le equazioni
Distribuzioni campionarie
1 Inferenza Statistica Descrittiva Distribuzioni campionarie Statistica Inferenziale: affronta problemi di decisione in condizioni di incertezza basandosi sia su informazioni a priori sia sui dati campionari
Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016
Esame di Statistica 0 o CFU) CLEF febbraio 06 Esercizio Si considerino i seguenti dati, relativi a 00 clienti di una banca a cui è stato concesso un prestito, classificati per età e per esito dell operazione
SOLUZIONI ESERCITAZIONE NR. 8 Test statistici
SOLUZIONI ESERCITAZIONE NR. 8 Test statistici ESERCIZIO nr. 1 Un campione casuale di dieci pazienti di sesso maschile in cura per comportamenti aggressivi nell ambito del contesto familiare è stato classificato
Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva
Probabilità classica Distribuzioni e leggi di probabilità La probabilità di un evento casuale è il rapporto tra il numero dei casi favorevoli ed il numero dei casi possibili, purchè siano tutti equiprobabili.
ESERCIZI EPOS. { C x 3 (1 x) 0 x 1 0 altrove
ESERCIZI EPOS 1. Sia X una v.c. con densità f X (x) = { C x 3 (1 x) 0 x 1 0 altrove (a) Determinare il valore della costante C (b) Calcolare la funzione di ripartizione F X (x) (c) Calcolare P (X > 1/2)
Statistica Descrittiva Soluzioni 6. Indici di variabilità, asimmetria e curtosi
ISTITUZIONI DI STATISTICA A A 2007/2008 Marco Minozzo e Annamaria Guolo Laurea in Economia del Commercio Internazionale Laurea in Economia e Amministrazione delle Imprese Università degli Studi di Verona
Matematica Applicata L-A Definizioni e teoremi
Definizioni e teoremi Settembre - Dicembre 2008 Definizioni e teoremi di statistica tratte dalle lezioni del corso di Matematica Applicata L- A alla facoltà di Ingegneria Elettronica e delle Telecomunicazioni
Problema. Equazioni non lineari. Metodo grafico. Teorema. Cercare la soluzione di
Problema Cercare la soluzione di Equazioni non lineari dove Se è soluzione dell equazione, cioè allora si dice RADICE o ZERO della funzione Metodo grafico Graficamente si tratta di individuare l intersezione
Premessa: la dipendenza in media
Premessa: la dipendenza in media Supponiamo di avere K diversi livelli di un fattore che potrebbero influire su una determinata variabile. Per esempio supponiamo di domandarci se la diversificazione (intesa
STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE
STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 2 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1.1
Richiami di algebra delle matrici a valori reali
Richiami di algebra delle matrici a valori reali Vettore v n = v 1 v 2. v n Vettore trasposto v n = (v 1, v 2,..., v n ) v n = (v 1, v 2,..., v n ) A. Pollice - Statistica Multivariata Vettore nullo o
Funzioni implicite - Esercizi svolti
Funzioni implicite - Esercizi svolti Esercizio. È data la funzione di due variabili F (x, y) = y(e y + x) log x. Verificare che esiste un intorno I in R del punto di ascissa x 0 = sul quale è definita
I teoremi della funzione inversa e della funzione implicita
I teoremi della funzione inversa e della funzione implicita Appunti per il corso di Analisi Matematica 4 G. Mauceri Indice 1 Il teorema della funzione inversa 1 Il teorema della funzione implicita 3 1
MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,
MODELLO DI REGRESSIONE LINEARE le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza, teorema di Gauss-Markov, verifica di ipotesi e test di
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri
INTERPOLAZIONE. Introduzione
Introduzione INTERPOLAZIONE Quando ci si propone di indagare sperimentalmente la legge di un fenomeno, nel quale intervengono due grandezze x, y simultaneamente variabili, e una dipendente dall altra,
Analisi della varianza: I contrasti e il metodo di Bonferroni
Analisi della varianza: I contrasti e il metodo di Bonferroni 1 Contrasti In molti problemi risulta importante stabilire, nel caso venga rifiutata l ipotesi nulla, di uguaglianza delle medie µ j delle
Variabili casuali. - di Massimo Cristallo -
Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013 lezioni di statistica del 16 e 27 maggio 2013 - di Massimo Cristallo - Variabili casuali
CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 4
CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 4 Dott.ssa Antonella Costanzo [email protected] Esercizio 1. Stimatore media campionaria Il tempo in minuti necessario a un certo impiegato dell anagrafe
3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
LEZIONE 12. v = α 1 v α n v n =
LEZIONE 12 12.1. Combinazioni lineari. Definizione 12.1.1. Sia V uno spazio vettoriale su k = R, C e v 1,..., v n V vettori fissati. Un vettore v V si dice combinazione lineare di v 1,..., v n se esistono
DISTRIBUZIONI DI PROBABILITA
DISTRIBUZIONI DI PROBABILITA La distribuzione di probabilità e un modello matematico, uno schema di riferimento, che ha caratteristiche note e che può essere utilizzato per rispondere a delle domande derivate
Il modello di regressione lineare multipla con regressori stocastici
Università di Pavia Il modello di regressione lineare multipla con regressori stocastici Eduardo Rossi Il valore atteso condizionale Modellare l esperimento casuale bivariato nel quale le variabili casuali
Massimi e minimi vincolati
Massimi e minimi vincolati Vedremo tra breve un metodo per studiare il problema di trovare il minimo e il massimo di una funzione su di un sottoinsieme dello spazio ambiente che non sia un aperto. Abbiamo
UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI INGEGNERIA AEROSPAZIALE D.I.A.S. STATISTICA PER L INNOVAZIONE. a.a.
UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI INGEGNERIA AEROSPAZIALE D.I.A.S. STATISTICA PER L INNOVAZIONE a.a. 2007/2008 1,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,00 CDF empirica
Note sulla probabilità
Note sulla probabilità Maurizio Loreti Dipartimento di Fisica Università degli Studi di Padova Anno Accademico 2002 03 1 La distribuzione del χ 2 0.6 0.5 N=1 N=2 N=3 N=5 N=10 0.4 0.3 0.2 0.1 0 0 5 10 15
Regressione Lineare e Regressione Logistica
Regressione Lineare e Regressione Logistica Stefano Gualandi Università di Pavia, Dipartimento di Matematica email: twitter: blog: [email protected] @famo2spaghi http://stegua.github.com 1 Introduzione
CONTROLLO DI SISTEMI ROBOTICI Laurea Specialistica in Ingegneria Meccatronica
CONTROLLO DI SISTEMI ROBOTICI Laurea Specialistica in Ingegneria Meccatronica CONTROLLO DI SISTEMI ROBOTICI ANALISI DEI SISTEMI LTI Ing. Tel. 0522 522235 e-mail: [email protected] http://www.dismi.unimo.it/members/csecchi
Distribuzioni e inferenza statistica
Distribuzioni e inferenza statistica Distribuzioni di probabilità L analisi statistica spesso studia i fenomeni collettivi confrontandoli con modelli teorici di riferimento. Tra di essi, vedremo: la distribuzione
Corso di Statistica Industriale
Corso di Statistica Industriale Corsi di Laurea Specialistica in Ingegneria Gestionale e Ingegneria Meccanica Docente: Ilia Negri Orario del corso: Martedì: dalle 14.00 alle 16.00 Venerdì: dalle 10.30
