Regressione multipla
|
|
|
- Italo Rizzo
- 8 anni fa
- Просмотров:
Транскрипт
1 Regressione multipla L obiettivo è costruire un modello probabilistico per spiegare la variabile y tramite più di una variabile indipendente x 1, x 2,..., x k. Esempio: Per un efficiente progettazione degli inceneritori di rifiuti municipali è necessario che l informazione relativa al contenuto di energia dei rifiuti sia disponibile. Abbiamo a disposizione 30 campioni di rifiuti di una certa regione per i quali abbiamo i valori delle variabili y contenuto di energia (Kcal/kg), x 1 % di plastica sul peso, x 2 % di carta sul peso, x 3 % di altri rifiuti organici sul peso, x 4 % di umidità sul totale del campione esaminato. Il modello proposto potrebbe essere Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε, (1) Occorre capire quali variabili servono a spiegare la variabile di interesse (selezione delle variabili) e in che misura vi contribuisce. 1
2 Plastics Paper Garbage Water Energy.content 2
3 Analisi della correlazione tra le variabili Calcoliamo la matrice di correlazione tra le variabili in gioco. dell esempio abbiamo: Per i dati Plastics Paper Garbage Water Energy.content Plastics Paper Garbage Water Energy.content Come regola generale è bene che entrino nel modello le variabili maggiormente correlate con la variabile da spiegare e le meno incorrelate tra loro. In questo caso potremmo considerare un modello in cui entrino solo le variabili Water e Plastics 3
4 Scatter Plot Matrix Plastics Paper Garbage Water Energy.content
5 Consideriamo il modello generale Y = β 0 + β 1 x β k x k + ε, (2) Posto θ = (β 0, β 1,..., β k ) se abbiamo n osservazioni possiamo riscrivere le n equazioni (2) in forma matriciale Y = Xθ + ɛ 1 x x 1k dove Y = (Y 1,..., Y n ) 1 x, X = x 2k , ɛ = (ε 1,..., ε n ). La stima 1 x n1... x nk ottenuta coi minimi quadrati (OLS=Ordinary Least Squares) è data da ˆθ = (X X) 1 X Y dove Y = (y 1,..., y n ). In seguito p = k + 1 è il numero dei parametri. La stima OLS si ottiene se solo se XX è invertibile, cioè se e solo se la matrice X ha rango massimo p. 5
6 Le osservazioni y = (y 1,..., y n ) provengono dal modello Y i = x i β + ε i Y i variabile casuale dipendente x i = [1, x i1, x i2,..., x ik ] vettore dei regressori (deterministici o stocastici) β = [ β 0, β 1, β 2,..., β k ] vettore dei parametri ε i : componente stocastica di valore atteso nullo FUNZIONE DI REGRESSIONE E(Y i x i ) = x i β 6
7 Y = Xβ + ɛ X = x 1 x 2 matrice n p dei regressori x n Y = Y 1 Y 2 vettore delle variabili risposta Y n ɛ = ε 1 ε 2.. ε n vettore delle componenti stocastiche 7
8 ASSUNZIONI DEL MODELLO DI REGRESSIONE LINEARE CLASSICO A0: la funzione di regressione E(Y X) = Xβ è correttamente specificata A1: ɛ è un vettore di n variabili casuali indipendenti A2: le componenti di ɛ sono variabili casuali di valore atteso nullo e varianza σ 2 (omoschedastiche) A3: le componenti di ɛ sono variabili casuali normali A4: X è una matrice di costanti note (regressori non stocastici) A5: le colonne di X sono linearmente indipendenti =: X X è invertibile 8
9 STIMA di β, σ 2 Da Y i = x i β + ε i e per le A1, A2, A3, A4 si ha che le Y i sono variabili casuali indipendenti normali con valore atteso µ i = x i β e varianza σ2. La verosimiglianza è: L(β, σ 2 ) = e la log verosimiglianza: n i=1 { 1 2πσ 2 exp 1 } 2σ 2(y i x i β)2 L(β, σ 2 ) = n 2 ln(2πσ2 ) 1 2σ 2 (y i x i β)2 = = n 2 ln(2πσ2 ) 1 2σ 2 (y Xβ) (y Xβ) se σ 2 è noto massimizzare la log verosimiglianza equivale a minimizzare (CRITERIO DEI MINIMI QUADRATI): Q(β) = (y Xβ) (y Xβ) i 9
10 RISULTATO FONDAMENTALE Q(β) = (y Xβ) (y Xβ) ha un unico minimo in b = ( X X ) 1 X y È importante notare che: y Xb = y X ( X X ) 1 X y = (I n M) y dove M = X ( X X ) 1 X è una matrice n n idempotente (M = MM). Quindi anche (I n M) è idempotente. Ne consegue SSE = Q(b) = (y Xb) (y Xb) = = y (I T M) y = y y y My = = y y y X ( X X ) 1 X y = y y y Xb 10
11 Ovvero più semplicemente (ma non per i calcoli) SSE = Q(b) = i (y i x i b)2 = i y 2 i i y i x i b Verosimiglianza concentrata Sostituendo b a β nella log verosimiglianza si ottiene la log verosimiglianza concentrata: L(σ 2 ) = n 2 ln(2πσ2 ) 1 2σ 2Q(b) che ha un massimo in ˆσ 2 = Q(b) n. CONCLUDENDO: gli stimatori M.V. sono ˆσ 2 = Q(b) n b= ( X X ) 1 X y 11
12 Esempio: Nel caso dell esempio presentato le stime dei parametri del modello con le quattro variabili sono contenute nella seguente tabella. Estimate Std. Error t value Pr(> t ) (Intercept) Plastics Paper Garbage Water La matrice di varianza e covarianza dei parametri è Σ(θ) = (X X) 1 σ 2. La stima di tale matrice la si ottiene stimando σ 2 con s 2 = SSE n p, dove SSE = (y i ŷ i ) 2. ˆ Σ(θ) = (X X) 1 s 2 = c 00 c c 0k c 10 c c 1k c k0 c k1... c kk I termini sulla diagonale principale della matrice (X X) 1 s 2 sono la stima di V ar(θ). Std.Error è la radice quadrata di questi termini. 12
13 Verifica di ipotesi per la significatività dei singoli parametri Sotto le ipotesi che ε i N(0, σ 2 ) i.i.d. si deduce che lo stimatore dei parametri θ è uno stimatore non distorto, cioè E(θ) = θ, la matrice di varianza e covarianza è data da Σ(θ) la cui stima è data da ˆΣ(θ), e inoltre ogni stimatore ˆβ i è gaussiano. Se si vuole quindi verificare l ipotesi contro l alternativa H 0 : β i = 0 H 1 : β i 0 da questi fatti si deduce che la statistica t i = ˆβ cii i, sotto l ipotesi nulla β i = 0, è una t-student con n p g.d.l dove c ii è l elemento sulla diagonale della matrice (X X) 1 s 2. Quindi, fissato un livello di fiducia α, si rifiuta l ipotesi H 0 se t i > t 1 α 2,n p. 13
14 Il p-value, questo sconosciuto Quasi tutti i software statistici non ci dicono se accettare o rifiutare l ipotesi nulla, ma ci danno il p-value! Cerchiamo di capire cosa è. Indichiamo solo per il momento con T i la statistica e con t i il valore calcolato sui dati. Allora p-value = P ( T i > t i ) Quindi il p-value non è altro che la probabilità con cui la statistica (T i ) può assumere valori più elevati di quello osservato (t i ).La regola di rifiuto dell ipotesi H 0 è: Rifiuto H 0 se t i > t 1 α 2,n p. Il valore di t 1 α 2,n p è ricavato da P ( T i > t 1 α 2,n p ) = α Si deduce che per α fissato noi rifiutiamo l ipotesi nulla se il p-value è minore di α 14
15 Dalla tabella possiamo effettuare la verifica di ipotesi per la significatività di ogni parametro singolarmente. I valori della statistica t i sono riportati nella penultima colonna della tabella. Mentre i valori del p-value sono riportati nell ultima colonna. Estimate Std. Error t value Pr(> t ) (Intercept) Plastics Paper Garbage Water Supponiamo di avere fissato il l.d.s. α = Tutti i parametri sono significativamente diversi da zero. Se invece α = 0.01, β 1, β 2 e β 4 sono significativamente diversi da zero mentre β 3 non lo è. Per α = solo β 1 e β 4 sono diversi da zero. 15
16 test F per la significatività del modello Per verificare la significatività dell intero modello si utilizza il test F. Si vuole verificare l ipotesi H 0 : β 1 = 0,..., β k = 0 contro l alternativa che almeno uno dei parametri sia diverso da zero. La devianza totale ammette sempre la scomposizione SST = SSE + SSR e sotto l ipotesi che gli errori siano N(0, σ 2 ) vale che La statistica F = SST = (Y i Ȳ ) 2 σ 2 χ 2 n 1 SSE = (Y i Ŷ i ) 2 σ 2 χ 2 n p SSR = (Ŷ i Ȳ i ) 2 σ 2 χ 2 p 1 (Ŷi Ȳ ) 2 /(p 1) (Yi Ŷ i ) 2 /(n p) = SSR/(p 1) SSE/(n p) se è vera H 0, si distribuisce come una F di Snedecor con p 1 e n p g.d.l, e può essere utilizzata per verificare la significatività del modello. Infatti si decide di rifiutare l ipotesi nulla se F > c e per determinare c, fissato α si pone P (F > c) = α. Quindi dalle tavole della distribuzione F si trova il valore c α tale per cui P (F > c α ) = α. 16
17 Df Sum Sq Df SSR F Pr(>F) Totale Residui Il valore della statistica F 4,25 è SSR/(p 1) F = SSE/(n p) = / /25 = Il p-value < 2.2e-16. Quindi il modello è significativo. L indice di determinazione multiplo è dato da r 2 = 1 SSE SST. Nel caso del modello stimato vale r 2 = Interessa poi sapere come l aggiunta di più variabili nel modello riesca a spiegare la variabilità totale della variabile da spiegare. Si calcola allora la SSR(1) per il modello con una sola variabile, la SSR(2) del modello con due variabili e così via. Allora la differenza SSR(2) SSR(1) ha il significato di quanta variabilità il secondo modello riesce a spiegare in più rispetto al primo. In generale SSR(j) SSR(j 1) SSE/(n p) F 1,n p, j = 2,..., p 1 17
18 Tavola dell Analisi della Varianza (ANOVA) Df Sum Sq Mean Sq F value Pr(>F) Plastics Paper Garbage Water Residuals Nella prima riga abbiamo la SSR per il modello con solo la prima variabile. Nella seconda abbiamo la differenza tra la SSR del modello con due variabili e il modello con una sola. La statistica F serve per verificare l attendibilità dell aggiunta di questa variabile al modello. Chiaramente ha importanza l ordine con cui le variabili entrano nel modello. Df Sum Sq Mean Sq F value Pr(>F) Water Plastics Paper Garbage Residuals
19 In questa tabella sono riportate le stime cambiando l ordine delle variabili. Estimate Std. Error t value Pr(> t ) (Intercept) Water Plastics Paper Garbage Come indice di adattabilità si utilizza il coefficiente di correlazione multipla r 2 = 1 SSE SST Per bilanciare i costi dovuti all utilizzo di tanti parametri rispetto ai guadagni in r 2 si può usare il coefficiente di correlazione multiplo corretto r 2 corretto = 1 In questo esempio abbiamo (n 1) (n p) SSE SST = (n 1)r2 k n p r 2 = , r 2 corretto =
20 Test F per il modello ridotto Supponiamo di avere il modello completo Vogliamo verificare l ipotesi Y = β 0 + β 1 x 1 + β 2 x β k x k + ε H 0 : β 1 = β 2 =... = β q = 0, q < k Se fosse vera l ipotesi H 0 il modello sarebbe Y = β 0 + β q+1 1x q+1 + β q+2 1x q β k x k + ε Denotiamo con SSR r e SSE r le somme dei quadrati spiegati e residui del modello ridotto. La statistica (SSR SSR r )/q SSE/(n p) = (SSE r SSE)/q SSE/(n p) sotto l ipotesi nulla si distribuisce come una F con q e n p gradi di libertà. 20
21 Con i dati dell esempio andiamo a considerare il modello ridotto solo con le variabili Water e Plastics. L ipotesi H 0 pone i coefficienti delle variabili Garbage e Paper uguali a zero (q = 2). I risultati della stima e dell analisi della varianza sono riassunti da queste tabelle. Estimate Std. Error t value Pr(> t ) (Intercept) Water Plastics Df Sum Sq Mean Sq F value Pr(>F) Water Plastics Residuals Da queste tabelle e da quelle del modello completo deduciamo: SSE r = , SSE =
22 La tabella dell analisi della varianza per il modello ridotto e il modello completo è Df SSE Df Sum of Sq F Pr(>F) Ridotto Completo La terza colonna contiene gli SSE del modello ridotto (con 27 g.d.l.) e del modello completo (con 25 g.d.l.). La colonna Sum of Sq contiene la differenza SSE r SSE e la colonna Df i suoi gradi di libert`a. La statistica F è data da F = (SSE r SSE)/q SSE/(n p) = / /25 = 5.46 Si tratta di una statistica F di Snedecor con 2 e 25 gradi di libertà. Il p-value è pari a Quindi rifiutiamo l ipotesi nulla con un livello di significatività α = 0.05, le variabili Garbage e Paper non possono essere omesse. A livello di significatività α = 0.01 la conclusione sarebbe di accettare H 0 : le variabili Garbage e Paper possono essere omesse. 22
23 Esempio L articolo Measurements of the Thermal Conductivity and Thermal Diffusivity of Polymer Melts with the Short-Hot-Wire Method (X. Zhang, W. Hendro, et al., International Journal of Thermophysics, 2002: ) riporta le misure della conducibilità termica (in W m 1 K 1 ) e della diffusività di alcuni polimeri a diverse temperature (in 1000 C). La tabella seguente presenta i risultati per la conducibilità termica del policarbonato. Cond. Temp. Cond. Temp. Cond. Temp. Cond. Temp Denotata la conducibilità con y e la temperatura con x, troviamo il modello che si adatta meglio a questi dati. 23
24 1. Stimare i parametri del modello lineare y = β 0 + β 1 x + ε. Per ogni parametro verificare l ipotesi che il suo valore sia uguale a Stimare i parametri del modello quadratico y = β 0 + β 1 x + β 2 x 2 + ε. Per ogni parametro verificare l ipotesi che sia uguale a Stimare i parametri del modello cubico y = β 0 + β 1 x + β 2 x 2 + β 3 x 3 + ε. Per ogni parametro verificare l ipotesi che sia uguale a Stimare i parametri del modello alla quarta potenza y = β 0 + β 1 x + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε. Per ogni parametro verificare l ipotesi che sia uguale a Quale dei modelli nelle parti dalla (a) alla (d) è il più appropriato? 6. Utilizzare il modello più appropriato per stimare la conducibilità ad una temperatura di 120 C. 24
25 Conductivity Temperature 25
26 I risultati per la stima del modello lineare sono riportati nella seguente tabella. Estimate Std. Error t value Pr(> t ) (Intercept) Temperature La variabile Temperatura non è significativamente diversa da 0. Il valore di r 2 = denota una bontà di adattamento praticamente nulla. La variabili non sono legate da una relazione lineare. 26
27 I risultati per la stima del modello quadratico sono riportati nella seguente tabella. Estimate Std. Error t value Pr(> t ) (Intercept) Temperature Temperature I parametri di x e di x 2 sono significativamente diversi da 0. r 2 = mentre r 2 corretto vale Il modello sembra adattarsi molto bene ai dati. Verifichiamo che l introduzione del termine quadratico è significativa: Df SSE Df Sum of Sq F Pr(>F) Lineare Quadratico
28 Passiamo al modello cubico. seguente tabella. I risultati per la stima sono riportati nella Estimate Std. Error t value Pr(> t ) (Intercept) Temperature Temperature Temperature È plausibile che i coefficienti di x, x 2 e x 3 siano 0. r 2 = mentre r 2 corretto vale Il modello sembra lo stesso adattarsi molto bene ai dati. Df SSE Df Sum of Sq F Pr(>F) Quadratico e-04 Cubico e e La variabile x 3 può essere omessa. 28
29 Passiamo al modello con la potenza quarta. riportati nella seguente tabella. I risultati per la stima sono Estimate Std. Error t value Pr(> t ) (Intercept) Temperature Temperature Temperature Temperature È plausibile che i coefficienti di x, x 2, x 3 e x 4 siano 0, ma la statisitca F = 28.2 segnala che almeno una delle variabili del modello ha un qualche legame con la variabile y. r 2 = mentre r 2 corretto vale Il modello sembra lo stesso adattarsi molto bene ai dati. Il valore di r 2 corretto è diminuito: non serve aggiungere questa variabile. 29
30 La seguente tavola della varianza conferma che l aggiunta del termine cubico e alla potenza quarta non apporta significativi miglioramenti nella spiegazione della variabilità di y. Df Sum Sq Mean Sq F value Pr(>F) Temperature Temperature Temperature Temperature Residui La stima per la conducibilità per un polimero con temperatura x = 120 è L intervallo di confidenza a livello di fiducia del 95% è ( , ). 30
Statistica Applicata all edilizia: il modello di regressione
Statistica Applicata all edilizia: il modello di regressione E-mail: [email protected] 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione
lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1
lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,
Esercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo
STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)
IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA
Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è
Esercitazione 8 del corso di Statistica 2
Esercitazione 8 del corso di Statistica Prof. Domenico Vistocco Dott.ssa Paola Costantini 6 Giugno 8 Decisione vera falsa è respinta Errore di I tipo Decisione corretta non è respinta Probabilità α Decisione
Metodi di regressione multivariata
Metodi di regressione multivariata Modellamento dei dati per risposte quantitative I metodi di regressione multivariata sono strumenti utilizzati per ricercare relazioni funzionali quantitative tra un
Premessa: la dipendenza in media
Premessa: la dipendenza in media Supponiamo di avere K diversi livelli di un fattore che potrebbero influire su una determinata variabile. Per esempio supponiamo di domandarci se la diversificazione (intesa
Intervalli di confidenza
Probabilità e Statistica Esercitazioni a.a. 2006/2007 C.d.L.: Ingegneria per l Ambiente ed il Territorio, Ingegneria Civile, Ingegneria Gestionale, Ingegneria dell Informazione C.d.L.S.: Ingegneria Civile
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano Strumenti statistici in Excell Pacchetto Analisi di dati Strumenti di analisi: Analisi varianza: ad un fattore Analisi
REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori
REGRESSIONE lineare e CORRELAZIONE Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori Y X La NATURA e la FORZA della relazione tra variabili si studiano con la REGRESSIONE
LEZIONE N. 11 ( a cura di MADDALENA BEI)
LEZIONE N. 11 ( a cura di MADDALENA BEI) F- test Assumiamo l ipotesi nulla H 0 :β 1,...,Β k =0 E diverso dal verificare che H 0 :B J =0 In realtà F - test è più generale H 0 :Aβ=0 H 1 :Aβ 0 A è una matrice
i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente
TEST DI AUTOVALUTAZIONE - SETTIMANA 6 I diritti d autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito. Metodi statistici per la biologia Parte A. La retta di regressione.2
Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII
Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Un breve richiamo sul test t-student Siano A exp (a 1, a 2.a n ) e B exp (b 1, b 2.b m ) due set di dati i cui
Modelli Multilineari e Misure di adeguatezza del modello
Metodi di Analisi dei Dati Sperimentali AA /2010 Pier Luca Maffettone Modelli Multilineari e Misure di adeguatezza del modello Sommario Regressione multilineare Coefficiente di determinazione (modelli
Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:
Obiettivi: Esplicitare la correlazione esistente tra l altezza di un individuo adulto e la lunghezza del suo piede e del suo avambraccio. Idea del progetto: Il progetto nasce dall idea di acquistare scarpe
Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill
Statistica - metodologie per le scienze economiche e sociali /e S Borra, A Di Ciaccio - McGraw Hill Es 6 Soluzione degli esercizi del capitolo 6 In base agli arrotondamenti effettuati nei calcoli, si possono
Analisi della correlazione canonica
Analisi della correlazione canonica Su un collettivo di unità statistiche si osservano due gruppi di k ed m variabili L analisi della correlazione canonica ha per obiettivo lo studio delle relazioni di
> Ciliegi <- read.table("i:/modelli/cherry.dat", + col.names=c( diametro, altezza, volume ))
Laboratorio 2 Modello lineare semplice 2.1 Analisi dei dati CHERRY.DAT Riprendiamo l insieme di dati Ciliegi della precedente lezione. Se non era stato salvato, bisogna rileggerlo da file: > Ciliegi
3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.
Statistica inferenziale La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione. Verifica delle ipotesi sulla medie Quando si conduce una
Il modello di regressione lineare classico
Università di Pavia Il modello di regressione lineare classico Eduardo Rossi Ipotesi Il modello di regressione lineare classico y t = x tβ + ε t t = 1,...,N Y = Xβ + ε Se il modello ha un intercetta allora
PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA
PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA
Esercizi riassuntivi di Inferenza
Esercizi riassuntivi di Inferenza Esercizio 1 Un economista vuole stimare il reddito medio degli abitanti di una cittadina mediante un intervallo al livello di confidenza del 95%. La distribuzione del
STATISTICA. Esercizi vari
STATISTICA Esercizi vari Esercizio 5.6 p. 205 Variabile Coeff. Dev. std. Statistica t p-value Intercetta 23.384 1.592 14.691 0 Profondità -1.435 0.213-6.726 0 = 0.850 Esercizio 5.6 p. 205 Variabile Coeff.
La regressione fuzzy. Capitolo I limiti della regressione classica. a cura di Fabrizio Maturo
Capitolo 14 La regressione fuzzy a cura di Fabrizio Maturo 14.1 I limiti della regressione classica L analisi di regressione offre una possibile soluzione per studiare l effetto di una o più variabili
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative
Il test (o i test) del Chi-quadrato ( 2 )
Il test (o i test) del Chi-quadrato ( ) I dati: numerosità di osservazioni che cadono all interno di determinate categorie Prima di tutto, è un test per confrontare proporzioni Esempio: confronto tra numero
L indagine campionaria Lezione 3
Anno accademico 2007/08 L indagine campionaria Lezione 3 Docente: prof. Maurizio Pisati Variabile casuale Una variabile casuale è una quantità discreta o continua il cui valore è determinato dal risultato
Matematica II: Calcolo delle Probabilità e Statistica Matematica
Matematica II: Calcolo delle Probabilità e Statistica Matematica ELT A-Z Docente: dott. F. Zucca Esercitazione # 6 1 Test ed intervalli di confidenza per una popolazione Esercizio n. 1 Il calore (in calorie
Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.
5 STIMA PUNTUALE DEI PARAMETRI [Adattato dal libro Excel per la statistica di Enzo Belluco] Sia θ un parametro incognito della distribuzione di un carattere in una determinata popolazione. Il problema
Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2010/2011 Statistica Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza
Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi
Esercitazione 14 Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () 1 / 14 Ex.1: Verifica Ipotesi sulla media (varianza nota) Le funi prodotte da un certo macchinario hanno una
Analisi della correlazione canonica
Capitolo 8 Analisi della correlazione canonica Si supponga che su un collettivo di unità statistiche si siano osservati due gruppi di k ed m variabili corrispondenti ad altrettanti aspetti di un fenomeno
Gli errori nella verifica delle ipotesi
Gli errori nella verifica delle ipotesi Nella statistica inferenziale si cerca di dire qualcosa di valido in generale, per la popolazione o le popolazioni, attraverso l analisi di uno o più campioni E
ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo
Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università di Padova Docenti: Prof. L. Salmaso, Dott. L. Corain ESERCIZI Regressione lineare semplice
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri
STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE
STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 2 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1.1
Capitolo 11 Test chi-quadro
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 11 Test chi-quadro Insegnamento: Statistica Corsi di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara Docenti: Dott.
Distribuzioni campionarie
1 Inferenza Statistica Descrittiva Distribuzioni campionarie Statistica Inferenziale: affronta problemi di decisione in condizioni di incertezza basandosi sia su informazioni a priori sia sui dati campionari
Esercitazione 8 maggio 2014
Esercitazione 8 maggio 2014 Esercizio 2 dal tema d esame del 13.01.2014 (parte II). L età media di n gruppo di 10 studenti che hanno appena conseguito la laurea triennale è di 22 anni. a) Costruire un
UNIVERSITÀ DEGLI STUDI DI PERUGIA
SIGI, Statistica II, esercitazione n. 3 1 UNIVERSITÀ DEGLI STUDI DI PERUGIA FACOLTÀ DI ECONOMIA CORSO DI LAUREA S.I.G.I. STATISTICA II Esercitazione n. 3 Esercizio 1 Una v.c. X si dice v.c. esponenziale
Esercitazioni di statistica
Esercitazioni di statistica Intervalli di confidenza Stefania Spina Universitá di Napoli Federico II [email protected] 10 Dicembre 2014 Stefania Spina Esercitazioni di statistica 1/43 Stefania Spina
Tema d esame del 15/02/12
Tema d esame del 15/0/1 Volendo aprire un nuovo locale, una catena di ristoranti chiede ad un consulente di valutare la posizione geografica ideale all interno di un centro abitato. A questo scopo, avvalendosi
Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2011/2012 Statistica Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate.
Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill
- metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill Es. Soluzione degli esercizi del capitolo 8 home - indice In base agli arrotondamenti effettuati nei calcoli, si
STATISTICA BIVARIATA: ALCUNI STIMOLI DI APPROFONDIMENTO (Tecn. Lab. Biomedico e Tecn. Fisiop. e Perfus. Cardiovascolare 3 Anno)
STATISTICA BIVARIATA: ALCUNI STIMOLI DI APPROFONDIMENTO (Tecn. Lab. Biomedico e Tecn. Fisiop. e Perfus. Cardiovascolare 3 Anno) 1) ASSOCIAZIONE TRA DUE CARATTERI RISCHIO RELATIVO E ODDS RATIO In uno studio
ANOVA: ANALISI DELLA VARIANZA Prof. Antonio Lanzotti
UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI INGEGNERIA AEROSPAZIALE D.I.A.S. STATISTICA PER L INNOVAZIONE a.a. 007/008 ANOVA: ANALISI DELLA VARIANZA Prof. Antonio Lanzotti A cura di: Ing.
ANALISI DELLA VARIANZA A DUE VIE CON INTERAZIONE Prof. Antonio Lanzotti
UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI INGEGNERIA AEROSPAZIALE D.I.A.S. STATISTICA PER L INNOVAZIONE a.a. 2007/2008 ANALISI DELLA VARIANZA A DUE VIE CON INTERAZIONE Prof. Antonio
Analisi della varianza a una via
Analisi della varianza a una via Statistica descrittiva e Analisi multivariata Prof. Giulio Vidotto PSY-NET: Corso di laurea online in Discipline della ricerca psicologico-sociale SOMMARIO Modelli statistici
Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016
Esame di Statistica 0 o CFU) CLEF febbraio 06 Esercizio Si considerino i seguenti dati, relativi a 00 clienti di una banca a cui è stato concesso un prestito, classificati per età e per esito dell operazione
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria Civile A.A. 2009-10 Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain 1 STATISTICHE, DISTRIBUZIONI CAMPIONARIE
Il metodo delle osservazioni indirette
Il metodo delle osservazioni indirette Teoria della stima ai minimi quadrati Il criterio di massima verosimiglianza Sia data una grandezza η e si abbiano n osservazioni indipendenti l i (i=1,...,n) di
Introduzione alla Regressione Logistica
Introduzione alla Regressione Logistica Contenuto regressione lineare semplice e multipla regressione logistica lineare semplice La funzione logistica Stima dei parametri Interpretazione dei coefficienti
Statistica Metodologica Avanzato Test 1: Concetti base di inferenza
Test 1: Concetti base di inferenza 1. Se uno stimatore T n è non distorto per il parametro θ, allora A T n è anche consistente B lim Var[T n] = 0 n C E[T n ] = θ, per ogni θ 2. Se T n è uno stimatore con
PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI
PSICOMETRIA Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI CAMPIONI INDIPENDENTI Campioni estratti casualmente dalla popolazione con caratteristiche omogenee Assegnazione
Esercitazioni di Statistica Matematica A Esercitatori: Dott. Fabio Zucca - Dott. Maurizio U. Dini Lezioni del 7/1/2003 e del 14/1/2003
Esercitazioni di Statistica Matematica A Esercitatori: Dott. Fabio Zucca - Dott. Maurizio U. Dini Lezioni del 7/1/003 e del 14/1/003 1 Esercizi 1.1 Test su media (con varianza nota) Esercizio n. 1 Il calore
Capitolo 5 Confidenza, significatività, test di Student e del χ 2
Capitolo 5 Confidenza, significatività, test di Student e del χ 5.1 L inferenza Se conosciamo la legge di probabilità di un evento (a priori o a posteriori) possiamo fare delle previsioni su come l evento
DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.
Corso di Laurea Specialistica in Biologia Sanitaria, Universita' di Padova C.I. di Metodi statistici per la Biologia, Informatica e Laboratorio di Informatica (Mod. B) Docente: Dr. Stefania Bortoluzzi
METODO DEI MINIMI QUADRATI
METODO DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura. Ripetendo varie volte l esperimento con diverse quantità
Test di ipotesi su due campioni
2/0/20 Test di ipotesi su due campioni Confronto tra due popolazioni Popolazioni effettive: unità statistiche realmente esistenti. Esempio: Confronto tra forze lavoro di due regioni. Popolazioni ipotetiche:
Introduzione all Analisi della Varianza (ANOVA)
Introduzione all Analisi della Varianza (ANOVA) AMD Marcello Gallucci [email protected] Variabili nella Regressione Nella regressione, la viariabile dipendente è sempre quantitativa e, per quello
Vedi: Probabilità e cenni di statistica
Vedi: http://www.df.unipi.it/~andreozz/labcia.html Probabilità e cenni di statistica Funzione di distribuzione discreta Istogrammi e normalizzazione Distribuzioni continue Nel caso continuo la probabilità
Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016
Esercitazione 12 maggio 2016 ESERCIZIO 1 Si supponga che in un sondaggio di opinione su un campione di clienti, che utilizzano una carta di credito di tipo standard (Std) o di tipo business (Bsn), si siano
Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25
Sommario Presentazione dell edizione italiana Prefazione xv xiii Capitolo 1 I dati e la statistica 1 Statistica in pratica: BusinessWeek 1 1.1 Le applicazioni in ambito aziendale ed economico 3 Contabilità
STATISTICA ESERCITAZIONE
STATISTICA ESERCITAZIONE Dott. Giuseppe Pandolfo 1 Giugno 2015 Esercizio 1 Una fabbrica di scatole di cartone evade il 96% degli ordini entro un mese. Estraendo 300 campioni casuali di 300 consegne, in
Statistica. Esercitazione 16. Alfonso Iodice D Enza [email protected]. Università degli studi di Cassino. Statistica. A. Iodice
Esercitazione 16 Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () 1 / 24 Studio della relazione tra due variabili Commonly Asked Questions Qual è la relazione tra la spesa
SISTEMI LINEARI: APPROFONDIMENTI ED ESEMPI
SISTEMI LINEARI: APPROFONDIMENTI ED ESEMPI Appunti presi dalle lezioni del prof. Nedo Checcaglini Liceo Scientifico di Castiglion Fiorentino (Classe 4B) January 17, 005 1 SISTEMI LINEARI Se a ik, b i R,
Regressione con una variabile dipendente binaria
Regressione con una variabile dipendente binaria Fino ad ora abbiamo considerato solo variabili dipendenti countinue: Che succede se Y è binaria? Y = va al college, o no; X = anni di istruzione Y = fumatore,
Si consideri il sistema a coefficienti reali di m equazioni lineari in n incognite
3 Sistemi lineari 3 Generalità Si consideri il sistema a coefficienti reali di m equazioni lineari in n incognite ovvero, in forma matriciale, a x + a 2 x 2 + + a n x n = b a 2 x + a 22 x 2 + + a 2n x
Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale
DIPARTIMENTO DI SCIENZE AGRARIE E AMBIENTALI PRODUZIONE, TERRITORIO, AGROENERGIA Marco Acutis [email protected] www.acutis.it CdS Scienze della Produzione e Protezione delle Piante (g59) CdS Biotecnologie
Esercizi di ottimizzazione vincolata
Esercizi di ottimizzazione vincolata A. Agnetis, P. Detti Esercizi svolti 1 Dato il seguente problema di ottimizzazione vincolata max x 1 + x 2 x 1 4x 2 3 x 1 + x 2 2 0 x 1 0 studiare l esistenza di punti
(a) Determinare lo stimatore di massima verosimiglianza θ di θ. (b) Calcolare la funzione di score e l informazione di Fisher.
Statistica Matematica, Anno Accademico 216/17, 27 Gennaio 217 ESERCIZIO 1 Siano X 1, X 2, X 3 variabili aleatorie indipendenti con legge X 1 Gamma(3,2), X 2 Gamma(5,1) e X 3 Gamma(4,3) Determinare la funzione
I. Foglio di esercizi su vettori linearmente dipendenti e linearmente indipendenti. , v 2 = α v 1 + β v 2 + γ v 3. α v 1 + β v 2 + γ v 3 = 0. + γ.
ESERCIZI SVOLTI DI ALGEBRA LINEARE (Sono svolti alcune degli esercizi proposti nei fogli di esercizi su vettori linearmente dipendenti e vettori linearmente indipendenti e su sistemi lineari ) I. Foglio
8. ANALISI DELLA COVARIANZA (ANCOVA)
8. ANALISI DELLA COVARIANZA (ANCOVA) L analisi della covarianza è un metodo statistico che risulta dalla combinazione dell analisi di regressione con l analisi della varianza. È utile quando all analisi
FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011
FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 1/9/11 ESERCIZIO 1 (+3++3) La seguente tabella riporta la distribuzione di frequenza dei valori di emoglobina nel sangue (espressi
Il modello di regressione
Il modello di regressione Capitolo e 3 A M D Marcello Gallucci Milano-Bicocca Lezione: II Concentti fondamentali Consideriamo ora questa ipotetica ricerca: siamo andati in un pub ed abbiamo contato quanti
Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica
Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Regressione Lineare e Correlazione Argomenti della lezione Determinismo e variabilità Correlazione Regressione Lineare
Analisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura
Analisi grafica residui in R Da output grafico analisi regressionelm1.csv Vedi dispensa peso-statura 1) Il plot in alto a sinistra mostra gli errori residui contro i loro valori stimati. I residui devono
Note sulla probabilità
Note sulla probabilità Maurizio Loreti Dipartimento di Fisica Università degli Studi di Padova Anno Accademico 2002 03 1 La distribuzione del χ 2 0.6 0.5 N=1 N=2 N=3 N=5 N=10 0.4 0.3 0.2 0.1 0 0 5 10 15
= elemento che compare nella seconda riga e quinta colonna = -4 In generale una matrice A di m righe e n colonne si denota con
Definizione di matrice Una matrice (di numeri reali) è una tabella di m x n numeri disposti su m righe e n colonne. I numeri che compaiono nella tabella si dicono elementi della matrice. La loro individuazione
Capitolo 9 Verifica di ipotesi: test basati su un campione
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 9 Verifica di ipotesi: test basati su un campione Insegnamento: Statistica Corsi di Laurea Triennale in Economia Facoltà di Economia, Università
La matrice delle correlazioni è la seguente:
Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA
Il modello lineare misto
Il modello lineare misto (capitolo 9) A M D Marcello Gallucci Univerisità Milano-Bicocca Lezione: 15 GLM Modello Lineare Generale vantaggi Consente di stimare le relazioni fra due o più variabili Si applica
Analisi della varianza
1. 2. univariata ad un solo fattore tra i soggetti (between subjects) 3. univariata: disegni fattoriali 4. univariata entro i soggetti (within subjects) 5. : disegni fattoriali «misti» L analisi della
