Regressione lineare multipla
|
|
- Violetta Cara
- 6 anni fa
- Visualizzazioni
Transcript
1 Scopo Vogliamo porre in relazione la variabile risposta, Y con k, k > 1, variabili esplicative (o regressori, o predittori, o covariate): X1, X2..., Xk. Funzione di regressione E(Y X1 = x1, X2 = x2,..., Xk = xk) = = η(x1, x2,..., xk, β) = β0 + β1x1 + β2x2 + + βkxk k = β0 + βjxj j=1 Il modello statistico Yi = β0 + β1xi,1 + β2xi,2 + + βkxi,k + εi, i = 1,..., n k = β0 + βjxi,j + εi j=1 con β = [β0, β1,..., βk] R k+1
2 Stima dei parametri E(εi) = 0 e Var(εi) = σ 2, i = 1,..., n (n rappresenta la dimensione delo campione). Corr(εi, εj) = 0 i j xi,j, i = 1,..., n e j = 1,..., k rappresenta la determinazione della variabile Xj sull unità statistica i-esima. Quantità deterministica e nota senza errori di misurazione. β0 rappresenta il valore atteso di Y quando X1 = X2 = = Xk = 0 βj, j = 1,..., k rappresenta la variazione della media di Y dovuta ad un incremento unitario di Xj a parità di ogni altra condizione, cioè quando il valore delle altre variabili resta immutato Supponiamo di disporre di n osservazioni campionarie: (yi, xi,1,..., xi,j,..., xi,k) i = 1,..., n Otteniamo la stima di β applicando il metodo dei minimi quadrati, cioè minimizzando rispetto a β la funzione 2 n k S(β) = yi β0 βjxi,j i=1 Le stime di βj, j = 0,..., k saranno indicate con bi e la stima di β sarà data da j=1 b = [b0, b1,..., bk] R k+1 La stima della funzione di regressione sull unità statistica i-esima è data da ŷi = η(xi,1,..., xi,k, b) k = b0 + bjxi,j i=1 I residui del modello si indicano con ei = yi ŷi La stima di σ 2 è data da n s 2 i=1 = e2 i n k 1 Il modello in notazione matriciale Premessa Il modello di regressione lineare multipla che abbiamo introdotto in precedenza come k Yi = β0 + βjxi,j + εi, i = 1,..., n j=1 può essere riscritto come segue: con Yi = [1, xi,1,..., xi,k]β + εi, i = 1,..., n = x iβ + εi, i = 1,..., n x i = [1, xi,1,..., xi,k] e β = [β0, β1,..., βk]
3 Il modello in notazione matriciale Il modello in notazione matriciale vettore delle n variabili casuali campionarie: Y = [Y1,..., Yn] vettore delle n osservazioni campionarie sulla variabile Y : y = [y1,..., yn] matrice di regressione: 1 x1... x1,k x X = 1 xi,1... xi,k = x i xn,1... xn.k x n Vettore dei disturbi aleatori: ε = [ε1,..., εi,..., εn] tale che E(ε) = 0 e Σε = σ 2 In ha dimensione n (k + 1) Le stime in forma matriciale Il modello in forma matriciale In forma matriciale, quindi il modello può essere scritto come: ovvero Y = Xβ + ε, E(Y X) = Xβ e Σ Y X = σ 2 In Per stimare β abbiamo minimizzato la funzione n n S(β) = (yi β0 xi,jβj) 2 i=1 j=1 la quale può essere scritta in forma vettoriale come: S(β) = (y Xβ) (y Xβ)
4 Le stime in forma matriciale Le stime in forma matriciale Sotto condizioni assai generali (che vedremo fra poco), il vettore che minimizza S(β) è b = (X X) 1 X y R k+1. Gli elementi che costituiscono i vettore b coincidono esattamente con le stime che abbiamo definito in precedenza, cioè: b = [b0,..., bk]. Attenzione b è calcolabile sotto due condizioni: n k + 1: il numero di osservazioni campionarie deve essere non inferiore al numero dei coefficienti che vogliamo stimare. Le colonne di X devono essere linearmente indipendenti. Questo significa che nessuna variabile Xj, j = 1,..., k, possa essere linearmente dipendente dalle altre k 1 variabili esplicative e che nessun regressore possa assumere lo stesso valore su tutte le unità statistiche osservate. Le stime in forma matriciale Le stime in forma matriciale Il vettore dei residui è definito come e = [e1,..., ei,..., en] È facile verificare che e = y Xb = y X(X X) 1 X y = (In X(X X) 1 X )y = My Come abbiamo già visto, la stima della varianza è data da s 2 = 1 n ei 2 n k 1 i=1 ovvero = 1 n k 1 e e con M = (In X(X X) 1 X )
5 L incertezza, che sciagura! Abbiamo definito delle regole generali che ci permettono di calcolare le stime b e s 2 su qualsiasi campione osservato, sotto condizioni non particolarmente restrittive. Ma allora, b è la determinazione campionaria di una particolare variabile casuale k + 1-variata: B = (X X) 1 X Y = [B0, B1,..., Bk] s 2 è la determinazione campionaria di una particolare variabile casuale: S 2 1 = n k 1 E E È facile verificare che E(B) = β e ΣB = σ 2 (X X) 1 E(S 2 ) = σ 2 e Var(S 2 2σ 4 ) = n k 1 Poniamo H = (X X) 1 (con dimensione (k + 1) (k + 1)). Avremo quindi che Var(Bj) = σ 2 hj,j, j = 0,..., k Anche i residui sono determinazioni di n variabili casuali: E = MY R n Possiamo stimare Var(B j, j = 0,..., k)? Stime: s 2 = s 2 Bj hj,j Basta sostituire s 2 a σ 2 nelle espressioni delle rispettive varianze. Stimatori: S 2 = S 2 Bj hj,j Generalmente siamo interessati (vedremo meglio in seguito) allo standard error degli stimatori: = Var(Bj) SEBj stime degli standard error: sbj = stimatori degli standard error: SBj = s 2 Bj S 2 Bj
6 Correttezza Gli stimatori dei parametri ignoti sono corretti: se potessimo ripetere il campionamento all infinito e a parità delle condizioni, le medie delle stima ottenute coinciderebbero con i veri valori di βj e σ 2 Osservazione Dalla correttezza dello stimatore B di β segue che e quindi E(Ei) = E(Yi) E(x ib) = x iβ x E(B) = x iβ xiβ = 0 i = 1,..., n E(E) = 0. Efficienza Tra tutti gli stimatori di βj, ottenibili come trasformazioni lineari di Y e corretti, Bj sono i più precisi, nel senso che hanno varianza minima. Consistenza Bj e S 2, sono stimatori consistenti per βj e σ 2 se sussistono tutte le condizioni che caratterizzano il modello di regressione lineare semplice e se lim n 1 n X X = C matrice definita positiva
7 Varianza spiegata Varianza spiegata Un modo comune di valutare la variabilità campionaria di Y consiste nel calcolare var(y ) = 1 n (yi ȳ) 2 n i=1 Il numeratore della frazione che definisce var(y ) si dice devianza totale di Y : n DEVTOT = (yi ȳ) 2 i=1 Se nel modello di regressione compare l intercetta, è facile verificare che ˆȳ = 1 n ŷi = ȳ e ē = 1 n ei = 0 n n i=1 i=1 Ne segue che le varianze campionarie dei valori stimati della regressione e dei residui sono date da: var(ŷ ) = 1 n (ŷi ȳ) 2 n i=1 var(e) = 1 n ei 2 n i=1 Varianza spiegata Varianza spiegata Possiamo quindi definire DEVREG = e DEVRES = n (ŷi ȳ) 2 i=1 n ei 2 i=1 devianza di regressione devianza residua Si può dimostrare che var(y ) = var(ŷ ) + var(e), ovvero DEVTOT = DEVREG + DEVRES
8 Varianza spiegata Varianza spiegata Domanda Supponiamo di approssimare yi, i = 1 con ŷi, i = 1,..., n. Quanta parte della variabilità di Y cogliere attraverso il modello di regressione? Risposta R 2 = DEVREG DEVTOT = 1 DEVRES DEVTOT Coefficiente di determinazione lineare Una proprietà importante 0 R 2 1 Se R 2 = 1, allora yi = ŷi, i = 1,..., n: le osservazioni su Y e su X giacciono su una retta Se R 2 = 0, allora ŷi = ȳ, i = 1,..., n: la retta (funzione di X ) che meglio approssima le osservazioni su Y è costante (indipendente da X ) con ordinata uguale a ȳ Un difetto grave Il modello gaussiano Si può dimostrare che R 2 tende a crescere quando aumenta il numero di variabili esplicative incluse nel modello, anche qualora queste non esercitassero effettivamente alcuna influenza su Y. Se k = n 1, allora certamente R 2 = 1, per un semplice artificio matematico! Conviene utilizzare il coefficiente di determinazione lineare multipla corretto, R 2 a : R 2 a = 1 n 1 n k 1 (1 R2 ) che dà informazioni simili a quelle fornite da R 2 ma non necessariamente cresce al crescere di k. Ricordiamo la formula generale del modello: Yi = x iβ + εi, i = 1,..., n Il modello si dice gaussiano se εi N(0, σ 2 ), ferme restando tutte le altre assunzioni. La Gaussianità del modello implica che Yi X = xi N(x iβ, σ 2 ) Condizionatamente a X = xi, Yi si distribuisce come una v.c. normale con media x i β e varianza σ2.
9 Il modello gaussiano Se il modello è gaussiano, o se n è elevato e le assunzioni del modello di regressione lineare multipla sono rispettate: Conseguenze dell ipotesi di gaussianità: Distribuzione di Bj, j = 0,..., k e Ŷi, i = 1,..., n: Bj N ( βj, σ 2 ) hj,j Ŷi N ( x iβ, σ 2 x i(x X) 1 xi) ) Bj βj SBj Ŷi x β S x i (X X) 1 xi tn k 1 tn k 1 si distribuiscono come t di Student con n k 1 gradi di libertà Intervallo di confidenza per β j, i = 0, 1,..., k al livello di fiducia 1 α Intervallo di confidenza per η(x 0, β) Determinazione degli intervalli di confidenza sul campione osservato: [bj sbj t n k 1,1 α/2, bj + sbj t n k 1,1 α/2] Siano x0,j, j = 1,..., k, k fissati valori delle variabili Xj. Vogliamo costruire un intervallo di confidenza, di livello 1 α per η(x0,1,... x0,k, β) = x 0β con x 0 = [1, x0,1,..., x0, k] Ponendo S x 0 β x = S 0 (X X) 1 x0 Ad un livello di fiducia 1 α, quindi, l intervallo di confidenza per η(x0,1,... x0,k, β) sarà il seguente: [ x 0 b t n k 1,1 α/2 sη, x 0b + t n k 1,1 α/2 sη]
10 Verifica di ipotesi su β j, j = 0,..., k Se H0 è vera, Sistema di ipotesi bilaterale: T = Bj β j tn k 1 SBj statistica test H0 : βj = β j H1 : βj β j ipotesi nulla ipotesi alternativa βj è un valore noto che fissiamo noi, sulla base delle nostre esigenze. Fissiamo un valore α, 0 < α < 1, che chiameremo livello di significatività del test, e vogliamo che la probabilità di ritenere falsa H0 quando in realtà H0 è vera sia proprio pari ad α Valore osservato della statistica test: toss = bj β j determinazione campionaria di T sbj Se H0 è vera, P( T > t n k 1,1 α/2 ) = α Verifica di ipotesi su β j, j = 0,..., k Quindi, se decidiamo di ritenere falsa H0 quando toss > t n k 1,1 α/2, rischiamo di rifiutare H0 quando essa è vera con probabilità α Livello di significatività osservato (p-value): ˆα = P( T > toss quando è vera H0) se ˆα > α, allora toss < t n k 1,1 α/2 e si accetta H0; se ˆα < α, allora toss > t n k 1,1 α/2 e si rifiuta H0. Sistema di ipotesi unilaterale: H0 : βj = βj ( βj ) ipotesi nulla H1 : βj > β j ipotesi alternativa βj è un valore noto che fissiamo noi, sulla base delle nostre esigenze.
11 Se H0 è vera, T = Bj β j SBj tn k 1 statistica test Quindi, se decidiamo di ritenere falsa H0 quando Valore osservato della statistica test: toss = bj β j determinazione campionaria di T sbj toss > tn k 1,1 α, rischiamo di rifiutare H0 quando essa è vera con probabilità α Se H0 è vera, P(T > tn k 1,1 α) = α Verifica di ipotesi su β j, j = 0,..., k Se H0 è vera, Sistema di ipotesi unilaterale: T = Bj β j SBj tn k 1 statistica test H0 : βj = βj ( βj ) ipotesi nulla H1 : βj < β j ipotesi alternativa βj è un valore noto che fissiamo noi, sulla base delle nostre esigenze. Valore osservato della statistica test: toss = bj β j determinazione campionaria di T sbj Se H0 è vera, P(T < tn k 1,α) = α
12 Intervallo di previsione per Y in corrispondenza di X, = x 0,j Quindi, se decidiamo di ritenere falsa H0 quando toss < tn k 1,α, rischiamo di rifiutare H0 quando essa è vera con probabilità α Vogliamo prevedere il valore assunto da Y in corrispondenza di k fissati valori di Xj = x0,j, j = 1,..., k, misurati su una unità statistica non inclusa nel campione e sulla quale Y non è stato rilevato. Vogliamo costruire un intervallo di previsione, di livello 1 α per k Y0 = β0 + βjx0,j + ε0 = x 0β + ε0 j=1 con x 0 = [1, x0,1,,x0,k] Se il modello è gaussiano, allora Y0 x0,1,..., x0,k N(x 0β, σ 2 ) Se prevediamo Y0 con Ŷ0 = x 0B, l errore di previsione sarà Y0 x 0B N(0, σ 2 ( 1 + x 0(X X) 1 ) x0 Intervallo di previsione per Y in corrispondenza di X j = x 0,j, j = 0,..., k Un applicazione La quantità pivotale per l intervallo di previsione al livello di fiducia 1 α sarà data da: Ponendo Y0 x 0 B S 2 (1 + x 0 (X X) 1 x0) tn k 1 SY0 = S 1 + x 0 (X X) 1 x0 Ad un livello di fiducia 1 α, quindi, l intervallo di previsione per Y0 sarà il seguente: [ x 0 b t n k 1,1 α/2 SY0, x 0b + t n k 1,1 α/2 sy0] Il file spedizioni.txt contiene i dati rilevati dalla contabilità di un azienda di spedizioni nell arco di 20 settimane. Le variabili rilevate sono: Y : ore lavoro impiegate nella settimana X1: peso totale (in migliaia di libbre) del materiale spedito nella settimana X2: percentuale del peso totale spedita con camion X3: peso medio delle spedizioni nell arco della settimana X4: numero della settimana di rilevazione (tempo) Cerchiamo di capire quali siano, tra i potenziali regressori (X1, X2, X3 e X4), le variabili che possano incidere sulla quantità di lavoro impiegata nell arco della settimana (Y )
13 3 5 7 x Avviamo una sessione di R, cancelliamo tutto ciò che c è in memoria, chiudiamo le finestre grafiche eventualmente aperte e carichiamo i dati con i seguenti comandi: > rm(list = ls()) > graphics.off() > spedizioni = read.table("spedizioni.txt", header = T) Cerchiamo di capire, attraverso una opportuna rappresentazione grafica (Figura 23) che tipi di relazioni esistano tra le diverse variabili: > pairs(spedizioni) y x2 x3 x Figura 23: Diagrammi di dispersione di tutte le possibili coppie di variabili contenute nel dataframe spedizioni La Figura 23, ottenuta con il comando > pairs(spedizioni) è una matrice di diagrammi di dispersione: Ogni riga ed ogni colonna sono intestate ad una variabile, il cui nome è leggibile sulla diagonale della matrice. I grafici che si trovano su una determinata riga sono i diagrammi di dispersione della variabile a cui quella riga è intestata, contro ciascuna delle variabili a cui sono intestate le colonne Sul primo grafico della seconda riga è rappresentato il diagramma di dispersione di X1 contro Y ; sul secondo grafico della seconda riga è rappresentato il diagramma di dispersione di X1 contro X2 e così via. Dalla Figura 23 si possono trarre alcune informazioni: appare evidente una relazione lineare crescente tra il numero di ore lavoro impiegate nell arco della settimana (variabile risposta) e il peso totale del materiale spedito nel medesimo periodo (X1); appare altrettanto evidente una relazione lineare decrescente tra variabile risposta e peso medio delle spedizioni nell arco della settimana (X3); non si possono desumere relazioni altrettanto evidenti tra la variabile risposta e gli altri potenziali regressori. Ciò non significa di per sè che questi non influiscano sul comportamento della quantità di lavoro impiegata: il loro effetto potrebbe essere mascherato dall influenza esercitata simultaneamente da più variabili sulla variabile risposta.
14 Visualizziamo ora una sintesi dei risultati: > summary(spedizioni.lm) Stimiamo ora il modello Yi = β0 + β1xi,1 + β2xi,2 + β3xi,3 + β4xi,4 + εi con i seguenti comandi: > attach(spedizioni) > spedizioni.lm = lm(y ~ x1 + x2 + x3 + x4) Call: lm(formula = y ~ x1 + x2 + x3 + x4) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) ** x * x x * x Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 15 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 4 and 15 DF, p-value: 1.889e-05 Il coefficiente di determinazione lineare multipla è pari a il coefficiente di determinazione lineare multipla corretto (Adjusted R-suared) è pari a , quindi il modello sembra spiegare abbastanza bene il comportamento della variabile risposta. esaminiamo ora i residui Disegnamo il grafico dei residui (Figura 24): > plot(resid(spedizioni.lm)) e il grafico quantile quantile dei medesimi, per farci qualche idea circa la gaussianità del modello (Figura 25): > qqnorm(resid(spedizioni.lm)/9.103) > qqline(resid(spedizioni.lm)/9.103) resid(spedizioni.lm) Index Figura 24: Grafico dei residui
15 Normal Q Q Plot Sample Quantiles In base all analisi dei residui possiamo ritenere che il modello rispetti le assunzioni di fondo e che i residui siano determinazioni di variabili casuali normali (quindi che il modello sia gaussiano) Theoretical Quantiles Figura 25: Grafico quantile quantile dei residui standardizzati Un test utile Potremmo essere interessati al seguente sistema di ipotesi: H0 : β1 = β2 = = βk = 0 H1 : almeno uno di questi coefficienti è diverso da 0 Di fatto vogliamo verificare se abbia senso considerare un modello di regressione lineare multipla. Supponiamo che l ipotesi nulla sia vera. Allora, se il modello è gaussiano, oppure se n è elevato e valgono le assunzioni di fondo del modello di regressione lineare multipla, la seguente quantità (DEVTOT DEVRES)/k f = DEVRES/(n k) R 2 /k = (1 R 2 )/(n k 1) sarà la determinazione di una particolare variabile casuale che assume solo valori positivi: una F di Snedecor con k gradi di libertà al numeratore e n k gradi di libertà al denominatore, Fk,n k.
16 Fissato un livello di significatività α, accetteremo H0 se f è minore del quantile di ordine 1 α di una Fk,n k rifiuteremo H0 se f è maggiore del quantile di ordine 1 α di una Fk,n k oppure, definito il livello di significatività osservato (p-value) come αoss = P(Fk,n k > f ) Per questo sistema di ipotesi, l ultima riga dell output del comando > summary(spedizioni.lm) fornisce un valore αoss = , quindi nella nostra applicazione rifiutiamo H0, cioè riteniamo che almeno uno dei regressori considerati sia influente sulla media della variabile risposta. accetteremo H0 se αoss > α rifiuteremo H0 altrimenti I potenziali regressori sono tutti effettivamente influenti? Per j = 0, dots, k e per un fissato livello di significatività α, impostiamo i seguenti sistemi di ipotesi: Domanda Nel modello che abbiamo costruito sono incluse delle variabili esplicative ridondanti? Possiamo escludere alcune di esse? H0 : βj = 0 H1 : βj 0 Per ogni sistema di ipotesi calcoliamo il valore osservato della corrispondente statistica test: tj = bj sbj Tra tutti i valori tj che inducono ad accettare l ipotesi nulla individuiamo i più piccolo in valore assoluto (ovvero quello che dà luogo al più alto livello di significatività osservato). Supponiamo che ciò avvenga per j = j
17 Fissiamo α = 0.05 e iniziamo la procedura > summary(spedizioni.lm) Call: lm(formula = y ~ x1 + x2 + x3 + x4) Dobbiamo ora distinguere due casi: se j = 0 porremo β0 = 0 e ristimeremo il modello senza intercetta se 1 j k porremo βj = 0 e ristimeremo il modello escludendo la j -esima varabile esplicativa (i regressori saranno ora k 1) Ripetiamo la procedura fino a quando tutti i valori tj indurranno ad accettare il corrispondente sistema di ipotesi. Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) ** x * x x * x Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 15 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 4 and 15 DF, p-value: 1.889e-05 Escludiamo la variabile X4 e stimiamo il modello: Yi = β0 + β1xi,1 + β2xi,2 + β3xi,3 + εi > spedizioni1.lm = lm(y ~ x1 + x2 + x3) > summary(spedizioni1.lm) Call: lm(formula = y ~ x1 + x2 + x3) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) ** x * x x * --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 16 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 3 and 16 DF, p-value: 3.633e-06 Escludiamo la variabile X2 e stimiamo il modello: > spedizioni2.lm = lm(y ~ x1 + x3) > summary(spedizioni2.lm) Call: lm(formula = y ~ x1 + x3) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) *** x * x ** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 17 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 2 and 17 DF, p-value: 8.008e-07 Abbiamo costruito un modello soddisfacente. Y i = β0 + β1x i,1 + β3x i,3 + ε i
18 Intervallo di confidenza per β 1 al livello 1 α = 0.95 Intervallo di confidenza per la funzione di regressione > quantile = qt(0.975, 17) > estremo.inferiore = coef(spedizioni2.lm)[2] - quantile * > estremo.superiore = coef(spedizioni2.lm)[2] + quantile * > estremo.inferiore x > estremo.superiore x Supponiamo di voler costruire, al livello 1 α = 0.99, un intervallo di confidenza per la funzione di regressione in corrispondenza di X1 = 8 e X3 = 20 > nuovidati = data.frame(x1 = 8, x3 = 20) > nuovidati x1 x > intervallo = predict(spedizioni2.lm, nuovidati, interval = "confidence", + level = 0.99) > intervallo fit lwr upr [1,] Intervallo di previsione per Y Trasformazioni delle variabili Supponiamo di voler costruire, al livello 1 α = 0.99, un intervallo di previsione per Y in corrispondenza di X1 = 8 e X3 = 20 > nuovidati = data.frame(x1 = 8, x3 = 20) > nuovidati x1 x > previsione = predict(spedizioni2.lm, nuovidati, interval = "prediction", + level = 0.99) > previsione fit lwr upr [1,] Nel modello di regressione, spesso, può essere opportuno considerare delle trasformazioni delle variabili in gioco. Supponiamo, ad esempio, di considerare due sole variabili, Y e X e di definire un modello del tipo Yi = β0 + β1xi + εi Una semplice relazione lineare potrebbe non essere sufficiente a spiegare il comportamento di Y e si potrebbe ricorrere ad un modello polinomiale: Yi = β0 + β1xi + β2x 2 i + + βkx k i + εi
19 Un altro esempio: supponiamo che Il modello precedente è equivalente al modello di regressione lineare multipla: k Yi = β0 + βjzi,j + εi, j=1 con zi,j = x j i, j = 1,..., k, i = 1,..., n. Yi = exp(β0)x β1 i,1 xβ2 i,2 ui con Y, xi,j e ui tutte positive per ogni i e per ogni j e inoltre che εi = log (ui) sia tale che E(εi) = 0, Var(εi) = σ 2 e Corr(εi, εj) = 0 quando i j. Poniamo Yi = log (Yi) e Xj = log (Xj), j = 1, 2 Possiamo allora definire il modello di regressione lineare multipla Yi = β0 + β1xi,1 + β2xi,2 + εi e procedere all analisi di questo modello Le trasformazioni più utilizzate sono: il logaritmo la radice quadrata l inversa
20 Interazioni tra variabili Come scegliere il tipo di trasformazione: esaminare la rappresntazione grafica delle variabili in gioco (diagrammi di dispersione) una volta stimato un modello di regressione esaminare i diagrammi di dispersione dei residui rispetto a ciascun regressore. Consideriamo un modello di regressione in cui E(Y ) = β0 + β1x1 + β2x2 (omettiamo per brevità il condizionamento di Y rispetto ai regressori). Il coefficiente β1 rappresenta l incremento in E(Y ) corrispondente ad un incremento unitario di X1, mantenendo X2 inalterata Il coefficiente β2 rappresenta l incremento in E(Y ) corrispondente ad un incremento unitario di X2, mantenendo X1 inalterata Interazioni tra variabili Introduciamo ora un termine di interazione tra X1 e X2: E(Y ) = β0 + β1x1 + β2x2 + β3x1x2 Incremento in E(Y ) corrispondente ad un incremento unitario di X1, mantenendo X2 inalterata 1E(Y ) = β1 + β3x2 Incremento in E(Y ) corrispondente ad un incremento unitario di X2, mantenendo X1 inalterata 2E(Y ) = β2 + β3x2 Riconsideriamo il modello finale a cui siamo giunti nel problema della azienda di spedizioni. Disegnamo i diagrammi di dispersione dei residui rispetto a ciascuna delle variabili esplicative con i comandi > plot(x1, resid(spedizioni2.lm)) > plot(x2, resid(spedizioni2.lm)) i grafici nelle Figure 26 e 27 mostrano una debole dipendenza lineare tra i residui e ciascuna delle variabili esplicative. Questo ci induce a ritenere che il modello adattato non sfrutti tutta l informazione contenuta nei regressori Poiché i grafici non evidenziano particolari relazioni non lineari, cerchiamo di capire se esistano delle forme di interazione tra le due variabili.
21 resid(spedizioni2.lm) resid(spedizioni2.lm) x x2 Figura 26: Diagramma di dispersione dei residui contro X1 Figura 27: Diagramma di dispersione dei residui contro X2 Consideriamo il modello: Yi = β0 + β1xi,1 + β3xi,3 + β4xi,1xi,3 Fissando α = 0.05 e procedendo nuovamente alla selezione delle variabili, giungiamo al modello, giungiamo al modello Yi = β0 + β3xi,3 + β4xi,1xi,3 > spedizioni3.lm = lm(y ~ x1 + x3 + x1:x3) > summary(spedizioni3.lm) Call: lm(formula = y ~ x1 + x3 + x1:x3) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) *** x x ** x1:x Signif. 0 '***' '**' 0.01 '*' 0.05 '.' codes: 0.1 ' ' 1 Residual standard error: on 16 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 3 and 16 DF, p-value: 9.462e-07 > spedizioni4.lm = lm(y ~ x3 + x1:x3) > summary(spedizioni4.lm) Call: lm(formula = y ~ x3 + x1:x3) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-09 *** x e-08 *** x3:x ** --- Signif. 0 '***' '**' 0.01 '*' 0.05 '.' codes: 0.1 ' ' 1 Residual standard error: on 17 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 2 and 17 DF, p-value: 2.143e-07
22 Ci poniamo ora il problema di rappresentare graficamente l andamento della funzione di regressione stimata, intesa come funzione del pesmo medio settimanale delle spedizioni, in corrispondenza di alcuni fissati valori del peso totale delle spedizioni settimanali, diciamo X1 = 4, X1 = 4.95 e X1 = 6.2. Per ognuno dei fissati livelli di X1 stimiamo la funzione di regressione in corrispondenza dei valori del peso medio delle spedizioni settimanali osservati sul campione utilizzando i seguenti comandi: > beta = coef(spedizioni4.lm) > eta1 = beta[1] + beta[2] * x3 + beta[3] * 4 * x3 > eta2 = beta[1] + beta[2] * x3 + beta[3] * 4.95 * x3 > eta3 = beta[1] + beta[2] * x3 + beta[3] * 6.2 * x3 Disegnamo ora i grafici (Figura 28) delle tre funzioni con i seguenti comandi: > plot(x3, eta1, type = "l", col = "blue", ylim = c(60, max(y)), + xlab = "peso medio settimanale delle spedizioni", ylab = "funzione di regressione stimata") > lines(sort(x3), eta2[order(x3)]) > lines(sort(x3), eta3[order(x3)], col = "red") Variabili esplicative di tipo qualitativo funzione di regressione stimata peso medio settimanale delle spedizioni X 1 = 6.2 X 1 = 4.95 X 1 = 4 Figura 28: Grafici della funzione di regressione stimata in corrispondenza dei tre valori fissati di X1 Il file cars4.txt contiene dei dati rilevati su 25 modelli di autoveicoli americani adibiti al trasporto di persone: Y consumo urbano di carburante (miglia per gallone) X peso in migliaia di libbre type. Variabile qualitativa con tre modalità: SUV,Wagon, Minivan D1. Variabile indicatrice: D1 = 1 se type = Wagon; D1 = 0 altrimenti D2. Variabile indicatrice: D2 = 1 se type = Minivan; D2 = 0 altrimenti Se D1 = D2 = 0 allora type = SUV
23 Il modello: 1 Y = β0 + β1 X + β2d1 + β3d2 + 1 β4d1 X + 1 β5d2 X + ε SUV (gruppo di controllo) 1 E(Y ) = β0 + β1 X [D1 = D2 = 0] Carichiamo i dati e stimiamo il modello: > rm(list = ls()) > graphics.off() > cars = read.table("cars.txt", header = T) > attach(cars) > cars.lm = lm(y ~ I(1/X) + D1 + D2 + D1:I(1/X) + D2:I(1/X)) Esercizio. Analizzare i residui. In particolare, accertarsi se la gaussianità del modello sia un assunzione plausibile. Wagon Minivan 1 β0 + β1 X + β2 + 1 β4 X 1 β0 + β1 X + β3 + 1 β5 X [D1 = 1, D2 = 0] [D1 = 0, D2 = 1] Esaminiamo la sintesi dei risultati > summary(cars.lm) Call: lm(formula = Y ~ I(1/X) + D1 + D2 + D1:I(1/X) + D2:I(1/X)) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) * I(1/X) *** D * D I(1/X):D ** I(1/X):D Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 19 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 5 and 19 DF, p-value: 3.974e-10 Procedendo con la selezione delle variabili giungiamo al modello 1 Y = β0 + β1 X + β2d1 + 1 β4d1 X + 1 β5d2 X + ε > cars1.lm = lm(y ~ I(1/X) + D1 + D1:I(1/X) + D2:I(1/X)) > summary(cars1.lm) Call: lm(formula = Y ~ I(1/X) + D1 + D1:I(1/X) + D2:I(1/X)) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) * I(1/X) *** D * I(1/X):D ** I(1/X):D ** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 20 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 4 and 20 DF, p-value: 4.807e-11
24 Y Rappresentiamo graficamente i risultati in Figura 29 con i seguenti comandi: > invx = 1/X > beta = coef(cars1.lm) > plot(invx, Y, type = "n", xlab = "1/X") > invx0 = invx[d1 == 0 & D2 == 0] > points(invx0, Y[D1 == 0 & D2 == 0], pch = "s") > lines(sort(invx0), beta[1] + beta[2] * invx0[order(invx0)]) > invx1 = invx[d1 == 1] > points(invx1, Y[D1 == 1], pch = "w") > lines(sort(invx1), beta[1] + beta[2] * invx1[order(invx1)] + + beta[3] + beta[4] * invx1[order(invx1)], col = "blue") > invx2 = invx[d2 == 1] > points(invx2, Y[D2 == 1], pch = "m") > lines(sort(invx2), beta[1] + beta[2] * invx2[order(invx2)] + + beta[5] * invx2[order(invx2)], col = "red") s s w m msm ms w m s m s s s ms s s w w s w w /X Figura 29: Diagramma di dispersione e funzione di regressione
Statistica Applicata all edilizia: il modello di regressione
Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione
DettagliVerifica di ipotesi sui coefficienti di regressione. Verifica di ipotesi sul coefficiente angolare
Verifica di ipotesi sui coefficienti di regressione Per il momento supponiamo di muoverci nel contesto del modello gaussiano. Vogliamo capire se alcune nostre congetture sui coefficienti di regressione
DettagliMetodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è
DettagliLEZIONE N. 11 ( a cura di MADDALENA BEI)
LEZIONE N. 11 ( a cura di MADDALENA BEI) F- test Assumiamo l ipotesi nulla H 0 :β 1,...,Β k =0 E diverso dal verificare che H 0 :B J =0 In realtà F - test è più generale H 0 :Aβ=0 H 1 :Aβ 0 A è una matrice
DettagliEsercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
Dettaglilezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1
lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,
DettagliSTATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo
STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)
DettagliAnalisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura
Analisi grafica residui in R Da output grafico analisi regressionelm1.csv Vedi dispensa peso-statura 1) Il plot in alto a sinistra mostra gli errori residui contro i loro valori stimati. I residui devono
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative
DettagliUniversità del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica
Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Regressione Lineare e Correlazione Argomenti della lezione Determinismo e variabilità Correlazione Regressione Lineare
DettagliREGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori
REGRESSIONE lineare e CORRELAZIONE Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori Y X La NATURA e la FORZA della relazione tra variabili si studiano con la REGRESSIONE
DettagliStatistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza iodicede@gmail.com Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri
DettagliEsercizio 1 GRAFICO 1. X e Y sono indipendenti. X e Y non sono correlate. La correlazione tra X e Y è <1. X e Y sono perfettamente correlate
Esercizio 1 Osservare il grafico 1 riportato in figura che mette in relazione una variabile dipendente Y ed una variabile indipendente X e rispondere alle seguenti domande. 400 300 200 GRAFICO 1 100 0
Dettagli3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
DettagliStatistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice
Esercitazione 16 Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () 1 / 24 Studio della relazione tra due variabili Commonly Asked Questions Qual è la relazione tra la spesa
DettagliAnalisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:
Obiettivi: Esplicitare la correlazione esistente tra l altezza di un individuo adulto e la lunghezza del suo piede e del suo avambraccio. Idea del progetto: Il progetto nasce dall idea di acquistare scarpe
DettagliIntroduzione alla Regressione Logistica
Introduzione alla Regressione Logistica Contenuto regressione lineare semplice e multipla regressione logistica lineare semplice La funzione logistica Stima dei parametri Interpretazione dei coefficienti
DettagliUniversità del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare
Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia Corso di Statistica Medica Correlazione Regressione Lineare Corso di laurea in medicina e chirurgia - Statistica Medica Correlazione
DettagliTest per la correlazione lineare
10 Test per la correlazione lineare Istituzioni di Matematica e Statistica 2015/16 E. Priola 1 Introduzione alla correlazione lineare Problema: In base ai dati che abbiamo possiamo dire che c è una qualche
Dettagli> Ciliegi <- read.table("i:/modelli/cherry.dat", + col.names=c( diametro, altezza, volume ))
Laboratorio 2 Modello lineare semplice 2.1 Analisi dei dati CHERRY.DAT Riprendiamo l insieme di dati Ciliegi della precedente lezione. Se non era stato salvato, bisogna rileggerlo da file: > Ciliegi
DettagliEsercitazione 8 maggio 2014
Esercitazione 8 maggio 2014 Esercizio 2 dal tema d esame del 13.01.2014 (parte II). L età media di n gruppo di 10 studenti che hanno appena conseguito la laurea triennale è di 22 anni. a) Costruire un
DettagliDistribuzioni campionarie
1 Inferenza Statistica Descrittiva Distribuzioni campionarie Statistica Inferenziale: affronta problemi di decisione in condizioni di incertezza basandosi sia su informazioni a priori sia sui dati campionari
DettagliEsercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza
Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza 3 maggio 2005 Esercizio 1 Consideriamo l esempio del libro di testo Annette
DettagliCasa dello Studente. Casa dello Studente
Esercitazione - 14 aprile 2016 ESERCIZIO 1 Di seguito si riporta il giudizio (punteggio da 0 a 5) espresso da un gruppo di studenti rispetto alle diverse residenze studentesche di un Ateneo: a) Si calcolino
DettagliLezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo
UIVERSITA DEGLI STUDI DI BASILICATA FACOLTA DI ECOOMIA Corso di laurea in Economia Aziendale anno accademico 2012/2013 Lezioni di Statistica del 15 e 18 aprile 2013 Docente: Massimo Cristallo LA RELAZIOE
DettagliEsercitazioni di Statistica Matematica A Esercitatori: Dott. Fabio Zucca - Dott. Maurizio U. Dini Lezioni del 7/1/2003 e del 14/1/2003
Esercitazioni di Statistica Matematica A Esercitatori: Dott. Fabio Zucca - Dott. Maurizio U. Dini Lezioni del 7/1/003 e del 14/1/003 1 Esercizi 1.1 Test su media (con varianza nota) Esercizio n. 1 Il calore
Dettagli> cement <- read.table("i:/modelli/cement.dat", col.names=c("tempo", "resist")) > attach(cement)
Laboratorio 6 Analisi dei residui 6.1 Analisi dei dati CEMENT.DAT I dati riportati nel file cement.dat si riferiscono ad uno studio sulla resistenza del cemento alla tensione. La resistenza dipende, tra
DettagliRegressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo
Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo 1 Controllo di ipotesi sui parametri In questo contesto risulta necessario avvalersi dell assunzione di normalita
Dettagli1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl
1/4 Capitolo 4 La variabilità di una distribuzione Intervalli di variabilità Box-plot Indici basati sullo scostamento dalla media Confronti di variabilità Standardizzazione Statistica - Metodologie per
DettagliFACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011
FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 1/9/11 ESERCIZIO 1 (+3++3) La seguente tabella riporta la distribuzione di frequenza dei valori di emoglobina nel sangue (espressi
DettagliIL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA
Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale
DettagliMatematica II: Calcolo delle Probabilità e Statistica Matematica
Matematica II: Calcolo delle Probabilità e Statistica Matematica ELT A-Z Docente: dott. F. Zucca Esercitazione # 6 1 Test ed intervalli di confidenza per una popolazione Esercizio n. 1 Il calore (in calorie
DettagliProgrammazione con Foglio di Calcolo Cenni di Statistica Descrittiva
Fondamenti di Informatica Ester Zumpano Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva Lezione 5 Statistica descrittiva La statistica descrittiva mette a disposizione il calcolo di
DettagliLEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano Strumenti statistici in Excell Pacchetto Analisi di dati Strumenti di analisi: Analisi varianza: ad un fattore Analisi
DettagliREGRESSIONE E CORRELAZIONE
REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.
DettagliEsercitazioni di statistica
Esercitazioni di statistica Intervalli di confidenza Stefania Spina Universitá di Napoli Federico II stefania.spina@unina.it 10 Dicembre 2014 Stefania Spina Esercitazioni di statistica 1/43 Stefania Spina
DettagliLaboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12)
Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 011-1) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola
DettagliEsercitazione 8 del corso di Statistica 2
Esercitazione 8 del corso di Statistica Prof. Domenico Vistocco Dott.ssa Paola Costantini 6 Giugno 8 Decisione vera falsa è respinta Errore di I tipo Decisione corretta non è respinta Probabilità α Decisione
Dettagli1.4. Siano X B(1, 1/2) e Y B(1, 1/2) variabili aleatorie indipendenti. Quale delle seguenti affermazioni é falsa? E(X + Y ) = 1 V ar(x + Y ) = 1/2
Statistica N. Crediti: Cognome: Laurea Triennale in Biologia Nome: 4 settembre 2012 Matricola: 1. Parte A 1.1. Siano x 1, x 2,..., x 10 i dati relativi al peso di 10 neonati espressi in chilogrammi e y
DettagliCapitolo 8. Probabilità: concetti di base
1 Capitolo 8 Probabilità: concetti di base Statistica - Metodologie per le scienze economiche e sociali 2/ed S. Borra, A. Di Ciaccio Copyright 2008 The McGraw-Hill Companies srl 2 Concetti primitivi di
DettagliProprietà della varianza
Proprietà della varianza Proprietà della varianza Proprietà della varianza Proprietà della varianza Intermezzo: ma perché dovremmo darci la pena di studiare come calcolare la varianza nel caso di somme,
DettagliIl metodo della regressione
Il metodo della regressione Consideriamo il coefficiente beta di una semplice regressione lineare, cosa significa? È una differenza tra valori attesi Anche nel caso classico di variabile esplicativa continua
DettagliModelli con predittori qualitativi e modelli con interazioni
Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer Utilizzare variabili indipendenti qualitative (VIQ) Codifica binaria 0,1 Esempio: salari
DettagliL indagine campionaria Lezione 3
Anno accademico 2007/08 L indagine campionaria Lezione 3 Docente: prof. Maurizio Pisati Variabile casuale Una variabile casuale è una quantità discreta o continua il cui valore è determinato dal risultato
DettagliLa statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci
La statistica Elaborazione e rappresentazione dei dati Gli indicatori statistici Introduzione La statistica raccoglie ed analizza gruppi di dati (su cose o persone) per trarne conclusioni e fare previsioni
DettagliStatistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill
- metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill Es. Soluzione degli esercizi del capitolo 8 home - indice In base agli arrotondamenti effettuati nei calcoli, si
DettagliSTATISTICHE DESCRITTIVE Parte II
STATISTICHE DESCRITTIVE Parte II INDICI DI DISPERSIONE Introduzione agli Indici di Dispersione Gamma Differenza Interquartilica Varianza Deviazione Standard Coefficiente di Variazione introduzione Una
DettagliDESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.
Corso di Laurea Specialistica in Biologia Sanitaria, Universita' di Padova C.I. di Metodi statistici per la Biologia, Informatica e Laboratorio di Informatica (Mod. B) Docente: Dr. Stefania Bortoluzzi
DettagliNote sulla probabilità
Note sulla probabilità Maurizio Loreti Dipartimento di Fisica Università degli Studi di Padova Anno Accademico 2002 03 1 La distribuzione del χ 2 0.6 0.5 N=1 N=2 N=3 N=5 N=10 0.4 0.3 0.2 0.1 0 0 5 10 15
DettagliValidazione dei modelli Strumenti quantitativi per la gestione
Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer Validazione dei modelli Il data set Auto I dati Il problema analizzato Validation set approach Diagramma a dispersione Test
DettagliANALISI DELLA VARIANZA
ANALISI DELLA VARIANZA Il data set coagulation contenuto nella libreria faraway contiene i tempi di coagulazione del sangue (misurato in secondi) di 24 animali sottoposti casualmente a quattro tipi di
DettagliIntervalli di confidenza
Probabilità e Statistica Esercitazioni a.a. 2006/2007 C.d.L.: Ingegneria per l Ambiente ed il Territorio, Ingegneria Civile, Ingegneria Gestionale, Ingegneria dell Informazione C.d.L.S.: Ingegneria Civile
DettagliGli errori nella verifica delle ipotesi
Gli errori nella verifica delle ipotesi Nella statistica inferenziale si cerca di dire qualcosa di valido in generale, per la popolazione o le popolazioni, attraverso l analisi di uno o più campioni E
DettagliUniversità degli Studi di Padova Facoltà di Scienze Politiche
Università degli Studi di Padova Facoltà di Scienze Politiche STATISTICA Nuovo ordinamento Scienze Sociologiche Prof.ssa A. Dalla Valle Vecchio ordinamento Prova del 27/6/2007 (A) Cognome e nome: N. matricola:
Dettaglia) 36/100 b) 1/3 c)
Da un urna contenente 10 palline, di cui 6 bianche e 4 nere, si estraggono due palline. Determinare la probabilità del seguente evento E=«le due palline sono bianche» nel caso di estrazioni a) con rimbussolamento
DettagliSTATISTICA. Esercizi vari
STATISTICA Esercizi vari Esercizio 5.6 p. 205 Variabile Coeff. Dev. std. Statistica t p-value Intercetta 23.384 1.592 14.691 0 Profondità -1.435 0.213-6.726 0 = 0.850 Esercizio 5.6 p. 205 Variabile Coeff.
Dettaglii dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente
TEST DI AUTOVALUTAZIONE - SETTIMANA 6 I diritti d autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito. Metodi statistici per la biologia Parte A. La retta di regressione.2
DettagliCapitolo 6. La distribuzione normale
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 6 La distribuzione normale Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università
DettagliSTATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE
STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 2 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1.1
DettagliTema d esame del 15/02/12
Tema d esame del 15/0/1 Volendo aprire un nuovo locale, una catena di ristoranti chiede ad un consulente di valutare la posizione geografica ideale all interno di un centro abitato. A questo scopo, avvalendosi
DettagliStatistica. Matematica con Elementi di Statistica a.a. 2015/16
Statistica La statistica è la scienza che organizza e analizza dati numerici per fini descrittivi o per permettere di prendere delle decisioni e fare previsioni. Statistica descrittiva: dalla mole di dati
DettagliTeoria e tecniche dei test. Concetti di base
Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi
DettagliCapitolo 9 Verifica di ipotesi: test basati su un campione
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 9 Verifica di ipotesi: test basati su un campione Insegnamento: Statistica Corsi di Laurea Triennale in Economia Facoltà di Economia, Università
DettagliPROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA
PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA
DettagliCovarianza, correlazione e retta di regressione. Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2
Covarianza, correlazione e retta di regressione Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2 Questa presentazione è stata preparata attingendo dai seguenti testi S. M. Iacus, Statistica,
DettagliCapitolo 11 Test chi-quadro
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 11 Test chi-quadro Insegnamento: Statistica Corsi di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara Docenti: Dott.
DettagliCorso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII
Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Un breve richiamo sul test t-student Siano A exp (a 1, a 2.a n ) e B exp (b 1, b 2.b m ) due set di dati i cui
DettagliIl modello lineare misto
Il modello lineare misto (capitolo 9) A M D Marcello Gallucci Univerisità Milano-Bicocca Lezione: 15 GLM Modello Lineare Generale vantaggi Consente di stimare le relazioni fra due o più variabili Si applica
DettagliΣ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica
13. Regressione lineare parametrica Esistono numerose occasioni nelle quali quello che interessa è ricostruire la relazione di funzione che lega due variabili, la variabile y (variabile dipendente, in
DettagliIndice. 1 Introduzione ai modelli lineari 2. 2 Dataset 3. 3 Il Modello 8. 4 In pratica 12 4.1 Peso e percorrenza... 12
Indice 1 Introduzione ai modelli lineari 2 2 Dataset 3 3 Il Modello 8 4 In pratica 12 41 Peso e percorrenza 12 1 Capitolo 1 Introduzione ai modelli lineari Quando si analizzano dei dati, spesso si vuole
DettagliProva scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A)
Prova scritta di STATISTICA CDL Biotecnologie (Programma di Massimo Cristallo - A) 1. Un associazione di consumatori, allo scopo di esaminare la qualità di tre diverse marche di batterie per automobili,
DettagliIl test (o i test) del Chi-quadrato ( 2 )
Il test (o i test) del Chi-quadrato ( ) I dati: numerosità di osservazioni che cadono all interno di determinate categorie Prima di tutto, è un test per confrontare proporzioni Esempio: confronto tra numero
DettagliCarta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016
Esercitazione 12 maggio 2016 ESERCIZIO 1 Si supponga che in un sondaggio di opinione su un campione di clienti, che utilizzano una carta di credito di tipo standard (Std) o di tipo business (Bsn), si siano
DettagliStatistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.
Statistica inferenziale La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione. Verifica delle ipotesi sulla medie Quando si conduce una
DettagliEsercizi riassuntivi di Inferenza
Esercizi riassuntivi di Inferenza Esercizio 1 Un economista vuole stimare il reddito medio degli abitanti di una cittadina mediante un intervallo al livello di confidenza del 95%. La distribuzione del
DettagliTest di ipotesi su due campioni
2/0/20 Test di ipotesi su due campioni Confronto tra due popolazioni Popolazioni effettive: unità statistiche realmente esistenti. Esempio: Confronto tra forze lavoro di due regioni. Popolazioni ipotetiche:
DettagliMETODO DEI MINIMI QUADRATI
METODO DEI MINIMI QUADRATI Torniamo al problema della crescita della radice di mais in funzione del contenuto di saccarosio nel terreno di coltura. Ripetendo varie volte l esperimento con diverse quantità
DettagliSommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25
Sommario Presentazione dell edizione italiana Prefazione xv xiii Capitolo 1 I dati e la statistica 1 Statistica in pratica: BusinessWeek 1 1.1 Le applicazioni in ambito aziendale ed economico 3 Contabilità
DettagliStatistica Metodologica Avanzato Test 1: Concetti base di inferenza
Test 1: Concetti base di inferenza 1. Se uno stimatore T n è non distorto per il parametro θ, allora A T n è anche consistente B lim Var[T n] = 0 n C E[T n ] = θ, per ogni θ 2. Se T n è uno stimatore con
DettagliGenerazione di Numeri Casuali- Parte 2
Esercitazione con generatori di numeri casuali Seconda parte Sommario Trasformazioni di Variabili Aleatorie Trasformazione non lineare: numeri casuali di tipo Lognormale Trasformazioni affini Numeri casuali
DettagliModelli a effetti misti
Probabilità e Statistica per l analisi di dati sperimentali Modelli a effetti misti Sviluppo e gestione di Data Center per il calcolo scientifico ad alte prestazioni Master Progetto PRISMA, UniBA/INFN
DettagliSTATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria Civile A.A. 2009-10 Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain 1 STATISTICHE, DISTRIBUZIONI CAMPIONARIE
DettagliESERCIZIO 1. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con 3 fattori tra i soggetti.
ESERCIZIO. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con fattori tra i soggetti. Variabile dipendente: PERF Sorgente Modello corretto Intercept SEX_96
DettagliSTATISTICA ESERCITAZIONE
STATISTICA ESERCITAZIONE Dott. Giuseppe Pandolfo 1 Giugno 2015 Esercizio 1 Una fabbrica di scatole di cartone evade il 96% degli ordini entro un mese. Estraendo 300 campioni casuali di 300 consegne, in
DettagliANALISI MULTIVARIATA
ANALISI MULTIVARIATA Marcella Montico Servizio di epidemiologia e biostatistica... ancora sulla relazione tra due variabili: la regressione lineare semplice VD: quantitativa VI: quantitativa Misura la
DettagliIntroduzione all Analisi della Varianza (ANOVA)
Introduzione all Analisi della Varianza (ANOVA) AMD Marcello Gallucci marcello.gallucci@unimib.it Variabili nella Regressione Nella regressione, la viariabile dipendente è sempre quantitativa e, per quello
DettagliStatistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione
Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2010/2011 Statistica Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza
DettagliLIMITI E DERIVATE DI UNA FUNZIONE
LIMITI E DERIVATE DI UNA FUNZIONE INTRODUZIONE In generale, abbiamo un idea chiara del significato di pendenza quando viene utilizzata in contesti concernenti l esperienza quotidiana, ad esempio quando
Dettagli1 Alcuni risultati sulle variabili Gaussiane multivariate
Il modello lineare-gaussiano e il filtro di Kalman Prof. P.Dai Pra 1 Alcuni risultati sulle variabili Gaussiane multivariate In questo paragrafo verranno enunciate e dimostrate alcune proprietà del valor
DettagliLaboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.
5 STIMA PUNTUALE DEI PARAMETRI [Adattato dal libro Excel per la statistica di Enzo Belluco] Sia θ un parametro incognito della distribuzione di un carattere in una determinata popolazione. Il problema
Dettaglilezione 7 AA Paolo Brunori
AA 2016-2017 Paolo Brunori dove siamo arrivati? - se siamo interessati a studiare l andamento congiunto di due fenomeni economici - possiamo provare a misurare i due fenomeni e poi usare la lineare semplice
DettagliIl modello di regressione lineare multivariata
Il modello di regressione lineare multivariata Eduardo Rossi 2 2 Università di Pavia (Italy) Aprile 2013 Rossi MRLM Econometria - 2013 1 / 39 Outline 1 Notazione 2 il MRLM 3 Il modello partizionato 4 Collinearità
Dettagli12) Metodo dei minimi quadrati e linea di tendenza
12) Metodo dei minimi quadrati e linea di tendenza 43 Si supponga di avere una tabella di dati {y exp i} i=1,,n in funzione di altri dati {x i } i=1,,n che siano il risultato di una qualche misura sperimentale.
DettagliStatistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi
Esercitazione 14 Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () 1 / 14 Ex.1: Verifica Ipotesi sulla media (varianza nota) Le funi prodotte da un certo macchinario hanno una
DettagliDistribuzioni secondo due caratteri. Rappresentazioni e prime sintesi
Distribuzioni secondo due caratteri Rappresentazioni e prime sintesi Rappresentazioni delle distribuzioni doppie Quando per ogni unità del collettivo rileviamo due caratteri otteniamo una Esempio. Ad alcuni
Dettagliˆp(1 ˆp) n 1 +n 2 totale di successi considerando i due gruppi come fossero uno solo e si costruisce z come segue ˆp 1 ˆp 2. n 1
. Verifica di ipotesi: parte seconda.. Verifica di ipotesi per due campioni. Quando abbiamo due insiemi di dati possiamo chiederci, a seconda della loro natura, se i campioni sono simili oppure no. Ci
DettagliESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo
Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università di Padova Docenti: Prof. L. Salmaso, Dott. L. Corain ESERCIZI Regressione lineare semplice
DettagliCapitolo 3 Sintesi e descrizione dei dati quantitativi
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 3 Sintesi e descrizione dei dati quantitativi Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e tecnologie Alimentari" Unità
DettagliI. Foglio di esercizi su vettori linearmente dipendenti e linearmente indipendenti. , v 2 = α v 1 + β v 2 + γ v 3. α v 1 + β v 2 + γ v 3 = 0. + γ.
ESERCIZI SVOLTI DI ALGEBRA LINEARE (Sono svolti alcune degli esercizi proposti nei fogli di esercizi su vettori linearmente dipendenti e vettori linearmente indipendenti e su sistemi lineari ) I. Foglio
DettagliCampo di Variazione Costituisce la misura di
Statistica2 22/09/2015 I Parametri di dispersione Campo di Variazione Costituisce la misura di PESO ALLA NASCITA DEI BOVINI matricola PESO SESSO 7 38,00 F 8 38,00 F 1 40,00 F 2 40,00 F 5 40,00 F 10 42,00
Dettagli