MODELLI LINEARI E NON LINEARI IN R

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "MODELLI LINEARI E NON LINEARI IN R"

Transcript

1 MODELLI LINEARI E NON LINEARI IN R Angelo M. Mineo Dipartimento di Scienze Statistiche e Matematiche S. Vianelli Università degli Studi di Palermo

2 Copyright 2008 Angelo M. Mineo. All rights reserved.

3 i Prefazione R [26], ormai da anni, costituisce nell ambito dei software per la Statistica una valida alternativa ai più diffusi ambienti statistici commerciali. In particolare, R è un ambiente statistico distribuito gratuitamente in Internet sotto licenza GPL e sviluppato da un team di ricercatori in ambito statistico e informatico di fama mondiale. Esistono versioni di R per diverse piattaforme e in particolare per i più diffusi sistemi operativi per Personal Computer, cioè Windows, MAC e Linux. Inoltre R, costituendo un vero e proprio ambiente di programmazione, permette una elevatissima flessibilità nell implementazione di funzioni di calcolo e di rappresentazione grafica statistica. In questo lavoro si farà riferimento alla teoria dei modelli lineari e non lineari, con particolare riferimento all analisi di questi modelli attraverso l uso di R; infatti, maggiore enfasi verrà rivolta non tanto agli aspetti formali relativi ai modelli trattati, che possono essere trovati in uno degli ottimi libri citati in bibliografia, quanto all utilizzo pratico di R per risolvere questi problemi. Questo testo è rivolto principalmente agli studenti del Laboratorio di Statistica del Corso di Laurea in Statistica e Informatica per la Gestione e l Analisi dei Dati della Facoltà di Economia di Palermo e ai dottorandi del Dottorato di Ricerca in Statistica del Dipartimento di Scienze Statistiche e Matematiche Silvio Vianelli dell Università di Palermo.

4 ii Autore Angelo M. Mineo Professore Ordinario di Statistica Dipartimento di Scienze Statistiche e Matematiche Silvio Vianelli Università di Palermo Home page:

5 Indice Prefazione i 1 Regressione lineare Regressione lineare semplice Analisi dei residui Allontanamento dall ipotesi di normalità Regressione lineare multipla Multicollinearità Selezione di variabili Analisi della varianza Analisi della varianza ad una via Confronti multipli Analisi della varianza a due vie Test di Tukey per l ANOVA a due vie Piani non bilanciati Analisi della varianza a più vie Analisi della covarianza ANCOVA con un fattore a due livelli ANCOVA considerando un fattore con più di due livelli Regressione non lineare Stima dei parametri Utilizzo della funzione nls() Utilizzo della funzione optim() Modelli lineari generalizzati Proprietà dei modelli lineari generalizzati La struttura dell errore Il predittore lineare La funzione di link La stima dei parametri La devianza Modelli per risposte categoriali Modelli ad odds proporzionali Modelli per dati di conteggio Regressione di Poisson Modelli log-lineari per tabelle di contingenza iii

6 iv INDICE 6 Modelli per l analisi di sopravvivenza Funzioni di interesse L analisi di sopravvivenza in R Lo stimatore di Kaplan-Meier Il test del logaritmo dei ranghi Il modello a rischi proporzionali di Cox Modelli stocastici per serie storiche Analisi preliminare di una serie storica Bibliografia 130 Indice analitico 134

7 Capitolo 1 Regressione lineare In questo e nel prossimo capitolo faremo riferimento all analisi dei modelli lineari, trattando in particolare i modelli di regressione lineare e i modelli di analisi della varianza. Per quanto riguarda l analisi di regressione lineare, faremo riferimento al modello di regressione lineare semplice e multipla, nel caso di errori accidentali distribuiti secondo una curva normale, facendo quindi un piccolo cenno al caso in cui gli errori sono distribuiti secondo una distribuzione più generale degli errori (distribuzione normale di ordine p). Per quanto riguarda l analisi della varianza, faremo esplicito riferimento ai modelli ad una e a due vie, per poi fare un cenno al caso di modelli a più di due vie. In un successivo capitolo descriveremo, quindi, il caso di modelli di regressione esplicitamente non lineari, facendo riferimento al solo caso in cui gli errori sono distribuiti secondo una distribuzione normale. 1.1 Regressione lineare semplice Supponiamo di avere rilevato su n unità statistiche due variabili quantitative (x, y) e che la variabile y possa pensarsi dipendente dalla variabile x. Chiamiamo, quindi, la variabile y variabile di risposta o dipendente e la variabile x variabile esplicativa o indipendente. L espressione generale di un modello di regressione lineare semplice è data da y i = α + βx i + ε i (1.1) dove, come è noto, ε i costituisce la parte accidentale del modello, mentre la funzione lineare α + βx i costuisce la parte deterministica del modello, con α che rappresenta l intercetta e β che rappresenta il coefficiente angolare della retta Y i = α + βx i. Le ipotesi che solitamente si fanno sulla parte accidentale del modello sono le seguenti: 1. gli errori ε i sono indipendenti; 2. gli errori ε i sono omoschedastici (hanno, cioè, stessa varianza pari a σ 2 ); 3. gli errori ε i sono distribuiti secondo una N(0, σ 2 ). 1

8 2 CAPITOLO 1. REGRESSIONE LINEARE In realtà, se si utilizza il metodo dei minimi quadrati per la stima dell intercetta α e del coefficiente angolare β (chiamato anche parametro di regressione) non è necessaria l ipotesi di errori accidentali ε i distribuiti secondo una normale. In particolare, supponendo di avere n coppie di osservazioni (x i, y i ), il metodo dei minimi quadrati prevede che le stime di α e β siano ricavate dalla minimizzazione della funzione di perdita Q = n [y i (α + βx i )] 2 (1.2) i=1 Risolvendo questo problema di minimo, si ottengono le stime dei parametri di regressione, date da ˆβ = σ xy σ 2 x = (xi X)(y i Ȳ ) (xi X) 2 (1.3) ˆα = Ȳ ˆβ X (1.4) È possibile ottenere anche uno stimatore corretto della varianza degli errori accidentali σ 2, dato da n S 2 i=1 = [y i (ˆα + ˆβx i )] 2. (1.5) n 2 La parte di varianza spiegata dalla retta di regressione, rispetto alla varianza totale, ci dà il coefficiente di determinazione R 2, che permette di stabilire se il modello adattato è congruo, oppure no. Più avanti vedremo qual è l espressione che permette di calcolare il coefficiente di determinazione. Inoltre, se consideriamo in maniera esplicita l ipotesi di errori distribuiti secondo una N(0, σ 2 ), il metodo dei minimi quadrati coincide con il metodo della massima verosimiglianza. Come esempio di analisi di regressione lineare semplice, consideriamo l insieme di dati ciclisti.txt, utilizzato, tra gli altri, in [15] e [39]. In questo insieme di dati sono state considerate dieci strade con pista ciclabile ed è stata misurata la distanza tra la linea di mezzeria e un ciclista sulla pista ciclabile (variabile Center); in queste stesse dieci strade è stata determinata attraverso fotografie la distanza tra lo stesso ciclista e una macchina passante per la strada considerata (variabile Car, le distanze sono state misurate in piedi). Analizziamo questi dati, effettuando un analisi di regressione lineare semplice, considerando Car come variabile di risposta e Center come variabile esplicativa: > ciclisti <- read.table("ciclisti.txt", header = TRUE) > ciclisti Center Car

9 1.1. REGRESSIONE LINEARE SEMPLICE > res.ciclisti <- lm(car ~ Center, data = ciclisti) > summary(res.ciclisti) Call: lm(formula = Car ~ Center, data = ciclisti) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) Center e-06 *** --- Signif. codes: 0 `***' `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: on 8 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 1 and 8 DF, p-value: 9.975e-06 Come si può vedere, eseguendo la serie di istruzioni indicate sopra si è ottenuta una serie di informazioni, le più rilevanti delle quali, in questa prima fase, sono la stima dei parametri e il valore del coefficiente di determinazione R 2, che sta ad indicare un elevata spiegazione della variabile di risposta attraverso quella esplicativa (R 2 = ). Volendo visualizzare graficamente i dati e la retta stimata, si possono utilizzare i seguenti comandi: > plot(ciclisti$center, ciclisti$car, xlab = "Center", + ylab = "Car", main = "Retta di regressione per i dati + del file \"ciclisti.txt\"") > abline(res.ciclisti)

10 4 CAPITOLO 1. REGRESSIONE LINEARE Retta di regressione per i dati del file "ciclisti.txt" Car Center Dal grafico prodotto viene confermato l ottimo adattamento del modello ai dati. L ipotesi di normalità degli errori accidentali è, comunque, necessaria farla, se si vogliono costruire intervalli di confidenza o fare verifica di ipotesi sul parametro di regressione. In particolare, per quanto riguarda lo stabilire attraverso un test statistico la significatività del parametro di regressione β, è possibile organizzare una tabella di analisi della varianza, che permette di ricavare immediatamente la statistica test; infatti, se si indica con Dev(R), Dev(E) e Dev(T ) la devianza di regressione, la devianza dell errore e la devianza totale, rispettivamente, le cui espressioni sono date da: Dev(R) = Dev(E) = Dev(T ) = n (ŷ i Ȳ )2 (1.6) i=1 n (y i ŷ i ) 2 (1.7) i=1 n (y i Ȳ )2 (1.8) i=1 dove con y i si sono indicati i valori della variabile di risposta in corrispondenza di ciascun valore x i, con ŷ i i valori stimati sulla retta di regressione e con Ȳ la media delle y i, è facile vedere come Dev(T ) = Dev(R) + Dev(E) (1.9) Inoltre è possibile vedere graficamente le quantità coinvolte per il calcolo di queste quantità:

11 1.1. REGRESSIONE LINEARE SEMPLICE 5 > plot(ciclisti$center, ciclisti$car, ylim = c(5, 12), + xlab = "Center", ylab = "Car", + main = "Contributo di ciascun punto alla + Devianza Totale") > abline(h = mean(ciclisti$car)) > abline(res.ciclisti) > for (i in 1:length(ciclisti$Car)) lines( + c(ciclisti$center[i], ciclisti$center[i]), + c(ciclisti$car[i], mean(ciclisti$car))) Contributo di ciascun punto alla Devianza Totale Car Center > plot(ciclisti$center, ciclisti$car, ylim = c(5, 12), + xlab = "Center", ylab = "Car", + main = "Contributo di ciascun punto alla + Devianza di Regressione") > abline(h = mean(ciclisti$car)) > abline(res.ciclisti) > for (i in 1:length(ciclisti$Car)) lines( + c(ciclisti$center[i], ciclisti$center[i]), + c(predict(res.ciclisti)[i], mean(ciclisti$car)))

12 6 CAPITOLO 1. REGRESSIONE LINEARE Contributo di ciascun punto alla Devianza di Regressione Car Center > plot(ciclisti$center, ciclisti$car, ylim = c(5, 12), + xlab = "Center", ylab = "Car", + main = "Contributo di ciascun punto alla + Devianza d'errore") > abline(h = mean(ciclisti$car)) > abline(res.ciclisti) > for (i in 1:length(ciclisti$Car)) lines( + c(ciclisti$center[i], ciclisti$center[i]), + c(ciclisti$car[i], predict(res.ciclisti)[i]))

13 1.1. REGRESSIONE LINEARE SEMPLICE 7 Contributo di ciascun punto alla Devianza d'errore Car Center È possibile, allora, costruire la seguente tabella Sorgente Devianza gdl Varianza F Regressione Dev(R) 1 V ar(r) = Dev(R) Errore Dev(E) n 2 S 2 = Dev(E) n 2 Totale Dev(T ) n 1 V ar(r) S 2 che permette di ricavare direttamente la statistica test F per saggiare il sistema di ipotesi H o : β = 0 H 1 : β 0 Il test F risulta significativo per valori elevati della statistica test, cioè per valori che si trovano nella coda destra della distribuzione. Dalla tabella ANOVA è anche possibile ricavare il coefficiente di determinazione R 2, già visto in precedenza, che, come è noto, è dato da R 2 = Dev(R) Dev(T ) = 1 Dev(E) Dev(T ) Per i nostri dati la tabella di analisi della varianza è la seguente (1.10) > anova(res.ciclisti) Analysis of Variance Table

14 8 CAPITOLO 1. REGRESSIONE LINEARE Response: Car Df Sum Sq Mean Sq F value Pr(>F) Center e-06 *** Residuals Signif. codes: 0 `***' `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 È possibile costruire intervalli di confidenza per i parametri (in questo senso si potrebbero sfruttare le informazioni visualizzate con il comando summary()), ma spesso quello che interessa è costruire un intervallo di confidenza sulla posizione della retta di regressione o un intervallo di previsione per un valore di y non ancora estratto. Se interessa costruire un intervallo di confidenza per la retta di regressione, allora si può dimostrare che una stima corretta della varianza è pari a [ 1 S 2 n + (x i X) 2 ] nsx 2 (1.11) Se invece si desidera costruire un intervallo di previsione per un valore di y, allora una stima corretta della varianza sarà data da [ S n + (x i X) 2 ] nsx 2 (1.12) Volendo rappresentare graficamente la banda di confidenza e la banda di previsione con un livello di fiducia pari al 95%, si possono eseguire i seguenti comandi: > int.previsione <- predict(res.ciclisti, ciclisti, + interval = "prediction") > int.confidenza <- predict(res.ciclisti, ciclisti, + interval = "confidence") > matplot(ciclisti$center, cbind(int.confidenza, + int.previsione[, -1]), lty = c(1, 2, 2, 3, 3), + type = "l", xlab = "Center", ylab = "Car", + col = c("black", "red", "red", "blue", "blue"), + main = "Banda di confidenza e di previsione") > points(ciclisti$center, ciclisti$car)

15 1.1. REGRESSIONE LINEARE SEMPLICE 9 Banda di confidenza e di previsione Car Center Analisi dei residui Abbiamo visto, nel precedente paragrafo, quali sono le ipotesi di base relative alla parte accidentale di un modello di regressione lineare semplice. Dopo aver stimato i parametri del modello si potrebbero verificare a posteriori le ipotesi fatte, basandosi sui residui, cioè le differenze tra le y i osservate e le y i stimate con il modello considerato. Solitamente, questa analisi è di tipo grafico. In R è semplicissimo effettuare un analisi di questo tipo, nota come analisi dei residui: > par(mfrow = c(2, 2), mar = c(5, 4, 5, 4) + 0.1) > plot(res.ciclisti) > par(mfrow = c(1, 1), mar = c(5, 4, 4, 4) + 0.1) > par(new = TRUE) > plot(ciclisti$center, axes = FALSE, xlab = "", ylab = "", + type = "n", main = "Analisi dei residui per il file di + dati \"ciclisti.txt\"")

16 10 CAPITOLO 1. REGRESSIONE LINEARE Residuals Analisi dei residui per il file di dati "ciclisti.txt" Residuals vs Fitted Standardized residuals Normal Q Q plot Fitted values Theoretical Quantiles Standardized residuals Scale Location plot Cook's distance Cook's distance plot Fitted values Obs. number Il comando par(mfrow=c(2,2)) è servito per rappresentare i quattro grafici forniti da R in un unica finestra divisa in quattro parti (due righe e due colonne); l ultimo comando ha ristabilito la situazione originaria di un singolo grafico in una finestra. In particolare, i grafici visualizzati ci danno informazioni sulle ipotesi fatte sugli errori accidentali relativamente all indipendenza (grafico in alto a sinistra), all ipotesi di normalità (grafico in alto a destra), alla omoschedasticità (grafico in basso a sinistra) e alla eventuale presenza di valori anomali (grafico in basso a destra). Nel caso specifico, non sembrano esserci forti violazioni delle ipotesi di base fatte sugli errori accidentali Allontanamento dall ipotesi di normalità Spesso l ipotesi di normalità per la parte accidentale di un modello di regressione non è sostenibile, pur essendo verificata la condizione che gli errori hanno media zero e varianza costante. In questi casi può essere utile considerare distribuzioni simmetriche diverse dalla normale. Una famiglia di curve che potrebbe essere utilizzata in questo caso è quella delle curve normali di ordine p (vedi tra gli altri [31], [32] e [33]), la cui funzione di densità di probabilità è data da: f(x) = x µ 1 p 2p 1/p σ p Γ(1 + 1/p) e pσp p (1.13) In questo caso, volendo stimare i coefficienti di regressione con il metodo della massima verosimiglianza si può utilizzare il package normalp di R (vedi [34]). Considerando, ad esempio, il file di dati utilizzato in precedenza, adattiamo un modello di regressione lineare semplice supponendo che gli errori seguano una

17 1.1. REGRESSIONE LINEARE SEMPLICE 11 distribuzione normale di ordine p (la funzione che utilizzeremo provvederà anche alla stima di p): > res.ciclisti.p <- lmp(car ~ Center, data = ciclisti) > summary(res.ciclisti.p) Call: lmp(formula = Car ~ Center, data = ciclisti) Residuals: Min 1Q Median 3Q Max Coefficients: (Intercept) Center Estimate of p Power deviation of order p: Volendo confrontare le due rette di regressione, la prima ottenuta con il metodo dei minimi quadrati, la seconda supponendo gli errori accidentali distribuiti secondo una curva normale di ordine p, si può utilizzare la seguente rappresentazione grafica: > plot(ciclisti$center, ciclisti$car, xlab = "Center", + ylab = "Car", main = "Regressione di norma p") > abline(res.ciclisti, col = "black") > abline(res.ciclisti.p, col = "red") > legend(13, 11, c("minimi quadrati", "norma p"), + lty = c(1, 1), col = c("black", "red"))

18 12 CAPITOLO 1. REGRESSIONE LINEARE Regressione di norma p Car minimi quadrati norma p Center Come può notarsi non sembrano esserci in questo caso grosse differenze tra le due rette di regressione. In particolare, in questo caso la stima di p è risultata pari a ˆp = , indicando una distribuzione normale di ordine p leptocurtica, come possibile distribuzione degli errori accidentali per l insieme di dati considerato. È possibile anche effettuare un analisi dei residui di norma p: > par(mfrow = c(2, 2), mar = c(5, 4, 5, 4) + 0.1) > plot(res.ciclisti.p) > par(mfrow = c(1, 1), mar = c(5, 4, 4, 4) + 0.1) > par(new = TRUE) > plot(ciclisti$center, axes = FALSE, xlab = "", ylab = "", + type = "n", main = "Analisi dei residui di norma p")

19 1.2. REGRESSIONE LINEARE MULTIPLA 13 Residuals p Residuals vs Fitted Analisi dei residui di norma p Standardized residuals Normal Q Q plot Fitted values lmp(formula = Car ~ Center, data = ciclisti) Theoretical Quantiles lmp(formula = Car ~ Center, data = ciclisti) Normal of order p Q Q plot Standardized residuals p= Standardized residuals Scale Location plot Theoretical Quantiles lmp(formula = Car ~ Center, data = ciclisti) Fitted values lmp(formula = Car ~ Center, data = ciclisti) Anche in questo caso, non sembrano esserci forti violazioni delle ipotesi di base fatte sugli errori accidentali. 1.2 Regressione lineare multipla Nel caso in cui si ha a che fare con più di una variabile esplicativa, la regressione lineare, da semplice, diventa multipla: y = β 0 + β 1 x 1 + β 2 x β q x q + ε (1.14) In particolare, in questo modello con intercetta si sta supponendo di avere una variabile di risposta y e q variabili esplicative x i, con i = 1, 2,..., q. Quando si ha a che fare con un modello di regressione lineare multipla è conveniente utilizzare la notazione matriciale: supponendo di avere n unità statistiche sulle quali sono state rilevate le q + 1 variabili (y; x 1, x 2,..., x q ), allora indichiamo con y = [y 1, y 2,..., y n ] la variabile di risposta, con x i = [x i1, x i2,..., x in ] la i esima variabile esplicativa, con X la cosiddetta matrice disegno di ordine n (q + 1): 1 x 11 x x q1 1 x 12 x x q2 X = x 1n x 2n... x qn e con β = [β 0, β 1, β 2,..., β q ] e ε = [ε 1, ε 2,..., ε n ] rispettivamente il vettore dei

20 14 CAPITOLO 1. REGRESSIONE LINEARE coefficienti di regressione e il vettore degli errori accidentali. In questo caso si può quindi scrivere il modello di regressione lineare multipla come y = Xβ + ε (1.15) Applicando il metodo dei minimi quadrati per la stima dei parametri, si ottiene: Infatti, in questo caso la funzione di perdita è data da: ˆβ = (X X) 1 X y (1.16) (y Xβ) (y Xβ) (1.17) che bisogna minimizzare rispetto a β. Esplicitando la funzione di perdita si ha: che può essere posta nella forma: y y (Xβ) y y (Xβ) + (Xβ) (Xβ) (1.18) y y 2(Xβ) y + (Xβ) (Xβ) (1.19) dato che le due quantità (Xβ) y e y (Xβ) sono due scalari. Derivando l espressione ottenuta ed eguegliandola a zero, si ha: 2X y + 2(X X)β = 0 (1.20) da cui segue, se la matrice (X X) è invertibile, la (1.16). Consideriamo, come esempio, i dati contenuti nel file formaggio.txt [35] e relativi alle concentrazioni di varie sostanze chimiche in 30 campioni di formaggio Cheddar, prodotto nella zona LaTrobe Valley dello stato Victoria in Australia; come variabile di risposta è stata considerata una misura soggettiva del gusto per ogni campione. È noto, infatti, che man mano che il formaggio matura, hanno luogo diversi processi chimici che determinano il sapore del prodotto finale. In particolare, le variabili prese in considerazione sono: Taste Acetic H2S Lactic Punteggio soggettivo del test sul gusto, ottenuto combinando i punteggi dei diversi assaggiatori. Logaritmo naturale della concentrazione di acido acetico. Logaritmo naturale della concentrazione di acido solfidrico. Concentrazione di acido lattico. Si è, quindi, proceduto con l analisi di questo insieme di dati: > formaggio <- read.table("formaggio.txt", header = TRUE) > formaggio Taste Acetic H2S Lactic

21 1.2. REGRESSIONE LINEARE MULTIPLA > cor(formaggio) Taste Acetic H2S Lactic Taste Acetic H2S Lactic > plot(formaggio, main = "Matrice di scatterplot + per le variabili di \"formaggio.txt\"")

22 16 CAPITOLO 1. REGRESSIONE LINEARE Taste Acetic H2S Lactic Matrice di scatterplot per le variabili di "formaggio.txt" > attach(formaggio) > res.formaggio <- lm(taste ~ Acetic + H2S + Lactic) > res.formaggio Call: lm(formula = Taste ~ Acetic + H2S + Lactic) Coefficients: (Intercept) Acetic H2S Lactic > par(mfrow = c(2, 2), mar = c(5, 4, 5, 4) + 0.1) > plot(res.formaggio) > par(mfrow = c(1, 1), mar = c(5, 4, 4, 4) + 0.1) > par(new = TRUE) > plot(taste, axes = FALSE, xlab = "", ylab = "", + type = "n", main = "Analisi dei residui per + il file di dati \"formaggio.txt\"")

23 1.2. REGRESSIONE LINEARE MULTIPLA 17 Residuals Analisi dei residui per il file di dati "formaggio.txt" Residuals vs Fitted Normal Q Q plot Standardized residuals Fitted values Theoretical Quantiles Standardized residuals Scale Location plot Cook's distance Cook's distance plot Fitted values Obs. number > summary(res.formaggio) Call: lm(formula = Taste ~ Acetic + H2S + Lactic) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) Acetic H2S ** Lactic * --- Signif. codes: 0 `***' `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: on 26 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 3 and 26 DF, p-value: 3.81e-06 In questo caso, la parte di varianza spiegata dalle variabili esplicative è pari a R 2 = Così come si è fatto nel caso di regressione lineare semplice, è possibile costruire anche in questo caso la tabella di analisi della varianza

24 18 CAPITOLO 1. REGRESSIONE LINEARE Sorgente Devianza gdl Varianza F Regressione Dev(R) q V ar(r) = Dev(R) q Errore Dev(E) n q 1 S 2 = Dev(E) n q 1 Totale Dev(T ) n 1 V ar(r) S 2 che permette di ricavare direttamente la statistica test F per saggiare il sistema di ipotesi H o : β i = 0 i H 1 : β i 0 per qualche i Anche in questo caso, il test F risulta significativo per valori elevati della statistica test, cioè per valori che cadono nella coda destra della distribuzione. > anova(res.formaggio) Analysis of Variance Table Response: Taste Df Sum Sq Mean Sq F value Pr(>F) Acetic e-05 *** H2S *** Lactic * Residuals Signif. codes: 0 `***' `**' 0.01 `*' 0.05 `.' 0.1 ` ' Multicollinearità Si parla di multicollinearità quando si è in presenza di una forte dipendenza lineare tra due o più regressori. I problemi causati dalla presenza di multicollinearità sono diversi e si possono riassumere nei seguenti punti: 1. problemi di stima: considerando il metodo dei minimi quadrati, le stime dei coefficienti di regressione sono date, come abbiamo visto, da ˆβ = (X X) 1 X y (1.21) Se vi è multicollinearità, la matrice X X risulta quasi singolare e quindi si ha un malcondizionamento del sistema di equazioni, che dovrebbe fornirci la stima dei parametri, che quindi risultano inaffidabili; 2. problemi di previsione: risulta, da un punto di vista pratico, inutile fare alcun tipo di previsione per un valore della variabile di risposta y, a causa proprio dell inaffidabilità dei valori di ˆβ; 3. problemi di calcolo: si possono avere problemi computazionali nell inversione della matrice X X.

25 1.4. SELEZIONE DI VARIABILI problemi di interpretazione: un caso frequente che si verifica in presenza di multicollinearità è che nel caso in cui è lecito aspettarsi, per conoscenze proprie del fenomeno sotto studio, dei coefficienti di regressione con un particolare segno, si possono ottenere valori dei coefficienti assolutamente non rispondenti alle aspettative. Il modo migliore per agire, in questo caso, è di vedere quali sono le variabili esplicative responsabili del fenomeno di multicollinearità ed escluderle dall analisi; questo modo di procedere, dal punto di vista della spiegazione della variabile di risposta da parte delle variabili esplicative, porta ad una perdita di informazione molto piccola. Un modo per stabilire se si è in presenza di multicollinearità è quello di calcolare i cosiddetti fattori di inflazione di varianza (VIF, Variance Inflaction Factors). Infatti, quando si è in presenza di multicollinearità, la varianza stimata del j-esimo coefficiente di regressione può essere scritta come ˆ V ar(b j ) = S 2 (n 1)S 2 j 1 1 R 2 j (1.22) dove S 2 è la varianza dell errore, Sj 2 è la varianza di x j ed Rj 2 è il coefficiente di determinazione calcolato facendo la regressione di x j sulle altre variabili esplicative x i, con i = 1, 2,..., q e i j. La quantità 1 V IF j = 1 Rj 2 (1.23) è chiamata fattore di inflazione di varianza per b j. I VIF sono utilizzati come misure di multicollinearità, perché la radice quadrata dei VIF indica di quanto l intervallo di confidenza, costruito su ciascuno dei coefficienti di regressione β j è più grande rispetto alla situazione di dati non correlati. In particolare, quindi, le variabili che risultano maggiormente indiziate di provocare il fenomeno della multicollinearità sono quelle che presentano VIF più elevato. In R la funzione che permette il calcolo dei VIF è contenuta nel package car (vedi [19]). Per il nostro esempio si ha: > library(car) > vif(res.formaggio) Acetic H2S Lactic Considerato che, solitamente, si ritengono responsabili del fenomeno di multicollinearità quelle variabile esplicative che producono valori dei VIF superiori a 10, nel nostro caso c è da ritenere che non ci siano grossi problemi legati alla multicollinearità. 1.4 Selezione di variabili Quando in un problema di regressione lineare multipla si considerano molte variabili esplicative, quello che succede solitamente è che tutte le variabili non contribuiscono in modo determinante alla spiegazione della variabile di risposta.

26 20 CAPITOLO 1. REGRESSIONE LINEARE Risulta, allora, fondamentale poter stabilire quali tra le variabili esplicative sono importanti e quali no, per eventualmente eliminare dall analisi queste ultime, andando così incontro al principio di parsimonia o al principio del rasoio di Occam, per cui, nel nostro caso, un modello risulta ottimale quando riusciamo ad avere il massimo di spiegazione della variabile di risposta con il minimo numero di variabili esplicative. È noto, comunque, che man mano che aumenta il numero di variabili esplicative nel modello, aumenta anche il valore di R 2 : si tratta quindi di stabilire quando l aumento di R 2 si può ritenere significativo, oppure no. Come misura della buona spiegazione della variabile di risposta data dalle variabili esplicative, si può utilizzare anche l Akaike s Information Criterion (vedi [2] e [1]), noto con l acronimo AIC, definito come AIC = 2 log-verosimiglianza massimizzata + 2 numero di parametri (1.24) A valori bassi di AIC corrisponde una buona spiegazione della variabile di risposta. Si deve cercare, allora, il giusto compromesso tra numero minimo di variabili esplicative e spiegazione della variabile di risposta, in base ai valori di AIC. Il modo di cercare quali variabili esplicative lasciare e quali eliminare dall analisi, può essere in avanti (forward), all indietro (backward) o alternato (procedura mista in avanti e all indietro). La procedura forward prevede che si parta con il modello con una sola variabile esplicativa (la più correlata con la variabile di risposta) e via via si vanno introducendo le altre variabili esplicative, fino a quando il test F, su cui è basata la significatività di un modello con più variabili rispetto ad uno più parsimonioso, non risulta più significativo e quindi si arresta la procedura. La procedura backward parte dal modello completo e via via va eliminado le variabili che non danno un contributo significativo alla spiegazione della variabile di risposta. La procedura alternata utilizza le due procedure forward e backward in maniera alternata, appunto. In R esiste la funzione step() che esegue questa procedura in modo automatico, nota come regressione stepwise; la scelta della procedura di ricerca da utilizzare è regolata dall argomento direction che può assumere tre valori: both, backward, oppure forward; il valore di default è both. Vediamo l utilizzo della regressione stepwise applicata al nostro insieme di dati: > step(res.formaggio) Start: AIC= Taste ~ Acetic + H2S + Lactic Df Sum of Sq RSS AIC - Acetic <none> Lactic H2S Step: AIC= Taste ~ H2S + Lactic

Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza

Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza 3 maggio 2005 Esercizio 1 Consideriamo l esempio del libro di testo Annette

Dettagli

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12)

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12) Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 011-1) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola

Dettagli

> d = alimentazione == "benz" > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] 2.385627. > sd(percorr.urbana[d]) [1] 2.

> d = alimentazione == benz > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] 2.385627. > sd(percorr.urbana[d]) [1] 2. A questo punto vale la pena di soffermarci di più sull alimentazione. Intanto cerchiamo di indagare se l alimentazione è davvero un fattore significativo per la percorrenza come è luogo comune pensare.

Dettagli

Indice. 1 Introduzione ai modelli lineari 2. 2 Dataset 3. 3 Il Modello 8. 4 In pratica 12 4.1 Peso e percorrenza... 12

Indice. 1 Introduzione ai modelli lineari 2. 2 Dataset 3. 3 Il Modello 8. 4 In pratica 12 4.1 Peso e percorrenza... 12 Indice 1 Introduzione ai modelli lineari 2 2 Dataset 3 3 Il Modello 8 4 In pratica 12 41 Peso e percorrenza 12 1 Capitolo 1 Introduzione ai modelli lineari Quando si analizzano dei dati, spesso si vuole

Dettagli

Regressione lineare multipla Strumenti quantitativi per la gestione

Regressione lineare multipla Strumenti quantitativi per la gestione Regressione lineare multipla Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare multipla (RLM) Esempio: RLM con due predittori Stima dei coefficienti e previsione Advertising data

Dettagli

ANOVA a un fattore between in R

ANOVA a un fattore between in R ANOVA a un fattore between in R Il file Excel Il file sinburn.xlsx contiene i dati dello studio sulla sindrome da burnout in quindici infermieri ospedalieri di tre diversi reparti. Importare dati in R

Dettagli

Capitolo 12 La regressione lineare semplice

Capitolo 12 La regressione lineare semplice Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara

Dettagli

Università del Piemonte Orientale. Corsi di Specialità. Corso di Statistica Medica. Analisi dei dati quantitativi : Analisi della varianza

Università del Piemonte Orientale. Corsi di Specialità. Corso di Statistica Medica. Analisi dei dati quantitativi : Analisi della varianza Università del Piemonte Orientale Corsi di Specialità Corso di Statistica Medica Analisi dei dati quantitativi : Analisi della varianza Università del Piemonte Orientale Corso di laurea in biotecnologie

Dettagli

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE STATISTICA DESCRITTIVA SCHEDA N. : REGRESSIONE LINEARE Nella Scheda precedente abbiamo visto che il coefficiente di correlazione fra due variabili quantitative X e Y fornisce informazioni sull esistenza

Dettagli

0.1 Percorrenza e Cilindrata

0.1 Percorrenza e Cilindrata 0.1 Percorrenza e Cilindrata Iniziamo ora un analisi leggermente più complessa basata sempre sui concetti appena introdotti. Innanzi tutto possiamo osservare, dal grafico ottenuto con il comando pairs,

Dettagli

è decidere sulla verità o falsità

è decidere sulla verità o falsità I test di ipotesi I test di ipotesi Il test delle ipotesi consente di verificare se, e in quale misura, una determinata ipotesi (di carattere sociale, biologico, medico, economico, ecc.) è supportata dall

Dettagli

1 BREVE RIPASSO DEI TEST STATISTICI 2 I TEST STATISTICI NEI SOFTWARE ECONOMETRICI E IL P-VALUE 3 ESERCIZI DI ALLENAMENTO

1 BREVE RIPASSO DEI TEST STATISTICI 2 I TEST STATISTICI NEI SOFTWARE ECONOMETRICI E IL P-VALUE 3 ESERCIZI DI ALLENAMENTO I TEST STATISTICI E IL P-VALUE Obiettivo di questo Learning Object è ripassare la teoria ma soprattutto la pratica dei test statistici, con un attenzione particolare ai test che si usano in Econometria.

Dettagli

FACOLTÀ DI ECONOMIA Soluzione della Prova di autovalutazione 2012 (primi 6 CFU) ANALISI STATISTICA PER L IMPRESA

FACOLTÀ DI ECONOMIA Soluzione della Prova di autovalutazione 2012 (primi 6 CFU) ANALISI STATISTICA PER L IMPRESA FACOLTÀ DI ECONOMIA Soluzione della Prova di autovalutazione 2012 (primi 6 CFU) ANALISI STATISTICA PER L IMPRESA NB Come potete vedere facendo la somma dei punteggi il numero di quesiti è superiore a quello

Dettagli

3) ANALISI DEI RESIDUI

3) ANALISI DEI RESIDUI 3) ANALISI DEI RESIDUI Dopo l analisi di regressione si eseguono alcuni test sui residui per avere una ulteriore conferma della validità del modello e delle assunzioni (distribuzione normale degli errori,

Dettagli

(a cura di Francesca Godioli)

(a cura di Francesca Godioli) lezione n. 12 (a cura di Francesca Godioli) Ad ogni categoria della variabile qualitativa si può assegnare un valore numerico che viene chiamato SCORE. Passare dalla variabile qualitativa X2 a dei valori

Dettagli

Il modello di regressione lineare multivariata

Il modello di regressione lineare multivariata Il modello di regressione lineare multivariata Eduardo Rossi 2 2 Università di Pavia (Italy) Aprile 2013 Rossi MRLM Econometria - 2013 1 / 39 Outline 1 Notazione 2 il MRLM 3 Il modello partizionato 4 Collinearità

Dettagli

6. Modelli statistici: analisi della regressione lineare

6. Modelli statistici: analisi della regressione lineare BIOSTATISTICA 6. Modelli statistici: analisi della regressione lineare Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk MARTA BLANGIARDO

Dettagli

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: Esempi di domande risposta multipla (Modulo II) 1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: 1) ha un numero di elementi pari a 5; 2) ha un numero di elementi

Dettagli

Dott.ssa Caterina Gurrieri

Dott.ssa Caterina Gurrieri Dott.ssa Caterina Gurrieri Le relazioni tra caratteri Data una tabella a doppia entrata, grande importanza riveste il misurare se e in che misura le variabili in essa riportata sono in qualche modo

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

lezione 18 AA 2015-2016 Paolo Brunori

lezione 18 AA 2015-2016 Paolo Brunori AA 2015-2016 Paolo Brunori Previsioni - spesso come economisti siamo interessati a prevedere quale sarà il valore di una certa variabile nel futuro - quando osserviamo una variabile nel tempo possiamo

Dettagli

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

L Analisi della Varianza ANOVA (ANalysis Of VAriance) L Analisi della Varianza ANOVA (ANalysis Of VAriance) 1 CONCETTI GENERALI Finora abbiamo descritto test di ipotesi finalizzati alla verifica di ipotesi sulla differenza tra parametri di due popolazioni

Dettagli

Modello di regressione lineare

Modello di regressione lineare Modello di regressione lineare a cura di Giordano dott. Enrico enrico.giordano@meliorbanca.com Nel presente lavoro viene descritto in modo dettagliato (attraverso anche un impatto visivo), l analisi di

Dettagli

Elaborazione dei dati su PC Regressione Multipla

Elaborazione dei dati su PC Regressione Multipla 21 Elaborazione dei dati su PC Regressione Multipla Analizza Regressione Statistiche Grafici Metodo di selezione Analisi dei dati 21.1 Introduzione 21.2 Regressione lineare multipla con SPSS 21.3 Regressione

Dettagli

Test non parametrici. Test non parametrici. Test non parametrici. Test non parametrici

Test non parametrici. Test non parametrici. Test non parametrici. Test non parametrici Test non parametrici Test non parametrici Il test T di Student per uno o per due campioni, il test F di Fisher per l'analisi della varianza, la correlazione, la regressione, insieme ad altri test di statistica

Dettagli

0. Piano cartesiano 1

0. Piano cartesiano 1 0. Piano cartesiano Per piano cartesiano si intende un piano dotato di due assi (che per ragioni pratiche possiamo scegliere ortogonali). Il punto in comune ai due assi è detto origine, e funziona da origine

Dettagli

LEZIONE n. 5 (a cura di Antonio Di Marco)

LEZIONE n. 5 (a cura di Antonio Di Marco) LEZIONE n. 5 (a cura di Antonio Di Marco) IL P-VALUE (α) Data un ipotesi nulla (H 0 ), questa la si può accettare o rifiutare in base al valore del p- value. In genere il suo valore è un numero molto piccolo,

Dettagli

3. Confronto tra medie di due campioni indipendenti o appaiati

3. Confronto tra medie di due campioni indipendenti o appaiati BIOSTATISTICA 3. Confronto tra medie di due campioni indipendenti o appaiati Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk MARTA BLANGIARDO

Dettagli

La regressione lineare multipla

La regressione lineare multipla 13 La regressione lineare multipla Introduzione 2 13.1 Il modello di regressione multipla 2 13.2 L analisi dei residui nel modello di regressione multipla 9 13.3 Il test per la verifica della significatività

Dettagli

Statistica descrittiva: prime informazioni dai dati sperimentali

Statistica descrittiva: prime informazioni dai dati sperimentali SECONDO APPUNTAMENTO CON LA SPERIMENTAZIONE IN AGRICOLTURA Statistica descrittiva: prime informazioni dai dati sperimentali La statistica descrittiva rappresenta la base di partenza per le applicazioni

Dettagli

Regressione Lineare con un Singolo Regressore

Regressione Lineare con un Singolo Regressore Regressione Lineare con un Singolo Regressore Quali sono gli effetti dell introduzione di pene severe per gli automobilisti ubriachi? Quali sono gli effetti della riduzione della dimensione delle classi

Dettagli

Elaborazione dati in Analisi Sensoriale

Elaborazione dati in Analisi Sensoriale Elaborazione dati in Analisi Sensoriale Si è parlato di interpretazione corretta dei risultati ottenuti; a questo concorrono due fattori: affidabilità e validità. Se i test fossero stati ripetuti con lo

Dettagli

iovanella@disp.uniroma2.it http://www.disp.uniroma2.it/users/iovanella Verifica di ipotesi

iovanella@disp.uniroma2.it http://www.disp.uniroma2.it/users/iovanella Verifica di ipotesi iovanella@disp.uniroma2.it http://www.disp.uniroma2.it/users/iovanella Verifica di ipotesi Idea di base Supponiamo di avere un idea del valore (incognito) di una media di un campione, magari attraverso

Dettagli

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale BIOSTATISTICA 2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk

Dettagli

VERIFICA DELLE IPOTESI

VERIFICA DELLE IPOTESI VERIFICA DELLE IPOTESI Introduzione Livelli di significatività Verifica di ipotesi sulla media di una popolazione normale Verifica di ipotesi sulla varianza di una popolazione normale Verifica di ipotesi

Dettagli

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2. Analisi multivariata Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Cercare di capire le relazioni

Dettagli

Laboratorio di Statistica con R

Laboratorio di Statistica con R Laboratorio di Statistica con R R è un vero e proprio linguaggio di programmazione. Il suo nome, è dovuto probabilmente al nome dei suoi sviluppatori:robert Gentleman e Ross Ihaka Le principali funzioni

Dettagli

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi :

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi : Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi dei dati quantitativi : Confronto tra due medie Università del Piemonte Orientale Corso di laurea in

Dettagli

Statistica Medica. Verranno presi in esame:

Statistica Medica. Verranno presi in esame: Statistica Medica Premessa: il seguente testo cerca di riassumere e rendere in forma comprensibile ai non esperti in matematica e statistica le nozioni e le procedure necessarie a svolgere gli esercizi

Dettagli

LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE

LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE 5.1 ESEMPIO DI ANOVA AD UNA VIA In un esperimento un gruppo di bambini è stato assegnato a caso a 3 trattamenti, allo scopo di determinare

Dettagli

09 - Funzioni reali di due variabili reali

09 - Funzioni reali di due variabili reali Università degli Studi di Palermo Facoltà di Economia CdS Sviluppo Economico e Cooperazione Internazionale Appunti del corso di Matematica 09 - Funzioni reali di due variabili reali Anno Accademico 2013/2014

Dettagli

Excel Terza parte. Excel 2003

Excel Terza parte. Excel 2003 Excel Terza parte Excel 2003 TABELLA PIVOT Selezioniamo tutti i dati (con le relative etichette) Dati Rapporto tabella pivot e grafico pivot Fine 2 La tabella pivot viene messa di default in una pagina

Dettagli

Metodi statistici e probabilistici per l ingegneria. Corso di Laurea in Ingegneria Civile A.A. 2009-10. Facoltà di Ingegneria. Università di Padova

Metodi statistici e probabilistici per l ingegneria. Corso di Laurea in Ingegneria Civile A.A. 2009-10. Facoltà di Ingegneria. Università di Padova Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria Civile A.A. 29- Facoltà di Ingegneria Università di Padova Docente: Dott. L. Corain ESERCIZIO (TEST AD UN CAMPIONE) Un

Dettagli

Abbiamo visto due definizioni del valore medio e della deviazione standard di una grandezza casuale, in funzione dalle informazioni disponibili:

Abbiamo visto due definizioni del valore medio e della deviazione standard di una grandezza casuale, in funzione dalle informazioni disponibili: Incertezze di misura Argomenti: classificazione delle incertezze; definizione di incertezza tipo e schemi di calcolo; schemi per il calcolo dell incertezza di grandezze combinate; confronto di misure affette

Dettagli

Statistica. Lezione 6

Statistica. Lezione 6 Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 6 a.a 011-01 Dott.ssa Daniela Ferrante

Dettagli

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8 CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Test delle ipotesi sulla varianza In un azienda che produce componenti meccaniche, è stato

Dettagli

Parte 2. Determinante e matrice inversa

Parte 2. Determinante e matrice inversa Parte. Determinante e matrice inversa A. Savo Appunti del Corso di Geometria 013-14 Indice delle sezioni 1 Determinante di una matrice, 1 Teorema di Cramer (caso particolare), 3 3 Determinante di una matrice

Dettagli

Gli OLS come statistica descrittiva

Gli OLS come statistica descrittiva Gli OLS come statistica descrittiva Cos è una statistica descrittiva? È una funzione dei dati che fornisce una sintesi su un particolare aspetto dei dati che a noi interessa; naturalmente, è auspicabile

Dettagli

La Regressione Lineare

La Regressione Lineare La Regressione Lineare. Cos è l Analisi della Regressione Multipla? L analisi della regressione multipla è una tecnica statistica che può essere impiegata per analizzare la relazione tra una variabile

Dettagli

Diaz - Appunti di Statistica - AA 2001/2002 - edizione 29/11/01 Cap. 3 - Pag. 1 = 1

Diaz - Appunti di Statistica - AA 2001/2002 - edizione 29/11/01 Cap. 3 - Pag. 1 = 1 Diaz - Appunti di Statistica - AA 2001/2002 - edizione 29/11/01 Cap. 3 - Pag. 1 Capitolo 3. L'analisi della varianza. Il problema dei confronti multipli. La soluzione drastica di Bonferroni ed il test

Dettagli

UNIVERSITA DEGLI STUDI DI PADOVA FACOLTA DI SCIENZE STATISTICHE CORSO DI LAUREA IN STATISTICA E TECNOLOGIA INFORMATICA

UNIVERSITA DEGLI STUDI DI PADOVA FACOLTA DI SCIENZE STATISTICHE CORSO DI LAUREA IN STATISTICA E TECNOLOGIA INFORMATICA UNIVERSITA DEGLI STUDI DI PADOVA FACOLTA DI SCIENZE STATISTICHE CORSO DI LAUREA IN STATISTICA E TECNOLOGIA INFORMATICA TESI DI LAUREA CONFRONTO TRA MODELLI STATISTICI NON PARAMETRICI :UNA APPLICAZIONE

Dettagli

Regressione logistica. Strumenti quantitativi per la gestione

Regressione logistica. Strumenti quantitativi per la gestione Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 1/25 Metodi di classificazione I metodi usati per analizzare

Dettagli

Facoltà di Psicologia Università di Padova Anno Accademico 2010-2011

Facoltà di Psicologia Università di Padova Anno Accademico 2010-2011 Facoltà di Psicologia Università di Padova Anno Accademico 010-011 Corso di Psicometria - Modulo B Dott. Marco Vicentini marco.vicentini@unipd.it Rev. 10/01/011 La distribuzione F di Fisher - Snedecor

Dettagli

Statistiche campionarie

Statistiche campionarie Statistiche campionarie Sul campione si possono calcolare le statistiche campionarie (come media campionaria, mediana campionaria, varianza campionaria,.) Le statistiche campionarie sono stimatori delle

Dettagli

I punteggi zeta e la distribuzione normale

I punteggi zeta e la distribuzione normale QUINTA UNITA I punteggi zeta e la distribuzione normale I punteggi ottenuti attraverso una misurazione risultano di difficile interpretazione se presi in stessi. Affinché acquistino significato è necessario

Dettagli

4. Matrici e Minimi Quadrati

4. Matrici e Minimi Quadrati & C. Di Natale: Matrici e sistemi di equazioni di lineari Formulazione matriciale del metodo dei minimi quadrati Regressione polinomiale Regressione non lineare Cross-validazione e overfitting Regressione

Dettagli

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL 1 RAPPRESENTAZIONE GRAFICA Per l analisi dati con Excel si fa riferimento alla versione 2007 di Office, le versioni successive non differiscono

Dettagli

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla Il metodo della regressione può essere esteso dal caso in cui si considera la variabilità della risposta della y in relazione ad una sola variabile indipendente X ad una situazione più generale in cui

Dettagli

LEZIONI DI STATISTCA APPLICATA. Parte 2. Statistica inferenziale. Variabili continue per continue. Alessandro Valbonesi. SARRF di Scienze ambientali

LEZIONI DI STATISTCA APPLICATA. Parte 2. Statistica inferenziale. Variabili continue per continue. Alessandro Valbonesi. SARRF di Scienze ambientali LEZIONI DI STATISTCA APPLICATA Parte 2 Statistica inferenziale Variabili continue per continue Alessandro Valbonesi SARRF di Scienze ambientali Anno accademico 2010-11 CAPITOLO 7 - RELAZIONI TRA DUE O

Dettagli

Indicando con x i minuti di conversazione effettuati in un mese, con la spesa totale nel mese e con il costo medio al minuto:

Indicando con x i minuti di conversazione effettuati in un mese, con la spesa totale nel mese e con il costo medio al minuto: PROBLEMA 1. Il piano tariffario proposto da un operatore telefonico prevede, per le telefonate all estero, un canone fisso di 10 euro al mese, più 10 centesimi per ogni minuto di conversazione. Indicando

Dettagli

i=1 Y i, dove Y i, i = 1,, n sono indipendenti e somiglianti e con la stessa distribuzione di Y.

i=1 Y i, dove Y i, i = 1,, n sono indipendenti e somiglianti e con la stessa distribuzione di Y. Lezione n. 5 5.1 Grafici e distribuzioni Esempio 5.1 Legame tra Weibull ed esponenziale; TLC per v.a. esponenziali Supponiamo che X Weibull(α, β). (i) Si consideri la distribuzione di Y = X β. (ii) Fissato

Dettagli

5.4 Solo titoli rischiosi

5.4 Solo titoli rischiosi 56 Capitolo 5. Teoria matematica del portafoglio finanziario II: analisi media-varianza 5.4 Solo titoli rischiosi Suppongo che sul mercato siano presenti n titoli rischiosi i cui rendimenti aleatori sono

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 5-Indici di variabilità (vers. 1.0c, 20 ottobre 2015) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Validazione dei modelli Strumenti quantitativi per la gestione

Validazione dei modelli Strumenti quantitativi per la gestione Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer Validazione dei modelli Il data set Auto I dati Il problema analizzato Validation set approach Diagramma a dispersione Test

Dettagli

Esercitazioni di Statistica

Esercitazioni di Statistica Esercitazioni di Statistica Test d ipotesi sul valor medio e test χ 2 di adattamento Prof. Livia De Giovanni statistica@dis.uniroma1.it Esercizio 1 Si supponga che il diametro degli anelli metallici prodotti

Dettagli

EMBA PART TIME 2012 ROMA I ANNO

EMBA PART TIME 2012 ROMA I ANNO BUSINESS STATISTICS: ASSIGNMENT II: EMBA PART TIME 2012 ROMA I ANNO PROF. MOSCONI ESERCIZIO 1: USO DEL MODELLO DI REGRESSIONE PER DETERMINARE IL VALORE DEGLI IMMOBILI. ESERCIZIO 2: PREVISIONE DI VARIABILI

Dettagli

Confronto di metodologie statistiche per l analisi di risultati di Customer Satisfaction

Confronto di metodologie statistiche per l analisi di risultati di Customer Satisfaction Confronto di metodologie statistiche per l analisi di risultati di Customer Satisfaction S. Gorla: Citroën Italia S.p.A. e Consigliere di giunta AicqCN; E. Belluco: statistico, PG. Della Role: master Black

Dettagli

EQUAZIONI non LINEARI

EQUAZIONI non LINEARI EQUAZIONI non LINEARI Francesca Pelosi Dipartimento di Matematica, Università di Roma Tor Vergata CALCOLO NUMERICO e PROGRAMMAZIONE http://www.mat.uniroma2.it/ pelosi/ EQUAZIONI non LINEARI p.1/44 EQUAZIONI

Dettagli

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza CALCOLO DELLE PROBABILITÀ E STATISTICA ESAME DEL 17/06/2015 NOME: COGNOME: MATRICOLA: Esercizio 1 Un sistema

Dettagli

Indice Prefazione xiii 1 Probabilità

Indice Prefazione xiii 1 Probabilità Prefazione xiii 1 Probabilità 1 1.1 Origini del Calcolo delle Probabilità e della Statistica 1 1.2 Eventi, stato di conoscenza, probabilità 4 1.3 Calcolo Combinatorio 11 1.3.1 Disposizioni di n elementi

Dettagli

Dai dati al modello teorico

Dai dati al modello teorico Dai dati al modello teorico Analisi descrittiva univariata in R 1 Un po di terminologia Popolazione: (insieme dei dispositivi che verranno messi in produzione) finito o infinito sul quale si desidera avere

Dettagli

Prof.ssa Paola Vicard

Prof.ssa Paola Vicard Questa nota consiste perlopiù nella traduzione (con alcune integrazioni) da Descriptive statistics di J. Shalliker e C. Ricketts, 2000, University of Plymouth Consideriamo i dati nel file esercizio10_dati.xls.

Dettagli

Microeconometria (Silvia Tiezzi) 01 aprile2011 Esercitazione

Microeconometria (Silvia Tiezzi) 01 aprile2011 Esercitazione Microeconometria (Silvia Tiezzi) 01 aprile2011 Esercitazione Esercizio 1 Si consideri il seguente modello ad effetti fissi con variabili binarie: + 1 2 a) supponete che N=3. Si mostri che i regressori

Dettagli

4. Confronto tra medie di tre o più campioni indipendenti

4. Confronto tra medie di tre o più campioni indipendenti BIOSTATISTICA 4. Confronto tra medie di tre o più campioni indipendenti Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk MARTA BLANGIARDO

Dettagli

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva Università del Piemonte Orientale Corsi di Laurea Triennale Corso di Statistica e Biometria Introduzione e Statistica descrittiva Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione

Dettagli

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato. Esercizio 1 Sia X 1,..., X un campione casuale estratto da una variabile aleatoria normale con media pari a µ e varianza pari a 1. Supponiamo che la media campionaria sia x = 2. 1a) Calcolare gli estremi

Dettagli

Inferenza statistica. Statistica medica 1

Inferenza statistica. Statistica medica 1 Inferenza statistica L inferenza statistica è un insieme di metodi con cui si cerca di trarre una conclusione sulla popolazione sulla base di alcune informazioni ricavate da un campione estratto da quella

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2013-2014 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

Regressione logistica

Regressione logistica Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer Metodi di classificazione Tecniche principali Alcuni esempi Data set Default I dati La regressione logistica Esempio Il modello

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 29-Analisi della potenza statistica vers. 1.0 (12 dicembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione) Esercitazione #5 di Statistica Test ed Intervalli di Confidenza (per una popolazione) Dicembre 00 1 Esercizi 1.1 Test su media (con varianza nota) Esercizio n. 1 Il calore (in calorie per grammo) emesso

Dettagli

Corso Matlab : Sesta lezione (Esercitazione, 25/10/13) Samuela Persia, Ing. PhD.

Corso Matlab : Sesta lezione (Esercitazione, 25/10/13) Samuela Persia, Ing. PhD. Advanced level Corso Matlab : Sesta lezione (Esercitazione, 25/10/13) Samuela Persia, Ing. PhD. Sommario Toolbox finance Analisi dei portafogli Analisi grafica Determinate Date Toolbox statistics Analisi

Dettagli

Politecnico di Milano - Anno Accademico 2010-2011 Statistica 086449 Docente: Alessandra Guglielmi Esercitatore: Stefano Baraldo

Politecnico di Milano - Anno Accademico 2010-2011 Statistica 086449 Docente: Alessandra Guglielmi Esercitatore: Stefano Baraldo Politecnico di Milano - Anno Accademico 200-20 Statistica 086449 Docente: Alessandra Guglielmi Esercitatore: Stefano Baraldo Esercitazione 9 2 Giugno 20 Esercizio. In un laboratorio per il test dei materiali,

Dettagli

Dimensione di uno Spazio vettoriale

Dimensione di uno Spazio vettoriale Capitolo 4 Dimensione di uno Spazio vettoriale 4.1 Introduzione Dedichiamo questo capitolo ad un concetto fondamentale in algebra lineare: la dimensione di uno spazio vettoriale. Daremo una definizione

Dettagli

errore I = numero soggetti (I = 4) K = numero livelli tratt. (K = 3) popolazione varianza dovuta ai soggetti trattamento

errore I = numero soggetti (I = 4) K = numero livelli tratt. (K = 3) popolazione varianza dovuta ai soggetti trattamento Analisi della varianza a una via a misure ripetute (Anova con 1 fattore within) modello strutturale dell'analisi della varianza a misure ripetute con 1 fattore: y = μ ik 0 +π i +α k + ik ε ik interazione

Dettagli

Stima per intervalli Nei metodi di stima puntuale è sempre presente un ^ errore θ θ dovuto al fatto che la stima di θ in genere non coincide con il parametro θ. Sorge quindi l esigenza di determinare una

Dettagli

Piacenza, 10 marzo 2014 La preparazione della tesi di Laurea Magistrale

Piacenza, 10 marzo 2014 La preparazione della tesi di Laurea Magistrale Piacenza, 0 marzo 204 La preparazione della tesi di Laurea Magistrale ma questa statistica a che cosa serve? non vedo l ora di cominciare a lavorare per la tesi. e dimenticarmi la statistica!! il mio relatore

Dettagli

Parte 3. Rango e teorema di Rouché-Capelli

Parte 3. Rango e teorema di Rouché-Capelli Parte 3. Rango e teorema di Rouché-Capelli A. Savo Appunti del Corso di Geometria 203-4 Indice delle sezioni Rango di una matrice, 2 Teorema degli orlati, 3 3 Calcolo con l algoritmo di Gauss, 6 4 Matrici

Dettagli

Introduzione. Consideriamo la classica caratteristica corrente-tensione di un diodo pn reale: I D. V γ

Introduzione. Consideriamo la classica caratteristica corrente-tensione di un diodo pn reale: I D. V γ Appunti di Elettronica Capitolo 3 Parte II Circuiti limitatori di tensione a diodi Introduzione... 1 Caratteristica di trasferimento di un circuito limitatore di tensione... 2 Osservazione... 5 Impiego

Dettagli

L analisi dei dati. Capitolo 4. 4.1 Il foglio elettronico

L analisi dei dati. Capitolo 4. 4.1 Il foglio elettronico Capitolo 4 4.1 Il foglio elettronico Le più importanti operazioni richieste dall analisi matematica dei dati sperimentali possono essere agevolmente portate a termine da un comune foglio elettronico. Prenderemo

Dettagli

Master della filiera cereagricola. Impresa e mercati. Facoltà di Agraria Università di Teramo. Giovanni Di Bartolomeo Stefano Papa

Master della filiera cereagricola. Impresa e mercati. Facoltà di Agraria Università di Teramo. Giovanni Di Bartolomeo Stefano Papa Master della filiera cereagricola Giovanni Di Bartolomeo Stefano Papa Facoltà di Agraria Università di Teramo Impresa e mercati Parte prima L impresa L impresa e il suo problema economico L economia studia

Dettagli

Corso di Laurea in Ingegneria Informatica Anno Accademico 2014/2015 Calcolo delle Probabilità e Statistica Matematica

Corso di Laurea in Ingegneria Informatica Anno Accademico 2014/2015 Calcolo delle Probabilità e Statistica Matematica Corso di Laurea in Ingegneria Informatica Anno Accademico 2014/2015 Calcolo delle Probabilità e Statistica Matematica Nome N. Matricola Ancona, 14 luglio 2015 1. Tre macchine producono gli stessi pezzi

Dettagli

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI VERO FALSO CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI 1. V F Un ipotesi statistica è un assunzione sulle caratteristiche di una o più variabili in una o più popolazioni 2. V F L ipotesi nulla unita

Dettagli

Statistica descrittiva

Statistica descrittiva Statistica descrittiva La statistica descrittiva mette a disposizione il calcolo di indicatori sintetici che individuano, con un singolo valore, proprieta` statistiche di un campione/popolazione rispetto

Dettagli

STATISTICA DESCRITTIVA. Le misure di tendenza centrale

STATISTICA DESCRITTIVA. Le misure di tendenza centrale STATISTICA DESCRITTIVA Le misure di tendenza centrale 1 OBIETTIVO Individuare un indice che rappresenti significativamente un insieme di dati statistici. 2 Esempio Nella tabella seguente sono riportati

Dettagli

DUE PROPOSTE ANALISI MATEMATICA. Lorenzo Orio

DUE PROPOSTE ANALISI MATEMATICA. Lorenzo Orio DUE PROPOSTE DI ANALISI MATEMATICA Lorenzo Orio Introduzione Il lavoro propone argomenti di analisi matematica trattati in maniera tale da privilegiare l intuizione e con accorgimenti nuovi. Il tratta

Dettagli

9 Metodi diretti per la risoluzione di sistemi lineari: fattorizzazione P A = LU

9 Metodi diretti per la risoluzione di sistemi lineari: fattorizzazione P A = LU 9 Metodi diretti per la risoluzione di sistemi lineari: fattorizzazione P A LU 9.1 Il metodo di Gauss Come si è visto nella sezione 3.3, per la risoluzione di un sistema lineare si può considerare al posto

Dettagli

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Verifica di ipotesi e intervalli di confidenza nella regressione multipla Verifica di ipotesi e intervalli di confidenza nella regressione multipla Eduardo Rossi 2 2 Università di Pavia (Italy) Maggio 2014 Rossi MRLM Econometria - 2014 1 / 23 Sommario Variabili di controllo

Dettagli

Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia

Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia Modelli statistici per l analisi dei dati e la valutazione d efficacia Il caso del Comune di Perugia Alessandra Pelliccia Matteo Cataldi Matteo Filippo Donadi 0 AGENDA Fonti Descrizione dei dati Variabili

Dettagli

Il controllo delle prestazioni del provider. IL CONTROLLO DELLE PRESTAZIONI DEL PROVIDER (riferimenti)

Il controllo delle prestazioni del provider. IL CONTROLLO DELLE PRESTAZIONI DEL PROVIDER (riferimenti) del provider IL CONTROLLO DELLE PRESTAZIONI DEL PROVIDER (riferimenti) 1 del provider - premessa (1) in merito alla fase di gestione ordinaria dell outsourcing sono state richiamate le prassi di miglioramento

Dettagli