MODELLI LINEARI E NON LINEARI IN R

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "MODELLI LINEARI E NON LINEARI IN R"

Transcript

1 MODELLI LINEARI E NON LINEARI IN R Angelo M. Mineo Dipartimento di Scienze Statistiche e Matematiche S. Vianelli Università degli Studi di Palermo

2 Copyright 2008 Angelo M. Mineo. All rights reserved.

3 i Prefazione R [26], ormai da anni, costituisce nell ambito dei software per la Statistica una valida alternativa ai più diffusi ambienti statistici commerciali. In particolare, R è un ambiente statistico distribuito gratuitamente in Internet sotto licenza GPL e sviluppato da un team di ricercatori in ambito statistico e informatico di fama mondiale. Esistono versioni di R per diverse piattaforme e in particolare per i più diffusi sistemi operativi per Personal Computer, cioè Windows, MAC e Linux. Inoltre R, costituendo un vero e proprio ambiente di programmazione, permette una elevatissima flessibilità nell implementazione di funzioni di calcolo e di rappresentazione grafica statistica. In questo lavoro si farà riferimento alla teoria dei modelli lineari e non lineari, con particolare riferimento all analisi di questi modelli attraverso l uso di R; infatti, maggiore enfasi verrà rivolta non tanto agli aspetti formali relativi ai modelli trattati, che possono essere trovati in uno degli ottimi libri citati in bibliografia, quanto all utilizzo pratico di R per risolvere questi problemi. Questo testo è rivolto principalmente agli studenti del Laboratorio di Statistica del Corso di Laurea in Statistica e Informatica per la Gestione e l Analisi dei Dati della Facoltà di Economia di Palermo e ai dottorandi del Dottorato di Ricerca in Statistica del Dipartimento di Scienze Statistiche e Matematiche Silvio Vianelli dell Università di Palermo.

4 ii Autore Angelo M. Mineo Professore Ordinario di Statistica Dipartimento di Scienze Statistiche e Matematiche Silvio Vianelli Università di Palermo Home page:

5 Indice Prefazione i 1 Regressione lineare Regressione lineare semplice Analisi dei residui Allontanamento dall ipotesi di normalità Regressione lineare multipla Multicollinearità Selezione di variabili Analisi della varianza Analisi della varianza ad una via Confronti multipli Analisi della varianza a due vie Test di Tukey per l ANOVA a due vie Piani non bilanciati Analisi della varianza a più vie Analisi della covarianza ANCOVA con un fattore a due livelli ANCOVA considerando un fattore con più di due livelli Regressione non lineare Stima dei parametri Utilizzo della funzione nls() Utilizzo della funzione optim() Modelli lineari generalizzati Proprietà dei modelli lineari generalizzati La struttura dell errore Il predittore lineare La funzione di link La stima dei parametri La devianza Modelli per risposte categoriali Modelli ad odds proporzionali Modelli per dati di conteggio Regressione di Poisson Modelli log-lineari per tabelle di contingenza iii

6 iv INDICE 6 Modelli per l analisi di sopravvivenza Funzioni di interesse L analisi di sopravvivenza in R Lo stimatore di Kaplan-Meier Il test del logaritmo dei ranghi Il modello a rischi proporzionali di Cox Modelli stocastici per serie storiche Analisi preliminare di una serie storica Bibliografia 130 Indice analitico 134

7 Capitolo 1 Regressione lineare In questo e nel prossimo capitolo faremo riferimento all analisi dei modelli lineari, trattando in particolare i modelli di regressione lineare e i modelli di analisi della varianza. Per quanto riguarda l analisi di regressione lineare, faremo riferimento al modello di regressione lineare semplice e multipla, nel caso di errori accidentali distribuiti secondo una curva normale, facendo quindi un piccolo cenno al caso in cui gli errori sono distribuiti secondo una distribuzione più generale degli errori (distribuzione normale di ordine p). Per quanto riguarda l analisi della varianza, faremo esplicito riferimento ai modelli ad una e a due vie, per poi fare un cenno al caso di modelli a più di due vie. In un successivo capitolo descriveremo, quindi, il caso di modelli di regressione esplicitamente non lineari, facendo riferimento al solo caso in cui gli errori sono distribuiti secondo una distribuzione normale. 1.1 Regressione lineare semplice Supponiamo di avere rilevato su n unità statistiche due variabili quantitative (x, y) e che la variabile y possa pensarsi dipendente dalla variabile x. Chiamiamo, quindi, la variabile y variabile di risposta o dipendente e la variabile x variabile esplicativa o indipendente. L espressione generale di un modello di regressione lineare semplice è data da y i = α + βx i + ε i (1.1) dove, come è noto, ε i costituisce la parte accidentale del modello, mentre la funzione lineare α + βx i costuisce la parte deterministica del modello, con α che rappresenta l intercetta e β che rappresenta il coefficiente angolare della retta Y i = α + βx i. Le ipotesi che solitamente si fanno sulla parte accidentale del modello sono le seguenti: 1. gli errori ε i sono indipendenti; 2. gli errori ε i sono omoschedastici (hanno, cioè, stessa varianza pari a σ 2 ); 3. gli errori ε i sono distribuiti secondo una N(0, σ 2 ). 1

8 2 CAPITOLO 1. REGRESSIONE LINEARE In realtà, se si utilizza il metodo dei minimi quadrati per la stima dell intercetta α e del coefficiente angolare β (chiamato anche parametro di regressione) non è necessaria l ipotesi di errori accidentali ε i distribuiti secondo una normale. In particolare, supponendo di avere n coppie di osservazioni (x i, y i ), il metodo dei minimi quadrati prevede che le stime di α e β siano ricavate dalla minimizzazione della funzione di perdita Q = n [y i (α + βx i )] 2 (1.2) i=1 Risolvendo questo problema di minimo, si ottengono le stime dei parametri di regressione, date da ˆβ = σ xy σ 2 x = (xi X)(y i Ȳ ) (xi X) 2 (1.3) ˆα = Ȳ ˆβ X (1.4) È possibile ottenere anche uno stimatore corretto della varianza degli errori accidentali σ 2, dato da n S 2 i=1 = [y i (ˆα + ˆβx i )] 2. (1.5) n 2 La parte di varianza spiegata dalla retta di regressione, rispetto alla varianza totale, ci dà il coefficiente di determinazione R 2, che permette di stabilire se il modello adattato è congruo, oppure no. Più avanti vedremo qual è l espressione che permette di calcolare il coefficiente di determinazione. Inoltre, se consideriamo in maniera esplicita l ipotesi di errori distribuiti secondo una N(0, σ 2 ), il metodo dei minimi quadrati coincide con il metodo della massima verosimiglianza. Come esempio di analisi di regressione lineare semplice, consideriamo l insieme di dati ciclisti.txt, utilizzato, tra gli altri, in [15] e [39]. In questo insieme di dati sono state considerate dieci strade con pista ciclabile ed è stata misurata la distanza tra la linea di mezzeria e un ciclista sulla pista ciclabile (variabile Center); in queste stesse dieci strade è stata determinata attraverso fotografie la distanza tra lo stesso ciclista e una macchina passante per la strada considerata (variabile Car, le distanze sono state misurate in piedi). Analizziamo questi dati, effettuando un analisi di regressione lineare semplice, considerando Car come variabile di risposta e Center come variabile esplicativa: > ciclisti <- read.table("ciclisti.txt", header = TRUE) > ciclisti Center Car

9 1.1. REGRESSIONE LINEARE SEMPLICE > res.ciclisti <- lm(car ~ Center, data = ciclisti) > summary(res.ciclisti) Call: lm(formula = Car ~ Center, data = ciclisti) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) Center e-06 *** --- Signif. codes: 0 `***' `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: on 8 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 1 and 8 DF, p-value: 9.975e-06 Come si può vedere, eseguendo la serie di istruzioni indicate sopra si è ottenuta una serie di informazioni, le più rilevanti delle quali, in questa prima fase, sono la stima dei parametri e il valore del coefficiente di determinazione R 2, che sta ad indicare un elevata spiegazione della variabile di risposta attraverso quella esplicativa (R 2 = ). Volendo visualizzare graficamente i dati e la retta stimata, si possono utilizzare i seguenti comandi: > plot(ciclisti$center, ciclisti$car, xlab = "Center", + ylab = "Car", main = "Retta di regressione per i dati + del file \"ciclisti.txt\"") > abline(res.ciclisti)

10 4 CAPITOLO 1. REGRESSIONE LINEARE Retta di regressione per i dati del file "ciclisti.txt" Car Center Dal grafico prodotto viene confermato l ottimo adattamento del modello ai dati. L ipotesi di normalità degli errori accidentali è, comunque, necessaria farla, se si vogliono costruire intervalli di confidenza o fare verifica di ipotesi sul parametro di regressione. In particolare, per quanto riguarda lo stabilire attraverso un test statistico la significatività del parametro di regressione β, è possibile organizzare una tabella di analisi della varianza, che permette di ricavare immediatamente la statistica test; infatti, se si indica con Dev(R), Dev(E) e Dev(T ) la devianza di regressione, la devianza dell errore e la devianza totale, rispettivamente, le cui espressioni sono date da: Dev(R) = Dev(E) = Dev(T ) = n (ŷ i Ȳ )2 (1.6) i=1 n (y i ŷ i ) 2 (1.7) i=1 n (y i Ȳ )2 (1.8) i=1 dove con y i si sono indicati i valori della variabile di risposta in corrispondenza di ciascun valore x i, con ŷ i i valori stimati sulla retta di regressione e con Ȳ la media delle y i, è facile vedere come Dev(T ) = Dev(R) + Dev(E) (1.9) Inoltre è possibile vedere graficamente le quantità coinvolte per il calcolo di queste quantità:

11 1.1. REGRESSIONE LINEARE SEMPLICE 5 > plot(ciclisti$center, ciclisti$car, ylim = c(5, 12), + xlab = "Center", ylab = "Car", + main = "Contributo di ciascun punto alla + Devianza Totale") > abline(h = mean(ciclisti$car)) > abline(res.ciclisti) > for (i in 1:length(ciclisti$Car)) lines( + c(ciclisti$center[i], ciclisti$center[i]), + c(ciclisti$car[i], mean(ciclisti$car))) Contributo di ciascun punto alla Devianza Totale Car Center > plot(ciclisti$center, ciclisti$car, ylim = c(5, 12), + xlab = "Center", ylab = "Car", + main = "Contributo di ciascun punto alla + Devianza di Regressione") > abline(h = mean(ciclisti$car)) > abline(res.ciclisti) > for (i in 1:length(ciclisti$Car)) lines( + c(ciclisti$center[i], ciclisti$center[i]), + c(predict(res.ciclisti)[i], mean(ciclisti$car)))

12 6 CAPITOLO 1. REGRESSIONE LINEARE Contributo di ciascun punto alla Devianza di Regressione Car Center > plot(ciclisti$center, ciclisti$car, ylim = c(5, 12), + xlab = "Center", ylab = "Car", + main = "Contributo di ciascun punto alla + Devianza d'errore") > abline(h = mean(ciclisti$car)) > abline(res.ciclisti) > for (i in 1:length(ciclisti$Car)) lines( + c(ciclisti$center[i], ciclisti$center[i]), + c(ciclisti$car[i], predict(res.ciclisti)[i]))

13 1.1. REGRESSIONE LINEARE SEMPLICE 7 Contributo di ciascun punto alla Devianza d'errore Car Center È possibile, allora, costruire la seguente tabella Sorgente Devianza gdl Varianza F Regressione Dev(R) 1 V ar(r) = Dev(R) Errore Dev(E) n 2 S 2 = Dev(E) n 2 Totale Dev(T ) n 1 V ar(r) S 2 che permette di ricavare direttamente la statistica test F per saggiare il sistema di ipotesi H o : β = 0 H 1 : β 0 Il test F risulta significativo per valori elevati della statistica test, cioè per valori che si trovano nella coda destra della distribuzione. Dalla tabella ANOVA è anche possibile ricavare il coefficiente di determinazione R 2, già visto in precedenza, che, come è noto, è dato da R 2 = Dev(R) Dev(T ) = 1 Dev(E) Dev(T ) Per i nostri dati la tabella di analisi della varianza è la seguente (1.10) > anova(res.ciclisti) Analysis of Variance Table

14 8 CAPITOLO 1. REGRESSIONE LINEARE Response: Car Df Sum Sq Mean Sq F value Pr(>F) Center e-06 *** Residuals Signif. codes: 0 `***' `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 È possibile costruire intervalli di confidenza per i parametri (in questo senso si potrebbero sfruttare le informazioni visualizzate con il comando summary()), ma spesso quello che interessa è costruire un intervallo di confidenza sulla posizione della retta di regressione o un intervallo di previsione per un valore di y non ancora estratto. Se interessa costruire un intervallo di confidenza per la retta di regressione, allora si può dimostrare che una stima corretta della varianza è pari a [ 1 S 2 n + (x i X) 2 ] nsx 2 (1.11) Se invece si desidera costruire un intervallo di previsione per un valore di y, allora una stima corretta della varianza sarà data da [ S n + (x i X) 2 ] nsx 2 (1.12) Volendo rappresentare graficamente la banda di confidenza e la banda di previsione con un livello di fiducia pari al 95%, si possono eseguire i seguenti comandi: > int.previsione <- predict(res.ciclisti, ciclisti, + interval = "prediction") > int.confidenza <- predict(res.ciclisti, ciclisti, + interval = "confidence") > matplot(ciclisti$center, cbind(int.confidenza, + int.previsione[, -1]), lty = c(1, 2, 2, 3, 3), + type = "l", xlab = "Center", ylab = "Car", + col = c("black", "red", "red", "blue", "blue"), + main = "Banda di confidenza e di previsione") > points(ciclisti$center, ciclisti$car)

15 1.1. REGRESSIONE LINEARE SEMPLICE 9 Banda di confidenza e di previsione Car Center Analisi dei residui Abbiamo visto, nel precedente paragrafo, quali sono le ipotesi di base relative alla parte accidentale di un modello di regressione lineare semplice. Dopo aver stimato i parametri del modello si potrebbero verificare a posteriori le ipotesi fatte, basandosi sui residui, cioè le differenze tra le y i osservate e le y i stimate con il modello considerato. Solitamente, questa analisi è di tipo grafico. In R è semplicissimo effettuare un analisi di questo tipo, nota come analisi dei residui: > par(mfrow = c(2, 2), mar = c(5, 4, 5, 4) + 0.1) > plot(res.ciclisti) > par(mfrow = c(1, 1), mar = c(5, 4, 4, 4) + 0.1) > par(new = TRUE) > plot(ciclisti$center, axes = FALSE, xlab = "", ylab = "", + type = "n", main = "Analisi dei residui per il file di + dati \"ciclisti.txt\"")

16 10 CAPITOLO 1. REGRESSIONE LINEARE Residuals Analisi dei residui per il file di dati "ciclisti.txt" Residuals vs Fitted Standardized residuals Normal Q Q plot Fitted values Theoretical Quantiles Standardized residuals Scale Location plot Cook's distance Cook's distance plot Fitted values Obs. number Il comando par(mfrow=c(2,2)) è servito per rappresentare i quattro grafici forniti da R in un unica finestra divisa in quattro parti (due righe e due colonne); l ultimo comando ha ristabilito la situazione originaria di un singolo grafico in una finestra. In particolare, i grafici visualizzati ci danno informazioni sulle ipotesi fatte sugli errori accidentali relativamente all indipendenza (grafico in alto a sinistra), all ipotesi di normalità (grafico in alto a destra), alla omoschedasticità (grafico in basso a sinistra) e alla eventuale presenza di valori anomali (grafico in basso a destra). Nel caso specifico, non sembrano esserci forti violazioni delle ipotesi di base fatte sugli errori accidentali Allontanamento dall ipotesi di normalità Spesso l ipotesi di normalità per la parte accidentale di un modello di regressione non è sostenibile, pur essendo verificata la condizione che gli errori hanno media zero e varianza costante. In questi casi può essere utile considerare distribuzioni simmetriche diverse dalla normale. Una famiglia di curve che potrebbe essere utilizzata in questo caso è quella delle curve normali di ordine p (vedi tra gli altri [31], [32] e [33]), la cui funzione di densità di probabilità è data da: f(x) = x µ 1 p 2p 1/p σ p Γ(1 + 1/p) e pσp p (1.13) In questo caso, volendo stimare i coefficienti di regressione con il metodo della massima verosimiglianza si può utilizzare il package normalp di R (vedi [34]). Considerando, ad esempio, il file di dati utilizzato in precedenza, adattiamo un modello di regressione lineare semplice supponendo che gli errori seguano una

17 1.1. REGRESSIONE LINEARE SEMPLICE 11 distribuzione normale di ordine p (la funzione che utilizzeremo provvederà anche alla stima di p): > res.ciclisti.p <- lmp(car ~ Center, data = ciclisti) > summary(res.ciclisti.p) Call: lmp(formula = Car ~ Center, data = ciclisti) Residuals: Min 1Q Median 3Q Max Coefficients: (Intercept) Center Estimate of p Power deviation of order p: Volendo confrontare le due rette di regressione, la prima ottenuta con il metodo dei minimi quadrati, la seconda supponendo gli errori accidentali distribuiti secondo una curva normale di ordine p, si può utilizzare la seguente rappresentazione grafica: > plot(ciclisti$center, ciclisti$car, xlab = "Center", + ylab = "Car", main = "Regressione di norma p") > abline(res.ciclisti, col = "black") > abline(res.ciclisti.p, col = "red") > legend(13, 11, c("minimi quadrati", "norma p"), + lty = c(1, 1), col = c("black", "red"))

18 12 CAPITOLO 1. REGRESSIONE LINEARE Regressione di norma p Car minimi quadrati norma p Center Come può notarsi non sembrano esserci in questo caso grosse differenze tra le due rette di regressione. In particolare, in questo caso la stima di p è risultata pari a ˆp = , indicando una distribuzione normale di ordine p leptocurtica, come possibile distribuzione degli errori accidentali per l insieme di dati considerato. È possibile anche effettuare un analisi dei residui di norma p: > par(mfrow = c(2, 2), mar = c(5, 4, 5, 4) + 0.1) > plot(res.ciclisti.p) > par(mfrow = c(1, 1), mar = c(5, 4, 4, 4) + 0.1) > par(new = TRUE) > plot(ciclisti$center, axes = FALSE, xlab = "", ylab = "", + type = "n", main = "Analisi dei residui di norma p")

19 1.2. REGRESSIONE LINEARE MULTIPLA 13 Residuals p Residuals vs Fitted Analisi dei residui di norma p Standardized residuals Normal Q Q plot Fitted values lmp(formula = Car ~ Center, data = ciclisti) Theoretical Quantiles lmp(formula = Car ~ Center, data = ciclisti) Normal of order p Q Q plot Standardized residuals p= Standardized residuals Scale Location plot Theoretical Quantiles lmp(formula = Car ~ Center, data = ciclisti) Fitted values lmp(formula = Car ~ Center, data = ciclisti) Anche in questo caso, non sembrano esserci forti violazioni delle ipotesi di base fatte sugli errori accidentali. 1.2 Regressione lineare multipla Nel caso in cui si ha a che fare con più di una variabile esplicativa, la regressione lineare, da semplice, diventa multipla: y = β 0 + β 1 x 1 + β 2 x β q x q + ε (1.14) In particolare, in questo modello con intercetta si sta supponendo di avere una variabile di risposta y e q variabili esplicative x i, con i = 1, 2,..., q. Quando si ha a che fare con un modello di regressione lineare multipla è conveniente utilizzare la notazione matriciale: supponendo di avere n unità statistiche sulle quali sono state rilevate le q + 1 variabili (y; x 1, x 2,..., x q ), allora indichiamo con y = [y 1, y 2,..., y n ] la variabile di risposta, con x i = [x i1, x i2,..., x in ] la i esima variabile esplicativa, con X la cosiddetta matrice disegno di ordine n (q + 1): 1 x 11 x x q1 1 x 12 x x q2 X = x 1n x 2n... x qn e con β = [β 0, β 1, β 2,..., β q ] e ε = [ε 1, ε 2,..., ε n ] rispettivamente il vettore dei

20 14 CAPITOLO 1. REGRESSIONE LINEARE coefficienti di regressione e il vettore degli errori accidentali. In questo caso si può quindi scrivere il modello di regressione lineare multipla come y = Xβ + ε (1.15) Applicando il metodo dei minimi quadrati per la stima dei parametri, si ottiene: Infatti, in questo caso la funzione di perdita è data da: ˆβ = (X X) 1 X y (1.16) (y Xβ) (y Xβ) (1.17) che bisogna minimizzare rispetto a β. Esplicitando la funzione di perdita si ha: che può essere posta nella forma: y y (Xβ) y y (Xβ) + (Xβ) (Xβ) (1.18) y y 2(Xβ) y + (Xβ) (Xβ) (1.19) dato che le due quantità (Xβ) y e y (Xβ) sono due scalari. Derivando l espressione ottenuta ed eguegliandola a zero, si ha: 2X y + 2(X X)β = 0 (1.20) da cui segue, se la matrice (X X) è invertibile, la (1.16). Consideriamo, come esempio, i dati contenuti nel file formaggio.txt [35] e relativi alle concentrazioni di varie sostanze chimiche in 30 campioni di formaggio Cheddar, prodotto nella zona LaTrobe Valley dello stato Victoria in Australia; come variabile di risposta è stata considerata una misura soggettiva del gusto per ogni campione. È noto, infatti, che man mano che il formaggio matura, hanno luogo diversi processi chimici che determinano il sapore del prodotto finale. In particolare, le variabili prese in considerazione sono: Taste Acetic H2S Lactic Punteggio soggettivo del test sul gusto, ottenuto combinando i punteggi dei diversi assaggiatori. Logaritmo naturale della concentrazione di acido acetico. Logaritmo naturale della concentrazione di acido solfidrico. Concentrazione di acido lattico. Si è, quindi, proceduto con l analisi di questo insieme di dati: > formaggio <- read.table("formaggio.txt", header = TRUE) > formaggio Taste Acetic H2S Lactic

21 1.2. REGRESSIONE LINEARE MULTIPLA > cor(formaggio) Taste Acetic H2S Lactic Taste Acetic H2S Lactic > plot(formaggio, main = "Matrice di scatterplot + per le variabili di \"formaggio.txt\"")

22 16 CAPITOLO 1. REGRESSIONE LINEARE Taste Acetic H2S Lactic Matrice di scatterplot per le variabili di "formaggio.txt" > attach(formaggio) > res.formaggio <- lm(taste ~ Acetic + H2S + Lactic) > res.formaggio Call: lm(formula = Taste ~ Acetic + H2S + Lactic) Coefficients: (Intercept) Acetic H2S Lactic > par(mfrow = c(2, 2), mar = c(5, 4, 5, 4) + 0.1) > plot(res.formaggio) > par(mfrow = c(1, 1), mar = c(5, 4, 4, 4) + 0.1) > par(new = TRUE) > plot(taste, axes = FALSE, xlab = "", ylab = "", + type = "n", main = "Analisi dei residui per + il file di dati \"formaggio.txt\"")

23 1.2. REGRESSIONE LINEARE MULTIPLA 17 Residuals Analisi dei residui per il file di dati "formaggio.txt" Residuals vs Fitted Normal Q Q plot Standardized residuals Fitted values Theoretical Quantiles Standardized residuals Scale Location plot Cook's distance Cook's distance plot Fitted values Obs. number > summary(res.formaggio) Call: lm(formula = Taste ~ Acetic + H2S + Lactic) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) Acetic H2S ** Lactic * --- Signif. codes: 0 `***' `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: on 26 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 3 and 26 DF, p-value: 3.81e-06 In questo caso, la parte di varianza spiegata dalle variabili esplicative è pari a R 2 = Così come si è fatto nel caso di regressione lineare semplice, è possibile costruire anche in questo caso la tabella di analisi della varianza

24 18 CAPITOLO 1. REGRESSIONE LINEARE Sorgente Devianza gdl Varianza F Regressione Dev(R) q V ar(r) = Dev(R) q Errore Dev(E) n q 1 S 2 = Dev(E) n q 1 Totale Dev(T ) n 1 V ar(r) S 2 che permette di ricavare direttamente la statistica test F per saggiare il sistema di ipotesi H o : β i = 0 i H 1 : β i 0 per qualche i Anche in questo caso, il test F risulta significativo per valori elevati della statistica test, cioè per valori che cadono nella coda destra della distribuzione. > anova(res.formaggio) Analysis of Variance Table Response: Taste Df Sum Sq Mean Sq F value Pr(>F) Acetic e-05 *** H2S *** Lactic * Residuals Signif. codes: 0 `***' `**' 0.01 `*' 0.05 `.' 0.1 ` ' Multicollinearità Si parla di multicollinearità quando si è in presenza di una forte dipendenza lineare tra due o più regressori. I problemi causati dalla presenza di multicollinearità sono diversi e si possono riassumere nei seguenti punti: 1. problemi di stima: considerando il metodo dei minimi quadrati, le stime dei coefficienti di regressione sono date, come abbiamo visto, da ˆβ = (X X) 1 X y (1.21) Se vi è multicollinearità, la matrice X X risulta quasi singolare e quindi si ha un malcondizionamento del sistema di equazioni, che dovrebbe fornirci la stima dei parametri, che quindi risultano inaffidabili; 2. problemi di previsione: risulta, da un punto di vista pratico, inutile fare alcun tipo di previsione per un valore della variabile di risposta y, a causa proprio dell inaffidabilità dei valori di ˆβ; 3. problemi di calcolo: si possono avere problemi computazionali nell inversione della matrice X X.

25 1.4. SELEZIONE DI VARIABILI problemi di interpretazione: un caso frequente che si verifica in presenza di multicollinearità è che nel caso in cui è lecito aspettarsi, per conoscenze proprie del fenomeno sotto studio, dei coefficienti di regressione con un particolare segno, si possono ottenere valori dei coefficienti assolutamente non rispondenti alle aspettative. Il modo migliore per agire, in questo caso, è di vedere quali sono le variabili esplicative responsabili del fenomeno di multicollinearità ed escluderle dall analisi; questo modo di procedere, dal punto di vista della spiegazione della variabile di risposta da parte delle variabili esplicative, porta ad una perdita di informazione molto piccola. Un modo per stabilire se si è in presenza di multicollinearità è quello di calcolare i cosiddetti fattori di inflazione di varianza (VIF, Variance Inflaction Factors). Infatti, quando si è in presenza di multicollinearità, la varianza stimata del j-esimo coefficiente di regressione può essere scritta come ˆ V ar(b j ) = S 2 (n 1)S 2 j 1 1 R 2 j (1.22) dove S 2 è la varianza dell errore, Sj 2 è la varianza di x j ed Rj 2 è il coefficiente di determinazione calcolato facendo la regressione di x j sulle altre variabili esplicative x i, con i = 1, 2,..., q e i j. La quantità 1 V IF j = 1 Rj 2 (1.23) è chiamata fattore di inflazione di varianza per b j. I VIF sono utilizzati come misure di multicollinearità, perché la radice quadrata dei VIF indica di quanto l intervallo di confidenza, costruito su ciascuno dei coefficienti di regressione β j è più grande rispetto alla situazione di dati non correlati. In particolare, quindi, le variabili che risultano maggiormente indiziate di provocare il fenomeno della multicollinearità sono quelle che presentano VIF più elevato. In R la funzione che permette il calcolo dei VIF è contenuta nel package car (vedi [19]). Per il nostro esempio si ha: > library(car) > vif(res.formaggio) Acetic H2S Lactic Considerato che, solitamente, si ritengono responsabili del fenomeno di multicollinearità quelle variabile esplicative che producono valori dei VIF superiori a 10, nel nostro caso c è da ritenere che non ci siano grossi problemi legati alla multicollinearità. 1.4 Selezione di variabili Quando in un problema di regressione lineare multipla si considerano molte variabili esplicative, quello che succede solitamente è che tutte le variabili non contribuiscono in modo determinante alla spiegazione della variabile di risposta.

26 20 CAPITOLO 1. REGRESSIONE LINEARE Risulta, allora, fondamentale poter stabilire quali tra le variabili esplicative sono importanti e quali no, per eventualmente eliminare dall analisi queste ultime, andando così incontro al principio di parsimonia o al principio del rasoio di Occam, per cui, nel nostro caso, un modello risulta ottimale quando riusciamo ad avere il massimo di spiegazione della variabile di risposta con il minimo numero di variabili esplicative. È noto, comunque, che man mano che aumenta il numero di variabili esplicative nel modello, aumenta anche il valore di R 2 : si tratta quindi di stabilire quando l aumento di R 2 si può ritenere significativo, oppure no. Come misura della buona spiegazione della variabile di risposta data dalle variabili esplicative, si può utilizzare anche l Akaike s Information Criterion (vedi [2] e [1]), noto con l acronimo AIC, definito come AIC = 2 log-verosimiglianza massimizzata + 2 numero di parametri (1.24) A valori bassi di AIC corrisponde una buona spiegazione della variabile di risposta. Si deve cercare, allora, il giusto compromesso tra numero minimo di variabili esplicative e spiegazione della variabile di risposta, in base ai valori di AIC. Il modo di cercare quali variabili esplicative lasciare e quali eliminare dall analisi, può essere in avanti (forward), all indietro (backward) o alternato (procedura mista in avanti e all indietro). La procedura forward prevede che si parta con il modello con una sola variabile esplicativa (la più correlata con la variabile di risposta) e via via si vanno introducendo le altre variabili esplicative, fino a quando il test F, su cui è basata la significatività di un modello con più variabili rispetto ad uno più parsimonioso, non risulta più significativo e quindi si arresta la procedura. La procedura backward parte dal modello completo e via via va eliminado le variabili che non danno un contributo significativo alla spiegazione della variabile di risposta. La procedura alternata utilizza le due procedure forward e backward in maniera alternata, appunto. In R esiste la funzione step() che esegue questa procedura in modo automatico, nota come regressione stepwise; la scelta della procedura di ricerca da utilizzare è regolata dall argomento direction che può assumere tre valori: both, backward, oppure forward; il valore di default è both. Vediamo l utilizzo della regressione stepwise applicata al nostro insieme di dati: > step(res.formaggio) Start: AIC= Taste ~ Acetic + H2S + Lactic Df Sum of Sq RSS AIC - Acetic <none> Lactic H2S Step: AIC= Taste ~ H2S + Lactic

Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza

Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza 3 maggio 2005 Esercizio 1 Consideriamo l esempio del libro di testo Annette

Dettagli

> d = alimentazione == "benz" > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] 2.385627. > sd(percorr.urbana[d]) [1] 2.

> d = alimentazione == benz > mean(percorr.urbana[!d]) - mean(percorr.urbana[d]) [1] 2.385627. > sd(percorr.urbana[d]) [1] 2. A questo punto vale la pena di soffermarci di più sull alimentazione. Intanto cerchiamo di indagare se l alimentazione è davvero un fattore significativo per la percorrenza come è luogo comune pensare.

Dettagli

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12)

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12) Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 011-1) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola

Dettagli

Indice. 1 Introduzione ai modelli lineari 2. 2 Dataset 3. 3 Il Modello 8. 4 In pratica 12 4.1 Peso e percorrenza... 12

Indice. 1 Introduzione ai modelli lineari 2. 2 Dataset 3. 3 Il Modello 8. 4 In pratica 12 4.1 Peso e percorrenza... 12 Indice 1 Introduzione ai modelli lineari 2 2 Dataset 3 3 Il Modello 8 4 In pratica 12 41 Peso e percorrenza 12 1 Capitolo 1 Introduzione ai modelli lineari Quando si analizzano dei dati, spesso si vuole

Dettagli

ANOVA a un fattore between in R

ANOVA a un fattore between in R ANOVA a un fattore between in R Il file Excel Il file sinburn.xlsx contiene i dati dello studio sulla sindrome da burnout in quindici infermieri ospedalieri di tre diversi reparti. Importare dati in R

Dettagli

Regressione lineare multipla Strumenti quantitativi per la gestione

Regressione lineare multipla Strumenti quantitativi per la gestione Regressione lineare multipla Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare multipla (RLM) Esempio: RLM con due predittori Stima dei coefficienti e previsione Advertising data

Dettagli

1 BREVE RIPASSO DEI TEST STATISTICI 2 I TEST STATISTICI NEI SOFTWARE ECONOMETRICI E IL P-VALUE 3 ESERCIZI DI ALLENAMENTO

1 BREVE RIPASSO DEI TEST STATISTICI 2 I TEST STATISTICI NEI SOFTWARE ECONOMETRICI E IL P-VALUE 3 ESERCIZI DI ALLENAMENTO I TEST STATISTICI E IL P-VALUE Obiettivo di questo Learning Object è ripassare la teoria ma soprattutto la pratica dei test statistici, con un attenzione particolare ai test che si usano in Econometria.

Dettagli

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE STATISTICA DESCRITTIVA SCHEDA N. : REGRESSIONE LINEARE Nella Scheda precedente abbiamo visto che il coefficiente di correlazione fra due variabili quantitative X e Y fornisce informazioni sull esistenza

Dettagli

Regressione Lineare con un Singolo Regressore

Regressione Lineare con un Singolo Regressore Regressione Lineare con un Singolo Regressore Quali sono gli effetti dell introduzione di pene severe per gli automobilisti ubriachi? Quali sono gli effetti della riduzione della dimensione delle classi

Dettagli

Capitolo 12 La regressione lineare semplice

Capitolo 12 La regressione lineare semplice Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara

Dettagli

Metodi statistici e probabilistici per l ingegneria. Corso di Laurea in Ingegneria Civile A.A. 2009-10. Facoltà di Ingegneria. Università di Padova

Metodi statistici e probabilistici per l ingegneria. Corso di Laurea in Ingegneria Civile A.A. 2009-10. Facoltà di Ingegneria. Università di Padova Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria Civile A.A. 29- Facoltà di Ingegneria Università di Padova Docente: Dott. L. Corain ESERCIZIO (TEST AD UN CAMPIONE) Un

Dettagli

Università del Piemonte Orientale. Corsi di Specialità. Corso di Statistica Medica. Analisi dei dati quantitativi : Analisi della varianza

Università del Piemonte Orientale. Corsi di Specialità. Corso di Statistica Medica. Analisi dei dati quantitativi : Analisi della varianza Università del Piemonte Orientale Corsi di Specialità Corso di Statistica Medica Analisi dei dati quantitativi : Analisi della varianza Università del Piemonte Orientale Corso di laurea in biotecnologie

Dettagli

Il modello di regressione lineare multivariata

Il modello di regressione lineare multivariata Il modello di regressione lineare multivariata Eduardo Rossi 2 2 Università di Pavia (Italy) Aprile 2013 Rossi MRLM Econometria - 2013 1 / 39 Outline 1 Notazione 2 il MRLM 3 Il modello partizionato 4 Collinearità

Dettagli

è decidere sulla verità o falsità

è decidere sulla verità o falsità I test di ipotesi I test di ipotesi Il test delle ipotesi consente di verificare se, e in quale misura, una determinata ipotesi (di carattere sociale, biologico, medico, economico, ecc.) è supportata dall

Dettagli

FACOLTÀ DI ECONOMIA Soluzione della Prova di autovalutazione 2012 (primi 6 CFU) ANALISI STATISTICA PER L IMPRESA

FACOLTÀ DI ECONOMIA Soluzione della Prova di autovalutazione 2012 (primi 6 CFU) ANALISI STATISTICA PER L IMPRESA FACOLTÀ DI ECONOMIA Soluzione della Prova di autovalutazione 2012 (primi 6 CFU) ANALISI STATISTICA PER L IMPRESA NB Come potete vedere facendo la somma dei punteggi il numero di quesiti è superiore a quello

Dettagli

Laboratorio di Statistica con R

Laboratorio di Statistica con R Laboratorio di Statistica con R R è un vero e proprio linguaggio di programmazione. Il suo nome, è dovuto probabilmente al nome dei suoi sviluppatori:robert Gentleman e Ross Ihaka Le principali funzioni

Dettagli

La regressione lineare multipla

La regressione lineare multipla 13 La regressione lineare multipla Introduzione 2 13.1 Il modello di regressione multipla 2 13.2 L analisi dei residui nel modello di regressione multipla 9 13.3 Il test per la verifica della significatività

Dettagli

3) ANALISI DEI RESIDUI

3) ANALISI DEI RESIDUI 3) ANALISI DEI RESIDUI Dopo l analisi di regressione si eseguono alcuni test sui residui per avere una ulteriore conferma della validità del modello e delle assunzioni (distribuzione normale degli errori,

Dettagli

Abbiamo visto due definizioni del valore medio e della deviazione standard di una grandezza casuale, in funzione dalle informazioni disponibili:

Abbiamo visto due definizioni del valore medio e della deviazione standard di una grandezza casuale, in funzione dalle informazioni disponibili: Incertezze di misura Argomenti: classificazione delle incertezze; definizione di incertezza tipo e schemi di calcolo; schemi per il calcolo dell incertezza di grandezze combinate; confronto di misure affette

Dettagli

(a cura di Francesca Godioli)

(a cura di Francesca Godioli) lezione n. 12 (a cura di Francesca Godioli) Ad ogni categoria della variabile qualitativa si può assegnare un valore numerico che viene chiamato SCORE. Passare dalla variabile qualitativa X2 a dei valori

Dettagli

LEZIONI DI STATISTCA APPLICATA. Parte 2. Statistica inferenziale. Variabili continue per continue. Alessandro Valbonesi. SARRF di Scienze ambientali

LEZIONI DI STATISTCA APPLICATA. Parte 2. Statistica inferenziale. Variabili continue per continue. Alessandro Valbonesi. SARRF di Scienze ambientali LEZIONI DI STATISTCA APPLICATA Parte 2 Statistica inferenziale Variabili continue per continue Alessandro Valbonesi SARRF di Scienze ambientali Anno accademico 2010-11 CAPITOLO 7 - RELAZIONI TRA DUE O

Dettagli

La Regressione Lineare

La Regressione Lineare La Regressione Lineare. Cos è l Analisi della Regressione Multipla? L analisi della regressione multipla è una tecnica statistica che può essere impiegata per analizzare la relazione tra una variabile

Dettagli

4. Matrici e Minimi Quadrati

4. Matrici e Minimi Quadrati & C. Di Natale: Matrici e sistemi di equazioni di lineari Formulazione matriciale del metodo dei minimi quadrati Regressione polinomiale Regressione non lineare Cross-validazione e overfitting Regressione

Dettagli

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: Esempi di domande risposta multipla (Modulo II) 1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: 1) ha un numero di elementi pari a 5; 2) ha un numero di elementi

Dettagli

UNIVERSITA DEGLI STUDI DI PADOVA FACOLTA DI SCIENZE STATISTICHE CORSO DI LAUREA IN STATISTICA E TECNOLOGIA INFORMATICA

UNIVERSITA DEGLI STUDI DI PADOVA FACOLTA DI SCIENZE STATISTICHE CORSO DI LAUREA IN STATISTICA E TECNOLOGIA INFORMATICA UNIVERSITA DEGLI STUDI DI PADOVA FACOLTA DI SCIENZE STATISTICHE CORSO DI LAUREA IN STATISTICA E TECNOLOGIA INFORMATICA TESI DI LAUREA CONFRONTO TRA MODELLI STATISTICI NON PARAMETRICI :UNA APPLICAZIONE

Dettagli

Elaborazione dei dati su PC Regressione Multipla

Elaborazione dei dati su PC Regressione Multipla 21 Elaborazione dei dati su PC Regressione Multipla Analizza Regressione Statistiche Grafici Metodo di selezione Analisi dei dati 21.1 Introduzione 21.2 Regressione lineare multipla con SPSS 21.3 Regressione

Dettagli

3. Confronto tra medie di due campioni indipendenti o appaiati

3. Confronto tra medie di due campioni indipendenti o appaiati BIOSTATISTICA 3. Confronto tra medie di due campioni indipendenti o appaiati Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk MARTA BLANGIARDO

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

RELAZIONE TRA DUE VARIABILI QUANTITATIVE

RELAZIONE TRA DUE VARIABILI QUANTITATIVE RELAZIONE TRA DUE VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni che sussistono tra loro. Nel caso in cui

Dettagli

Modello di regressione lineare

Modello di regressione lineare Modello di regressione lineare a cura di Giordano dott. Enrico enrico.giordano@meliorbanca.com Nel presente lavoro viene descritto in modo dettagliato (attraverso anche un impatto visivo), l analisi di

Dettagli

lezione 18 AA 2015-2016 Paolo Brunori

lezione 18 AA 2015-2016 Paolo Brunori AA 2015-2016 Paolo Brunori Previsioni - spesso come economisti siamo interessati a prevedere quale sarà il valore di una certa variabile nel futuro - quando osserviamo una variabile nel tempo possiamo

Dettagli

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

L Analisi della Varianza ANOVA (ANalysis Of VAriance) L Analisi della Varianza ANOVA (ANalysis Of VAriance) 1 CONCETTI GENERALI Finora abbiamo descritto test di ipotesi finalizzati alla verifica di ipotesi sulla differenza tra parametri di due popolazioni

Dettagli

Excel Terza parte. Excel 2003

Excel Terza parte. Excel 2003 Excel Terza parte Excel 2003 TABELLA PIVOT Selezioniamo tutti i dati (con le relative etichette) Dati Rapporto tabella pivot e grafico pivot Fine 2 La tabella pivot viene messa di default in una pagina

Dettagli

Analisi statistica di dati biomedici Analysis of biologicalsignals

Analisi statistica di dati biomedici Analysis of biologicalsignals Analisi statistica di dati biomedici Analysis of biologicalsignals II Parte Verifica delle ipotesi (a) Agostino Accardo (accardo@units.it) Master in Ingegneria Clinica LM in Neuroscienze 2013-2014 e segg.

Dettagli

Concetti introduttivi

Concetti introduttivi Indice 1 Concetti introduttivi 3 1.1 Studi sperimentali e studi osservazionali..................... 3 1.2 Concetti iniziali: indipendenza fra eventi..................... 6 1.3 Indipendenza fra variabili

Dettagli

6. Modelli statistici: analisi della regressione lineare

6. Modelli statistici: analisi della regressione lineare BIOSTATISTICA 6. Modelli statistici: analisi della regressione lineare Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk MARTA BLANGIARDO

Dettagli

Modelli statistici lineari

Modelli statistici lineari Modelli statistici lineari Sergio Polini 19 gennaio 2010 2 Indice 1 Disegni sperimentali e modelli statistici parametrici 5 1.1 Il disegno sperimentale............................. 5 1.1.1 Le componenti

Dettagli

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2. Analisi multivariata Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Cercare di capire le relazioni

Dettagli

Metodologie statistiche per l analisi del rischio PROGETTAZIONE ED ANALISI DEGLI ESPERIMENTI PER L ANALISI DEL RISCHIO

Metodologie statistiche per l analisi del rischio PROGETTAZIONE ED ANALISI DEGLI ESPERIMENTI PER L ANALISI DEL RISCHIO Corso di Laurea in Sicurezza igienico-sanitaria degli alimenti Metodologie statistiche per l analisi del rischio PROGETTAZIONE ED ANALISI DEGLI ESPERIMENTI PER L ANALISI DEL RISCHIO Facoltà di Medicina

Dettagli

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8 CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Test delle ipotesi sulla varianza In un azienda che produce componenti meccaniche, è stato

Dettagli

Statistica Medica. Verranno presi in esame:

Statistica Medica. Verranno presi in esame: Statistica Medica Premessa: il seguente testo cerca di riassumere e rendere in forma comprensibile ai non esperti in matematica e statistica le nozioni e le procedure necessarie a svolgere gli esercizi

Dettagli

METODO DEI MINIMI QUADRATI. Quest articolo discende soprattutto dai lavori di Deming, Press et al. (Numerical Recipes) e Jefferys.

METODO DEI MINIMI QUADRATI. Quest articolo discende soprattutto dai lavori di Deming, Press et al. (Numerical Recipes) e Jefferys. METODO DEI MINIMI QUADRATI GIUSEPPE GIUDICE Sommario Il metodo dei minimi quadrati è trattato in tutti i testi di statistica e di elaborazione dei dati sperimentali, ma non sempre col rigore necessario

Dettagli

La Statistica come strumento di analisi nelle scienze umanistiche e comportamentali

La Statistica come strumento di analisi nelle scienze umanistiche e comportamentali La Statistica come strumento di analisi nelle scienze umanistiche e comportamentali Elementi di Analisi Multivariata V SCUOLA ESTIVA AISV 5 -- 9 ottobre 009 - Soriano nel Cimino (VT) Sabrina Giordano Dipartimento

Dettagli

Statistica descrittiva

Statistica descrittiva Statistica descrittiva La statistica descrittiva mette a disposizione il calcolo di indicatori sintetici che individuano, con un singolo valore, proprieta` statistiche di un campione/popolazione rispetto

Dettagli

Validazione dei modelli Strumenti quantitativi per la gestione

Validazione dei modelli Strumenti quantitativi per la gestione Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer Validazione dei modelli Il data set Auto I dati Il problema analizzato Validation set approach Diagramma a dispersione Test

Dettagli

Elaborazione dati in Analisi Sensoriale

Elaborazione dati in Analisi Sensoriale Elaborazione dati in Analisi Sensoriale Si è parlato di interpretazione corretta dei risultati ottenuti; a questo concorrono due fattori: affidabilità e validità. Se i test fossero stati ripetuti con lo

Dettagli

IBM SPSS Advanced Statistics 20

IBM SPSS Advanced Statistics 20 IBM SPSS Advanced Statistics 20 Nota: Prima di utilizzare queste informazioni e il relativo prodotto, leggere le informazioni generali disponibili in Note legali a pag. 173. Questa versione si applica

Dettagli

Confronto di metodologie statistiche per l analisi di risultati di Customer Satisfaction

Confronto di metodologie statistiche per l analisi di risultati di Customer Satisfaction Confronto di metodologie statistiche per l analisi di risultati di Customer Satisfaction S. Gorla: Citroën Italia S.p.A. e Consigliere di giunta AicqCN; E. Belluco: statistico, PG. Della Role: master Black

Dettagli

Università del Piemonte Orientale. Corso di dottorato in medicina molecolare. a.a. 2002 2003. Corso di Statistica Medica. Inferenza sulle medie

Università del Piemonte Orientale. Corso di dottorato in medicina molecolare. a.a. 2002 2003. Corso di Statistica Medica. Inferenza sulle medie Università del Piemonte Orientale Corso di dottorato in medicina molecolare aa 2002 2003 Corso di Statistica Medica Inferenza sulle medie Statistica U Test z Test t campioni indipendenti con uguale varianza

Dettagli

Strumenti statistici per l analisi di dati genetici

Strumenti statistici per l analisi di dati genetici Strumenti statistici per l analisi di dati genetici Luca Tardella + Maria Brigida Ferraro 1 email: luca.tardella@uniroma1.it Lezione #1 Introduzione al software R al suo utilizzo per l implementazione

Dettagli

Design of Experiments

Design of Experiments Design of Experiments Luigi Amedeo Bianchi 1 Introduzione Cominciamo spiegando cosa intendiamo con esperimento, ossia l investigare un processo cambiando i dati in ingresso, osservando i cambiamenti che

Dettagli

Statistica Applicata all edilizia Lezione 2: Analisi descrittiva dei dati

Statistica Applicata all edilizia Lezione 2: Analisi descrittiva dei dati Lezione 2: Analisi descrittiva dei dati E-mail: orietta.nicolis@unibg.it 1 marzo 2011 Prograa 1 Analisi grafica dei dati 2 Indici di posizione Indici di dispersione Il boxplot 3 4 Prograa Analisi grafica

Dettagli

EMBA PART TIME 2012 ROMA I ANNO

EMBA PART TIME 2012 ROMA I ANNO BUSINESS STATISTICS: ASSIGNMENT II: EMBA PART TIME 2012 ROMA I ANNO PROF. MOSCONI ESERCIZIO 1: USO DEL MODELLO DI REGRESSIONE PER DETERMINARE IL VALORE DEGLI IMMOBILI. ESERCIZIO 2: PREVISIONE DI VARIABILI

Dettagli

Indice Prefazione xiii 1 Probabilità

Indice Prefazione xiii 1 Probabilità Prefazione xiii 1 Probabilità 1 1.1 Origini del Calcolo delle Probabilità e della Statistica 1 1.2 Eventi, stato di conoscenza, probabilità 4 1.3 Calcolo Combinatorio 11 1.3.1 Disposizioni di n elementi

Dettagli

LEZIONE n. 5 (a cura di Antonio Di Marco)

LEZIONE n. 5 (a cura di Antonio Di Marco) LEZIONE n. 5 (a cura di Antonio Di Marco) IL P-VALUE (α) Data un ipotesi nulla (H 0 ), questa la si può accettare o rifiutare in base al valore del p- value. In genere il suo valore è un numero molto piccolo,

Dettagli

Elementi di Statistica

Elementi di Statistica Elementi di Statistica Contenuti Contenuti di Statistica nel corso di Data Base Elementi di statistica descrittiva: media, moda, mediana, indici di dispersione Introduzione alle variabili casuali e alle

Dettagli

La statistica nella ricerca scientifica

La statistica nella ricerca scientifica La statistica nella ricerca scientifica Pubblicazione dei risultati Presentazione dei dati e la loro elaborazione devono seguire criteri universalmente validi Impossibile verifica dei risultati da parte

Dettagli

iovanella@disp.uniroma2.it http://www.disp.uniroma2.it/users/iovanella Verifica di ipotesi

iovanella@disp.uniroma2.it http://www.disp.uniroma2.it/users/iovanella Verifica di ipotesi iovanella@disp.uniroma2.it http://www.disp.uniroma2.it/users/iovanella Verifica di ipotesi Idea di base Supponiamo di avere un idea del valore (incognito) di una media di un campione, magari attraverso

Dettagli

4. Confronto tra medie di tre o più campioni indipendenti

4. Confronto tra medie di tre o più campioni indipendenti BIOSTATISTICA 4. Confronto tra medie di tre o più campioni indipendenti Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk MARTA BLANGIARDO

Dettagli

Corso di Statistica Medica. Studio dell effetto di più variabili indipendenti su una variabile dipendente: Regressione lineare multipla

Corso di Statistica Medica. Studio dell effetto di più variabili indipendenti su una variabile dipendente: Regressione lineare multipla Studio dell effetto di più variabili indipendenti su una variabile dipendente: Regressione lineare multipla Regressione logistica Regressione lineare multipla Nel modello di regressione lineare semplice

Dettagli

INTRODUZIONE A R INTRODUZIONE A R

INTRODUZIONE A R INTRODUZIONE A R Negli anni 90 i Bell Laboratories sviluppano un nuovo ambiente per l analisi statistica: S. Sulla base di tale linguaggio viene successivamente sviluppato un software con il nome S-PLUS. R nasce come ambiente

Dettagli

ELABORATO FINALE DI STATISTICA:

ELABORATO FINALE DI STATISTICA: ELABORATO FINALE DI STATISTICA: PRIMA PARTE Analisi Descrittiva e Inferenziale di un campione di dati SECONDA PARTE Anova ad una via PRIMA PARTE Analisi Descrittiva e Inferenziale di un campione di dati

Dettagli

Approfondimento 4.6. La valutazione statistica della discriminatività di un item

Approfondimento 4.6. La valutazione statistica della discriminatività di un item Approfondimento.6 La valutazione statistica della discriminatività di un item. Item di test di prestazione massima Per valutare la discriminatività di un item di un test di prestazione massima occorre

Dettagli

Riassunto 24 Parole chiave 24 Commenti e curiosità 25 Esercizi 27 Appendice

Riassunto 24 Parole chiave 24 Commenti e curiosità 25 Esercizi 27 Appendice cap 0 Romane - def_layout 1 12/06/12 07.51 Pagina V Prefazione xiii Capitolo 1 Nozioni introduttive 1 1.1 Introduzione 1 1.2 Cenni storici sullo sviluppo della Statistica 2 1.3 La Statistica nelle scienze

Dettagli

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA ESERCIZI SVOLTI PER LA PROVA DI STATISTICA Stefania Naddeo (anno accademico 4/5) INDICE PARTE PRIMA: STATISTICA DESCRITTIVA. DISTRIBUZIONI DI FREQUENZA E FUNZIONE DI RIPARTIZIONE. VALORI CARATTERISTICI

Dettagli

ELEMENTI DI STATISTICA DESCRITTIVA

ELEMENTI DI STATISTICA DESCRITTIVA Metodi Statistici e Probabilistici per l Ingegneria ELEMENTI DI STATISTICA DESCRITTIVA Corso di Laurea in Ingegneria Civile Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain E-mail:

Dettagli

Problema pratico: Test statistico = regola di decisione

Problema pratico: Test statistico = regola di decisione La verifica delle ipotesi statistiche Problema pratico: Quale, tra diverse situazioni possibili, riferite alla popolazione, è quella meglio sostenuta dalle evidenze empiriche? Coerenza del risultato campionario

Dettagli

Da una a più variabili: derivate

Da una a più variabili: derivate Da una a più variabili: derivate ( ) 5 gennaio 2011 Scopo di questo articolo è di evidenziare le analogie e le differenze, relativamente al calcolo differenziale, fra le funzioni di una variabile reale

Dettagli

Matlab per applicazioni statistiche

Matlab per applicazioni statistiche Matlab per applicazioni statistiche Marco J. Lombardi 19 aprile 2005 1 Introduzione Il sistema Matlab è ormai uno standard per quanto riguarda le applicazioni ingegneristiche e scientifiche, ma non ha

Dettagli

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 6

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 6 CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 6 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Stima puntuale per la proporzione Da un lotto di arance se ne estraggono 400, e di queste 180

Dettagli

Regressione logistica. Strumenti quantitativi per la gestione

Regressione logistica. Strumenti quantitativi per la gestione Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 1/25 Metodi di classificazione I metodi usati per analizzare

Dettagli

Parte 2. Determinante e matrice inversa

Parte 2. Determinante e matrice inversa Parte. Determinante e matrice inversa A. Savo Appunti del Corso di Geometria 013-14 Indice delle sezioni 1 Determinante di una matrice, 1 Teorema di Cramer (caso particolare), 3 3 Determinante di una matrice

Dettagli

Corso Matlab : Sesta lezione (Esercitazione, 25/10/13) Samuela Persia, Ing. PhD.

Corso Matlab : Sesta lezione (Esercitazione, 25/10/13) Samuela Persia, Ing. PhD. Advanced level Corso Matlab : Sesta lezione (Esercitazione, 25/10/13) Samuela Persia, Ing. PhD. Sommario Toolbox finance Analisi dei portafogli Analisi grafica Determinate Date Toolbox statistics Analisi

Dettagli

MODELLO DI REGRESSIONE PER DATI DI PANEL

MODELLO DI REGRESSIONE PER DATI DI PANEL MODELLO DI REGRESSIONE PER DAI DI PANEL 5. Introduzione Storicamente l analisi econometrica ha proceduto in due distinte direzioni: lo studio di modelli macroeconomici, sulla base di serie temporali di

Dettagli

Appunti: Teoria Dei Test

Appunti: Teoria Dei Test Appunti: Teoria Dei Test Fulvio De Santis, Luca Tardella e Isabella Verdinelli Corsi di Laurea A + E + D + G + R 1. Introduzione. Il test d ipotesi è un area dell inferenza statistica in cui si valuta

Dettagli

Prof.ssa Paola Vicard

Prof.ssa Paola Vicard Questa nota consiste perlopiù nella traduzione (con alcune integrazioni) da Descriptive statistics di J. Shalliker e C. Ricketts, 2000, University of Plymouth Consideriamo i dati nel file esercizio10_dati.xls.

Dettagli

Analisi discriminante e regressione logistica: applicazione al sondaggio sul tema delle aggregazioni comunali per il Comune di Novazzano

Analisi discriminante e regressione logistica: applicazione al sondaggio sul tema delle aggregazioni comunali per il Comune di Novazzano Analisi discriminante e regressione logistica: applicazione al sondaggio sul tema delle aggregazioni comunali per il Comune di Novazzano Flaminio Cadlini e Roberto Stoppa www.tiresia.ch Giugno 26 Indice

Dettagli

Capitolo 9: PROPAGAZIONE DEGLI ERRORI

Capitolo 9: PROPAGAZIONE DEGLI ERRORI Capitolo 9: PROPAGAZIOE DEGLI ERRORI 9.1 Propagazione degli errori massimi ella maggior parte dei casi le grandezze fisiche vengono misurate per via indiretta. Il valore della grandezza viene cioè dedotto

Dettagli

Statistiche campionarie

Statistiche campionarie Statistiche campionarie Sul campione si possono calcolare le statistiche campionarie (come media campionaria, mediana campionaria, varianza campionaria,.) Le statistiche campionarie sono stimatori delle

Dettagli

EQUAZIONI non LINEARI

EQUAZIONI non LINEARI EQUAZIONI non LINEARI Francesca Pelosi Dipartimento di Matematica, Università di Roma Tor Vergata CALCOLO NUMERICO e PROGRAMMAZIONE http://www.mat.uniroma2.it/ pelosi/ EQUAZIONI non LINEARI p.1/44 EQUAZIONI

Dettagli

Appunti di Statistica Descrittiva

Appunti di Statistica Descrittiva Appunti di Statistica Descrittiva 30 dicembre 009 1 La tabella a doppia entrata Per studiare dei fenomeni con caratteristiche statistiche si utilizza l espediente della tabella a doppia entrata Per esempio

Dettagli

09 - Funzioni reali di due variabili reali

09 - Funzioni reali di due variabili reali Università degli Studi di Palermo Facoltà di Economia CdS Sviluppo Economico e Cooperazione Internazionale Appunti del corso di Matematica 09 - Funzioni reali di due variabili reali Anno Accademico 2013/2014

Dettagli

Strumenti informatici 7.1 - Realizzare analisi statistiche su una tavola di contingenza con Excel e SPSS

Strumenti informatici 7.1 - Realizzare analisi statistiche su una tavola di contingenza con Excel e SPSS Strumenti informatici 7.1 - Realizzare analisi statistiche su una tavola di contingenza con Excel e SPSS Excel può essere utilizzato per realizzare un test del chi-quadrato per l indipendenza di variabili

Dettagli

i=1 Y i, dove Y i, i = 1,, n sono indipendenti e somiglianti e con la stessa distribuzione di Y.

i=1 Y i, dove Y i, i = 1,, n sono indipendenti e somiglianti e con la stessa distribuzione di Y. Lezione n. 5 5.1 Grafici e distribuzioni Esempio 5.1 Legame tra Weibull ed esponenziale; TLC per v.a. esponenziali Supponiamo che X Weibull(α, β). (i) Si consideri la distribuzione di Y = X β. (ii) Fissato

Dettagli

Statistica descrittiva: prime informazioni dai dati sperimentali

Statistica descrittiva: prime informazioni dai dati sperimentali SECONDO APPUNTAMENTO CON LA SPERIMENTAZIONE IN AGRICOLTURA Statistica descrittiva: prime informazioni dai dati sperimentali La statistica descrittiva rappresenta la base di partenza per le applicazioni

Dettagli

9. La distribuzione 2 e i test per dati su scala nominale

9. La distribuzione 2 e i test per dati su scala nominale 9. La distribuzione e i test per dati su scala nominale 9.1. La distribuzione 9. 1. 1. La statistica e la sua distribuzione In una popolazione distribuita normalmente con parametri e estraiamo un campione

Dettagli

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla Il metodo della regressione può essere esteso dal caso in cui si considera la variabilità della risposta della y in relazione ad una sola variabile indipendente X ad una situazione più generale in cui

Dettagli

Anova e Confronti Multipli con R

Anova e Confronti Multipli con R Università degli Studi di Trieste Biomatematica e Biostatistica Corso di Laurea Magistrale in Biotecnologie Mediche Corso di Laurea Magistrale in Nanotecnologie Anova e Confronti Multipli con R area 20

Dettagli

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL 1 RAPPRESENTAZIONE GRAFICA Per l analisi dati con Excel si fa riferimento alla versione 2007 di Office, le versioni successive non differiscono

Dettagli

Note introduttive Il software econometrico Easy Reg è scaricabile gratuitamente da internet (http://econ.la.psu.edu/~hbierens/easyreg.

Note introduttive Il software econometrico Easy Reg è scaricabile gratuitamente da internet (http://econ.la.psu.edu/~hbierens/easyreg. Note introduttive Il software econometrico Easy Reg è scaricabile gratuitamente da internet (http://econ.la.psu.edu/~hbierens/easyreg.htm) Per importare i dati in Easy Reg bisogna: 1. Cambiare le impostazioni

Dettagli

Gli OLS come statistica descrittiva

Gli OLS come statistica descrittiva Gli OLS come statistica descrittiva Cos è una statistica descrittiva? È una funzione dei dati che fornisce una sintesi su un particolare aspetto dei dati che a noi interessa; naturalmente, è auspicabile

Dettagli

Multicollinearità Strumenti quantitativi per la gestione

Multicollinearità Strumenti quantitativi per la gestione Strumenti quantitativi per la gestione Emanuele Taufer Quando non tutto va come dovrebbe I dati Scatter plot Correlazioni RLS e RLM Individuare la MC Variance Inflation Factor Cosa fare in caso di MC Alcune

Dettagli

Politecnico di Milano - Anno Accademico 2010-2011 Statistica 086449 Docente: Alessandra Guglielmi Esercitatore: Stefano Baraldo

Politecnico di Milano - Anno Accademico 2010-2011 Statistica 086449 Docente: Alessandra Guglielmi Esercitatore: Stefano Baraldo Politecnico di Milano - Anno Accademico 200-20 Statistica 086449 Docente: Alessandra Guglielmi Esercitatore: Stefano Baraldo Esercitazione 9 2 Giugno 20 Esercizio. In un laboratorio per il test dei materiali,

Dettagli

Dai dati al modello teorico

Dai dati al modello teorico Dai dati al modello teorico Analisi descrittiva univariata in R 1 Un po di terminologia Popolazione: (insieme dei dispositivi che verranno messi in produzione) finito o infinito sul quale si desidera avere

Dettagli

Test non parametrici. Test non parametrici. Test non parametrici. Test non parametrici

Test non parametrici. Test non parametrici. Test non parametrici. Test non parametrici Test non parametrici Test non parametrici Il test T di Student per uno o per due campioni, il test F di Fisher per l'analisi della varianza, la correlazione, la regressione, insieme ad altri test di statistica

Dettagli

9 Metodi diretti per la risoluzione di sistemi lineari: fattorizzazione P A = LU

9 Metodi diretti per la risoluzione di sistemi lineari: fattorizzazione P A = LU 9 Metodi diretti per la risoluzione di sistemi lineari: fattorizzazione P A LU 9.1 Il metodo di Gauss Come si è visto nella sezione 3.3, per la risoluzione di un sistema lineare si può considerare al posto

Dettagli

Relazioni tra variabili

Relazioni tra variabili Università degli Studi di Padova Facoltà di Medicina e Chirurgia Corso di Laurea in Medicina e Chirurgia - A.A. 009-10 Scuole di specializzazione in: Medicina Legale, Medicina del Lavoro, Igiene e Medicina

Dettagli

Microeconometria (Silvia Tiezzi) 01 aprile2011 Esercitazione

Microeconometria (Silvia Tiezzi) 01 aprile2011 Esercitazione Microeconometria (Silvia Tiezzi) 01 aprile2011 Esercitazione Esercizio 1 Si consideri il seguente modello ad effetti fissi con variabili binarie: + 1 2 a) supponete che N=3. Si mostri che i regressori

Dettagli

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi :

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi : Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi dei dati quantitativi : Confronto tra due medie Università del Piemonte Orientale Corso di laurea in

Dettagli

Confronto tra gruppi (campioni indipendenti)

Confronto tra gruppi (campioni indipendenti) Confronto tra gruppi (campioni indipendenti) Campioni provenienti da una popolazione Normale con medie che possono essere diverse ma varianze uguali campioni: Test z or t sulla differenza tra medie 3,

Dettagli