MODELLI LINEARI E NON LINEARI IN R

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "MODELLI LINEARI E NON LINEARI IN R"

Transcript

1 MODELLI LINEARI E NON LINEARI IN R Angelo M. Mineo Dipartimento di Scienze Statistiche e Matematiche S. Vianelli Università degli Studi di Palermo

2 Copyright 2008 Angelo M. Mineo. All rights reserved.

3 i Prefazione R [26], ormai da anni, costituisce nell ambito dei software per la Statistica una valida alternativa ai più diffusi ambienti statistici commerciali. In particolare, R è un ambiente statistico distribuito gratuitamente in Internet sotto licenza GPL e sviluppato da un team di ricercatori in ambito statistico e informatico di fama mondiale. Esistono versioni di R per diverse piattaforme e in particolare per i più diffusi sistemi operativi per Personal Computer, cioè Windows, MAC e Linux. Inoltre R, costituendo un vero e proprio ambiente di programmazione, permette una elevatissima flessibilità nell implementazione di funzioni di calcolo e di rappresentazione grafica statistica. In questo lavoro si farà riferimento alla teoria dei modelli lineari e non lineari, con particolare riferimento all analisi di questi modelli attraverso l uso di R; infatti, maggiore enfasi verrà rivolta non tanto agli aspetti formali relativi ai modelli trattati, che possono essere trovati in uno degli ottimi libri citati in bibliografia, quanto all utilizzo pratico di R per risolvere questi problemi. Questo testo è rivolto principalmente agli studenti del Laboratorio di Statistica del Corso di Laurea in Statistica e Informatica per la Gestione e l Analisi dei Dati della Facoltà di Economia di Palermo e ai dottorandi del Dottorato di Ricerca in Statistica del Dipartimento di Scienze Statistiche e Matematiche Silvio Vianelli dell Università di Palermo.

4 ii Autore Angelo M. Mineo Professore Ordinario di Statistica Dipartimento di Scienze Statistiche e Matematiche Silvio Vianelli Università di Palermo Home page:

5 Indice Prefazione i 1 Regressione lineare Regressione lineare semplice Analisi dei residui Allontanamento dall ipotesi di normalità Regressione lineare multipla Multicollinearità Selezione di variabili Analisi della varianza Analisi della varianza ad una via Confronti multipli Analisi della varianza a due vie Test di Tukey per l ANOVA a due vie Piani non bilanciati Analisi della varianza a più vie Analisi della covarianza ANCOVA con un fattore a due livelli ANCOVA considerando un fattore con più di due livelli Regressione non lineare Stima dei parametri Utilizzo della funzione nls() Utilizzo della funzione optim() Modelli lineari generalizzati Proprietà dei modelli lineari generalizzati La struttura dell errore Il predittore lineare La funzione di link La stima dei parametri La devianza Modelli per risposte categoriali Modelli ad odds proporzionali Modelli per dati di conteggio Regressione di Poisson Modelli log-lineari per tabelle di contingenza iii

6 iv INDICE 6 Modelli per l analisi di sopravvivenza Funzioni di interesse L analisi di sopravvivenza in R Lo stimatore di Kaplan-Meier Il test del logaritmo dei ranghi Il modello a rischi proporzionali di Cox Modelli stocastici per serie storiche Analisi preliminare di una serie storica Bibliografia 130 Indice analitico 134

7 Capitolo 1 Regressione lineare In questo e nel prossimo capitolo faremo riferimento all analisi dei modelli lineari, trattando in particolare i modelli di regressione lineare e i modelli di analisi della varianza. Per quanto riguarda l analisi di regressione lineare, faremo riferimento al modello di regressione lineare semplice e multipla, nel caso di errori accidentali distribuiti secondo una curva normale, facendo quindi un piccolo cenno al caso in cui gli errori sono distribuiti secondo una distribuzione più generale degli errori (distribuzione normale di ordine p). Per quanto riguarda l analisi della varianza, faremo esplicito riferimento ai modelli ad una e a due vie, per poi fare un cenno al caso di modelli a più di due vie. In un successivo capitolo descriveremo, quindi, il caso di modelli di regressione esplicitamente non lineari, facendo riferimento al solo caso in cui gli errori sono distribuiti secondo una distribuzione normale. 1.1 Regressione lineare semplice Supponiamo di avere rilevato su n unità statistiche due variabili quantitative (x, y) e che la variabile y possa pensarsi dipendente dalla variabile x. Chiamiamo, quindi, la variabile y variabile di risposta o dipendente e la variabile x variabile esplicativa o indipendente. L espressione generale di un modello di regressione lineare semplice è data da y i = α + βx i + ε i (1.1) dove, come è noto, ε i costituisce la parte accidentale del modello, mentre la funzione lineare α + βx i costuisce la parte deterministica del modello, con α che rappresenta l intercetta e β che rappresenta il coefficiente angolare della retta Y i = α + βx i. Le ipotesi che solitamente si fanno sulla parte accidentale del modello sono le seguenti: 1. gli errori ε i sono indipendenti; 2. gli errori ε i sono omoschedastici (hanno, cioè, stessa varianza pari a σ 2 ); 3. gli errori ε i sono distribuiti secondo una N(0, σ 2 ). 1

8 2 CAPITOLO 1. REGRESSIONE LINEARE In realtà, se si utilizza il metodo dei minimi quadrati per la stima dell intercetta α e del coefficiente angolare β (chiamato anche parametro di regressione) non è necessaria l ipotesi di errori accidentali ε i distribuiti secondo una normale. In particolare, supponendo di avere n coppie di osservazioni (x i, y i ), il metodo dei minimi quadrati prevede che le stime di α e β siano ricavate dalla minimizzazione della funzione di perdita Q = n [y i (α + βx i )] 2 (1.2) i=1 Risolvendo questo problema di minimo, si ottengono le stime dei parametri di regressione, date da ˆβ = σ xy σ 2 x = (xi X)(y i Ȳ ) (xi X) 2 (1.3) ˆα = Ȳ ˆβ X (1.4) È possibile ottenere anche uno stimatore corretto della varianza degli errori accidentali σ 2, dato da n S 2 i=1 = [y i (ˆα + ˆβx i )] 2. (1.5) n 2 La parte di varianza spiegata dalla retta di regressione, rispetto alla varianza totale, ci dà il coefficiente di determinazione R 2, che permette di stabilire se il modello adattato è congruo, oppure no. Più avanti vedremo qual è l espressione che permette di calcolare il coefficiente di determinazione. Inoltre, se consideriamo in maniera esplicita l ipotesi di errori distribuiti secondo una N(0, σ 2 ), il metodo dei minimi quadrati coincide con il metodo della massima verosimiglianza. Come esempio di analisi di regressione lineare semplice, consideriamo l insieme di dati ciclisti.txt, utilizzato, tra gli altri, in [15] e [39]. In questo insieme di dati sono state considerate dieci strade con pista ciclabile ed è stata misurata la distanza tra la linea di mezzeria e un ciclista sulla pista ciclabile (variabile Center); in queste stesse dieci strade è stata determinata attraverso fotografie la distanza tra lo stesso ciclista e una macchina passante per la strada considerata (variabile Car, le distanze sono state misurate in piedi). Analizziamo questi dati, effettuando un analisi di regressione lineare semplice, considerando Car come variabile di risposta e Center come variabile esplicativa: > ciclisti <- read.table("ciclisti.txt", header = TRUE) > ciclisti Center Car

9 1.1. REGRESSIONE LINEARE SEMPLICE > res.ciclisti <- lm(car ~ Center, data = ciclisti) > summary(res.ciclisti) Call: lm(formula = Car ~ Center, data = ciclisti) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) Center e-06 *** --- Signif. codes: 0 `***' `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: on 8 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 1 and 8 DF, p-value: 9.975e-06 Come si può vedere, eseguendo la serie di istruzioni indicate sopra si è ottenuta una serie di informazioni, le più rilevanti delle quali, in questa prima fase, sono la stima dei parametri e il valore del coefficiente di determinazione R 2, che sta ad indicare un elevata spiegazione della variabile di risposta attraverso quella esplicativa (R 2 = ). Volendo visualizzare graficamente i dati e la retta stimata, si possono utilizzare i seguenti comandi: > plot(ciclisti$center, ciclisti$car, xlab = "Center", + ylab = "Car", main = "Retta di regressione per i dati + del file \"ciclisti.txt\"") > abline(res.ciclisti)

10 4 CAPITOLO 1. REGRESSIONE LINEARE Retta di regressione per i dati del file "ciclisti.txt" Car Center Dal grafico prodotto viene confermato l ottimo adattamento del modello ai dati. L ipotesi di normalità degli errori accidentali è, comunque, necessaria farla, se si vogliono costruire intervalli di confidenza o fare verifica di ipotesi sul parametro di regressione. In particolare, per quanto riguarda lo stabilire attraverso un test statistico la significatività del parametro di regressione β, è possibile organizzare una tabella di analisi della varianza, che permette di ricavare immediatamente la statistica test; infatti, se si indica con Dev(R), Dev(E) e Dev(T ) la devianza di regressione, la devianza dell errore e la devianza totale, rispettivamente, le cui espressioni sono date da: Dev(R) = Dev(E) = Dev(T ) = n (ŷ i Ȳ )2 (1.6) i=1 n (y i ŷ i ) 2 (1.7) i=1 n (y i Ȳ )2 (1.8) i=1 dove con y i si sono indicati i valori della variabile di risposta in corrispondenza di ciascun valore x i, con ŷ i i valori stimati sulla retta di regressione e con Ȳ la media delle y i, è facile vedere come Dev(T ) = Dev(R) + Dev(E) (1.9) Inoltre è possibile vedere graficamente le quantità coinvolte per il calcolo di queste quantità:

11 1.1. REGRESSIONE LINEARE SEMPLICE 5 > plot(ciclisti$center, ciclisti$car, ylim = c(5, 12), + xlab = "Center", ylab = "Car", + main = "Contributo di ciascun punto alla + Devianza Totale") > abline(h = mean(ciclisti$car)) > abline(res.ciclisti) > for (i in 1:length(ciclisti$Car)) lines( + c(ciclisti$center[i], ciclisti$center[i]), + c(ciclisti$car[i], mean(ciclisti$car))) Contributo di ciascun punto alla Devianza Totale Car Center > plot(ciclisti$center, ciclisti$car, ylim = c(5, 12), + xlab = "Center", ylab = "Car", + main = "Contributo di ciascun punto alla + Devianza di Regressione") > abline(h = mean(ciclisti$car)) > abline(res.ciclisti) > for (i in 1:length(ciclisti$Car)) lines( + c(ciclisti$center[i], ciclisti$center[i]), + c(predict(res.ciclisti)[i], mean(ciclisti$car)))

12 6 CAPITOLO 1. REGRESSIONE LINEARE Contributo di ciascun punto alla Devianza di Regressione Car Center > plot(ciclisti$center, ciclisti$car, ylim = c(5, 12), + xlab = "Center", ylab = "Car", + main = "Contributo di ciascun punto alla + Devianza d'errore") > abline(h = mean(ciclisti$car)) > abline(res.ciclisti) > for (i in 1:length(ciclisti$Car)) lines( + c(ciclisti$center[i], ciclisti$center[i]), + c(ciclisti$car[i], predict(res.ciclisti)[i]))

13 1.1. REGRESSIONE LINEARE SEMPLICE 7 Contributo di ciascun punto alla Devianza d'errore Car Center È possibile, allora, costruire la seguente tabella Sorgente Devianza gdl Varianza F Regressione Dev(R) 1 V ar(r) = Dev(R) Errore Dev(E) n 2 S 2 = Dev(E) n 2 Totale Dev(T ) n 1 V ar(r) S 2 che permette di ricavare direttamente la statistica test F per saggiare il sistema di ipotesi H o : β = 0 H 1 : β 0 Il test F risulta significativo per valori elevati della statistica test, cioè per valori che si trovano nella coda destra della distribuzione. Dalla tabella ANOVA è anche possibile ricavare il coefficiente di determinazione R 2, già visto in precedenza, che, come è noto, è dato da R 2 = Dev(R) Dev(T ) = 1 Dev(E) Dev(T ) Per i nostri dati la tabella di analisi della varianza è la seguente (1.10) > anova(res.ciclisti) Analysis of Variance Table

14 8 CAPITOLO 1. REGRESSIONE LINEARE Response: Car Df Sum Sq Mean Sq F value Pr(>F) Center e-06 *** Residuals Signif. codes: 0 `***' `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 È possibile costruire intervalli di confidenza per i parametri (in questo senso si potrebbero sfruttare le informazioni visualizzate con il comando summary()), ma spesso quello che interessa è costruire un intervallo di confidenza sulla posizione della retta di regressione o un intervallo di previsione per un valore di y non ancora estratto. Se interessa costruire un intervallo di confidenza per la retta di regressione, allora si può dimostrare che una stima corretta della varianza è pari a [ 1 S 2 n + (x i X) 2 ] nsx 2 (1.11) Se invece si desidera costruire un intervallo di previsione per un valore di y, allora una stima corretta della varianza sarà data da [ S n + (x i X) 2 ] nsx 2 (1.12) Volendo rappresentare graficamente la banda di confidenza e la banda di previsione con un livello di fiducia pari al 95%, si possono eseguire i seguenti comandi: > int.previsione <- predict(res.ciclisti, ciclisti, + interval = "prediction") > int.confidenza <- predict(res.ciclisti, ciclisti, + interval = "confidence") > matplot(ciclisti$center, cbind(int.confidenza, + int.previsione[, -1]), lty = c(1, 2, 2, 3, 3), + type = "l", xlab = "Center", ylab = "Car", + col = c("black", "red", "red", "blue", "blue"), + main = "Banda di confidenza e di previsione") > points(ciclisti$center, ciclisti$car)

15 1.1. REGRESSIONE LINEARE SEMPLICE 9 Banda di confidenza e di previsione Car Center Analisi dei residui Abbiamo visto, nel precedente paragrafo, quali sono le ipotesi di base relative alla parte accidentale di un modello di regressione lineare semplice. Dopo aver stimato i parametri del modello si potrebbero verificare a posteriori le ipotesi fatte, basandosi sui residui, cioè le differenze tra le y i osservate e le y i stimate con il modello considerato. Solitamente, questa analisi è di tipo grafico. In R è semplicissimo effettuare un analisi di questo tipo, nota come analisi dei residui: > par(mfrow = c(2, 2), mar = c(5, 4, 5, 4) + 0.1) > plot(res.ciclisti) > par(mfrow = c(1, 1), mar = c(5, 4, 4, 4) + 0.1) > par(new = TRUE) > plot(ciclisti$center, axes = FALSE, xlab = "", ylab = "", + type = "n", main = "Analisi dei residui per il file di + dati \"ciclisti.txt\"")

16 10 CAPITOLO 1. REGRESSIONE LINEARE Residuals Analisi dei residui per il file di dati "ciclisti.txt" Residuals vs Fitted Standardized residuals Normal Q Q plot Fitted values Theoretical Quantiles Standardized residuals Scale Location plot Cook's distance Cook's distance plot Fitted values Obs. number Il comando par(mfrow=c(2,2)) è servito per rappresentare i quattro grafici forniti da R in un unica finestra divisa in quattro parti (due righe e due colonne); l ultimo comando ha ristabilito la situazione originaria di un singolo grafico in una finestra. In particolare, i grafici visualizzati ci danno informazioni sulle ipotesi fatte sugli errori accidentali relativamente all indipendenza (grafico in alto a sinistra), all ipotesi di normalità (grafico in alto a destra), alla omoschedasticità (grafico in basso a sinistra) e alla eventuale presenza di valori anomali (grafico in basso a destra). Nel caso specifico, non sembrano esserci forti violazioni delle ipotesi di base fatte sugli errori accidentali Allontanamento dall ipotesi di normalità Spesso l ipotesi di normalità per la parte accidentale di un modello di regressione non è sostenibile, pur essendo verificata la condizione che gli errori hanno media zero e varianza costante. In questi casi può essere utile considerare distribuzioni simmetriche diverse dalla normale. Una famiglia di curve che potrebbe essere utilizzata in questo caso è quella delle curve normali di ordine p (vedi tra gli altri [31], [32] e [33]), la cui funzione di densità di probabilità è data da: f(x) = x µ 1 p 2p 1/p σ p Γ(1 + 1/p) e pσp p (1.13) In questo caso, volendo stimare i coefficienti di regressione con il metodo della massima verosimiglianza si può utilizzare il package normalp di R (vedi [34]). Considerando, ad esempio, il file di dati utilizzato in precedenza, adattiamo un modello di regressione lineare semplice supponendo che gli errori seguano una

17 1.1. REGRESSIONE LINEARE SEMPLICE 11 distribuzione normale di ordine p (la funzione che utilizzeremo provvederà anche alla stima di p): > res.ciclisti.p <- lmp(car ~ Center, data = ciclisti) > summary(res.ciclisti.p) Call: lmp(formula = Car ~ Center, data = ciclisti) Residuals: Min 1Q Median 3Q Max Coefficients: (Intercept) Center Estimate of p Power deviation of order p: Volendo confrontare le due rette di regressione, la prima ottenuta con il metodo dei minimi quadrati, la seconda supponendo gli errori accidentali distribuiti secondo una curva normale di ordine p, si può utilizzare la seguente rappresentazione grafica: > plot(ciclisti$center, ciclisti$car, xlab = "Center", + ylab = "Car", main = "Regressione di norma p") > abline(res.ciclisti, col = "black") > abline(res.ciclisti.p, col = "red") > legend(13, 11, c("minimi quadrati", "norma p"), + lty = c(1, 1), col = c("black", "red"))

18 12 CAPITOLO 1. REGRESSIONE LINEARE Regressione di norma p Car minimi quadrati norma p Center Come può notarsi non sembrano esserci in questo caso grosse differenze tra le due rette di regressione. In particolare, in questo caso la stima di p è risultata pari a ˆp = , indicando una distribuzione normale di ordine p leptocurtica, come possibile distribuzione degli errori accidentali per l insieme di dati considerato. È possibile anche effettuare un analisi dei residui di norma p: > par(mfrow = c(2, 2), mar = c(5, 4, 5, 4) + 0.1) > plot(res.ciclisti.p) > par(mfrow = c(1, 1), mar = c(5, 4, 4, 4) + 0.1) > par(new = TRUE) > plot(ciclisti$center, axes = FALSE, xlab = "", ylab = "", + type = "n", main = "Analisi dei residui di norma p")

19 1.2. REGRESSIONE LINEARE MULTIPLA 13 Residuals p Residuals vs Fitted Analisi dei residui di norma p Standardized residuals Normal Q Q plot Fitted values lmp(formula = Car ~ Center, data = ciclisti) Theoretical Quantiles lmp(formula = Car ~ Center, data = ciclisti) Normal of order p Q Q plot Standardized residuals p= Standardized residuals Scale Location plot Theoretical Quantiles lmp(formula = Car ~ Center, data = ciclisti) Fitted values lmp(formula = Car ~ Center, data = ciclisti) Anche in questo caso, non sembrano esserci forti violazioni delle ipotesi di base fatte sugli errori accidentali. 1.2 Regressione lineare multipla Nel caso in cui si ha a che fare con più di una variabile esplicativa, la regressione lineare, da semplice, diventa multipla: y = β 0 + β 1 x 1 + β 2 x β q x q + ε (1.14) In particolare, in questo modello con intercetta si sta supponendo di avere una variabile di risposta y e q variabili esplicative x i, con i = 1, 2,..., q. Quando si ha a che fare con un modello di regressione lineare multipla è conveniente utilizzare la notazione matriciale: supponendo di avere n unità statistiche sulle quali sono state rilevate le q + 1 variabili (y; x 1, x 2,..., x q ), allora indichiamo con y = [y 1, y 2,..., y n ] la variabile di risposta, con x i = [x i1, x i2,..., x in ] la i esima variabile esplicativa, con X la cosiddetta matrice disegno di ordine n (q + 1): 1 x 11 x x q1 1 x 12 x x q2 X = x 1n x 2n... x qn e con β = [β 0, β 1, β 2,..., β q ] e ε = [ε 1, ε 2,..., ε n ] rispettivamente il vettore dei

20 14 CAPITOLO 1. REGRESSIONE LINEARE coefficienti di regressione e il vettore degli errori accidentali. In questo caso si può quindi scrivere il modello di regressione lineare multipla come y = Xβ + ε (1.15) Applicando il metodo dei minimi quadrati per la stima dei parametri, si ottiene: Infatti, in questo caso la funzione di perdita è data da: ˆβ = (X X) 1 X y (1.16) (y Xβ) (y Xβ) (1.17) che bisogna minimizzare rispetto a β. Esplicitando la funzione di perdita si ha: che può essere posta nella forma: y y (Xβ) y y (Xβ) + (Xβ) (Xβ) (1.18) y y 2(Xβ) y + (Xβ) (Xβ) (1.19) dato che le due quantità (Xβ) y e y (Xβ) sono due scalari. Derivando l espressione ottenuta ed eguegliandola a zero, si ha: 2X y + 2(X X)β = 0 (1.20) da cui segue, se la matrice (X X) è invertibile, la (1.16). Consideriamo, come esempio, i dati contenuti nel file formaggio.txt [35] e relativi alle concentrazioni di varie sostanze chimiche in 30 campioni di formaggio Cheddar, prodotto nella zona LaTrobe Valley dello stato Victoria in Australia; come variabile di risposta è stata considerata una misura soggettiva del gusto per ogni campione. È noto, infatti, che man mano che il formaggio matura, hanno luogo diversi processi chimici che determinano il sapore del prodotto finale. In particolare, le variabili prese in considerazione sono: Taste Acetic H2S Lactic Punteggio soggettivo del test sul gusto, ottenuto combinando i punteggi dei diversi assaggiatori. Logaritmo naturale della concentrazione di acido acetico. Logaritmo naturale della concentrazione di acido solfidrico. Concentrazione di acido lattico. Si è, quindi, proceduto con l analisi di questo insieme di dati: > formaggio <- read.table("formaggio.txt", header = TRUE) > formaggio Taste Acetic H2S Lactic

21 1.2. REGRESSIONE LINEARE MULTIPLA > cor(formaggio) Taste Acetic H2S Lactic Taste Acetic H2S Lactic > plot(formaggio, main = "Matrice di scatterplot + per le variabili di \"formaggio.txt\"")

22 16 CAPITOLO 1. REGRESSIONE LINEARE Taste Acetic H2S Lactic Matrice di scatterplot per le variabili di "formaggio.txt" > attach(formaggio) > res.formaggio <- lm(taste ~ Acetic + H2S + Lactic) > res.formaggio Call: lm(formula = Taste ~ Acetic + H2S + Lactic) Coefficients: (Intercept) Acetic H2S Lactic > par(mfrow = c(2, 2), mar = c(5, 4, 5, 4) + 0.1) > plot(res.formaggio) > par(mfrow = c(1, 1), mar = c(5, 4, 4, 4) + 0.1) > par(new = TRUE) > plot(taste, axes = FALSE, xlab = "", ylab = "", + type = "n", main = "Analisi dei residui per + il file di dati \"formaggio.txt\"")

23 1.2. REGRESSIONE LINEARE MULTIPLA 17 Residuals Analisi dei residui per il file di dati "formaggio.txt" Residuals vs Fitted Normal Q Q plot Standardized residuals Fitted values Theoretical Quantiles Standardized residuals Scale Location plot Cook's distance Cook's distance plot Fitted values Obs. number > summary(res.formaggio) Call: lm(formula = Taste ~ Acetic + H2S + Lactic) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) Acetic H2S ** Lactic * --- Signif. codes: 0 `***' `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: on 26 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 3 and 26 DF, p-value: 3.81e-06 In questo caso, la parte di varianza spiegata dalle variabili esplicative è pari a R 2 = Così come si è fatto nel caso di regressione lineare semplice, è possibile costruire anche in questo caso la tabella di analisi della varianza

24 18 CAPITOLO 1. REGRESSIONE LINEARE Sorgente Devianza gdl Varianza F Regressione Dev(R) q V ar(r) = Dev(R) q Errore Dev(E) n q 1 S 2 = Dev(E) n q 1 Totale Dev(T ) n 1 V ar(r) S 2 che permette di ricavare direttamente la statistica test F per saggiare il sistema di ipotesi H o : β i = 0 i H 1 : β i 0 per qualche i Anche in questo caso, il test F risulta significativo per valori elevati della statistica test, cioè per valori che cadono nella coda destra della distribuzione. > anova(res.formaggio) Analysis of Variance Table Response: Taste Df Sum Sq Mean Sq F value Pr(>F) Acetic e-05 *** H2S *** Lactic * Residuals Signif. codes: 0 `***' `**' 0.01 `*' 0.05 `.' 0.1 ` ' Multicollinearità Si parla di multicollinearità quando si è in presenza di una forte dipendenza lineare tra due o più regressori. I problemi causati dalla presenza di multicollinearità sono diversi e si possono riassumere nei seguenti punti: 1. problemi di stima: considerando il metodo dei minimi quadrati, le stime dei coefficienti di regressione sono date, come abbiamo visto, da ˆβ = (X X) 1 X y (1.21) Se vi è multicollinearità, la matrice X X risulta quasi singolare e quindi si ha un malcondizionamento del sistema di equazioni, che dovrebbe fornirci la stima dei parametri, che quindi risultano inaffidabili; 2. problemi di previsione: risulta, da un punto di vista pratico, inutile fare alcun tipo di previsione per un valore della variabile di risposta y, a causa proprio dell inaffidabilità dei valori di ˆβ; 3. problemi di calcolo: si possono avere problemi computazionali nell inversione della matrice X X.

25 1.4. SELEZIONE DI VARIABILI problemi di interpretazione: un caso frequente che si verifica in presenza di multicollinearità è che nel caso in cui è lecito aspettarsi, per conoscenze proprie del fenomeno sotto studio, dei coefficienti di regressione con un particolare segno, si possono ottenere valori dei coefficienti assolutamente non rispondenti alle aspettative. Il modo migliore per agire, in questo caso, è di vedere quali sono le variabili esplicative responsabili del fenomeno di multicollinearità ed escluderle dall analisi; questo modo di procedere, dal punto di vista della spiegazione della variabile di risposta da parte delle variabili esplicative, porta ad una perdita di informazione molto piccola. Un modo per stabilire se si è in presenza di multicollinearità è quello di calcolare i cosiddetti fattori di inflazione di varianza (VIF, Variance Inflaction Factors). Infatti, quando si è in presenza di multicollinearità, la varianza stimata del j-esimo coefficiente di regressione può essere scritta come ˆ V ar(b j ) = S 2 (n 1)S 2 j 1 1 R 2 j (1.22) dove S 2 è la varianza dell errore, Sj 2 è la varianza di x j ed Rj 2 è il coefficiente di determinazione calcolato facendo la regressione di x j sulle altre variabili esplicative x i, con i = 1, 2,..., q e i j. La quantità 1 V IF j = 1 Rj 2 (1.23) è chiamata fattore di inflazione di varianza per b j. I VIF sono utilizzati come misure di multicollinearità, perché la radice quadrata dei VIF indica di quanto l intervallo di confidenza, costruito su ciascuno dei coefficienti di regressione β j è più grande rispetto alla situazione di dati non correlati. In particolare, quindi, le variabili che risultano maggiormente indiziate di provocare il fenomeno della multicollinearità sono quelle che presentano VIF più elevato. In R la funzione che permette il calcolo dei VIF è contenuta nel package car (vedi [19]). Per il nostro esempio si ha: > library(car) > vif(res.formaggio) Acetic H2S Lactic Considerato che, solitamente, si ritengono responsabili del fenomeno di multicollinearità quelle variabile esplicative che producono valori dei VIF superiori a 10, nel nostro caso c è da ritenere che non ci siano grossi problemi legati alla multicollinearità. 1.4 Selezione di variabili Quando in un problema di regressione lineare multipla si considerano molte variabili esplicative, quello che succede solitamente è che tutte le variabili non contribuiscono in modo determinante alla spiegazione della variabile di risposta.

26 20 CAPITOLO 1. REGRESSIONE LINEARE Risulta, allora, fondamentale poter stabilire quali tra le variabili esplicative sono importanti e quali no, per eventualmente eliminare dall analisi queste ultime, andando così incontro al principio di parsimonia o al principio del rasoio di Occam, per cui, nel nostro caso, un modello risulta ottimale quando riusciamo ad avere il massimo di spiegazione della variabile di risposta con il minimo numero di variabili esplicative. È noto, comunque, che man mano che aumenta il numero di variabili esplicative nel modello, aumenta anche il valore di R 2 : si tratta quindi di stabilire quando l aumento di R 2 si può ritenere significativo, oppure no. Come misura della buona spiegazione della variabile di risposta data dalle variabili esplicative, si può utilizzare anche l Akaike s Information Criterion (vedi [2] e [1]), noto con l acronimo AIC, definito come AIC = 2 log-verosimiglianza massimizzata + 2 numero di parametri (1.24) A valori bassi di AIC corrisponde una buona spiegazione della variabile di risposta. Si deve cercare, allora, il giusto compromesso tra numero minimo di variabili esplicative e spiegazione della variabile di risposta, in base ai valori di AIC. Il modo di cercare quali variabili esplicative lasciare e quali eliminare dall analisi, può essere in avanti (forward), all indietro (backward) o alternato (procedura mista in avanti e all indietro). La procedura forward prevede che si parta con il modello con una sola variabile esplicativa (la più correlata con la variabile di risposta) e via via si vanno introducendo le altre variabili esplicative, fino a quando il test F, su cui è basata la significatività di un modello con più variabili rispetto ad uno più parsimonioso, non risulta più significativo e quindi si arresta la procedura. La procedura backward parte dal modello completo e via via va eliminado le variabili che non danno un contributo significativo alla spiegazione della variabile di risposta. La procedura alternata utilizza le due procedure forward e backward in maniera alternata, appunto. In R esiste la funzione step() che esegue questa procedura in modo automatico, nota come regressione stepwise; la scelta della procedura di ricerca da utilizzare è regolata dall argomento direction che può assumere tre valori: both, backward, oppure forward; il valore di default è both. Vediamo l utilizzo della regressione stepwise applicata al nostro insieme di dati: > step(res.formaggio) Start: AIC= Taste ~ Acetic + H2S + Lactic Df Sum of Sq RSS AIC - Acetic <none> Lactic H2S Step: AIC= Taste ~ H2S + Lactic

Capitolo 12 La regressione lineare semplice

Capitolo 12 La regressione lineare semplice Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara

Dettagli

3. Confronto tra medie di due campioni indipendenti o appaiati

3. Confronto tra medie di due campioni indipendenti o appaiati BIOSTATISTICA 3. Confronto tra medie di due campioni indipendenti o appaiati Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk MARTA BLANGIARDO

Dettagli

RELAZIONE TRA DUE VARIABILI QUANTITATIVE

RELAZIONE TRA DUE VARIABILI QUANTITATIVE RELAZIONE TRA DUE VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni che sussistono tra loro. Nel caso in cui

Dettagli

Analisi statistica di dati biomedici Analysis of biologicalsignals

Analisi statistica di dati biomedici Analysis of biologicalsignals Analisi statistica di dati biomedici Analysis of biologicalsignals II Parte Verifica delle ipotesi (a) Agostino Accardo (accardo@units.it) Master in Ingegneria Clinica LM in Neuroscienze 2013-2014 e segg.

Dettagli

Elementi di Statistica

Elementi di Statistica Elementi di Statistica Contenuti Contenuti di Statistica nel corso di Data Base Elementi di statistica descrittiva: media, moda, mediana, indici di dispersione Introduzione alle variabili casuali e alle

Dettagli

Confronto tra gruppi (campioni indipendenti)

Confronto tra gruppi (campioni indipendenti) Confronto tra gruppi (campioni indipendenti) Campioni provenienti da una popolazione Normale con medie che possono essere diverse ma varianze uguali campioni: Test z or t sulla differenza tra medie 3,

Dettagli

4. Confronto tra medie di tre o più campioni indipendenti

4. Confronto tra medie di tre o più campioni indipendenti BIOSTATISTICA 4. Confronto tra medie di tre o più campioni indipendenti Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk MARTA BLANGIARDO

Dettagli

4.2. IL TEST F DI FISHER O ANALISI DELLA VARIANZA (ANOVA)

4.2. IL TEST F DI FISHER O ANALISI DELLA VARIANZA (ANOVA) 4.2. IL TEST F DI FISHER O ANALISI DELLA VARIANZA (ANOVA) L analisi della varianza è un metodo sviluppato da Fisher, che è fondamentale per l interpretazione statistica di molti dati biologici ed è alla

Dettagli

iovanella@disp.uniroma2.it http://www.disp.uniroma2.it/users/iovanella Verifica di ipotesi

iovanella@disp.uniroma2.it http://www.disp.uniroma2.it/users/iovanella Verifica di ipotesi iovanella@disp.uniroma2.it http://www.disp.uniroma2.it/users/iovanella Verifica di ipotesi Idea di base Supponiamo di avere un idea del valore (incognito) di una media di un campione, magari attraverso

Dettagli

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi :

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi : Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi dei dati quantitativi : Confronto tra due medie Università del Piemonte Orientale Corso di laurea in

Dettagli

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA ESERCIZI SVOLTI PER LA PROVA DI STATISTICA Stefania Naddeo (anno accademico 4/5) INDICE PARTE PRIMA: STATISTICA DESCRITTIVA. DISTRIBUZIONI DI FREQUENZA E FUNZIONE DI RIPARTIZIONE. VALORI CARATTERISTICI

Dettagli

Da una a più variabili: derivate

Da una a più variabili: derivate Da una a più variabili: derivate ( ) 5 gennaio 2011 Scopo di questo articolo è di evidenziare le analogie e le differenze, relativamente al calcolo differenziale, fra le funzioni di una variabile reale

Dettagli

Capitolo 9: PROPAGAZIONE DEGLI ERRORI

Capitolo 9: PROPAGAZIONE DEGLI ERRORI Capitolo 9: PROPAGAZIOE DEGLI ERRORI 9.1 Propagazione degli errori massimi ella maggior parte dei casi le grandezze fisiche vengono misurate per via indiretta. Il valore della grandezza viene cioè dedotto

Dettagli

ANALISI DEI DATI CON SPSS

ANALISI DEI DATI CON SPSS STRUMENTI E METODI PER LE SCIENZE SOCIALI Claudio Barbaranelli ANALISI DEI DATI CON SPSS II. LE ANALISI MULTIVARIATE ISBN 978-88-7916-315-9 Copyright 2006 Via Cervignano 4-20137 Milano Catalogo: www.lededizioni.com

Dettagli

EQUAZIONI non LINEARI

EQUAZIONI non LINEARI EQUAZIONI non LINEARI Francesca Pelosi Dipartimento di Matematica, Università di Roma Tor Vergata CALCOLO NUMERICO e PROGRAMMAZIONE http://www.mat.uniroma2.it/ pelosi/ EQUAZIONI non LINEARI p.1/44 EQUAZIONI

Dettagli

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato. Esercizio 1 Sia X 1,..., X un campione casuale estratto da una variabile aleatoria normale con media pari a µ e varianza pari a 1. Supponiamo che la media campionaria sia x = 2. 1a) Calcolare gli estremi

Dettagli

METODO DEI MINIMI QUADRATI. Quest articolo discende soprattutto dai lavori di Deming, Press et al. (Numerical Recipes) e Jefferys.

METODO DEI MINIMI QUADRATI. Quest articolo discende soprattutto dai lavori di Deming, Press et al. (Numerical Recipes) e Jefferys. METODO DEI MINIMI QUADRATI GIUSEPPE GIUDICE Sommario Il metodo dei minimi quadrati è trattato in tutti i testi di statistica e di elaborazione dei dati sperimentali, ma non sempre col rigore necessario

Dettagli

Dott.ssa Caterina Gurrieri

Dott.ssa Caterina Gurrieri Dott.ssa Caterina Gurrieri Le relazioni tra caratteri Data una tabella a doppia entrata, grande importanza riveste il misurare se e in che misura le variabili in essa riportata sono in qualche modo

Dettagli

(accuratezza) ovvero (esattezza)

(accuratezza) ovvero (esattezza) Capitolo n 2 2.1 - Misure ed errori In un analisi chimica si misurano dei valori chimico-fisici di svariate grandezze; tuttavia ogni misura comporta sempre una incertezza, dovuta alla presenza non eliminabile

Dettagli

Diaz - Appunti di Statistica - AA 2001/2002 - edizione 29/11/01 Cap. 3 - Pag. 1 = 1

Diaz - Appunti di Statistica - AA 2001/2002 - edizione 29/11/01 Cap. 3 - Pag. 1 = 1 Diaz - Appunti di Statistica - AA 2001/2002 - edizione 29/11/01 Cap. 3 - Pag. 1 Capitolo 3. L'analisi della varianza. Il problema dei confronti multipli. La soluzione drastica di Bonferroni ed il test

Dettagli

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della RELAZIONE TRA VARIABILI QUANTITATIVE Lezione 7 a Accade spesso nella ricerca in campo biomedico, così come in altri campi della scienza, di voler studiare come il variare di una o più variabili (variabili

Dettagli

Esercitazioni di Statistica

Esercitazioni di Statistica Esercitazioni di Statistica Test d ipotesi sul valor medio e test χ 2 di adattamento Prof. Livia De Giovanni statistica@dis.uniroma1.it Esercizio 1 Si supponga che il diametro degli anelli metallici prodotti

Dettagli

Statistica. Lezione 6

Statistica. Lezione 6 Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 6 a.a 011-01 Dott.ssa Daniela Ferrante

Dettagli

errore I = numero soggetti (I = 4) K = numero livelli tratt. (K = 3) popolazione varianza dovuta ai soggetti trattamento

errore I = numero soggetti (I = 4) K = numero livelli tratt. (K = 3) popolazione varianza dovuta ai soggetti trattamento Analisi della varianza a una via a misure ripetute (Anova con 1 fattore within) modello strutturale dell'analisi della varianza a misure ripetute con 1 fattore: y = μ ik 0 +π i +α k + ik ε ik interazione

Dettagli

Stima per intervalli Nei metodi di stima puntuale è sempre presente un ^ errore θ θ dovuto al fatto che la stima di θ in genere non coincide con il parametro θ. Sorge quindi l esigenza di determinare una

Dettagli

Parte 2. Determinante e matrice inversa

Parte 2. Determinante e matrice inversa Parte. Determinante e matrice inversa A. Savo Appunti del Corso di Geometria 013-14 Indice delle sezioni 1 Determinante di una matrice, 1 Teorema di Cramer (caso particolare), 3 3 Determinante di una matrice

Dettagli

Accuratezza di uno strumento

Accuratezza di uno strumento Accuratezza di uno strumento Come abbiamo già accennato la volta scora, il risultato della misurazione di una grandezza fisica, qualsiasi sia lo strumento utilizzato, non è mai un valore numerico X univocamente

Dettagli

Principal Component Analysis

Principal Component Analysis Principal Component Analysis Alessandro Rezzani Abstract L articolo descrive una delle tecniche di riduzione della dimensionalità del data set: il metodo dell analisi delle componenti principali (Principal

Dettagli

Introduzione alla Teoria degli Errori

Introduzione alla Teoria degli Errori Introduzione alla Teoria degli Errori 1 Gli errori di misura sono inevitabili Una misura non ha significato se non viene accompagnata da una ragionevole stima dell errore ( Una scienza si dice esatta non

Dettagli

SCHEDA DI PROGRAMMAZIONE DELLE ATTIVITA EDUCATIVE DIDATTICHE. Disciplina: Matematica Classe: 5A sia A.S. 2014/15 Docente: Rosito Franco

SCHEDA DI PROGRAMMAZIONE DELLE ATTIVITA EDUCATIVE DIDATTICHE. Disciplina: Matematica Classe: 5A sia A.S. 2014/15 Docente: Rosito Franco Disciplina: Matematica Classe: 5A sia A.S. 2014/15 Docente: Rosito Franco ANALISI DI SITUAZIONE - LIVELLO COGNITIVO La classe ha dimostrato fin dal primo momento grande attenzione e interesse verso gli

Dettagli

ALGEBRA: LEZIONI DAL 13 OTTOBRE AL 3 NOVEMBRE

ALGEBRA: LEZIONI DAL 13 OTTOBRE AL 3 NOVEMBRE ALGEBRA: LEZIONI DAL 13 OTTOBRE AL 3 NOVEMBRE 1 DIPENDENZA E INDIPENDENZA LINEARE Se ho alcuni vettori v 1, v 2,, v n in uno spazio vettoriale V, il sottospazio 1 W = v 1,, v n di V da loro generato è

Dettagli

METODI ITERATIVI PER SISTEMI LINEARI

METODI ITERATIVI PER SISTEMI LINEARI METODI ITERATIVI PER SISTEMI LINEARI LUCIA GASTALDI 1. Metodi iterativi classici Sia A R n n una matrice non singolare e sia b R n. Consideriamo il sistema (1) Ax = b. Un metodo iterativo per la soluzione

Dettagli

ELEMENTI DI STATISTICA

ELEMENTI DI STATISTICA Pag 1 di 92 Francesco Sardo ELEMENTI DI STATISTICA PER VALUTATORI DI SISTEMI QUALITA AMBIENTE - SICUREZZA REV. 11 16/08/2009 Pag 2 di 92 Pag 3 di 92 0 Introduzione PARTE I 1 Statistica descrittiva 1.1

Dettagli

Algoritmo euclideo, massimo comun divisore ed equazioni diofantee

Algoritmo euclideo, massimo comun divisore ed equazioni diofantee Algoritmo euclideo, massimo comun divisore ed equazioni diofantee Se a e b sono numeri interi, si dice che a divide b, in simboli: a b, se e solo se esiste c Z tale che b = ac. Si può subito notare che:

Dettagli

GeoGebra 4.2 Introduzione all utilizzo della Vista CAS per il secondo biennio e il quinto anno

GeoGebra 4.2 Introduzione all utilizzo della Vista CAS per il secondo biennio e il quinto anno GeoGebra 4.2 Introduzione all utilizzo della Vista CAS per il secondo biennio e il quinto anno La Vista CAS L ambiente di lavoro Le celle Assegnazione di una variabile o di una funzione / visualizzazione

Dettagli

General Linear Model. Esercizio

General Linear Model. Esercizio Esercizio General Linear Model Una delle molteplici applicazioni del General Linear Model è la Trend Surface Analysis. Questa tecnica cerca di individuare, in un modello di superficie, quale tendenza segue

Dettagli

Rapida Introduzione all uso del Matlab Ottobre 2002

Rapida Introduzione all uso del Matlab Ottobre 2002 Rapida Introduzione all uso del Matlab Ottobre 2002 Tutti i tipi di dato utilizzati dal Matlab sono in forma di array. I vettori sono array monodimensionali, e così possono essere viste le serie temporali,

Dettagli

if t>=0 x=1; else x=0; end fornisce, nella variabile x, il valore della funzione gradino a tempi continui, calcolata in t.

if t>=0 x=1; else x=0; end fornisce, nella variabile x, il valore della funzione gradino a tempi continui, calcolata in t. Il programma MATLAB In queste pagine si introduce in maniera molto breve il programma di simulazione MAT- LAB (una abbreviazione di MATrix LABoratory). Introduzione MATLAB è un programma interattivo di

Dettagli

Il concetto di valore medio in generale

Il concetto di valore medio in generale Il concetto di valore medio in generale Nella statistica descrittiva si distinguono solitamente due tipi di medie: - le medie analitiche, che soddisfano ad una condizione di invarianza e si calcolano tenendo

Dettagli

LA CORRELAZIONE LINEARE

LA CORRELAZIONE LINEARE LA CORRELAZIONE LINEARE La correlazione indica la tendenza che hanno due variabili (X e Y) a variare insieme, ovvero, a covariare. Ad esempio, si può supporre che vi sia una relazione tra l insoddisfazione

Dettagli

Quando troncare uno sviluppo in serie di Taylor

Quando troncare uno sviluppo in serie di Taylor Quando troncare uno sviluppo in serie di Taylor Marco Robutti October 13, 2014 Lo sviluppo in serie di Taylor di una funzione è uno strumento matematico davvero molto utile, e viene spesso utilizzato in

Dettagli

Principal Component Analysis (PCA)

Principal Component Analysis (PCA) Principal Component Analysis (PCA) Come evidenziare l informazione contenuta nei dati S. Marsili-Libelli: Calibrazione di Modelli Dinamici pag. Perche PCA? E un semplice metodo non-parametrico per estrarre

Dettagli

Parte 3. Rango e teorema di Rouché-Capelli

Parte 3. Rango e teorema di Rouché-Capelli Parte 3. Rango e teorema di Rouché-Capelli A. Savo Appunti del Corso di Geometria 203-4 Indice delle sezioni Rango di una matrice, 2 Teorema degli orlati, 3 3 Calcolo con l algoritmo di Gauss, 6 4 Matrici

Dettagli

Matematica B - a.a 2006/07 p. 1

Matematica B - a.a 2006/07 p. 1 Matematica B - a.a 2006/07 p. 1 Definizione 1. Un sistema lineare di m equazioni in n incognite, in forma normale, è del tipo a 11 x 1 + + a 1n x n = b 1 a 21 x 1 + + a 2n x n = b 2 (1) = a m1 x 1 + +

Dettagli

PROBABILITA, VALORE ATTESO E VARIANZA DELLE QUANTITÁ ALEATORIE E LORO RELAZIONE CON I DATI OSSERVATI

PROBABILITA, VALORE ATTESO E VARIANZA DELLE QUANTITÁ ALEATORIE E LORO RELAZIONE CON I DATI OSSERVATI statistica, Università Cattaneo-Liuc, AA 006-007, lezione del 08.05.07 IDICE (lezione 08.05.07 PROBABILITA, VALORE ATTESO E VARIAZA DELLE QUATITÁ ALEATORIE E LORO RELAZIOE CO I DATI OSSERVATI 3.1 Valore

Dettagli

Dimensione di uno Spazio vettoriale

Dimensione di uno Spazio vettoriale Capitolo 4 Dimensione di uno Spazio vettoriale 4.1 Introduzione Dedichiamo questo capitolo ad un concetto fondamentale in algebra lineare: la dimensione di uno spazio vettoriale. Daremo una definizione

Dettagli

La distribuzione Normale. La distribuzione Normale

La distribuzione Normale. La distribuzione Normale La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una

Dettagli

4. Operazioni elementari per righe e colonne

4. Operazioni elementari per righe e colonne 4. Operazioni elementari per righe e colonne Sia K un campo, e sia A una matrice m n a elementi in K. Una operazione elementare per righe sulla matrice A è una operazione di uno dei seguenti tre tipi:

Dettagli

ANALISI DELLA VARIANZA A PIU CRITERI DI CLASSIFICAZIONE

ANALISI DELLA VARIANZA A PIU CRITERI DI CLASSIFICAZIONE ANALISI DELLA VARIANZA A PIU CRITERI DI CLASSIFICAZIONE CON REPLICHE INTRODUZIONE Lo studio di un fenomeno non si deve limitareit alla valutazione dei singoli fattori in studio ma molto spesso è importante

Dettagli

ANALISI DELLE FREQUENZE: IL TEST CHI 2

ANALISI DELLE FREQUENZE: IL TEST CHI 2 ANALISI DELLE FREQUENZE: IL TEST CHI 2 Quando si hanno scale nominali o ordinali, non è possibile calcolare il t, poiché non abbiamo medie, ma solo frequenze. In questi casi, per verificare se un evento

Dettagli

QUADERNI DI DIDATTICA

QUADERNI DI DIDATTICA Department of Applied Mathematics, University of Venice QUADERNI DI DIDATTICA Tatiana Bassetto, Marco Corazza, Riccardo Gusso, Martina Nardon Esercizi sulle funzioni di più variabili reali con applicazioni

Dettagli

MINIMI QUADRATI. REGRESSIONE LINEARE

MINIMI QUADRATI. REGRESSIONE LINEARE MINIMI QUADRATI. REGRESSIONE LINEARE Se il coefficiente di correlazione r è prossimo a 1 o a -1 e se il diagramma di dispersione suggerisce una relazione di tipo lineare, ha senso determinare l equazione

Dettagli

STUDIO DI UNA FUNZIONE

STUDIO DI UNA FUNZIONE STUDIO DI UNA FUNZIONE OBIETTIVO: Data l equazione Y = f(x) di una funzione a variabili reali (X R e Y R), studiare l andamento del suo grafico. PROCEDIMENTO 1. STUDIO DEL DOMINIO (CAMPO DI ESISTENZA)

Dettagli

APPLICAZIONI LINEARI

APPLICAZIONI LINEARI APPLICAZIONI LINEARI 1. Esercizi Esercizio 1. Date le seguenti applicazioni lineari (1) f : R 2 R 3 definita da f(x, y) = (x 2y, x + y, x + y); (2) g : R 3 R 2 definita da g(x, y, z) = (x + y, x y); (3)

Dettagli

EQUAZIONI E DISEQUAZIONI POLINOMIALI E COLLEGAMENTI CON LA GEOMETRIA ELEMENTARE

EQUAZIONI E DISEQUAZIONI POLINOMIALI E COLLEGAMENTI CON LA GEOMETRIA ELEMENTARE EQUAZIONI E DISEQUAZIONI POLINOMIALI E COLLEGAMENTI CON LA GEOMETRIA ELEMENTARE 1. EQUAZIONI Definizione: un equazione è un uguaglianza tra due espressioni letterali (cioè in cui compaiono numeri, lettere

Dettagli

Compito di SISTEMI E MODELLI. 19 Febbraio 2015

Compito di SISTEMI E MODELLI. 19 Febbraio 2015 Compito di SISTEMI E MODELLI 9 Febbraio 5 Non é ammessa la consultazione di libri o quaderni. Le risposte vanno giustificate. Saranno rilevanti per la valutazione anche l ordine e la chiarezza di esposizione.

Dettagli

Materiale didattico per i laboratori di Modelli Statistici I 1

Materiale didattico per i laboratori di Modelli Statistici I 1 Materiale didattico per i laboratori di Modelli Statistici I 1 M. Chiogna, A. Salvan e N. Sartori Anno Accademico 2006-2007 1 Documento preparato con LATEX, Sweave e R 2.4.1 su i386-apple-darwin8.8.1 in

Dettagli

Esercizi su lineare indipendenza e generatori

Esercizi su lineare indipendenza e generatori Esercizi su lineare indipendenza e generatori Per tutto il seguito, se non specificato esplicitamente K indicherà un campo e V uno spazio vettoriale su K Cose da ricordare Definizione Dei vettori v,,v

Dettagli

ANALISI DELLA SOPRAVVIVENZA: IL MODELLO DI COX (parte I)

ANALISI DELLA SOPRAVVIVENZA: IL MODELLO DI COX (parte I) ANALISI DELLA SOPRAVVIVENZA: IL MODELLO DI COX (parte I) ESEMPIO 1 (continua): La costruzione del modello di Cox viene effettuata tramite un unico comando. Poiché il modello contiene una covariata categoriale

Dettagli

1x1 qs-stat. Pacchetto Software per la Soluzione di Problemi Statistici nel Controllo Qualità. Versione: 1 / Marzo 2010 Doc. n.

1x1 qs-stat. Pacchetto Software per la Soluzione di Problemi Statistici nel Controllo Qualità. Versione: 1 / Marzo 2010 Doc. n. 1x1 qs-stat Pacchetto Software per la Soluzione di Problemi Statistici nel Controllo Qualità Versione: 1 / Marzo 2010 Doc. n.: PD-0012 Copyright 2010 Q-DAS GmbH & Co. KG Eisleber Str. 2 D - 69469 Weinheim

Dettagli

CS. Cinematica dei sistemi

CS. Cinematica dei sistemi CS. Cinematica dei sistemi Dopo aver esaminato la cinematica del punto e del corpo rigido, che sono gli schemi più semplificati con cui si possa rappresentare un corpo, ci occupiamo ora dei sistemi vincolati.

Dettagli

1. Scopo dell esperienza.

1. Scopo dell esperienza. 1. Scopo dell esperienza. Lo scopo di questa esperienza è ricavare la misura di tre resistenze il 4 cui ordine di grandezza varia tra i 10 e 10 Ohm utilizzando il metodo olt- Amperometrico. Tale misura

Dettagli

Ricerca Operativa Branch-and-Bound per problemi di Programmazione Lineare Intera

Ricerca Operativa Branch-and-Bound per problemi di Programmazione Lineare Intera Ricerca Operativa Branch-and-Bound per problemi di Programmazione Lineare Intera L. De Giovanni AVVERTENZA: le note presentate di seguito non hanno alcuna pretesa di completezza, né hanno lo scopo di sostituirsi

Dettagli

Numeri reali. Funzioni e loro grafici

Numeri reali. Funzioni e loro grafici Argomento Numeri reali. Funzioni e loro grafici Parte B - Funzioni e loro grafici Funzioni reali di variabile reale Definizioni. Supponiamo che A sia un sottoinsieme di R e che esista una legge che ad

Dettagli

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE La presentazione dei dati per molte ricerche mediche fa comunemente riferimento a frequenze, assolute o percentuali. Osservazioni cliniche conducono sovente

Dettagli

esame di stato 2014 seconda prova scritta per i licei scientifici di ordinamento

esame di stato 2014 seconda prova scritta per i licei scientifici di ordinamento ARTICOLO Archimede 4 4 esame di stato 4 seconda prova scritta per i licei scientifici di ordinamento Il candidato risolva uno dei due problemi e risponda a 5 quesiti del questionario. PROBLEMA Nella figura

Dettagli

Flusso a costo minimo e simplesso su reti

Flusso a costo minimo e simplesso su reti Flusso a costo minimo e simplesso su reti La particolare struttura di alcuni problemi di PL può essere talvolta utilizzata per la progettazione di tecniche risolutive molto più efficienti dell algoritmo

Dettagli

Studio sperimentale della propagazione di un onda meccanica in una corda

Studio sperimentale della propagazione di un onda meccanica in una corda Studio sperimentale della propagazione di un onda meccanica in una corda Figura 1: Foto dell apparato sperimentale. 1 Premessa 1.1 Velocità delle onde trasversali in una corda E esperienza comune che quando

Dettagli

LEZIONE 14. a 1,1 v 1 + a 1,2 v 2 + a 1,3 v 3 + + a 1,n 1 v n 1 + a 1,n v n = w 1

LEZIONE 14. a 1,1 v 1 + a 1,2 v 2 + a 1,3 v 3 + + a 1,n 1 v n 1 + a 1,n v n = w 1 LEZIONE 14 141 Dimensione di uno spazio vettoriale Abbiamo visto come l esistenza di una base in uno spazio vettoriale V su k = R, C, permetta di sostituire a V, che può essere complicato da trattare,

Dettagli

VC-dimension: Esempio

VC-dimension: Esempio VC-dimension: Esempio Quale è la VC-dimension di. y b = 0 f() = 1 f() = 1 iperpiano 20? VC-dimension: Esempio Quale è la VC-dimension di? banale. Vediamo cosa succede con 2 punti: 21 VC-dimension: Esempio

Dettagli

Studio grafico-analitico delle funzioni reali a variabile reale

Studio grafico-analitico delle funzioni reali a variabile reale Studio grafico-analitico delle funzioni reali a variabile reale Sequenza dei passi Classificazione In pratica Classifica il tipo di funzione: Funzione razionale: intera / fratta Funzione irrazionale: intera

Dettagli

Indice generale. Modulo 1 Algebra 2

Indice generale. Modulo 1 Algebra 2 Indice generale Modulo 1 Algebra 2 Capitolo 1 Scomposizione in fattori. Equazioni di grado superiore al primo 1.1 La scomposizione in fattori 2 1.2 Raccoglimento a fattor comune 3 1.3 Raccoglimenti successivi

Dettagli

Qual è l errore più comune tra i Trader sul Forex e come possiamo evitarlo? David Rodriguez, Quantitative Strategist drodriguez@dailyfx.

Qual è l errore più comune tra i Trader sul Forex e come possiamo evitarlo? David Rodriguez, Quantitative Strategist drodriguez@dailyfx. Qual è l errore più comune tra i Trader sul Forex e come possiamo evitarlo? David Rodriguez, Quantitative Strategist drodriguez@dailyfx.com Avvertenza di Rischio: Il Margin Trading su forex e/o CFD comporta

Dettagli

Analisi delle Corrispondenze Multiple Prof. Roberto Fantaccione

Analisi delle Corrispondenze Multiple Prof. Roberto Fantaccione Analisi delle Corrispondenze Multiple Prof. Roberto Fantaccione Consideriamo il nostro dataset formato da 468 individui e 1 variabili nominali costituite dalle seguenti modalità : colonna D: Age of client

Dettagli

L OSCILLOSCOPIO. L oscilloscopio è il più utile e versatile strumento di misura per il test delle apparecchiature e dei

L OSCILLOSCOPIO. L oscilloscopio è il più utile e versatile strumento di misura per il test delle apparecchiature e dei L OSCILLOSCOPIO L oscilloscopio è il più utile e versatile strumento di misura per il test delle apparecchiature e dei circuiti elettronici. Nel suo uso abituale esso ci consente di vedere le forme d onda

Dettagli

TECNICHE DI SIMULAZIONE

TECNICHE DI SIMULAZIONE TECNICHE DI SIMULAZIONE MODELLI STATISTICI NELLA SIMULAZIONE Francesca Mazzia Dipartimento di Matematica Università di Bari a.a. 2004/2005 TECNICHE DI SIMULAZIONE p. 1 Modelli statistici nella simulazione

Dettagli

su web che riportano documentazione e software dedicati agli argomenti trattati nel libro, riportandone, alla fine dei rispettivi capitoli, gli

su web che riportano documentazione e software dedicati agli argomenti trattati nel libro, riportandone, alla fine dei rispettivi capitoli, gli Prefazione Non è facile definire che cosa è un problema inverso anche se, ogni giorno, facciamo delle operazioni mentali che sono dei metodi inversi: riconoscere i luoghi che attraversiamo quando andiamo

Dettagli

STATA. e la BIOSTATISTICA di Norman - Streiner. Prof. Pierpaolo Vittorini pierpaolo.vittorini@univaq.it

STATA. e la BIOSTATISTICA di Norman - Streiner. Prof. Pierpaolo Vittorini pierpaolo.vittorini@univaq.it e la BIOSTATISTICA di Norman - Streiner pierpaolo.vittorini@univaq.it Università degli Studi dell Aquila Facoltà di Medicina e Chirurgia 14 febbraio 2013 Contenuti e obiettivi Breve riassunto applicativo

Dettagli

Guida rapida. Cos è GeoGebra? Notizie in pillole

Guida rapida. Cos è GeoGebra? Notizie in pillole Guida rapida Cos è GeoGebra? Un pacchetto completo di software di matematica dinamica Dedicato all apprendimento e all insegnamento a qualsiasi livello scolastico Riunisce geometria, algebra, tabelle,

Dettagli

Ricerca non informata in uno spazio di stati

Ricerca non informata in uno spazio di stati Università di Bergamo Facoltà di Ingegneria Intelligenza Artificiale Paolo Salvaneschi A5_2 V2.4 Ricerca non informata in uno spazio di stati Il contenuto del documento è liberamente utilizzabile dagli

Dettagli

x 1 + x 2 3x 4 = 0 x1 + x 2 + x 3 = 0 x 1 + x 2 3x 4 = 0.

x 1 + x 2 3x 4 = 0 x1 + x 2 + x 3 = 0 x 1 + x 2 3x 4 = 0. Problema. Sia W il sottospazio dello spazio vettoriale R 4 dato da tutte le soluzioni dell equazione x + x 2 + x = 0. (a. Sia U R 4 il sottospazio dato da tutte le soluzioni dell equazione Si determini

Dettagli

Metodi statistici per l economia (Prof. Capitanio) Slide n. 4. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Metodi statistici per l economia (Prof. Capitanio) Slide n. 4. Materiale di supporto per le lezioni. Non sostituisce il libro di testo Metodi statistici per l economia (Prof. Capitanio) Slide n. 4 Materiale di supporto per le lezioni. Non sostituisce il libro di testo Dipendenza di un carattere QUANTITATIVO da un carattere QUALITATIVO

Dettagli

1 Medie. la loro media aritmetica è il numero x dato dalla formula: x = x 1 + x 2 +... + x n

1 Medie. la loro media aritmetica è il numero x dato dalla formula: x = x 1 + x 2 +... + x n 1 Medie La statistica consta di un insieme di metodi atti a elaborare e a sintetizzare i dati relativi alle caratteristiche di una fissata popolazione, rilevati mediante osservazioni o esperimenti. Col

Dettagli

Cicli in Visual Basic for Application. For contatore = inizio To fine istruzioni Next contatore

Cicli in Visual Basic for Application. For contatore = inizio To fine istruzioni Next contatore Cicli in Visual Basic for Application Le strutture del programma che ripetono l'esecuzione di una o più istruzioni sono chiamate Cicli. Alcune strutture per i cicli sono costruite in modo da venire eseguite

Dettagli

Calc è il programma per la gestione di fogli di calcolo della suite OpenOffice.org.

Calc è il programma per la gestione di fogli di calcolo della suite OpenOffice.org. Calc è il programma per la gestione di fogli di calcolo della suite OpenOffice.org. Nuovo documento Anteprima di stampa Annulla Galleria Apri Controllo ortografico Ripristina Sorgente dati Salva Controllo

Dettagli

UTILIZZO DEI METODI MULTICRITERI O MULTIOBIETTIVI NELL OFFERTA ECONOMICAMENTE PIÙ VANTAGGIOSA. Filippo Romano 1

UTILIZZO DEI METODI MULTICRITERI O MULTIOBIETTIVI NELL OFFERTA ECONOMICAMENTE PIÙ VANTAGGIOSA. Filippo Romano 1 UTILIZZO DEI METODI MULTICRITERI O MULTIOBIETTIVI NELL OFFERTA ECONOMICAMENTE PIÙ VANTAGGIOSA Filippo Romano 1 1. Introduzione 2. Analisi Multicriteri o Multiobiettivi 2.1 Formule per l attribuzione del

Dettagli

STATISTICA 1 ESERCITAZIONE 1 CLASSIFICAZIONE DELLE VARIABILI CASUALI

STATISTICA 1 ESERCITAZIONE 1 CLASSIFICAZIONE DELLE VARIABILI CASUALI STATISTICA 1 ESERCITAZIONE 1 Dott. Giuseppe Pandolfo 30 Settembre 2013 Popolazione statistica: insieme degli elementi oggetto dell indagine statistica. Unità statistica: ogni elemento della popolazione

Dettagli

Equilibrio Termico tra Due Corpi

Equilibrio Termico tra Due Corpi Equilibrio Termico tra Due Corpi www.lepla.eu OBIETTIVO L attività ha l obiettivo di fare acquisire allo sperimentatore la consapevolezza che: 1 il raggiungimento dell'equilibrio termico non è istantaneo

Dettagli

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA) Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 4: Analisi della varianza (ANOVA) Analisi della varianza Analisi della varianza (ANOVA) ANOVA ad

Dettagli

Equazioni non lineari

Equazioni non lineari Dipartimento di Matematica tel. 011 0907503 stefano.berrone@polito.it http://calvino.polito.it/~sberrone Laboratorio di modellazione e progettazione materiali Trovare il valore x R tale che f (x) = 0,

Dettagli

LA POVERTÀ IN ITALIA. Anno 2013. 14 luglio 2014

LA POVERTÀ IN ITALIA. Anno 2013. 14 luglio 2014 14 luglio 2014 Anno 2013 LA POVERTÀ IN ITALIA Nel 2013, il 12,6% delle famiglie è in condizione di povertà relativa (per un totale di 3 milioni 230 mila) e il 7,9% lo è in termini assoluti (2 milioni 28

Dettagli

VARIABILI E DISTRIBUZIONI DI FREQUENZA A.A. 2010/2011

VARIABILI E DISTRIBUZIONI DI FREQUENZA A.A. 2010/2011 VARIABILI E DISTRIBUZIONI DI FREQUENZA A.A. 2010/2011 1 RAPPRESENTARE I DATI: TABELLE E GRAFICI Un insieme di misure è detto serie statistica o serie dei dati 1) Una sua prima elementare elaborazione può

Dettagli

Introduzione Metodo POT

Introduzione Metodo POT Introduzione Metodo POT 1 Un recente metodo di analisi dei valori estremi è un metodo detto POT ( Peak over thresholds ), inizialmente sviluppato per l analisi dei dati idrogeologici a partire dalla seconda

Dettagli

RETTE, PIANI, SFERE, CIRCONFERENZE

RETTE, PIANI, SFERE, CIRCONFERENZE RETTE, PIANI, SFERE, CIRCONFERENZE 1. Esercizi Esercizio 1. Dati i punti A(1, 0, 1) e B(, 1, 1) trovare (1) la loro distanza; () il punto medio del segmento AB; (3) la retta AB sia in forma parametrica,

Dettagli

1. Intorni di un punto. Punti di accumulazione.

1. Intorni di un punto. Punti di accumulazione. 1. Intorni di un punto. Punti di accumulazione. 1.1. Intorni circolari. Assumiamo come distanza di due numeri reali x e y il numero non negativo x y (che, come sappiamo, esprime la distanza tra i punti

Dettagli

Laboratorio di Progettazione Esecutiva dell Architettura 2 Corso di Estimo a.a. 2007-08 Docente Renato Da Re Collaboratore: Barbara Bolognesi

Laboratorio di Progettazione Esecutiva dell Architettura 2 Corso di Estimo a.a. 2007-08 Docente Renato Da Re Collaboratore: Barbara Bolognesi Laboratorio di Progettazione Esecutiva dell Architettura 2 Corso di Estimo a.a. 2007-08 Docente Renato Da Re Collaboratore: Barbara Bolognesi Microeconomia venerdì 29 febbraio 2008 La struttura della lezione

Dettagli

Approssimazione polinomiale di funzioni e dati

Approssimazione polinomiale di funzioni e dati Approssimazione polinomiale di funzioni e dati Approssimare una funzione f significa trovare una funzione f di forma più semplice che possa essere usata al posto di f. Questa strategia è utilizzata nell

Dettagli

ESAME DI STATO 2002 SECONDA PROVA SCRITTA PER IL LICEO SCIENTIFICO DI ORDINAMENTO

ESAME DI STATO 2002 SECONDA PROVA SCRITTA PER IL LICEO SCIENTIFICO DI ORDINAMENTO ARCHIMEDE 4/ 97 ESAME DI STATO SECONDA PROVA SCRITTA PER IL LICEO SCIENTIFICO DI ORDINAMENTO Il candidato risolva uno dei due problemi e 5 dei quesiti in cui si articola il questionario. PROBLEMA In un

Dettagli

Legge del Raffreddamento di Newton

Legge del Raffreddamento di Newton Legge del Raffreddamento di Newton www.lepla.eu Obiettivo L'obiettivo di questo esperimento è studiare l'andamento temporale della temperatura di un oggetto che si raffredda e trovare un modello matematico

Dettagli

2 Formulazione dello shortest path come problema di flusso

2 Formulazione dello shortest path come problema di flusso Strumenti della Teoria dei Giochi per l Informatica A.A. 2009/10 Lecture 20: 28 Maggio 2010 Cycle Monotonicity Docente: Vincenzo Auletta Note redatte da: Annibale Panichella Abstract In questa lezione

Dettagli