Esercizio Dire quale variabile debba essere usata come regressore e quale sia la variabile risposta.
|
|
- Alessandro Natali
- 4 anni fa
- Visualizzazioni
Transcript
1 Esercizio 1 Il file elettr.txt contiene dei dati sui consumi in miliardi di kilowatt/ora (eleccons) e sul prodotto interno lordo in miliardi di dollari (gdp) su 30 paesi in un determinato anno. Il prodotto interno lordo è valutato in termini reali, per tener conto delle differenze nei livelli dei prezzi dei diversi paesi (nel file è riportata anche la popolazione dei singoli paesi, variabile che però non utilizzeremo). Vogliamo capire se esista una relazione lineare tra consumi elettrici e prodotto interno lordo. In particolare vogliamo capire se i consumi crescano al crescere del reddito. 1. Dire quale variabile debba essere usata come regressore e quale sia la variabile risposta. 2. Disegnare il diagramma di dispersione delle due variabili e sovrapporvi la retta stimata di regressione. 3. Individuare i due paesi con il più alto consumo elettrico, rimuoverli dall insieme dei dati, stimare il modello di regressione lineare semplice sul campione ridotto e ridisegnare il grafico richiesto nel punto precedente. Cambia qualcosa? 4. Dopo aver rimosso i due paesi con i consumi più alti, si può affermare che esista una relazione positiva tra le due variabili? 5. Sulla base dei risultati dei due punti precedenti, quale paese ha un livello di consumi particolarmente alto e quale un livello particolarmente basso rispetto all andamento complessivo della funzione di regressione? Soluzione. 1. Evidentemente, poiché il testo dell esercizio afferma esplicitamente che vogliamo capire se i consumi crescano al crescere del reddito, la variabile risposta deve essere il livello dei consumi di elettricità (eleccons) e la variabile esplicativa deve essere il prodotto interno lordo (gdp). 2. Cancelliamo tutte le variabili in memoria, chiudiamo tutte le finestre grafiche eventualmente aperte, importiamo i dati nel dataframe elettr di cui rendiamo direttamente accessibili le variabili con i seguenti comandi: > rm(list=ls()) > graphics.off() > elettr=read.table("elettr.txt",header=t) > attach(elettr) Stimiamo il modello di regressione con il comando > elettr00.lm=lm(eleccons~gdp) ELECCONS i = β 0 + β 1 GDP i + ε i, i = 1,..., 30 Visualizziamo una sintesi dei risultati del processo di stima con il comando > summary(elettr00.lm) Call: lm(formula = eleccons ~ gdp) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) gdp <2e-16 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 28 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 1 and 28 DF, p-value: < 2.2e-16
2 resid(elettr00.lm) Index Figura 1: Grafico dei residui del modello ELECCONS i = β 0 + β 1 GDP i + ε i Osserviamo che il valore del coefficiente di detreminazione lineare è elevato, R 2 = , il che significa che il modello stimato riesce a spiegare il 96.52% della variabilità della variabile risposta. Il valore della stima dell intercetta rappresenta la stima del valore atteso dei consumi di elettricità in corrispondenza di un prodotto interno lordo nullo. Sul campione esaminato abbiamo che b 0 = Ovviamente, questa stima non appare affatto realistica. Se però consideriamo il sistema di ipotesi H 0 : β 0 = 0 H 1 : β 0, (1) B 0 osserviamo che il valore assunto dalla statistica test S B 0 sul campione osservato, s B 0 = e che il livello di significatività osservato in corrispondenza di tale vaore è α oss = Per qualsiasi livello di significatività minore di (i livelli che si usano più comunemente sono 0.01 e 0.05) siamo indotti a ritenere che H 0 sia vera, e quindi che in realtà β 0 = 0. Prima di rimuovere l intercetta dal modello, però, vogliamo sincerarci che le assunzioni del modello di regressione lineare semplice siano rispettate. Disegnamo a questo scopo il grafico dei residui: > plot(resid(elettr00.lm)) che è rappresentato nella Figura 1 I residui oscillano in modo casuale intorno allo 0, quindi sembra che l assunzioni sull incorrelazione tra le variabili casuali campionarie sia rispettata. Cerchiamo di capire se il modello sia gaussiano e quindi se la distribuzione di probabilità della statistica test che abbiamo utilizzato sia effettivamente una t n 2 (su un campione di dimensione maggiore non avremmo bisogno di procedere in tale senso). Consideriamo quindi il grafico quantile-quantile dei residui standardizzati, con riferimento alla distribuzione normale (Figura 2: > qqnorm(resid(elettr00.lm)/142.1) > qqline(resid(elettr00.lm)/142.1) Pur non essendo il campione di numerosità elevata, e quindi essendo necessaria una notevole cautela nella lettura del grafico, sembra che il comportamentod dei residui standardizzati non sia dissimile da quello di una normale standardizzata, quindi possiamo ritenere che il modello sia effettivamente gaussiano. A questo punto procediamo alla stima di un nuovo modello, nel quale si pone β 0 = 0, ovvero: A tale scopo utilizziamo il comando: ELECCONS i = βgdp i + ε i, i = 1,..., 30. b 0
3 Normal Q Q Plot Sample Quantiles Theoretical Quantiles Figura 2: Grafico quantile-quantile dei residui standardizzati > elettr01.lm=lm(eleccons~gdp-1) Vediamo ora una sintesi dei risultati: > summary(elettr01.lm) Call: lm(formula = eleccons ~ gdp - 1) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) gdp <2e-16 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 29 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 1 and 29 DF, p-value: < 2.2e-16 Il modello è molto simile al precedente, fatta eccezione per l assenza dell intercetta. Per disegnare il diagramma di dispersione delle due variabili (il regressore deve comparire in ascissa) diamo il seguente comando: > plot(gdp,eleccons) Per sovrapporvi il grafico della retta di regressione stimata, usiamo il comando: lines(sort(gdp),fitted(elettr01.lm)[order(gdp)]) Il risultato è rappresentato in Figura 3 3. Per individuare i due paesi con il più alto consumo elettrico, ordiniamo in senso crescente le osservazioni sui consumi:
4 eleccons gdp Figura 3: Diagramma di dispersione dei dati e retta di regressione stimata, con riferimento al modello: ELECCONS i = βgdp i + ε i > sort(gdp) [1] [9] [17] [25] Ovviamente, gli ultimi due valori nell output precedente sono i due consumi più alti tra quelli rilevati. Come possiamo risalire alle unità statistiche sulle quali quei valori sono stati rilevati? La funzione order() ci consente di stabilire quali siano le righe di gdp a cui corrispondono i valori ordinati ottenuti con il comando sort(gdp), quindi il comando > order(gdp) [1] [26] ci consente di stabilire che le unità statistiche su cui abbiamo misurato i consumi più alti, corrispondono alla ventinovesima e alla quarta riga di gdp, ovvero alla ventinovesima e alla quarta riga del dataframe elettr: > elettr[c(29, 4), ] country pop eleccons gdp 29 United States China Si tratta degli Stati Uniti e della Cina. Prima di procedere, rendiamo nuovamente inaccessibili direttamente le variabili contenute in elettr con il comando > detach(elettr, 1) Questa operazione è opportuna al fine di evitare che le variabili in elettr si confondano con quelle del dataframe che ci apprestiamo a costruire (si osservi che non è sufficiente dare un istruzione del tipo > detach(elettr)). A questo punto dobbiamo escludere Stati Uniti e Cina dal campione, ovvero dobbiamo costruire un dataframe uguale a elettr con l esclusione della quarta e della ventinovesima riga. Costruiamo quindi il dataframe elettr1 con il comando
5 > elettr1 = elettr[-c(4, 29), ] e rendiamo direttamente accessibili le variabili contenute in elettr1 con il comando > attach(elettr1) Sul campione ridotto, ripetiamo l analisi svolta nel punto precedente. Stimiamo innanzitutto il modello mediante il comando > elettr10.lm = lm(eleccons ~ gdp) Visualizziamo quindi la sintesi dei dati: > summary(elettr10.lm) Call: lm(formula = eleccons ~ gdp) Residuals: Min 1Q Median 3Q Max ELECCONS i = β 0 + β 1 GDP i + ε i, i = 1,..., 30 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) gdp e-10 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 26 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 1 and 26 DF, p-value: 7.554e-10 Si osservi che ora la stima dell intercetta è pari a circa Ripetendo i passi percorsi nel punto precedente (omettiamo qui l analisi dei residui per ragioni di brevità, ma essa conduce a conclusioni del tutto simili a quelle che abbiamo già tratto nel punto precedente) ed impostando un sistema di ipotesi come quello (1), osserviamo che il livello di significatività osservato è pari a Per qualsiasi livello di significatività inferiore a 0.663, possiamo quindi accettare l ipotesi nulla. Stimiamo quindi il modello con il comando > elettr11.lm = lm(eleccons ~ gdp - 1) e visualizziamo sinteticamente i risultati: > summary(elettr11.lm) Call: lm(formula = eleccons ~ gdp - 1) Residuals: Min 1Q Median 3Q Max ELECCONS i = βgdp i + ε i, i = 1,..., 30 Coefficients: Estimate Std. Error t value Pr(> t ) gdp e-13 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
6 eleccons gdp Figura 4: Diagramma di dispersione delle variabili e retta di regressione stimata sul campione ridotto basandosi sul modello ELCCONS i = βgdp i + ε i Residual standard error: on 27 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 1 and 27 DF, p-value: 1.024e-13 Osserviamo ora che, in seguito all esclusione delle due unità statisticem il coefficiente di determinazione lineare è diminuito; anche la stima del coefficiente angolare della retta è mutata sensibilmente, passando da a Questa differenza, apparentemente piccola, è in realtà molto importante se pensiamo che le variabili in gioco sono misurate su scala molto grande (in miliardi). Rappresentiamo ora graficamente il diagramma di dispersione delle due variabili sul campione ridotto e vi sovrapponiamo la retta stimata di regressione (Figura 4) con i comandi: > plot(gdp,eleccons) > lines(sort(gdp),fitted(elettr11.lm)[order(gdp)]) I grafici delle Figure 3 e 4 non sono comparabili perché sono disegnati su scale diverse (i valori sulle ascisse e sulle ordinate sono molto diversi nei due grafici). Riportiamo tutto su un unico grafico in cui le ascisse sono comprese tra 0 e 4000 e le ordinate tra 0 e In questo grafico non compariranno le osservazioni riguardanti Stati Uniti e Cina perché i valori corrispondenti a questi paesi non sono compresi nei due intervalli appena definiti. Così facendo, però possiamo effettuare un confronto grafico più informativo delle differenze nei risultati inferenziali otenuti sui due campioni. I comandi che utilizziamo sono i seguenti: > plot(elettr$gdp,elettr$eleccons,xlim=c(0,4000),ylim=c(0,1000)) > lines(sort(elettr$gdp),fitted(elettr01.lm)[order(elettr$gdp)]) > lines(sort(gdp),fitted(elettr11.lm)[order(gdp)],col="red") Il grafico risultante è riportato nella Figura 5: la retta in nero è la retta di regressione stimata sul campione completo, quella in rosso è invece la retta di regressione stimata sul campione ridotto. Il forte divario tra i due risultati appare ora evidente. 4. Poiché abbiamo motivo di ritenere che il modello (stiamo considerando l ultimo modello stimato nel punto precedente) sia gaussiano e che tutte le assunzioni che stanno alla base del modello di regressione lineare semplice, possiamo impostare il seguente sistema di ipotesi, fissando un livello di significatività α = 0.01 (questo è un valore è fissato a titolo esemplificativo): H 0 : β 0 H 1 : β > 0
7 elettr$eleccons elettr$gdp Figura 5: Confronto tra i risultati ottenuti sul campione completo e sul campione ridotto Indicando con B lo stimatore di β, sappiamo che, se H 0 è vera, T = B S B t 29 (i gradi di libertà sono n 1 = 29 perché ora stimiamo solo un coefficiente di regressione, essendo β 0 posto uguale a 0). Il valore osservato della statistica test è t = b 0 s B = = Questo valore deve essere confrontato con t n 1,1 α = t 29,0.99 che si determina con il seguente comando > qt(0.99, 29) [1] Essendo il valore della statistica test maggiore di questo quantile, rifiutiamo l ipotesi nulla al livello di significatività 0.01, ritenendo quindi che β > 0, ovvero che esista una relazione positiva tra le due variabili. 5. Per rispondere a questa domanda, consideriamo i residui ordinati in senso crescente: > sort(resid(elettr11.lm)) Il più piccolo residuo negativo e il più alto residuo positivo si trovano rispettivamente sulla decima e sulla ventesima riga del vettore che si ottiene con il comando > resid(elettr11.lm) (si utilizzi la funzione order() per ottenere lo stesso risultato). Le unità statistiche sulle quali si sono misurati rispettivamente un livello di consumi particolarmente alto e un livello particolarmente basso rispetto all andamento complessivo della funzione di regressione si collocano rispettivamente sulla ventesima e sulla decima riga di elettr1. Quindi, con il comando > elettr1[c(20, 10), ]
8 country pop eleccons gdp 21 Russia India giungiamo alla conclusione che i due paesi siano rispettivamente la Russia e l India.
Fac-simile prova di esame
UNIVERSITÀ CA FOSCARI DI VENEZIA FACOLTÀ DI ECONOMIA Statistica Computazionale I Prof. Stefano Tonellato COGNOME.................................... NOME.................................... MATRICOLA....................................
DettagliIl modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.
DettagliRegressione. Monica Marabelli. 15 Gennaio 2016
Regressione Monica Marabelli 15 Gennaio 2016 La regressione L analisi di regressione é una tecnica statistica che serve a studiare la relazione tra variabili. In particolare, nel modello di regressione
DettagliLaboratorio di Statistica Aziendale Modello di regressione lineare multipla
Laboratorio di Statistica Aziendale Modello di regressione lineare multipla Michela Pasetto michela.pasetto2@unibo.it Definizione del modello OLS (semplice) L obiettivo della regressione lineare è di valutare
DettagliLABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi 6 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI REGRESSIONE LINEARE: SPORT - COLESTEROLO ESERCIZIO 8: La tabella seguente
DettagliEsercizio 8. Ne segue, ovviamente che le aree geografiche di riferimento sono Africa e America del Sud.
Esercizio 8 La Swiss Economic Research della Union Bank of Switzerland conduce un controllo periodico dei livelli dei prezzi e dei salari nella principali città del mondo. Una delle variabili rilevate
DettagliStatistiche di sintesi
Esercizio 2 E stato condotto uno studio per valutare la variazione della pressione sistolica in funzione dell etá. I dati sono riportati nel file sbp.xls. Effettua un analisi di regressione e disegna gli
Dettagli0.1 Percorrenza e Cilindrata
0.1 Percorrenza e Cilindrata Iniziamo ora un analisi leggermente più complessa basata sempre sui concetti appena introdotti. Innanzi tutto possiamo osservare, dal grafico ottenuto con il comando pairs,
DettagliVerifica di ipotesi sui coefficienti di regressione. Verifica di ipotesi sul coefficiente angolare
Verifica di ipotesi sui coefficienti di regressione Per il momento supponiamo di muoverci nel contesto del modello gaussiano. Vogliamo capire se alcune nostre congetture sui coefficienti di regressione
DettagliLaboratorio R Corso di Algebra e Modelli lineari (Anno Accademico )
Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 05-6) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola
DettagliValidazione dei modelli. Strumenti quantitativi per la gestione
Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer file:///g:/il%20mio%20drive/2%20corsi/3%20sqg/labs/l5-validazione.html#(1) 1/27 Validazione dei modelli In questo esempio
DettagliAnova e regressione. Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011
Anova e regressione Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011 Nella sperimentazione agronomica e biologica in genere è normale organizzare
DettagliAnalisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura
Analisi grafica residui in R Da output grafico analisi regressionelm1.csv Vedi dispensa peso-statura 1) Il plot in alto a sinistra mostra gli errori residui contro i loro valori stimati. I residui devono
DettagliEsercitazione finale - corso R base Francesco Vidoli Ottobre 2018
Esercitazione finale - corso R base Francesco Vidoli Ottobre 2018 Passo 1: Leggere il file di input (il file si trova a questo indirizzo: https://fvidoli.weebly.com/uploads/2/3/0/8/ 23088460/dati_medici.csv),
DettagliAnalisi della varianza a due fattori
Laboratorio 11 Analisi della varianza a due fattori 11.1 Analisi del dataset PENICILLIN.DAT I dati contenuti nel file penicillin.dat, si riferiscono ad un esperimento di produzione di penicillina tendente
DettagliVariabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.
Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:
DettagliEsercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017
Esercitazione 5 - Statistica (parte II) Davide Passaretti 9/3/2017 Contents 1 Inferenza sulla regressione semplice 1 1.1 Test sulla pendenza della retta................................... 1 1.2 Test sull
DettagliLABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE
LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE 5.1 ESEMPIO DI ANOVA AD UNA VIA In un esperimento un gruppo di bambini è stato assegnato a caso a 3 trattamenti, allo scopo di determinare
DettagliTest F per la significatività del modello
Test F per la significatività del modello Per verificare la significatività dell intero modello si utilizza il test F Si vuole verificare l ipotesi H 0 : β 1 = 0,, β k = 0 contro l alternativa che almeno
DettagliAnalisi di Regressione Multipla
Analisi di Regressione Multipla Stima OLS della relazione Test Score/STR : TestScore! = 698.9.8 STR, R =.05, SER = 18.6 (10.4) (0.5) E una stima credibile dell effetto causale sul rendimento nei test di
DettagliREGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori
REGRESSIONE lineare e CORRELAZIONE Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori Y X La NATURA e la FORZA della relazione tra variabili si studiano con la REGRESSIONE
Dettaglilezione 4 AA Paolo Brunori
AA 2016-2017 Paolo Brunori dove eravamo arrivati - abbiamo individuato la regressione lineare semplice (OLS) come modo immediato per sintetizzare una relazione fra una variabile dipendente (Y) e una indipendente
DettagliOld Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.
Coppie o vettori di dati Spesso i dati osservati sono di tipo vettoriale. Ad esempio studiamo 222 osservazioni relative alle eruzioni del geyser Old Faithful. Old Faithful, Yellowstone Park. Old Faithful
DettagliCapitolo 12 La regressione lineare semplice
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università
DettagliEsercizi di statistica
Esercizi di statistica Test a scelta multipla (la risposta corretta è la prima) [1] Il seguente campione è stato estratto da una popolazione distribuita normalmente: -.4, 5.5,, -.5, 1.1, 7.4, -1.8, -..
DettagliQuiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione
Quiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione Le domande 1-6 si riferiscono al seguente problema Un data set contiene i dati sui consumi di diversi tipi di automobili e alcune loro
DettagliAntonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR
Antonella Bodini Istituto di Matematica Applicata e Tecnologie Informatiche E. Magenes del CNR Materiale ad uso dei ricercatori che hanno seguito il corso di formazione interna in Statistica, edizione
DettagliEsercizio 1 GRAFICO 1. X e Y sono indipendenti. X e Y non sono correlate. La correlazione tra X e Y è <1. X e Y sono perfettamente correlate
Esercizio 1 Osservare il grafico 1 riportato in figura che mette in relazione una variabile dipendente Y ed una variabile indipendente X e rispondere alle seguenti domande. 400 300 200 GRAFICO 1 100 0
DettagliLaboratorio 8. Regressione multipla. 8.1 Analisi del dataset HOOK.DAT
Laboratorio 8 Regressione multipla 8.1 Analisi del dataset HOOK.DAT I dati contenuti nel file hook.dat, raccolti da Joseph Hooker sulle montagne dell Himalaya, riportano le temperature di ebollizione dell
DettagliSTATISTICA A K (60 ore)
STATISTICA A K (60 ore) Marco Riani mriani@unipr.it http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta
DettagliR - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre
R - Esercitazione 6 Andrea Fasulo fasulo.andrea@yahoo.it Università Roma Tre Venerdì 22 Dicembre 2017 Il modello di regressione lineare semplice (I) Esempi tratti da: Stock, Watson Introduzione all econometria
DettagliStatistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1
Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare
DettagliSTATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:
esercitazione 7 p. 1/13 STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7: 20-05-2004 Luca Monno Università degli studi di Pavia luca.monno@unipv.it http://www.lucamonno.it
DettagliLABORATORIO DI PROBABILITA E STATISTICA
UNIVERSITA DEGLI STUDI DI VERONA LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi Corso di laurea in Informatica e Bioinformatica 4 ESERCIZI RIEPILOGATIVI PRIME 3 LEZIONI 1 - STATISTICA DESCRITTIVA
DettagliData Mining. Prova parziale del 20 aprile 2017: SOLUZIONE
Università degli Studi di Padova Corso di Laurea Magistrale in Informatica a.a. 2016/2017 Data Mining Docente: Annamaria Guolo Prova parziale del 20 aprile 2017: SOLUZIONE ISTRUZIONI: La durata della prova
DettagliSTATISTICA. Regressione-2
STATISTICA Regressione-2 Fare sempre il grafico! Fig. 5.12 pg 178, Statistica di S. Iacus Fare sempre il grafico! y 0 2 4 6 8 10 =-1 =+0.79 outlier o dato influente 0 2 4 6 8 10 x Inferenza Il modello
Dettagli1. ISTOGRAMMI E GRAFICI DI ALCUNE DENSITA (COMPLEMENTO ALLA LEZIONE PRECEDENTE)
1. ISTOGRAMMI E GRAFICI DI ALCUNE DENSITA (COMPLEMENTO ALLA LEZIONE PRECEDENTE) Riprendiamo l esempio X = seq(-5,5,0.01) Y= dnorm(x) plot(x,y) Si poteva automatizzare la scelta delle X ponendo: X=rnorm(1000)
DettagliDispensa di Statistica
Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza
DettagliPolitecnico di Milano - Scuola di Ingegneria Industriale. II Prova in Itinere di Statistica per Ingegneria Energetica 7 Luglio 2011
Politecnico di Milano - Scuola di Ingegneria Industriale II Prova in Itinere di Statistica per Ingegneria Energetica 7 Luglio 2011 c I diritti d autore sono riservati. Ogni sfruttamento commerciale non
Dettagli1. variabili dicotomiche: 2 sole categorie A e B
Variabile X su scala qualitativa (due categorie) modello di regressione: variabili quantitative misurate almeno su scala intervallo (meglio se Y è di questo tipo e preferibilmente anche le X i ) variabili
DettagliSiete invitati a cambiare un po di parametri dell esercizio (es. aumentare Nrow; diminuire sig2; diminuire i coefficienti di X3 ed X4).
1. ALLINEAMENTO DI FATTORI, ESEMPI SINTETICI Esercizio. Creare una tabella con dati sintetici in cui sia percepibile il fenomeno dell allineamento ed esaminare le sue conseguenze. Consideriamo il modello
DettagliSTATISTICA. Regressione-3 L inferenza per il modello lineare semplice
STATISTICA Regressione-3 L inferenza per il modello lineare semplice Regressione lineare: GRAFICO DI DISPERSIONE & & analisi residui A. Valutazione preliminare se una retta possa essere una buona approssimazione
DettagliUniversità di Pavia Econometria Esercizi 5
Università di Pavia Econometria 2007-2008 Esercizi 5 Maggio, 2008 1. Una regressione lineare multipla di y su una costante, x 2 e x 3 produce i seguenti risultati: ŷ t = 4 + 0.4x t2 + 0.9x t3 con X X =
Dettagli> cement <- read.table("i:/modelli/cement.dat", col.names=c("tempo", "resist")) > attach(cement)
Laboratorio 6 Analisi dei residui 6.1 Analisi dei dati CEMENT.DAT I dati riportati nel file cement.dat si riferiscono ad uno studio sulla resistenza del cemento alla tensione. La resistenza dipende, tra
DettagliMetodi statistici per la ricerca sociale ANOVA e ANCOVA in
Metodi statistici per la ricerca sociale ANOVA e ANCOVA in Alessandra Mattei Dipartimento di Statistica, Informatica, Applicazioni (DiSIA) Università degli Studi di Firenze mattei@disia.unifi.it LM 88
DettagliModelli Statistici per l Economia. Regressione lineare con un singolo regressore (terza parte)
Modelli Statistici per l Economia Regressione lineare con un singolo regressore (terza parte) 1 Verifica di ipotesi su β 1 H 0 : β 1 = β 1,0 H 1 : β 1 β 1,0 Se è vera H 0 (cioè sotto H 0 ) e n è grande,
DettagliLaboratorio di Probabilità e Statistica
Laboratorio di Probabilità e Statistica lezione 9 Massimo Guerriero Ettore Benedetti Indice Lezione Prerequisiti dalla lezione scorsa Analisi di regressione: Cambiamenti di scala Schema generale sull analisi
DettagliSTATISTICA MULTIVARIATA SSD MAT/06
Università degli studi di Ferrara Dipartimento di Matematica A.A. 2018/2019 I semestre STATISTICA MULTIVARIATA SSD MAT/06 LEZIONE 4 - Questioni di analisi e applicazione della regressione lineare Pratica
DettagliSTATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo
STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)
DettagliProva scritta di Statistica Applicata alle Decisioni Aziendali Prof.ssa Conigliani -...
Prova scritta di Statistica Applicata alle Decisioni Aziendali Prof.ssa Conigliani -... COGNOME:............................................................ NOME:.....................................................................
DettagliValidazione dei modelli Strumenti quantitativi per la gestione
Validazione dei modelli Strumenti quantitativi per la gestione Emanuele Taufer Validazione dei modelli Il data set Auto I dati Il problema analizzato Validation set approach Diagramma a dispersione Test
DettagliESERCITAZIONE REGRESSIONE MULTIPLA
ESERCITAZIONE REGRESSIONE MULTIPLA Dati delle Nazioni Unite del 2005 riferiti, per diverse nazioni, al tasso di feconditá (bambini per donna) (variabile Fert), alla percentuale di donne che usa contraccettivi
DettagliLM 88 SOCIOLOGIA E RICERCA SOCIALE. Metodi Statistici per la Ricerca Sociale. Regressione lineare e correlazione
LM 88 SOCIOLOGIA E RICERCA SOCIALE Metodi Statistici per la Ricerca Sociale Regressione lineare e correlazione 1. Su un campione di individui sono rilevati i caratteri X (peso in Kg) e Y (altezza in cm),
DettagliEsercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
DettagliRegressione lineare multipla
Scopo Vogliamo porre in relazione la variabile risposta, Y con k, k > 1, variabili esplicative (o regressori, o predittori, o covariate): X1, X2..., Xk. Funzione di regressione E(Y X1 = x1, X2 = x2,...,
DettagliNel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.
Regressione [] el modello di regressione lineare si assume una relazione di tipo lineare tra il valore medio della variabile dipendente Y e quello della variabile indipendente X per cui Il modello si scrive
DettagliCapitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica
Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 8 Intervalli di confidenza Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università
DettagliLABORATORIO DI PROBABILITA E STATISTICA
LABORATORIO DI PROBABILITA E STATISTICA Docente: Bruno Gobbi 3 LA REGRESSIONE LINEARE ES. STUDIO RELAZIONE ALTEZZA - PESO Soggetto Altezza Peso A 174 75 B 166 63 C 173 70 D 171 71 E 168 68 F 167 68 G 165
DettagliLEZIONE N. 11 ( a cura di MADDALENA BEI)
LEZIONE N. 11 ( a cura di MADDALENA BEI) F- test Assumiamo l ipotesi nulla H 0 :β 1,...,Β k =0 E diverso dal verificare che H 0 :B J =0 In realtà F - test è più generale H 0 :Aβ=0 H 1 :Aβ 0 A è una matrice
DettagliEsercitazione su outliers e osservazioni influenti
Esercitazione su outliers e osservazioni influenti Quando si stima un modello di regressione è fondamentale identificare eventuali osservazioni influenti. Una osservazione si definisce influente se la
DettagliEsercitazione del 16 maggio 2014
Esercitazione del 16 maggio 2014 Conclusione dell esercizio sul consumo annuo di energia elettrica della lezione precedente. Avevamo un campione di n=101 abitazioni di metratura confrontabile e per ciascuna
DettagliRegressione lineare semplice. Strumenti quantitativi per la gestione
Regressione lineare semplice Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3a_rls.html#(1) 1/33 Regressione lineare (RL) La RL è uno degli
DettagliStatistica descrittiva in due variabili
Statistica descrittiva in due variabili Dott Nicola Pintus AA 2018-2019 Indichiamo con U la popolazione statistica e con u i le unità statistiche Ad ogni unità statistica associamo i caratteri osservati
DettagliStatistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati
ISTITUZIONI DI STATISTICA A. A. 2007/2008 Marco Minozzo e Annamaria Guolo Laurea in Economia del Commercio Internazionale Laurea in Economia e Amministrazione delle Imprese Università degli Studi di Verona
DettagliMetodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è
DettagliCOGNOME.NOME...MATR..
STATISTICA 29.01.15 - PROVA GENERALE (CHALLENGE) Modalità A (A) ai fini della valutazione verranno considerate solo le risposte riportate dallo studente negli appositi riquadri bianchi: in caso di necessità
DettagliProva scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A)
Prova scritta di STATISTICA CDL Biotecnologie (Programma di Massimo Cristallo - A) 1. Un associazione di consumatori, allo scopo di esaminare la qualità di tre diverse marche di batterie per automobili,
DettagliDAL CAMPIONE ALLA POPOLAZIONE: LA STIMA DEI PARAMETRI
DAL CAMPIONE ALLA POPOLAZIONE: LA STIMA DEI PARAMETRI Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Università degli Studi di Perugia Versione on-line: http://www.unipg.it/ onofri/rtutorial/index.html
DettagliStatistica (parte II) Esercitazione 4
Statistica (parte II) Esercitazione 4 Davide Passaretti 03/03/016 Test sulla differenza tra medie (varianze note) Un negozio di scarpe è interessato a capire se le misure delle scarpe acquistate da adulti
DettagliIl Teorema del limite Centrale (TLC)
(TLC) Teorema. Sia X 1,..., X n un campione i.i.d. per una v.a. X, avente E(X ) = µ e Var(X ) = σ 2 entrambi finiti. Allora Z n = X µ σ 2 n n Y N(0, 1) Si noti che nel calcolare Z n ho standardizzato X.
DettagliSTATISTICA ESERCITAZIONE 13
STATISTICA ESERCITAZIONE 13 Dott. Giuseppe Pandolfo 9 Marzo 2015 Errore di I tipo: si commette se l'ipotesi nulla H 0 viene rifiutata quando essa è vera Errore di II tipo: si commette se l'ipotesi nulla
DettagliRestrizioni lineari nel MRLM: esempi
Restrizioni lineari nel MRLM: esempi Eduardo Rossi 2 2 Università di Pavia (Italy) Maggio 2013 Rossi Restrizioni lineari: esempi Econometria - 2013 1 / 22 Funzione di produzione Cobb-Douglas Esempio GDP
DettagliMetodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello
Metodi Quantitativi per Economia, Finanza e Management Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello 1. Introduzione ai modelli di regressione 2. Obiettivi 3. Le
DettagliSTATISTICA CORSO BASE. Prova scritta del Tempo: 2 ore Cognome e Nome:... Matricola:...
STATISTICA CORSO BASE. Prova scritta del 4-6-2013. Tempo: 2 ore Cognome e Nome:.............................. Matricola:.............................. Attenzione: Prima di affrontare la prova si consiglia
DettagliLaboratorio di R - 3 a lezione Prof. Mauro Gasparini
Laboratorio di R - 3 a lezione Prof. Mauro Gasparini 1. Verifica di ipotesi: il test t di Student In R è disponibile la funzione t.test che effettua il test t di Student ad un campione, a due campioni
DettagliMetodi statistici per le ricerche di mercato
Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per
DettagliCorso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII
Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Un breve richiamo sul test t-student Siano A exp (a 1, a 2.a n ) e B exp (b 1, b 2.b m ) due set di dati i cui
DettagliTest delle Ipotesi Parte I
Test delle Ipotesi Parte I Test delle Ipotesi sulla media Introduzione Definizioni basilari Teoria per il caso di varianza nota Rischi nel test delle ipotesi Teoria per il caso di varianza non nota Test
Dettaglilezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1
lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,
DettagliEsercitazione 8 maggio 2014
Esercitazione 8 maggio 2014 Esercizio 2 dal tema d esame del 13.01.2014 (parte II). L età media di n gruppo di 10 studenti che hanno appena conseguito la laurea triennale è di 22 anni. a) Costruire un
DettagliStatistica economica
Statistica economica a.a. 013/14 Dr. Luca Secondi 10.a. Output tipico di un modello di regressione lineare multipla 1 Le analisi basate sul modello di regressione prevedono la stima dei coefficienti associati
DettagliANOVA. ANalysis Of VAriance. Federico Plazzi. 1 Dicembre 2015
ANOVA ANalysis Of VAriance Federico Plazzi 1 Dicembre 2015 A che cosa serve? A che cosa serve? Applicazione L ANOVA ha finalità simili al test t: confrontare campioni. Al contrario del test t, però, è
DettagliRegressione lineare semplice
Regressione lineare semplice Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare (RL) La regressione lineare per i dati Advertising Analisi d interesse Regressione lineare semplice
DettagliINTRODUZIONE ALLA STATISTICA PER LA RICERCA IN SANITA
INTRODUZIONE ALLA STATISTICA PER LA RICERCA IN SANITA IRCBG 19027 Modulo Dal campione alla popolazione: l'inferenza e l'intervallo di confidenza IRCCS Burlo Garofolo Formazione, Aula A via dell Istria
DettagliEsame Prototipo Statistica A-Di. Prof. M. Romanazzi
1 Università di Venezia Esame Prototipo Statistica A-Di Prof. M. Romanazzi Cognome e Nome..................................... N. Matricola.......... Valutazione Il punteggio massimo teorico di questa
DettagliRegressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
DettagliModelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione
Modelli con predittori qualitativi e modelli con interazioni Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/3d_viq.html#(1) 1/26 Utilizzare
DettagliANALISI DELLA VARIANZA
ANALISI DELLA VARIANZA Il data set coagulation contenuto nella libreria faraway contiene i tempi di coagulazione del sangue (misurato in secondi) di 24 animali sottoposti casualmente a quattro tipi di
DettagliESERCITAZIONE ANCOVA
ESERCITAZIONE ANCOVA I dati provengono da un articolo di Cyril Burt del 1996 intitolato The genetic determination of differences in intelligence: A study of monozygotic twins reared apart. I dati contengono
DettagliESERCITAZIONE C. Analisi di dati sperimentali PARTE 3: REGRESIONE
Università degli Studi di Padova Facoltà di Scienze MM.FF.NN. Corso di Laurea Magistrale: Biologia Sanitaria/Biologia Molecolare Insegnamento: Statistica Applicata Docente: Prof.ssa Alessandra R. Brazzale
DettagliBLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i
BLAND-ALTMAN PLOT Il metodo di J. M. Bland e D. G. Altman è finalizzato alla verifica se due tecniche di misura sono comparabili. Resta da comprendere cosa si intenda con il termine metodi comparabili
Dettaglilezione 10 AA Paolo Brunori
AA 2016-2017 Paolo Brunori Redditi svedesi - il dataset contiene i dati di reddito di 838 individui - il dataset contiene le variabili: sex = sesso age = età edu = anni di istruzione y_gross = reddito
DettagliStatistica Applicata all edilizia: il modello di regressione
Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione
DettagliCORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Associazione, correlazione e dipendenza tra caratteri In un collettivo di 11 famiglie è stata
DettagliAnalisi dei dati qualitativi: omogeneità/eterogeneità, test del chi quadrato, analisi delle corrispondenze semplici e multiple
Analisi dei dati qualitativi: omogeneità/eterogeneità, test del chi quadrato, analisi delle corrispondenze semplici e multiple La distribuzione di frequenza La prima è più elementare delle analisi è la
DettagliMinimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi
Minimi quadrati ordinari Interpretazione geometrica Eduardo Rossi Il MRLM Il modello di regressione lineare multipla è usato per studiare le relazioni tra la variabile dipendente e diverse variabili indipendenti
DettagliStatistica multivariata Donata Rodi 17/10/2016
Statistica multivariata Donata Rodi 17/10/2016 Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare
DettagliEsercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza
Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza 3 maggio 2005 Esercizio 1 Consideriamo l esempio del libro di testo Annette
Dettagli