Statistica II, Laurea magistrale in Ing. Gestionale, a.a. 2013/14 10/01/2014

Documenti analoghi
Statistica II Laurea magistrale in Ing. Gestionale a.a. 2012/13 Esempi di domande brevi. 1. Definizione di quantile gaussiano standard

()Probablità, Statistica e Processi Stocastici

1. ANALISI DEI RESIDUI recupero dati----- X = scan("clipboard") accessori.auto = ts(x, frequency=12, start=c(1995,1)) plot(accessori.

()Probablità, Statistica e Processi Stocastici

Probablità, Statistica e Processi Stocastici

Probablità, Statistica e Processi Stocastici

Esercizi vari sulle schede di statistica

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

Metodi e Modelli Matematici di Probabilità per la Gestione Prova scritta 15/12/2008 Compito B

Statistica Applicata all edilizia: il modello di regressione

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

Generazione di Numeri Casuali- Parte 2

Statistica multivariata Donata Rodi 17/10/2016

Richiami di statistica e loro applicazione al trattamento di osservazioni topografiche e geodetiche

Corso Integrato di Statistica Informatica e Analisi dei Dati Sperimentali. Esercitazione E

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 2

Regressione Lineare Semplice e Correlazione

Statistica descrittiva: misure di associazione

Presentazione dell edizione italiana

()Probablità, Statistica e Processi Stocastici

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

Corso in Statistica Medica

La regressione lineare. Rappresentazione analitica delle distribuzioni

Variabili tutte osservabili: regressione Si parla di regressione quando si ha a disposizione un campione sperimentale di numerosità n della forma X 1

Analisi Multivariata Prova intermedia del 20 aprile 2011

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

1. ALTRI ALGORITMI DI DECOMPOSIZIONE DI SERIE STORICHE. X = scan("clipboard") accessori.auto = ts(x, frequency=12, start=c(1995,1))

SCOPO DELL ANALISI DI CORRELAZIONE

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

STATISTICA. Esercitazione 5

REGISTRO DELLE LEZIONI*

Analisi della regressione multipla

Nuovo Ordinamento Esame di Statistica 20 Giugno 2003 docente: P. Vicard Nome

Argomenti della lezione:

Statistica di base per l analisi socio-economica

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3

Università del Piemonte Orientale. Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia. Corso di Statistica Medica

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Dispensa di Statistica

Metodi e Modelli Matematici di Probabilità per la Gestione Prova scritta 12/6/2010

Laboratorio di Probabilità e Statistica

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Statistica II Laurea magistrale in Ing. Gestionale a.a. 2012/13 Registro delle lezioni

COGNOME.NOME...MATR..

Esercitazioni di Statistica

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

Università del Piemonte Orientale Corsi di Laurea triennale di area tecnica. Corso di Statistica Medica. Le distribuzioni teoriche di probabilità

Statistica. Alfonso Iodice D Enza

Esplorazione dei dati. Lucidi e dataset tratti da Turini - Analisi dei Dati, Dip. Inf. Unipi

Nel modello di regressione Multivariata abbiamo più variabili risposta (tipicamente poche), in particolare avremo:

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. Le distribuzioni teoriche di probabilità.

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Psicometria con Laboratorio di SPSS 1

Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza

Capitolo 2. La misura

Statistica. Alfonso Iodice D Enza

Università del Piemonte Orientale. Corso di laurea in biotecnologie. Corso di Statistica Medica. Le distribuzioni teoriche di probabilità.

Compiti tematici dai capitoli 2,3,4

Statistica descrittiva: analisi di regressione

Teoria e tecniche dei test

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

COMPITI PER IL RECUPERO DELLA CARENZA FORMATIVA (E RIPASSO) MATEMATICA IV A - GAT

Matematica Finanziaria 29 novembre 2000

Approssimazione di dati

Brevi richiami su variabili aleatorie e processi stocastici

lezione 7 AA Paolo Brunori

Elementi di base su modello binomiale e modello normale

Corso di Calcolo Numerico

Elementi di Probabilità e Statistica, A.A

Esercitazione del

par(mfrow=c(1,2)) plot(holtwinters(trend2, gamma = FALSE)) plot(holtwinters(trend2))

Variabili aleatorie discrete. Giovanni M. Marchetti Statistica Capitolo 5 Corso di Laurea in Economia

Regressione lineare. Lucio Demeio Dipartimento di Ingegneria Industriale e Scienze Matematiche Università Politecnica delle Marche.

ANALISI DELLE SERIE STORICHE

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Analisi degli Errori di Misura. 08/04/2009 G.Sirri

Proposizione 2 Il polinomio minimo di t corrisponde all annullatore minimale di M V.

Esercizi su Regressione e Connessione

Sistemi di equazioni differenziali

C.da Di Dio - Villaggio S. Agata Messina Italy P.I c.f AMBIENTE STATISTICO. Release /03/2018.

Cognome e Nome:... Matricola e corso di laurea:...

LABORATORIO DI INFORMATICA ESERCITAZIONE VIII

Esercitazione

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

Approssimazione di dati

CAPITOLO 11 ANALISI DI REGRESSIONE

Laboratorio di Statistica 1 con R Esercizi per la Relazione. I testi e/o i dati degli esercizi contassegnati da sono tratti dai libri consigliati

Il modello lineare e l analisi della varianza con

Ulteriori Conoscenze di Informatica e Statistica

Statistica multivariata 27/09/2016. D.Rodi, 2016

STATISTICA A K (60 ore)

Statistica Compito A

Matematica con elementi di Informatica

STATISTICA LAB. Analisi dei dati con R - Ex 2. Marta Nai Ruscone. LIUC - Università Carlo Cattaneo, Castellanza STATISTICA LAB

Approssimazione di dati

1. ANALISI DEI RESIDUI inizio recupero dati----- X = scan("clipboard") accessori.auto = ts(x, frequency=12, start=c(1995,1))

Analisi della varianza

Transcript:

Statistica II, Laurea magistrale in Ing. Gestionale, a.a. 2013/14 10/01/2014 Note. Le giustificazioni delle risposte sono molto rilevanti; devono essere sintetiche ma esaustive e devono puntare agli aspetti richiesti e non ad una descrizione di carattere generale dell argomento dell esercizio. Per quanto possibile, devono essere risposte di tipo matematico, non solo qualitativo. Esercizio 1. (12 punti) Rispondere in modo molto conciso alle seguenti domande teoriche brevi (circa 4 righe ciascuna): 1. Date n coppie di valori sperimentali (x 1, y 1 ),..., (x n, y n ), illustrare il legame tra la formula che definisce Ĉov (i suoi aspetti di tipo algebrico) e l orientamento dei punti nel piano, nel caso Ĉov > 0. 2. Scrivere la forma generica della matrice di correlazione di un vettore aleatorio (X, Y ). 3. Nell esercizio 3 seguente, seconda parte, si chiede di ripetere una regressione usando le componenti principali invece delle variabili di partenza. Può accadere di trovare fattori allineati, usando come fattori le componenti principali? 4. Qual è la differenza tra Analisi Fattoriale e PCA come modelli a fattori nascosti? Se possibile, scrivere i due modelli, indicando il punto ora discusso. 5. Perché un trend accentuato produce una acf abbastanza alta ovunque? Esercizio 2. (8-12 punti) Rispondere in modo molto conciso alle seguenti domande brevi relative al software R (circa 4 righe ciascuna): 1. Nella regressione lineare multipla, che differenza c è tra R 2 ed Radj 2 (in termini qualitativi, non servono le formule) e come variano se si toglie un fattore al modello? 2. Costruire (con comandi tipo rnorm) una serie storica X di 120 numeri, avente un trend e lievi residui casuali. 3. Il comando plot(pam(a,k)), oltre ad un grafico dei cluster, mostra delle silhouette; di cosa? Cosa indicano ed a cosa possono servire? (non si chiedono formule o comandi ma solo una risposta qualitativa) 4. Perché il comando decompose fornisce una componente di trend più corta della serie di partenza? 5. Costruire (con comandi tipo rnorm) una matrice A di dati che possieda un allineamento. 1

Esercizio 3. (5 punti) Sia T AB1 una tabella che rappresenta dati tecnici di automobili in commercio: le 20 righe rappresentano i vari modelli, mentre le 6 colonne i diversi parametri tecnici: Prezzo, Potenza, Consumi, e tre indici Comod, Estet e Tecn che rappresentano rispettivamente la comodità dell abitacolo, la qualità e la cura nell estetica e il numero ed effi cienza degli accessori tecnologici della macchina (computer di bordo, navigatore, impianto audio etc..). Sia nota e caricata sul software A, la versione standardizzata di T AB1. Si scrivano i comandi R per: i) effettuare la regressione multipla del prezzo a partire da tutti gli altri dati, e osservare p-values e Rsquare. ii) fare una PCA dei soli tre indici Comod, Estet e Tecn. Disegnarne il grafico nel piano delle componenti principali. Invece di eliminare semplicemente uno dei tre indici, si vogliono utilizzare le due componenti principali come nuovi indici sostitutivi di quelli di partenza. iii) ricavare le componenti dei 20 modelli di automobili rispetto a questa coppia di nuovi indici di gradimento. iv) effettuare una nuova regressione del Prezzo, utilizzando Potenza, Consumi e le due componenti principali degli indici. Sta per uscire il nuovo modello NuovaF iat: se ne conoscono tutte le specifiche, ma si vuole stimare quanto sia conveniente il prezzo rispetto agli altri modelli sul mercato. Supponiamo che i dati siano già standardizzati secondo media e varianza di T AB1. v) ricalcolare il suo prezzo con la regressione definita al punto precedente. Esercizio 4. (5 punti) Si immagini di avere una serie storica X (già caricata) come quella delle vendite accessori auto usata nelle esercitazioni e di voler utilizzare SE, SET e HW per fare previsioni. a) Scrivere i comandi con cui eseguite le previsioni dei prossimi 12 mesi, nei tre casi, plottando i risultati. b) Commentare brevemente pregi e difetti. c) Come possiamo confrontare i tre metodi? Illustrare l idea e scrivere (almeno in grandi linee) i comandi. 2

Soluzioni Esercizio 1. 1. Vedere dispense, dove si spiega che Ĉov > 0 significa che nella somma n i=1 predominano gli addendi positivi; e che se un addendo è positivo allora i due fattori sono concordi, ecc. 2. ( 1 ) ρ (X, Y ) ρ (X, Y ) 1 dove ρ (X, Y ) è il coeffi ciente di correlazione tra X ed Y. 3. No. Infatti le componenti principali sono scorrelate, E [V i V j ] = 0 per i j; e gli allineamenti sono causati dalla correlazione tra fattori. 4. In breve, il fatto che gli errori, in FA, sono indipendenti, mentre in PCA no. Il modello FA è Y = AX+b+ε, dove le componenti del vettore ε sono ipotizzate indipendenti. Il modello PCA (a due fattori) è Y 1 = e 1 1X 1 + e 1 2X 2 + ε 1... Y n = e n 1 X 1 + e n 2 X 2 + ε n. dove ciascuna ε i è combinazione di tutte le componenti principali X 3,..., X n, quindi tali errori non sono indipendenti. 5. Se la serie storica x 1,..., x n ha la forma x i = a i + ε i con errori piccoli, l acf per k = 2 (ad esempio) è la correlazione tra le stringhe a + 2a + ε 3 2a + 2a + ε 4 3a + 2a + ε 5...... a + ε 1 2a + ε 2 3a + ε 3...... che è molto alta, essendo traslazione una dell altra (a meno dei piccoli errori). Esercizio 2. 1. R 2 descrive la varianza spiegata mentre Radj 2 include una valutazione del numero di fattori, per cui viene penalizzato da troppi fattori. Togliendone uno al modello, R 2 sicuramente diminuisce, mentre Radj 2 può cambiare in ogni direzione e ad esempio aumenta se il fattore era irrilevante, cioè se R 2 diminuisce di pochissimo. 2. X=1:120 + rnorm(120) 3. Dei singoli individui di ciascun cluster (in forma di barre) (che descrivono il grado di appartenenza di ciascun individuo al suo cluster), e quella media generale, che può essere utilizzata per confrontare vari k tra loro. 4. Perché il trend in un istante di tempo è dato dalla media simmetrica dei valori della serie storica in un intervallo bilatero, che non esiste per gli istanti più estremi. 5. N = 20 3

A = matrix(nrow=n,ncol=5) A[,1]=rnorm(N) A[,2]=2*A[,1] + 0.05*rnorm(N) A[,3]= rnorm(n) A[,4]= rnorm(n) A[,5]= rnorm(n) Esercizio 3. i) Reg1=lm(A$Prezzo A$Potenza+A$Consumi+A$Comod+A$Estet+A$Tecn) summary(reg1) ii) A2=A A2$Prezzo=NULL A2$Potenza=NULL A2$Consumi=NULL B=princomp(A2) biplot(b) iii) C=predict(B) iv) Reg2=lm(A$Prezzo A$Potenza+A$Consumi+C[,1]+C[,2]) summary(reg2) v) NF=predict(B,NuovaFiat[4:6]) PRZ=Reg2$coeffi cients%*%c(1,nuovafiat[2:3],nf) Esercizio 4. a) SE = HoltWinters(X,beta=FALSE,gamma=FALSE) SET = HoltWinters(X, gamma=false) X.fr = ts(x, frequency=12, start=c(1995,1)) HW = HoltWinters(X.fr) plot(se, predict(se,12)) plot(set, predict(set,12)) plot(hw, predict(hw,12)) b) SE è rozzo ma cattura la previsione media; SET si espone a forte errori perché può risentire della periodicità o di fluttuazioni molto ampie, che vengono interpretate come trend; HW cattura bene tutti gli aspetti. c) Si devono trovare i residui, ci si deve restringere ad una finestra comune e si devono calcolare le deviazioni standard. prev.se = SE$fitted[,1] prev.set = SET$fitted[,1] prev.hw = HW$fitted[,1] length(x) 4

length(prev.se) length(prev.set) length(prev.hw) Con riferimento all esempio visto a lezione: residui.se = prev.se[(167-60):167]-x[(168-60):168] residui.set = prev.set[(166-60):166]-x[(168-60):168] residui.hw = prev.hw[(156-60):156]-x[(168-60):168] c(sd(residui.se), sd(residui.set), sd(residui.hw)) 5