DIAGNOSTICA DEI RESIDUI

Documenti analoghi
Le novità sui materiali specifici a rischio

ANALISI DELLA VARIANZA

Analfabetismo finanziario ed inclusione previdenziale nella società che invecchia

Progetti di Outplacement per l Azienda

Una Malattia dei Bronchi e dei Polmoni Cronica Ostruttiva SCUOLA BPCO 2012 A.C.O. S. FILIPPO NERI ROMA

IL MINISTRO DEL LAVORO, DELLA SALUTE E DELLE POLITICHE SOCIALI. di concerto con IL MINISTRO DELL'ECONOMIA E DELLE FINANZE

KRESTON GV Italy Audit Srl The new brand, the new vision

KIT DI PRECARICA tipo PC 11.1 I 01-12

Welfare state. Un confronto tra paesi europei

obbligazioni corporate e semi-government (tenute presso il corrispondente estero) emesse prima del 01/01/1999;

Sezione Regionale Abruzzo e Molise

Il Sistema Bus KNX. Standard mondiale ISO/IEC Milano, 14 dicembre Renato Ricci Diego Pastore

Distribuzione digitale

LA RICETTA DELLA SMART FACTORY M. CECCHINATO 27/09/2017

Descrizione del sistema

Corruzione, l Italia migliora ma è comunque terzultima in Europa

Avv. Franco Toffoletto. La disciplina delle mansioni. Optime - Grand Hotel et de Milan. 1 luglio 2015

Regressione Lineare Semplice e Correlazione

Marzo Produttività e regimi di protezione all impiego

IL LAVORO DELL OCSE SUI SISTEMI SANITARI

Report di osservazione

Differenze incolmabili nelle strutture per età agiranno come fattori push nei paesi di emigrazione e fattori pull nei paesi di immigrazione

Archiviazione elettronica e Gestione della conoscenza Dott. Timur Khoussainov Toffoletto De Luca Tamajo e Soci Studio Legale

Introduzione: I fallimenti del mercato e l intervento dello Stato

La posizione dell Italia sui mercati mondiali alla luce dei cambiamenti in atto

I sistemi europei di welfare: dimensioni, struttura, finanziamento

Dove i produttori di vino e gli importatori si incontrano

Angelo FERRO - Gianni RAELI. La relazione tra PIL ed addetti al primario Una verifica empirica

MODELLI INTRASTAT LE NOVITA IN VIGORE DAL 2018

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Museo Internazionale della Croce Rossa. Mariagrazia Baccolo Croce Rossa Italiana _ Castiglione delle Stiviere

La spesa sanitaria e altri indicatori di salute nei dati Ocse 2002

NUOVO LOGO DORMER brochure esplicativa

Misure della disuguaglianze di reddito Rapporto tra percentili (1)

Introduzione a rischio, rendimento e costo. dott. Matteo Rossi

L etichetta di pericolo secondo il Regolamento CLP e il sistema GHS Stato di attuazione del GHS nel mondo

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

Elaborazioni da Rapporto ESPAD, 2015

Misurazione e valutazione della performance dei pubblici dipendenti: l'esperienza dell'ateneo fiorentino

CI HANNO SCELTO. Alcune delle aziende che si sono affidate a Trivenet quale partner per la fornitura dei loro servizi di telecomunicazione:

Laboratorio di Statistica Aziendale Modello di regressione lineare semplice

La molluschicoltura italiana nel panorama europeo e del bacino del mediterraneo

TEST NON PARAMETRICO DI MANN-WHITNEY

Transcript:

DIAGNOSTICA DEI RESIDUI Per valutare la bontà dei residui in un modello di regressione lineare esistono diverse possibilità, alcune di tipo esplorativo basate sulla costruzione di opportuni grafici ed altri affidati all uso di particolari misure o test statistici. Si consideri un modello di regressione multivariata in cui il tasso di risparmio di 50 paesi è messo in relazione con alcune variabili demografiche e con il pil. Il dataset a cui si fa riferimento appartiene al pacchetto faraway. Lo si carichi e se ne esplori la struttura attraverso l help: data(savings) help(savings) Si costruisce quindi un modello di regressione in cui il tasso di risparmio, (la variabile sr) è messo in relazione con tutte le altre 4 variabili: g<-lm(sr~pop15+pop75+dpi+ddpi,savings) Si può a questo punto fare un grafico dove in ascissa si mettono i valori teorici e in ordinata i residui di questa regressione. Eventuali strutture o trend presenti nel grafico indicano che i residui non sono casuali e quindi che i regressori non hanno colto tutta la variabilità della variabile risposta: plot(fitted(g),residuals(g),xlab= valori teorici,ylab= residui ) residui -5 0 5 10 6 8 10 12 14 16 valori teorici In questo caso non si osservano particolari problemi poichè i residui sembrano disperdersi in maniera casuale sopra e sotto la loro media (lo zero). 17

Verifica della normalità distributiva La normalità distributiva dei residui si può esplorare innanzitutto in maniera grafica attraverso le funzioni Q-Q plot. Il comando qqnorm applicato ai residui del modello costruisce un grafico in cui riporta in ordinata il valore osservato di ciascun residuo (i quantili campionari) mentre in ascissa rappresenta i valori teorici (i quantili di popolazione) che delimitano la stessa frazione percentuale nella distribuzione normale avente ugual media (nulla) e varianza di quella campionaria. qqnorm(g$res) Se la normalità distributiva è valida i punti tendono ad allinearsi lungo la bisettrice di questo grafico. Per visualizzarne la bisettrice si digita il comando: qqline(g$res) Normal Q-Q Plot Sample Quantiles -5 0 5 10-2 -1 0 1 2 Theoretical Quantiles Alternativamente si può effettuare un test, noto come il test di Shapiro-Wilk, che saggia l ipotesi nulla di normalità distributiva di un insieme di dati: shapiro.test(residuals(g)) Shapiro-Wilk normality test data: residuals(g) W = 0.987, p-value = 0.8524 Il p-value indica che l ipotesi nulla non si rifiuta e dunque i residui sono normalmente distribuiti. Se si costruisce un istogramma si osserva infatti la classica forma campanulare: 18

hist(residuals(g),15) Histogram of residuals(g) Frequency 0 1 2 3 4 5 6 7-5 0 5 10 residuals(g) (si provi a cambiare il valore 15 per vedere cosa succede al grafico). Misure diagnostiche Nella libreria faraway sono contenuti alcuni comandi che producono i leverages, i residui studentizzati e la distanza di cook. Il comando influence si applica all output di un modello di regressione e produce una lista al cui interno (sotto il nome di hat) sono contenuti i valori di leverages: ginf<-influence(g) ginf$hat Australia Austria Belgium Bolivia Brazil 0.06771343 0.12038393 0.08748248 0.08947114 0.06955944 Canada Chile China Colombia Costa Rica 0.15840239 0.03729796 0.07795899 0.05730171 0.07546780 Denmark Ecuador Finland France Germany 0.06271782 0.06372651 0.09204246 0.13620478 0.08735739 Greece Guatamala Honduras Iceland India 0.09662073 0.06049212 0.06008079 0.07049590 0.07145213 Ireland Italy Japan Korea Luxembourg 0.21223634 0.06651170 0.22330989 0.06079915 0.08634787 Malta Norway Netherlands New Zealand Nicaragua 0.07940290 0.04793213 0.09061400 0.05421789 0.05035056 Panama Paraguay Peru Philippines Portugal 0.03897459 0.06937188 0.06504891 0.06425415 0.09714946 South Africa South Rhodesia Spain Sweden Switzerland 0.06510405 0.16080923 0.07732854 0.12398898 0.07359423 19

Turkey Tunisia United Kingdom United States Venezuela 0.03964224 0.07456729 0.11651375 0.33368800 0.08628365 Zambia Jamaica Uruguay Libya Malaysia 0.06433163 0.14076016 0.09794717 0.53145676 0.06523300 Questi due comandi producono un grafico dei Leverages in cui si mostrano le etichette dei paesi con i 5 leverages più alti: contries<-row.names(savings) halfnorm(lm.influence(g)$hat,5,labs=contries,ylab="leverages") Si provi ancora una volta a modificare il valore 5 per valutarne gli effetti. Per calcolare i residui studentizzati internamente si usa la loro formula definitoria basata sui valori di leverages appena stimati: gs<-summary(g) # mette in gs il summary di g gs$sig # è la radice quadrata della varianza stimata 3.8027 stud.int<-residuals(g)/(gs$sig*sqrt(1-ginf$hat)) # formula per il calcolo Invece per ottenere i residui studentizzati esternamente si può utilizzare direttamente la formula: stud.est<-rstudent(g) Infine per calcolare la distanza di Cook si utilizza il comando: cook<-cooks.distance(g) halfnorm(cook,3,labs=countries,ylab= Cook s distances ) # fa il grafico Un esercizio Il dataset star (libreria farway) contiene di dati sulla luminosità e sulla temperatura di alcune stelle del sistema solare. Si vuole valutare se stelle molto luminose corrispondono a stelle con temperature elevate e viceversa. data(star) plot(star$temp,star$light,xlab= Temperatura,ylab= Luminosità ) g<-lm(light~temp,star) abline(g) 20

Luminosità 4.0 4.5 5.0 5.5 6.0 3.6 3.8 4.0 4.2 4.4 4.6 Temperatura in cui si osserva purtroppo un andamento decrescente dovuto molto probabilmente alla presenza di quattro punti anomali, che corrispondono a quattro stelle aventi una temperatura inferiore a 3.6. Se si calcolano i leverages infatti si ha che quelli maggiori di 2(m+1)/n sono proprio quei 4 punti: cbind(influence(g)$hat,star$temp) [,1] [,2] 1 0.02220190 4.37 2 0.03734096 4.56 3 0.02191917 4.26 4 0.03734096 4.56 5 0.02130230 4.30 6 0.02705977 4.46 7 0.07805447 3.84 8 0.03865181 4.57 9 0.02191917 4.26 10 0.02220190 4.37 11 0.19410341 3.49 12 0.02497782 4.43 13 0.02870476 4.48 14 0.04440927 4.01 15 0.02137941 4.29 16 0.02438666 4.42 17 0.02292159 4.23 18 0.02438666 4.42 19 0.02292159 4.23 20 0.19410341 3.49 21 0.02137941 4.29 22 0.02137941 4.29 23 0.02438666 4.42 24 0.02960436 4.49 25 0.02253604 4.38 26 0.02438666 4.42 27 0.02137941 4.29 28 0.02253604 4.38 29 0.02335854 4.22 21

30 0.19834440 3.48 31 0.02253604 4.38 32 0.03734096 4.56 33 0.02631438 4.45 34 0.19410341 3.49 35 0.02292159 4.23 36 0.04597716 4.62 37 0.03371684 4.53 38 0.02631438 4.45 39 0.03371684 4.53 40 0.02497782 4.43 41 0.02253604 4.38 42 0.02631438 4.45 43 0.03055537 4.50 44 0.02631438 4.45 45 0.03608151 4.55 46 0.02631438 4.45 47 0.02438666 4.42 Dunque si può ristimare un modello di regressione escludendo le stelle con temperatura inferiori a 3.6: g2<-lm(light~temp,star,subset=(temp>3.6)) abline(g2) da cui si ottiene una relazione crescente fra le due variabili: Luminosità 4.0 4.5 5.0 5.5 6.0 3.6 3.8 4.0 4.2 4.4 4.6 Temperatura 22