Vengono ripresi di seguito alcuni concetti base di matematica, di statistica descrittiva, inferenziale e di calcolo delle probabilità.

Documenti analoghi
Corso di. Dott.ssa Donatella Cocca

Lezioni di Statistica (25 marzo 2013) Docente: Massimo Cristallo

Capitolo 3. Cap. 3-1

Elementi di statistica

* PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE *

Modelli descrittivi, statistica e simulazione

STATISTICA DESCRITTIVA CON EXCEL

Scienze Geologiche. Corso di Probabilità e Statistica. Prove di esame con soluzioni

LEZIONE 2. Riassumere le informazioni: LE MEDIE MEDIA ARITMETICA MEDIANA, MODA, QUANTILI. La media aritmetica = = N

Università di Cassino. Esercitazioni di Statistica 1 del 19 Febbraio Dott. Mirko Bevilacqua

Lezione 2 a - Statistica descrittiva per variabili quantitative

Lezione 2 le misure di sintesi: le medie

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 17/09/2012

x 0 x 50 x 20 x 100 CASO 1 CASO 2 CASO 3 CASO 4 X n X n X n X n

Variabili statistiche - Sommario

,29 7. Distribuzioni di frequenza. x 1 n 1 n 1 n 1 /N n 1 /N*100 x 2 n 2 n 1 +n 2 n 2 /N n 2 /N*100

Esame di Statistica tema B Corso di Laurea in Economia Prof.ssa Giordano Appello del 15/07/2011

Esame di Statistica tema A Corso di Laurea in Economia Prof.ssa Giordano Appello del 15/07/2011

LA VARIABILITA. IV lezione di Statistica Medica

Università degli Studi di Urbino Facoltà di Economia

ESERCIZIO 4.1 Si consideri una popolazione consistente delle quattro misurazioni 0, 3, 12 e 20 descritta dalla seguente distribuzione di probabilità:

Esercizi di econometria: serie 1

Strada B. Classe Velocità valore frequenza Frequ. ass Frequ. % hi Freq. Cum

Laboratorio 2B A.A. 2012/2013. Elaborazione Dati. Lab 2B CdL Fisica

S O L U Z I O N I. 1. Effettua uno studio qualitativo della funzione. con particolare riferimento ai seguenti aspetti:

una variabile casuale è continuase può assumere un qualunque valore in un intervallo

Il trattamento dei dati a fini descrittivi

Sommario. Obiettivo. Quando studiarla? La concentrazione. X: carattere quantitativo tra le unità statistiche. Quando studiarla?

Modelli di variabili casuali

SERIE STORICHE, TREND, MEDIE MOBILI, REGRESSIONE Andrea Prevete

Correlazione lineare

Precisione e Cifre Significative

Esercitazioni del corso di relazioni tra variabili

Esercitazioni del corso di Relazioni tra variabili. Giancarlo Manzi Facoltà di Sociologia Università degli Studi di Milano-Bicocca

Per calcolare le probabilità di Testa e Croce è possibile risolvere il seguente sistema di due equazioni in due incognite:

LA VARIABILITA. Nella metodologia statistica si distinguono due aspetti della variabilità:

= = = = = 0.16 NOTA: X P(X) Evento Acquisto PC Intel Acquisto PC Celeron P(X)

Ministero della Salute D.G. della programmazione sanitaria --- GLI ACC - L ANALISI DELLA VARIABILITÀ METODOLOGIA

Università di Cassino. Esercitazione di Statistica 1 del 4 dicembre Dott.ssa Simona Balzano

Capitolo 3 Covarianza, correlazione, bestfit lineari e non lineari

Calcolo delle Probabilità

1) Dato un carattere X il rapporto tra devianza entro e devianza totale è 0.25 e la devianza totale è 40. La devianza tra vale: a) 10 b) 20 c) 30

CARATTERISTICHE DEI SEGNALI RANDOM

(B1) IL RUOLO DELL ANALISI STATISTICA DEI DATI NELLA GESTIONE AZIENDALE DATI GREZZI E INFORMAZIONI INDICI STATISTICI, TABELLE E GRAFICI

ESERCITAZIONE 2 DIAGRAMMI A BARRE, COSTRUZIONE DI ISTOGRAMMA. Notazione: x i = i-esima modalità della variabile X

Rappresentazione dei numeri PH. 3.1, 3.2, 3.3

Relazione funzionale e statistica tra due variabili Modello di regressione lineare semplice Stima puntuale dei coefficienti di regressione

Rappresentazione dei numeri

Statistica descrittiva

STATISTICA DESCRITTIVA - SCHEDA N. 5 REGRESSIONE LINEARE

Esercitazione 8 del corso di Statistica (parte 1)

RICHIAMI SULLA RAPPRESENTAZIONE IN COMPLEMENTO A 2

REALTÀ E MODELLI SCHEDA DI LAVORO

La t di Student. Per piccoli campioni si definisce la variabile casuale. = s N. detta t di Student.

Teoria degli errori. La misura implica un giudizio sull uguaglianza tra la grandezza incognita e la grandezza campione. Misure indirette: velocita

Modello del Gruppo d Acquisto

Ettore Limoli. Lezioni di Matematica Prof. Ettore Limoli. Sommario. Calcoli di regressione

La Regressione X Variabile indipendente o esplicativa. La regressione. La Regressione. Y Variabile dipendente

LE FREQUENZE CUMULATE

ESERCIZI SULLE VARIABILI CASUALI DISCRETE

PIANIFICAZIONE DEI TRASPORTI

Intorduzione alla teoria delle Catene di Markov

5. Baricentro di sezioni composte

PROCEDURA INFORMATIZZATA PER LA COMPENSAZIONE DELLE RETI DI LIVELLAZIONE. (Metodo delle Osservazioni Indirette) - 1 -

Laboratorio 2B A.A. 2013/2014. Elaborazione Dati. Lab 2B CdL Fisica

La regressione. La Regressione. La Regressione. min. min. Var X. X Variabile indipendente (data) Y Variabile dipendente

LA CALIBRAZIONE NELL ANALISI STRUMENTALE

3) Entropie condizionate, entropie congiunte ed informazione mutua

Analisi della Varianza

Definizione di campione

Dalla sola analisi della tabella dei profili colonna, pensi ci sia un associazione tra le due variabili in tabella? (motiva brevemente la risposta)

Corso AFFIDABILITÀ DELLE COSTRUZIONI MECCANICHE. Prof. Dario Amodio Ing. Gianluca Chiappini

Architetture aritmetiche. Corso di Organizzazione dei Calcolatori Mariagiovanna Sami

RAPPRESENTAZIONE DI MISURE. carta millimetrata

INDICI STATISTICI MEDIA, MODA, MEDIANA, VARIANZA

PREVEDONO: Capitolo 17 del libro di testo. Copyright 2005 The McGraw-Hill Companies srl

Potenzialità degli impianti

COSTRUIRE UN PICCOLO SET DI DATI

Variabili aleatorie discrete. Probabilità e Statistica I - a.a. 04/05-1

Giovanni Buti STIMA DELL INCERTEZZA DI MISURA GB INTERTEK LABTEST

Studente estratto Esami sostenuti voto Frequenza Pos.ne lavor.va sesso rendimento si No M B si No M O no No F S

Il campionamento casuale semplice

Corso di Statistica (canale P-Z) A.A. 2009/10 Prof.ssa P. Vicard

PROBLEMA DI SCELTA FRA DUE REGIMI DI

La ripartizione trasversale dei carichi

Unità n La concentrazione

Il modello markoviano per la rappresentazione del Sistema Bonus Malus. Prof. Cerchiara Rocco Roberto. Materiale e Riferimenti

C.I. di Metodologia clinica

CORRETTA RAPPRESENTAZIONE DI UN RISULTATO: LE CIFRE SIGNIFICATIVE

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI

Statistica per le ricerche di mercato

Relazioni tra variabili: Correlazione e regressione lineare

Valutazione dei Benefici interni

L'Analisi in Componenti Principali. Luigi D Ambra Dipartimento di Matematica e Statistica Università di Napoli Federico II

1 La domanda di moneta

Capitolo 7. La «sintesi neoclassica» e il modello IS-LM. 2. La curva IS

lxmi.mi.infn.it/~camera/silsis/laboratorio-1/2-statistica.ppt Misura:

Introduzione al Machine Learning

INDAGINE ESAUSTIVA O CAMPIONARIA?

STATISTICA SOCIALE Corso di laurea in Scienze Turistiche, a.a. 2007/2008 Esercizi 16 novembre2007

Transcript:

3333 PARTE PRIMA. Introduzone e Rcham Vengono rpres d seguto alcun concett base d matematca, d statstca descrttva, nferenzale e d calcolo delle probabltà. Dspense d econometra Pag. 1

Rcham d matematca I rferment a concett matematc pù mportant propedeutc allo studo dell Econometra rguardano prncpalmente lo studo de logartm, delle dsequazon, dell algebra matrcale e delle funzon d una o pù varabl e verranno rpres d volta n volta che se ne presenta la necesstà..rcham d Statstca descrttva Concett teorc. D seguto vengono rportat contenut pù mportant della Statstca descrttva seguendo una logca propedeutca allo studo dell Econometra. S cerca d ndvduare una lnea d contnutà tra un modello unvarato o bvarato semplcemete descrttvo ed uno probablstco. Dstrbuzon d frequenze per valor suddvs n class. Frequenza assoluta, relatva, cumulata assoluta e relatva La frequenza esprme l numero d volte che la modaltà d un carattere s presenta nella popolazone d nteresse. Essa può essere assoluta, quando esplcta l numero d volte che la modaltà del carattere s rpete; relatva, che s ottene dal rapporto tra frequenza assoluta e l numero totale delle osservazon e s denota con N; relatva percentuale ovvero uguale al prodotto della frequenza relatva per 100. Cumulata assoluta, quando s sommano le frequenze assolute; cumulate relatve, quando s sommano le frequenze relatve. La frequenza può essere rferta a sngole modaltà relatve a uno o pù caratter della popolazone d nteresse oppure a modaltà rappresentate per class d valor. La classe è un sub-ntervallo del campo d varazone del carattere d nteresse. L ampezza delle class dpende dalle caratterstche del fenomeno osservato e dal grado d sgnfcatvtà che esse assumono nella statstca descrttva e nferenzale. La generca classe è defnta come: (a-1,a) per = 1,,..., k all nterno della quale vanno nserte tutte le modaltà del carattere comprese nell ntervallo reale: Le class s caratterzzano con un valore mnmo concdente con l estremo snstro; con un valore massmo, concdente con l estremo destro. Esse devono essere dsgunte ovvero senza sovrapposzon; devono essere esaustve ovvero contenente a -1 < a a Dspense d econometra Pag.

un valore mn e max; normalmente sono chuse a destra ovvero l valore estremo destro della classe non è rcompreso; possono essere equ-ampe ovvero avent tutte la stessa ampezza e equ-frequent ovvero avent tutte la stessa frequenza. Per dstrbuzon d valor suddvs n class s può utlzzare, a fn del calcolo delle msure central e d varabltà, l valore centrale d classe, tenendo conto che tale procedura presenta un certo grado d approssmazone de rsultat. Va rcordato che per class non equ-ampe, a fn della loro rappresentazone grafca, è necessaro dsegnare per ognuna d esse un rettangolo la cu area s ottene dal prodotto della base corrspondente all ampezza d classe (a -1,a ) per l altezza data dalla denstà d frequenza trovata. E noltre mportante sottolneare che per la rappresentazone grafca della moda s è obblgat ad utlzzare la denstà d classe come altezza del rettangolo o barra vertcale d un stogramma. Per stablre l numero delle class e la loro ampezza n una dstrbuzone d frequenza occorre trovare prma d tutto l valore mnmo ed l valore massmo la cu dfferenza rappresenta l'ntervallo d varazone dato dalla notazone: I= Max - Mn e po sceglere arbtraramente l numero degl ntervall d classe (o pù semplcemente l numero delle class), n genere corrspondente alla radce quadrata della numerostà della popolazone, espressa dalla seguente notazone: k = N dove k rappresenta l numero delle class ed N la numerostà della popolazone. S dvdono qund le osservazon per l numero d class trovato k. Il numero delle class dovrebbe essere, n ogn modo, non nferore a 5 e non superore a 0. Per determnare l'ampezza s applca la seguente notazone: Max -Mn a = k dove k è l numero delle class, Max è l valore massmo delle osservazon e Mn è l valore mnmo. Nel Laboratoro Studo gudato vengono rportate le applcazon svolte manualmente relatv alla parte teorca trattata. Dspense d econometra Pag. 3

ESERCITAZIONE EMPIRICA 1 Nella Tabella seguente vengono rportat dat d una rlevazone da questonaro su 34 punt vendta d cu s sono osservat caratter Vendte, Prezzo e Promozone. Punt vendta Vend te Prez zo Promoz one Punt vendta Vend te Prezzo Promozon e 1 4141 59 00 18 730 79 400 384 59 00 19 618 79 400 3 3056 59 00 0 441 79 400 4 3519 59 00 1 4113 79 600 5 46 59 400 3746 79 600 6 4630 59 400 3 353 79 600 7 3507 59 400 4 385 79 600 8 3754 59 400 5 1096 99 00 9 5000 59 600 6 761 99 00 10 510 59 600 7 088 99 00 11 4011 59 600 8 80 99 00 1 5015 59 600 9 114 99 400 13 1916 79 00 30 188 99 400 14 675 79 00 31 159 99 400 15 3636 79 00 3 160 99 400 16 34 79 00 33 3354 99 600 17 95 79 400 34 97 99 600 Fonte: Google S rprendono dat del carattere vendte e s costruscono cnque class equ ampe: I=Max-Mn=510-675=4445 k = N = 34 5,8 (non s utlzza l arrotondamento matematco; s arrotonda a 5 class) Max -Mn = k a =(510-675)/5=889 (ampezza d classe) Nella Tabella seguente s rportano le class calcolate e tutte le frequenze. Class Freq. ass. Freq.rel. Freq.rel.% Freq. cum. Ass. Freq. cum.relatve 675-1564 4 0.1176471 11,76471 4 0.1176471 1564-453 7 0.05884 0,5884 11 0.33594 453-334 5 0.1470588 14,70588 16 0.470588 334-431 13 0.38359 38,359 9 0.85941 431-510 5 0.1470588 14,70588 34 1,0000000 Totale 34 1,0000000 100.0000 Nel Grafco seguente s rporta l stogramma delle Vendte per valor suddvs n class. Dspense d econometra Pag. 4

Frequenze Relatve Istogramma delle Class d Vendte 675 1564 453 334 431 510 Class d Vendte Nel Laboratoro con l software R vengono rportat gl scrpt per svolgere le stesse applcazon svolte manualmente relatv alla parte teorca trattata. PREMESSA Introduzone ad R Che cos è R. R è un ambente d svluppo pensato appostamente per la realzzazone d anals statstche. S tratta d un lnguaggo d programmazone open source ovvero "grats". Fondamentalmente R è un pacchetto statstco che permette d elaborare dat, esegure calcol da pù semplc a pù compless, ottenere rappresentazon grafche e molto altro ancora... Il software R è un punto d rfermento per tutto cò che rguarda le anals statstche; è sopratutto un lnguaggo d programmazone che è n grado d creare struzon personalzzate utlzzando l'apposta R Console. Rende l'utente ndpendente da una costosa lcenza software www.r-project.org Come usare R. http://www.ddattcanterattva.t/fles/appendce--consgl-per-l-uso-d-r.pdf Esempo d mportazone de dat da Excel a R. Dspense d econometra Pag. 5

A. Se non s è scarcato s provveda ad effettuare l download svolgendo la seguente procedura: 1. da un Browser, ad esempo Google Crome, s accede al sto d R scrvendo nell apposto check box software R-;. clccare su R: The R Project for Statstcal Computng https://www.rproject.org/traduc questa pagna. R s a free software envronment for statstcal computng and graphcs. It comples and runs on a wde varety of UNIX platforms, Wndows and MacOS. CRAN - Mrrors Of /src/base/r-3 About R Books ; 3. s apre la pagna The R Project for Statstcal Computng Gettng Started dove è nserto l lnk download clccando l quale s apre l CRAN Mrrors scorrendo l quale s trovano quattro ndrzz rfert alle unverstà talane; sceglerne una e clccandoc sopra s apre la pagna: The Comprehensve R Archve NetworkDownload and Install R. Precompled bnary dstrbutons of the base system and contrbuted packages, Wndows and Mac users most lkely want one of these versons of R: Download R for Lnux Download R for (Mac) OS X Download R for Wndows 4. Sceglere l sstema operatvo montato sul vostro dspostvo ed effettuare l download 5. Per aprre R occorre clccare due volte sull cona che normalmente s trova sul Desktop o aprre l software dal menu d wndows clccando su Programm. Avvando R vene mostrato l prompt >sulla R Console su cu s può agre drettamente nserendo comand e premendo l tasto Invo oppure s può operare dal menu Fle sceglendo l opzone Nuovo scrpt che apre una nuova fnestra R Senza Ttolo-Edtor d R. Su questa s può agre scrvendo le rghe d codce che nteressano, po con l tasto destro del mouse s apre un menu a tendna, s scegle l opzone Selezona tutt e da ultmo l opzone Esegu lnea o selezone da cu s ottene l output n R Console. Lo stesso rsultato lo s ottene agendo dal menu Modfca, stessa opzone Esegu lnea o selezone oppure, usando l tasto F5. Per evtare che, alla sua rapertura, R rcarch d default l precedente spazo d lavoro rcordars d o salvare oppure clccare sul NO nella fnestra d dalogo. Nelle due Tavole seguent s mostrano l prompt d R Console con la frecca azzurra mostra e la procedura Fle-Nuovo scrpt con le due frecce rosse ed noltre la procedura per mandare n esecuzone le lnee d codce. Tasto destro Selezona tutt Esegu lnea o selezone come s evnce dalle due frecce rosse. Oppure le lnee d codce possono essere nserte drettamente dal prompt> come evdenzato dalla frecca blu Dspense d econometra Pag. 6

Tavole seguent evdenzano la procedura con cu s può modfcare o annullare cò che s è scrtto precedentemente. Le due frecce rosse evdenzano la procedura Modfca Annulla. Clccando sull opzone Pulsc Console s cancella tutto cò che v è scrtto (frecca blu) e la procedura da utlzzare quando s vuole uscre da R. La frecca rossa ndca l No ovvero che non s voglono salvare le lnee d codce dell Edtor d R. La frecca blu ndca l S ovvero che s voglono salvare le lnee d codce dell Edtor d R. Dspense d econometra Pag. 7

B. Aprre un fle Excel; n questo caso s dspone del fle nomnato: Q_01 relatvo a rsultat emers da un Questonaro sommnstrato a 190 ndvdu etchettat e svolgere la seguente procedura: a. dalla Barra degl strument superore clccare su Fle-Salva con nome; b. scorrere l cursore fno al tpo d estensone da settare; n questo caso s scegle CSV(delmtato da separatore d elenco): c. ndcare l ndrzzo d destnazone del fle; n questo caso l percorso è C:\Mydata d. potrebbe comparre l box seguente: Dspense d econometra Pag. 8

clccare S e. aprre l programma Note Pad++ (oppure un semplce Blocco Note) e salvare l fle QUES1 nella drectory C:/Mydata/; f. s può notare che la formattazone del fle è cambata e che l separatore d campo è l punto e vrgola; g. aprre ora l software R; cambare la drectory sceglendo quella d lavoro; n questo caso è: C:/Mydata ; basta scrvere nel prompt della R Console l comando: setwd( C:/Mydata ) La Tavola seguente rporta la procedura con cu s può desumere quale drectory d lavoro è presente n R e quale drectory s vuole sceglere. Con l comando getwd() d ndvdua la drectory presente su R (frecca rossa). Con l comando setwd() va a sceglere la drectory d lavoro (frecca blu). In questo caso l percorso è: C:/Mydata. Per completare l quadro d come funzona R s rmanda anche al sto www.ddattcanterattva.t nella Sezone Software-R. ESERCITAZIONE EMPIRICA CON R x<-c(4141,384,3056,3519,46,4630,3507,3754,5000,510,4011,5015,1916,675,3636,34, Dspense d econometra Pag. 9

95,730,618,441,4113,3746,353,385,1096,761,088,80,114,188,159,160,3354,97); x k<-5; k n<- length(x); n Class <- seq(mn(x),max(x),length.out = k + 1);Class FreqAss <- hst(x,class,plot = FALSE)$counts;FreqAss FreqRel <- FreqAss / n ;FreqRel FreqRelPerc <- 100 * FreqRel;FreqRelPerc Freq_cum_ass<-cumsum(FreqAss);Freq_cum_ass Freq_cum_rel<-(Freq_cum_ass)/n;Freq_cum_rel par(bg="cornslk") h <- hst(x,class,plot = FALSE) h$counts <- FreqRel plot(h,ylab = "Frequenze Relatve",xlab="Class d Vendte",axes = FALSE, man = "Istogramma delle Class d Vendte", col="red") axs(1,at = Class,cex.axs = 1.1) axs(,at = c(0,round(h$counts,dgts = )),cex.axs = 1.1 Dopo aver aperto R s copa e s ncolla lo scrpt nell Edtor e rga per rga s manda n esecuzone trovando rsultat gà calcolat nell Applcazone svolta manualmente Meda artmetca n frequenza assoluta e relatva Concett teorc Fn qu è stata svolta un anals del fenomeno statstco attraverso la descrzone d un nseme d modaltà d un carattere, rferte ad un nseme d untà statstche (popolazone o collettvo o unverso) attraverso l utlzzo d dstrbuzon d frequenza rappresentate con tabelle e grafc. Sa nella rcerca scentfca e tecnologca che nell ambto delle scenze economche, socal, poltche ed ambental s ha l esgenza d msurare effcacemente e qund valutare gl effett ndott da una causa nota. La msura d poszone (locaton ndex) sntetzza con un solo valore l ntera dstrbuzone d frequenza e ne permette d effettuare raffront nel tempo, nello spazo o tra crcostanze dfferent. Talvolta, cò è rlevante per verfcare se le conseguenze d un azone nota abbano prodotto un rsultato desderato, n quale drezone e con quale ntenstà. (D. Pccolo) La Statstca descrttva, dal sgnfcato stesso del termne, ha ndvduato dvers ndc o msure d poszone per una dstrbuzone d frequenza. Quelle cosddette central sono le pù mportant e sono le mede (artmetca semplce e ponderata, geometrca e armonca), la moda e la medana. Dspense d econometra Pag. 10

Per quanto rguarda quantl (decl, centl), percentl e quartl occorre precsare che ess rappresentano una msura d poszone, sebbene non centrale, solo se pres sngolarmente. Ad esempo l I decle, l 99 centle o l I quartle d una dstrbuzone d frequenza descrvono una precsa poszone nella dstrbuzone d frequenza. Se nvece s vuole msurare la dstanza fra d ess, s deve parlare d msura d varabltà. Ad esempo la dfferenza nterquartlca tra l I e l III quartle non esprme pù una msura d poszone ma d varabltà. D seguto vengono studat le msure d poszone centrale per valor suddvs n class, ndvduando concett d numerostà, ampezza e valore centrale delle stesse. Il concetto e l ruolo d questa msura sono central nello studo d un fenomeno statstco. La meda è un concetto mmanente che l Uomo ha sempre utlzzato nella sua vta quotdana per far fronte alla mutevolezza e a cambament de dvers fattor con qual s è dovuto sempre confrontare: ambente, clma, nemc, terrtoro, ecc. Nel sentre comune la Statstca è soltanto tutto cò che rguarda le mede e pertanto s rtene che non sa del tutto affdable se pretende d sntetzzare un nseme d nformazon d una realtà complessa con un unco valore. Qu s commette un grave errore, d concetto e d metodo, n quanto s confonde la Statstca descrttva che appunto nquadra e rappresenta la realtà effcacemente e sntetcamente dalla Statstca nferenzale che nvece, a partre da nformazon crcoscrtte e lmtate, nduce ad assumere decson a valenza generale. S possono avere dvers approcc al concetto d meda: secondo Cauchy, secondo Chsn, secondo Wald, secondo Nagumo-Kolmogorov-de Fnett. In questo contesto s usa l procedmento d calcolo della meda n frequenza che utlzza come peso la frequenza assoluta o relatva per valor suddvs n class. Va detto che tale procedmento non è esatto come quello che usa tutte le osservazon. Il calcolo vede moltplcate le n osservazon per le relatve frequenze assolute rapportato al numero totale delle stesse che resttusce la cosddetta meda artmetca n frequenza assoluta così denotata: h xn =1 Ma = h n =1 Se s prendono come peso le frequenze relatve s ottene la meda n frequenza relatva e la notazone dventa: a h M = x =1 f Dspense d econometra Pag. 11

Due propretà mportant vanno prelmnarmente sottolneate: 1)aggungendo (o sottraendo) a tutt valor x, la stessa quanttà w, la meda artmetca è ncrementata (o rdotta) d tale quanttà (propretà traslatva); ) moltplcando (o dvdendo) tutt valor x per una stessa quanttà k, dversa da zero, la meda artmetca rsulta moltplcata (o dvsa) per tale quanttà. Esse sono espresse dalle seguent notazon: M a n x ± w =1 = n x = 1 ± x ±.. ± x. n n = M a ± w M a n x ± w =1 = n x = 1 ± x ±.. ± x. n n = M a ± w Devanza, varanza, s.q.m. e c.v. n frequenza assoluta e relatva Concett teorc Sopra é stata trattata una msura d poszone centrale (meda artmetca n frequenza assoluta e relatva), ma non s è esamnata l atttudne d un carattere a dstrburs ntorno a valor med. Obettvo d questo Paragrafo è quello d esamnare tale processo classfcando e defnendo le prncpal msure d varabltà e d ndcare le formule o notazon sottostant a tal concett teorc, nonché d esplctare l sgnfcato d Devanza, Varanza, Squarto quadratco medo e l Coeffcente d varazone, rferto a caratter undmensonal. Vene analzzato l Coeffcente d varazone n qualtà d ndcatore che msura la varabltà relatva del carattere osservato espresso da un numero puro. Devanza per valor suddvs n class. E` data dalla somma de quadrat delle dfferenze dalla meda moltplcata per le frequenze assolute espressa dalla seguente notazone: n dev (x - x) n =1 Varanza per valor suddvs n class. E` data dalla somma de quadrat delle dfferenze dalla meda artmetca per la relatva frequenza assoluta dvso l totale delle frequenze assolute stesse espressa dalla seguente notazone: oppure quando s usa fa frequenza relatva: var = n (x - x) n =1 n =1 n Dspense d econometra Pag. 1

n var = (x - x) 1 f Scarto quadratco medo (s.q.m.). E` dato dalla radce quadrata della varanza. s.q.m.= σ = k = 1 k n ì = 1 x n ì oppure quando s usa fa frequenza relatva: s.q.m. = σ = n = 1 (x - x) f Coeffcente d varazone. E` dato dal rapporto fra la devazone standard e la meda artmetca. σ cv = x per = 1,,...,n Indc d forma. Asmmetra. Curtos Concett teorc Dopo aver esamnato e rappresentato le msure d poszone centrale e d varabltà relatve a dstrbuzon d frequenza per valor suddvs per class, è necessaro, a fn d una completa descrzone d un fenomeno statstco, studare la forma delle dstrbuzon stesse. I concett d asmmetra e curtos sono fondamental nello studo della forma d una dstrbuzone d frequenza. Per quanto rguarda l asmmetra vene rpreso l grafco box-plot e relatv cnque numer d sntes, la cu anals evdenza vsvamente se la dstrbuzone è smmetrca o asmmetrca, se è asmmetrca a destra (postva) o a snstra (negatva). Cò è possble osservando la dstanza dalla medana del I e III Quartle. Se essa è uguale la dstrbuzone rsulta Dspense d econometra Pag. 13

smmetrca; se dversa la dstrbuzone è asmmetrca. Se l addensamento de valor è pù a destra s è n presenza d asmmetra destra (o postva) e vceversa. I cnque numer d sntes con l relatvo dagramma box-plot danno una ndcazone sulla forma della dstrbuzone che può essere: Smmmetrca Quando la dstanza fra l mn e l I Quartle (Q 1 ) e fra l III Quartle (Q 3 ) e l max, oppure fra l mn e l II Quartle o Medana (Q ) e fra l II Quartle o Medana (Q ) e l max è approssmatvamente uguale. Nella Fgura 6.1.1 è rappresentata una dstrbuzone smmetrca Max Mn Q 1 Q =Medana Q 3 Asmmetrca o oblqua a snstra o negatva Quando la dstanza fra l mn e l II Quartle o Medana (Q ) è maggore della dstanza tra l II Quartle o Medana (Q ) e l max, oppure quando fra l I Quartle e la Medana (Q ) essa è maggore d quella tra la Medana (Q )e l III Quartle Max Mn Q 1 Q Q 3 Asmmetra o oblqua a destra o postva Quando la dstanza fra l mn e l II Quartle o Medana (Q ) è mnore della dstanza tra l II Quartle o Medana (Q ) e l max, oppure quando fra l I Quartle e la Medana (Q ) essa è mnore d quella tra la Medana (Q )e l III Quartle Max Mn Q 1 Q = Medana Q 3 Dspense d econometra Pag. 14

Denstà 0.00 0.0 0.04 0.06 0.08 0.10 Propretà dell Asmmetra: 1) quando moda, meda e medana non concdono s è n presenza d una dstrbuzone asmmetrca; ) quando queste tre msure d poszone centrale concdono non necessaramente la dstrbuzone è smmetrca n quanto la eguaglanza è una condzone necessara ma non suffcente. Gl ndc d asmmetra pù usat sono l ndce d Bowley e l ndce calcolato con l momento terzo Indce d asmmetra d Bowley I Bowley = Q 3 + Q Q 3 1 - Q - Q 1 Indce d asmmetra calcolato con l momento terzo I = skew M σ 3 3 1 = n (x - M(x)) σ 3 3 * n Per quanto rguarda l anals della curtos, che studa l grado d appattmento della curva, s prendono n consderazone le curve: Mesocurtca, Platcurtca e Leptocurtca. Grafcamente s rappresentano come segue: -40-0 0 0 40 Curva Leptocurtca x Dspense d econometra Pag. 15

Denstà 0.005 0.010 0.015 0.00 0.05 0.030 0.035 0.040 Denstà 0.00 0.01 0.0 0.03 0.04-40 -0 0 0 40 x Curva Mesocurtca -0-10 0 10 0 platcurtca x Curva Per sntetzzare, attraverso un ndce, l grado d appattmento s utlzza quello d curtos calcolato con l memento quarto e s confronta con l valore fsso d curtos della curva mesocurtca o normale par a 3. S calcola po lo scostamento. Se postvo s è n presenza d una leptocurtca, se negatvo d una platcurtca. Indce d curtos calcolato con l momento terzo I CUR = M σ 4 4 Scostamento= I CUR -3 1 n 4 (x - μ) * n 4 σ Curva Mesocurtca: Scostamento=0 I CUR =3 Curva Platcurtca: Scostamento < 0 (o negatvo) I CUR <3 Curva Leptocurtca: Scostamento > 0 (o postvo) I CUR > 3 Dspense d econometra Pag. 16

Nel Laboratoro Studo gudato vengono rportate le applcazon svolte manualmente relatv alla parte teorca trattata. ESERCITAZIONE EMPIRICA Rprendendo gl stess dat delle Vendte s redge la tabella propedeutca per l calcolo degl ndc d varabltà e d forma per valor suddvs n class. Class x (v.c.) n x*n (x - xmeda) (x -xmeda) (x - (x - xmeda) * n xmeda) 3 *n (x - xmeda) 4 n 675- - 1119,5 4 4478 1564 1987,176471 3948870,35 15795481,3-31388408783,49497E+14 1564- - 008,5 7 14059,5 105991,561 8441940,94-970740889 7,1664E+13 453 1098,176471 453- - 897,5 5 14487,5 334 09,1764706 43754,79585 18773,979-4576368,83 478605399 334-431 3786,5 13 494,5 679,83594 46160,0311 6008080,405 408443446 3,6097E+13 431-510 4675,5 5 3377,5 1568,8359 46107,66 1306036,33 1930599935 1,51439E+14 Totale 34 10567-1045,88353 811983,979 477031,94-1731447863 5,08347E+14 Meda artmetca 3106,6765 Devanza Varanza S.q.m. cv% 477031,94 157950,381 111,583871 36,10371 I cnque numer d sntes s calcolano rprendendo dat delle Vendte per procedere al rordno n modaltà crescente. 675 761 80 1096 160 188 1916 088 114 159 95 618 730 97 3056 34 3354 3507 3519 353 3636 3746 3754 385 384 4011 4113 4141 46 441 4630 5000 5015 510 A questo punto s possono calcolare. Mnmo= 675 Massmo=510 Poszone I Quartle=(n+1)/4= (34+1)/4=8,75^ arrotondato alla 9^ poszone Dspense d econometra Pag. 17

1000 000 3000 4000 5000 Q1= 114 Poszone II Quartle (o Medana)=(n+1)/= (34+1)/=17,5^ Q=( 3354 + 3507)/=3430,5 Poszone III Quartle=3(n+1)/4= 3(34+1)/4=6,5^ arrotondato alla 6^ poszone Q3= 4011 Per l calcolo dell asmmetra s utlzzano seguent ndc: Indce d Bowley= [(114+4011)-*3430,5]/(4011-114)= -114,183 Indce d asmmetra con l momento terzo=1/34*(-1731447863)/ (111,583871) 3 = -1,7 Entramb gl ndc affermano che esste una asmmetra negatva ovvero le vendte s dstrbuscono pù nella parte a snstra della medana che alla sua destra. La rappresentazone grafca del Box-plot conferma l rsultato degl ndc. Per l calcolo della curtos s utlzza l seguente ndce: Indce d curtos con l momento quarto=1/34*(5,08347e+14)/ (111,583871) 4 =4.9168e+4 Nel Laboratoro con l software R vengono rportat gl scrpt per svolgere la stessa applcazone svolta manualmente relatva alla parte teorca trattata. Dspense d econometra Pag. 18

ESERCITAZIONE EMPIRICA CON R lbrary(labstatr x <-c(1119.5,008.5,897.5,3786.5,4675.5);x ## valor central d classe Freqass<-c(4, 7, 5, 13, 5);Freqass ##frequenze assolute n <-sum(freqass);n ##totale osservazon Freqrel<-Freqass/n;Freqrel ##frequenze relatve Meda <- sum(x * Freqass)/n;Meda ##meda artmetca n frequenza assoluta Meda <- sum(x * Freqrel);Meda ##Meda artmetca n frequenza relatva devanza <-((x - Meda)^ * FreqAss);devanza ## devanza per class varanza<-((x-meda)^ * FreqAss)/n;varanza ## varanza per class n frequenza assoluta varanza<-((x-meda)^ * Freqrel);varanza ## varanza per class n frequenza relatva devanza<-sum((x - Meda)^ * FreqAss);devanza ## devanza totale varanza<- sum((x-meda)^ * Freqrel);varanza ## varanza totale n frequenza assoluta varanza<-sum((x-meda)^ * Freqrel);varanza ## varanza totale n frequenza relatva varanza); sqm cv_perc<-(sqm/meda)*100;cv_perc summary(x) Ibowley<-(008+3786-*898)/3786-008;Ibowley skew<-sum((x - Meda)^3* FreqAss)/n*sqm^3;skew kurt<-sum((x - Meda)^4*FreqAss)/n*sqm^4;kurt Connessone. Indc d connessone. Concett teorc Il concetto d connessone è rferto prevalentemente a caratter qualtatv bdmensonal (n questo contesto s esamnano le dstrbuzon b-carattere o bdmensonal) mentre quello d correlazone a caratter quanttatv e qund a varabl multple. Per l anals dell connessone tra due caratter è necessaro dsporre d osservazon e dat organzzat n tabelle a doppa entrata o dstrbuzon multple d frequenze che vengono defnte d contngenza quando prendono n consderazone caratter qualtatv. S esamnano ora contenut d una tabella a doppa entrata. Le frequenze congunte assolute ndvduano la connessone fra la Dspense d econometra Pag. 19

modaltà del carattere X con quella relatva del carattere Y. Nella tabella a doppa entrata seguente s rportano n smbol valor n class de due caratter X ed Y X/Y a-b c-d e-f Tot y 1 y y 3 l-m x 1 n 11 n 1 n 13 n 1. s-t x n 1 n n 3 n. h-k x 3 n 31 n 3 n 33 n 3. Tot n.1 n. n.3 N Se s prende a rfermento la frequenza congunta assoluta n11, l prmo pedce ndca la modaltà d rga 1 della X e l secondo la modaltà d colonna 1 della Y. Se s consdera la frequenza margnale n1., l prmo pedce ndca la rga 1 e l punto segnala la sommatora delle modaltà d colonna della Y rferte alla rga 1 della X. Se s consdera n.1, l prmo pedce ndca la sommatora delle modaltà d rga della X rferte alla colonna 1 e l secondo la colonna 1. N è l numero totale delle osservazon. Le frequenze relatve condzonate sono utl per ottenere ulteror ndcazon sulle dstrbuzon parzal d un carattere assocate alle modaltà dell altro carattere. Per studare l concetto d ndpendenza dstrbutva tra due caratter è necessaro studare la relazone tra le frequenze congunte assolute e le corrspondent frequenze teorche. La frequenza teorca, relatva a w rghe e k colonne, è data dal rapporto fra l prodotto delle frequenze congunte e l totale n d una tabella a doppa entrata ed è defnta dalla seguente notazone: n *n ~ w..h nwk = w = 1,,...,n; k = 1,,..., n n dove n w. sono le frequenze congunte assolute margnal d rga e n.h sono quelle d colonna. Esste ndpendenza dstrbutva tra due caratter quando tutte le frequenze congunte assolute sono ugual alle corrspondent frequenze teorche. E nvece suffcente che una sola frequenza teorca dffersca dalla relatva frequenza congunta assoluta per gungere alla conclusone che non v è ndpendenza dstrbutva. Dspense d econometra Pag. 0

Le Contngenze sono legate strettamente al concetto d ndpendenza dstrbutva e sono defnte dalla dfferenza tra la frequenza congunta assoluta e quella teorca e qund dalla notazone: dove n wh sono le frequenze congunte assolute e n~ wk sono le frequenze teorche o attese. Se le contngenze assolute hanno un valore postvo sgnfca che tra le modaltà de due caratter esste un attrazone n quanto la frequenza congunta effettva è mnore della frequenza teorca; se hanno valore negatvo sgnfca che tra le modaltà de due caratter esste una repulsone n quanto la frequenza congunta effettva è maggore della frequenza teorca. Per quanto rguarda le contngenze relatve esse sono date dal rapporto fra le contngenze assolute e le relatve frequenze teorche e sono defnte dalla seguente notazone CR wh C wk C = ~ n wh wh = (n wk -~ n wk ) w = 1,,.., n; w = 1,,..., n; h = 1,,..., n k = 1,,..., n dove CRwh teorche. sono le contngenze relatve, Cwhquelle assolute e n~ wk le frequenze La defnzone teorca d connessone relatva a due caratter non ne quantfca, però, l lvello o l grado o l ammontare. E necessaro, pertanto, dsporre d ndcator specfc qual l ndce del Ch-quadrato che dà nformazone, n meda quadratca, d quanto dfferscono le frequenze effettve da quelle teorche e qund dà una msura del grado d connessone tra due caratter oggetto d studo. Esso è defnto dalla seguente notazone: Ch-quadrato= r c (C ASS / n~ wh ) dove r c è la doppa sommatora per rga e per colonna, C ASS sono le contngenze assolute mentre n~ sono le frequenze teorche. Va ctata per completezza anche la wh formula operatva del calcolo del Ch-quadrato che normalmente resttusce un rsultato leggermente arrotondato rspetto a quello ottenuto con la notazone d cu sopra. Essa è espressa dalla notazone: Ch.quadrato= N( w =1 h j =1 n n w. wh n.h - 1) Dspense d econometra Pag. 1

dove n wh sono le frequenze assolute congunte, n w. le frequenze margnal d rga e n.h le frequenze margnal d colonna. Poché l ndce Ch-quadrato s ottene n valore assoluto è opportuno normalzzarlo applcando la seguente notazone: Ch-quadrato norm=ch-quadrato/ch-quadrato max dove l Ch-quadrato max è dato, a sua volta, dalla notazone: Ch-quadrato max = N[mn(w-1),(h-1)] che è rcompreso tra 0 e 1. Esso assume valore zero (Ch-quadratonorm=0) quando esste ndpendenza dstrbutva e valore uno (Ch-quadratonorm=1) quando s confgura la massma dpendenza dstrbutva o max connessone. Per l calcolo dell ndce d Cramer è necessaro ntrodurre l concetto d ndce d contngenza quadratco l quale s trova applcando la seguente notazone: Icq= Ch-quadrato/n All ndce d contngenza quadratco possono essere assegnate le seguent propretà: 1) elmna l nfluenza del numero d osservazon; ) rappresentando una versone normalzzata dell ndce ch-quadrato assume valor rcompres tra 0 ed 1; 3) ha valore 0 quando esste una perfetta ndpendenza dstrbutva; 4) ha valore 1 quando esste una perfetta dpendenza dstrbutva o massma connessone o assocazone. Per calcolare l ndce d Cramer s possono utlzzare le due notazon seguent: la prma, applcando la formula: ICramer= ICQ [mn(w - 1)(h - 1)] la seconda, applcando la formula: ICramer= Ch- quadrato Ch- quadratomax L ndce d Cramer, n questa seconda versone, può essere defnto, anche, come la radce quadrata del Ch-quadrato normalzzato. Nel Laboratoro Studo gudato vengono rportate le applcazon svolte manualmente relatv alla parte teorca trattata. Dspense d econometra Pag.

ESERCITAZIONE EMPIRICA 3 S prenda un esempo nel quale s assocano l carattere Y Vendta Prodott che assume le modaltà A, B, C, D con l carattere X Rpartzone Geografca che assume le modaltà Nord Ovest, Nord Est, Centro, Sud e Isole. Nella Tabella seguente sono rportate le frequenze congunte assolute (per semplctà s lavora solo con dstrbuzon d frequenza congunte per valor sngol e s lasca al lettore l compto d analzzare quelle le cu modaltà sono suddvse n class).. euro) X\Y Vendta prodott (Y) (n mglaa d Aree geografche (x) A B C TOTALE Nord ovest 1345 8764 5413 65 Nord est 16789 1005 7689 34530 Centro 8756 4890 3078 1674 Sud e sole 4110 394 180 94 Totale 4000 7000 18000 87000 Fonte: Dat smulat Nella Tabella seguente sono rportate le frequenze relatve condzonate per le modaltà del carattere Y X=x. Nella cella d prma rga e prma colonna è rportato l rapporto tra la frequenza congunta assoluta e la relatva margnale d colonna che deve essere esteso a tutte le altre celle. d euro) X\Y Vendta prodott (Y) (n mglaa Aree geografche (x) A B C TOTALE Dspense d econometra Pag. 3

Nord ovest 1345/4000=0,9 0,3 0,30 0,30 Nord est 0,40 0,38 0,43 0,40 Centro 0,1 0,18 0,17 0,19 Sud e sole 0,10 0,1 0,10 0,11 Totale 1,00 1,00 1,00 1,00 Fonte: Dat smulat Nella Tabella seguente vengono rportate le frequenze relatve condzonate per le modaltà del carattere X Y=y Nella cella prma rga e prma colonna è rportato l rapporto tra la frequenza congunta assoluta e la relatva margnale d rga che deve essere esteso a tutte le altre celle. d euro) X\Y Vendta prodott (Y) (n mglaa Aree geografche (x) A B C TOTALE Nord ovest 1345/4000=0,9 0,3 0,30 0,30 Nord est 0,40 0,38 0,43 0,40 Centro 0,1 0,18 0,17 0,19 Sud e sole 0,10 0,1 0,10 0,11 Totale 1,00 1,00 1,00 1,00 Fonte: Dat smulat S possono fare alcun esemp pù specfc d frequenze condzonate relatve. Se s vuole conoscere, ad esempo, la dstrbuzone d frequenza del carattere Y condzonato alla modaltà Nord Est del carattere X, n smbol Y X=Nord Est, s estrae la seguente dstrbuzone parzale: y A B C Tot n 0,49 0,9 0, 1 Se s vuole conoscere, ad esempo, la dstrbuzone d frequenza del carattere X condzonato alla modaltà Prodotto A del carattere Y, n smbol X Y=Prodotto A, s estrae la seguente dstrbuzone parzale: Est Centro Sud ed Isole Tot x Nord Ovest Nord Dspense d econometra Pag. 4

0,1 0,10 1 n 0,9 0,40 In entramb cas non s possono calcolare le mede condzonate poché s è n presenza d caratter qualtatv. Per poter calcolare le mede condzonate s devono prendere n consderazone caratter quanttatv o qualtatv dscretzzat ovvero assocare alle modaltà un numero o una classe d numer. Un esempo auta meglo a capre l concetto teorco. S dsponga de seguent dat grezz relatv a 15 osservazon del carattere Y e del carattere X. Carattere Y 1 7 3 4 8 9 1 3 4 4 4 8 9 7 Carattere X 1 7 9 4 8 8 1 3 4 4 9 8 9 7 Dalla dstrbuzone d dat grezz s costrusce la Tabella seguente a doppa entrata. E opportuno suggerre al lettore le modaltà d costruzone. Occorre, come detto precedentemente, assocare gl stess valor assunt da due caratter e msurare quante volte s rpetono. Ad esempo, la coppa d valor 1,1 s rpete volte, quella 4,4 s rpete 3 volte, allora l lettore costrusce una tabella a doppa entrata nella quale nsersce sulle rghe le modaltà assunte dal carattere X (1,,3,4,5,6,7,8,9) e sulle colonne quelle d Y (1,,3,4,5,6,7,8,9) e all ncroco della rga 1 e colonna 1 mette che rappresenta la frequenza congunta assoluta d prma rga e prma colonna e così va. X/Y 1 3 4 7 8 9 Totale 1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 3 0 0 1 0 0 0 0 1 4 0 0 0 3 0 0 0 3 7 0 0 0 0 0 0 8 0 0 0 0 0 1 3 9 0 0 1 1 0 0 1 3 Totale 1 4 15 Fonte: Dat smulat E possble, ora, calcolare le mede condzonate, ad esempo la M(Y X=9). S estrae la relatva dstrbuzone Y X=9 dalla tabella a doppa entrata che vene d seguto rportata: Dspense d econometra Pag. 5

8 9 y 1 3 4 7 0 0 1 1 0 0 1 n La meda condzonata M(Y X=9) è data da (1x0)+(x0) (3x1)+(4x1) (7x0)+(8x0) (9x1)/15=(3+4+9)/15=1,067. E opportuno rcordare che la dstrbuzone d frequenza congunta è per defnzone una dstrbuzone bcarattere n quanto rguarda conguntamente entramb caratter d nteresse, mentre le dstrbuzon margnal e condzonate sono undmensonal poché esse s rferscono ad un solo carattere e qund valgono tutt concett teorc studat per le dstrbuzon d frequenza semplc. Per calcolare l ch-quadrato con dat dell esempo soprarportato s parte dalla tabella a doppa entrata delle frequenze congunte assolute: Aree geografche (x) X\Y Vendta prodott (Y) (n mglaa d euro) A B C TOTALE Nord ovest 1345 8764 5413 65 Nord est 16789 1005 7689 34530 Centro 8756 4890 3078 1674 Sud e sole 4110 394 180 94 Totale 4000 7000 18000 87000 S redge la tabella delle frequenze teorche: Aree geografche (x) X\Y Vendta prodott (Y) (n mglaa d euro) A B C TOTALE Nord ovest 1803.74 830.966 5487.310 65 Nord est 16669.655 10716.07 7144.138 34530 Centro 8073.655 5190.07 3460.138 1674 Sud e sole 445.966 86.61 1908.414 94 Dspense d econometra Pag. 6

Totale 4000 7000 18000 87000 S redge la tabella delle contngenze assolute: Aree geografche (x) X\Y Vendta prodott (Y) (n mglaa d euro) A B C TOTALE Nord ovest -458.741 533.0345-74.31034 0 Nord est 119.3448-664.069 544.8607 0 Centro 68.3448-300.069-38.13793 0 Sud e sole -34.9655 431.3793-88.41379 0 Totale 0 0 0 0 S redge la tabella delle contngenze assolute a quadrato dvso le frequenze teorche: Aree geografche (x) X\Y Vendta prodott (Y) (n mglaa d euro) A B C TOTALE Nord ovest 16.434899 34.51913 1.00637 Nord est 0.8544381 41.16856 41.555003 Centro 57.6683613 17.3648 4.03346 Sud e sole 6.4150588 65.0061 4.096071 Totale Il valore del Ch-quadrato è dato dalla somma de valor d tutte le celle n applcazone della formula teorca. Ch-quadrato=348,917 Per calcolare l ch-quadrato normalzzato debbo calcolare prma quello massmo par a: Ch-quadrato max=174000 Il ch-quadrato normalzzato sarà: Dspense d econometra Pag. 7

Ch-quadrato norm=348,917/174000= 0.00001676 L ndce d Cramer sarà: I CRAMER = 0.0447401 L ndce d contngenza quadratco sarà: I CONTQUADR = 0.040033 Nel Laboratoro con l software R vengono rportat gl scrpt per svolgere le stesse applcazon svolte manualmente relatv alla parte teorca trattata. ESERCITAZIONE EMPIRICA CON R D seguto s rporta l relatvo codce: tab<-matrx(c(1345,16789,8756,4110,8764,1005,4890,394,5413,7689,3078,180),4,3) rownames(tab)<-c("nord ovest","nord est","centro","sud e sole") colnames(tab)<-c("prodotto A","Prodotto B","Prodotto C") tab tab_te <- margn.table(tab,1)%*% t(margn.table(tab,))/sum(tab);tab_te tab_coas<-((tab-tab_te)^)/tab_te;tab_coas tab_coas<-(tab-tab_te) ;tab_coas ch<-((tab-tab_te)^)/tab_te;ch ## Valore del ch-quadrato ch<-sum(((tab-tab_te)^)/tab_te);ch ## Valore del ch-quadrato ch_max<-(sum(tab)*(mn(dm(tab)-1)));ch_max ## Valore del ch-quadrato massmo chnorm<-ch/ch_max; chnorm ## Valore del ch-quadrato normalzzato Cramer_1<-sqrt(chnorm);Cramer_1 ## Valore dell'indce d Cramer -prmo modo cont<-ch/sum(tab);cont ## Valore dell'indce dcontngenza quadratco Cramer_<-sqrt(cont/);Cramer_ ## Valore dell'indce d Cramer -secondo modo 3.Rcham d Teora e Calcolo delle Probabltà Concett teorc Dspense d econometra Pag. 8

S rportano d seguto concett pù mportant della teora e calcolo delle probabltà propedeutc allo studo dell Econometra La frase è probable che esca l nero n una puntata alla roulette mette n evdenza che n una data prova l evento esce l nero n una puntata alla roulette ha una certa probabltà d verfcars. Il concetto d probabltà pogga su seguent element d base, tra loro strettamente legat: l espermento emprco la prova l evento elementare lo spazo degl event o evento certo o spazo camponaro l evento composto L espermento emprco è la realzzazone d un'operazone emprca atta ad ndvduare, accertare o precsare qualche aspetto specfco d un fenomeno osservable che potrebbe rguardare qualunque branca della conoscenza (fsca, chmca, materal, geologa, bologa, pscologa, economa, archeologa, ecc.). La prova o espermento aleatoro è un qualsvogla processo che produce un esto ncerto. L evento elementare E è uno de possbl est d un espermento. Lo spazo camponaro Ω è l nseme d tutt gl est possbl d un espermento. L evento composto è un qualunque sottonseme d Ω e s defnsce pù semplcemente evento. ESEMPI: 1) Nel lanco d un dado regolare con spazo camponaro Ω (dove = 1,,3,4,5,6 rappresentano gl event elementar), l evento E è esce la facca 1 per =1 ) Nel lanco d due dad regolar con spazo camponaro Ω (dove = 1,,3,4,5,6 rappresentano gl event elementar), l evento composto potrebbe essere escono le facce 1 e per =1,. 3) Nel lanco d una moneta regolare l nseme degl event è uguale a due con =1, L evento è qund un sottonseme d Ω, s defnsce Ω e s legge contenuto n Ω. L evento deve essere defnto n modo rgoroso n ogn sua modaltà al fne d evtare ogn possble ambgutà o frantendmento o contestazone o ncertezza. ESEMPIO: Nel lanco d un dado regolare, l cu spazo camponaro è Ω (dove Ω è l nseme delle facce per =1,,3,4,5,6), l evento E potrebbe essere l nseme Ω. L evento (uscta delle facce 1,) è qund un sottonseme d E e s legge contenuto n E. Se s ndca con E un evento e con (l evento negazone d E) allora è charo che se E è vero è falso. I due event s dcono contrar. Il grado d probabltà che un certo evento ha d verfcars può essere rassunto dalle seguent notazon: p = 0 se l evento E è mpossble p = 1 se l evento E è certo 0 < p <1 quando le osservazon su E non c conducono a nessuna delle due concluson defntve ma ad una ntermeda. Dspense d econometra Pag. 9

Nota: è bene rcordare che se un evento E ha probabltà nulle (0) d verfcars non per questo è mpossble che s verfch e così un evento che ha probabltà certa (1) d verfcars non per questo è certo. Defnzon d Probablta` Secondo l approcco classco la probabltà s defnsce come l rapporto fra l evento probable e tutt gl event possbl purché egualmente probabl. P=E PROB /E 1 +E +...+E I dove E PROB è l evento probable e la sommatora d E I è l nseme degl event possbl equprobabl. ESEMPIO: n un gro d roulette le modaltà del rsultato sono complessvamente 37 come numer della ruota. Tal modaltà costtuscono tutt cas possbl egualmente probabl. Qund l evento uscta del numero n un gro d ruota è dato dal rapporto: P(E) = p = 1/37 Secondo l approcco frequentsta oppure secondo la concezone statstca la probabltà è espressa n termn quanttatv da un valore emprco osservato: la frequenza relatva. Se s osserva un fenomeno attraverso un espermento costtuto da un certo numero d prove n condzon costant, s defnsce frequenza relatva l rapporto fra l numero k, ovvero l numero delle volte nelle qual l evento E s è verfcato ed l numero totale n delle prove ovvero k/n. A questo concetto d msurazone statstca della probabltà s assoca la cosddetta legge emprca del caso, attraverso la quale s constata che al crescere d n la frequenza relatva tende, ancorché oscllando, ad un valore stable. ESEMPIO: l esempo classco è rappresentato dal lanco rpetuto d una moneta e dall evento uscta della facca Testa. Al crescere d n la frequenza relatva tende all evento Testa. Come conseguenza logca s può assumere che la frequenza relatva a condzone che n sa suffcentemente grande msura la probabltà dell evento E. E abbastanza frequente nella scenza che un concetto teorco la probabltà possa essere estratto da osservazon emprche spermental rappresentate dalla frequenza relatva (metodo nduttvo). S rportano d seguto alcun concett chave: P(Ω ) = 1 la probabltà del totale degl event elementar appartenent allo spazo camponaro deve essere sempre uguale ad 1 Se gl event E ed F non s sono ma presentat contemporaneamente nelle n prove allora: EՈ F=Ø e Prob (E F)=Prob(E)+Prob(F) P(A) 1 la probabltà è sempre compresa tra zero e uno compres P( ) = 0 la probabltà dell evento nullo o mpossble è par a zero F E P(F) P(E) se l evento F è rcompreso n E allora la P(F) P(E) P( E ) = 1- P(E) la probabltà dell Evento contraro è data dal recproco P(E) = 0 P(F E)=P(F) Il concetto d probabltà condzonata è molto mportante nello studo de fenomen casual e fondamentale per assumere decson defntve sulla base d conoscenze acquste n tnere. S affronta, po, la tematca, altrettanto mportante, Dspense d econometra Pag. 30

dell ndpendenza stocastca attraverso lo studo d event ndpendent gungendo alla determnazone della condzone d ndpendenza.. Probabltà condzonata Per assumere alcune decson defntve spesso è necessaro rfars a rsultat n tnere scaturt da decson ntermede. Occorre, coè, rcercare la probabltà d un evento condzonata al verfcars d un altro evento d cu s conosce a pror l esto. S presenta la necesstà, qund, d dover calcolare la probabltà d un evento dopo che s è verfcato un altro evento collegato al prmo sa dal punto d vsta logco che temporale. Per esempo s può affermare d essere n presenza d una probabltà condzonata nel caso dell estrazone senza rpetzone o senza remmssone d una pallna d colore verde, nella prma prova, dall urna contenente una sola pallna verde. La probabltà che nella seconda prova esca una pallna verde è 0 n quanto l evento è mpossble. S evnce, pertanto, che esste una condzone: se l evento E s è verfcato, gl event elementar che formano F devono essere nclus anche n E, ovvero quest sono comun a E ed F: La probabltà d E dato che F s è verfcato è la probabltà condzonata che è espressa dalla seguente notazone: Prob(EF) = Prob(E F)/Prob(F) dalla quale, per formula nversa, s ottene che: Prob(F) = Prob(E F)/Prob(EF) ovvero la probabltà dell evento F è uguale al rapporto tra la probabltà dell ntersezone fra E ed F e la relatva probabltà condzonata; sempre per formula nversa s può ottenere che: Prob(E F) = Prob(EF)/Prob(F) ovvero la probabltà dell evento ntersezone fra E ed F è uguale al rapporto tra la probabltà d E condzonato ad F e la probabltà d F. La probabltà condzonata soddsfa due seguent postulat: 1) Prob(E F) 0 ) Prob(Ω E) = Prob(Ω E)/Prob(E) = Prob(E)/Prob(E) = 1 Alcun autor assumono la defnzone d Probabltà condzonata come un ulterore postulato. E mportante rprendere due teorem relatv alla probabltà condzonata. Il prmo prende n consderazone tre event E 1, E, E 3 e stablsce che la probabltà dell evento ntersezone fra loro è uguale alla probabltà del prmo per l secondo condzonato al prmo e così va. In formula s ha: Prob(E E E ) = Prob(E )Prob(E E ) Prob (E E E) Dspense d econometra 1 3 1 1 3 1 Pag. 31

Il secondo prende n consderazone n event E 1, E,... E n a due a due mutuamente esclusv e stablsce che la probabltà d un evento qualsas E, ammesso che esso sa seguto da uno degl event sngol, è data dalla seguente notazone: Prob(E)= Prob (E 1 ) Prob (E E 1 )+ Prob (E ) Prob (E E )+...+ Prob (E n ) Prob (E E n ) Event ndpendent Per comprendere l concetto d ndpendenza stocastca è necessaro ntrodurre l seguente postulato: se s prendono n consderazone event a due a due dsgunt E 1, E, ovvero event per qual E E j = Evento mpossble quando j allora deve valere la seguente notazone: Prob( E) = j Prob(E ) =1 =1 Ovvero che la probabltà della produttora degl event E è uguale alla sommatora delle sngole probabltà moltplcato per l loro numero. Per spegare questo concetto è opportuno rpartre da quello d probabltà condzonata. S è vsto, a tale proposto, che la probabltà condzonata d un evento E, dato come verfcato l evento F, modfca generalmente le possbltà del verfcars d quest ultmo. S può dedurre, n lnea logca, che qualora esstano cas n cu la probabltà d E dato F concde con la probabltà d E, s determna una condzone d ndpendenza. Due event E ed F s dcono ndpendent, nfatt, quando la conoscenza del verfcars d F non modfca la probabltà del verfcars d E. Se non vale la condzone d cu alla notazone seguente due event E ed F s dcono dpendent. Prob(E F)=Prob(E)Prob(F) se Prob(F)>0 I due event soddsfano l concetto d smmetra ovvero se P(E)>0 e P(F)>0, E è ndpendente da F se F è ndpendente da E e vceversa. S può fare l esempo d tre event E 1, E, E 3 e s può rbadre, come gà detto sopra, che ess sono ndpendent quando lo sono a due a due per cu s può gungere alla notazone che la P(E E j )=P(E ) P(E j ) quando j e e j sono ugual al numero d event (1,,3). PARTE SECONDA. Che cos è l Econometra. Element fondamental dell anals d regressone L Econometra tenta d dare una rsposta n termn quanttatv ad una sere d possbl domande. In merto s cta uno scrtto tratto dalla Boccon. «Le scenze economche utlzzano metod quanttatv (coè matematc e statstc) per rspondere a domande qual: Qual è l effetto sull occupazone de lavorator talan d una maggore mmgrazone? Dspense d econometra Pag. 3

Perché non è suffcente semplcemente stampare moneta per creare post d lavoro? Qual sono vantagg per l Itala dell adozone dell Euro? Perché la Commssone Europea sta accusando Google d abuso d poszone domnante sul mercato? Se crollano prezz delle case n Florda, perchè l mo vcno d casa perde l lavoro? Perché all nzo del 900 l Argentna era pù rcca degl Stat Unt, e ogg è vero l contraro? Durante una crs, è meglo un mercato del lavoro con ammortzzator socal come la cassa ntegrazone, oppure uno n cu s perde l posto ma s ha un reddto mnmo garantto? È meglo un sstema pensonstco pubblco o prvato In tempo d crs e dsoccupazone, perché non c mettamo tutt d accordo: le famgle consumano d pù e lavorano d pù, le mprese assumono d pù, e tutt stamo meglo? Che cosa succede alla dsoccupazone se s mpone un salaro mnmo: aumenta o dmnusce? È vero che una maggore dsuguaglanza del reddto ha prodotto la crs fnanzara attuale? La globalzzazone aumenta o dmnusce le dsuguaglanze? Perché, se chedessmo a cascuno d fnanzarl, non avremmo parch pubblc? Perché paes con sstem elettoral maggortar crescono d pù d quell con sstem proporzonal? L effetto pù sorprendente dello studo delle scenze economche è propro scoprre come sa possble rspondere a domande sml (e a molte altre) n modo non ovvo, usando metod rgoros e logc, senza lascare troppo spazo alle opnon o alle deologe Le scenze economche permettono nfatt d rspondere a domande del tpo: Perché le donne lavorano così poco n Itala? oppure Che cosa causa le crs fnanzare? usando la matematca e la statstca. Una valutazone superfcale concluderebbe che gl mmgrat offrono lavoro a basso costo, e qund permettono alle azende d lcenzare nostr lavorator rsparmando su cost. Un economsta, nvece, ragonerebbe così: l lavoro degl mmgrat (meno specalzzato) e l lavoro degl talan (specalzzato) sono due ben complementar, coè sono come gl scarpon da sc, uno non m serve senza l altro. Allo stesso modo, l lavoro specalzzato serve poco se non è accompagnato da quello meno specalzzato. Qund, paradossalmente, n dvers settor n crs dell economa talana, per esempo quell tradzonal come l tessle, molt lavorator talan specalzzat (tecnc e ngegner) avrebbero perso l posto d lavoro se non avessmo avuto un aumento de fluss d lavorator mmgrat. In sntes: l lavoro degl mmgrat paradossalmente spesso salva quello de lavorator talan, e non l contraro. E salar? In questo caso guardare a dat è crucale. A fronte d un 1% n pù d mmgrat, supponamo anche che salar de lavorator d casa nostra scendano: ma Dspense d econometra Pag. 33

scendono dello 0,01 % oppure del 5%? La dfferenza è grande. A questo proposto c auta molto una dscplna, l econometra, ovvero la statstca applcata a problem economc, che serve propro a msurare con precsone le relazon economche. L esempo precedente era n due part: la prma (quella su ben complementar) era un modello, mentre la seconda (quella econometrca ), rguardava la msurazone. Fare scenza economca sgnfca anche dstnguere con charezza tra causa ed effetto n un dato fenomeno: pensare n modo non ovvo al problema, e po nterrogare dat. Fonte:https://www.unboccon.t/wps/wcm/connect/7954841-eafc-4edc-9035- f1fbeee599/31_15+volantno+economa+e+scenze+socal.pdf?mod=ajper ES Alle domande economche sono legat, come abbamo vsto sopra dat. La dsponbltà de dat è un presupposto fondamentale per l anals econometrca. In Econometra dat possono essere spermental e non spermental ovvero se sono tratt da esperment o da osservazon non spermental. Esstono quattro tpologe d dat: sezonal; temporal; panel I prm rguardano le osservazon (n statstca modaltà o realzzazon) su pù untà statstche rferte ad un solo perodo o nell untà d tempo (ad esempo gorno, settmana, trmestre, semestre, anno). Ad esempo l costo totale d produzone rferto a 10 dvers prodott (untà statstche) nel III semestre (untà d tempo:semestre) 016. I second rguardano le osservazon su una sola untà statstca ma rferte a pù perod. Ad esempo l costo totale d produzone rferto ad un solo prodotto (untà statstca) ne dodc mes (untà d tempo: mese) del 016 I terz rguardano le osservazon su pù untà statstche rferte a pù perod. Ad esempo l costo totale d produzone rferto a 10 dvers prodott (untà statstche) ne dodc mes (untà d tempo: mese) del 016 E opportuno ctare che alle tre tpologe d dat s può accedere attraverso dverse font. Le pù mportant sono: esperment questonar d dverse tpologe; banche dat; dat smulat Modello d regressone lneare semplce (o con un sngolo regressore) (MRLS) I concett d nterpolazone lneare, d varable dpendente e ndpendente, d ntercetta e d coeffcente angolare, d proporzonaltà dretta ed nversa sono rcham d matematca che all occorrenza vengono rpres. D seguto vene Dspense d econometra Pag. 34

esamnato l modello d Regressone lneare semplce (o con un regressore) ponendo l attenzone sulle sue fnaltà, ma soprattutto sulla sua precsa specfcazone e sull ndvduazone della procedura adatta a studare la relazone statstca fra due varabl. Vene svolta un anals sulle potes a cu deve sottostare l modello e sulla stma de regressor e vene rpreso l metodo d stma de regressor defnto de Mnm Quadrat Ordnar (Ordnary Last Square O.L.S.). Per la specfcazone del modello d regressone lneare semplce s rcorre al concetto d relazone statstca fra due varabl quanttatve Y e X, descrtta da una funzone lneare, e defnta dalla notazone: Y=a + bx + ε dove ε è una varable casuale e per conseguenza anche Y è una varable casuale (d seguto ndcate con l acronmo v.c.). Il modello d regressone lneare ha dverse fnaltà: descrttva, nterpretatva e prevsva. Gl aspett pù mportant che devono essere analzzat rguardano, nnanztutto, la specfcazone corretta del modello e l relatvo metodo d stma, nonché l mpostazone delle potes base sotto cu deve sottostare l modello stesso. S deve tenere conto, nfne, che l modello d regressone andrà a rappresentare la realtà osservata n modo approssmatvo, senza pretendere d rcostrurla fedelmente ed esattamente. Tuttava rsultat stmat, rvenent da un modello specfcato con rgore scentfco, autano a capre un fenomeno economco e socale e permettono d ottenere evdenza emprca utle, soprattutto, a lvello prevsvo. L nsermento d una varable casuale nel modello avvene per esgenze: d asstemctà connesse al comportamento umano, d descrzone dell effetto congunto d varabl non msurabl, d mprecsone, dovute ad error d msurazone. Per lo studo del modello d regressone lneare semplce (o ad una sola varable o unvarato) è opportuno stablre a pror, come detto n precedenza, un nseme d potes alle qual deve sottostare l modello medesmo. Nella Tabella seguente vengono rassunte tal potes d base. Ipotes d base Modello unvarato Note 1) Y =a+bx +ε Per ogn osservazone = 1,,..,n Evdenza potes d lneartà ) ε Sono v.c. ndpendent e dentcamente dstrbute (..d.) Evdenza potes d ndpendenza degl error 3) E(ε )=0 Valore atteso della v.c. ε è nullo Evdenza potes d normaltà degl error 4) x Realzzazon della varable esplcatva X Sono valor not potzzat senza errore equparabl a valor determnstc 5) Var (ε )= σ Per ogn osservazone = 1,,..,n Omoschedastctà ovvero potes d varanza ndpendentemente dal valore delle x costante 6) Cov(ε ε j )=0 Covaranza nulla per ogn j Assenza d correlazone tra gl error 7) ε ~ N(μ,ϭ ) Normaltà degl error Le v.c ε s dstrbuscono secondo una Normale con meda μ e varanza ϭ 8) Y v.c. ndpendent e dentcamente dstrbute (..d.) Data l ndpendenza delle v.c ε 9) y Realzzazon della varable dpendente Y Evdenza una varable dpendente che assume caratter d v.c. Dspense d econometra Pag. 35

10) ortogonaltà Varabl non correlate S assume che Cov (ε ε j )=0 ovvero Covaranza nulla per ogn j La specfcazone corretta del modello rchede un approfondta anals del fenomeno oggetto d studo e l ndvduazone delle varabl che lo nfluenzano. La scelta d esse comporta l rscho d prendere n consderazone la varable non determnante della relazone statstca o d trascurarne alcune determnant. Pertanto la specfcazone del modello necessta d un accurata e mnuzosa rcerca del trade-off tra la varable dpendente o rsposta e la varable ndpendente o esplcatva. Occorre anche consderare che, sebbene le realzzazon della X, x 1,x,. x n sano assmlabl a quelle determnstche, la varable dpendente Y, somma d una componente determnstca e una stocastca, è una v.c. con varanza costante ϭ e con valore atteso rappresentato dalla seguente notazone: Essendo, per l potes 3, E( ε )=0 E(Y ) + E(ε ) = a + be(x ) X = x ) = E(a+ bx + ε ) = E(a)+ E(bx Stma puntuale de coeffcent d regressone con l Metodo de Mnm Quadrat Ordnar (O.L.S.) D seguto s affronta l problema, tra pù mportant del modello nferenzale, della stma della retta e specfcatamente de coeffcent d regressone (comunemente chamat regressor); ovvero ntercetta e coeffcente angolare. Utlzzando lo stesso metodo s ndvdua una retta che per ogn x resttusce un valore d Y che s avvcna a valor osservat y. Tale retta è detta retta stmata ed assume la seguente notazone: yˆ = a ˆ + bx ˆ Il metodo d stma de mnm quadrat consente d stmare valor d ntercetta e coeffcente angolare della stessa retta (regressor) n modo tale da rendere mnm gl scart tra valore stmato e quello osservato. Occorre, pertanto, uguaglare a zero la dervata degl stess scart. In questo caso, per semplctà, s prende n consderazone la sommatora degl stess. S procede rprende la notazone del modello stmato: da cu s ottene che: y ˆ = a ˆ +bx ˆ εˆ εˆ = yˆ - a ˆ + bx ˆ Dspense d econometra Pag. 36

Poché gl scart possono assumere valor postv o negatv, ess vengono elevat al quadrato per far sì che prendano un valore sempre postvo, per cu: εˆ = (yˆ - a+bx ˆ ˆ ) La funzone d perdta è rappresentata dalla notazone: H(a, b)= n =1 (yˆ - a+bx ˆ ˆ A fn del calcolo de valor d â e bˆ occorre rendere mnma la funzone d perdta ovvero uguaglare a zero la dervata della stessa rspetto ad â e bˆ Soprassedendo allo svluppo del calcolo matematco, s può affermare che â (ntercetta) e bˆ (coeffcente angolare) sono defnte rspettvamente dalle due seguent notazon. â = y -bx ) ˆ σ b = σ XY X n =1 (x - x)(y n =1 (x - x) - y) dove ϭ XY rappresenta la covaranza XY e ϭ la varanza non corretta della X. Il valore d bˆ (coeffcente angolare) può essere defnto anche dalla formula operatva data dalla seguente nota b = σ σ XY X n x y - =1 oppure b = n n x - =1 n n x y =1 =1 n ( x ) =1 n Il concetto d resduo è rappresentato dalla dfferenza fra valor osservat della Y, y e valor della retta stmata con l metodo de mnm quadrat ed espresso dalla seguente notazone: Scomposzone della devanza totale eˆ = y - yˆ Dalla retta de mnm quadrat s può desumere che la dfferenza fra valor osservat e quell stmat delle realzzazon della Y, che esprmono la devanza totale, possono essere espress come somma tra: Dspense d econometra Pag. 37

n (y - y) = n =1 = 1 ( y - y ) n = 1 + eˆ dove y sono valor osservat, y l valore medo, y quell stmat. La sommatora degl error o resdu è defnta dalla seguente notazone: n 1 = ê = n = 1 ( y - ŷ ) Va rcordato che valor sundcat debbono essere rfert ad ogn valore d x. La notazone attraverso la quale s calcola la Devanza totale può essere espressa come segue: DT =DS + DR dove (DT) rappresenta la devanza totale; (DS) la devanza spegata e (DR) la devanza resdua. Coeffcente d determnazone Dalla relazone tra la devanza totale, spegata e resdua s può rcavare un mportante ndce statstco d adattamento della retta d regressone stmata a dat e coè l coeffcente d determnazone che è dato dalla seguente notazone: DS DT-DR R XY = = = 1- DT DT DR DT oppure: R XY = n =1 n (yˆ =1 - y) (y - y) = 1 - =1 n =1 n eˆ (y - y) Tale rapporto ndca l lvello d varabltà de valor della Y spegat dalla varable ndpendente X. Nel Modello OLS l coeffcente d determnazone è legato a quello d correlazone dalla seguente notazone: R XY = (ρ XY ) σxy = ( σ σ σxy dove ρ XY= ( ) è l coeffcente d correlazone d Bravas-Pearson. σ σ X Y X Y ) Dspense d econometra Pag. 38

Stmator puntual de coeffcent d regressone e relatve propretà. Gl stmator de coeffcent d regressone (o regressor) sono defnt con smbol aˆ e bˆ e lo stmatore del valore atteso della varable dpendente E( Yˆ ) vara al varare del campone osservato. Lo stmatore della varanza camponara s è dato dal rapporto della sommatora degl error e l numero d grad d lbertà degl stess (n- ). Le propretà d quest stmator sono rassunte nella Tabella seguente Stmator Propreta Correttezza o non dstorsone (unbased) Effcenza Consstenza aˆ e bˆ Se E( a) ˆ = a e E(b) ˆ = b Presentano la pù bassa Ŷ Se E( Yˆ ) = a ˆ + bx ˆ varanza s Se s n ˆ e =1 = n - Quando al crescere della numerostà camponara gl stmator aˆ e bˆ convergono asntotcamente a parametr della popolazone a e b Concett d nferenza sul Modello. L nferenza sul modello d regressone lneare semplce rguarda lo studo della stma ntervallare con l calcolo degl ntervall d confdenza e la verfca d potes su regressor. Nel modello nferenzale generale problem d nferenza assumono una grande mportanza quando l rcercatore è nteressato a stablre se esste una relazone lneare tra varabl nonché a verfcare quanta dspersone o varabltà esste tra le stesse e soprattutto la sgnfcatvtà statstca. La metodologa d rfermento è quella basata sull utlzzo d appost test ed n partcolare l test F e sull anals della varanza attraverso l apposta tavola detta Anova (Analsys of Varance).Vene svolto uno studo attento sull nferenza della v.c. dpendente o rsposta che, a fn prevsv, rveste l mportanza maggore nel modello d regressone n quanto valor che essa assume determnano l andamento futuro della relazone tra le due varabl studate. S rafferma l prncpo che ad ogn valore della varable ndpendente, potzzable come determnstco, s assoca un valore della v.c. rsposta con un certo errore d prevsone. Come detto sopra l modello d regressone vene utlzzato a fn prevsv, ovvero esso rsponde all esgenza d prevedere valor sngol e med della varable rsposta nonché della v.c. errore d prevsone. E altrettanto mportante, nfatt, l anals nferenzale sulla v.c. errore d prevsone come pure stablre l relatvo ntervallo d confdenza ad un certo lvello d sgnfcatvtà. Stmator ntervallar (Intervall d confdenza) Per l calcolo de regressor del modello s possono utlzzare pù metod. In questa sede se ne analzzano due: quello de Mnm quadrat e quello d Massma Dspense d econometra Pag. 39

verosmglanza che resttuscono gl stess rsultat. Le statstche-test che s applcano s rfanno al prmo metodo. Per l coeffcente angolare la notazone è: b - b ˆ s (b) ~ t n- e per l ntercetta è: a - a ˆ ~ t n- s (a) dove b è l coeffcente angolare (regressore 1) de valor della y osservat per valor d x; bˆ è l coeffcente angolare d un valore d y stmato per un valore d x e lo stesso dcas per l ntercetta (regressore ); s(b) e s(a) sono gl Error Standard rspettvamente de regressor 1 e. Le due statstche-test s dstrbuscono come una v.c. t d Student con n- grad d lbertà. Occorre stablre le dstrbuzon degl stmator che per la Y assumono la notazone: Y ~N (ϭ, a+bx ˆ ˆ ) e per l termne d errore quella: ε ~N(0, ϭ ) per =1,, 3, n ( Per due coeffcent d regressone (regressor) stmat â e bˆ gl ntervall d confdenza sono dat dalla seguente notazone: aˆ ± t s(a) ˆ e b ˆ α/ ± tα/s(b) ˆ dove t α/ ndca quel valore crtco per cu la probabltà d osservare valor della t- Student, con n- grad d lbertà, superor o ugual a t α/, è par a α/. Verfca d potes Per la verfca d potes de coeffcent d regressone (regressor) stmat â e bˆ del modello s mposta l seguente sstema d potes degl stess dato da: H : b ˆ 0 = d vs H1 :b ˆ d dove c e d sono due valor postv prefssat. : a ˆ 0 = c vs H :aˆ c H 1 La statstca-test per l coeffcente angolare bˆ è espressa dalla seguente notazone: bˆ - c t = s(b) ˆ e per l ntercetta da: t = a ˆ ) che s dstrbuscono, sotto l potes nulla, come una t d Student con n- grad d lbertà. Per c=d=0 l sstema d potes dventa: : b ˆ = 0 vs H :b ˆ 0 : a ˆ = 0 vs :aˆ 0 H0 1 aˆ - d s( H 0 H 1 Dspense d econometra Pag. 40

e pertanto la statstca-test per l coeffcente angolare dventa: bˆ t = s(b) ˆ e per l ntercetta â: aˆ t = s( a ˆ ) Anals della varanza (o Anova). Test F L anals della varanza (o Anova) s basa sul concetto d scomposzone della varanza totale che s esprme attraverso la seguente notazone: (DT)/n=(DS)/n+(DR)/n dove DT è la devanza totale; DS è la devanza spegata e DR è la devanza resdua ed n è l numero d osservazon ; (DT)/n è la varanza totale; (DS)/n è la varanza spegata e (DR)/n è la varanza resdua. Ad ognuno d quest valor vene assocato l relatvo numero d grad d lbertà. Questo numero è dato dal totale delle osservazon n meno l o vncol (o restrzon) a cu le quanttà devono sottostare. Per la varanza totale (DT)/n l numero d grad d lbertà è par a n-1; per la varanza spegata (DS)/n esso è par a 1 e per la varanza resdua (DR)/n par a n-. Infatt poché DT/n=DS/n+DR/n relatv grad d lbertà saranno (n-1)=1+(n-). Quest valor s ottengono rspettando, appunto, la relazone d scomposzone sopradescrtta. DT/n =DS/n + DR/n (n-1)=1+(n-)=n-1 grad d lbertà DT/n - DS/n = DR/n (n-1)- 1=(n-) grad d lbertà Se valor d DT, DS e DR s rapportano con l numero d grad d lbertà, s ottene la meda de quadrat defnta dalle rspettve notazon MDT, MDS e MDR ovvero: MDT=DT/(n-1)= (y - y) /(n 1) MDS=DS/1= n =1 n (y ˆ =1 - -y) dove y rappresentano valor osservat, y quello medo e y quello stmato. MDR=DR/(n-)= eˆ /(n-) n =1 dove n = 1 ê può essere esplctata dalla notazone: (y -y) n ˆ =1 Dspense d econometra Pag. 41

Sulla base de concett espost l anals della varanza può essere rassunta nella seguente Tabella: Sorgente d varazone Somma de quadrat Grad d lbertà Meda de quadrat Test F (o d Fsher) Regressone DS (Devanza spegata) 1 MDS=DS/1 F = MDS/MDR Resduo DR(Devanza resdua) n- MDR=DR/(n-) Totale DT(Devanza totale) n-1 MDT=DT/(n-1) Nell anals della varanza s prende n consderazone la statstca test F (o d Fsher) l cu valore esprme la msura per l accettazone (o non rfuto) o l rfuto (o non accettazone) dell potes nulla: H : b ˆ 0 = 0. Pù l valore della F è prossmo a 1 pù s tende ad accettare (o a non rfutare) l potes d nteresse H 0 mentre qualora la statstca test F fosse molto pù grande d 1, s tende a rfutare (o non accettare) l potes nulla H 0 ed accettare ( o non rfutare) l potes alternatva: H 1 : bˆ 0. Nel grafco seguente s può capre l sgnfcato del test F a fn della bontà d adattamento del modello d regressone lneare semplce. Se la dstanza tra l valore osservato y e quello stmato ŷ (y - ŷ ) fosse uguale alla dstanza fra l valore stmato e quello medo y ( ŷ - y ), l test F sarebbe par a 1, Dspense d econometra Pag. 4

descrvendo l mglor adattamento possble del modello a dat. Nel grafco, nvece, la dstanza tra l punto osservato y e quello stmato ŷ è molto pù grande d quella tra l punto stmato e quello medo per cu l test F assume valor molto maggor che tendono appunto a rfutare l potes nulla. Inferenza per la varable dpendente meda e per la prevsone Precedentemente sono stat studat gl ntervall d confdenza per coeffcent d regressone o (regressor) â e bˆ del modello. Ora s analzzano a lvello nferenzale prevsvo gl ntervall d confdenza per l valore atteso della varable dpendente meda ad un lvello d confdenza o fduca par a (1-α). Se s ntroduce l potes 7) d normaltà degl error, s può affermare che lo stmatore della varable casuale rsposta ŷ s dstrbusce come una Normale l cu scarto standardzzo assume la notazone: yˆ -E(yˆ x) s(yˆ ) che s dstrbusce come una t d Student con n- grad d lbertà. L ntervallo d confdenza per l valore atteso della ŷ ad un lvello d confdenza o fduca (1-α) è dato dalla seguente notazone: yˆ ± t s(y ˆ ) α/ E mportante, ora, svolgere lo studo del modello d regressone a fn della prevsone sa del valore medo della Y ovvero, E( yˆ x), sa d un sngolo valore della varable dpendente y. Nel prmo caso occorre stmare l parametro rappresentato dal valore atteso della y ovvero E( yˆ x), corrspondente alla relazone lneare della ˆ retta d regressone stmata aˆ +bx che presenterà un certo errore standard; nel secondo caso bsogna valutare sngol valor d y che presenteranno, nvece, un errore standard maggore d quello dello stmatore del valore atteso stesso E( yˆ x) Gl scart (o resdu) eˆ = y - yˆ rappresentano le realzzazon della v.c. y - Ŷ che s defnscono error d prevsone. L ntervallo d confdenza per la prevsone d un sngolo valore Y a un lvello d confdenza o fduca 1-α è espresso dalla seguente notazone: yˆ ± t α/ s(y - y ˆ ) Anals de resdu Nelle anals precedent s è posto l accento sull mportanza della corretta e rgorosa specfcazone del modello d regressone nonché sul fatto che le potes d base del modello stesso sano soddsfatte. A queste condzon gl stmator, ottenut con l Dspense d econometra Pag. 43

Standardzed resduals 0.0 0.5 1.0 1.5 Standardzed resduals -3 - -1 0 1 Resduals -000-1000 0 500 1500 Standardzed resduals - -1 0 1 res$std.res -1.5-1.0-0.5 0.0 0.5 1.0 1.5.0 metodo de mnm quadrat, possono essere utlzzat per stmare parametr d nteresse che mostrano evdenza statstca su quell ncognt della popolazone. Qualora una o pù potes d base non sa soddsfatta, l modello non è ben specfcato e l suo utlzzo presenta alcun lmt. Esste una tecnca metodologca che permette d analzzare le cause d una bad specfcaton detta anals de resdu. In partcolare s studa l anals grafca de resdu. Il Grafco seguente ottenuto con R ne rappresenta un esempo. 30 40 50 60 Grafco de resdu dove s può osservare, anche solo vsvamente, che resdu s dspongono ntorno allo zero con valor postv e negatv e che nel complesso s eldono, assegnando al modello stmato un buon grado d adattamento. I grafc seguent autano a capre se l potes d normaltà de resdu è rspettata. x lm(v1 ~.) Resduals vs Ftted Normal Q-Q 15 0 15 0 14 14 1500 500 3500 4500 Ftted values Scale-Locaton 14 - -1 0 1 Theoretcal Quantles Resduals vs Leverage 15 0 15 11 14 Cook's dstance 0.5 1500 500 3500 4500 0.00 0.04 0.08 0.1 Ftted values Leverage Ipotes d base del Modello d Regressone lneare semplce (MRLS) Dspense d econometra Pag. 44

S rcorda che le potes d base sugl error o resdu sono quelle d: normaltà, lneartà, omoschedastctà o varanza costante, ndpendenza. Vene svolta l anals de resdu attraverso lo studo del grafco che l rappresenta e delle osservazon anomale (dette outlers) delle qual è necessaro analzzare attentamente l peso e l ncdenza sul modello. Normaltà degl error. Come detto precedentemente, s assume che le v.c. ε s dstrbuscano normalmente ε ~N(0, ϭ ) per =1,, 3, n Nel modello specfcato le osservazon y sono realzzazon d v.c. Normal y per grand campon con valore medo o atteso E( yˆ ) = a ˆ + bˆ x e varanza ϭ, la cu notazone n smbol è rappresentata da: y ~N [( aˆ + bx ˆ ); ϭ ] L assunzone dell potes d Normaltà degl error s regge sul fatto che, come detto n precedenza, l modello tenta d stmare la varable rsposta per ogn valore della varable esplcatva, ma quest ultma può essere nfluenzata nell anals de fenomen economc e socal da nnumerevol altr fattor. Per effetto del Teorema del lmte centrale, la dstrbuzone del termne d errore tenderà ad una Normale all aumentare della numerostà camponara. L potes d normaltà cu deve sottostare l modello, mplca altre mportant consderazon sugl stmator de regressor. Per verfcare tale potes s usa la metodologa de resdu standardzzat che prende n consderazone l rapporto tra resdu e l errore standard della regressone dato da: eˆ std Se la Y s dstrbusce normalmente con varanza costante eˆ s σ e meda a ˆ + bx ˆ, resdu standardzzat tenderanno a dstrburs secondo una Normale standardzzata N~ (0,1) al crescere della numerostà camponara n. S costrusce l stogramma de resdu standardzzat e s verfca se l dagramma presenta una forma vcna a quella della Normale. Per pccol campon resdu standardzzat s dstrbuscono secondo una t d Student con n- grad d lbertà. Quattro grafc autano a capre se l modello sottostà all potes d normaltà: quello d regressone, l stogramma de resdu standardzzat, l grafco d dspersone de resdu standardzzat ed nfne un grafco P-P (Normal Probablty Plot). Quest ultmo mette a confronto le proporzon cumulate per la v.c. errore standardzzato con l suo valore medo o atteso nel caso d un campone dstrbuto normalmente. Lneartà La prma potes che s analzza è quella d lneartà. Dspense d econometra Pag. 45

Per verfcare se la relazone funzonale fra la varable dpendente e quella esplcatva è lneare s può, n prma approssmazone, osservare l grafco a dspersone e verfcare se punt osservat s dspongono o meno lungo una traettora pù o meno lneare. Oppure s può studare l grafco de resdu che offre la msura della varabltà de dat osservat rspetto ad un valore 0. La dstrbuzone de valor al d sopra o al d sotto del valore zero, come vsto nel Grafco.7.1, mostra quanto l modello sottostà a tale potes. E mportante svolgere una consderazone ulterore all adattamento del modello lneare. Se s rlevasse un valore del rapporto d determnazone molto basso, cò non sgnfca che n assoluto non esste una correlazone tra le due varabl osservate. S può affermare soltanto che l modello d regressone non evdenza un legame lneare, senza escludere che potrebbe esserc, nvece, un legame non lneare tra le due varabl. Omoschedastctà (o d varanza costante) Se la varanza delle Y è costante, l anals del grafco de resdu mostra una dstrbuzone regolare de valor ntorno, sopra e sotto lo zero ovvero all aumentare de valor della Y dspost sull asse delle ascsse, la dstanza de valor sotto lo zero eguagla la dstanza d quell sopra lo zero e vceversa. Nel caso d varanza non costante (eteroschedastctà), nvece, la dstanza de resdu postv o negatv rspetto allo zero aumenta all aumentare de valor della Y e coè s può osservare una dstrbuzone de resdu ntorno allo zero detta ad mbuto. La presenza d eteroschedastctà nella relazone funzonale lneare fra due varabl (dpendente ed esplcatva) Y e X comporta che gl stmator de regressor ottenut con l metodo de mnm quadrat ordnar, pur rmanendo corrett (o non dstort), non sono pù effcent ovvero non hanno la pù bassa varanza e qund l loro uso può determnare rsultat errat che nducono, soprattutto per quanto rguarda le procedure nferenzal prevsve, ad error. In questa stuazone s devono utlzzare metodologe e tecnche dverse n quanto non valgono pù calcol per la varanza e lo standard error degl stmator come pure non valgono pù gl ntervall d confdenza su regressor trovat con l Metodo de mnm quadrat (MMQ) e la relatva verfca d potes. S deve usare, qund, un metodo dverso da quello de Mnm Quadrat Ordnar ed applcare quello de Mnm Quadrat Ponderat che prende n consderazone le osservazon con mnore varanza assegnandogl nell anals nferenzale una maggore mportanza. Indpendenza degl error Una consderazone partcolare va fatta sull anals della varanza d una relazone funzonale lneare fra due varabl (dpendente ed esplcatva) Y e X rspetto al momento n cu le osservazon vengono rlevate. In questo caso entra n goco l concetto d asse de temp ovvero dello svluppo temporale dell anals de resdu. Dspense d econometra Pag. 46

S può dre genercamente che gl error (resdu) ε non sono ndpendent se la loro dstrbuzone assume uno svluppo ntorno allo zero ovvero, se nell stante 0 l errore (resduo) ε0 assume un valore postvo, molto probablmente nell stante 1 l errore ε1assumerà ugualmente un valore postvo. In questo caso s può affermare d essere n presenza d non ndpendenza o autocorrelazone postva, nel caso contraro s ha autocorrelazone negatva. In stuazone d autocorrelazone s verfcano gl stess nconvenent osservat per l eteroschedastctà (o varanza non costante) ovvero la relazone funzonale lneare fra due varabl (dpendente ed esplcatva) Y e X comporta che gl stmator de regressor, ottenut con l metodo de mnm quadrat ordnar, pur rmanendo corrett (o non dstort), non sono pù effcent ovvero non hanno la pù bassa varanza e qund l loro uso può determnare rsultat errat che nducono, soprattutto per quanto rguarda le procedure nferenzal prevsve, ad error. Anche n questo caso per calcolare gl stmator s devono utlzzare metodologe e tecnche dverse n quanto non valgono pù calcol per la varanza e lo standard error degl stmator come pure non valgono pù gl ntervall d confdenza trovat con l MMQO (Metodo de Mnm Quadrat Ordnar) e la relatva verfca d potes. Valor anomal e metod d ndvduazone Nell anals delle osservazon della relazone lneare fra la vable dpendente e la varable esplcatva Y e X s osservano n realzzazon x e y; tra esse s può verfcare che alcune sono del tutto dverse e s dspongono sul pano cartesano n modo anomalo ovvero molto dstant dal trend relatvo alla maggor parte delle osservazon. In questo caso samo n presenza d valor anomal (o outlers) che evdenzano una relazone dversa tra la varable dpendente (o rsposta) e quella ndpendente o esplcatva. L anals del modello d regressone è condzonato da quest valor che nducono ad una stma de coeffcent d regressone (o regressor) ovvamente errata con conseguenze sa d natura nferenzale descrttva che prevsva. Infatt l valore d ntercetta, se presente nella relazone, e quello del coeffcente della retta de mnm quadrat stmata saranno condzonat da queste realzzazon anomale. S procede, anche n questo caso, all anals del grafco de resdu standardzzat e del grafco d normaltà P-P (Normal Probablty Plot) attraverso qual s ndvduano valor anomal che nducono alla conclusone che l modello d regressone lneare rappresenta n modo non corretto la relazone funzonale tra la Y e la X. Svolta l anals nferenzale che deve cercare d comprendere le ragon dell anomala, s escludono valor anomal supponendo che tal osservazon non ncdono sulla bontà dell adattamento de valor stmat rspetto a quell osservat. Dspense d econometra Pag. 47

Consderazon fnal S voglono svolgere alcune consderazon sul modello d regressone lneare n quanto la sua valdtà dpende da una sere d fattor che devono essere sempre tenut present per non ncorrere n valutazon errate. E mportante essere caut quando s vuole utlzzare l modello al d fuor del range de valor osservat, come pure è mportante che la stma dell ntercetta per X=0 sa fatta solo se è stato osservato un numero elevato d valor della X ntorno allo 0. Un altra cautela è rappresentata dalla generalzzazone de rsultat che l modello d regressone lneare resttusce; essa è possble solo se la relazone funzonale tra la Y e la X rmane la stessa d quella de dat osservat. Nell ntrodurre questo argomento s è fatta menzone al concetto d causa-effetto tra la Y e la X. E opportuno tenere sempre presente che tale concetto non vale n assoluto nel modello regressvo, nfatt non è detto che, se camba una varable, necessaramente var anche l altra a causa d un legame dretto tra le due. Sulla base delle consderazon svolte sopra s voglono enfatzzare due concett gà rchamat: l prmo rguarda la cautela con cu debbono essere pres rsultat del modello e l secondo attene al fatto che s deve ndagare a fondo sulla relazone tra le due varabl senza lmtars al solo studo d quella lneare. Può esstere, anche, l problema dell omssone d altre varabl che possono nfluenzare la relazone tra la X e la Y. Questo sarà l problema che verrà esamnato successvamente dove vene studato, anche se n sntes, l modello d regressone multpla. LABORATORIO STUDIO GUIDATO Nel Laboratoro Studo gudato vengono rportat gl scrpt per svolgere le stesse applcazon svolte manualmente relatv alla parte teorca trattata. ESERCITAZIONE EMPIRICA 4. (SUL MODELLO DI REGRESSIONE LINEARE SEMPLICE CON SOLUZIONE MANUALE) L Ammnstratore Delegato della Alpha SpA vuole conoscere la relazone ntercorsa tra rcav e l numero de dpendent nel perodo 006-010. Egl Dspense d econometra Pag. 48

ncarca l Dott. Ross d svolgere un anals approprata da cu emerge che le coppe d dat osservat tra la varable dpendente (Y) Rcav d vendta (KEuro) e la varable ndpendente (X) (Numero d addett) sono: (0-4;50-10;55-11;365-14;485-18;59-5). Il Dott. Ross ha l compto d stmare parametr (regressor) della retta d regressone semplce ovvero l ntercetta â e l coeffcente angolare bˆ PASSO PRIMO Per prma cosa egl rchama un concetto molto mportante ed utle a fn della comprensone de contenut della regressone lneare semplce ovvero quello dello spostamento del barcentro degl ass cartesan sulle mede delle due varabl Rappresentazone grafca de regressor (Y) Numero dpendent Valore stmato Y Valore osservato Y=5 centrode o barcentro retta stmata M(Y)=13,67 Valore medo Y y o coeffcente angolare (b) stesso coeffcente angolare M(X)= 34,5 Intercetta (a) 0 50 55 365 485 59 (X) Rcav d vendta PASSO SECONDO Il Grafco evdenza charamente che le mede della X (0+50+55+365+485+59)/6=34,5 e della Y è (4+10+11+14+18+5)/6=13,6666 costtuscono una coppa d punt sugl ass cartesan che gaccono sulla retta d regressone e traslano n avant l barcentro o centrode della stessa senza modfcare la relazone tra le due varabl PASSO TERZO Egl rtene che è partcolarmente mportante rappresentare grafcamente le dstanze proettate ortogonalmente sull asse delle ordnate per un dato valore d x e, precsamente, la dstanza tra l valore osservato ed l valore medo (devanza totale DT), la dstanza fra l valore osservato e quello stmato (devanza resdua DR) e quella tra l valore stmato e quello medo (devanza spegata DS). Nel Grafco seguente s evdenzano appunto le dfferenze fra valor osservat, med e stmat. Dspense d econometra Pag. 49

PASSO QUARTO Dal Grafco evnce charamente che le dstanze dal valore osservato al valore medo possono essere scomposte n due part: la prma data dalla dfferenza tra l valore osservato e quello stmato, detta anche resduo, la seconda dalla dfferenza del valore stmato e quello medo, detta anche spegata che può essere espressa dalla seguente notazone: (y - y )=( y - ŷ )+( ŷ - y ) PASSO QUINTO Costrusce la Tabella seguente propedeutca attraverso la quale rappresenta calcol della covaranza Cov(X,Y) e della varanza della X (varable ndpendente o esplcatva) x y (x-xmeda) (y-ymeda) (x-xmeda)*(y-ymeda) (x-xmeda) 0 4 0-34,5= -34,5 4-13,67= -9,67 3137,915 105300,5 50 10 50-34,5= -74,5 10-13,67=-3,67 73,415 5550,5 55 11 55-34,5= -69,5 11-13,67=-,67 185,565 4830,5 365 14 365-34,5= 40,5 14-13,67= 0,33 13,365 1640,5 485 18 485-34,5= 160,5 18-13,67= 4,33 694,965 5760,5 59 5 59-34,5= 67,5 5-13,67=11,33 3030,775 71556,5 7336,000 14637,50 Fonte: Dat smulat PASSO SESTO Calcola valor del coeffcente angolare bˆ dato da: Dspense d econometra Pag. 50

Spese totale mensle 350 400 450 500 550 600 bˆ = Cov (x,y)/ Var(x)=7336/14637,5 =0,03417 e l ntercetta: aˆ = y - bx ˆ Sosttuendo avrà: a= ymeda b*xmeda = 13,6666 0,03417*34,5 =13,67-11,0881 =,5785 L equazone della retta stmata è data dalla seguente notazone: yˆ = a ˆ + bx ˆ =,5785 + 0,03417 x PASSO SETTIMO Egl rappresenta, con l auslo d R, l Grafco a dspersone relatvo a dat osservat con sovrapposta la retta stmata. Grafco retta stmata 700 800 900 1000 Spesa per consum almentar mensle ESERCITAZIONE EMPIRICA 5. SULL INFERENZA DEL MODELLO DI REGRESSIONE LINEARE SEMPLICE CON SOLUZIONE MANUALE Il Responsable d Marketng della Beta SpA vuole elaborare l modello d regressone lneare semplce tra la varable spesa totale mensle e spesa per consum almentar mensle n un campone d 7 famgle e successvamente ntende svolgere un anals nferenzale calcolando l ntervallo d confdenza per regressor e la verfca d potes sugl stess ad un lvello d sgnfcatvtà del 5%. PASSO PRIMO. Egl predspone la Tabella de dat seguente ottenut da una rlevazone camponara su sette famgle: y 315,44 687,34 x Dspense d econometra Pag. 51

38,1 70,89 404,1 785,89 455,98 867,1 497,13 899,76 51,67 945,78 634,78 1067,34 Fonte: Dat smulat PASSO SECONDO. Predspone la seguente Tabella propedeutca per l calcolo del coeffcente angolare bˆ e l ntercetta â: x y (x-xmeda) (y-ymeda) (x-xmeda)*(y-ymeda) (x-xmeda) 687,34 315,44-163,5343 4-13,67= -9,67 3437,9674 6743,466 70,89 38,1-147,9843 10-13,67=-3,67 11341,771 1899,3488 785,89 404,1-64,9843 11-13,67=-,67 3544,9856 4,9574 867,1 455,98 16,457 14-13,67= 0,33-45,1863 63,93 899,76 497,13 48,8857 18-13,67= 4,33 1875,6750 389,8131 945,78 51,67 94,9057 5-13,67=11,33 5970,389 9007,0946 1067,34 634,78 16,4657 38101,9858 46857,4055 Totale 847,5376 111384,005 Meda(x) 850,8743 Meda(y) 458,7614 e l calcola applcando le formule normal espresse dalle seguent notazon: aˆ = y -bx 458,7614-0,756191*850,8743-184,661 b ˆ σ = σ XY X n =1 (x - x)(y n =1 (x - x) - y) 847,5376 111384,005 0,756191 PASSO TERZO. Egl presenta l output d replogo della Regressone nella Tabella seguente ottenuto con l software R che conferma rsultat ottenut con svolgmento manuale relatv a valor de regressor stmat. Call: lm(formula = y ~ x) Resduals: 1 3 4 5 6 7-19.658 35.63-5.411-15.066 1.40-8.858 1.39 Coeffcents: Estmate Std. Error t value Pr(> t ) (Intercept) -184.66171 53.05399-3.481 0.0176 * x 0.75619 0.06168 1.60 6.39e-05 *** Dspense d econometra Pag. 5

--- Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Resdual standard error: 0.58 on 5 degrees of freedom Multple R-squared: 0.9678, Adjusted R-squared: 0.9614 F-statstc: 150.3 on 1 and 5 DF, p-value: 6.388e-05 PASSO QUARTO. Il calcolo del coeffcente angolare può essere svolto utlzzando la formula operatva seguente σ b ˆ = XY σ X oppure n n n n x =1 y - x y =1 - =1 b ˆ = n n n x - ( x ) =1 =1 = 7 * 816665.57 7 * 51799,68-5956,1-311,33 = 0,75966 - (311,33) e qund s calcola l ntercetta: a ˆ = Y -bx ˆ = 458,76-0,7596630 x 850,87= -187,61 S può notare che rsultat presentano qualche dfferenza, sebbene leve, rspetto al calcolo precedente da cu s desume che l algortmo sottostante al software R rprende la formula normale. PASSO QUINTO. A questo punto mposta la Tabella propedeutca per calcolare l errore standard della regressone, dell ntercetta e del coeffcente angolare nonché l ANOVA e la statstca-test F d Fsher con l relatv p-value: Realzzazon della y Realzzazon della x Devanza delle x Valor y stmat Valor y meda y x x (x - x) yˆ = a ˆ + bx ˆ -184,66 + 0.756191* x y 315,44 687,34 687,34 = 47436,756 (687,34-850, 8743) -184,66+0.756191*687,34=335,0983 458,7614 38,1 70,89 70,89 = 494054,351 (70,89-850, 8743) -184,66+0.756191*70,89=346,8571 458,7614 404,1 785,89 455,98 867,1 497,13 899,76 51,67 945,78 634,78 1067,34 785,89 = 61763,091 867,1 = 751897,0944 899,76 = 809568,0576 945,78 = 894499,8084 1067,34 = 113914,676 (785,89-850, 8743) -184,66+0.756191*785,89=409,609 458,7614 (867,1-850, 8743) -184,66+0.756191*867,1=471,0463 458,7614 (899,76-850, 8743) -184,66+0.756191*899,76=495,783 458,7614 (945,78-850, 8743) -184,66+0.756191*945,78=530,58 458,7614 (1067,34-850, 8743) -184,66+0.756191*1067,34=6,4508 458,7614 311,33 5956,1 51799,68 111384,005 Meda (y)= 458,7614 Dspense d econometra Pag. 53

Meda (x)= 850,8743 Devanza totale delle y Devanza resdua Devanza spegata - y ) - y ) (y (y - y) ˆ ( yˆ (315,44-458,7614) =0541,037 (315,44-335,0983) =386,4488 (335,0983-458,7614) =159,563 (38,1-458,7614) =5873,904 (38,1-346,8571) =143,471 (346,8571-458,7614) =15,574 (404,1-458,7614) =975,855 (404,1-409,609) =9,778 (409,609-458,7614) =414,7887 (455,98-458,7614) =7,736 (455,98-471,0463) =6,9934 (471,0463-458,7614) =150,9188 (497,13-458,7614) =147,1495 (497,13-495,783) =1,9648 (495,783-458,7614) =1366,5517 (51,67-458,7614) =3957,4919 (51,67-530,58) =78,4677 (530,58-458,7614) =5150,4736 (634,78-458,7614) =3098,5476 (634,78-6,4508) =15,009 (6,4508-458,7614) =6794,197 65810,7083 118,6338 6369,087 PASSO SESTO. Dalla Tabella emerge che la DT=DS+DR=> 65811=119+6369 (valor arrotondat) e qund è verfcata la teora. Inoltre che MDS=DS/1=6369/1=6369; MDR= DR/5=119/5=44. La statstca-test F d Fsher è data da MDS/MDR=6369/44=150,31. La probabltà della F emprca rsulta par a 0,00006388 (6.388e-05) PASSO SETTIMO. S può constatare che rsultat relatv all anals della varanza (ANOVA) ottenut manualmente concdono perfettamente con quell che l software R c resttusce come s potrà vedere nel Laboratoro con software R. Analyss of Varance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x 1 6369 6369 150.31 6.388e-05 *** Resduals 5 119 44 Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 PASSO OTTAVO. Ora calcola l error standard degl error della regressone: errorstandard(mse) = 1 n - n (y =1 - yˆ ) = 1 * 7-118,6338 = 0,5846 Dspense d econometra Pag. 54

e successvamente l error standard dell ntercetta â come segue: errorstandarddell'ntercetta= errorstd(regr)* n x =1 ( ) 1 + n 7 (x - x) = 0,59* 5956,1 ( ) 1 + 7 7 111384,005 = 0,5846* e del coeffcente angolare bˆ come segue: 1 + 7 (850,8743) 111384,005 = 53,0539 err std del coeff. angolare= error std(regr)/ 0,5846 111384,005 0,5846 = = 333,744 (x 0,06168 - x) PASSO NONO. Il Responsable può calcolare, ora, l ntervallo d confdenza per due regressor ad un lvello d sgnfcatvtà α=0,05. Egl sa che la v.c. error standard s dstrbusce come una t d Student con n- grad d lbertà (7-=5) e pertanto l t-crtco, rsultante dalle Tavole, è par a,571 n quanto la dstrbuzone e l relatvo test è blatero con α/=0,05. Per l ntercetta â s avrà: -184,66-(,57058*53,0539) a -184,66+ (,57058*53,0539) sosttuendo s avrà: IC => [-31,041 ; -48,8] Per l coeffcente d correlazone o angolare bˆ s avrà: 0,75619-(,57058*0,06168) b 0,75619+ (,57058*0,06168) sosttuendo s avrà: IC =>[0,5976 ; 0,9147] PASSO DECIMO. Rsultano confermat rsultat che l software resttusce con quell calcolat manualmente..5 % 97.5 % (Intercept) -31.0413-48.810 x 0.59764 0.91474 Dspense d econometra Pag. 55

PASSO UNDICESIMO. Egl vuole, nfne, svolgere un anals sulla verfca d potes su regressor stmat â e bˆ del modello d regressone. Specfca l sstema d potes per entramb regressor come segue: :b ˆ = 0 vs H :b ˆ 0 : a ˆ = 0 vs H :aˆ 0 H0 1 H0 1 La statstca-test per l coeffcente angolare è data dalla notazone seguente: 0,75619-0 t 1,6 0,06168 La statstca-test per l ntercetta è data dalla notazone seguente: - 184,661-0 t -3,481 53,0539 I valor delle statstche-test t d Student per due regressor ottenut manualmente confermano quell che l software R c resttusce. Entrambe s dstrbuscono, sotto l potes nulla, come una t d Student con n- grad d lbertà e qund dalle Tavole oppure utlzzando l codce d R s evnce che la probabltà della t emprca per un lvello d sgnfcatvtà d 0,05 è par a 0,00006388 per l coeffcente angolare e 0,0176 per l ntercetta. PASSO DODICESIMO. S vuole ora ndvduare l sgnfcato de valor rportat nell output d R. E opportuno premettere che grad d lbertà sono 1, 5 e 6; poché regressor sono due s avrà k-1= (-1)=1 per la regressone; poché le osservazon sono 7 e regressor s avrà N-k=7-=5 per l resduo; per l totale N-1=(7-1)=6 che è anche uguale alla somma de grad d lbertà per la regressone e per l resduo 1+5=6. In alto (Call) vene rportato l codce R per una Regressone lneare semplce d y su x. Sotto (Resduals) s trovano valor de Resdu. Sotto ancora s trova la tabella de Coeffcent (Coeffcents) con valor stmat de parametr della Regressone (Intercetta e coeffcente angolare) seguto da quell de rspettv error standard (Std.Error), della statstca-test t d Student (t value) e dal p- value(pr(> t ). Sotto ancora s trovano gl astersch che ndcano l lvello d sgnfcatvtà (Sgnf. Codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1) n ordne allo 0%, 1%, 5%, 10% e 100%. Sotto ancora s trova l valore dello standard error de resdu con relatve grad d lbertà (Resdual standard error: 0.58 on 5 degrees of freedom), valor del coeffcente d determnazone semplce e aggustato (Multple R-squared: 0.9678, Adjusted R-squared: 0.9614) ed nfne nell ultma rga s trova l valore della statstca-test F d Fsher con relatv grad d lbertà al numeratore e al denomnatore con la relatva probabltà (F-statstc: 150.3 on 1 and 5 DF, p- value: 6.388e-05) Dspense d econometra Pag. 56

Nel nostro esempo, posto α=0.01, s rfuta H0 e s conclude che 10 mgla orare n pù d veloctà determnano n meda un aumento (poché l segno del valore stmato d Beta è postvo). Nel Grafco seguente vene mostrata la dstrbuzone t d Student per un test blatero al lvello d confdenza del 95% con 5 grad d lbertà rferto a dat della Regressone sopra utlzzat per dmostrare che s può assumere la relatva regola d decsone avendo contezza del valore della t emprca che cade nella regone d rfuto per entramb regressor. Dal Grafco emerge charamente che valor della t emprca s collocano per entramb regressor nelle regon d rfuto. Allo stesso rsultato s pervene utlzzando la tecnca del p-value. Stablto a pror dal rcercatore un lvello d sgnfcatvtà del 5% e fssato l sstema d potes per parametr della regressone :b ˆ = 0 vs H :b ˆ 0 : a ˆ = 0 vs H :aˆ 0 H0 1 H0 1 s mette a confronto l lvello d sgnfcatvtà α/ (par a 0,05/=0,05 n quanto l test è blatero o a due code) con l valore del p-value (Pr(> t ) che rsulta essere 0.0176 per l ntercetta e 6.39e-05 per l coeffcente angolare. S può notare che entramb sono mnor d 0,05 e qund s rfuta l potes nulla affermando che esste una relazone lneare tra la spesa totale mensle e la spesa per consum almentar mensle. Dspense d econometra Pag. 57

La sgnfcatvtà statstca del Modello è provata dalla statstca-test F d Fsher. Stablto a pror un lvello d sgnfcatvtà alfa al 5% s prendono n consderazone la F emprca, par n questo caso a 150.3 con 1 and 5 g.d.l. rspettvamente al numeratore e al denomnatore e la F crtca che per alfa=o.o5 è par a,45. S conclude pertanto che l Modello spega bene dat da un punto d vsta statstco. LABORATORIO CON SOFTWARE R Nel Laboratoro con l software R vengono rportat gl scrpt per svolgere le stesse applcazon svolte manualmente relatv alla parte teorca trattata. ESERCITAZIONE EMPIRICA CON R L Applcazone svolta manualmente nel laboratoro studo gudato è rpresa ntegralmente nel laboratoro con l software R. D seguto s rporta l relatvo codce: lbrary(labstatr) y<-c(315.44, 38.1, 404.1, 455.98, 497.13, 51.67, 634.78) # Dat d nput della varable Spesa per consum almentar mensle x<-c(687.34, 70.89, 785.89, 867.1, 899.76, 945.78, 1067.34) # Dat d nput della varable Spese totale mensle n <- 7 # Numero osservazon modello <- lm(formula = y ~ x) summary(modello) #Resttusce l'output della Regressone par(bg="cornslk") plot(x,y,xlab="spesa per consum almentar mensle ", ylab=" Spese totale mensle ",man="grafco retta stmata") ablne(modello,col="red") #Grafco a dspersone con la sovrapposzone della retta stmata# round(confnt(object = modello, parm = c(1, ), level = 0.95), dgts = 5) # Intervallo d confdenza per regressor al lvello d sgnfcatvtà del 5% per un test blatero round(confnt(object = modello, parm = c(1, ), level = 0.99), dgts = 5) # Intervallo d confdenza per regressor al lvello d sgnfcatvtà del 1% per un test blatero anova(object = modello) # Resttusce valor della devanza spegata, resdua, grad d lbertà e la statstca F con l relatvo p-value qqnorm (resduals(modello),man="normaltà degl error", ylab="resdu", xlab="quantl") qqlne (resduals(modello),col="red") # Resttusce l grafco de resdu con sovrapposta la retta stmata p<-1-pt(q=1.60,df=5);p p* # Valore della probabltà della t emprca per l'ntercetta p<-pt(q=-3.481,df=5);p p* # Valore della probabltà della t emprca per l coeffcente angolare qt(p=0.01763981/,5) # Valore del quantle emprco della statstca-test t d Student per l ntercetta qt(p=6.3885e-05/,5) # Valore del quantle emprco della statstca-test t d Student per l coeffcente angolare qt(p=0.05,5) # Valore del quantle crtco della statstca-test t d Student curve(dt(x, 5), -4, 4, ylab="denstà") # Grafco della funzone d denstà della t d Student per 5 grad d lbertà 1-pf(150.3, 1, 5) # Valore della probabltà della F emprca Dspense d econometra Pag. 58

Spese totale mensle 350 400 450 500 550 600 qf(1-6.39e-05,1, 5) qf(1-0.05,1, 5) curve(df(x, 1, 5),0,155) numeratore e 5 grad d lbertà al denomnatore # Valore del quantle emprco della F d Fsher # Valore del quantle crtco della F d Fsher # Grafco della funzone d denstà della F d Fsher per 1 grado d lbertà al S rportano d seguto una sere d output parzal d R suddvs n var Pass, PASSO PRIMO. S mandano n esecuzone le prme se rghe d codce e s ottene l output della regressone: Call: lm(formula = y ~ x) Resduals: 1 3 4 5 6 7-19.658 35.63-5.411-15.066 1.40-8.858 1.39 Coeffcents: Estmate Std. Error t value Pr(> t ) (Intercept) -184.66171 53.05399-3.481 0.0176 * x 0.75619 0.06168 1.60 6.39e-05 *** --- Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Resdual standard error: 0.58 on 5 degrees of freedom Multple R-squared: 0.9678, Adjusted R-squared: 0.9614 F-statstc: 150.3 on 1 and 5 DF, p-value: 6.388e-05 PASSO SECONDO. S mandano n esecuzone le rghe d codce dalla 7 alla 10 e s ottene l grafco a dspersone con sovrapposta la retta stmata: Grafco retta stmata 700 800 900 1000 PASSO TERZO. S mandano n esecuzone le rghe d codce dalla 11 alla 1 e s ottengono gl ntervall d confdenza per regressor al lvello d sgnfcatvtà rspettvamente del 5% e dell 1%:.5 % 97.5 % (Intercept) -31.0413-48.810 x 0.59764 0.91474 0.5 % 99.5 % (Intercept) -398.5830 9.5955 x 0.5075 1.00489 Spesa per consum almentar mensle Dspense d econometra Pag. 59

Resdu -0-10 0 10 0 30 PASSO QUARTO. S manda n esecuzone la rga d codce 13 e s ottene l Anals della Varanza (ANOVA) Analyss of Varance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x 1 6369 6369 150.31 6.388e-05 *** Resduals 5 119 44 --- Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 PASSO QUINTO. S mandano n esecuzone le rghe d codce dalla 14 alla 15 e s ottene l grafco de resdu con sovrapposta la retta stmata: Normaltà degl error -1.0-0.5 0.0 0.5 1.0 Quantl PASSO SESTO. S spegano rsultat dell output della regressone nzando da valore del t value (ovvero la statstca-test t d Student con n- grad d lbertà) per l ntercetta che s ottene: -184,66171/53,05399=-3,481 (ovvero l rapporto fra l valore stmato dell ntercetta e l suo error standard); lo stesso dcas per l coeffcente angolare che s ottene: 0,75619/0,06168=1,60 (ovvero l rapporto fra l valore stmato del coeffcente angolare e l suo error standard). Per quanto rguarda l valore del P(< t ) ovvero la probabltà della t emprca s calcola la probabltà mandando n esecuzone le rghe dalla 16 alla 19 ottenendo relatv valor. [1] 6.3885e-05 > p<-pt(q=-3.481,df=5);p [1] 0.008819907 > p* [1] 0.01763981 PASSO SETTIMO. S può effettuare l operazone nversa ovvero dalla probabltà al quantle. In questo caso occorre fare attenzone. Il software R resttusce un valore d p-value complessvo delle due code della t d Studente (ad esempo per un test a due code al lvello d sgnfcatvtà del 5% 0,05*=0,05). Per calcolare l quantle occorre dvdere per due l valore della P(< t ) dell ntercetta e del coeffcente Dspense d econometra Pag. 60

Denstà 0.0 0.1 0. 0.3 angolare. Lo stesso dcas per l quantle della t d Student crtca. Mandando n esecuzone le lnee d codce dalla 0 alla s ottene: > qt(p=0.01763981/,5) [1] -3.481 > qt(p=6.3885e-05/,5) [1] -1.6 qt(p=0.05,5) [1] -.57058 PASSO OTTAVO. A questo punto s può rappresentare l grafco della v.c. t d Student con 5 grad d lbertà dove vengono ndvduat quantl e le regon d rfuto ed accettazone per un test blatero. S manda n esecuzone la lnea d codce 3 e s ottene: -4-0 4 x Rportando sull asse delle ascsse quantl crtc (-,57 a sx e +,57 a dx) automatcamente s ndvduano le regon d accettazone e d rfuto. Rportando quell emprc -3.481 e -1.6 s può sceglere la regola d decsone se accettare o meno l potes nulla n un sstema d potes per un test blatero (domno-.+ ). PASSO NONO. Per quanto rguarda valor del Resdual standard error: 0.58 on 5 degrees of freedom, del Multple R-squared: 0.9678, del Adjusted R-squared e della F-statstc s rmanda a calcol rportat nel Laboratoro studo gudato. PASSO DECIMO. Da ultmo s vuole spegare l valore del p-value della F-statstc (ovvero la probabltà della statstca test F d Fher emprca). Mandando n esecuzone le rga d codce 4 s ottene: > 1-pf(150.3, 1, 5) [1] 6.389035e-05 PASSO UNDICESIMO. S può effettuare l operazone nversa ovvero dalla probabltà al quantle sa per la F emprca che per la F crtca. S mandano n esecuzone le lnee d codce 5 e 6 e s ottene: qf(1-6.39e-05,1, 5) [1] 150.907 > qf(1-0.05,1, 5) Dspense d econometra Pag. 61

df(x, 1, 5) 0.00 0.0 0.04 0.06 0.08 0.10 0.1 0.14 [1] 6.607891 PASSO DODICESIMO. A questo punto s può rappresentare l grafco della v.c. F d Fsher con 1 e 5 grad d lbertà rspettvamente al numeratore e al denomnatore dove vengono ndvduat quantl e le regon d rfuto ed accettazone per un test unlatero dx. S manda n esecuzone la lnea d codce 7 e s ottene: 0 50 100 150 x Rportando sull asse delle ascsse l quantle crtco 0 6.607891 automatcamente s ndvduano le regon d accettazone e d rfuto. Rportando quello emprco 150.907s può sceglere la regola d decsone se accettare o meno l potes nulla n un sstema d potes per un test unlatero dx (domno o, + ). Modello d Regressone lneare multpla o a pù regressor. Nella specfcazone del Modello la prma assunzone che può venr meno è quella relatva alle eventual varabl omesse o ntroduzone d nuove varabl esplcatve funzonal alla spegazone della varable dpendente. A tale scopo s studa l Modello d Regressone multpla (o con pù regressor) che tene conto d pù varabl esplcatve. La notazone generalzzata che lo esplcta è la seguente: dove Y = 0 + 1 X 1 + X +... k X k + 0 = ntercetta 1 = coeff. ang (o pendenza) d Y rspetto alla varable X1 tenendo costant le varabl X,. X k = coeff. ang (o pendenza) d Y rspetto alla varable X tenendo costant le varabl X1,..., X k Dspense d econometra Pag. 6

k = coeff. ang (o pendenza) d Y rspetto alla varable X k tenendo costant le varabl X1, X,,.. X k-1. = vettore degl error Y = vettore de valor osservat S osservno 6 realzzazon (=1 a 6) e s assuma che l Modello abba due varabl esplcatve; l equazone del Modello può essere scrtta come segue: Y 1 = 0 + 1 X 11 + X 1 + 1 Y = 0 + 1 X 1 + X + Y 3 = 0 + 1 X 13 + X 3 + 3 Y 4 = 0 + 1 X 14 + X 4 + 4 Y 5 = 0 + 1 X 15 + X 5 + 5 Y 6 = 0 + 1 X 16 + X 6 + 6 In forma matrcale o vettorale o compatta l espressone dventa: Y= X+ dove Y è l vettore delle osservazon della varable dpendente; e sono rspettvamente vettor de parametr e degl error della regressone relatv alla popolazone e X la matrce delle osservazon delle varabl ndpendent. I coeffcent d regressone camponar (b 0,b 1 e b )vengono usat come stmator de corrspondent parametr della popolazone ( 0, 1 e ). L espressone camponara dell equazone d un modello d regressone multpla con due varabl esplcatve ha la forma seguente. Y=b 0 + b 1 X 1 + b X + L equvalente notazone s può esprmere n forma matrcale (o compatta) come segue: Y=bX+ Soprassedendo alla dmostrazone matematca l vettore de parametr del Modello è dato dalla seguente notazone: bˆ =(X' 1 X) X' y dove la matrce X ha dmenson (6x3); la prma colonna sarà formata da tutt 1 necessara per l calcolo dell ordnata all orgne (ntercetta); X la matrce trasposta (3x6); y è l vettore de valor osservat della varable dpendente. D seguto s rporta la formula del coeffcente d determnazone per una regressone lneare multpla: Dspense d econometra Pag. 63

Per passare dal coeffcente d determnazone a quello aggustato s applca la seguente notazone: R = 1 n 1 1 R n k 1 n cu n sono l numero d osservazon e k l numero delle varabl ndpendent della regressone camponara stmata Verfca d potes su parametr del Modello d Regressone lneare multpla. In prmo luogo s verfca l potes d ndpendenza lneare della varable dpendente Y da k regressor ovvero l potes d sgnfcatvtà del Modello espressa dalla seguente notazone: H 0 : β 1 =β =.= β k =0 vs H 1 : β 1 = β.. β k 0 La Statstca test che verfca la sgnfcatvtà statstca del Modello è la F d Fsher espressa dalla seguente notazone: F = s regr s resdua (Y)/k D regr D resdua (Y)/n k 1 F k, (n k 1) dove F è l valore della statstca-test emprca e F(k,n-k-1) è quella crtca. Stablto a pror un lvello d sgnfcatvtà par ad alfa l test è sgnfcatvo se F> F(k,n-k-1) e qund s rfuta l potes nulla allo stesso lvello alfa. Dato che D regr (Y)= R *D(Y) e D resdua (Y)= (1-R )*D(Y) la F può essere espressa dalla seguente notazone: F = (1 R - R )/n /k k 1 In secondo luogo s verfca l potes d ndpendenza lneare della varable dpendente Y da X w (restando costant gl altr k-1 regressor) H 0 : β w =0 vs H 1 : β w 0 Dspense d econometra Pag. 64

Tenuto conto che l vettore de parametr b s dstrbusce secondo una Normale multvarata (n smbol [b~n MULT (β,σ (X X) -1 ] ) e preso un qualsas elemento del vettore, ad esempo b w, questo s dstrbusce secondo una Normale standardzzata: b w ~N MULT (β,σ d ww ] dove d ww è l w-esmo elemento della dagonale prncpale della matrce nversa (X X) - 1. Se la varanza è nota l regressore, come detto sopra, s dstrbusce secondo una normale standardzzata e l valore del quantle z sarà: b w z = β w σ ~N (0,1) Supponendo che s sa n presenza d pccol campon e d varanza ncognta essa verrà stmata con quella resdua per cu regressor s dstrbuscano secondo una t d Student e l valore del quantle della stessa sarà: t = b w σ Stablto un lvello d sgnfcatvtà a pror alfa s confrontano valor della t emprca con quell della t crtca e se l prmo è maggore del secondo s rfuta l potes nulla. S può assumere qund la regola d decsone secondo la quale l contrbuto d X w è statstcamente sgnfcatvo n un modello n cu sono present altr regressor. Intervall d confdenza su parametr del Modello d Regressone lneare multpla. Stablto un lvello d confdenza par a 1-alfa e n presenza d varanza ncognta l relatvo ntervallo per β w può essere espresso dalla seguente notazone: b w t α/,n k 1 s resdua * d ww Dagnostca La dagnostca può essere svolta: 1. sulla struttura del modello;. sulla trasformazone del modello 3. sulle potes degl error; 4. sulla rcerca d osservazon nsolte Per quanto rguarda la prma occorre svolgere a pror un anals sulla specfcazone corretta del modello attraverso l ndvduazone delle varabl ndpendent e soprattutto la varable rsposta coerent e adatte allo studo del fenomeno osservato. Dspense d econometra Pag. 65

Successvamente è necessaro analzzare: a. problem su regressor; b. gl error su regressor Per quanto rguarda la dagnostca sulla struttura del modello e su problem relatv a regressor s esamna soltanto l problema della eventuale presenza d multcollneartà. D seguto s svluppa la relatva anals. Multcollneartà perfetta e mperfetta. Come ntrodotto nelle potes del modello d regressone lneare multpla, s può verfcare che le stme de parametr d regressone esstono solo se la matrce d varanze-covaranze X X è nvertble. Affnché questa condzone sa soddsfatta, occorre che la matrce abba rango peno e, qund, che le varabl ntrodotte nell anals non sano dpendent l una dall altra. Nel caso n cu nel modello vengano ntrodotte varabl perfettamente dpendent tra loro, s avrà, come conseguenza, una errata specfcazone del modello, nel senso che l numero de parametr rsulta eccessvo rspetto a quello effettvamente necessaro e s è, qund, n presenza d multcollneartà. Pur nella condzone che non vengano ntrodotte varabl perfettamente collnear, s possono avere stuazon n cu rapport tra d esse sano legate da dpendenza complcate, ad esempo dovute a varazon concord delle varabl che, comunque, porteranno l determnante della matrce d varanzecovaranze X X ad assumere valor molto vcn ad un valore nullo. Una stuazone d multcollneartà delle varabl esplcatve ha grav conseguenze sull attendbltà della stma de parametr. In tal caso, nfatt, le stme de coeffcent avranno una varanza molto alta, con la conseguenza che, a volte, potranno assumere un senso sbaglato. V sono due potes d multcollneartà, perfetta ed mperfetta. S parla d multcollneartà perfetta quando vene volata l assunzone secondo cu nessun regressore è combnazone lneare d uno o pù degl altr regressor; n questo caso la matrce X è sngolare, e la matrce nversa d (X X) -1 non è defnta. S rprenda la notazone del Modello a due varabl esplcatve: Y= β 0+ β 1 x 1 + β x + dove β 1 msura l mpatto d x 1 su y tenendo costante x e β msura l mpatto d x su y tenendo costante x 1 ; se x 1 è perfetta combnazone lneare d x, ad esempo, secondo la seguente notazone: x 1 = α 0+ α 1 x x 1 camberà quando x camba. Qund non s potrà tenere costante x 1 per stmare β. Questa stuazone è molto rara, nfatt, soltamente quando s parla d multcollneartà tra regressor s fa rfermento a quella mperfetta, che s verfca quando due o pù regressor sono lnearmente dpendent n modo mperfetto, v sarà Dspense d econometra Pag. 66

solo una quota d varabltà d un regressore non spegata dalla varabltà dell altro regressore: La matrce d varanze-covaranze (X X) può essere esplctata come segue: x 1 X X= x 1 x x 1 x 1 x x x 1 x S procede al calcolo della matrce d varanze covaranze nversa moltplcandola per l nverso del suo determnante: x 1 x x (X X) -1 = x 1 x x * 1/ x 1* x - ( x 1 x ) x 1 x 1 x Le varanze d β 1 e β e la covaranza (β 1,β ) saranno espresse dalle seguent notazon: Var (β 1 )=σ (X X) -1 = σ * x / x 1- x - ( x 1 x ) Var (β )=σ (X X) -1 = σ * x 1 / x 1- x - ( x 1 x ) Covar (β 1, β )=-σ (X X) -1 = -σ * x 1 x / x 1- x - ( x 1 x ) A questo punto s vuole dmostrare che n presenza d na relazone lneare tra x 1 e x s determna una stuazone d multcollneartà. La quanttà x 1 x per sosttuzone della x 1 = α 0+ α 1 x dventa: x 1 x = α 1 x Le varanze d β 1 e β e la covaranza β 1, β dventeranno: Var (β 1 )=σ (X X) -1 = σ * x / x 1- x - α 1 x Var (β )=σ (X X) -1 = σ * x 1 / x 1- x - α 1 x Covar (β 1, β )=-σ (X X) -1 = -σ * α 1 x / x 1- x - ( x 1 x ) Dspense d econometra Pag. 67

E facle constatare che gl stmator OLS non sono pù effcent n quanto all aumentare della relazone lneare tra x 1 e x aumenta α 1, dmnusce l denomnatore, aumenta l valore delle frazon e qund aumentano le relatve varanze de due stmator che, per conseguenza, non possono essere pù utlzzat soprattutto a fn prevsv. Per ndvduare la presenza d multcollneartà tra regressor s prendono n consderazone seguent ndcator: a) l coeffcente d determnazone (R ); b) l coeffcente d tolleranza t = 1- R c) Varance Inflaton Factor (VIF)=1/1- R d) Matrce d correlazone tra le covarate; n caso d multcollneartà s ha un elevata correlazone tra regressor. Inoltre s dmostra che VIF sono dat dagl element della dagonale prncpale d R-1; S esamna l VIF che verrà mplementato solo nel Laboratoro con l software R n quanto non s ntendono svolgere relatv calcol matrcal. A fn della msurazone della multcollneartà, secondo l autore, valor d VIF superor a 0 evdenzano gross problem; quell tra 7 e 0 problem non grav ma crescent; nferor a 7 una sostanzale assenza. E successvamente s analzza la matrce d correlazone attraverso la quale può essere ndvduata la presenza d multcollneartà laddove l o valor de coeffcent d correlazone fra le varabl sano molto elevat. Accertata la presenza d multcollneartà s pone l problema, come detto sopra, degl stmator OLS che non rsultano pù effcent e qund nutlzzabl. Cosa fare? S possono svolgere alcune operazon attraverso le qual tentare d elmnare tale ncongruenza. La prma potrebbe essere quella d aumentare, se possble, l numero d osservazon n modo da rendere la matrce X a rango peno; la seconda è quella d rmuovere le varabl ndpendent (covarate) tra loro correlate; utlzzare la tecnca delle prncpal component regresson (PCR) oppure quella della rdge regresson. In questa sede verrà applcata solo la seconda. Per quanto rguarda la trasformazone del modello verranno esamnat: a. modell polnomal; b. modell con varable dpendente bnara: probablstco, logt, probt c. modell non parametrc; d. modell bayesan; e. modell a varabl strumental Modello d Regressone polnomale Dspense d econometra Pag. 68

Il Modello d regressone lneare semplce potrebbe non avere una bontà d adattamento a dat non sgnfcatva dal punto d vsta statstco. Cò non sgnfca che fra la varable dpendente e quella rsposta non essta una relazone. S può affermare soltanto che non esste una relazone d tpo lneare ma che potrebbe esstere una non lneare. In questo contesto vene esamnata la Regressone polnomale ntesa come una semplce estensone della forma lneare d un modello polnomale del secondo ordne e coè una forma quadratca (è opportuno rcordare che la retta è una forma polnomale del prmo ordne): La relazone matematca del Modello dventa: Y=a + b 1 X + b Z+ ε dove Z=X S può faclmente evncere che s è n presenza d un modello quadratco che, dal punto d vsta della stma, è lneare ne parametr e qund per l calcolo de regressor stmat s può utlzzare l metodo de mnm quadrat ordnar. La relazone dventa pertanto a due varabl esplcatve confgurando la fattspece d regressone multpla. LABORATORIO STUDIO GUIDATO Nel Laboratoro Studo gudato vengono rportate le applcazon svolte manualmente relatv alla parte teorca trattata. ESERCITAZIONE EMPIRICA 5. (Sul modello d regressone lneare multpla con soluzone manuale) Il Responsable d Marketng della Alfa SpA vuole elaborare l modello d regressone lneare multpla tra la varable dpendente vendte (y) e due varabl esplcatve spese d produzone (x1) e spese d promozone (x) n un campone d 6 punt vendta. Egl vuole svolgere calcol matrcal per ndvduare l vettore de parametr e successvamente l coeffcente d determnazone normale e aggustato. Successvamente ntende svolgere un anals nferenzale calcolando l ntervallo d confdenza per regressor e la verfca d potes sugl stess ad un lvello d sgnfcatvtà del 5%. Dspense d econometra Pag. 69

PASSO PRIMO. Egl predspone la Tabella de dat seguente ottenut da una rlevazone camponara su sette famgle. y x1 x 11 6,5,1 1314 6,8,4 1116 7,1,8 14 5,4,9 1306 5,9,4 178 5,1,3 Meda(y)=144,667 Fonte: Dat smulat PASSO SECONDO. Rporta d seguto calcol matrcal per ottenere la matrce d varanze-covaranze (X X). S parte dalla matrce orgne X(6x3), s calcola la sua trasposta X (3x6), s moltplcano e s ottene (X X) (3x3) PASSO TERZO. S calcola l nversa (X X) -1 (3x3) e s rporta l vettore y(6x1) PASSO QUARTO. S effettua la verfca che la matrce è nvertble attraverso la moltplcazone della matrce d varanze-covaranze per la sua nversa (X X) (X X) -1 (3x3) Dspense d econometra Pag. 70

La verfca conferma la teora secondo cu l prodotto matrcale soprarchamato deve dare come rsultato la matrce dagonale. PASSO QUINTO. S calcola l vettore de parametr applcando la notazone seguente: bˆ =(X' 1 X) X' y PASSO SESTO. S calcola l coeffcente d determnazone applcando la notazone seguente: Il numeratore della formula è par a 10375.13 e l denomnatore è par a 7304.35 per cu R dventa: R =10375.13/7304.35=0.3799809 PASSO SETTIMO. S calcola l coeffcente d determnazone aggustato applcando la seguente notazone: R = 1 Sosttuendo a smbol valor s ottene: n 1 1 R n k 1 R =1-[(1-0.3799809)*(6-1)/(6--1)= -0.03336509 Dspense d econometra Pag. 71

LABORATORIO CON SOFTWARE R Nel Laboratoro con l software R vengono rportat gl scrpt per svolgere le stesse applcazon svolte manualmente relatv alla parte teorca trattata. ESERCITAZIONE EMPIRICA CON R (SUL MODELLO DI REGRESSIONE LINEARE MULTIPLA) L Applcazone svolta manualmente nel Laboratoro studo gudato ha rguardato solo se osservazon su altrettant punt vendta. Nel laboratoro con l software R s analzza l ntero data frame su 34 punt vendta. D seguto s rporta l relatvo codce: vendte<- read.csv("vendte.csv", header=true) ; vendte attach(vendte) res<-lm(v1~v+v3);res summary(res) Ouput d R Call: lm(formula = v1 ~ v + v3) Resduals: Mn 1Q Medan 3Q Max -1680.96-406.40 53.45 97.48 134.43 Coeffcents: Estmate Std. Error t value Pr(> t ) (Intercept) 5837.508 68.150 9.93 1.79e-10 *** v -53.173 6.85-7.766 9.0e-09 *** v3 3.6131 0.685 5.73 9.8e-06 *** --- Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Resdual standard error: 638.1 on 31 degrees of freedom Multple R-squared: 0.7577, Adjusted R-squared: 0.741 Dspense d econometra Pag. 7

F-statstc: 48.48 on and 31 DF, p-value:.863e-10 PASSO PRIMO. S analzzano n modo pù dettaglato rsultat: a) l Resdual standard error, par a 638.1, rappresenta l errore standard de resdu e l suo valore elevato al quadrato stma la varanza dell errore che rsulta pertanto σ =638.1 =407171,61 b) l Multple R-squared, par a 0.7577, rappresenta l coeffcente d determnazone R. c) l Adjusted R-squared, par a 0.741, rappresenta l coeffcente d determnazone R corretto che tene conto de dvers grad d lbertà assocat alla stma della varanza della componente d errore: 31 gdl (nr. osservazon-numero parametr d regressone=n-k=34-3=31) e della varanza totale (nr. osservazon-1=34-1=33). Esso è sempre mnore d R. d) valor stmat de parametr (Coeffcents) (Intercept) v1 v 5837.508-53.173 3.6131 e) gl Std error (Error standard) de parametr, par a 68.150 per l ntercetta, 6.85 per v e 0.685 per v3 rappresentano la stma della devazone standard (radce quadrata della varanza) degl stmator de parametr. L errore standard msura la varabltà delle stme prodotte dallo stmatore ntorno alla propra meda (varabltà camponara). f) test sul coeffcente d regressone β. Interessa capre se β è uguale a zero (assenza d effett sulla varable dpendente) o no (presenza d effett) e pertanto l programma R mette a verfca l potes: H 0 : β =0 vs H 1 : β 0 g) l p-value assocato a t. Esprme l valore dell area sottesa alla dstrbuzone t d Student (con 48 gdl) a snstra d -9.464 e a destra d +9.464 (per l fatto che l test è blaterale). Esso va confrontato con α la probabltà dell errore d I tpo che abbamo scelto. Se p-value< α s rfuta l potes nulla e s decde che Beta è dverso da zero. In tal caso, s passa ad nterpretare l sgnfcato del valore stmato del parametro β. h) la F-statstc, par a 48.48 con e 31grad d lbertà (g.d.l.) rspettvamente al numeratore e al denomnatore, è la statstca-test F d Fsher che evdenza l lvello d sgnfcatvtà del Modello PASSO SECONDO. S rcorda che la statstca test è una t d Student che ha qu 31 gdl (nr. osservazon-numero parametr d regressone=34-3=31) così composta: Dspense d econometra Pag. 73

stma parametro-valore del parametro sotto H 0 /errore standard della stma= stma parametro-0/errore standard della stma Il valore della t d Student emprca per tre parametr stmat s trova svolgendo rspettvamente le tre operazon seguent: 1) per l ntercetta (5837.508/68.150=9.93) ) per la v1 (-53.173/6.85=7.766) 3) per la v ( PASSO TERZO. Nel grafco seguente s rporta la v.c F d Fsher ndvduando le regon d rfuto e d accettazone nonché la F emprca e quella crtca Dal Grafco s evnce charamente che la F emprca cade ampamente dentro la Regone d Rfuto per cu s rfuta l potes nulla secondo la quale regressor sono ugual a zero e s accetta quella alternatva che sono dvers da zero per un test blatero. La regola d decsone è pertanto quella che stablsce che tra la varable ndpendente e quella rsposta esste una relazone lneare. PASSO QUARTO. S rporta ora l ntero codce da utlzzare per l anals del Modello d Regressone lneare multpla con R Dspense d econometra Pag. 74

vendte<- read.csv("vendter.csv", header=true) ; vendte attach(vendte) modello<-lm(vendte~spese.produz+spese.promoz);modello summary(modello) round(confnt(object = modello, parm = c(1, ), level = 0.95), dgts = 5) round(confnt(object = modello, parm = c(1, ), level = 0.99), dgts = 5) anova(object = modello) modello1<-lm(vendte~spese.produz);res summary(modello1) plot(spese.produz,vendte) plot(spese.produz,vendte,xlab="spese produzone ", ylab="vendte",man="grafco retta stmata Vendte") ablne(modello1,col="red") #Sovrapposzone retta stmata# qqnorm (resduals(modello1),man="normaltà degl error", ylab="resdu", xlab="quantl") qqlne (resduals(modello1),col="red") modello<-lm(vendte~spese.promoz);modello summary(modello) plot(spese.promoz,vendte) plot(spese.promoz,vendte,xlab="spese promozone", ylab="vendte",man="grafco retta stmata Vendte") ablne(modello,col="red") #Sovrapposzone retta stmata# p<-1-pt(q=0.85,df=11);p p* p<-1-pt(q=.346,df=11);p p* p<-1-pt(q=.53,df=11);p p* qt(p=0.415/,11) qt(p=0.05,11) curve(dt(x, 11), -4, 4, ylab="denstà") curve(pt(x, 5), -10, 10, ylab="rpartzone") 1-pf(150.3, 1, 5) qf(1-6.39e-05,1, 5) rf(x, df1, df) curve(df(x, 1, 5),0,155) curve(pf(x, 1, 5),0,155) df(x,, 31) pf(q,, 31) qf(0.95,, 31) qf(0.05,, 31) rf(n,, 31) d_1 <- d_ <- 31 curve(df(x,, 31), 0, 50, ylab="denstà") curve(pf(x,, 31), 0, 50, ylab="rpartzone")) Dspense d econometra Pag. 75

PASSO QUINTO. Per poter lavorare con R lo studente deve svolgere le operazon seguent: 1. apre R e se non ha effettuato l dowload lo effettu;. costrusca un fle Excel con propr dat contenente una varable dpendente e almeno due esplcatve; 3. salv l fle Excel con l estensone csv con separatore d elenco, è consglable salvarlo su una cartella d C (ad esempo nomnandola Mydata); 4. clcca sulla Console e sett la drectory sulla quale ha salvato l fle n Excel; 5. mport l fle sulla base delle seguent rghe d codce 6. come vsto nel Laboratoro con software R precedente l lettore può mandare n esecuzone le lnee d codce che gl nteressano ed ottenere relatv output ESERCITAZIONE EMPIRICA CON R (SULLA MULTICOLLINEARITÀ DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA) PASSO PRIMO. S rprendono le lnee d codce che resttuscono, mandandole n esecuzone, l ouput della Regressone lneare multpla e s vuole svolgere un anals d multcollneartà sul Modello: vendte<- read.csv("vendter.csv", header=true) ; vendte attach(vendte) modello<-lm(vendte~spese.produz+spese.promoz);modello summary(modello) PASSO SECONDO. S ottene l relatvo output Call: lm(formula = v1 ~ v + v3) Resduals: Mn 1Q Medan 3Q Max -1680.96-406.40 53.45 97.48 134.43 Coeffcents: Estmate Std. Error t value Pr(> t ) (Intercept) 5837.508 68.150 9.93 1.79e-10 *** v -53.173 6.85-7.766 9.0e-09 *** v3 3.6131 0.685 5.73 9.8e-06 *** --- Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Resdual standard error: 638.1 on 31 degrees of freedom Multple R-squared: 0.7577, Adjusted R-squared: 0.741 F-statstc: 48.48 on and 31 DF, p-value:.863e-10 Dspense d econometra Pag. 76

PASSO TERZO. S rporta d seguto l ntero codce d R. lbrary(faraway) vendte<- read.csv("vendte.csv", header=true) ; vendte attach(vendte) vf(vendte) res<-lm(v1~v+v3);res summary(res) vf1<-1/(1-0.7577);vf1 res<-lm(v~v1+v3);res summary(res) vf<-1/(1-0.6637);vf res<-lm(v3~v1+v);res summary(res) vf3<-1/(1-0.4778);vf3 cor(vendte) PASSO QUARTO. Mandando n esecuzone le prme quattro lnee d codce s otterranno valor del VIF per la varable dpendente v1 e per le due ndpendent v e v3: v1 v v3 4.17557.973575 1.914794 Osservando rsultat s può affermare decsamente che l Modello esamnato non è affetto da problem d multcollneartà. PASSO QUINTO. Mandando n esecuzone le lnee d codce dalla 5 alla 6 s ottene l output della regressone per v1 Call: lm(formula = v1 ~ v + v3) Resduals: Mn 1Q Medan 3Q Max -1680.96-406.40 53.45 97.48 134.43 Coeffcents: Estmate Std. Error t value Pr(> t ) (Intercept) 5837.508 68.150 9.93 1.79e-10 *** v -53.173 6.85-7.766 9.0e-09 *** v3 3.6131 0.685 5.73 9.8e-06 *** --- Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Resdual standard error: 638.1 on 31 degrees of freedom Multple R-squared: 0.7577, Adjusted R-squared: 0.741 Dspense d econometra Pag. 77

F-statstc: 48.48 on and 31 DF, p-value:.863e-10 PASSO SESTO. S estrae dall output l valore del Multple R-squared e mandando n esecuzone la lnea d codce 7 s ottene la conferma del valore del vf per v1 vf1<-1/(1-0.7577);vf1 [1] 4.17115 PASSO SETTIMO. Mandando n esecuzone le lnee d codce dalla 8 alla 9 s ottene l output della regressone per v Call: lm(formula = v ~ v1 + v3) Resduals: Mn 1Q Medan 3Q Max -1.089-5.3099-0.1607 5.4311 17.1000 Coeffcents: Estmate Std. Error t value Pr(> t ) (Intercept) 100.148963 4.985988 0.086 < e-16 *** v1-0.0141 0.001598-7.766 9.e-09 *** v3 0.041559 0.0139 3.371 0.000 ** --- Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Resdual standard error: 9.744 on 31 degrees of freedom Multple R-squared: 0.6637, Adjusted R-squared: 0.64 F-statstc: 30.59 on and 31 DF, p-value: 4.615e-08 PASSO OTTAVO. S estrae dall output l valore del Multple R-squared e mandando n esecuzone la lnea d codce 10 s ottene la conferma del valore del vf per v vf<-1/(1-0.6637);vf [1].973536 PASSO NONO. Mandando n esecuzone le lnee d codce dalla 11 alla 1 s ottene l output della regressone per v Call: lm(formula = v3 ~ v1 + v) Resduals: Mn 1Q Medan 3Q Max -66.14-6.41 37.99 81.81 13.86 Coeffcents: Dspense d econometra Pag. 78

Estmate Std. Error t value Pr(> t ) (Intercept) -519.5355 13.0684 -.438 0.0068 * v1 0.13086 0.048 5.73 9.8e-06 *** v 6.45397 1.91464 3.371 0.000 ** --- Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Resdual standard error: 11.4 on 31 degrees of freedom Multple R-squared: 0.4778, Adjusted R-squared: 0.4441 F-statstc: 14.18 on and 31 DF, p-value: 4.37e-05 PASSO DECIMO. S estrae dall output l valore del Multple R-squared e mandando n esecuzone la lnea d codce 13 s ottene la conferma del valore del vf per v3 vf3<-1/(1-0.4778);vf3 [1] 1.914975 PASSO UNDICESIMO. Mandando n esecuzone la rga d codce 14 s ottene l seguente output d R relatvo alla matrce d correlazone del modello: Vendte Sp_.prod_tot Spese.promoz Sp_.prod_var Vendte 1.0000000 0.58065 0.608111 0.5460031 Sp_.prod_tot 0.58065 1.0000000 0.193109 0.9966994 Spese.promoz 0.608111 0.193109 1.0000000 0.135900 Sp_.prod_var 0.5460031 0.9966994 0.135900 1.0000000 ESERCITAZIONE EMPIRICA CON R (SULLA MULTICOLLINEARITÀ DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA) S prenda n consderazone ora l data frame Vendte R1 che presenta una terza varable ndpendente Sp_.Prod_var e s vogla svolgere un anals d multcollneartà: PASSO PRIMO. S rporta d seguto l ntero codce d R. lbrary(faraway) vendte<- read.csv("vendte R1.csv", header=true) ; vendte attach(vendte) vf(vendte) modello<-lm(vendte~sp_.prod_tot+spese.promoz+sp_.prod_var);modello summary(modello) vf1<-1/(1-0.7188);vf1 modello<-lm(sp_.prod_tot~+vendte+spese.promoz+sp_.prod_var);modello Dspense d econometra Pag. 79

summary(modello) vf<-1/(1-0.9959);vf modello<-lm(spese.promoz~vendte+sp_.prod_tot+sp_.prod_var);modello summary(modello) vf3<-1/(1-0.4674);vf3 modello<-lm(sp_.prod_var~+vendte+spese.promoz+sp_.prod_tot);modello summary(modello) vf4<-1/(1-0.9956);vf4 cor(vendte) PASSO SECONDO. Mandando n esecuzone le prme 3 rghe d codce vengono rappresentat dat del data frame osservato: Vendte Sp_.prod_tot Spese.promoz Sp_.prod_var 1 4154 31 11 31 453 344 10 34 3 3988 307 13 30 4 37 311 17 3 5 3946 401 177 40 6 311 98 104 9 7 401 345 148 35 8 474 367 171 37 9 543 444 15 44 10 5033 376 198 38 11 4598 598 109 60 1 4817 509 156 50 13 111 311 108 33 14 378 65 143 7 PASSO TERZO. Mandando n esecuzone la rga 4 s ottene l vettore de valor de vf per le vendte, le spese d produzone total, le spese d promozone e le spese d produzone varabl Vendte Sp_.prod_tot Spese.promoz Sp_.prod_var 3.556445 43.719418 1.877666 7.58195 Come s può osservare l ndcatore VIF evdenza la presenza d una fortssma correlazone fra le varabl ndpendent Sp_.prod_tot e Sp_.prod_var PASSO QUARTO. Mandando n esecuzone le rghe d codce dalla 5 alla 6 s ottene l output della regressone per v1: Call: lm(formula = Vendte ~ Sp_.prod_tot + Spese.promoz + Sp_.prod_var) Resduals: Mn 1Q Medan 3Q Max -739.6-339.3 7.9 38.8 781.5 Coeffcents: Estmate Std. Error t value Pr(> t ) Dspense d econometra Pag. 80

(Intercept) 117.6 777.77 1.508 0.165 Sp_.prod_tot 47.318 19.388.441 0.0348 * Spese.promoz 11.500 4.117.793 0.0190 * Sp_.prod_var -437.44 196.900 -. 0.0506. --- Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Resdual standard error: 519.3 on 10 degrees of freedom Multple R-squared: 0.7188, Adjusted R-squared: 0.6345 F-statstc: 8.51 on 3 and 10 DF, p-value: 0.00416 PASSO QUINTO. S estrae dall output l valore del Multple R-squared e mandando n esecuzone la lnea d codce 7 s ottene la conferma del valore del vf per v1 vf1<-1/(1-0.7188);vf1 [1] 3.556188 modello<-lm(sp_.prod_tot~+vendte+spese.promoz+sp_.prod_var);modello PASSO SESTO. Mandando n esecuzone le rghe d codce dalla 8 alla 9 s ottene l output della regressone per v: Call: lm(formula = Sp_.prod_tot ~ +Vendte + Spese.promoz + Sp_.prod_var) Resduals: Mn 1Q Medan 3Q Max -7.458-4.490-1.493 5.07 11.116 Coeffcents: Estmate Std. Error t value Pr(> t ) (Intercept) -14.153536 10.185354-1.390 0.1948 Vendte 0.007889 0.0033.441 0.0348 * Spese.promoz -0.079944 0.0667-1.06 0.555 Sp_.prod_var 9.793764 0.49871 39.195.79e-1 *** --- Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Resdual standard error: 6.706 on 10 degrees of freedom Multple R-squared: 0.9959, Adjusted R-squared: 0.9947 F-statstc: 809.1 on 3 and 10 DF, p-value: 3.143e-1 PASSO SETTIMO. S estrae dall output l valore del Multple R-squared e mandando n esecuzone la lnea d codce 10 s ottene la conferma del valore del vf per v vf<-1/(1-0.9959);vf [1] 43.904 PASSO OTTAVO. Mandando n esecuzone le rghe d codce dalla 11 alla 1 s ottene l output della regressone per v3: Dspense d econometra Pag. 81

Call: lm(formula = Spese.promoz ~ Vendte + Sp_.prod_tot + Sp_.prod_var) Resduals: Mn 1Q Medan 3Q Max -5.807-14.808 0.909 14.509 45.44 Coeffcents: Estmate Std. Error t value Pr(> t ) (Intercept) 19.5748 49.1406 0.397 0.700 Vendte 0.03811 0.01364.793 0.019 * Sp_.prod_tot -1.58899 1.3175-1.06 0.55 Sp_.prod_var 14.97574 13.01777 1.150 0.77 --- Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Resdual standard error: 9.9 on 10 degrees of freedom Multple R-squared: 0.4674, Adjusted R-squared: 0.3077 F-statstc:.96 on 3 and 10 DF, p-value: 0.08631 PASSO NONO. S estrae dall output l valore del Multple R-squared e mandando n esecuzone la lnea d codce 13 s ottene la conferma del valore del vf per v3 vf3<-1/(1-0.4674);vf3 [1] 1.87758 PASSO DECIMO. Mandando n esecuzone le rghe d codce dalla 14 alla 15 s ottene l output della regressone per v4: Call: lm(formula = Sp_.prod_var ~ +Vendte + Spese.promoz + Sp_.prod_tot) Resduals: Mn 1Q Medan 3Q Max -1.150-0.4994 0.101 0.4570 0.7357 Coeffcents: Estmate Std. Error t value Pr(> t ) (Intercept) 1.5353305 1.09099 1.501 0.1643 Vendte -0.0007554 0.0003400 -. 0.0506. Spese.promoz 0.0078044 0.0067840 1.150 0.767 Sp_.prod_tot 0.1014455 0.00588 39.195.79e-1 *** --- Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Resdual standard error: 0.685 on 10 degrees of freedom Multple R-squared: 0.9956, Adjusted R-squared: 0.9943 F-statstc: 755.1 on 3 and 10 DF, p-value: 4.431e-1 PASSO UNDICESIMO. S estrae dall output l valore del Multple R-squared e mandando n esecuzone la lnea d codce 16 s ottene la conferma del valore del vf per v4 Dspense d econometra Pag. 8

vf4<-1/(1-0.9956);vf4 [1] 7.77 S può notare che n tutt modell esamnat l regressore Sp_.prod_var non è sgnfcatvo statstcamente. Inoltre vene applcata la formula del vf che resttusce valor ottenut con l codce vf(vendte) PASSO DODICESIMO. Mandando n esecuzone la rga d codce 17 s ottene l seguente output d R relatvo alla matrce d correlazone del modello Vendte Sp_.prod_tot Spese.promoz Sp_.prod_var Vendte 1.0000000 0.58065 0.608111 0.5460031 Sp_.prod_tot 0.58065 1.0000000 0.193109 0.9966994 Spese.promoz 0.608111 0.193109 1.0000000 0.135900 Sp_.prod_var 0.5460031 0.9966994 0.135900 1.0000000 Osservando la matrce d correlazone s può notare che valor de coeffcent relatv alla varable ndpendente Sp_.prod_var è estremamente elevato La dagnostca effettuata applcando due tp d check evdenza un problema d multcollneartà che s può rsolvere elmnando la vable ndpendente Sp_.prod_var che sgnfca n buona sostanza lmtare l anals al modello precedente conposto da due sole varabl ndpendent statstcamente altamente sgnfcatve. ESERCITAZIONE EMPIRICA CON R (SULLA REGRESSIONE POLINOMIALE) Il Responsable della produzone della Alfa SpA vuole studare la relazone fra l costo fsso e le quanttà prodotte. Dspone delle seguent osservazon: costo fsso (y): 11,110,100,90,80,75,70,64,58,57,56,55,48,44,4 quanttà prodotta (x): 1.9,.4,.5,.6,.7,.8,.9,3.3,3.8,4.3,4.5,4.8,8.1,8.8,9.1 Egl vuole elaborare l modello d regressone lneare semplce che s adatta meglo a dat. PASSO PRIMO. S rporta d seguto le lnee d codce d R per la rappresentazone grafca dello scatter-plot. lbrary(labstatr) lbrary(car) y<-c(11,110,100,90,80,75,70,64,58,57,56,55,48,44,4) ### Cost fss x<-c(1.9,.4,.5,.6,.7,.8,.9,3.3,3.8,4.3,4.5,4.8,8.1,8.8,9.1)##à Quanttà prodotta scatterplot(y,x) ###Grafco che ndvdua come s predspongono dat con evdenza Dspense d econometra Pag. 83

x 3 4 5 6 7 8 9 40 60 80 100 10 y Dall anals dello scatterplot s evnce charamente che dat sono dspost pù secondo una curva che secondo una retta. PASSO SECONDO. S mplementa come prma stanza un modello d regressone lneare semplce mandando n esecuzone le seguent lnee d codce: modello <- lm(formula = y ~ x) summary(modello)##ouput del Modello tra Cost fss e Quanttà prodotta PASSO TERZO. S ottene l seguente output: Call: lm(formula = y ~ x) Resduals: Mn 1Q Medan 3Q Max -17.77-13.07-3.954 8.347 30.735 Coeffcents: Estmate Std. Error t value Pr(> t ) (Intercept) 105.5 8.551 1.308 1.54e-08 *** x -7.888 1.748-4.51 0.000584 *** --- Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Dspense d econometra Pag. 84

Cost fss 40 60 80 100 10 Resdual standard error: 15.79 on 13 degrees of freedom Multple R-squared: 0.6103, Adjusted R-squared: 0.5803 F-statstc: 0.36 on 1 and 13 DF, p-value: 0.000584 PASSO QUARTO. S vuole svolgere l anals della varanza del modello mandando n esecuzone la seguente lnea d codce: anova(modello) PASSO QUINTO. S ottene l seguente output: Analyss of Varance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x 1 5073.7 5073.7 0.359 0.000584 *** Resduals 13 339.7 49. --- Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 PASSO SESTO. S vuole rappresentare l grafco a dspersone con sovrapposta la retta stmata mandando n esecuzone le seguent lnee d codce: par(bg="cornslk") plot(x,y,xlab="spesa per consum almentar mensle ", ylab=" Spese totale mensle ",man="grafco retta stmata") ablne(modello,col="red") Grafco retta stmata 3 4 5 6 7 8 9 Quanttà prodotta Dspense d econometra Pag. 85

PASSO SETTIMO. S ntroduce l modello polnomale mandando n esecuzone le seguent lnee d codce: z<- x^ # Introduzone della varable z=x^ modello1 <- lm(formula = y ~ x+z) summary(modello1)##ouput del Modello polnomale tra Cost fss e Quanttà prodotta anova(modello1)##anals della varanza del Modello polnomale PASSO OTTAVO. S ottene l seguente output: Call: lm(formula = y ~ x + z) Resduals: Mn 1Q Medan 3Q Max -1.999-7.5890-0.7167 7.338 13.81 Coeffcents: Estmate Std. Error t value Pr(> t ) (Intercept) 181.1805 15.8473 11.433 8.8e-08 *** x -4.9055 7.006-6.14 5.15e-05 *** z 3.1199 0.6175 5.053 0.00083 *** --- Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Resdual standard error: 9.91 on 1 degrees of freedom Multple R-squared: 0.8754, Adjusted R-squared: 0.8546 F-statstc: 4.15 on and 1 DF, p-value: 3.74e-06 PASSO NONO. S vuole calcolare l ANOVA mandando n esecuzone la seguente lnea d codce: >anova(modello1)##anals della varanza del Modello polnomale PASSO DECIMO. S ottene l relatvo output: Analyss of Varance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x 1 5073.7 5073.7 58.777 5.797e-06 *** z 1 03.8 03.8 5.531 0.00083 *** Resduals 1 1035.8 86.3 --- Dspense d econometra Pag. 86

Cost fss 40 60 80 100 10 Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 S può notare come l modello polnomale sa pù sgnfcatvo e qund da preferre. PASSO UNDICESIMO. S rappresenta l grafco a dspersone con sovrapposta la curva stmata. Grafco a dspersone con sovrapposta curva stmata 3 4 5 6 7 8 9 Quanttà prodotta PASSO DODICESIMO. S rporta d seguto l-ntero codce d R lbrary(labstatr) lbrary(car) y<-c(11,110,100,90,80,75,70,64,58,57,56,55,48,44,4) ### Cost fss x<-c(1.9,.4,.5,.6,.7,.8,.9,3.3,3.8,4.3,4.5,4.8,8.1,8.8,9.1)##à Quanttà prodotta scatterplot(y,x) ###Grafco che ndvdua come s predspongono dat con evdenzato box-plot modello <- lm(formula = y ~ x) summary(modello)##ouput del Modello tra Cost fss e Quanttà prodotta anova(modello) ##Anals della varanza del Modello par(bg="cornslk") plot(x,y,xlab="quanttà prodotta ", ylab=" Cost fss ",man="grafco retta stmata") ablne(modello,col="red")# grafco a dspersone con sovrapposta retta stmata z<- x^ # Introduzone della varable z=x^ modello1 <- lm(formula = y ~ x+z) summary(modello1)##ouput del Modello polnomale tra Cost fss e Quanttà prodotta anova(modello1)##anals della varanza del Modello polnomale par(bg="cornslk") plot(x,y,xlab="quanttà prodotta ", ylab=" Cost fss ",man="grafco retta stmata") yft <- modello1$coef[1]+modello1$coef[]*xft+modello1$coef[3]*xft^ plot(x,y,xlab="quanttà prodotta ", ylab=" Cost fss ",man="grafco a dspersone con sovrapposta curva stmata") Dspense d econometra Pag. 87

lnes(xft, yft, col="red")# grafco a dspersone con sovrapposta retta stmata ) CORRETTORE PROVA DEL 8 APRILE 017 UNIVERSITA DI BARI DIPARTIMENTO DI ECONOMIA E MANAGEMENT Prova scrtta d ECONOMETRIA Prof. Raoul COCCARDA Informatva sulle modaltà d esame d Econometra Il sottoscrtto: matrcola: dà atto d essere stato nformato crca le modaltà e le regole nerent allo svolgmento dell esame: 1. L esame s svolge n forma scrtta ed è composto da 8 domande a rsposta multpla, a cascuna delle qual è assegnato un punto e due domande aperte che valgono due punt cascuna; la durata della prova è d 60 mnut; l voto massmo raggungble è 30 e lode.. Una volta nzata la prova d esame, n qualsas momento, è data facoltà al canddato d rnuncare alla prosecuzone dell esame stesso; d tale rnunca vene dato atto nel verbale d esame. 3. Durante la prova d esame non è consentto abbandonare l aula, né utlzzare support cartace o telematc d auslo alla redazone e complazone della prova (materal d studo, appunt, telefon cellular, smartphone, laptop, ecc.). E consentto solo l uso d una calcolatrce non scentfca. L utlzzo d materal dvers da quell consentt sarà motvo d annullamento della prova. 4. Lo studente ha la facoltà d rchedere l sostenmento della prova orale, a condzone che abba rportato nello scrtto un punteggo d almeno 16/30; l eventuale prova orale s svolgerà l lunedì successvo a quello della prova scrtta Data / / Frma dello studente Sezone 1 Domande a rsposta multpla 1) Il coeffcente angolare d una retta msura: Rsposta 1 La pendenza della retta a Rsposta L ascssa della retta b Rsposta 3 L ordnata della retta c Rsposta 4 L ntercetta della retta d ) L ntercetta d una retta y=a+b*x può essere defnta come: Rsposta 1 Il valore della x quando la y=0 Rsposta Il valore della y quando la x=0 Rsposta 3 Il valore d b*x quando la y=0 Rsposta 4 Il valore della b*x quando la x=0 a b c d 3) Quale grafco rappresenta un nseme d coppe x,y? Rsposta 1 ad area Rsposta a barre vertcal Rsposta 3 a torta Rsposta 4 a dspersone a b c d 4) Qual è la funzone lneare che defnsce l Modello d Regressone lneare semplce (MRLS) Rsposta 1 Y=a + bx + ε Rsposta Y=a + bx Rsposta 3 Y=a + X Rsposta 4 Y=a + b + ε 5) Come s defnsce la Y n una relazone lneare? Rsposta 1 varable esplcatva Rsposta varable ndpendente Rsposta 3 varable conugata Rsposta 4 varable dpendente o rsposta 6) La varable dpendente Y n un MRLS con notazone Y=a + bx + ε è: Rsposta 1 una varable determnstca Rsposta una varable casuale (v.c.) Rsposta 3 una varable casuale (v.c.) essendo ε per defnzone una v.c. Rsposta 4 una varable casuale (v.c.) non essendo ε per defnzone una v.c. a b c d a b c d a b c d Dspense d econometra Pag. 88