Modello di regressione lineare a cura di Giordano dott. Enrico enrico.giordano@meliorbanca.com Nel presente lavoro viene descritto in modo dettagliato (attraverso anche un impatto visivo), l analisi di due titoli azionari utilizzando un programma statistico denominato E-Views. Ricordiamo che il lavoro svolto è una integrazione del corso di Tecnica di Borsa (anno accademico 2001) svolto dal prof. Franco Caparrelli, docente dell Università di Siena Rendimento di due titoli 1) Verificare se ha senso cercare una relazione funzionale tra le variabili esaminate; 2) Se esiste una relazione funzionale tra le variabili esaminate, controlliamo che tale relazione sia di tipo lineare. Tale verifica avviene attraverso l osservazione della matrice di correlazione. Successivamente si procede con i seguenti passi: a) Individuazione della relazione causale tra le variabili; b) Stima dei parametri; c) Verifica della significatività dei parametri. Per relazione funzionale consideriamo direttamente una relazione di tipo lineare la cui forma è: Dove: Y = α+βx Y = variabile dipendente α = intercetta della retta di regressione β = coefficiente angolare della retta di regressione X = regressore (variabile indipendente ) 1
L equazione che abbiamo appena visto è denominata equazione della retta di regressione. La rette di regressione approssima la nuvola di punti data dalle osservazioni campionarie. Possiamo iniziare partendo da una serie di dati riferiti al titolo Telecom e all indice mib30, presenti in EXCEL. Come si può vedere dalla schermata in bassa, abbiamo selezionato il RIF (prezzo di riferimento) del titolo Telecom, allo stesso modi in seguito si procederà per i valori del mib30. 2
Dopo aver copiato la colonna evidenziata attraverso il comando MODIFICA / COPIA, questa andrà copiata in una nuova cartella (per crearne nuova è sufficiente selezionare FILE, quindi NUOVO ) attraverso il comando: MODIFICA / INCOLLA SPECIALE. Apparirà una schermata, in cui andrà selezionato VALORI. 3
Apparirà cosi la colonna con il prezzo di riferimento (RIF) del titolo telecom. Ugualmente andrà fatto per le chiusure dell indice mib30 otterremo cosi: 4
t Ricordiamo che la formula la del rendimento è = 1 R t p pt 1 Per calcolar i rendimenti con Excel è necessario inserire sul foglio la formula =((A3/A2)-1)*100 e dare INVIO. 5
Calcolato il rendimento con riferimento ai primi due giorni, sarà molto semplice calcolare i rendimenti relativi ai giorni successivi. Basterà spostarsi con la freccetta sul bordo in basso a destra della cella in cui è stata inserita la prima formula (appare un quadratino in neretto), tenere ciccato sullo spigolo tirare giù lungo tutte le celle in cui si vuole copiare la formula stessa. 6
Ugualmente andrà fatto con il mib30 otterremo cosi otterremo: 7
Per avere la serie dei logaritmi dei rendimenti occorrerà selezionare sul foglio: =log(a3/a2) e dare INVIO. Ricordando che A3 indica, mentre A2 indica. Pt Pt 1 8
Cosi fatto in precedenza, bisognerà andare sull angolo in basso a destra della cella, e trascinare verso il basso tenendo ciccato sullo stesso. Ugualmente verrà fatto per il mib30, otteniamo cosi le due serie da portare successivamente in EVIEWS per il nostro lavoro. 9
Per incominciare il nostro lavoro occorre fare un passaggio preliminare. E-VIEWS al contrario di EXCEL, quando ci sono numeri decimali legge il punto (.) e non la virgola (, ). Occorre quindi effettuare questa sostituzione (. ). I passaggi da fare sono i seguenti. EVIDENZIARE logrendtelecom / COPIA / aprire un documento in WORD / copiare la serie. Occorrerà poi SELEZIONARE TUTTO / digitare SOSTITUISCI. 10
Apparirà una schermata in cui andrà scritta la nostra sostituzione cioè il punto (. ) con la virgola (, ), poi selezionare: SOSTITUISCI TUTTO. Ugualmente andrà fatto per il mib30. Fatto ciò possiamo iniziare il nostro lavoro. Evidenziare logrendtelecom e copiarlo, perché lo dobbiamo portare in EVIEWS. Aprire EVIEWS è Selezionare: FILE / NEW / WORKFILE 11
Apparirà una schermata in cui andrà selezionato: UNDATED OR IRREGULAR / 1-59 ( rappresentano le nostre osservazioni ), dare OK. A questo punto occorrerà selezionare: QUICK / EMPTY GROUP 12
Apparirà una schermata dove andremo a selezionare PASTE (incolla) che si ottiene cliccando il tasto destro del MOUSE. 13
Apparirà cosi la nostra serie di dati. Per rinominare la serie è necessario cliccare con il tasto destro del mouse sulla serie da rinominare e selezionare RENAME. 14
15
A questo punto selezionando per esempio logrendmib30 apparirà la nostra serie di dati. 16
Con i nostri dati in E-Views occorre verificare la presenza di una eventuale correlazione tra le variabili. Possiamo verificare ciò con la matrice di correlazione. Evidenziare, logrendbim30 e logrendtelecom digitare OPEN GRUP 17
Apparirà la seguente schermata. Come osservato in precedenza la prima verifica da fare è quella relativa alla presenza di correlazione tra le variabili. Selezionare: VIEW / CORRELATIONS. 18
Ci comparirà la matrice di correlazione, dove è evidenziata un alta correlazione. Ha senso quindi ipotizzare una relazione tra le due variabili. 19
20
Se si vuole osservare lo scatter dei punti. Selezionare: VIEW / GRAPH / SCATTER WHITH REGRESSION. 21
Otteniamo: 22
Possiamo ora vedere il legame causale delle variabili Selezionare: VIEW / GRANGER CAUSALITY. 23
Otteniamo. Si può notare dal test che non ha senso spiegare il logrendtelecom in funzione del logrendmib30. E buona regola rifiutare l ipotesi nulla con la probability più elevata: in questo caso, pertanto, il mib30 non può essere utilizzato come regressore di logrendtelecom. Da rilevare che questo caso specifico sconsiglierebbe anche l ipotesi di una relazione causale logrendtelecom => logrendmib30, tuttavia, se, come in questo caso, le ipotesi plausibili sono solo due, si procede con il rifiuto dell ipotesi nulla con la probability più elevata. In definitiva il logrendmib30 sarà la nostra variabile dipendente mentre il logrendtelecom sarà il nostro regressore. 24
Stima dei parametri La stima viene fatta con il metodo dei minimi quadrati, cioè la retta migliore è quella che minimizza la somma dei quadrati degli scarti. Selezionare: QUICK / ESTIMATE EQUATION Comparirà una schermata in cui andrà scritta la formula: logrendmib30 (variabile dipendente ) logrendtelecom (regressore ) c (costante) Dare quindi l OK 25
Ottengo cosi l OUTPUT. R-squared rappresenta il coefficiente di determinazione lineare, più si avvicina ad uno, più il modello è corretto, cioè la retta approssima bene la nuvola di punti. Adjusted R-squared viene utilizzato perché se aumentano i regressori, R-squared aumenta, mentre l Adjusted R-squared non dipende dal numero di regressori ed è sempre compreso tra zero ed uno. 26
Occorre ora verificare se i residui hanno una distribuzione normale e se sono omoschedastici cioè con varianza costante e media zero. Selezionare: PROCS / MAKE RESIDUAL SERIES. 27
Otteniamo cosi 28
Per visualizzarlo graficamente selezionare: VIEW / LINE GRAPH. 29
otteniamo, 30
Per verificare la normalità selezionare STATS otteniamo cosi: 31
Controllare in fine l ipotesi di indipendenza. Selezionare: VIEW / CORRELOGRAM. 32
Otteniamo cosi: 33
Per visualizzarlo graficamente, ritornare all output. Selezionare: VIEW / ACTUAL / RESIDUAL GRAPH 34
Otteniamo cosi ACTUAL è quello effettivo FITTED è quello stimato 35
APPENDICE 2 R corretto: 2 2 n 1 R = 1 (1 R ) * n k Akaike Info Criterion: 2 l k AIC = + 2 n n (Sono preferiti valori piccoli dell AIC poiché ad essi corrisponderanno valori elevati di l) - l è la funzione di logverosimiglianza sotto ipotesi che : n l = (1 + log 2π ) + log( ε ' ε / n) 2 Schwarz Criterion: 2 l log n SC = + k n n iid N(0, 2 σ µ ) AUTOCORRELAZIONE -In presenza di autocorrelazione gli stimatori sono ancora lineari corretti, ma non sono più efficienti (non hanno cioè la varianza minima) se confrontati con quelli ottenuti dalle procedure che tengono conto dell autocorrelazione; - La varianza degli stimatori dei coefficienti di regressione è distorta. In sintesi, il dato risulta sottostimato, sicchè si possono erroneamente accettare come diversi da zero coefficienti che in realtà non lo sono. Il test t non sarà più attendibile, il coefficiente di determinazione lineare stimato non sarà una misura attendibile del vero coefficiente di determinazione lineare. DURBIN WATSON: µ ρµ + ε H t = t 1 o DW = ρ = 0 n 1 ( et t:2 = n t:1 t et 1) e 2 t 2 Valido se il modello ha intercetta, se il modello non è autoregressivo, i regressori sono non stocastici. DW<2 => autocorrelazione seriale di ordine uno positiva 2<DW<4 => autocorrelazione seriale di ordine uno negativa non significativa DW>4 sufficientemente: autocorrelazione seriale di ordine uno negativa Regola usata: per più di cinquanta osservazioni e pochi regressori, un DW<1,5 rappresenta un segnale di autocorrelazione seriale positiva di ordine uno. 36
TEST F 2 R F = k 1 F 2 k 1, n k (1 R ) n k Sempre sotto ipotesi nulla di 2 iid N(0, ) σ µ TEST DI NORMALITA JARQUE-BERA n k 2 1 2 JB = (( SKW ) + (( KURT ) 3) ) 6 4 2 Sotto ipotesi nulla di εiid N(0, ) si ha: 2 JB χ 2 σ µ STABILITA DEI COEFFICIENTI Se vale l ipotesi nulla εiid N(0, ˆ β 2Stdev β ˆ β + 2stdev. 2 σ µ ), al 95% il vero coefficiente di regressione giace tra: 37