Modellare le vendite di Lowe's

Documenti analoghi
0.1 Percorrenza e Cilindrata

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Laboratorio di Statistica Aziendale Modello di regressione lineare multipla

Analisi grafica residui in R. Da output grafico analisi regressionelm1.csv Vedi dispensa. peso-statura

Esercizio Dire quale variabile debba essere usata come regressore e quale sia la variabile risposta.

Laboratorio 8. Regressione multipla. 8.1 Analisi del dataset HOOK.DAT

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Esercitazione su outliers e osservazioni influenti

Word ha il vantaggio che possiamo salvare un po' di risultati, anche grafici

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

Fac-simile prova di esame

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

Regressione. Monica Marabelli. 15 Gennaio 2016

Parità del potere d'acquisto - è vera?

LABORATORIO DI PROBABILITA E STATISTICA

Anova e regressione. Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 22 marzo 2011

Capitolo 12 La regressione lineare semplice

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

ESERCITAZIONE REGRESSIONE MULTIPLA

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

STATISTICA A K (60 ore)

Analisi di Regressione Multipla

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

Regressione & Correlazione

Regressione lineare - ripasso

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Statistica. Alfonso Iodice D Enza

Modelli con predittori qualitativi e modelli con interazioni. Strumenti quantitativi per la gestione

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Analisi della varianza a due fattori

Corso di Laurea in Informatica Applicata Esame di Calcolo delle Probabilità e Statistica Prova scritta dell 11 gennaio 2007

Corso di Laurea: Numero di Matricola: Esame del 31 maggio 2018 Tempo consentito: 120 minuti

LA REGRESSIONE LINEARE SEMPLICE

Distribuzione esponenziale. f(x) = 0 x < 0

Regressione Lineare Semplice e Correlazione

STATISTICA. Regressione-2

Statistica. Alfonso Iodice D Enza

11.2. Introduzione alla statistica 2/ed. Marilyn K. Pelosi, Theresa M. Sandifer, Paola Cerchiello, Paolo Giudici

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Siete invitati a cambiare un po di parametri dell esercizio (es. aumentare Nrow; diminuire sig2; diminuire i coefficienti di X3 ed X4).

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico )

ESERCITAZIONE ANCOVA

lezione 8 AA Paolo Brunori

Esercizio 8. Ne segue, ovviamente che le aree geografiche di riferimento sono Africa e America del Sud.

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

> cement <- read.table("i:/modelli/cement.dat", col.names=c("tempo", "resist")) > attach(cement)

Il Teorema del limite Centrale (TLC)

Lezione 18. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 18. A. Iodice

Dipartimento di Matematica, Informatica ed Economia (DiMIE) Statistica. Antonio Azzollini

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Ancora sulla regressione multipla

1. variabili dicotomiche: 2 sole categorie A e B

Quiz di verifica - Alberi e FC Strumenti Quantitativi per la gestione

Cognome, Nome e Numero di matricola:

PROBABILITÀ - SCHEDA N. 3 VARIABILI ALEATORIE CONTINUE E SIMULAZIONE

Regressione multipla

La previsione delle vendite dei lm

LABORATORIO 5. ANALISI DELLA VARIANZA AD UN CRITERIO DI CLASSIFICAZIONE

05. Errore campionario e numerosità campionaria

STATISTICA 1, metodi matematici e statistici Introduzione al linguaggio R Esercitazione 7:

Tempi delle esecuzioni immobiliari: gli effetti delle riforme Silvia Giacomelli - Banca d Italia

Lezione Introduzione

STATISTICA. Regressione-2

Modelli con predittori qualitativi e modelli con interazioni

LEZIONE N.8 (a cura di Teresa Fanelli) Questa forma risulta importante nel modello di regressione con più variabili.

7. STATISTICA DESCRITTIVA

Ancova: il modello lineare in generale

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Validazione dei modelli. Strumenti quantitativi per la gestione

CURVE DI DURATA: Introduzione e Rappresentazione analitica

Distribuzione Gaussiana - Facciamo un riassunto -

Statistica Applicata all edilizia: il modello di regressione

Stima dei parametri di modelli lineari

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Laboratorio di Statistica 1 con R Esercizi per la Relazione. I testi e/o i dati degli esercizi contassegnati da sono tratti dai libri consigliati

Tipi di variabili. Indici di tendenza centrale e di dispersione

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

STATISTICA. Federico M. Stefanini. e.mail: a.a (3 CFU)

ANALISI ESPLORATIVA DI SERIE DI OSSERVAZIONI

Regressione semplice: come applicarla come interpretare i risultati

Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1

Studio di osservazione, perché non viene imposto nessun trattamento alle unità campionarie

Minimi quadrati vincolati e test F

Università del Piemonte Orientale. Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia. Corso di Statistica Medica

Confronto fra gruppi: il metodo ANOVA. Nicola Tedesco (Statistica Sociale) Confronto fra gruppi: il metodo ANOVA 1 / 23

Cognome e nome Tempo disponibile: 75 minuti

Esercitazione 1. 6 Marzo 2019

Indagine Sole 24 Ore-Banca d Italia sulle aspettative di inflazione

Corso di Laurea: Diritto per le Imprese e le istituzioni a.a Statistica. Statistica Descrittiva 3. Esercizi: 5, 6. Docente: Alessandra Durio

Presentazione dell edizione italiana

Statistica di base per l analisi socio-economica

TECNICHE DI SIMULAZIONE

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

LE DISTRIBUZIONI CAMPIONARIE

Transcript:

Modellare le vendite di Lowe's La previsione delle vendite è ovviamente di cruciale importanza per le aziende. Anche se le successioni dei ricavi sono, chiaramente, casuali, ci si aspetta che, in alcuni settori, alcuni fattori economici generali abbiano un eetto rilevante sulla quantità di prodotti venduti. Un tale settore è rappresentato dall'oerta di materiale edile, per la quale la costruzione di case è una misura che ne guida gli acquisti. È possibile modellare le vendite della Società Lowe's (il secondo rivenditore al mondo di materiale per la casa e il 14-esimo rivenditore negli USA) come funzione di fattori economici generalmente disponibili legati all'industria delle case? I dati analizzati si riferiscono a 79 trimestri consecutivi, dal primo trimestre del 1983 al terzo trimestre del 2002. Siamo interessati a modellare le vendite trimestrali di Lowe, in milioni di dollari, come funzione del numero di case nuove (in milioni) e del tasso medio dei mutui. L'esame della distribuzione dei ricavi mostra che questa è asimmetrica a destra; poiché si tratta di una variabile legata ai soldi, è naturale considerare come variabile risposta il logaritmo (in base 10) delle vendite. Cioè stimeremo un modello semilogartmico. Istogramma delle Vendite Frequenze 0 10 20 30 40 0 2000 4000 6000 8000 Vendite Osserviamo che le vendite sono in milioni di dollari, quindi le vendite trimestrali osservate arrivano no ai $7.5 miliardi. Di seguito sono i diagrammi di dispersione dei logaritmi delle vendite rispetto al numero di case nuove e al tasso dei mutui. Come ci si aspetta, c'è una relazione diretta con il numero di case nuove (più case nuove vuol dire una maggior oerta di costruzioni), e una relazione inversa con i tassi dei mutui (tassi più alti sono legati a minor acquisti di case, quindi con minor numero di restauri). Osserviamo inoltre in entrambi i graci evidenze di due distinti sottogruppi di dati, con relazioni tra le variabili apparentemente diverse. Il gruppo con vendite più basse che corrisponde agli anni '80 e quello con maggiori vendite corrispondente agli anni '90. 1

2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 2.6 2.8 3.0 3.2 3.4 3.6 3.8 Numero di case nuove Logaritmo delle Vendite 6 8 10 12 14 2.6 2.8 3.0 3.2 3.4 3.6 3.8 Tassi dei mutui Logaritmo delle Vendite C'è anche una forte relazione tra logaritmi delle vendite e tempo, che riette una crescita annuale proporzionale nelle vendite. Ancora una volta vediamo una forte evidenza che gli anni '80 e i '90 corrispondono a due diversi periodi. Perché succede questo? Diversamente da Home Depot, che era il leader di mercato nel settore del materiale per la casa (sia nelle città che nelle campagne), Lowe's negli anni '80 si è concetrato principalmente nel mercato rurale, con l'obiettivo di supportare le ditte locali. 0 20 40 60 80 2.6 2.8 3.0 3.2 3.4 3.6 3.8 Tempo Logaritmo delle Vendite Quando poi, negli anni '90, il settore del restauro delle case è divenuto di grande successo 2

con una crescita molto forte dei protti, Lowe's ha cambiato la sua strategia entrando in competizione in maniera più diretta con Home Depot. Di seguito presentiamo i risultati della stima di un modello dei logaritmi dei ricavi rispetto alle tre variabili esplicative: lm(formula = Log.Vendite ~ Case.nuove + Mutuo + Tempo) -0.052534-0.022958 0.001392 0.021384 0.061485 (Intercept) 1.8700496 0.0443594 42.157 < 2e-16 *** Case.nuove 0.0984709 0.0045605 21.592 < 2e-16 *** Mutuo 0.0155071 0.0037358 4.151 8.66e-05 *** Tempo 0.0180725 0.0003254 55.547 < 2e-16 *** Residual standard error: 0.02827 on 75 degrees of freedom Multiple R-Squared: 0.9949, Adjusted R-squared: 0.9947 F-statistic: 4924 on 3 and 75 DF, p-value: < 2.2e-16 La relazione è apparentemente molto forte. I coecienti possono essere interpretati come segue. Un aumento di un milione di case nuove in un trimestre è associato con un incremento di vendite del 25.5%, se tutto il resto rimane ssato (10 0.0985 = 1.255). Il coeciente per i tassi dei mutui è un po' strano, visto che è positivo; un incremento nei tassi dei mutui di un punto percentuale è associato ad un aumento nelle vendite del 3.6% (10 0.01551 = 1.036), quanto tutto il resto rimane sso. In realtà, questa variabile aggiunge molto poco alla capacità di adattamento del modello, visto che il modello senza questa variabile ha R 2 = 0.994. Inne, date le altre variabili, c'è un 4.2% di aumento trimestrale nelle vendite (10 0.01807 = 1.042). Sfortunatamente, ci sono alcuni problemi con questo modello. C'è un'apparente struttura rimasta nei dati, legata a un eetto del tempo che avevamo notato in precedenza. Inoltre, è molto evidente che nel terzo trimestre le vendite sono sistematicamente inferiori rispetto al resto dell'anno. 3

Q Q Plot Normale Quantili campionari Residui Standardizzati 0 20 40 60 80 Quantili teorici Tempo Q1 Q2 Q3 Q4 Possiamo cercare di arontare questi problemi del nostro modello aggiungendo due nuove variabili esplicative: Tempo 2, per cercare di cogliere l'eetto parabolico legato al tempo che si osserva nei residui, e una variabile indicatrice che identica il terzo trimestre. Ecco il riassunto dei risultati del nuovo modello di regressione: lm(formula = Log.Vendite ~ Case.nuove + Mutuo + Tempo + Tempo.2 + Q3) -0.039308-0.015578 0.001414 0.011273 0.039425 4

(Intercept) 2.065e+00 4.885e-02 42.270 < 2e-16 *** Case.nuove 9.386e-02 3.824e-03 24.548 < 2e-16 *** Mutuo 5.174e-03 3.174e-03 1.630 0.107 Tempo 1.428e-02 7.603e-04 18.782 < 2e-16 *** Tempo.2 3.719e-05 7.204e-06 5.162 2.03e-06 *** Q3-3.489e-02 5.302e-03-6.579 6.21e-09 *** Residual standard error: 0.0197 on 73 degrees of freedom Multiple R-Squared: 0.9976, Adjusted R-squared: 0.9974 F-statistic: 6100 on 5 and 73 DF, p-value: < 2.2e-16 Ci aspettiamo una collinearità tra Tempo e Tempo 2, ma, ovviamente, non ci preoccupa. Apparentemente, adesso, non abbiamo bisogno dei tassi dei mutui, e quindi anche il coeciente positivo che avevamo incontrato nel modello precedente non rappresenta essere qualcosa di cui preoccuparci. Eliminiamo la variabile: lm(formula = Log.Vendite ~ Case.nuove + Tempo + Tempo.2 + Q3) -0.0438143-0.0161845 0.0008955 0.0125774 0.0373578 (Intercept) 2.138e+00 1.968e-02 108.651 < 2e-16 *** Case.nuove 9.349e-02 3.859e-03 24.224 < 2e-16 *** Tempo 1.333e-02 4.945e-04 26.962 < 2e-16 *** Tempo.2 4.389e-05 5.983e-06 7.336 2.31e-10 *** Q3-3.453e-02 5.357e-03-6.447 1.04e-08 *** Residual standard error: 0.01992 on 74 degrees of freedom Multiple R-Squared: 0.9975, Adjusted R-squared: 0.9974 F-statistic: 7457 on 4 and 74 DF, p-value: < 2.2e-16 Dato il tempo, e se siamo nel terzo trimestre, un milione di nuove case è associato a un incremento di vendite del 24%. Dato il tempo e il numero di nuove case, le vendite sono 7.7% inferiori nel terzo trimestre. Perch'e accade questo? Una prima giusticazione viene dal fatto che la prima parte dell'anno è la stagione in cui vengono costruite la maggior parte delle 5

case nel nord degli Stati Uniti; ma perché non si nota il calo anche nell'ultimo trimestre? In eetti c'è un'evidenza che nell'ultima triemstre di ogni anno Lowe's applica una serie di sconti su molti prodotti, così i suoi guadagni come percentuale delle vendite sono un terzo inferiori rispetto agli altri trimestri. Questo potrebbe, forse, riettere il desiderio di spingere le vendite per raggiungere gli obiettivi di ne anno, in modo da accontentare le previsioni degli analisti. L'eetto del tempo è invece un po' più complicato da descrivere, visto che presenta una relazione quadratica. Poiché il coeciente per Tempo 2 è positivo, osserviamo un aumento del tasso di crescita delle vendite nel tempo. Per esempio, mantenendo tutto il resto ssato, passando dal primo al secondo trimestre del 1983, le vendite aumentano del 3.1% ([(Tempo = 2) 0.01333 + (Tempo = 2) 2 0.00004389] [(Tempo = 1) 0.01333 + (Tempo = 1) 2 0.00004389] = 0.0134, e 10 0.0134 = 1.031); dall'altra parte, ssando tutto il resto, se si passa dal primo al secondo trimestre del 2002 la crescita attesa associata è del 4.7% ([(Tempo = 78) 0.01333 + (Tempo = 78) 2 0.00004389] [(Tempo = 77) 0.01333 + (Tempo = 77) 2 0.00004389] = 0.0201, e 10 0.0201 = 1.047). Così, se non cambiano le condizioni economiche, sembra che ci si possa aspettare che le vendite di Lowe's continuino a salire. Il modello sembra ora adattarsi piuttosto bene (sebbene i graci dei residui rispetto al numero di case nuove e al tempo nell'anno sembrano poter suggerire una varianza non costante(. Residui standardizzati Residui standardizzati 2.6 2.8 3.0 3.2 3.4 3.6 3.8 0 20 40 60 80 Valori interpolati Tempo 6

Q Q Plot Normale Quantili campionari Residui standardizzati Quantili teorici 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 Case.nuove Considerando che l'r 2 è così elevato, possiamo dire che usando il numero di case nuove e le variabili legate al tempo, possiamo prevedere le vendite di Lowe's in maniera molto accurata. Infatti, l'errore standard della stima s = 0.0199 implica che il 95% delle volte le vendite di Lowes sono previste al massimo circa il 9 10% sopra o sotto il loro vero valore (10 0.0398 = 0.912; 10 0.0398 = 1.096). Naturalmente, questi valori in termini di dollari si trasformano in ±$750 milioni, quindi non così poco! Potremmo seguire un'altro approccio nell'analizzare questi dati, dividendo le osservazioni in due gruppi, prima e dopo il 1990, seguendo i suggerimenti ottenuti dall-analisi dei diagrammi di dispersione originali. Possiamo fare questo usando i diversi modelli di cui abbiamo discusso nora. Ecco il riassunto dei risultati del modello complessivo: lm(formula = Log.Vendite ~ Case.nuove + Mutuo + Tempo + Q3 + G1980s + Case80s + Mutuo80s + Tempo80s + Q380s) -0.031358-0.010829-0.002125 0.010478 0.044881 (Intercept) 1.8472507 0.0394002 46.884 < 2e-16 *** Case.nuove 0.0889237 0.0048768 18.234 < 2e-16 *** Mutuo 0.0163143 0.0034861 4.680 1.39e-05 *** Tempo 0.0191506 0.0002775 69.009 < 2e-16 *** Q3-0.0419531 0.0055031-7.624 9.75e-11 *** G1980sTRUE 0.4003696 0.0704570 5.682 2.92e-07 *** Case80s -0.0035643 0.0071388-0.499 0.61917 Mutuo80s -0.0223942 0.0050629-4.423 3.54e-05 *** 7

Tempo80s -0.0057368 0.0007973-7.195 5.89e-10 *** Q380s 0.0322561 0.0094294 3.421 0.00105 ** Residual standard error: 0.01635 on 69 degrees of freedom Multiple R-Squared: 0.9984, Adjusted R-squared: 0.9982 F-statistic: 4923 on 9 and 69 DF, p-value: < 2.2e-16 La presenza di diverse pendenze per il numero di case nuove non sembra essere supportato dai dati: lm(formula = Log.Vendite ~ Case.nuove + Mutuo + Tempo + Q3 + G1980s + Mutuo80s + Tempo80s + Q380s) -0.031506-0.010893-0.001906 0.011027 0.043468 (Intercept) 1.8501271 0.0387672 47.724 < 2e-16 *** Case.nuove 0.0872603 0.0035423 24.634 < 2e-16 *** Mutuo 0.0163229 0.0034673 4.708 1.23e-05 *** Tempo 0.0192036 0.0002550 75.301 < 2e-16 *** Q3-0.0413995 0.0053613-7.722 5.94e-11 *** G1980sTRUE 0.3866282 0.0645106 5.993 8.05e-08 *** Mutuo80s -0.0222419 0.0050265-4.425 3.46e-05 *** Tempo80s -0.0056955 0.0007888-7.221 4.94e-10 *** Q380s 0.0308799 0.0089690 3.443 0.000975 *** Residual standard error: 0.01627 on 70 degrees of freedom Multiple R-Squared: 0.9984, Adjusted R-squared: 0.9983 F-statistic: 5599 on 8 and 70 DF, p-value: < 2.2e-16 La previsione delle vendite con questo modello sarà, il 95% delle volte approssimativamente all'interno di un intervallo di 7 8%. Il modello gracamente comprende due rette: per gli anni '80, LogVendite = 2.2368 + 0.0973 [Numero di case nuove] + 0.01351 Tempo e per gli anni successivi al 1990 0.0059 [Tasso dei mutui] 0.0105 Q3, LogVendite = 1.8501 + 0.0973 [Numero di case nuove] + 0.0192 Tempo 8

0.0163 [Tasso dei mutui] 0.0414 Q3, L'eetto delle case nuove è molto simile a quello nel modello quadratico, e l'eetto del terzo trimestre risulta più forte nel secondo periodo. In maniera consistente con le previsioni di crescita per il modello quadratico, il tasso di crescita annuale stimato per le vendite (date tutte le altre variabili) è stato del 3.2% nel primo periodo, e del 4.5% del secondo periodo, che descrivono chiaramente ottimi risultati per Lowe's. È interessante osservare che una simile analisi eettuata utilizzando i dati di vendita di Home Depot mostra un andamento opposto, con tassi decrescenti nell'ultimo periodo. Forse tali risultati tengono conto del fatto che le azioni di Home Depot hanno avuto una performance relativamente bassa nell-ultimo periodo in esame; il prezzo di Home Depot è calato di oltre il 50% da Giugno 2002 a Marzo 2003, mentre quello di Lowe's è calato solo (!) del 15%. È inne interessante osservare che dati utilizzati formano una serie storica, ovviamente, e anche se il graco dei residui standardizzati rispetto al tempo non sembra mostrare autocorrelazione, in realtà di fatto una qualche forma di autocorrelazione è presente nei residui. Non è tuttavia molto forte; se utilizzassimo qualche semplice rimedio basato sull'analisi delle serie storiche otterremmo solo una modesta modica dell'errore standard delle stime da 0.0163 a 0.016. 9