Modellare le vendite di Lowe's La previsione delle vendite è ovviamente di cruciale importanza per le aziende. Anche se le successioni dei ricavi sono, chiaramente, casuali, ci si aspetta che, in alcuni settori, alcuni fattori economici generali abbiano un eetto rilevante sulla quantità di prodotti venduti. Un tale settore è rappresentato dall'oerta di materiale edile, per la quale la costruzione di case è una misura che ne guida gli acquisti. È possibile modellare le vendite della Società Lowe's (il secondo rivenditore al mondo di materiale per la casa e il 14-esimo rivenditore negli USA) come funzione di fattori economici generalmente disponibili legati all'industria delle case? I dati analizzati si riferiscono a 79 trimestri consecutivi, dal primo trimestre del 1983 al terzo trimestre del 2002. Siamo interessati a modellare le vendite trimestrali di Lowe, in milioni di dollari, come funzione del numero di case nuove (in milioni) e del tasso medio dei mutui. L'esame della distribuzione dei ricavi mostra che questa è asimmetrica a destra; poiché si tratta di una variabile legata ai soldi, è naturale considerare come variabile risposta il logaritmo (in base 10) delle vendite. Cioè stimeremo un modello semilogartmico. Istogramma delle Vendite Frequenze 0 10 20 30 40 0 2000 4000 6000 8000 Vendite Osserviamo che le vendite sono in milioni di dollari, quindi le vendite trimestrali osservate arrivano no ai $7.5 miliardi. Di seguito sono i diagrammi di dispersione dei logaritmi delle vendite rispetto al numero di case nuove e al tasso dei mutui. Come ci si aspetta, c'è una relazione diretta con il numero di case nuove (più case nuove vuol dire una maggior oerta di costruzioni), e una relazione inversa con i tassi dei mutui (tassi più alti sono legati a minor acquisti di case, quindi con minor numero di restauri). Osserviamo inoltre in entrambi i graci evidenze di due distinti sottogruppi di dati, con relazioni tra le variabili apparentemente diverse. Il gruppo con vendite più basse che corrisponde agli anni '80 e quello con maggiori vendite corrispondente agli anni '90. 1
2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 2.6 2.8 3.0 3.2 3.4 3.6 3.8 Numero di case nuove Logaritmo delle Vendite 6 8 10 12 14 2.6 2.8 3.0 3.2 3.4 3.6 3.8 Tassi dei mutui Logaritmo delle Vendite C'è anche una forte relazione tra logaritmi delle vendite e tempo, che riette una crescita annuale proporzionale nelle vendite. Ancora una volta vediamo una forte evidenza che gli anni '80 e i '90 corrispondono a due diversi periodi. Perché succede questo? Diversamente da Home Depot, che era il leader di mercato nel settore del materiale per la casa (sia nelle città che nelle campagne), Lowe's negli anni '80 si è concetrato principalmente nel mercato rurale, con l'obiettivo di supportare le ditte locali. 0 20 40 60 80 2.6 2.8 3.0 3.2 3.4 3.6 3.8 Tempo Logaritmo delle Vendite Quando poi, negli anni '90, il settore del restauro delle case è divenuto di grande successo 2
con una crescita molto forte dei protti, Lowe's ha cambiato la sua strategia entrando in competizione in maniera più diretta con Home Depot. Di seguito presentiamo i risultati della stima di un modello dei logaritmi dei ricavi rispetto alle tre variabili esplicative: lm(formula = Log.Vendite ~ Case.nuove + Mutuo + Tempo) -0.052534-0.022958 0.001392 0.021384 0.061485 (Intercept) 1.8700496 0.0443594 42.157 < 2e-16 *** Case.nuove 0.0984709 0.0045605 21.592 < 2e-16 *** Mutuo 0.0155071 0.0037358 4.151 8.66e-05 *** Tempo 0.0180725 0.0003254 55.547 < 2e-16 *** Residual standard error: 0.02827 on 75 degrees of freedom Multiple R-Squared: 0.9949, Adjusted R-squared: 0.9947 F-statistic: 4924 on 3 and 75 DF, p-value: < 2.2e-16 La relazione è apparentemente molto forte. I coecienti possono essere interpretati come segue. Un aumento di un milione di case nuove in un trimestre è associato con un incremento di vendite del 25.5%, se tutto il resto rimane ssato (10 0.0985 = 1.255). Il coeciente per i tassi dei mutui è un po' strano, visto che è positivo; un incremento nei tassi dei mutui di un punto percentuale è associato ad un aumento nelle vendite del 3.6% (10 0.01551 = 1.036), quanto tutto il resto rimane sso. In realtà, questa variabile aggiunge molto poco alla capacità di adattamento del modello, visto che il modello senza questa variabile ha R 2 = 0.994. Inne, date le altre variabili, c'è un 4.2% di aumento trimestrale nelle vendite (10 0.01807 = 1.042). Sfortunatamente, ci sono alcuni problemi con questo modello. C'è un'apparente struttura rimasta nei dati, legata a un eetto del tempo che avevamo notato in precedenza. Inoltre, è molto evidente che nel terzo trimestre le vendite sono sistematicamente inferiori rispetto al resto dell'anno. 3
Q Q Plot Normale Quantili campionari Residui Standardizzati 0 20 40 60 80 Quantili teorici Tempo Q1 Q2 Q3 Q4 Possiamo cercare di arontare questi problemi del nostro modello aggiungendo due nuove variabili esplicative: Tempo 2, per cercare di cogliere l'eetto parabolico legato al tempo che si osserva nei residui, e una variabile indicatrice che identica il terzo trimestre. Ecco il riassunto dei risultati del nuovo modello di regressione: lm(formula = Log.Vendite ~ Case.nuove + Mutuo + Tempo + Tempo.2 + Q3) -0.039308-0.015578 0.001414 0.011273 0.039425 4
(Intercept) 2.065e+00 4.885e-02 42.270 < 2e-16 *** Case.nuove 9.386e-02 3.824e-03 24.548 < 2e-16 *** Mutuo 5.174e-03 3.174e-03 1.630 0.107 Tempo 1.428e-02 7.603e-04 18.782 < 2e-16 *** Tempo.2 3.719e-05 7.204e-06 5.162 2.03e-06 *** Q3-3.489e-02 5.302e-03-6.579 6.21e-09 *** Residual standard error: 0.0197 on 73 degrees of freedom Multiple R-Squared: 0.9976, Adjusted R-squared: 0.9974 F-statistic: 6100 on 5 and 73 DF, p-value: < 2.2e-16 Ci aspettiamo una collinearità tra Tempo e Tempo 2, ma, ovviamente, non ci preoccupa. Apparentemente, adesso, non abbiamo bisogno dei tassi dei mutui, e quindi anche il coeciente positivo che avevamo incontrato nel modello precedente non rappresenta essere qualcosa di cui preoccuparci. Eliminiamo la variabile: lm(formula = Log.Vendite ~ Case.nuove + Tempo + Tempo.2 + Q3) -0.0438143-0.0161845 0.0008955 0.0125774 0.0373578 (Intercept) 2.138e+00 1.968e-02 108.651 < 2e-16 *** Case.nuove 9.349e-02 3.859e-03 24.224 < 2e-16 *** Tempo 1.333e-02 4.945e-04 26.962 < 2e-16 *** Tempo.2 4.389e-05 5.983e-06 7.336 2.31e-10 *** Q3-3.453e-02 5.357e-03-6.447 1.04e-08 *** Residual standard error: 0.01992 on 74 degrees of freedom Multiple R-Squared: 0.9975, Adjusted R-squared: 0.9974 F-statistic: 7457 on 4 and 74 DF, p-value: < 2.2e-16 Dato il tempo, e se siamo nel terzo trimestre, un milione di nuove case è associato a un incremento di vendite del 24%. Dato il tempo e il numero di nuove case, le vendite sono 7.7% inferiori nel terzo trimestre. Perch'e accade questo? Una prima giusticazione viene dal fatto che la prima parte dell'anno è la stagione in cui vengono costruite la maggior parte delle 5
case nel nord degli Stati Uniti; ma perché non si nota il calo anche nell'ultimo trimestre? In eetti c'è un'evidenza che nell'ultima triemstre di ogni anno Lowe's applica una serie di sconti su molti prodotti, così i suoi guadagni come percentuale delle vendite sono un terzo inferiori rispetto agli altri trimestri. Questo potrebbe, forse, riettere il desiderio di spingere le vendite per raggiungere gli obiettivi di ne anno, in modo da accontentare le previsioni degli analisti. L'eetto del tempo è invece un po' più complicato da descrivere, visto che presenta una relazione quadratica. Poiché il coeciente per Tempo 2 è positivo, osserviamo un aumento del tasso di crescita delle vendite nel tempo. Per esempio, mantenendo tutto il resto ssato, passando dal primo al secondo trimestre del 1983, le vendite aumentano del 3.1% ([(Tempo = 2) 0.01333 + (Tempo = 2) 2 0.00004389] [(Tempo = 1) 0.01333 + (Tempo = 1) 2 0.00004389] = 0.0134, e 10 0.0134 = 1.031); dall'altra parte, ssando tutto il resto, se si passa dal primo al secondo trimestre del 2002 la crescita attesa associata è del 4.7% ([(Tempo = 78) 0.01333 + (Tempo = 78) 2 0.00004389] [(Tempo = 77) 0.01333 + (Tempo = 77) 2 0.00004389] = 0.0201, e 10 0.0201 = 1.047). Così, se non cambiano le condizioni economiche, sembra che ci si possa aspettare che le vendite di Lowe's continuino a salire. Il modello sembra ora adattarsi piuttosto bene (sebbene i graci dei residui rispetto al numero di case nuove e al tempo nell'anno sembrano poter suggerire una varianza non costante(. Residui standardizzati Residui standardizzati 2.6 2.8 3.0 3.2 3.4 3.6 3.8 0 20 40 60 80 Valori interpolati Tempo 6
Q Q Plot Normale Quantili campionari Residui standardizzati Quantili teorici 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 Case.nuove Considerando che l'r 2 è così elevato, possiamo dire che usando il numero di case nuove e le variabili legate al tempo, possiamo prevedere le vendite di Lowe's in maniera molto accurata. Infatti, l'errore standard della stima s = 0.0199 implica che il 95% delle volte le vendite di Lowes sono previste al massimo circa il 9 10% sopra o sotto il loro vero valore (10 0.0398 = 0.912; 10 0.0398 = 1.096). Naturalmente, questi valori in termini di dollari si trasformano in ±$750 milioni, quindi non così poco! Potremmo seguire un'altro approccio nell'analizzare questi dati, dividendo le osservazioni in due gruppi, prima e dopo il 1990, seguendo i suggerimenti ottenuti dall-analisi dei diagrammi di dispersione originali. Possiamo fare questo usando i diversi modelli di cui abbiamo discusso nora. Ecco il riassunto dei risultati del modello complessivo: lm(formula = Log.Vendite ~ Case.nuove + Mutuo + Tempo + Q3 + G1980s + Case80s + Mutuo80s + Tempo80s + Q380s) -0.031358-0.010829-0.002125 0.010478 0.044881 (Intercept) 1.8472507 0.0394002 46.884 < 2e-16 *** Case.nuove 0.0889237 0.0048768 18.234 < 2e-16 *** Mutuo 0.0163143 0.0034861 4.680 1.39e-05 *** Tempo 0.0191506 0.0002775 69.009 < 2e-16 *** Q3-0.0419531 0.0055031-7.624 9.75e-11 *** G1980sTRUE 0.4003696 0.0704570 5.682 2.92e-07 *** Case80s -0.0035643 0.0071388-0.499 0.61917 Mutuo80s -0.0223942 0.0050629-4.423 3.54e-05 *** 7
Tempo80s -0.0057368 0.0007973-7.195 5.89e-10 *** Q380s 0.0322561 0.0094294 3.421 0.00105 ** Residual standard error: 0.01635 on 69 degrees of freedom Multiple R-Squared: 0.9984, Adjusted R-squared: 0.9982 F-statistic: 4923 on 9 and 69 DF, p-value: < 2.2e-16 La presenza di diverse pendenze per il numero di case nuove non sembra essere supportato dai dati: lm(formula = Log.Vendite ~ Case.nuove + Mutuo + Tempo + Q3 + G1980s + Mutuo80s + Tempo80s + Q380s) -0.031506-0.010893-0.001906 0.011027 0.043468 (Intercept) 1.8501271 0.0387672 47.724 < 2e-16 *** Case.nuove 0.0872603 0.0035423 24.634 < 2e-16 *** Mutuo 0.0163229 0.0034673 4.708 1.23e-05 *** Tempo 0.0192036 0.0002550 75.301 < 2e-16 *** Q3-0.0413995 0.0053613-7.722 5.94e-11 *** G1980sTRUE 0.3866282 0.0645106 5.993 8.05e-08 *** Mutuo80s -0.0222419 0.0050265-4.425 3.46e-05 *** Tempo80s -0.0056955 0.0007888-7.221 4.94e-10 *** Q380s 0.0308799 0.0089690 3.443 0.000975 *** Residual standard error: 0.01627 on 70 degrees of freedom Multiple R-Squared: 0.9984, Adjusted R-squared: 0.9983 F-statistic: 5599 on 8 and 70 DF, p-value: < 2.2e-16 La previsione delle vendite con questo modello sarà, il 95% delle volte approssimativamente all'interno di un intervallo di 7 8%. Il modello gracamente comprende due rette: per gli anni '80, LogVendite = 2.2368 + 0.0973 [Numero di case nuove] + 0.01351 Tempo e per gli anni successivi al 1990 0.0059 [Tasso dei mutui] 0.0105 Q3, LogVendite = 1.8501 + 0.0973 [Numero di case nuove] + 0.0192 Tempo 8
0.0163 [Tasso dei mutui] 0.0414 Q3, L'eetto delle case nuove è molto simile a quello nel modello quadratico, e l'eetto del terzo trimestre risulta più forte nel secondo periodo. In maniera consistente con le previsioni di crescita per il modello quadratico, il tasso di crescita annuale stimato per le vendite (date tutte le altre variabili) è stato del 3.2% nel primo periodo, e del 4.5% del secondo periodo, che descrivono chiaramente ottimi risultati per Lowe's. È interessante osservare che una simile analisi eettuata utilizzando i dati di vendita di Home Depot mostra un andamento opposto, con tassi decrescenti nell'ultimo periodo. Forse tali risultati tengono conto del fatto che le azioni di Home Depot hanno avuto una performance relativamente bassa nell-ultimo periodo in esame; il prezzo di Home Depot è calato di oltre il 50% da Giugno 2002 a Marzo 2003, mentre quello di Lowe's è calato solo (!) del 15%. È inne interessante osservare che dati utilizzati formano una serie storica, ovviamente, e anche se il graco dei residui standardizzati rispetto al tempo non sembra mostrare autocorrelazione, in realtà di fatto una qualche forma di autocorrelazione è presente nei residui. Non è tuttavia molto forte; se utilizzassimo qualche semplice rimedio basato sull'analisi delle serie storiche otterremmo solo una modesta modica dell'errore standard delle stime da 0.0163 a 0.016. 9