Tema d esame del 15/0/1 Volendo aprire un nuovo locale, una catena di ristoranti chiede ad un consulente di valutare la posizione geografica ideale all interno di un centro abitato. A questo scopo, avvalendosi di studi precedenti nello stesso settore e facendo riferimento agli 11 locali della stessa catena situati nella stessa cittadina, il consulente decide di rilevare le seguenti variabili: X 1 = volume del fatturato (in decine di migliaia di dollari); X = reddito familiare medio della popolazione residente nel raggio di 5 km dal ristorante (in migliaia di dollari); X 3 = popolazione residente nel raggio di 5 km dal ristorante (in migliaia di abitanti); X 4 = numero di ristoranti presenti nel raggio di 5 km dal ristorante. Si ottengono le seguenti informazioni: X 1 =11,6844 ; X = 5,136; X3 = 7,7814; X4 = 4,1818 corredate dalla seguente matrice di varianze e covarianze X 1 X X 3 X 4 X 1 1,340 X 8,7040 18,3813 X 3 14,0076 109,0131 1076,715 X 4 1,5640 14,9631,4363 4,1488 a) Si determinino i parametri della retta a minimi quadrati ˆX1 = a+α 13 e se ne interpretino i valori. b) Si calcolino i coefficienti di correlazione parziale r 1.3 e r 14.3 e si commentino. 1
c) Utilizzando i risultati del punto b) si valuti quale variabile fra X e X 4 apporta il maggior miglioramento in termini di varianza residua nel passaggio tra la retta e il piano. d) Si determino i parametri del piano scelto in base ai risultati ottenuti al punto c) e se ne interpretino i valori. e) Si determini il coefficiente di correlazione multiplo del piano. Sapendo che r 1.34 = 0,433 e r 14.3 = 0,934, si misuri la riduzione relativa della varianza residua che si ottiene passando dal piano al punto d) all iperpiano che contiene tutte le variabili esplicative, commentando opportunamente. Svolgimento Punto a) Utilizzando le informazioni contenute nella matrice di varianze-covarianze e nel vettore delle medie, calcoliamo i valori di ˆα 13 e â. αˆ 13 = σ 13 = 14,0076 σ 33 1076,715 = 0.0130 â = X 1 ˆα 13 X3 = 11,6844 (0.0130)(7,7814) = 10.7375 La retta interpolatrice risulta dunque essere: ˆX 1 = 10.7375+0.0130X 3 L intercetta e il coefficiente angolare della retta dei minimi quadrati hanno il seguente significato: αˆ 13 = 0.0130 indica che, in corrispondenza di un aumento pari ad 1 migliaio di abitanti nella popolazione residente, secondo il modello fornito dalla retta, si osserva un aumento del volume di fatturato dei ristoranti di 130 dollari. Il valore dell intercetta â = 10.7375 indica il volume del fatturato (in decine di migliaia di dollari) che un ristorante avrebbe, secondo il modello fornito dalla retta, in una zona in cui non vi sono residenti nel raggio di 5 km dal ristorante stesso.
3 Punto b) Per calcolare i coefficienti di correlazione parziali, dobbiamo preliminarmente individuare i coefficienti di correlazione grezzi: r ij = σ ij σ i σ j (1) che sono riportati nella seguente tabella: Ora e r ij X 1 X X 3 X 4 X 1 1,0000 X 0,580 1,0000 X 3 0,3843 0,460 1,0000 X 4 0,691 0,5440 0,3357 1,0000 r 1 r 13 r 3 r 1.3 = 1 r 3 1 r 13 = 0,580 (0,3843)( 0,460) (1 0,460 ) (1 0,3843 = 0.547 r 14.3 = = r 14 r 13 r 43 1 r 43 1 r 13 0,691 (0,3843)(0,3357) (1 0,3357 ) (1 0,3843 ) = 0.943. Come possiamo osservare vi è una certa correlazione negativa fra il volume del fatturato X 1 e il reddito familiare medio della popolazione residente nel raggio di 5 km dal ristorante X, al netto della influenza della variabile X 3, ovvero a parità di popolazione residente nel raggio di 5 km dal ristorante. Inoltre il coefficiente di correlazione grezzo r 1 = 0,580 e quello parziale r 1.3 = 0,547 hanno lo stesso segno e quasi lo stesso valore, ad indicare che la popolazione residente X 3 non sembra influenzare la relazione esistente tra fatturato X 1 e reddito X. Passando a commentare r 14.3 osserviamo una forte correlazione negativa fra il volume del fatturato X 1 e la popolazione residente nel raggio di 5 km dal ristorante X 3, al netto del reddito familiare
4 medio della popolazione residente nel raggio di 5 km dal ristorante X, ovvero mantenendo fisso il reddito. Inoltre il coefficiente di correlazione grezzo r 14 = 0,691 e quello parziale r 14.3 = 0,943 hanno lo stesso segno, ma il secondo ha un valore assai prossimo al suo valore minimo 1, indicando quindi una quasi perfetta correlazione parziale lineare negativa. Punto c) Per valutare quale variabile fra X e X 4 apporti il maggior miglioramento in termini di varianza residua nel passaggio tra la retta e il piano, utilizzo il quadrato dei coefficienti di correlazione parziali appena valutati, infatti: I 1.3 I 1.3 1 I 1.3 = MVR [1.3 >1.3] = r 1.3 = ( 0,547) = 0,946 e, analogamente: MVR [1.3 >1.43] = r 14.3 = ( 0,943) = 0,8896 Conviene senz altro scegliere la variabile X 4, numero di ristoranti presenti nel raggio di 5 km dal ristorante, perché essa spiega circa l 89% della varianza residua della retta. Punto d) Siamo ora in grado di determinare il valore dei parametri del piano interpolatore: ˆα 13.4 = σ 44σ 13 σ 14 σ 34 σ 33 σ 44 σ 34 = (4,1488)(14,0076) ( 1,5640)(,4363) (1076,715)(4,1488) (,4363) = 0,035 ˆα 14.3 = σ 33σ 14 σ 13 σ 34 σ 33 σ 44 σ 34 = (1076,715)( 1,5640) (14,0076)(,4363) (1076,715)(4,1488) (,4363) = 0,5041 ˆb = X1 ˆα 13.4 X3 ˆα 14.3 X4 = 11,6844 (0,035)(7,7814) ( 0,5041)(4,1818) = 1,081 ()
5 Il piano interpolatore risulta dunque essere: ˆX 1 = 1,081+0,035 X 3 0,5041 X 4 I coefficienti di regressione parziali ˆα 13.4 e ˆα 14.3 ci dicono rispettivamente che: ˆα 13.4 = 0,035: secondo quando indicato dal modello del piano dei minimi quadrati, a parità del numero di ristoranti presenti nel raggio di 5 km dal ristorante X 4, all aumentare di un milione di abitanti nella popolazione residente X 3, il volume del fatturato aumenta di 35 dollari. ˆα 14.3 = 0,5041: secondo quando indicato dal modello del piano dei minimi quadrati, mantenendo fissa la popolazione residente X 3, quando il numero di ristoranti presenti nel raggio di 5 km dal ristorante X 4 aumenta di una unità, il volume del fatturato dei ristoranti diminuisce di 5041 dollari. Il valore di ˆb = 1,081 indica il volume del fatturato in decine di migliaia di dollari che un ristorante avrebbe, secondo il modello del piano dei minimi quadrati, in una zona in cui non vi sono residenti né altri ristoranti nel raggio di 5 km dal ristorante stesso. Punto e) Occorre dapprima ricavare l indice della bontà di adattamento del piano. Quindi: I 1.34 = α 13.4σ 13 +α 14.3 σ 14 σ 11 = (0,035)(14,0076)+( 0,5041)( 1,5640) 1, 340 = 0,9059 (3) Il piano aveva introdotto la variabilex 4 nel modello, quindi l ultima variabile introdotta nell iperpiano è X. Ne deriva che il miglioramento in varianza residua si ricava dal quadrato di r 1.34 come segue: MVR [1.34 >1.34] = r 1.34 = I 1.34 I 1.34 1 I 1.34 = 0,433 = 0,1869. La variabile esplicativa X introdotta nel modello dell iperpiano apporta solo un 18, 7% di miglioramento. Nel modello in cui le variabili esplicative sono X 3 e X 4 (ovvero la popolazione residente e il numero di ristoranti nel raggio di 5 km) rimane senza spiegazione una porzione pari al 9,41% (infatti 1
I 1.34 = 0,0941) della varianza del fatturato X 1. Quando si introduce anche la variabile X, ovvero il reddito della popolazione residente, si riesce a spiegare solo una piccola parte, pari al 18,7%, della varianza residua. La variabile X sembra quindi non molto incisiva al fine di spiegare come varia il volume del fatturato dei ristoranti. 6