- metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill Es. Soluzione degli esercizi del capitolo 8 home - indice In base agli arrotondamenti effettuati nei calcoli, si possono riscontrare piccole differenze nei risultati finali. 8. a. Le seguenti tabelle riportano il valore della stima puntuale (data dalla media campionaria) e l intervallo di confidenza (si veda formula.4.) ottenuti utilizzando SPSS o Excel. Media 69,4748 Limite inferiore 67,5459 Limite superiore 7,438 Media 69,4748 Limite inferiore 67,856 media al 9% Limite superiore 7,936 Ovviamente passando da 95% a 9% di confidenza l ampiezza dell intervallo, a parità di altre condizioni, diminuisce. b. La seguente tabella riporta il confronto del valore del Reddito medio tra pensionati e non pensionati. In pensione Media 7,74 Limite inferiore 69,76 No Limite superiore 73,749 Sì Media 5,565 Limite inferiore,73 Limite superiore 8,856 Il reddito medio dei pensionati è inferiore a quello dei non pensionati (i due intervalli non si intersecano). c. La seguente tabella riporta il confronto del valore del Reddito medio tra sposati e non sposati. Stato civile Media 69,73 Limite inferiore 66,5675 Non sposato Limite superiore 7,977 Sposato Media 69,684 Limite inferiore 66,976 Limite superiore 7,433 Non c è grande differenza tra le due stime puntuali del Reddito medio dei coniugati e non coniugati. Osservando i due intervalli di confidenza a un livello del 95% si può notare che si intersecano e pertanto possiamo ritenere non significative le differenze riscontrate nelle stime puntuali. d. La seguente tabella riporta il test sull uguaglianza dei due redditi medi assumendo uguale varianza (si veda formula 5.5.). t df Sig. (-code) fra medie -,7 6398,836 -,48
Essendo il p-value pari a,836 e quindi superiore ad α =, 5, si accetta l ipotesi nulla di omogeneità, ossia il reddito medio dei coniugati è uguale a quello dei non coniugati. e. La seguente tabella riporta il test di uguaglianza della varianza del Reddito nelle due popolazioni (si veda formula 4.5.4). Assumi varianze uguali Test di Levene di uguaglianza delle varianze F Sig.,37,848 Essendo il p-value pari a,848 e quindi superiore ad α =, 5, si accetta l ipotesi nulla che le varianze siano uguali. 8. a. La seguente tabella riporta il valore della stima puntuale (data dalla media campionaria) e l intervallo di confidenza al 9% (si veda formula.4.) per il Consumo medio, la Cilindrata media e la Potenza media ottenuti utilizzando SPSS o Excel. Media 8,48 Limite inferiore 7,83 Consumo (km/l) media al 9% Limite superiore 9,3 Cilindrata in cc Media 94,3 Limite inferiore 85,4 media al 9% Limite superiore,86 Potenza (CV) Media 83,4 Limite inferiore 8,5 media al 9% Limite superiore 86,43 b. La seguente tabella riporta i risultati del test di uguaglianza tra medie (assumendo uguale varianza) tra le macchine prodotte in europa e in giappone. fra t df Sig. (-code) medie errore standard Consumo (km/l) -,73 45,7 -,85,46 Cilindrata in cc,85 45,7 6,9 3,794 Potenza (CV),3 45,88,7 3,3 Confrontando il valore del p-value (Sig.) con il livello di significatività α =, 5, si conclude che si rifiuta l ipotesi di omogeneità solo per il Consumo. Quindi, tra le macchine europee e giapponesi il consumo medio non è lo stesso. Considerando test unidirezionali, si rifiuta l ipotesi di omogeneità per la Cilindrata (ipotesi alternativa: la Cilindrata delle macchine europee è superiore a quella delle macchine giapponesi), essendo il p- value pari a,35 (ossia la metà del p-value del test bidirezionale) inferiore a α =, 5. La Potenza media delle macchine giapponesi non è superiore a quella delle macchine europee, infatti in questo caso il p-value è pari a,49<,5. c. La seguente tabella riporta il test di uguaglianza della varianza nelle due popolazioni per il Consumo, la Cilindrata e la Potenza. Test di Levene di uguaglianza delle varianze F Sig. Consumo (km/l),,96 Cilindrata in cc,63,8
Potenza (CV),,88 Essendo i p-value (Sig.) maggiori di α =, si accetta l ipotesi nulla che le varianze siano uguali. 8.3 a. La seguente tabella riporta il valore della stima puntuale (data dalla media campionaria) e dell intervallo di confidenza al 95% (si veda formula.4.) per lo Stipendio medio iniziale ottenuti utilizzando SPSS o Excel. Stipendio iniziale Media 664, Limite inferiore 565,98 Limite superiore 6476,43 Nella seguente tabella è riportata la stima puntuale e l intervallo di confidenza per lo Stipendio medio iniziale distinto tra maschi e femmine. Stipendio iniziale Sesso Media 4769,5 Limite inferiore 443,8 Femmina Limite superiore 5395, Maschio Media 76,5 Limite inferiore 6489,43 Limite superiore 7563,58 Lo stipendio medio iniziale delle femmine è minore di quello dei maschi. Si può notare che i corrispondenti intervalli di confidenza non si intersecano, pertanto possiamo concludere che tale differenza notata tra i sessi è significativa. b. La seguente tabella riporta il valore della stima puntuale e l intervallo di confidenza al 95% dello stipendio medio iniziale distinto per Facoltà. Stipendio iniziale Facoltà Media 378. Limite inferiore 339.6 Agraria Limite superiore 45.94 Economia Media 484.5 Limite inferiore 45.9 Limite superiore 54.9 Ingegneria Meccanica Media 3876.87 Limite inferiore 367.5 Limite superiore 3486.3 Lo stipendio medio iniziale maggiore si ha in corrispondenza della laurea in ingegneria meccanica. c. Si riportano i risultati della verifica d ipotesi che pone come ipotesi alternativa che lo stipendio medio iniziale dei laureati in Economia si maggiore di quello dei laureati in Agraria a un livello di significatività del 5%. Guardando alla marcata differenza tra le varianze nei due gruppi si utilizza il test per varianze non uguali (si veda punto d.) Facoltà Economia Agraria Varianza 5896666,67 383983,85 errore t df Sig. (-code) fra medie standard Stipendio iniziale -, 73,548,34 34,5 487,73 Essendo il p-value pari a,7 (la metà di quello corrispondente al test bidirezionale), non si può accettare l ipotesi che
gli stipendi iniziali di Agraria ed Economia siano uguali. Pertanto, lo stipendio medio iniziale dei laureati in Economia è significativamente maggiore di quello dei laureati in Agraria. d. La seguente tabella riporta i risultati della verifica d ipotesi sull uguaglianza delle varianze nelle due popolazioni di laureati. Test di Levene di uguaglianza delle varianze F Sig. Stipendio iniziale 37,89, Essendo il p-value pari a, non possiamo accettare l ipotesi nulla che le varianze siano uguali. 8.4 a. La seguente tabella riporta il valore della stima puntuale e dell intervallo di confidenza al 9% per le variabili Minuti, Bolletta, Lavoro, Reddito, ottenuti utilizzando SPSS o Excel. Media mensile di minuti Media 6,856 confidenza per la media al 9% Limite inferiore 57,38 Costo medio mensile bolletta Percentuale per uso ufficio Limite superiore 67,484 Media 63,3963 confidenza per la media al 9% Limite inferiore 6,389 Limite superiore 65,4638 Media 3,6847 confidenza per la media al 9% Limite inferiore 3,738 Limite superiore 33,633 Reddito famigliare Media 6,5896 confidenza per la media al 9% Limite inferiore 6,489 Limite superiore 6,753 b. La seguente tabella riporta i risultati (ottenuti con SPSS) del test che considera come ipotesi nulla che la Bolletta media sia pari a 6. Costo medio mensile bolletta Valore oggetto del test = 6 t df Sig. (-code) fra medie,7 49,7 3,3963 Dal valore del p-value non si può accettare l ipotesi nulla (il p-value, pari a,7, è inferiore al valore di significatività α =, ). Alla stessa conclusione si può giungere osservando l intervallo di confidenza (ottenuto con Excel) per la Bolletta media a un livello di confidenza del 9%: BOLLETTA Media 63,396345 Livello di confidenza(9%),6746449 ottenendo l intervallo 63,396345±,6746449, ossia [6,3888; 65,4638], che contiene al suo interno il valore 6. c. Si può notare dalla seguente tabella che chi utilizza per almeno 6 minuti il telefono ha mediamente una bolletta superiore a chi lo utilizza per un periodo di tempo inferiore. Costo medio mensile bolletta Gruppo Errore std. min.<6 Media 55,7984,65 min. 6 Media 7,674,658
Dal test di Levene si può accettare l ipotesi nulla di omogeneità delle varianze, pertanto possiamo assumere varianze uguali nel test sulle media. Costo medio mensile bolletta Test di Levene di uguaglianza delle varianze F Sig. t df Sig. (-code) fra medie errore standard,4,748 6,877 48, 5,89,365 Il test fornisce un p-value pari a,<,5=α e dunque rifiutiamo l ipotesi nulla che nelle due popolazioni la bolleta media sia la stessa. d. Dalla seguente tabella si può osservare una leggera differenza tra i valori medi nei due gruppi. Gruppo N Media Deviazione std. Errore std. Media Percentuale per min.<6 3 3,54 8,888,77955 uso ufficio min. 6 35,39 8,5347,779 Dal test di Levene si può accettare l ipotesi nulla di omogeneità delle varianze, pertanto possiamo assumere varianze uguali nel test sulle media. Percentuale per uso ufficio Test di Levene di uguaglianza delle varianze F Sig. t df Sig. (-code) fra medie errore standard,,74 4,594 48, 5,75,393 Il test fornisce un p-value pari a,<,5=α e dunque rifiutiamo l ipotesi nulla che nelle due popolazioni la media della percentuale di uso del telefono per ufficio sia la stessa. 8.5 a. Nella seguente tabella viene riportato l output del modello di regressione che considera gli Anni di permanenza nell impiego attuale dipendenti linearmente dall Età. non standardizzati standardizzati B Errore std. Beta t Sig. confidenza per B al 95% Limite inferiore Limite superiore Costante,66,34-9,597,,733-9,399 Età in anni,49,8,6 63,,,475,56 b. Sì, la dipendenza è significativa (i p-value pari a, indicano che si rifiutano le ipotesi nulle che i coefficienti di regressione siano uguali a ). c. La dipendenza non è di tipo inverso poiché il segno di ˆ β =, 49 è positivo (all aumentare di una variabile aumenta mediamente anche l altra). Pertanto, all aumentare dell età aumentano mediamente gli anni di permanenza nell impiego attuale. d. No, come si può osservare dalla seguente tabella. Il valore del coefficiente di determinazione è R XY =, 384. Riepilogo del modello R corretto Errore std. della stima,6,384,384 7,63 e. Si, si può accettare l ipotesi che il coefficiente di regressione per l età sia uguale a,5 a un livello di significatività del 5%. Ciò si deduce dall analisi dell intervallo di confidenza al 95%, fornito nella tabella del punto a. e uguale a [,475;,56]. Infatti, poiché,5 appartiene all intervallo di confidenza, accettiamo
l ipotesi nulla. f. Sì. Dalla seguente tabella vi sono 4 unità che presentano un valore del residuo standardizzato superiore a 3. Inoltre, si può notare che vi sono altre 7 unità con un valore inferiore a. Tutte queste unità potrebbero essere considerate come potenziali casi anomali e su di esse andrebbe condotta un analisi accurata per accertare le cause dell anomalia. Numero di caso Residuo std. Diagnostiche per casi Anni di permanenza nell'impiego attuale Valore atteso Ŷ i Residuo ê 97 3,66 45,84 4,6 55 3,8 44 9,37 4,63 73 3,56 49,8 7,8,8 4,7-4,7,8 4,7-4,7 557 3,4 46,3 3,69 976,79 5,5-4,5 77 3,8 44 9,37 4,63 3565 3,38 48 3,9 4,7 3766 3,7 47 3,9 3,7 3965,45 3 6,4,4 4937 3,3 5 5,74 5,6 584 3,35 44,84 3,6 53,7 3,78,78 537 4,96 57 5,74 3,6 5563 3,33 43 9,86 3,4 569,4 4,76,76 63,79 5,5-4,5 65 3,5 54 7, 6,78 65 3,3 5 5,74 5,6 6338 3,495 48,33 6,67 i g. Dal seguente istogramma dei residui standardizzato possiamo ritenere che i residui si distribuiscono come una Normale. 8 6 4 Frequenza Dev. Stand =. Media =. N = 64. 3.75 3.5.75.5.75.5.75.5 -.5 -.75.5.75 -.5 -.75.5 h. Dal grafico dei residui standardizzati emerge una forma ad imbuto che evidenzia nettamente l eteroschedasticità (vedere la figura 7.5.).
6 4 - -4-3 Regressione Valore previsto standardizzato 8.6 a. Nella seguente tabella viene riportato l output del modello di regressione che considera il Consumo dipendente linearmente dalla Cilindrata. non standardizzati Errore B std. standardizzati Beta t Sig. confidenza per B al 95% Limite inferiore Limite superiore Costante 3,,493 6,4, 9,3 3,7 Cilindrata -,6, -,85-6,745, -,64 -,55 b. Sì, la dipendenza è significativa (i p-value pari a, indicano che si rifiutano le ipotesi nulle che i coefficienti di regressione siano uguali a ). c. La dipendenza è di tipo inverso poiché il segno di ˆ β =, 6 è negativo (all aumentare di una variabile, l altra mediamente diminuisce). Pertanto, come ci si poteva attendere, all aumentare della cilindrata dell automobile il consumo mediamente aumenta. d. Sì, come si può osservare dalla tabella seguente: R Riepilogo del modello corretto Errore std. della stima,85,648,647 4,64 Il valore del coefficiente di determinazione è R XY =, 648. e. Non si può accettare l ipotesi che il coefficiente di regressione per la cilindrata sia uguale a -,6. Ciò si deduce dall analisi dell intervallo di confidenza [-,64; -,55], fornito nella tabella del punto a. (poiché il valore -,6 non appartiene all intervallo di confidenza, rifiutiamo l ipotesi nulla). f. Le unità con un residuo standardizzato superiore a 3 sono quelle riportate nella seguente tabella: Diagnostiche per casi Numero di caso Residuo std. Consumo (km/l) 3 3,6 4 33 3,54 39 37 3,3 4 38 4,8 33 388 3,8 39 g. Dal seguente istogramma dei residui standardizzati, possiamo ritenere che i residui si distribuiscono come una Normale.
5 4 3 Frequenza Dev. Stand =. Media =. N = 39. 3.75 3.5.75.5.75.5.75.5 -.5 -.75.5.75 -.5 -.75 h. Dal grafico dei residui si osserva una lieve eteroschedasticità, giacchè all aumentare del valore di Ŷi aumenta la variabilità dei residui standardizzati (vedere la figura 7.5.). Inoltre, una lieve non linearità del fenomeno si può riscontrare nella forma ad u della nuvola dei punti rispetto all asse delle ascisse. 5 4 3 - - Regressione Valore previsto standardizzato 8.7 a. Nella seguente tabella viene riportato l output del modello di regressione che considera il Costo medio mensile della bolletta dipendente linearmente dalla media mensile di minuti al cellulare. non confidenza t Sig. standardizzati standardizzati per B al 95% B Errore std. Beta Limite Limite inferiore superiore Costante 3,455 4, 7,6,,574 38,336 Media mensile di minuti,3,4,478 8,564,,56,5 b. Sì, la dipendenza è significativa (i p-value pari a, indicano che si rifiutano le ipotesi nulle che i coefficienti di regressione siano uguali a ). c. Sì, poiché il segno di ˆ β =, 3 è positivo. d. No, come si può osservare dalla tabella seguente: R corretto Errore std. della stima,478,8,5 7,493
e. Sì, si può accettare l ipotesi essendo il valore osservato pari proprio a,3. Infatti, tale valore è all interno dell intervallo di confidenza al 95%: [,56;,5] e a maggior ragione rimane ancora all interno dell intervallo al 99% di confidenza. f. Come mostrato nella seguente tabella, non vi sono residui standardizzati superiori a 3. Statistiche dei residui Minimo Massimo Media Deviazione std. Valore atteso 4,35 96,796 63,3963 9,4589 Residuo -48,9695 4,48, 7,3949 Valore atteso std. -,33 3,53,, Residuo std. -,8,44,,998 g. Dal seguente istogramma dei residui standardizzati, possiamo ritenere che i residui si distribuiscono come una Normale. 3 Frequenza Dev. Stand =. Media =. N = 5..5.75.5.75.5 -.5 -.75.5.75 -.5 -.75 h. Sì, dal grafico dei residui si può ritenere che il loro andamento è casuale e omoschedastico. 3 - - 3 4 Regressione Valore previsto standardizzato