Esercizi di Statistica Selezione di esercizi proposti durante le esercitazioni dei corsi di Statistica tenute presso la Facoltà di Economia dell Università di Salerno Versione del 17 ottobre 2006
2 Per fornire un contributo al miglioramento del presente volume, segnalare eventuali errori in esso contenuti a: Marcella Niglio, e-mail: mniglio@unisa.it
Indice 1 Statistica Descrittiva 4 1.1 Distribuzioni di frequenza e rappresentazioni grafiche................. 4 1.2 Indici statistici descrittivi................................ 10 1.3 Concentrazione...................................... 20 1.4 Distribuzioni Doppie................................... 25 1.5 Numeri Indici....................................... 35 1.6 Interpolazione....................................... 41 2 Calcolo delle Probabilità 48 2.1 Calcolo delle probabilità................................. 48 2.2 Variabili Casuali Discrete................................ 56 2.3 Variabili Casuali Continue................................ 62 3 Inferenza Statistica 70 3.1 Stime puntuali...................................... 70 3.2 Test delle ipotesi..................................... 73 3.3 Intervalli di confidenza.................................. 81 4 Il Modello di Regressione 84 4.1 Modello di Regressione Lineare Semplice........................ 84 3
Capitolo 1 Statistica Descrittiva 1.1 Distribuzioni di frequenza e rappresentazioni grafiche Esercizio 1 La società Gamma s.p.a., dopo aver effettuato una ricerca di personale qualificato per coprire la posizione di responsabile delle relazioni con l estero, ha ricevuto 20 curriculum vitae da cittadini sia italiani che stranieri. Alcune informazioni, ritenute particolarmente rilevanti dalla società, sono sintetizzate nella seguente tabella: Livello minimo unità genere età cittadinanza di reddito mensile Anni di esperienza desiderato lavorativa 1 M 28 italiana 2.3 2 2 M 34 inglese 1.6 8 3 F 46 belga 1.2 21 4 M 26 spagnola 0.9 1 5 F 37 italiana 2.1 15 6 F 29 spagnola 1.6 3 7 M 51 francese 1.8 28 8 F 31 belga 1.4 5 9 F 39 italiana 1.2 13 10 M 43 italiana 2.8 20 11 F 58 italiana 3.4 32 12 F 44 inglese 2.7 23 13 F 25 francese 1.6 1 14 M 23 spagnola 1.2 0 15 F 52 italiana 1.1 29 16 F 42 tedesca 2.5 18 17 F 48 francese 2 19 18 F 33 italiana 1.7 7 19 M 38 tedesca 2.1 12 20 M 46 italiana 3.2 23 Tabella 1.1: Dati raccolti su 20 candidati a seguito di una ricerca di personale qualificato 4
1.1. DISTRIBUZIONI DI FREQUENZA E RAPPRESENTAZIONI GRAFICHE 5 1. Definire quali sono le l unità statistiche oggetto di rilevazione. 2. Identificare quali sono le variabili e le mutabili osservate. 3. Costruire, per tutte le variabili e mutabili, le corrispondenti distribuzioni di frequenza (per le variabili continue costruire distribuzioni di frequenza con quattro classi di modalità di uguale ampiezza). 4. È possibile calcolare le frequenze relative cumulate per tutte le variabili e mutabili oppure è necessario che si disponga solo di dati quantitativi? 1. Le unità statistiche della rilevazione sono gli individui rispondenti alla ricerca di personale qualificato effettuata dalla società Gamma. 2. Le mutabili sono: genere e cittadinanza; le variabili sono: età, livello minimo di reddito mensile desiderato, anni di esperienza lavorativa. 3. Le distribuzioni di frequenza delle due mutabili sono: Genere x i n i M 8 F 12 Totale 20 Cittadinanza x i n i italiana 8 inglese 2 belga 2 spagnola 3 francese 3 tedesca 2 Totale 20 Per le restanti variabili età, livello minimo di reddito mensile desiderato ed anni di esperienza lavorativa, sono costruite tre distribuzioni di frequenza con quattro classi di modalità. In particolare, dopo aver calcolato l ampiezza della classe per le tre variabili: max(x) min(x) h = 4 si ottiene: Età (h = 8.75) classi n i 23 31.75 6 31.75 40.5 5 40.50 49.25 6 49.25 58 3 Totale 20 Livello min. reddito (h = 0.625) classi n i 0.9 1.525 6 1.525 2.15 8 2.15 2.775 3 2.775 3.4 3 Totale 20 Anni esperienza (h = 8) classi n i 0 8 8 8 16 3 16 24 6 24 32 3 Totale 20
6 CAPITOLO 1. STATISTICA DESCRITTIVA 4. Le frequenze relative cumulate possono essere calcolate sia quando si hanno in esame le variabili che le mutabili in quanto hanno ad oggetto le sole frequenze. Esercizio 2 Utilizzando le distribuzioni di frequenza costruite nell esercizio 1 per le variabili età, livello minimo di reddito mensile desiderato e per la mutabile cittadinanza: 1. Calcolare le rispettive frequenze relative e frequenze relative cumulate. 2. Valutare se più del 70% delle unità statistiche ha un età inferiore a 40 anni. 3. Valutare se almeno il 20% accetterebbe l impiego qualora gli venisse offerto un reddito mensile pari a 1525Euro. 4. È possibile affermare che più del 30% dei curriculum ricevuti proviene da candidati inglesi? 1. Le frequenze relative e relative cumulate delle tre distribuzioni sono: Età classi n i f i F i 23 31.75 6 0.3 0.3 31.75 40.5 5 0.25 0.55 40.50 49.25 6 0.3 0.85 49.25 58 3 0.15 1 Totale 20 Livello minimo di reddito classi n i f i F i 0.9 1.525 6 0.3 0.3 1.525 2.15 8 0.4 0.7 2.15 2.775 3 0.15 0.85 2.775 3.4 3 0.15 1 Totale 20 Cittadinanza x i n i f i F i italiana 8 0.4 0.4 inglese 2 0.1 0.5 belga 2 0.1 0.6 spagnola 3 0.15 0.75 francese 3 0.15 0.9 tedesca 2 0.1 1 Totale 20 2. Dalla distribzione di frequenza Età, si osserva che in corrispondenza della classe 31.75 40.5 la frequenza relativa cumulata F i = 0.55, ovvero il 55% delle unità statistiche ha un età 40.5 anni. Quindi dalla verifica risulta che meno del 70% delle unità statistiche ha un età inferiore a 40 anni e quindi l affermazione è falsa.
1.1. DISTRIBUZIONI DI FREQUENZA E RAPPRESENTAZIONI GRAFICHE 7 3. Dalla prima frequenza relativa cumulata della distribuzione Livello minimo di reddito si osserva che il 30% accetterebbe l impiego con un reddito 1525Euro. Quindi è possibile solo affermare che più del 20% accoglierebbe la proposta di impiego se venisse offerto un reddito 1525Euro mentre non si è in grado di individuare la percentuale di coloro che accetterebbero l impiego con un reddito minimo pari a 1525Euro. 4. L affermazione è falsa in quanto, osservando le frequenze relative della distribuzione Cittadinanza, solo il 10% dei curriculum ricevuti proviene da candidati di cittadinanza inglese. Esercizio 3 Utilizzando i dati e le distribuzioni di frequenza dell Esercizio 1: 1. Rappresentare graficamente i caratteri Cittadinanza e Livello minimo di reddito desiderato utilizzando rispettivamente un diagramma a nastri ed un istogramma di frequenze. 2. Rappresentare la funzione di ripartizione della variabile Livello minimo di reddito desiderato 1. Il diagramma a nastri della mutabile Cittadinanza è rappresentato nel seguente grafico: 8 6 n 4 2 0 italiana inglese belga spagnola francese tedesca cittadinanza Figura 1.1: Diagramma a nastri della mutabile Cittadinanza mentre per rappresentare l istogramma della variabile Livello minimo di reddito desiderato è necessario il preliminare calcolo dell intensità associata a ciascuna classe: h i = n i (x i x i 1 ) i = 1,...,k con k il numero di classi, ed i cui valori sono riportati in tabella:
8 CAPITOLO 1. STATISTICA DESCRITTIVA Livello minimo di reddito classi n i h i 0.9 1.525 6 9.6 1.525 2.15 8 12.8 2.15 2.775 3 4.8 2.775 3.4 3 4.8 La rappresentazione grafica dell istogramma è quindi: 12.88 9.66 h i 6.44 3.22 0 0.900 1.525 2.150 2.775 3.400 reddito Figura 1.2: Istogramma della variabile Livello minimo di reddito 2. La funzione di ripartizione richiede l utilizzo delle informazioni contenute nella distribuzione di frequenze Livello minimo di reddito di cui all esercizio 2, da cui segue la rappresentazione: 1.0 0.8 0.6 F i 0.4 0.2 0.0 0 1 2 3 4 reddito Figura 1.3: Funzione di ripartizione empirica della variabile Livello minimo di reddito Esercizio 4 La società Stat s.p.a. ha effettuato un indagine su una popolazione di 15 famiglie sulle quali ha rilevato tre caratteri: la zona di residenza, il reddito medio mensile familiare ed il numero di componenti in età lavorativa, i cui dati sono riportati nella Tabella 1.2.
1.1. DISTRIBUZIONI DI FREQUENZA E RAPPRESENTAZIONI GRAFICHE 9 1. Costruire le distribuzioni di frequenza dei tre caratteri osservati (si costruisca la distribuzione della variabile RM con quattro classi di modalità di uguale ampiezza). 2. Rappresentare graficamente le variabili RM ed NL. Reddito medio N. componenti in età Unità Residenza ( 1000Euro) lavorativa (Res) (RM) (NL) 1 Nord 4.25 2 2 Centro 1.78 1 3 Nord 10.5 3 4 Sud 6.11 3 5 Sud 3.56 2 6 Centro 8.3 4 7 Sud 1.52 1 8 Nord 2.3 0 9 Centro 1.5 1 10 Nord 4.3 2 11 Sud 1.65 0 12 Sud 3.33 2 13 Centro 1.4 1 14 Sud 6.04 4 15 Nord 7.89 3 Tabella 1.2: Dati relativi alla zona di residenza, al reddito medio mensile familiare ed al numero di componenti in età lavorativa di 15 famiglie intervistate 1. Le tre distribuzioni richieste per le variabili in esame sono le seguenti: Residenza x i n i Nord 5 Centro 4 Sud 6 Totale 15 Reddito medio (h = 2.275) classi n i 1.4 3.675 8 3.675 5.95 2 5.95 8.225 3 8.225 10.5 2 Totale 15 N. età lavorativa x i n i 0 2 1 4 2 4 3 3 4 2 Totale 15 2. Le rappresentazioni grafiche opportune per i dati in esame sono il diagramma a nastri per la variabile NL e l istogramma per la variabile RM presentate in Figura 1.4.
10 CAPITOLO 1. STATISTICA DESCRITTIVA 4 3.528 3 2.646 h i n i 2 1.764 1 0.882 0 0 1 2 3 4 NL 0 1.400 3.675 5.950 8.225 10.500 RM Figura 1.4: Diagramma a nastri della variabile NL ed istogramma della variabile RM 1.2 Indici statistici descrittivi Esercizio 5 Utilizzando le distribuzioni di frequenza costruite nell esercizio 1: 1. Calcolare la media di tutte le variabili quantitative. 2. L età media delle unità statistiche è maggiore di 30? 3. La media degli Anni di esperienza lavorativa maturata dalle unità statistiche è almeno pari a 10? 4. Calcolare il valore mediano del Livello minimo di reddito mensile desiderato. 5. Calcolare la mediana dell Età delle unità statistiche. 6. Calcolare la moda della variabile Anni di esperienza lavorativa 7. Assumendo di aver creato per la variabile Anni di esperienza lavorativa la seguente distribuzione di frequenze con 4 classi di modalità di differente ampiezza: classi n i 0 9 8 9 17 3 17 23 6 23 32 3 definire la classe modale e calcolare la moda.
1.2. INDICI STATISTICI DESCRITTIVI 11 1. Il calcolo delle medie delle distribuzioni di frequenza in classi richiede il preliminare calcolo del valore centrale di ciascuna classe come riportato nel seguito: Età classi n i c i c i n i 23 31.75 6 27.375 164.250 31.75 40.5 5 36.125 180.625 40.50 49.25 6 44.875 269.250 49.25 58 3 53.625 160.875 Totale 20 775 k µ = 1 N c i n i = 38.75 i=1 Livello minimo di reddito classi n i c i c i n i 0.9 1.525 6 1.213 7.278 1.525 2.15 8 1.838 14.704 2.15 2.775 3 2.463 7.389 2.775 3.4 3 3.088 9.264 Totale 20 38.635 k µ = 1 N c i n i = 1.932 i=1 Anni di esperienza lavorativa classi n i c i c i n i 0 8 8 4 32 8 16 3 12 36 16 24 6 20 120 24 32 3 28 84 Totale 20 272 k µ = 1 N c i n i = 13.6 i=1 2. La media dell Età delle unità statistiche è pari a 38.750, quindi risulta maggiore di 30. 3. Il numero di Anni di esperienza lavorativa è pari a 13.6 quindi supera gli almeno 10 anni richiesti dal quesito. 4. Il valore della mediana del Livello minimo di reddito è approssimato utilizzando la seguente formula: Me x i 1 + (x i x i 1 ) 0.5 F i 1 F i F i 1 Quindi identificata la classe mediana, x i 1 x i : F i 0.5, data da 1.525 2.15, il valore approssimato della mediana è: 0.5 0.3 Me 1.525 + (2.15 1.525) 0.7 0.3 = 1.837 5. Per il calcolo della mediana della variabile Età valgono le stesse considerazioni fatte al punto precedente, quindi: 0.5 0.3 Me 31.75 + (40.5 31.75) 0.55 0.3 = 38.75
12 CAPITOLO 1. STATISTICA DESCRITTIVA 6. La moda della variabile Anni di esperienza lavorativa è pari al valore centrale della classe modale 0 8, ovvero Mo = 4 7. Per individuare la classe modale in presenza di classi di diversa ampiezza, è necessario calcolare l intensità associata a ciascuna classe x i 1 x i, data da: h i = n i (x i x i 1 ) i = 1,...,k quindi Anni di esperienza lavorativa classi n i h i 0 9 8 0.89 9 17 3 0.38 17 23 6 1.00 23 32 3 0.33 Totale 20 da cui emerge che la classe modale è 17 23 perchè ad essa è associata la massima intensità, ed il valore approssimato della moda è: Mo (x i i + x i ) 2 = 17 + 23 2 Esercizio 6 Utilizzando i dati in Tabella 1.1 relativi alla variabile Livello minimo di reddito e la corrispondente distribuzione di frequenze nell esercizio 1: 1. Calcolare i quartili della variabile in esame. 2. Rappresentarne il box-plot. 3. Sono presenti valori eccezionali nei dati? 4. Assumendo che la società Gamma s.p.a. in occasione di un altra ricerca di personale qualificato abbia rilevato i seguenti livelli minimi di reddito desiderati da ulteriori 20 candidati: = 20 V2 : 4.4 5.2 2.9 2.9 2.9 4.1 1.5 2.9 2.9 0.7 4.8 1.5 2.9 1.5 3.4 5.9 0.7 5.9 8.7 2.9 Rappresentare i box-plot paralleli della variabile Livello minimo di reddito desiderato in Tabella 1.1 (V 1) e della nuova variabile riportata (V 2).
1.2. INDICI STATISTICI DESCRITTIVI 13 1. Il calcolo dei quartili in presenza di una distribuzione di frequenze per classi di modalità richiede nuovamente l impiego di formule di approssimazione: Q 1 x i 1 + (x i x i 1 ) 0.25 F i 1 F i F i 1 Q 3 x i 1 + (x i x i 1 ) 0.75 F i 1 F i F i 1 Segue quindi che i quartili richiesti assumono i seguenti valori: Q 1 = 1.421 Q 2 Me = 1.837 Q 3 = 2.358 2. La rappresentazione grafica, mediante box-plot, della variabile Livello minimo di reddito desiderato richiede l impiego dei quartili appena calcolati e di ulteriori informazioni riportate nel seguito: min(x) = 0.9 max(x) = 3.4 h 1 = Q 1 1.5(Q 3 Q 1 ) = 0.015 H 2 = Q 3 + 1.5(Q 3 Q 1 ) = 3.763 da cui segue il grafico in Figura 1.5. Figura 1.5: Box plot del Reddito Desiderato 3. Dal grafico in Figura 1.5 emerge che non sono presenti valori eccezionali nella serie osservata, infatti h 1 < min(x) ed H 2 > max(x). 4. La rappresentazione mediante box-plot paralleli delle due variabili richiede il preliminare calcolo dei quartili e dei valori cardine della variabile V 2, nonchè la conoscenza del minimo
14 CAPITOLO 1. STATISTICA DESCRITTIVA e del massimo valore assunto da V 2 come già fatto in precedenza per V 1. Tali valori sono pari a: min(x) = 0.7 Q 1 = 2.21 Q 2 = Me = 2.9 Q 3 = 4.6 max(x) = 8.7 h 1 = 1.38 H 2 = 8.19 mentre la rappresentazione grafica richiesta è presentata in Figura 1.6. Emerge immediatamente che V 2 presenta un valore eccezionale, contrassegnato con un asterisco, in corrispondenza del livello di reddito desiderato 8.7. Figura 1.6: Box plot paralleli di V1 e V2 Esercizio 7 Utilizzando i dati in tabella 1.1: 1. Calcolare la varianza della variabile Livello minimo di reddito desiderato avvalendosi della distribuzione di frequenze precedentemente costruita per tale variabile nell esercizio 1. 2. Calcolare la varianza della serie di dati Anni di esperienza lavorativa 3. Utilizzando la serie di dati della variabile Età, calcolare la varianza dell età delle prime 10 unità statistiche. In seguito, calcolare la varianza delle successive 10 ed ultime unità statistiche. 4. La variabilità dell età delle prime 10 unità statistiche è maggiore della variabilità dell età delle ultime 10 unità? 5. Se si standardizza la variabile Livello minimo di reddito desiderato, quale valore assumono la media e la varianza? 6. È possibile affermare che la mutabile cittadinanza ha un elevata eterogeneità?
1.2. INDICI STATISTICI DESCRITTIVI 15 1. Il calcolo della varianza della variabile Livello minimo di reddito è effettuato ricorrendo alla seguente formula: σ 2 = 1 N k (c i µ) 2 n i = µ 2 µ 2 con µ 2 = 1 N i=1 k c 2 in i i=1 A tale scopo è costruita la tabella che segue: Livello minimo di reddito classi n i c i c 2 i n i 0.9 1.525 6 1.213 8.828 1.525 2.15 8 1.838 27.026 2.15 2.775 3 2.463 18.199 2.775 3.4 3 3.088 28.607 Totale 20 82.660 da cui emerge che µ 2 = 4.133 mentre la varianza è pari a σ 2 = 4.133 (1.932) 2 = 0.4. 2. La varianza della serie di dati Anni di esperienza lavorativa è calcolata con: σ 2 = 1 N N (x i µ) 2 = 100.2 i=1 3. Utilizzando la serie di dati Età, segue che la varianza della prima sottoserie data da: 28 34 46 26 37 29 51 31 39 43 è pari a σ 2 1 = 62.44 mentre la seconda sottoserie: ha varianza σ 2 2 = 114.69 58 44 25 23 52 42 48 33 38 46 4. L affermazione è falsa in quanto la variabilità della seconda sottoserie è maggiore della variabilità della prima sottoserie risultando σ 2 2 > σ 2 1. 5. La media della variabile Livello minimo di reddito desiderato standardizzata è pari a 0 mentre la varianza è 1. 6. L eterogeneità della mutabile cittadinanza è possibile misurarla con l indice di mutabilità del Gini o con l indice di entropia di Shannon, rispettivamente pari a: MG r = [ k 1 k 1 k i=1 f 2 i ] H r = k i=1 f i log(f i ) log(k)
16 CAPITOLO 1. STATISTICA DESCRITTIVA con k il numero di modalità per il cui calcolo si utilizzano le informazioni nella seguente tabella: Cittadinanza x i n i f i fi 2 log(f i ) f i log(f i ) italiana 8 0.4 0.16-0.40-0.16 inglese 2 0.1 0.01-1.00-0.10 belga 2 0.1 0.01-1.00-0.10 spagnola 3 0.15 0.02-0.82-0.12 francese 3 0.15 0.02-0.82-0.12 tedesca 2 0.1 0.01-1.00-0.10 Totale 20 0.23-0.70 da cui segue che l indice di mutabilità del Gini è: MG r = 6 5 (1 0.23) = 0.924 mentre l indice di entropia di Shannon è: H r = 0.70 log(6) = 0.90 Dai risultati precedenti è possibile affermare che il fenomeno presenta elevata eterogeneità. Esercizio 8 Utilizzando i dati in Tabella 1.1: 1. Misurare l asimmetria della variabile Livello minimo di reddito desiderato avvalendosi della corrispondente distribuzione di frequenze. 2. Osservando i box plots in Figura 1.5: le due variabili V 1 e V 2 presentano uguale asimmetria e variabilità? 3. La distribuzione della variabile Livello minimo di reddito desiderato può dirsi leptocurtica? 1. L asimmetria della distribuzione della variabile Livello minimo di reddito desiderato è possibile misurarla con indici robusti e non robusti. Qualora si preferiscano questi ultimi ci si può avvalere dell indice di asimmetria di Fisher: γ 1 = 1 Nσ 3 k (x i µ) 3 n i mentre un esempio di indice robusto è la differenza interquartile: i=1 DI r = (Q 3 Q 2 ) (Q 2 Q 1 ) (Q 3 Q 2 ) + (Q 2 Q 1 )
1.2. INDICI STATISTICI DESCRITTIVI 17 Il calcolo di γ 1 richiede l utilizzo dei dati nella tabella che segue: Livello minimo di reddito classi n i c i (c i µ) 3 n i 0.9 1.525 6 1.213-2.23 1.525 2.15 8 1.838-0.007 2.15 2.775 3 2.463 0.449 2.775 3.4 3 3.088 4.634 Totale 20 2.846 ed inoltre risultando, dall esercizio n. 7, che σ 2 = 0.4 = 0.632, segue che: γ 1 = 2.846 20 0.632 3 = 0.564. Il calcolo della differenza interquartile richiede l utilizzo dei quartili calcolati in precedenza e quindi DI r = (2.358 1.837) (1.837 1.421) (2.358 1.837)+(1.837 1.421) = 0.112. 2. L esame dei box-plots evidenzia come la variabile V 2 presenta maggiore variabilità, misurata in termini di differenza tra quartili, rispetto alla V 1 mentre entrambe mostrano asimmetria positiva come è immediatamente valutato dall osservazione della posizione della mediana nei box rappresentati. 3. Per poter rispondere al quesito è necessario calcolare l indice di curtosi: γ 2 = 1 Nσ 4 k (x i µ) 4 n i 3 i=1 dove, da calcoli precedenti, µ = 1.931 e σ = 0.634. Per rendere più agevole il calcolo di γ 2, può essere utile avvalersi dei dati nella seguente tabella: Livello minimo di reddito classi n i c i (c i µ) 4 n i 0.9 1.525 6 1.213 1.603 1.525 2.15 8 1.838 0.001 2.15 2.775 3 2.463 0.239 2.775 3.4 3 3.088 5.357 Totale 20 7.2 da cui segue che: γ 2 = 7.2 20 0.634 4 3 = 0.744 Dai risultati ottenuti è possibile affermare che la distribuzione della variabile Livello minimo di reddito non è leptocurtica ma bensì platicurtica in quanto l indice di curtosi γ 2 è pari a -0.744. Quindi l affermazione è falsa.
18 CAPITOLO 1. STATISTICA DESCRITTIVA Esercizio 9 La società Stat di cui all esercizio 4 desidera fornire al committente dell indagine maggiori dettagli descrittivi sui dati presentati in Tabella 1.2, a tale scopo: 1. Calcolare la media e la varianza delle variabili RM ed NL utilizzando le distribuzioni di frequenza precedentemente costruite. 2. Rappresentare il box plot della variabile RM e commentarlo opportunamente 3. Assumendo che per particolari incentivi governativi il reddito mensile medio familiare subisce la seguente trasformazione lineare: calcolare la media e la varianza di RM N. RM N = 0.3 + 1.15 RM 4. Misurare l asimmetria e la curtosi della variabile RM utilizzando indici non robusti. 5. Misurare l eterogeneità della variabile Res. 1. Il calcolo della media e della varianza delle due variabili è effettuato utilizzando i dati in tabella: Reddito medio - RM classi n i c i c i n i c 2 i n i 1.4 3.675 8 2.538 20.304 51.528 3.675 5.95 2 4.813 9.626 46.330 5.95 8.225 3 7.088 21.264 150.720 8.225 10.5 2 9.363 18.726 175.332 Totale 15 69.920 423.910 N. età lavorativa - NL x i n i x i n i x 2 i n i 0 2 0 0 1 4 4 4 2 4 8 16 3 3 9 27 4 2 8 32 Totale 15 29 79 Da cui segue che le medie sono pari a: µ RM = 1 N k c i n i = 4.66 i=1 µ NL = 1 N N x i n i = 1.93 i=1 mentre le varianze sono: σ 2 RM = µ 2RM µ 2 RM = 28.261 4.661 2 = 6.536 σ 2 NL = µ 2NL µ 2 NL = 5.267 1.933 3 = 1.536 2. Il grafico richiesto è riportato in Figura 1.7 da cui emerge l assenza di valori eccezionali nella variabile di interesse. Inoltre, tenuto conto della posizione delle mediana nel box, è chiaramente visibile la presenza di asimmetria positiva nei dati.
1.2. INDICI STATISTICI DESCRITTIVI 19 Figura 1.7: Box plot della variabile RM 3. Per la soluzione del presente quesito è necessario utilizzare alcune note regole sulle trasformate lineari di variabili. In particolare si dimostra che data la trasformata lineare y = a + bx con media e varianza di x note e rispettivamente indicate con µ x e σ 2 x, la media e la varianza di y sono calcolare con: µ y = a + bµ x σ 2 y = b 2 σ 2 x Quindi nel caso in esame, poichè è noto che µ RM = 4.661 e σ 2 RM = 6.536, allora: µ RMN = 0.3 + 1.15 µ RM = 5.660 σ 2 RM N = 1.15 2 σ 2 RM = 8.644 4. Per la misura dell asimmetria e della curtosi della variabile RM mediante indici non robusti γ 1 e γ 2, si utilizzano i dati della corrispondente distribuzione di frequenze alla quale si aggiungono alcune colonne: Reddito medio - RM classi n i c i c i n i (c i µ) 3 n i (c i µ) 4 n i 1.4 3.675 8 2.538 20.304-76.549 162.514 3.675 5.95 2 4.813 9.626 0.007 0.001 5.95 8.225 3 7.088 21.264 42.887 104.088 8.225 10.5 2 9.363 18.726 207.911 977.598 Totale 15 69.913 174.256 1244.201 Dalle elaborazioni precedenti risulta inoltre che la media e lo scarto quadratico medio della variabile RM sono rispettivamente µ RM = 4.661 e σ RM = 2.557, quindi: γ 1 = 174.256 15 2.557 3 = 0.695 γ 2 = 1244.201 15 2.557 4 3 = 1.06
20 CAPITOLO 1. STATISTICA DESCRITTIVA 5. La misura dell eterogenietà è effettuata in questo caso con l indice di mutabilità del Gini ( ) MG r = k k 1 fi 2 k 1 i=1 per il cui calcolo si utilizzano i dati nella seguente tabella: Residenza x i n i f i fi 2 Nord 5 0.33 0.11 Centro 4 0.27 0.07 Sud 6 0.40 0.16 Totale 15 0.34 Quindi l indice relativo MG r = 0.987 ed evidenzia la presenza di elevata eterogenietà nella mutabile osservata. 1.3 Concentrazione Esercizio 10 Utilizzando i dati della variabile Livello minimo di reddito nell esercizio 1 e la corrispondente distribuzione di frequenze: 1. Misurarne la concentrazione e rappresentare la corrispondente curva di Lorenz. 2. È possibile affermare che il Livello minimo di reddito è equidistribuito? 1. La misura della concentrazione del livello minimo di reddito tramite la distribuzione per classi di modalità precedentemente costruita richiede il calcolo del rapporto di concentrazione: con p i = 1 N i j=1 n j e q i = 1 Nµ R = 1 i c j n j j=1 k (p i p i 1 )(q i + q i 1 ) i=1 per i = 1,2,...,k. Ricordando che la media del livello minimo di reddito è pari a µ = 1.932 (esercizio 5), segue che il denominatore delle q i è N µ = k c i n i = 38.635. i=1
1.3. CONCENTRAZIONE 21 Utilizzando le formule precedenti, si passa al calcolo delle p i e delle q i, come riportato in tabella, e dei termini della sommatoria del rapporto di concentrazione. Livello minimo di reddito classi n i c i c i n i p i q i p i p i 1 = f i q i + q i 1 (q i + q i 1 )f i 0.9 1.525 6 1.213 7.278 0.300 0.188 0.30 0.188 0.056 1.525 2.15 8 1.838 14.704 0.700 0.569 0.40 0.757 0.303 2.15 2.775 3 2.463 7.389 0.850 0.760 0.15 1.329 0.199 2.775 3.4 3 3.088 9.264 1 1 0.15 1.760 0.264 Totale 20 38.635 0.822 Segue quindi che R = 1 0.822 = 0.178, ovvero il fenomeno presenta bassa concentrazione. Impiegando i dati in tabella è possibile rappresentare la curva di Lorenz (Figura 1.8) che dà evidenza grafica dei risultati numerici riportati. Figura 1.8: Curva di Lorenz 2. I dati osservati immediatamente escludono la possibilità che il livello minimo di reddito sia equidistribuito in quanto la condizione teorica che deve verificarsi in questa circostanza è che: Quindi l affermazione è falsa. x 1 = x 2 =... = x N = µ Esercizio 11 È stata misurata la quantità di nitrati (in mg) contenuta in un litro di 10 tipologie di acque commercializzate da un punto vendita, ottenendo i seguenti dati: 15 29 11 18 21 17 34 19 28 41
22 CAPITOLO 1. STATISTICA DESCRITTIVA 1. Misurare la concentrazione dei nitrati delle acque analizzate e rappresentare la spezzata di Lorenz. 2. Può affermarsi che la concentrazione dei nitrati delle acque analizzate è elevata? 1. La misura della concentrazione della serie di dati in esame richiede il preliminare ordinamento, in modo non decrescente, dei dati ed il calcolo dell indice di concentrazione del Gini: R g = N 1 i=1 N 1 (p i q i ) i=1 p i con p i = A tale scopo si costruisce la seguente tabella: i N e q i = 1 Nµ i x (i) p i q i (p i q i ) 1 11 0.1 0.047 0.053 2 15 0.2 0.111 0.089 3 17 0.3 0.184 0.116 4 18 0.4 0.261 0.139 5 19 0.5 0.343 0.157 6 21 0.6 0.433 0.167 7 28 0.7 0.553 0.147 8 29 0.8 0.677 0.123 9 34 0.9 0.823 0.077 10 41 1 1 Totale 233 i j=1 x j da cui emerge che Nµ = N x i = 233 mentre l indice di concentrazione del Gini è R g = i=1 1.068 4.5 = 0.237. La spezzata di Lorenz del fenomeno in esame, che assume la caratteristica forma a gradini, è rappresentata in Figura 1.9. 2. Dai risultati del precedente quesito (indice del Gini) è possibile osservare che i nitrati delle acque analizzate sono poco concentrati quindi nessuna delle acque in esame presenta un livello di nitrati molto più elevato rispetto alle altre. Esercizio 12 La società Stat, utilizzando i dati in Tabella 1.2, vuole fornire alcuni dettagli sulla concentrazione dei redditi delle 15 famiglie intervistate.
1.3. CONCENTRAZIONE 23 Figura 1.9: Spezzata di Lorenz 1. Misurare la concentrazione dei redditi medi (RM) e rappresentare la corrispondente curva di Lorenz (a tale scopo impiegare la distribuzione di frequenze per classi della variabile RM costruita in precedenza); 2. Il reddito medio presenta maggiore concentrazione al Nord o al Sud? 1. La misura della concentrazione della variabile RM richiede il calcolo del rapporto di concentrazione. A tal fine, come già precedentemente descritto nell esercizio 10, si utilizzano i dati nella tabella seguente: Reddito medio - RM classi n i c i c i n i p i q i p i p i 1 = f i q i q i 1 (q i q i 1 )f i 1.4 3.675 8 2.538 20.304 0.533 0.290 0.533 0.290 0.155 3.675 5.95 2 4.813 9.626 0.666 0.428 0.133 0.718 0.095 5.95 8.225 3 7.088 21.264 0.866 6 0.732 0.200 1.160 0.232 8.225 10.5 2 9.363 18.726 1 1 0.133 1.732 0.230 Totale 15 69.920 0.712 da cui segue che il rapporto di concentrazione R = 1 0.712 = 0.288. La curva di Lorenz associata al fenomeno è rappresentata in Figura 1.10 e conferma, anche graficamente, la contenuta concentrazione del reddito medio tra le famiglie intervistate.
24 CAPITOLO 1. STATISTICA DESCRITTIVA Figura 1.10: Curva di Lorenz 2. Per poter rispondere al quesito proposto è necessario misurare la concentrazione del reddito medio delle famiglie residenti al Nord ed al Sud costruendo quindi opportune serie di dati estratte dalla Tabella 1.2 mediante le quali calcolare l indice di concentrazione del Gini. NORD i x (i) p i q i p i q i 1 2.30 0.2 0.079 0.121 2 4.25 0.4 0.224 0.176 3 4.30 0.6 0.371 0.229 4 7.89 0.8 0.641 0.159 5 10.50 1 1 Totale 29.24 0.685 SUD i x (i) p i q i p i q i 1 1.52 0.167 0.068 0.099 2 1.65 0.333 0.142 0.191 3 3.33 0.500 0.292 0.208 4 3.56 0.667 0.452 0.215 5 6.04 0.833 0.724 0.109 6 6.11 1 0.999 Totale 22.21 0.822 da cui segue che l indice di concentrazione del Gini delle due sottopopolazioni è rispettivamente: R g,nord = 0.685 2.0 = 0.343 R g,sud = 0.822 2.5 = 0.329 quindi la concentrazione dei redditi delle famiglie del Nord e del Sud intervistate è simile.
1.4. DISTRIBUZIONI DOPPIE 25 1.4 Distribuzioni Doppie Esercizio 13 Utilizzando le serie di dati in Tabella 1.1: 1. Costruire una distribuzione di frequenze doppia per le variabili Genere e Cittadinanza. 2. La presenza di mutabili nella tabella precedentemente costruita, rende impossibile la misura dell intensità del legame associativo? Motivare la risposta. 3. Costruire una distribuzione di frequenze doppia per le variabili Livello minimo di reddito ed Anni di esperienza utilizzando, per ambo le variabili, 4 classi di modalità della stessa ampiezza. 1. La distribuzione di frequenze richiesta è la seguente: Cittadinanza Genere belga francese inglese italiana spagnola tedesca F 2 2 1 5 1 1 12 M 0 1 1 3 2 1 8 2 3 2 8 3 2 20 2. L intensità del legame associativo è misurato con l indice di Cramer Φ 2. Esso per costruzione richiede il solo utilizzo delle frequenze della distribuzione e quindi è possibile calcolarlo sia quando nella distribuzione doppia si hanno ad oggetto mutabili che variabili. 3. La distribuzione di frequenze doppia delle variabili Livello minimo di reddito ed Anni di esperienza è: Anni di esperienza Reddito minimo 0 8 8 16 16 24 24 32 0.9 1.525 3 1 1 1 6 1.525 2.15 4 2 1 1 8 2.15 2.775 1 0 2 0 3 2.775 3.4 0 0 2 1 3 8 3 6 3 20 Esercizio 14 Avvalendosi della distribuzione doppia delle variabili Livello minimo di reddito ed Anni di esperienza costruita nel precedente esercizio:
26 CAPITOLO 1. STATISTICA DESCRITTIVA 1. È possibile affermare che tra le variabili Livello minimo di reddito ed Anni di esperienza esiste un legame lineare negativo? Perché? 2. Misurare l intensità del legame associativo tra le variabili Livello minimo di reddito ed Anni di esperienza. 3. Misurare la forza del legame lineare tra le variabili Livello minimo di reddito ed Anni di esperienza. 1. È possibile valutare la presenza di un legame lineare negativo calcolando la covarianza tra le variabili Livello minimo di reddito ed Anni di esperienza. A tale scopo, essendo già note le medie delle variabili marginali della distribuzione doppia precedentemente costruita, è utile avvalersi della seguente forma per la covarianza: σ xy = µ xy µ x µ y dove µ x e µ y sono le medie delle variabili marginali e µ xy = 1 N h i=1 j=1 k x i y j n ij. Per il calcolo di µ xy risulta inoltre necessario calcolare i valori centrali delle classi di modalità delle due variabili che sono quindi aggiunti alla precedente tabella: Anni di esperienza 0 8 8 16 16 24 24 32 Reddito minimo c i 4 12 20 28 0.9 1.525 1.213 3 1 1 1 6 1.525 2.15 1.838 4 2 1 1 8 2.15 2.775 2.463 1 0 2 0 3 2.775 3.4 3.088 0 0 2 1 3 8 3 6 3 20 da cui segue che: µ xy = 1 (14.556 + 14.556 + 24.260 + 33.964 + 29.408 + 44.112 + 36.760 + 51.464 + 9.852 + 98.520+ 20 +123.520 + 86.464) = 28.372 dove ad esempio il primo termine della sommatoria è c 1x c 1y n 11 = 1.213 4 3 = 14.556 ed alla stessa maniera si calcolano i restanti termini. Il valore della covarianza è quindi pari a: σ xy = 28.372 1.932 13.6 = 2.097 La covarianza così calcolata è positiva, quindi le variabili Livello minimo di reddito ed Anni di esperienza presentano un legame lineare positivo. Quindi si conclude che l affermazione del quesito in esame è falsa perché la covarianza assume valore positivo.
1.4. DISTRIBUZIONI DOPPIE 27 2. La misura dell intensità del legame associativo richiede il calcolo dell indice di Cramer Φ 2. A tale scopo si calcola prima l indice di Pizzetti-Pearson: χ 2 = h k (n ij n ij )2 n i=i j=1 ij e successivamente: Φ 2 = χ 2 N[min(h,k) 1] L indice di Pizzetti-Pearson richiede il preliminare calcolo delle frequenze teoriche n ij = con i = 1,...,h e j = 1,...,k per le quali è utile costrure la seguente tabella: n i. n.j N Anni di esperienza Reddito minimo 0 8 8 16 16 24 24 32 0.9 1.525 2.40 0.90 1.80 0.90 6 1.525 2.15 3.20 1.20 2.40 1.20 8 2.15 2.775 1.20 0.45 0.90 0.45 3 2.775 3.4 1.20 0.45 0.90 0.45 3 8 3 6 3 20 da cui segue che i termini della sommatoria dell indice χ 2 sono: χ 2 = 0.150 + 0.011 + 0.356 + 0.011 + 0.200 + 0.533 + 0.817 + 0.033 + 0.033 + 0.450 + 1.344 + 0.450 + +1.200 + 0.450 + 1.344 + 0.672 = 8.054 dove ad esempio il primo termine è (n11 n 11 )2 n = (3 2.40)2 11 2.40 = 0.150 e così via i restanti. L indice di Cramer è infine pari a Φ 2 = 8.054 20 3 = 0.134 da cui emerge che le due variabili presentano un debole legame associativo. 3. La misura della forza del legame lineare è fornita dall indice di correlazione per la cui costruzione è richiesto l utilizzo di alcuni indici già calcolati in precedenza, dati dalla covarianza tra le due variabili e dai rispettivi scarti quadratici medi. Dal primo quesito del presente esercizio risulta che la covarianza tra le variabili Livello minimo di reddito ed Anni di esperienza è σ xy = 2.097, mentre dall esercizio 7 la varianza del Livello minimo di reddito è σ 2 x = 0.4 e quindi σ x = 0.632. Resta quindi da calcolare la varianza della variabile Anni di esperienza per la quale si utilizza la distribuzione di frequenze costruita per tale variabile nell esercizio 1 alla quale sono aggiunte alcune colonne necessare per il calcolo dei momenti della variabile:
28 CAPITOLO 1. STATISTICA DESCRITTIVA Anni di esperienza classi n i c i c i n i c 2 i n i 0 8 8 4 32 128 8 16 3 12 36 432 16 24 6 20 120 2400 24 32 3 28 84 2352 Totale 20 272 5312 Dai dati in tabella si deriva che: µ y = 272 20 = 13.6 µ 2y = 5312 20 = 265.6 σ2 y = 256.6 13.6 2 = 80.64 e quindi σ y = 8.98 Utilizzando gli indici statistici opportunamente calcolati, l indice di correlazione è: ρ xy = 2.097 0.632 8.98 = 0.369 quindi le due variabili presentano un legame lineare positivo piuttosto debole. Esercizio 15 Utilizzando i dati in Tabella 1.2: 1. Costruire la distribuzione di frequenze doppia per le variabili RM ed Res (utilizzando per la variabile RM quattro classi di modalità di uguale ampiezza). 2. Misurare l intensità del legame associativo tra le variabili RM e Res. 1. La distribuzione di frequenze doppia delle variabili RM e Res è: Res RM Nord Centro Sud 1.4 3.675 1 3 4 8 3.675 5.95 2 0 0 2 5.95 8.225 1 0 2 3 8.225 10.5 1 1 0 2 5 4 6 15
1.4. DISTRIBUZIONI DOPPIE 29 2. Come visto nell esercizio precedente la misura del legame associativo richiede il preliminare calcolo dell indice di Pizzetti-Pearson χ 2 e la sua successiva normalizzazione data dall indice Φ 2. A tale scopo si costruisce la seguente tabella delle frequenze teoriche: Res RM Nord Centro Sud 1.4 3.675 2.667 2.133 3.200 8 3.675 5.95 0.667 0.533 0.800 2 5.95 8.225 0.667 0.533 0.800 3 8.225 10.5 1 1 0 2 5 4 6 15 da cui segue che l indice χ 2 è: χ 2 = h i=i j=1 k (n ij n ij )2 = n ij = 1.042 + 0.352 + 0.2 + 2.6640.533 + 0.8 + 0.8 + 0.533 + 0.166 + 0.409 + 0.8 = 8.30 e quindi: Φ 2 = legame associativo. χ 2 N[min(h,k) 1] = 8.30 15 2 = 0.277, ovvero le le due variabili hanno un debole Esercizio 16 Utilizzando nuovamente i dati in Tabella 1.2: 1. Costruire per le variabili RM e NL una distribuzione di frequenze doppia (utilizzando per la variabile RM quattro classi di modalità della stessa ampiezza e per la variabile NL due classi di modalità di pari ampiezza). 2. Misurare la forza del legame lineare tra RM ed NL impiegando la distribuzione di frequenze doppia costruita nel precedente quesito. 3. Misurare la covarianza tra la variabile NL ed RM N precedentemente definita con la trasfromata lineare: RM N = 0.3 + 1.15 RM 4. Quale valore assume la correlazione tra RM N ed NL? 5. Calcolare la covarianza tra le variabili RM ed NL impiegando le due corrispondenti serie di dati.
30 CAPITOLO 1. STATISTICA DESCRITTIVA 1. La distribuzione di frequenze doppia delle variabili RM ed NL è: RM 0 2 2 4 1.4 3.675 8 0 8 3.675 5.95 2 0 2 5.95 8.225 0 3 3 8.225 10.5 0 2 2 10 5 15 2. Per misurare della forza del legame lineare è possibile avvalersi di alcune informazioni già disponibili in precedenti quesiti. Infatti ricordando che: ρ RM,NL = σ RM,NL σ RM σ NL dove σ RM,NL = µ RM,NL µ RM µ NL, dai risultati nell esercizio 9 segue che: µ RM = 4.66 σ RM = 2.557 La media e la varianza della variabile marginale NL sono calcolate agevolmente utilizzando la tabella che segue: NL classi c i n i c i n i c 2 i n i 0 2 1 10 10 10 2 4 3 5 15 45 Totale 15 25 55 i=1 j=1 e quindi µ NL = 1.667, µ 2 NL = 3.667, σ2 NL = 0.888 e σ NL = 0.942. 4 2 Resta ora da calcolare il momento misto µ RM,NL = 1 15 x i y i n ij per il quale sono necessari i valori centrali delle classi delle due variabili, c i, riportati in tabella: 0 2 2 4 RM c i 1 3 1.4 3.675 2.538 8 0 8 3.675 5.95 4.813 2 0 2 5.95 8.225 7.088 0 3 3 8.225 10.5 9.363 0 2 2 10 5 15
1.4. DISTRIBUZIONI DOPPIE 31 Segue quindi che: µ RM,NL = 1 (20.304 + 9.626 + 63.792 + 56.178) = 9.993 15 mentre la covarianza è: σ RM,NL = 2.225. Dai risultati precedenti il valore della correlazione è: ρ RM,NL = 9.993 2.557 0.942 = 0.923 che evidenzia la presenza di forte legame lineare positivo tra le due variabili. 3. L impiego di alcune note regole sulle trasformate lineari agevola il calcolo della covarianza tra le variabili NL ed RM N. In particolare ricordando che date due trasformate lineari, U e V : V = a + bx U = c + dy la loro covarianza è: σ U,V = bd σ X,Y l utilizzo di quest ultima regola rende immediato il calcolo della covarianza richiesta. Infatti: σ RMN,NL = 1.15 σ RM,NL = 2.556 4. La correlazione tra le variabili RM N ed NL è invariata rispetto alla correlazione tra RM ed NL in quanto, utilizzando ancora una volta alcune regole sulle trasformate lineari: ρ RMN,NL = 1.15 1.15 ρ RM,NL = 0.923 5. È noto che il calcolo degli indici statistici mediante l utilizzo delle distribuzioni di frequenza per classi rende il risultato conseguito approssimato rispetto a quello ottenuto dall impiego delle serie di dati. Per tale motivo si ripetono i calcoli della misura della correlazione tra le variabili RM ed NL avvalendosi delle corrispondenti serie di dati in Tabella 1.2. In particolare i momenti delle due variabili sono calcolati utilizzando i dati nella tabella che segue da cui si deriva che: µ RM = 4.295 µ NL = 1.933 µ RM,NL = 11.196 σ RM,NL = 2.894
32 CAPITOLO 1. STATISTICA DESCRITTIVA i RM NL RM NL 1 4.25 2 8.50 2 1.78 1 1.78 3 10.5 3 31.50 4 6.11 3 18.33 5 3.56 2 7.12 6 8.3 4 33.20 7 1.52 1 1.52 8 2.3 0 0.00 9 1.5 1 1.50 10 4.3 2 8.60 11 1.65 0 0.00 12 3.33 2 6.66 13 1.4 1 1.40 14 6.04 4 24.16 15 7.89 3 23.67 Totale 64.43 29 167.94 Esercizio 17 Si consideri la seguente distribuzione di frequenze doppia nella quale sono presi in esame il numero di clienti di 100 aziende (NC) e l ammontare delle spese di rappresentanza (SR): NC SR 10 20 20 30 30 40 40 50 50 60 60 70 1 3.5 10 8 3 6 12 2 3.5 6 0 4 2 4 1 0 6 8.5 1 5 3 7 11 3 8.5 11 3 0 2 4 0 9 1. Calcolare le medie delle sei distribuzioni condizionate SR NC. 2. È possibile affermare che le distribuzioni condizionate derivate al punto precedente sono indipendenti in media? 3. Misurare la connessione tra le due variabili SR ed NC. 4. Dai risultati precedenti, è possibile affermare che NC ha una forte influenza su SR? 1. Il calcolo delle medie condizionate richiede l utilizzo delle informazioni nella tabella proposta che sono integrate con le frequenze marginali ed i valori centrali delle classi di modalità delle due variabili:
1.4. DISTRIBUZIONI DOPPIE 33 NC SR 10 20 20 30 30 40 40 50 50 60 60 70 c i 15 25 35 45 55 65 1 3.5 2.250 10 8 3 6 12 2 41 3.5 6 4.750 0 4 2 4 1 0 11 6 8.5 7.250 1 5 3 7 11 3 30 8.5 11 9.750 3 0 2 4 0 9 18 14 17 10 21 24 14 100 2. Le medie delle sei distribuzioni condizionate SR NC sono quindi così calcolate: SR NC = 15 n i c i n i 2.250 10 22.50 4.750 0 0.00 7.250 1 7.25 9.750 3 29.25 Totale 14 59 µ SR NC=15 = 4.214 SR NC = 25 n i c i n i 2.250 8 18 4.750 4 19 7.250 5 36.25 9.750 0 0 Totale 17 73.25 µ SR NC=25 = 4.309 SR NC = 35 n i c i n i 2.250 3 6.75 4.750 2 9.50 7.250 3 21.75 9.750 2 19.50 Totale 10 57.5 µ SR NC=35 = 5.75 SR NC = 45 n i c i n i 2.250 6 13.50 4.750 4 19.00 7.250 7 50.75 9.750 4 39.00 Totale 21 122.25 µ SR NC=45 = 5.821 SR NC = 55 n i c i n i 2.250 12 27.00 4.750 1 4.75 7.250 11 79.75 9.750 0 0.00 Totale 24 111.5 µ SR NC=55 = 4.646 SR NC = 65 n i c i n i 2.250 2 4.50 4.750 0 0.00 7.250 3 21.75 9.750 9 87.75 Totale 14 114 µ SR NC=65 = 8.143 3. Il carattere SR non è indipendente in media da NC in quanto le medie condizionate di SR NC sono differenti tra di loro ed a loro volta sono differenti dalla media della variabile marginale SR, quindi la condizione di indipendenza in media data da: non è soddisfatta. µ x y1 = µ x y2 =... = µ x yh = µ x 4. La misura della connessione è effettuata mediante l indice η x y = var(µ x yj ) var(x) (dove x ed y corrispondono rispettivamente ad SR ed N C). Dalla formula appena proposta emerge la necessità di calcolare la varianza delle medie condizionate e la varianza della variabile marginale SR. A tale scopo si utilizzano le medie delle distribuzioni condizionate del precedente quesito e la loro varianza è calcolata con: var(µ x yj ) = 1 N h (µ x yj µ x ) 2 n.j j=1
34 CAPITOLO 1. STATISTICA DESCRITTIVA dove risulta necessario calcolare prima la media della marginale SR e successivamente si ottiene la varianza delle medie condizionate. È noto dalla teoria che µ x = E[µ x yj ] quindi (ed è possibile verificarlo empiricamente) è indifferente calcolare la media di SR utilizzando la distribuzione marginale SR dalla tabella doppia costruita nel primo quesito, oppure ottenerla come media delle medie condizionate delle distribuzioni SR NC. Infatti nel primo caso si ha che: SR c i n i c i n i 1 3.5 2.250 41 92.25 3.5 6 4.750 11 52.25 6 8.5 7.250 30 217.50 8.5 11 9.750 18 175.50 Totale 100 537.50 e quindi µ SR = 5.375, mentre nel secondo caso: µ SR NC n.j µ SR NC n.j 4.214 14 58.996 4.309 17 73.253 5.75 10 57.500 5.821 21 122.241 4.646 24 111.504 8.143 14 114.002 Totale 100 537.496 la cui media è ancora pari a 5.375. Le varianze della variabile marginale SR e delle medie condizionate µ SR NC sono invece ottenute con: SR c i n i c 2 i n i 1 3.5 2.250 41 207.563 3.5 6 4.750 11 248.188 6 8.5 7.250 30 1576.875 8.5 11 9.750 18 1711.125 Totale 100 3743.751 µ SR NC n.j (µ SR NC µ SR ) 2 n.j 4.214 14 18.871 4.309 17 19.318 5.75 10 1.406 5.821 21 4.177 4.646 24 12.755 8.143 14 107.266 Totale 100 163.793 da cui segue che il momento secondo della variabile marginale SR è µ 2SR = 37.438 e quindi la varianza è σ 2 SR = 37.438 (5.375)2 = 8.547 mentre la varianza delle medie condizionate σ 2 µ SR NC = 1.638
1.5. NUMERI INDICI 35 L indice di connessione diventa quindi: η SR NC = 1.638 8.547 = 0.438 5. Il risultato conseguito con l indice di connessione permette di affermare che SR è dipendente in media da NC ma tale influenza non è forte. 1.5 Numeri Indici Esercizio 18 Il proprietario di un hotel chiede al suo consulente contabile alcune informazioni sulle spese sostenute per l acquisto di quattro beni negli ultimi 5 anni. A tale scopo gli fornisce alcuni dati relativi al costo medio unitario (in Euro) ed al numero di unità di beni acquistati nei 5 anni di riferimento: Televisori Condizionatori Frigo Bar Impianti Stereo Anni prezzo quantità prezzo quantità prezzo quantità prezzo quantità ( 100) ( 100) ( 100) ( 100) 1999 2.5 2 4 3 2.8 10 2.6 11 2000 2.7 7 4.8 6 3.1 2 2.9 5 2001 2.8 6 5.2 1 3.3 4 3.6 4 2002 3.1 15 4.9 4 3.5 1 2.8 3 2003 2.9 9 4.2 7 3.4 3 2.5 6 Il proprietario dell hotel, allo scopo di avere dati di sintesi, chiede: 1. La serie dei numeri indici a base fissa 2001 dei prezzi dei Televisori 2. La serie dei numeri indici a base mobile dei prezzi dei Televisori 3. Le serie dei numeri indici di Laspeyres e di Paasches con anno base 2000. 1. La costruzione della serie dei numeri indici a base fissa 2001 dei prezzi dei Televisori è effettuata utilizzando i seguenti rapporti: pertanto la serie richiesta è: 01I t = p t p 01 t = 1999,...,2003
36 CAPITOLO 1. STATISTICA DESCRITTIVA Anno 1999 2000 2001 2002 2003 01I t 0.893 0.964 1.00 1.107 1.036 2. La serie dei numeri indici a base mobile è invece costruita con: e quindi: t 1I t = p t p t 1 t = 1999,...,2003 Anno 1999 2000 2001 2002 2003 t 1I t - 1.080 1.037 1.107 0.935 3. I numeri indici di Laspeyres e Paasches con anno base 2000 sono calcolati utlizzando le seguenti formule: 00I L t = k p t,i q 00,i i=1 00It k P = p 00,i q 00,i i=1 k p t,i q t,i i=1 t = 1999,...,2003 k p 00,i q t,i i=1 pertanto le corrispondenti serie sono calcolate utilizzando i dati nella seguente tabella dove sono prima calcolati i singoli termini della sommatoria e successivamente è calcolato l indice. Numeri indici di Laspeyres Televisori Condizionatori Frigo Bar Impianti Stereo Indice di Laspeyres k Anni p t q 0 p t q 0 p t q 0 p t q 0 p ti q 00,i 1999 17.5 24 5.6 13 60.1 0.879 2000 18.9 28.8 6.2 14.5 68.4 1.000 2001 19.6 31.2 6.6 18 75.4 1.102 2002 21.7 29.4 7 14 72.1 1.054 2003 20.3 25.2 6.8 12.5 64.8 0.947 i=1 00 I L t In maniera simile è costruita la serie dei numeri indici di Paasches che, a differenza del indice di Laspeyres, richiede maggiori calcoli come evidenziato dalle seguenti tabelle.
1.5. NUMERI INDICI 37 Numeratori dei numeri indici di Paasches Televisori Condizionatori Frigo Bar Impianti Stereo Anni p t q t p t q t p t q t p t q t k 1999 5 12 28 28.6 73.6 2000 18.9 28.8 6.2 14.5 68.4 2001 16.8 5.2 13.2 14.4 49.6 2002 46.5 19.6 3.5 8.4 78 2003 26.1 29.4 10.2 15 80.7 Denominatori dei numeri indici di Paasches Televisori Condizionatori Frigo Bar Impianti Stereo Anni p 0 q t p 0 q t p 0 q t p 0 q t k 1999 5.4 14.4 31 31.9 82.7 2000 18.9 8.8 6.2 14.5 68.4 2001 16.2 4.8 12.4 11.6 45 2002 40.5 19.2 3.1 8.7 71.5 2003 24.3 33.6 9.3 17.4 84.6 i=1 i=1 p ti q t,i p 0i q t,i e quindi la serie dei numeri indici di Paasches è: Anno 1999 2000 2001 2002 2003 00It P 0.890 1.000 1.102 1.091 0.954 Esercizio 19 Un gruppo di consumatori ha rilevato mensilmente i prezzi (in Euro) e le quantità di 4 beni di prima necessità da loro acquistati in un semestre: Bene A Bene B Bene C Bene D Mesi prezzo quantità prezzo quantità prezzo quantità prezzo quantità Gennaio 1.6 10 3.7 15 0.7 21 7.8 12 Febbraio 1.9 14 3.9 12 1.1 26 8.2 15 Marzo 2.3 11 4.5 18 1.3 23 8.4 9 Aprile 2.1 16 4.2 11 1.6 28 8.5 13 Maggio 2.2 9 4.4 16 1.9 24 8.1 12 Giugno 2.4 8 4.8 10 2.1 31 8.8 9 1. Calcolare la serie dei numeri indici, a base fissa Marzo, dei prezzi del bene B. 2. Utilizzando quest ultima serie, effettuare uno slittamento di base riportando i numeri indici alla base Gennaio
38 CAPITOLO 1. STATISTICA DESCRITTIVA 3. Dai risultati del precedente quesito, è vero che il prezzo del Bene B ha subito un decremento nel mese di Giugno rispetto a Gennaio? Commentare la risposta. 4. Calcolare la serie dei numeri indici a base mobile dei prezzi del bene C. 5. Osservando quest ultima serie di numeri indici, i prezzi del bene C hanno subito decrementi nel breve periodo? 6. Utilizzando la serie dei numeri indici a base mobile, costruire la serie dei numeri indici a base fissa Febbraio. 1. La serie dei numeri indici a base fissa Marzo dei prezzi del bene A è generata come segue: MarzoI t = p t p Marzo quindi la serie completa è pari a: t = Gennaio,...,Giugno Mese Gennaio Febbraio Marzo Aprile Maggio Giugno MarzoI t 0.822 0.867 1.000 0.933 0.978 1.067 2. Per effettuare lo slittamento di base richiesto per la serie Marzo I t, si utilizza la seguente formula: MarzoI t GennaioI t = MarzoI Gennaio t = Gennaio,...,Giugno dove il denominatore rimane costante ed è pari a Marzo I Gennaio = 0.822 mentre la serie completa dei numeri indici generata da tale cambiamento di base è: Mese Gennaio Febbraio Marzo Aprile Maggio Giugno MarzoI t 1.000 1.054 1.216 1.135 1.189 1.297 3. L affermazione è falsa in quanto Gennaio I Giugno = 1.297, ovvero il bene in esame presenta un numero indice maggiore di uno e quindi nel mese di giugno il prezzo del bene B risulta maggiore del prezzo osservato nel mese di Gennaio. In particolare tale incremento è stato del 29.7%. 4. La serie dei numeri indici a base mobile per il bene C è generata, come visto in precedenza, con: t 1I t = p t p t 1 t = Gennaio,...,Giugno da cui si ottiene:
1.5. NUMERI INDICI 39 Mese Gennaio Febbraio Marzo Aprile Maggio Giugno t 1I t - 1.571 1.182 1.231 1.188 1.105 5. Dalla serie dei numeri indici a base mobile si osserva che in tutti i mesi oggetto di rilevazione vi è stato un incremento dei prezzi rispetto al mese immediatamente precedente. Tale incremento è piuttosto marcato tra i mesi di Gennaio e Febbraio (in cui i prezzi si sono accresciuti del 57,1%) e meno elevato tra il mese di Maggio e Giugno in cui l incremento è del 10,5%. 6. Per generare la serie dei numeri indici a base fissa del bene C partendo da quelli a base mobile, si utilizza la seguente relazione: 1I t = 1 I 2 2I 3... t 2 I t 1 t 1 I t Nel caso in esame è richiesto di costruire una serie dei numeri indici la cui base fissa non coincide con il primo mese di rilevazione, come prevede invece la formula presentata, quindi si rende necessario prima costruire la serie dei numeri indici a base fissa Gennaio e successivamente, mediante un cambio di base, generare la serie dei numeri indici a base fissa Febbraio. Quindi si ottiene che le due serie da generare sono le seguenti: Mese Gennaio Febbraio Marzo Aprile Maggio Giugno GennaioI t 1.000 1.571 1.857 2.286 2.714 3.000 FebbraioI t 0.636 1.000 1.182 1.455 1.727 1.909 dove i numeri indici a base fissa Gennaio sono calcolati con: GennaioI Febbraio = Gennaio I Febbraio = 1.571 GennaioI Marzo = Gennaio I Febbraio Febbraio I Marzo = 1.571 1.182 = 1.857 GennaioI Aprile = Gennaio I Febbraio Febbraio I Marzo Marzo I Aprile = 1.571 1.182 1.231 = 2.286 e cos ì via. mentre il successivo slittamento di base necessario per generare la serie dei numeri indici con base Febbraio è ottenuto dividendo Gennaio I t con il valore di Gennaio I Febbraio = 1.571 (per t= Gennaio,...,Giugno). Esercizio 20 Utilizzando i dati dell esercizio precedente: 1. Costruire la serie dei numeri indici composti di Laspeyres con base Aprile per i 4 beni in esame. 2. Osservando i risultati del precedente quesito, il paniere dei quattro beni esaminati dai consumatori ha subito incrementi nei prezzi tra il mese di Aprile ed il mese di Maggio? 3. Costruire la serie dei numeri indici composti di Paasches con base Aprile per i 4 beni in esame.
40 CAPITOLO 1. STATISTICA DESCRITTIVA 1. Come nell esercizio 18, la costruzione della serie dei numeri indice di Laspeyres può essere semplificata utilizzando la seguente tabella: Numeri indici di Laspeyres Bene A Bene B Bene C Bene D Indice di Laspeyres Mesi p t q Aprile p t q Aprile p t q Aprile p t q Aprile k p t,i q Aprile,i i=1 Aprile I L t Gennaio 25.6 40.7 19.6 101.4 187.3 0.797 Febbraio 30.4 42.9 30.8 106.6 210.7 0.896 Marzo 36.8 49.5 36.4 109.2 231.9 0.986 Aprile 33.6 46.2 44.8 110.5 235.1 1.000 Maggio 35.2 48.4 53.2 105.3 242.1 1.030 Giugno 38.4 52.8 58.8 114.4 264.4 1.125 in cui nell ultima colonna è presente la serie richiesta. 2. La serie dei numeri indici di Laspeyres evidenzia che il paniere dei beni esaminati ha subito un incremento del 3% tra il mese di Aprile ed il mese di Maggio e quindi l effermazione è vera. 3. Anche la soluzione del presente quesito segue gli stessi passi dell esercizio 18. In particolare è calcolato il numeratore ed il denominatore dell indice di Laspeyres e quindi si passa alla costruzione degli opportuni rapporti. Nella seguente tabella sono riportati in maniera più sintetica rispetto all esercizio precedente i risultati: Numeri indici di Paasches k k Mesi p t,i q t,i p 0,i q t,i i=1 i=1 Indice di Paasches Gennaio 179.8 219.6 0.819 Febbraio 225 248.9 0.904 Marzo 211.8 212 0.999 Aprile 235.1 235.1 1.000 Maggio 233 226.5 1.029 Giugno 211.5 184.9 1.144
1.6. INTERPOLAZIONE 41 1.6 Interpolazione Esercizio 21 La società Gamma s.p.a. utilizzando i dati in tabella 1.1 vuole valutare se un modello di interpolazione lineare sia in grado di descrivere la relazione esistente tra le variabili Livello minimo di reddito mensile desiderato (RM) ed Anni di esperienza lavorativa(al). A tale scopo: 1. Rappresentare graficamente le coppie di valori (AL,RM) 2. Osservando la nuvola di punti, è possibile affermare che tra le due variabili esiste un legame lineare positivo? 3. Stimare i parametri del modello di interpolazione lineare: RM = a + bal + e 4. Utilizzando il modello di interpolazione stimato, a quale livello minimo di reddito ambirebbe un individuo con 30 anni di esperienza lavorativa? 5. Se la variabile RM aumenta del 40%, le stime del modello di interpolazione restano immutate o cambiano? 6. Se cambiano, riscrivere il nuovo modello di interpolazione stimando i parametri facendo uso delle regole delle trasformate lineari. 1. La rappresentazione grafica delle coppie di valori (AL, RM) è fornita dal diagramma scatter in Figura 1.11 Figura 1.11: Diagramma scatter delle coppie di valori (AL i,rm i )
42 CAPITOLO 1. STATISTICA DESCRITTIVA 2. La nuvola di punti del grafico evidenzia un legame lineare positivo tra le due variabili. Infatti, ad eccezione di qualche punto, tutte le coppie di valori possono essere ben interpolate da un retta crescente. 3. La stima dei parametri a e b del modello di interpolazione lineare è ottenuta con: â = Ȳ ˆb X ˆb = S XY S 2 X dove Y = RM ed X = AL Si rende quindi necessario calcolare la covarianza tra le due variabili in esame, la varianza della variabile indipendente AL e le medie di ambo le variabili. In particolare la covarianza e la varianza sono calcolate rispettivamente con: A tal fine si fa uso dei dati in tabella: S XY = m XY X Ȳ S2 X = m 2X X 2 unità RM AL RM AL AL 2 1 2.3 2 4.6 4 2 1.6 8 12.8 64 3 1.2 21 25.2 441 4 0.9 1 0.9 1 5 2.1 15 31.5 225 6 1.6 3 4.8 9 7 1.8 28 50.4 784 8 1.4 5 7.0 25 9 1.2 13 15.6 169 10 2.8 20 56.0 400 11 3.4 32 108.8 1024 12 2.7 23 62.1 529 13 1.6 1 1.6 1 14 1.2 0 0.0 0 15 1.1 29 31.9 841 16 2.5 18 45.0 324 17 2 19 38.0 361 18 1.7 7 11.9 49 19 2.1 12 25.2 144 20 3.2 23 73.6 529 Totale 38.40 280 606.9 5924 Segue quindi che le medie delle due variabili sono X = 280 38.4 20 = 14 e Ȳ = 20 = 1.92, il momento misto m XY = 606.9 20 = 30.345 mentre il momento secondo di AL è m 2X = 5924 20 = 296.2. Si ottiene così che: S XY = 30.345 14 1.92 = 3.465 S 2 X = m 2X X 2 = 296.2 14 2 = 100.2
1.6. INTERPOLAZIONE 43 Quindi le stime dei parametri sono: 3.465 ˆb = = 0.035 â = 1.92 0.035 14 = 1.43 100.2 ed il modello di interpolazione lineare stimato è: ˆ RM i = 1.43 + 0.035 AL i i = 1,2,...,20 4. Assumendo che il modello di interpolazione lineare descrive correttamente il fenomeno oggetto di studio, un individuo con 30 anni di esperienza (ovvero AL = 30) desidera il seguente livello di reddito: RM = 1.43 + 0.035 30 = 2.48 5. L incremento del 40% di RM, come atteso, non lascia immutate le stime del modello di interpolazione. Questo risultato emerge con evidenza se si osserva che tale variazione modifica alcuni indici precedentemente calcolati. Infatti la nuova variabile è RM = RM + 0.40 RM ovvero RM = 1.40 RM e quindi si ottiene, utilizzando le regole delle trasformate lineari, che: la media di RM RM = 1.40RM = 1.40 1.92 = 2.688 la varianza di RM S 2 RM = 1.402 S 2 RM = 0.949 la covarianza tra AL ed RM che quindi differiscono dai valori precedenti. S AL,RM = 1.40 S AL,RM = 4.851 6. Utilizzando i risultati del precedente quesito è immediato stimare i parametri del modello di interpolazione lineare: Infatti i parametri stimati a e b diventano: RM = a + b AL + e ˆb = S AL,RM S 2 AL = 4.851 100.2 = 0.048 â = RM ˆb AL = 2.688 0.048 14 = 2.016 e quindi il modello stimato è: ˆ RM i = 2.016 + 0.048 AL i i = 1,...,20
44 CAPITOLO 1. STATISTICA DESCRITTIVA Esercizio 22 Utilizzando i risultati dell esercizio precedente relativi al modello di interpolazione RM = a+bal+ e: 1. Valutare la bontà di accostamento del modello ai dati utilizzando l indice R 2. 2. È vero che il modello stimato spiega almeno il 30% della variabilità totale? 3. Effettuare l analisi grafica dei residui e commentare i risultati. 1. La verifica della bontà di accostamento del modello ai dati è effettuato mediante il calcolo dell indice R 2 : R 2 = S2 Ŷ S 2 Y dove S 2 è la varianza dei valori interpolati ( RM) ˆ ed S 2 Ŷ Y è la varianza della variabile dipendente (RM). A tale scopo si costruisce un altra tabella, ad integrazione della precedente: unità RM AL RM ˆ RM ˆ RM 2 1 2.3 2 1.500 2.250 5.29 2 1.6 8 1.710 2.924 2.56 3 1.2 21 2.165 4.687 1.44 4 0.9 1 1.465 2.146 0.81 5 2.1 15 1.955 3.822 4.41 6 1.6 3 1.535 2.356 2.56 7 1.8 28 2.410 5.808 3.24 8 1.4 5 1.605 2.576 1.96 9 1.2 13 1.885 3.553 1.44 10 2.8 20 2.130 4.537 7.84 11 3.4 32 2.550 6.503 11.56 12 2.7 23 2.235 4.995 7.29 13 1.6 1 1.465 2.146 2.56 14 1.2 0 1.430 2.045 1.44 15 1.1 29 2.445 5.978 1.21 16 2.5 18 2.060 4.244 6.25 17 2 19 2.095 4.389 4.00 18 1.7 7 1.675 2.806 2.89 19 2.1 12 1.850 3.423 4.41 20 3.2 23 2.235 4.995 10.24 Totale 38.40 280 38.40 76.183 83.400
1.6. INTERPOLAZIONE 45 dove i valori interpolati RM ˆ 1 = 1.43 + 0.035 2 = 1.50 RM ˆ 2 = 1.43 + 0.035 8 = 1.71 RM ˆ 3 = 1.43 + 0.035 21 = 2.165... ˆ RM i (i = 1,...,20) sono ottenuti con: Dai risultati in tabella è possibile calcolare la media di ˆ RM che, come dimostrato dai risultati teorici, coincide con la media di RM: RM ˆ = 38.4 20 = 1.92 mentre il momento secondo m 2 ˆ interpolati è: RM = 76.183 20 = 3.809. Segue così che la varianza dei valori S 2ˆ RM = 3.809 1.922 = 0.123 mentre la varianza dei valori osservati RM è: S 2 RM = 83.4 20 1.922 = 0.484 Si ottiene infine che: R 2 = 0.123 0.484 = 0.254 2. Dal valore calcolato dell indice R 2 si osserva che il modello interpolato spiega il 25.4% della variabilità totale del fenomeno, quindi l affermazione è falsa. 3. Per effettuare l analisi grafica dei residui si rende necessario calcolare i residui stimati ê i = RM i RM ˆ i, i = 1,2,...,20, come presentato in Tabella 1.3. L analisi grafica dei residui è poi effettuata rappresentando graficamente le coppie di valori (i,ê i ) in Figura 1.12 ed (ê i,ê i 1 ) in Figura 1.13.
46 CAPITOLO 1. STATISTICA DESCRITTIVA unità RM AL RM ˆ ê i 1 2.3 2 1.500 0.800 2 1.6 8 1.710-0.110 3 1.2 21 2.165-0.965 4 0.9 1 1.465-0.565 5 2.1 15 1.955 0.145 6 1.6 3 1.535 0.065 7 1.8 28 2.410-0.610 8 1.4 5 1.605-0.205 9 1.2 13 1.885-0.685 10 2.8 20 2.130 0.670 11 3.4 32 2.550 0.850 12 2.7 23 2.235 0.465 13 1.6 1 1.465 0.135 14 1.2 0 1.430-0.230 15 1.1 29 2.445-1.345 16 2.5 18 2.060 0.440 17 2 19 2.095-0.095 18 1.7 7 1.675 0.025 19 2.1 12 1.850 0.250 20 3.2 23 2.235 0.965 Totale 38.40 280 38.40 Tabella 1.3: Calcolo dei residui stimati del modello di interpolazione Nella Figura 1.12 si osserva che i punti rappresentati mostrano ancora un andamento crescente. Ciò lascia ipotizzare che il modello esaminato non sia stato in grado di cogliere tutta la dinamica che lega le due variabili in esame e quindi che il modello di interpolazione lineare sia stato in grado di spiegare solo parzialmente la relazione esistente tra RM ed AL. Questo risultato è invece meno evidente nel grafico successivo (Figura 1.13). Questo fornisce un ulteriore conferma di quanto osservato a seguito del calcolo dell indice R 2 il cui valore aveva già evidenziato i limiti del modello adattato.
1.6. INTERPOLAZIONE 47 Figura 1.12: Analisi dei residui: diagramma scatter delle coppie di valori (i,ê i ) Figura 1.13: Analisi dei residui: diagramma scatter delle coppie di valori (ê i,ê i 1 )
Capitolo 2 Calcolo delle Probabilità 2.1 Calcolo delle probabilità Esercizio 1 Dati gli eventi A,B Ω è noto che: che P(A) = 1 4, P(B) = 1 3 e P(A B) = 1 6. 1. Calcolare le seguenti probabilità: (a) P(Ā) (b) P(A B) (c) P(A B) (d) P(Ā B) 2. Se si considera un altro evento C, facente parte dello stesso spazio campione di A e B ed incompatibile con A, calcolare P(A C) 3. Sapendo che P(C) = 1 8, calcolare P(A C). Le probabilità richieste sono le seguenti: 1. Il calcolo delle probabilità proposte richiede l impiego di alcuni teoremi che sono di volta in volta richiamati. (a) P(Ā) = 1 P(A) = 1 1 4 = 3 4 = 0.75 (b) Per il calcolo di P(A B) si utilizza uno dei teoremi del calcolo delle probabilità, secondo il quale: P(A B) = P(A) + P(B) P(A B) da cui segue che: P(A B) = P(A) + P(B) P(A B) = 1 4 + 1 3 1 6 = 5 12 = 0.417 48
2.1. CALCOLO DELLE PROBABILITÀ 49 (c) Impiegando nuovamente il teorema utilizzato nel quesito (a): (d) Dall uso delle regole del de Morgan: P(A B) = 1 P(A B) = 1 1 6 = 5 6 = 0.833 P(Ā B) = P(A B) = 1 P(A B) = 1 0.417 = 0.583 2. L incompatibilità tra gli eventi A e C implica che: P(A C) = P(φ) = 0 3. Ricordando che A C = φ, è possibile quindi impiegare il quarto postulato del calcolo delle probabilità: P(A C) = P(A) + P(C) = 1 4 + 1 8 = 3 8 = 0.375 Esercizio 2 Dati due eventi A,B Ω, è noto che: P(A) = 0.12, P(B) = 0.89 e P(A B) = 0.07. Calcolare le seguenti probabilità: 1. P(A B) 2. P(A B) 3. P(Ā B) 4. P(Ā B) Le probabilità proposte sono così calcolate: 1. P(A B) = P(A) + P(B) P(A B) = 0.12 + 0.89 0.07 = 0.94 2. P(A B) = P(A) + P( B) P(A B) (da uno dei teoremi del calcolo delle probabilità) Inoltre, eventualmente aiutandosi con i diagrammi di Venn, è agevole osservare che: e quindi: P(A B) = P(A) P(A B) P(A B) = P(A)+P( B) P(A)+P(A B) = 1 P(B)+P(A B) = 1 0.89+0.07 = 0.18 3. La souzione del presente quesito segue gli stessi passi logici del precedente. P(Ā B) = P(Ā) + P(B) P(Ā B) dove anche in questo caso è facile dimostrare che P(Ā B) = P(B) P(A B) e quindi: P(Ā B) = P(Ā)+P(B) P(B)+P(A B) = 1 P(A)+P(A B) = 1 0.12+0.07 = 0.95
50 CAPITOLO 2. CALCOLO DELLE PROBABILITÀ 4. Il calcolo di questa probabilità richiede l uso delle regole del de Morgan, infatti: P(Ā B) = P(A B) = 1 P(A B) = 1 0.07 = 0.93 Esercizio 3 Dati due eventi A e B, con A,B Ω, è noto che P(A) = 0.5 e P(A B) = 0.6. Calcolare P(B) sotto le seguenti ipotesi: 1. A e B sono indipendenti 2. A e B sono incompatibili 3. P(A B) = 0.4 1. L indipendenza tra i due eventi A e B implica che: P(A B) = P(A)P(B) Ricordando uno dei teoremi del calcolo delle probabilità: quindi: P(A B) = P(A) + P(B) P(A B) P(A B) = P(A) + P(B) P(A B) Sostituendo quest ultima relazione nella condizione di indipendenza: P(A)P(B) = P(A) + P(B) P(A B) ovvero 0.5P(B) = 0.5 + P(B) 0.6 e quindi P(B) = 0.1 0.5 = 0.2 2. L incompatibilità tra A e B consente di utilizzare il quarto postulato del calcolo delle probabilità: P(A B) = P(A) + P(B) e quindi P(B) = 0.6 0.5 = 0.1 3. Dal quinto postulato del calcolo delle probabilità: P(A B) = P(A B) P(B) ed utilizzando alcune considerazioni fatte nel quesito 1., il numeratore può essere riscritto con: P(A) + P(B) P(A B) P(A B) = P(B)
2.1. CALCOLO DELLE PROBABILITÀ 51 Dai risultati forniti segue che 0.4P(B) = 0.5 + P(B) 0.6 e quindi 0.1 = 0.6P(B) ovvero P(B) = 0.1 0.6 = 0.17 Esercizio 4 Un urna contiene 15 palline, di cui 5 bianche (B), 7 rosse (R) e 3 nere (N). Calcolare: 1. la probabilità di estrarre una pallina bianca 2. la probabilità di estrarre una pallina bianca o rossa 3. la probabilità di non estrarre una pallina bianca 4. la probabilità che estraendo con reimmissione due palline, una sia bianca ed una sia nera 5. la probabilità che estraendo con reimmissione due palline siano entrambe nere 6. la probabilità che estraendo in blocco (senza reimmissione) due palline, siano entrambe bianche 7. la probabilità che estraendo in blocco (senza reimmissione) due palline almeno una sia bianca. Le probabilità richieste sono: 1. P(B) = 5 15 = 0.333 2. La prova consiste nell estrazione di una sola pallina, quindi gli eventi estrazione pallina B e estrazione pallina R sono incompatibili, pertanto P(B R) = P(R) + P(B) = 5 15 + 7 15 = 12 15 = 0.8 3. P( B) = 1 P(B) = 1 0.333 = 0.777 4. I possibili esiti dell estrazione sono (B N) (N B) che a loro volta sono due eventi incompatibili in quanto o si verifica (B N) o si verifica (N B) dall estrazione. Passando quindi alle probabilità: P[(B N) (N B)] = P(B N) + P(N B) L estrazione con reimmissione assicura inoltre l indipendenza tra i due eventi elementari estrazione B ed estrazione N, quindi: P(B N) + P(N B) = P(B) P(N) + P(N) P(B) = 5 15 5. P(N N) = P(N) P(N) = 3 15 3 15 = 9 225 = 0.04 3 15 + 3 15 5 15 = 2 15 225 = 0.133
52 CAPITOLO 2. CALCOLO DELLE PROBABILITÀ 6. Per il calcolo di questa probabilità il mancato reimbussolamento della pallina estratta condiziona la probabilità associata alla successiva estrazione, quindi: P(B B) = P(B) P(B B) = 5 4 15 14 = 0.095 7. la parola almeno nel quesito implica che nell estrazione fatta ci sia una o più di una pallina bianca, quindi può accadere (B B) ( B B) (B B). Passando alle probabilità queste risulteranno condizionate in quanto anche in questo caso la pallina estratta non è più immessa nell urna, quindi: P[(B B) ( B B) (B B)] = P(B) P( B B) + P( B) P(B B) + +P(B) P(B B) = 5 15 10 14 + 10 15 5 14 + 5 15 4 14 = 4 7 = 0.571 Esercizio 5 Si lanciano due dadi regolari. Calcolare le seguenti probabilità: 1. P(somma dei puntini è 4) 2. P(somma dei puntini è 2) 3. P(somma dei puntini è < 0) 4. P(che solo uno dei due dadi presenta sei puntini) 5. P(che entrambi i dadi presentano sei puntini) 6. È più probabile ottenere un sei dal lancio di un dado regolare o dal lancio di due dadi regolari? Per la soluzione di questo esercizio si indicherà con D i, con i = 1,2,...,6, l esito del lancio del dado, ovvero, ad esempio D 1 = lancio il dado ed esce uno, D 4 = lancio il dado ed esce quattro ecc. Le probabilità richieste sono le seguenti: 1. La somma quattro si ottiene con {1,3}, {2,2} e {3,1}, quindi: P(somma 4) = P[(D 1 D 3 ) (D 2 D 2 ) (D 3 D 1 )] = P(D 1 D 3 )+P(D 2 D 2 )+P(D 3 D 1 ) le prove associate al lancio del primo e del secondo dado sono inoltre indipendenti quindi: P(D 1 D 3 ) + P(D 2 D 2 ) + P(D 3 D 1 ) = P(D 1 ) P(D 3 ) + P(D 2 ) P(D 2 ) + ( ) 2 ( ) 2 ( ) 2 1 1 1 +P(D 3 ) P(D 1 ) = + + = 1 6 6 6 12 = 0.083
2.1. CALCOLO DELLE PROBABILITÀ 53 2. È evidente che in questo caso che la somma non può essere minore di 2, quindi si terrà conto solo del simbolo di uguaglianza per il calcolo della probabilità: P(somma 2) = P(D 1 D 1 ) = P(D 1 ) P(D 1 ) = 3. P(somma < 0) = P(φ) = 0 4. la probabilità è: ( ) 2 1 = 1 6 36 = 0.028 P[(D 6 D 6 ) ( D 6 D 6 )] = P(D 6 D 6 ) + P( D 6 D 6 ) = P(D 6 ) P( D 6 ) + P( D 6 ) P(D 6 ) = = 1 6 5 6 + 5 6 1 6 = 2 5 36 = 5 18 = 0.278 5. P(D 6 D 6 ) = P(D 6 ) P(D 6 ) = ( ) 1 2 6 = 1 36 = 0.0278 6. È noto che la probabilità di avere un sei dal lancio di un dado regolare è 1 6 = 0.167. La probabilità di avere un sei dal lancio di due dadi regolari, tenuto conto dei risultati precedenti, risulta invece 0.278. Quindi si può concludere che è più probabile avere un sei dal lancio di due dadi regolari che dal lancio di un solo dado (come era lecito attendersi). Esercizio 6 Si considerino 2 urne contenenti palline bianche (B) e rosse (R): URNA 1: 10 B 8 R (totale 15) URNA 2: 7 B 13 R (totale 20) Calcolare: 1. la probabilità che estraendo a caso una pallina da una delle urne sia bianca. 2. la probabilità che estraendo a caso una pallina da una delle urne sia rossa. 3. la probabilità che estraendo a caso una pallina da una delle urne non sia né rossa né bianca. In questo caso il calcolo delle probabilità è condizionata dall urna dalla quale l estrazione è effettuata. Se si indicano con U 1 ed U 2 rispettivamente l Urna 1 e l Urna 2 dalle quali è fatta l estrazione, le probabilità richieste sono: 1. P(B) = P[(U 1 B) (U 2 B)] = P(U 1 B)+P(U 2 B) = P(U 1 ) P(B U 1 )+P(U 2 ) P(B U 2 ) Trovandoci in presenza di due sole urne P(U 1 ) = P(U 2 ) = 1 2 e quindi le probabilità richieste sono: P(U 1 ) P(B U 1 ) + P(U 2 ) P(B U 2 ) = 1 2 10 18 + 1 2 7 20 = 163 360 = 0.453
54 CAPITOLO 2. CALCOLO DELLE PROBABILITÀ 2. P(R) = P[(U 1 R) (U 2 R)] = P(U 1 R)+P(U 2 R) = P(U 1 ) P(R U 1 )+P(U 2 ) P(R U 2 ) Seguendo gli stessi passi precedenti: P(U 1 ) P(R U 1 ) + P(U 2 ) P(R U 2 ) = 1 2 8 18 + 1 2 13 20 = 197 360 = 0.547 3. P( R B) = P {[U 1 ( R B)] [U 2 ( R B)]} = P(U 1 )P( R B U 1 ) + P(U 2 )P( R B U 2 ) È immediato osservare che P( R B U i ) = 0 (per i = 1,2) in quanto gli eventi sono impossibili disponendo nelle urne solo di palline rosse e bianche. Quindi P( R B) = 0 Esercizio 7 Un punto di ristoro sta facendo un indagine sulle abitudini al fumo dei suoi clienti al fine di valutare la necessità di creare una sala fumatori. A tale scopo intervista 200 clienti e rileva per ciascun intervistato il genere e l abitudine al fumo: genere: M, F abitudine al fumo: fumatore (FUM), non fumatore (NFUM) Rileva che dei 200 intervistati, 50 sono uomini fumatori, 30 sono donne non fumatrici ed in totale ha intervistato 80 individui di genere maschile. Calcolare la probabilità che estraendo a caso un individuo intervistato: 1. sia fumatore: P(FUM) 2. sia una donna: P(F) 3. sia un uomo fumatore: P(M FUM) 4. sia un uomo o un fumatore: P(M FUM) Per una più agevole soluzione dell esercizio è utile costruire una tabella a doppia entrata che contenga le informazioni fornite dalla traccia e che sia opportunamente completata (numeri in rosso): FUM NFUM M 50 30 80 F 90 30 120 140 60 200 Utilizzando i dati in tabella le probabilità richieste sono: 1. P(FUM) = 140 200 = 0.7 2. P(F) = 120 200 = 0.6
2.1. CALCOLO DELLE PROBABILITÀ 55 3. P(M FUM) = 50 200 = 0.25 4. P(M FUM) = P(M) + P(FUM) P(M FUM) = 80 200 + 140 200 50 200 = 17 20 = 0.85 Esercizio 8 Il Signor Bianchi partecipa ad una trasmissione televisiva durante la quale il conduttore gli mette a disposizione 7 pacchi (numerati da 1 a 7) ciascuno dei quali presenta i seguenti contenuti: n. pacco 1 2 3 4 5 6 7 premio giocattolo 1000 4000 volatile 6000 500 10000 dove il contenuto in denaro dei pacchi 2, 3, 5, 6 e 7 è espresso in Euro. Il Sig. Bianchi, che è a conoscenza dei premi in palio ma non della loro collocazione nei pacchi, deve scegliere in blocco 2 pacchi il cui contenuto rappresenta la sua vincita. Calcolare le seguenti probabilità: 1. la probabilità che il Sig. Bianchi vinca il volatile 2. la probabilità che il Sig. Bianchi non vinca del denaro 3. la probabilità che il Sig. Bianchi vinca almeno 11 mila Euro 4. la probabilità che il Sig. Bianchi vinca meno di 11 mila Euro. Le probabilità richieste sono le seguenti: 1. Indicato con V l evento il Sig. Bianchi sceglie il pacco con il volatile, la probabilità è così calcolata: P[(V V ) ( V V )] =P(V V ) + P( V V ) = =P(V )P( V V ) + P( V )P(V V ) = 1 7 6 6 + 6 7 1 6 = 2 7 = 0.286 2. Il quesito richiede il calcolo della probabilità che il Sig. Bianchi vinca il volatile ed il giocattolo. Indicati con V e G rispettivamente gli eventi il Sig. Bianchi sceglie il pacco con il volatile, il Sig. Bianchi sceglie il pacco con il giocattolo, la probabilità è: P[(V G) (G V )] =P(V G) + P(G V ) = =P(V )P(G V ) + P(G)P(V G) = 1 7 1 6 + 1 7 1 6 = 1 21 = 0.048
56 CAPITOLO 2. CALCOLO DELLE PROBABILITÀ 3. Le combinazioni di pacchi che permettono al Sig. Bianchi di vincere almeno 11000 Euro sono fornite dalle seguenti coppie: {P 2,P 7 }; {P 3,P 7 }; {P 5,P 7 }; {P 7,P 2 }; {P 7,P 3 }; {P 7,P 5 } Quindi la probabilità richiesta è: P(vincita 11000) = P[(P 2 P 7 ) (P 3 P 7 ) (P 5 P 7 ) (P 7 P 2 ) (P 7 P 3 ) 4. Questa probabilità è calcolata ricordando che: (P 7 P 5 )] = P(P 2 P 7 ) + P(P 3 P 7 ) + P(P 5 P 7 ) + +P(P 7 P 2 ) + P(P 7 P 3 ) + P(P 7 P 5 ) = = P(P 2 ) P(P 7 P 2 ) + P(P 3 ) P(P 7 P 3 ) +... + P(P 7 ) P(P 5 P 7 ) = ( 1 = 6 7 1 ) = 0.143 6 P(vincita < 11000) = 1 P(vincita 11000) quindi P(vincita < 11000) = 1 0.143 = 0.857 2.2 Variabili Casuali Discrete Esercizio 9 Si consideri la seguente variabile X: X 1 2 3 4 5 p i 1/2 1/5 1/8 1/4 1/3 Può essere considerata una variabile casuale discreta? Ricordando che una variabile casuale discreta è ben definita se e solo se: p i 0 e k p i = 1 i=1 la variabile in esame non può essere casuale in quanto seppure tutte le probabilità sono non negative, p i 0 (per i = 1,2,...,k, con k = 5), non è verificato che k p i = 1. i=1
2.2. VARIABILI CASUALI DISCRETE 57 Esercizio 10 L arrivo dei pacchi postali ricevuti giornalmente dall azienda Beta s.p.a. è descritto dalla seguente variabile casuale: X 2 4 5 8 p i 1/8 1/4 3/8 p calcolare: 1. il valore di p 2. il valore atteso di X 3. la varianza di X 4. la probabilità che l azienda riceva più di 4 pacchi in un giorno 5. la probabilità che l azienda riceva almeno 4 pacchi in un giorno. 1. Ricordando che la somma delle p i della variabile casuale è 1, p risulta: ( 1 p = 1 8 + 1 4 + 3 ) = 1 8 4 2. Il valore atteso di X è: k i=1 x i p i = 2 1 8 + 4 1 4 + 5 3 8 + 8 1 4 = 41 8 = 5.125 3. La varianza di X è calcolata come differenza tra momenti, V ar(x) = E(X 2 ) E(X) 2, dove il momento secondo: Quindi la varianza è: 4. Questa probabilità risulta: E(X 2 ) = 4 1 8 + 16 1 4 + 25 3 8 + 64 1 4 = 239 8 = 29.875 V ar(x) = 29.875 (5.125) 2 = 3.609 P(X > 4) = 3 8 + 1 4 = 5 8 = 0.625
58 CAPITOLO 2. CALCOLO DELLE PROBABILITÀ 5. La probabilità di ricevere almeno 4 pacchi è: P(X 4) = 1 4 + 3 8 + 1 4 = 7 8 = 0.875 Esercizio 11 Un esperimento casuale si compone di 15 prove ed il suo modello probabilistico che lo descrive è una variabile casuale Binomiale X B(15;0.4). Calcolare: 1. la probabilità di avere 4 successi 2. la probabilità di avere non più di 4 successi 3. la probabilità di avere almeno 3 successi 4. la probabilità di avere più di 15 successi La variabile in esame è la Binomiale X B(n,p) che, come noto, ha distribuzione di probabilità: ( ) n P(X = x) = p x (1 p) n x con x [0,n] x con media E(X) = n p e varianza V ar(x) = n p (1 p). Quindi: 1. Il valore atteso è E[X] = 15 0.4 = 6 mentre la varianza è V ar(x) = 15 0.4 0.6 = 3.6 2. 3. P(X = 4) = ( 15 4 ) 0.4 4 0.6 11 = 15! 4!11! 0.44 0.6 11 = 0.1268 P(X 4) = P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3) + P(X = 4) = ( ) ( ) ( ) 15 = 0.4 0 0.6 15 15 + 0.4 1 0.6 14 15 + 0.4 2 0.6 13 + 0 1 2 ( ) ( ) 15 + 0.4 3 0.6 12 15 + 0.4 4 0.6 11 = 3 4 = 0.00047 + 0.0047 + 0.02194 + 0.06339 + 0.1268 = 0.2173 4. P(X 3) = 1 P(X < 3) = 1 0.02711 = 0.97289 5. La probabilità richiesta in questo caso è relativa ad un evento impossibile quindi: P(X > 15) = P(φ) = 0
2.2. VARIABILI CASUALI DISCRETE 59 Esercizio 12 È noto che un calciatore su 10 rigori ne mette a segno 7. Calcolare la probabilità che tirando 20 rigori: 1. ne mette a segno almeno 3 2. ne mette a segno più di 18 3. non sbaglia alcun rigore L esercizio ha ad oggetto eventi che presentano una chiara dicotomia: il calciatore segna il rigore, non segna il rigore e la probabilità di successo (ovvero segna il rigore ) è p = 7 10 = 0.7 Quindi è possibile rispondere al quesito utilizzando una variabile casuale Binomiale che è in grado di descrivere il fenomeno in esame: X B(20,0.7). Segue quindi che: 1. La probabilità che il giocatore metta a segno almeno tre rigori è: P(X 3) = 1 P(X < 3) = 1 [P(X = 0) + P(X = 1) + P(X = 2)] = [( ) ( ) ( ] 20 = 1 0.7 0 (1 0.7) 20 20 + 0.7 1 (1 0.7) 19 20 + )0.7 2 (1 0.7) 18 0 1 2 Tutte le probabilità tra le parentesi quadre sono approssimabili a zero, quindi: P(X 3) = 1 P(X < 3) 1 2. La probabilità che il giocatore metta a segno più di 18 rigori è: ( 20 P(X > 18) = P(X = 19) + P(X = 20) = 19 = 20 0.7 19 (0.3) + 0.7 20 = 0.0068 + 0.0008 = 0.0076 3. Dai risultati precedenti: P(X = 20) = 0.0008 ) 0.7 19 (1 0.7) 1 + ( 20 20 ) 0.7 20 (1 0.7) 0 = Esercizio 13 Dovete sostenere un esame scritto sotto forma di quiz con 5 domande per ognuna delle quali la risposta è vero o falso. Per superare la prova bisogna rispondere correttamente ad almeno 3 domande. Calcolare la probabilità di superare l esame rispondendo a caso. La soluzione del quesito può essere fornita utilizzando la variabile casuale Binomiale. Sapendo che ciascuna domanda prevede due sole possibili risposte vero o falso, la probabilità di rispondere correttamente è p = 0.5 che può essere intesa come probabilità di successo nella risposta alla domanda del quiz.
60 CAPITOLO 2. CALCOLO DELLE PROBABILITÀ Poichè la risposta è valutata dalla commissione in maniera dicotomica corretta non corretta, il fenomeno in esame può essere descritto da una variabile casuale Binomiale B(5, 0.5), dove N=5 è il numero di prove (quesiti nel nostro caso) e p = 0.5 è la probabilità di successo. Ricordando che per superare la prova bisogna rispondere correttamente ad almeno tre domande (ovvero a tre o più domande), il problema si riduce quindi a calcolare la probabilità P(X 3), con X B(5,0.5). Quindi, ricordando la distribuzione di probabilità della Binomiale: segue che: P(X 3) = P(X = x) = 5 i=3 ( 5 i ( n x ) p x (1 p) n x con x [0,n] ) 0.5 i (1 0.5) 5 i = 0.3125 + 0.15625 + 0.03125 = 0.5 ovvero fornendo risposte a caso alle domande del quiz, la probabilità di superare la prova è pari a 0.5. Esercizio 14 La probabilità che un giocatore di basket faccia canestro al tiro libero è 0.7. Assumendo che in una partita vi siano 15 tiri liberi, calcolare: 1. la probabilità che il giocatore metta a segno tutti i tiri liberi 2. la probabilità che il giocatore metta a segno 14 tiri liberi Indicato con T l evento che il giocatore di basket metta a segno il tiro libero ed osservando che la sua probabilità di successo è 0.7, le probabilità richieste possono essere calcolate con semplicità. In particolare, la dicotomia dell esito del tiro libero del giocatore rende il fenomeno descrivibile con una variabile casuale Binomiale B(15; 0.7) e quindi: ( ) 15 1. P(T = 15) = (0.7) 15 15 (1 0.7) 0 = 0.0047 2. P(T = 14) = ( 15 14 ) (0.7) 14 (1 0.7) = 0.03 Esercizio 15 Sia X una variabile casuale di Poisson con parametro λ = 4. Calcolare: 1. il valore atteso e la varianza di X 2. P(X = 2)
2.2. VARIABILI CASUALI DISCRETE 61 3. P(X > 2) 4. la probabilità che X sia almeno pari a 2. 1. Dai risultati teorici relativi alla variabile casuale di Poisson E(X) = V ar(x) = λ, quindi il valore atteso e la varianza di X sono entrambi pari a 4. 2. Utilizzando la distribuzione di probabilità della variabile casuale di Poisson: 3. P(X = 2) = e 4 4 2 2! = 0.1465 P(X = x) = e λ λ x x! con x > 0 P(X > 2) = 1 P(X 2) = 1 [P(X = 0) + P(X = 1) + P(X = 2)] = [ e 4 4 0 = 1 + e 4 4 1 ] + 0.1465 = 1 [0.0183 + 0.0733 + 0.1465] = 0.7622 0! 1! 4. L affermazione equivale al calcolo della probabilità P(X 2) che, utilizzando i risultati precedenti, è pari a: P(X 2) = 0.1465 + 0.7622 = 0.9087 Esercizio 16 Un ingresso autostradale possiede 5 caselli. Sapendo che il numero di auto che arrivano ai caselli in un minuto si distribuisce come una variabile casuale di Poisson con λ = 3, calcolare: 1. la probabilità che in un minuto non arrivino auto 2. la probabilità che in un minuto arrivino 2 auto 3. la probabilità che vi siano auto incolonnate per l attraversamento del casello La variabile che descrive il fenomeno è X P(λ), con λ = 3. 1. La probabilità che non arrivino auto per un minuto è: P(X = 0) = e 3 3 0 = e 3 = 0.0498 0!
62 CAPITOLO 2. CALCOLO DELLE PROBABILITÀ 2. La probabilità che arrivino 2 auto in un minuto è: P(X = 2) = e 3 3 2 2! = e 3 9 2 = 0.224 3. La probabilità che vi siano auto incolonnate per l attraversamento del casello equivale a dire che sono arrivate più di 5 auto (ovvero un numero di auto superiore ai caselli disponibili) e quindi: P(X > 5) = 1 P(X 5) = 1 [P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3) + +P(X = 4) + P(X = 5)] = 1 (0.0498 + e 3 3 + 0.224 + e 3 3 3 + e 3 3 4 + e 3 3 5 ) = 3! 4! 5! = 1 (0.0498 + 0.1494 + 0.224 + 0.224 + 0.168 + 0.1008) = 0.084 2.3 Variabili Casuali Continue Esercizio 17 Sia X N(5;14), calcolare le seguenti probabilità: 1. P(X < 2) 2. P[(X µ) > 4] 3. P( X > 1) 4. P[(X µ) < 0.5] 5. P( X µ < 3) 6. P(X > 2 X < 4) 7. P(X < 3 X > 9.5) Data la variabile casuale X N(5;14), le probabilità richieste sono: 1. P(X < 2) = ( P Z < 2 5 ) = P(Z < 0.80) = Φ( 0.80) = 3.74 = 1 Φ(0.80) = 1 0.7881 = 0.2119 2. P[(X µ) > 4] = ( P Z > 4 ) = P(Z > 1.07) = 1 Φ(1.07) = 3.74 = 1 0.8577 = 0.1423
2.3. VARIABILI CASUALI CONTINUE 63 3. P( X > 1) = ( P(X < 1 X > 1) = P Z < 1 5 3.74 Z > 1 5 ) = 3.74 = P(Z < 1.60 Z > 1.07) = 1 P( 1.60 < Z < 1.07) = avvalendosi della simmetria della variabile casuale Normale = 1 P(1.07 < Z < 1.60) = 1 [Φ(1.60) Φ(1.07)] = = 1 (0.9452 0.8577) = 0.9125 4. P[(X µ) < 0.5] ( = P[(X µ) 0.5] = P Z 0.5 ) = 3.74 = P(Z 0.13) = 1 Φ(0.13) = 1 0.5517 = 0.4483 5. P( X µ < 3) = P[ 3 < (X µ) < 3] = P( 0.80 < Z < 0.80) = Φ(0.80) Φ( 0.80) = = 2 Φ(0.80) 1 = 2 0.7781 1 = 0.5562 6. P(X > 2 X < 4) = P(2 < X < 4) = P( 0.80 < Z < 0.27) = P(0.27 < Z < 0.8) = = Φ(0.8) Φ(0.27) = 0.7881 0.6064 = 0.1817 (anche in questo caso si è fatto uso della simmetria della variabile casuale Normale) 7. P(X < 3 X > 9.5) = i due eventi in esame sono incompatibili e quindi dal quarto postulato = P(X < 3) + P(X > 9.5) = P(Z < 0.53) + P(Z > 1.20) = = [1 Φ(0.53)] + [1 Φ(1.20)] = (1 0.7019) + (1 0.8849) = = 0.4132 Esercizio 18 Sia X N(5;14) e sia Y una sua trasformata lineare: Y = 4 + 3X. Calcolare: 1. P( Y > 20) 2. P(Y < 4 Y > 1) 3. P[(Y µ) < 3.9] 4. P(Y < 9 Y > 5)
64 CAPITOLO 2. CALCOLO DELLE PROBABILITÀ Data la variabile casuale X N(5;14), la sua trasformata lineare Y = 4 + 3X, per la proprietà riproduttiva della variabile casuale Normale, ha distribuzione ancora Normale ma con valore atteso e varianza date rispettivamente da: E(Y ) = E(4 + 3X) = 4 + 3 E(X) = 4 + 3 5 = 19 V ar(y ) = 3 2 V ar(x) = 9 14 = 126 ovvero Y N(19,126). Quindi le probabilità sono calcolate con: 1. P( Y > 20) = P(Y < 20 Y > 20) = l incompatibilità dei due eventi permette di utilizzare ancora una volta il quarto postulato ( ) ( ) 20 19 20 19 = P(Y < 20) + P(Y > 20) = P Z < + P Z > = 11.22 11.22 = P(Z < 3.48) + P(Z > 0.09) = 1 Φ(3.48) + 1 Φ(0.09) = = 0.0003 + 0.0.4641 = 0.4644 2. P(Y < 4 Y > 1) = P(Ω) = 1 ovvero almeno una delle due disuguaglianze è sempre verificata. 3. 4. ( P[(X µ) < 3.9] = P Z < 3.9 ) = P(Z < 0.35) = 0.6368 11.22 ( 5 19 P(Y < 9 Y > 5) = P(5 < Y < 9) = P 11.22 < Z < 9 19 ) = 11.22 = P( 1.25 < Z < 0.89) = P(0.89 < Z < 1.25) = = Φ(1.25) Φ(0.89) = 0.8944 0.8133 = 0.0811 Esercizio 19 Si consideri la seguente variabile casuale X N(4;37) e si calcolino le seguenti probabilità: 1. P[(X µ) > 1.3 X > 4.5] 2. P[ X < 5 (X µ) < 0.5] 3. P( X µ < 2) 4. P( X > 3 X < 1) 5. P( X µ < 1.5 X > 0) 6. P( X µ > 1.5 X > 0)
2.3. VARIABILI CASUALI CONTINUE 65 Utilizzando la variabile casuale X N(4;37) le probabilità richieste sono le seguenti: 1. 2. P[(X µ) > 1.3 X > 4.5] = P[(X µ) 1.3 X > 4.5] = [ = P Z 1.3 6.08 Z > 4.5 4 ] = P [Z 0.21 Z > 0.08] = P(Ω) = 1 6.08 P[ X < 5 (X µ) < 0.5] = P[ 5 < X < 5 (X µ) < 0.5] = [ 5 4 = P < Z < 5 4 6.08 6.08 Z < 0.5 ] = P[( 1.48 < Z < 0.16) Z < 0.08] = 6.08 = P[ 1.48 < Z < 0.08] = Φ(0.08) Φ( 1.48) = Φ(0.08) [1 Φ(1.48)] = = 0.5319 (1 0.9306) = 0.4625 3. P[ X µ < 2] = P[ X µ 2] = P[(X µ) 2 (X µ) 2] = [ = P Z 2 6.08 Z 2 ] = P[Z 0.33 Z 0.33] = 6.08 a seguito dell incompatibilità dei due eventi = P(Z 0.33) + P(Z 0.33) = [1 Φ(0.33)] + [1 Φ(0.33)] = 2 [1 Φ(0.33)] = = 2 (1 0.6293) = 0.7414 4. P( X > 3 X < 1) = P[(X < 3 X > 3) ( 1 < X < 1)] = [( = P Z < 3 4 6.08 Z > 3 4 ) ( 1 4 < Z < 1 4 )] = 6.08 6.08 6.08 = P[(Z < 1.15 Z > 0.16) 0.82 < Z < 0.49] = = P(Z < 1.15) + P( 0.82 < Z < 0.49) + P(Z > 0.16) = utilizzando la simmetria della variabile casuale Normale = [1 Φ(1.15)] + Φ(0.82) Φ(0.49) + Φ(0.16) = 0.1251 + 0.7939 0.6879 + 0.5636 = 0.7947 5. P( X µ < 1.5 X > 0) = P[ 1.5 < (X µ) < 1.5 X > 0] = ( 1.5 = P 6.08 < Z < 1.5 6.08 Z > 4 ) = P[( 0.25 < Z < 0.25) Z > 0.66] = 6.08 = P( 0.25 < Z < 0.25) = Φ(0.25) [1 Φ(0.25)] = 2 Φ(0.25) 1 = 2 0.5987 1 = 0.1974
66 CAPITOLO 2. CALCOLO DELLE PROBABILITÀ 6. P( X µ > 1.5 X > 0) = P[((X µ) < 1.5 (X µ) > 1.5) X > 0] = = P[(Z < 0.25 Z > 0.25) Z > 0.66] = P( 0.66 < Z < 0.25) + P(Z > 0.25) = utilizzando la proprietà di simmetria della variabile casuale Normale = P(0.25 < Z < 0.66) + P(Z > 0.25) = Φ(0.66) Φ(0.25) + [1 Φ(0.25)] = = Φ(0.66) + 1 2 Φ(0.25) = 0.7454 + 1 2 0.5987 = 0.548 Esercizio 20 Sia X N(2;15), calcolare le seguenti probabilità: 1. P[ X < 1.5 (X µ) < 0] 2. P[X 3 (X µ) > 0.5] 3. P[(X µ) < 1.8 X = 2] Data la variabile casuale X N(2;15), le probabilità sono: 1. 2. P[ X < 1.5 (X µ) < 0] = P[ 1.5 < X < 1.5 (X µ) < 0] = P[X 3 (X µ) > 0.5] = P[X > 3 (X µ) > 0.5] = 3. P[(X µ) < 1.8 X = 2] = P(X = 2) = 0 Esercizio 21 Sia X N(4;37), si calcolino i seguenti percentili: 1. P(X < x 0 ) = 0.67 2. P(X > x 0 ) = 0.1423 3. P[(X µ) < x 0 ] = 0.8413 = P( 0.90 < Z < 0.13 Z < 0) = P(Z < 0) = 0.5 = P(Z > 0.26 Z > 0.13) = P(Z > 0.13) = 1 Φ(0.13) = 0.4483
2.3. VARIABILI CASUALI CONTINUE 67 Il calcolo dei percentili è effettuato ricordando che data la v.c. X N(4; 37), la probabilità P(X < x 0 ) = P(Z < z 0 ), dove Z è la v.c. Normale standardizzata N(0,1) e z 0 = x0 µ σ. Da quest ultima relazione segue che x 0 = z 0 σ + µ, ovvero se sono noti z 0 ed i parametri (µ e σ) della variabile casuale Normale X, è possibile risalire al valore di x 0. Quindi i percentili della variabile X N(4;37) saranno i seguenti: 1. P(X < x 0 ) = 0.67 Consultando le tavole della variabile casuale Normale standardizzata Φ(z 0 ) = 0.67 corrisponde a z 0 = 0.44, quindi: x 0 = 0.44 6.08 + 4 = 6.675 2. P(X > x 0 ) = 0.1423 È noto che P(X x 0 ) = 1 P(X > x 0 ), quindi P(X x 0 ) = 1 0.1423 = 0.8577. Il percentile corrispondente a 0.8577 è z 0 = 1.07 ed allora: x 0 = 1.07 6.08 + 4 = 10.506 3. P[(X µ) < x 0 ] = 0.8413 In questo caso z 0 = x 0 /σ, ovvero x 0 = z 0 σ. Quindi osservando che a 0.8413 corrisponde z 0 = 1, allora x 0 = 1 6.08 = 6.08 Esercizio 22 Sia X t (15) calcolare le seguenti probabilità: 1. P(X > 1.341) 2. P(X < 2.602) 3. P(1.753 < X < 2.947) 4. P(X < 1.341) 5. P(X > 0.691) Le probabilità richieste sono: 1. P(X > 1.341) = 0.1 2. P(X < 2.602) = 1 0.01 = 0.99 3. P(1.753 < X < 2.947) = 0.05 0.005 = 0.045 4. P(X < 1.341) = per la simmetria della variabile casuale t P(X < 1.341) = P(X > 1.341) = 0.10
68 CAPITOLO 2. CALCOLO DELLE PROBABILITÀ 5. P(X > 0.691) = ancora una volta sfruttando la simmetria della variabile casuale t P(X > 0.691) = P(X < 0.691) = 1 P(X > 0.691) = 1 0.25 = 0.75 Esercizio 23 Sia X t (15) calcolare i seguenti percentili: 1. P(X > x 0 ) = 0.05 2. P(X > x 0 ) = 0.025 3. P(X < x 0 ) = 0.9 4. P(X > x 0 ) = 0.95 Utilizzando le tavole della v.c. t, i percentili sono i seguenti: 1. x 0 = 1.753 2. x 0 = 2.131 3. Ricordando che per la simmetria della variabile casuale t-student P(X < x 0 ) = 1 P(X x 0 ), quindi P(X x 0 ) = 1 P(X < x 0 ) = 1 0.90 = 0.10 e segue che: x 0 = 1.341 4. Anche in questo caso si fa uso della simmetria della variabile casuale t-student rispetto all origine degli assi. In particolare, è noto che l area sottesa alla sua funzione di densità nell intervallo (, 0) è 0.5 e lo stesso vale per l intervallo [0,+ ). Quindi affichè la probabilità sia quella indicata dall esercizio, ovvero P(X > x 0 ) = 0.95, il valore di x 0 deve essere negativo. A tale scopo, per fini esplicativi, il percentile è fatto precedere da un segno negativo e la probabilità è indicata con P(X > x 0 ) = 0.95. Inoltre se P(X > x 0 ) = 0.95 allora P(X x 0 ) = 0.05 e quindi utilizzando nuovamente la simmetria della t-student P(X x 0 ) = P(X x 0 ) = 0.05 Segue che il percentile corrispondente a 0.05 è x 0 = 1.753 e quindi x 0 = 1.753. Esercizio 24 Sia X χ 2 (5), si calcolino le seguenti probabilità: 1. P(X > 11.0705) 2. P(X > 0.5543) 3. P(X < 12.8325) 4. P(X < 1.61031)
2.3. VARIABILI CASUALI CONTINUE 69 Per calcolare le probabilità richieste bisogna utilizzare, in maniera opportuna, le due tavole della variabile casuale χ 2 (g). In particolare limitando l attenzione al caso g = 5: 1. P(X > 11.0705) = 0.05 2. P(X > 0.55430) = 1 0.01 = 0.99 3. P(X < 12.8325) = 1 0.025 = 0.975 4. P(X < 1.61031) = 0.1 Esercizio 25 Sia X χ 2 (5), si calcolino i seguenti percentili: 1. P(X > x 0 ) = 0.01 2. P(X < x 0 ) = 0.9 3. P(X < x 0 ) = 0.05 4. P(X > x 0 ) = 0.05 I percentili sono i seguenti: 1. x 0 = 15.0863 2. La P(X < x 0 ) = 1 P(X x 0 ), quindi P(X x 0 ) = 1 0.90 = 0.10 ed il percentile corrispondente è x 0 = 9.23635 3. x 0 = 1.14547 4. x 0 = 11.0705
Capitolo 3 Inferenza Statistica 3.1 Stime puntuali Esercizio 1 Un campione casuale di 20 unità è estratto da una popolazione X f(µ,σ 2 ), dove f è una funzione di densità: {2.62,9.78,1.11,6.39,6.81,4,4.74,0.48,3.96,0.64,0.91,6.51,5.77,6.7,8.75,9.96,7.64,5.7,9.9,0.63} Stimare i parametri incogniti µ e σ 2 di X avvalendosi di stimatori non distorti. È dimostrato in teoria che uno stimatore non distorto per la media µ è la media campionaria n n X = 1 n x i mentre uno stimatore non distorto per la varianza σ 2 è s 2 = 1 n 1 (x i x) 2. i=1 Utilizzando i dati campionari ed avvalendosi dei dati in Tabella 3.1, la stima della media è x = 5.15 mentre la stima della varianza è ŝ 2 = 10.62. Esercizio 2 Data la popolazione X N(14;56) da cui è estratto un campione di 20 unità, calcolare le seguenti probabilità: 1. P( X > 3) 2. P( X µ < 1.2) 3. Sia Y = 2.1 3.4 X, calcolare la probabilità: P[Y < 2 (Y µ) > 3.1]. 70 i=1
3.1. STIME PUNTUALI 71 i x i (x i x) 2 1 2.62 6.4 2 9.78 21.44 3 1.11 16.32 4 6.39 1.54 5 6.81 2.76 6 4 1.32 7 4.74 0.17 8 0.48 21.81 9 3.96 1.42 10 0.64 20.34 11 0.91 17.98 12 6.51 1.85 13 5.77 0.38 14 6.7 2.4 15 8.75 12.96 16 9.96 23.14 17 7.64 6.2 18 5.7 0.3 19 9.9 22.56 20 0.63 20.43 Totale 103 201.72 Tabella 3.1: Tabella Esercizio 1 - Inferenza Statistica Si dimostra che, date le ipotesi sulla popolazione, la distribzione della media campionaria in oggetto è: ( X N 14, 56 ) 20 quindi le probabilità desiderate sono: 1. P( X > 3) = P ( ) Z > 3 14 1.67 = P(Z > 6.59) = 1 2. P( X µ < 1.2) = P[ 1.2 < ( X µ) < 1.2] = P( 0.72 < Z < 0.72) = 0.5284 3. Dalla trasformata lineare della variabile casuale X in esame, Y = 2.1 3.4 X, risulta inoltre che Y N( 45.5;32.37) e quindi la probabilità richiesta è: P[Y 2 (Y µ) > 3.1] = ( P Z 2 + 45.5 Z > 3.1 ) = P(Z 8.35 Z > 0.54) = 5.69 5.69 = P(Z > 0.54) = 1 Φ(0.54) = 1 0.7054 = 0.2946
72 CAPITOLO 3. INFERENZA STATISTICA Esercizio 3 Si consideri la popolazione X f(x,θ), con θ = (µ,σ 2 ) e con µ = 2, σ 2 = 14. Si estragga da X un campione casuale di n = 50 unità e calcolare le seguenti probabilità: 1. P( X < 1.8) 2. P[( X µ) < 1] 3. Sia Y = 2 3 X, calcolare: P[Y > 1 (Y µ) < 3] In questo caso è presa in esame la media campionaria in presenza di un campione casuale estratto da una popolazione con distribuzione incognita e con parametri µ = 2 e σ 2 = 14. Tenuto conto della elevata numerosità delle unità campionarie e quindi avvalendosi del Teorema Limite Centrale segue che: X N ( 2, 14 ) 50 e così facendo uso della distribuzione di X, le probabilità richieste sono: 1. ( P( X < 1.8) = P( 1.8 < X 1.8 2 < 1.8) = P < Z < 1.8 2 ) = 0.53 0.53 = P( 7.17 < Z < 0.38) = Φ( 0.38) Φ( 7.17) = Φ(7.17) Φ(0.38) = = 1 Φ(0.38) = 1 0.6480 = 0.352 2. P[( X µ) < 1] = P(Z < 1.89) = Φ(1.89) = 0.9706 3. Dalla trasformata lineare Y = 2 3 X, segue che Y N( 4;2.52) e quindi: ( P[Y > 1 (Y µ) < 3] = P Z > 1 + 4 1.59 Z < 3 ) = P(Z > 3.14 Z < 1.89) = P(φ) = 0 1.59 Esercizio 4 L andamento della produttività dei dipendenti di un call center (misurata in termini di numero di contatti per ora) è descritta da una variabile casuale X N(13;45). Estraendo un campione casuale di 15 nominativi di operatori, calcolare la probabilità che la loro produttività media sia maggiore di 21. Anche in questo caso sono utilizzati i risultati teorici relativi alla distribuzione della media campionaria. In particolare dai dati forniti emerge che:
3.2. TEST DELLE IPOTESI 73 X N ( 13; 45 ) 15 e quindi la probabilità che il numero medio di contatti del campione di operatori è maggiore di 21 è: ( ) P( X 21 13 > 21) = P Z > = P(Z > 4.62) = 0 1.73 ovvero gli operatori in media non sono in grado di contattare più di 21 nominativi. 3.2 Test delle ipotesi Esercizio 5 Dalla popolazione X N(µ,σ 2 ) è estratto un campione casuale di 15 unità che assumono i seguenti valori: {6.33; 0.39; 2.09; 5.81; 5.86; 4.87; 4.00; 8.18; 5.72; 8.05; 1.77; 6.27; 9.71; 0.95; 4.56} Sottoporre a test, con livello di significatività pari a 0.05, che la media di X sia pari a 3. Il test in oggetto è relativo ad una media con varianza incognita avente sistema di ipotesi: { H0 : µ = 3 mentre la statistica test è: H 1 : µ 3 con regione critica t c > t (n 1;1 α/2). Dai dati campionari emerge che: n ( x µ0 ) t c = t (n 1) s t c = 15 (4.97 3) 7.48 = 2.79 mentre i valori tabulati sono t (14;1 0.025) = 2.145 e t (14;0.025) = 2.145. Quindi ad un livello di significatività del 5% rifiuto H 0. Esercizio 6 Il partito politico Alfa decide di proporre la candidatura del Sig. Bianchi. È noto che per essere eletti bisogna avere almeno il 25% dei voti del distretto elettorale. Per valurare il gradimento della candidatura del Sig. Bianchi, è intervistato un campione di 80
74 CAPITOLO 3. INFERENZA STATISTICA individui di cui 37 risultano favorevoli al potenziale candidato. Sottoporre a test, con α = 0.05, che il signor Bianchi riceva una percentuale di voti pari al 25% o superiore al 25%, ovvero: { H 0 : p = 0.25 H 1 : p > 0.25 Il test in esame è quello su una proporzione la cui statistica test è: Z c = ˆp p 0 p 0(1 p 0) n N(0,1) Dalle informazioni campionarie ˆp = 37 80 = 0.4625. Quindi la statistica calcolata diventa: Z c = 0.4625 0.25 0.25(1 0.25) 80 = 4.389 Poichè il test è unidirezionale ed il valore critico z (1 α) = 1.64, rifiuto H 0 ad un livello di significatività α = 0.05. Esercizio 7 Utilizzando i valori del campione estratto nell esercizio 5, sottoporre a test (con α = 0.05) il seguente sistema di ipotesi: { H0 : σ 2 = 8 H 1 : σ 2 8 Avvalendosi dei risultati delle stime dell Esercizio 5 e ricordando che la statistica del test in esame è: segue che: χ 2 c = (n 1) s2 σ 2 0 χ 2 (n 1) χ 2 c = (15 1) 7.48 8 = 13.09 mentre i valori che delimitano la regione di accettazione sono χ 2 (14;1 0.025) = 26.119 e χ2 (14;0.025) = 5.629, quindi ad un livello di significatività del 5% accetto H 0.
3.2. TEST DELLE IPOTESI 75 Esercizio 8 La società Alpha desidera monitorare il fatturato settimanale delle sue aziende situate in Lombardia ed in Sicilia. A tale scopo estrae un campione di 6 aziende lombarde e 4 siciliane che hanno i seguenti fatturati settimanali (espressi in migliaia di Euro): Lombardia {20.4; 24.8; 30.2; 16.8; 15.3; 13.8} Sicilia {19.5; 33.6; 21.9; 25.7} Sottoporre a test (con α = 0.05) che il fatturato medio delle aziende in Lombardia è uguale a quello delle aziende in Sicilia. Il test in oggetto è relativo al confronto tra medie sotto l ipotesi che le popolazioni di riferimento siano indipendenti (non emerge dalla traccia alcuna indicazione che lasci pensare ad un legame di dipendenza tra le popolazioni da cui sono estratti i campioni). Quindi il sistema di ipotesi è il seguente: { H0 : µ 1 = µ 2 mentre la statistica test di riferimento è: H 1 : µ 1 µ 2 X 1 t c = X 2 m n(m + n 2) t (m 1) s 2 1 + (n 1) s 2 (m+n 2) m + n 2 con regione critica t c > t (n+m 2;1 α/2). Dai dati campionari segue che: t c = 20.22 25.17 197.75 + 114.18 6 4(6 + 4 2) = 1.231 6 + 4 Osservando che t (8;1 0.025) = 2.306 e t (8;0.025) = 2.306 segue che ad un livello di significatività del 5% accetto H 0. Esercizio 9 È stata effettuata un indagine statistica presso un punto vendita volta a valutare la disponibilità dei consumatori ad acquistare prodotti a marchio commerciale. A tale scopo è stato intervistato un campione di n = 40 unità e 18 persone si sono mostrate disponibili all acquisto di tali prodotti. Si sottoponga a test, con α = 0.05, che il 60% della popolazione sia disponibile all acquisto dei prodotti a marchio commerciale contro l alternativa che tale percentuale sia inferiore. Il test in esame è quello su una proporzione avente sistema di ipotesi: { H0 : p = p 0 H 1 : p < p 0
76 CAPITOLO 3. INFERENZA STATISTICA con statistica test: Z c = n (ˆp p0 ) p0 (1 p 0 ) N(0;1) e regione critica Z c < z (α). Dai dati rilevati sul campione intervistato ˆp = 18 40 = 0.45 e quindi: 40(0.45 0.60) Z c = = 1.936 0.60 0.40 Osservando dalle tavole che z (0.05) = 1.64, rifiuto H 0 ad un livello di significatività del 5%. Esercizio 10 L indagine precedente è stata ripetuta presso un altro punto vendita e su 56 intervistati, 21 erano disponibili ad acquistare prodotti a marchio commerciale. Si sottoponga a test che la proporzione di clienti disponibili all acquisto di prodotti a marchio commerciale è uguale nei due punti vendita. Il test richiesto è di confronto tra proporzioni con sistema di ipotesi: { H0 : p 1 = p 2 H 1 : p 1 p 2 e con statistica test: Z c = ˆp 1 ˆp 2 ˆp(1 ˆp)[1/n + 1/m] N(0;1) dove ˆp = n ˆp 1 + m ˆp 2 n + m Dai dati campionari emerge che ˆp = 0.406 e: Z c = 0.45 0.375 0.406(1 0.406)[1/40 + 1/56] = 0.738 Ricordando che la regione critica del test è Z c > z (1 α/2), i valori che la delimitano sono z (0.025) = 1.96 e z (1 0.025) = 1.96. Quindi H 0 è accettata ad un livello di significatività del 5%. Esercizio 11 Un azienda commerciale ha effettuato un indagine campionaria mediante la quale ha chiesto a 18 clienti l ammontare di spesa settimanale effettuata presso il proprio punto vendita, rilevando i seguenti dati: {2.91; 6.54; 19.74; 16.05; 2.55; 17.24; 6.99; 2.55; 18.26; 6.59; 17.52; 17.11; 4.39; 1.24; 1.33; 13.17; 10.12; 4.06} A seguito della ristrutturazione dei locali l azienda commerciale ha nuovamente intervistato il campione dei 18 clienti chiedendo loro l ammontare della spesa settimanale sostenuta presso l esercizio commerciale, ottenendo le seguenti risposte:
3.2. TEST DELLE IPOTESI 77 {1.46; 12.02; 7.2; 17.24; 10.84; 0.1; 5.23; 15.91; 9.67; 12.11; 3.06; 3.96; 9.09; 16.81; 10.5; 17.57; 10.57; 16.43} Sottoporre a test, con α = 0.05, che la media della spesa dei clienti dell azienda commerciale prima e dopo la ristrutturazione sia rimasta invariata. Il test proposto è di confronto tra medie con dati appaiati avente il seguente sistema di ipotesi: { H0 : µ 1 = µ 2 e con statistica test: H 1 : µ 1 µ 2 n( X2 t c = X 1 ) s 2 1 + s 2 2 2s 12 t (n 1) Dai dati campionari risulta che la statistica calcolata è: 18(9.99 9.35) t c = = 0.269 45.55 + 31.14 2 ( 12.69) mentre i valori che delimitano la regione di accettazione sono t (17;1 0.025) = 2.11 e t (17;0.025) = 2.11. Quindi ad un livello di significatività del 5% accetto H 0. Esercizio 12 Le taglie degli abiti realizzati da un atelier hanno distribuzione N(µ,σ 2 ). L azienda ritiene che, affinchè non vi sia merce invenduta, è necessario che la variabilità delle taglie realizzate sia σ 2 > 30. Per valutare se tale condizione è verificata tra i capi disponibili, si estrae un campione casuale di 15 capi le cui taglie sono: Sottoporre a test, con α = 0.05, che: {55,49,55,38,41,53,43,38,47,38,47,39,52,42,56} { H 0 : σ 2 = 30 H 1 : σ 2 > 30 Il test da utilizzare in questo caso è quello su una varianza (con media incognita) la cui statistica test è: χ 2 c = (n 1)s2 σ 2 0 χ 2 (n 1) dove, dai dati campionari risulta che s 2 = 46,314 ed n = 15. La statistica calcolata sarà quindi:
78 CAPITOLO 3. INFERENZA STATISTICA χ 2 c = 14 46.314 30 = 21,613 Il test è unidirezionale e dalle tavole della variabile casuale χ 2 si osserva che χ 2 (n 1,1 α) = χ2 (14,1 0.05) = 23.685 e quindi accetto H 0 ad un livello di significatività α = 0.05. Esercizio 13 La distribuzione dei numeri di visite domiciliari per influenze stagionali effettuate presso gli assistiti di 2 medici di famiglia nell anno 2002 ha rispettivamente le seguenti distribuzioni X 1 N(µ 1,σ 2 ) e X 2 N(µ 2,σ 2 ). I due medici vogliono valutare, sulla base di un campione di 15 assistiti, se il numero medio di visite domiciliari da loro effettuate sono uguali. A tale scopo sono estratti i seguenti campioni: numero visite domiciliari presso 15 assistiti medico 1 4 4 5 2 9 5 10 1 8 6 1 5 3 3 6 medico 2 9 8 0 0 2 4 7 4 2 7 2 10 5 1 7 1. Fissato un livello di significatività α = 0.05, verificare il seguente sistema di ipotesi: { H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 2. Il medico 2 nell anno 2003 ha somministrato il vaccino antinfluenzale ai 15 assistiti del campione 2002 ed il numero di visite che ha effettuato presso di loro è il seguente: {8,1,8,8,3,5,6,4,1,8,3,3,6,2,4} Verificare, con un opportuno test, se il numero medio di visite del medico 2 nel 2003 è rimasto invariato o si è ridotto rispetto al 2002. Ovvero fissato α = 0.05, verificare il seguente sistema di ipotesi: { H 0 : µ 2,2002 = µ 2,2003 H 1 : µ 2,2002 > µ 2,2003 3. Il medico 2 desidera inoltre valutare, sulla base dei dati campionari osservati negli anni 2002 e 2003, l eventuale presenza di correlazione tra le visite domiciliari per influenze stagionali effettuate nei due anni di riferimento (con α = 0.05), sottoponendo a test il seguente sistema di ipotesi: { H 0 : ρ = 0 H 1 : ρ 0
3.2. TEST DELLE IPOTESI 79 1. Il primo test in esame ha ad oggetto il confronto tra medie di due popolazioni indipendenti. A tale scopo la statistica test è: t c = X 1 X 2 ŝ 1 m + 1 n t (m+n 2) dove ŝ 2 = (m 1)s2 1 +(n 1)s2 2 m+n 2 e la cui regione critica, nel caso bidirezionale in esame è t c > t (n+m 2;1 α/2). Dai dati campionari emerge che m = 15, n = 15, x 1 = 4.8, x 2 = 4.533, s 2 1 = 7.314, s 2 2 = 10.981, pertanto: 4.8 4.533 t c = 3.025 1 15 + 1 15 = 0.242 e quindi poichè t (28,1 0.025) = 2.048 e t (28,0.025) = 2.048, accetto H 0. 2. La seconda parte del caso esaminato richiede il confronto di due medie in presenza di dati dipendenti. In particolare si sono osservate le unità campionarie prima e dopo la somministrazione del vaccino ai clienti del medico 2. Quindi il test da utilizzare è quello di confronto tra medie con dati appaiati: t c = n( X Ȳ ) s 2 x + s 2 y 2s xy t (n 1) dove s xy = 1 n 1 n (x i x)(y i ȳ) i=1 Segue che n = 15, X = 4.533, Ȳ = 4.667, s 2 x = 10.981, s 2 y = 6.524 mentre s xy = 0.047, quindi: 15(4.533 4.667) t c = = 0.124 10.981 + 6.524 2 0.047 Ricordando che il test è unidirezionale, la regione critica è data da: t c > t (n 1,1 α). Poichè t (14,1 0.05) = 1.761, accetto H 0. 3. Il test sul coefficiente di correlazione si avvale della seguente statistica: t c = r n 2 1 r 2 t (n 2) dove r è la stima del coefficiente di correlazione e la regione critica è t c > t (n 2;1 α/2). Utilizzando i dati campionari emerge che: t c = 0.006 15 2 1 0.006 2 = 0.022
80 CAPITOLO 3. INFERENZA STATISTICA mentre i valori tabulati sono t (13;1 0.025) = 2.16 e t (13;0.025) = 2.16. Quindi dato α = 0.05, accetto l ipotesi nulla del test. Esercizio 14 L ufficio statistico dell università Beta ha estratto un campione casuale di 500 laureati dell anno solare 2004. Avvalendosi dei loro dati disponibili presso la segreteria studenti vuole valutare l eventuale presenza di legame associativo tra il voto di laurea ed il tempo impiegato (espresso in anni) per il conseguimento del titolo. A tale scopo si avvale dei dati in tabella: VL \Anni 3 4 5 6 7 oltre 7 60 80 15 46 19 45 125 80 100 13 32 40 34 119 100 105 37 58 18 19 132 105 110 19 27 34 44 124 84 163 111 142 500 Sottoporre a test, con α = 0.05, l indipendenza tra le variabili V L ed Anni La verifica dell indipendenza tra le variabili V L ed Anni è effettuata utilizzando un test non parametrico avente sistema di ipotesi: la cui statistica è: { H 0 : X ed Y sono indipendenti H 1 : X ed Y non sono indipendenti k h χ 2 (n ij n ij c = )2 i=1 j=1 n ij χ 2 (k 1)(h 1) con n ij 5 e con regione critica χ 2 c > χ 2 [(k 1)(h 1);1 α] La statistica test evidenzia la necessità di costruire la tabella delle frequenze teoriche n ij : VL \Anni 3 4 5 6 7 oltre 7 60 80 21 40.75 27.75 35.5 125 80 100 19.992 38.794 26.418 33.796 119 100 105 22.176 43.032 29.304 37.488 132 105 110 20.832 40.424 27.528 35.216 124 84 163 111 142 500
3.3. INTERVALLI DI CONFIDENZA 81 in cui si osserva che ciascuna frequenza n ij soddisfa la condizione teorica richiesta dal test n ij 5. Si può pertanto passare a determinare la statistica calcolata: χ 2 c = 1.714 + 0.676 + 2.759 + 2.542 + 2.445 + 1.19 + 6.983 + 0.001 + 9.909 + 5.206 + +4.361 + 9.118 + 0.161 + 4.458 + 1.522 + 2.191 = 55.236 Il valore teorico χ 2 [(4 1)(4 1);1 0.05] = 16.919 e quindi si conclude che ad un livello di significatività del 5% rifiuto H 0. 3.3 Intervalli di confidenza Esercizio 15 Un azienda ha commissionato ad una società di software la riprogettazione del proprio sito web. Dopo che quest ultimo è stato messo on-line vuole studiare gli effetti del rinnovo esaminando il numero di contatti giornaliero al sito. Sotto l ipotesi che tali contatti hanno distribuzione Gaussiana, N(µ,σ 2 ), seleziona un campione casuale di 10 giorni in cui il numero di contatti è stato il seguente: giorni 1 2 3 4 5 6 7 8 9 10 n. contatti 226 803 625 871 326 288 724 149 637 807 1. Costruire un intervallo di confidenza per la media dei contatti giornalieri della popolazione, fissando α = 0.05. 2. Costruire un intervallo di confidenza per la media dei contatti giornalieri della popolazione, fissando α = 0.02. 1. L intervallo di confidenza per la media della popolazione è dato da: x t (n 1;1 α/2) s n µ x + t (n 1;1 α/2) s n tale che: P ( x t (n 1;1 α/2) s n µ x + t (n 1;1 α/2) s n ) = 1 α Dai dati campionari emerge che: mentre t (n 1;1 α/2) = t (9;1 0.025) = 2.262. x = 545.6 ed s = 271
82 CAPITOLO 3. INFERENZA STATISTICA Avvalendosi di tali risultati l intervallo di confidenza, con α = 0.05, è: [ 545.6 2.262 271 ; 545.6 + 2.262 271 ] 10 10 ovvero [351.75; 739.45] 2. Ad un livello di confidenza α = 0.02 l intervallo risulterà di ampiezza maggiore, infatti in questo caso t (9;1 0.01) = 2.821 e l intervallo di confidenza è: [ 545.6 2.821 271 ; 545.6 + 2.821 271 ] 10 10 quindi [303.85; 787.35] Esercizio 16 Il partito XX desidera sottoporre al consiglio comunale una modifica al piano del traffico. Per valutare il gradimento della proposta decide di intervistare un campione casuale di 20 cittadini residenti ai quali chiede di manifestare il prorio accordo o disaccordo in merito ricevendo le seguenti risposte: cittadino 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 risposta 0 1 1 1 0 0 0 0 0 1 0 0 0 0 0 1 1 1 1 0 dove 1=accordo mentre 0=disaccordo. 1. Stimare la proporzione di cittadini favorevoli alla modifica del piano del traffico. 2. Costruire un intervallo di confidenza per la proporzione di popolazione favorevole alla modifica del piano del traffico (con α = 0.05). 1. La stima della proporzione è ˆp = 1 20 { 1 se accordo x i = 0 se disaccordo 20 i=1 2. L intervallo di confidenza per la proporzione p è: ˆp z 1 α/2 ˆp(1 ˆp) n x i = 8 20 = 0.4, dove: p ˆp + z 1 α/2 ˆp(1 ˆp) n p
3.3. INTERVALLI DI CONFIDENZA 83 tale che: P ( ˆp z 1 α/2 ˆp(1 ˆp) n ) ˆp(1 ˆp) p ˆp + z 1 α/2 = 1 α n Dalle tavole della variabile casuale Normale standardizzata, N(0,1), si osserva che z (1 0.025) = 1.96 e quindi l intervallo di confidenza per p è: [ ] 0.4 0.6 0.4 0.6 0.4 1.96 ; 0.4 + 1.96 20 20 ovvero: [0.185; 0.615]
Capitolo 4 Il Modello di Regressione 4.1 Modello di Regressione Lineare Semplice Esercizio 1 È stato intervistato un campione di 10 famiglie alle quali è stato richiesto il luogo di residenza, il reddito mensile e le spese per la cura personale mensile: Famiglia Residenza Reddito (R) Cura Personale (C) ( 1000 Euro) ( 1000 Euro) 1 Nord 1.16 0.68 2 Centro 7.26 2.71 3 Nord 6.09 2.03 4 Sud 2.58 0.84 5 Sud 3.82 1.54 6 Centro 9.43 3.11 7 Sud 5.31 1.79 8 Nord 5.61 2.46 9 Nord 5.17 2.35 10 Sud 5.71 2.37 1. stimare i parametri del seguente modello di regressione lineare semplice: C = a + br + e 2. verificare la bontà di accostamento del modello stimato ai dati osservati 3. sottoporre a test, con α = 0.05, il seguente sistema di ipotesi: { H 0 : b = 0 H 1 : b 0 84
4.1. MODELLO DI REGRESSIONE LINEARE SEMPLICE 85 1. Il grafico richiesto per la rappresentazione delle coppie di valori è i presentato in Figura 4.1 da cui è possibile osservare la presenza di un legame lineare positivo tra le due variabili in esame. Figura 4.1: Diagramma scatter delle coppie di valori (R i,c i ) 2. Le stime dei parametri a e b del modello di regressione sono date da: ˆb = S R,C S 2 R â = C ˆb R Come già evidenziato per il modello di interpolazione, è utile avvalersi dei dati nella tabella seguente per agevolare i calcoli necessari alla stima dei due parametri: Famiglia R C C R C 2 R 2 1 1.16 0.68 0.789 0.462 1.346 2 7.26 2.71 19.675 7.344 52.708 3 6.09 2.03 12.363 4.121 37.088 4 2.58 0.84 2.167 0.706 6.656 5 3.82 1.54 5.883 2.372 14.592 6 9.43 3.11 29.327 9.672 88.925 7 5.31 1.79 9.505 3.204 28.196 8 5.61 2.46 13.801 6.052 31.472 9 5.17 2.35 12.15 5.523 26.729 10 5.71 2.37 13.533 5.617 32.604 Totale 52.14 19.88 119.193 45.073 320.316 Segue quindi che: C = 1 10 10 i=1 C i = 1.988 R = 1 10 10 i=1 S R,C = m R,C R C = 1.554 m 2C = 1 10 R i = 5.214 m R,C = 1 10 10 i=1 10 i=1 C 2 i = 4.507 m 2R = 1 10 R i C i = 11.919 10 i=1 R 2 i = 32.032
86 CAPITOLO 4. IL MODELLO DI REGRESSIONE S 2 C = m 2C C 2 = 0.555 S 2 R = m 2R R 2 = 4.846 quindi le stime dei parametri sono: 1.554 ˆb = = 0.321 â = 1.988 0.321 5.214 = 0.314 4.846 3. La bontà di accostamento ai dati è valutata con l indice R 2. Ricordando che: R 2 = r 2 R,C (dove r R,C è la stima dell indice di correlazione) ( ) 2 è facile calcolare: R 2 0.948 = 0.555 4.846 = 0.899. Il valore assunto dall indice R 2 evidenzia la rilevante capacità del modello nel cogliere la variabilità del fenomeno osservato, ovvero più particolare il modello stimato coglie l 89.9% della variabilità totale del fenomeno. 4. Il test sul parametro b è fondato sul seguente sistema di ipotesi: { H0 : b = 0 H 1 : b 0 avente statistica test: t c = ˆb sˆb t (n 2) con s 2ˆb = ŝ2 n S 2 P e regione critica t c > t (n 2;1 α/2). Il calcolo di t c richiede la preliminare stima della varianza degli errori ê i (indicata con ŝ 2 ): tale che ŝ 2 = 1 n 2 ê i = C i Ĉi dove Ĉ i = 0.314 + 0.321 R i i = 1,2,...,10 n ê 2 i i=1 Si rende quindi necessaria l aggiunta di ulteriori colonne alla tabella precedente: Famiglia R C Ĉ i ê i ê 2 i 1 1.16 0.68 0.686-0.006 0 2 7.26 2.71 2.644 0.066 0.004 3 6.09 2.03 2.269-0.239 0.057 4 2.58 0.84 1.142-0.302 0.091 5 3.82 1.54 1.54 0 0 6 9.43 3.11 3.341-0.231 0.053 7 5.31 1.79 2.019-0.229 0.052 8 5.61 2.46 2.115 0.345 0.119 9 5.17 2.35 1.974 0.376 0.141 10 5.71 2.37 2.147 0.223 0.05 Totale 52.14 19.88 0.567
4.1. MODELLO DI REGRESSIONE LINEARE SEMPLICE 87 da cui emerge che la stima della varianza degli errori è ŝ 2 = 0.071 mentre la statistica test assume valore: t c = 0.321 0.001 Confrontando quest ultimo con i valori tabulati t (8;1 0.025) = 2.306 e t (8;0.025) = 2.306, è possibile concludere che ad un livello di significatività del 5% rifiuto l ipotesi nulla del test. Esercizio 2 Utilizzando i dati dell esercizio 1 del corrente capitolo ed il modello in esso stimato: 1. Effetturare l analisi grafica dei residui del modello stimato 2. Fissato α = 0.05, la costante a può essere considerata significativamente diversa da 0? 1. L analisi grafica dei residui è generalmente effettuata avvalendosi dei diagrammi scatter delle coppie di valori (i,ê i ) ed (ê i,ê i 1 ). Il primo dei due grafici è presentato in Figura 4.2 da cui non merge la presenza di struttura nelle coppie di valori e quest assenza di struttura è ulteriormente confermata dalla Figura 4.3 dove sono rappresentate le coppie (ê i,ê i 1 ). Figura 4.2: Diagramma scatter delle coppie di valori (i,ê i ) Tale valutazione grafica conferma la validità del modello stimato nel rappresentare la struttura dei dati osservati come già verificato, con una procedura differente, nel precedente esercizio con l indice R 2. 2. Per verificare se l intercetta del modello è significativamente diversa da zero, fissato α = 0.05, è necessario costruire un test su a avente sistema di ipotesi: { H0 : a = 0 H 1 : a 0
88 CAPITOLO 4. IL MODELLO DI REGRESSIONE Figura 4.3: Diagramma scatter delle coppie di valori (ê i,ê i 1 ) e statistica test: t c = â sâ t (n 2) con s 2 â = ŝ2 m 2R n S 2 R dove m 2R è il momento secondo della variabile indipendente R, SR 2 è la varianza di quest ultima, ŝ 2 è la varianza degli errori mentre la regione critica è t c > t (n 2;1 α/2) Utilizzando i risultati del precedente esercizio segue che: s 2 â = e quindi la statistica test è t c = 1.448. 0.071 32.032 10 4.846 = 0.047 Fissato α = 0.05 i valori che delimitano la regione di accettazione del test sono t (8;1 0.025) = 2.306 e t (8;0.025) = 2.306, quindi H 0 è accettata, ovvero il parametro a non è significativamente diverso da zero. Esercizio 3 È stata effettuata una ricerca medica su un campione di 350 pazienti, volta a valutare la relazione esistente tra l assunzione di sale (SL) e la pressione sanguigna (PS). Dai dati campionari è emerso che il consumo medio giornaliero di sale è 25.4 mg e la media della pressione sanguigna massima è 117.8. È inoltre emerso che la varianza campionaria di SL è 134.3 mentre quella di PS è 75.9 mentre la loro correlazione è 0.521. L equipe medica ritiene che la relazione tra SL e PS è ben descritta da un modello di regressione lineare semplice: PS = a + b SL + e 1. Stimare i parametri a e b del modello di regressione 2. Verificare la bontà di accostamento del modello ai dati
4.1. MODELLO DI REGRESSIONE LINEARE SEMPLICE 89 1. La stima dei parametri del modello richiede la conoscenza della covarianza tra SL e PS. Osservando che: S SL,PS = r SL,PS S SL S PS la covarianza sarà S SL,PS = 0.521 134.3 75.9 = 52.60. Quindi le stime dei due parametri sono: ˆb = S SL,PS S 2 SL = 52.60 = 0.39 â = 117.8 0.39 25.4 = 107.89 134.3 2. La bontà di accostamento del modello ai dati è possibile valutarla con l indice R 2. Utilizzando la relazione R 2 = r 2 SL,PS segue che R2 = 0.271 e quindi il 27.1% della variabilità totale del fenomeno osservato è spiegato dal modello di regressione lineare stimato.