Dispense sull uso di Excel Daniela Marella 1 La Matrice dei dati Un questionario è costituito da un insieme di domande raccolte su un determinato supporto (cartaceo o elettronico) e somministrate alla popolazione di individui oggetto della rilevazione. Effettuata la rilevazione sarà necessario organizzare in maniera opportuna i dati statistici per la loro successiva elaborazione. I dati saranno quindi immagazzinati nell elaboratore secondo lo schema di una matrice che viene generalmente denominata matrice dei dati. In essa a ciascuna riga sarà associato un questionario, e quindi un soggetto, e a ciascuna colonna una informazione rilevata (o variabile). Si hanno, in tal modo, tante righe quante sono le unità statistiche intervistate e tante colonne quante sono le variabili osservate. Notiamo che, ai fini della memorizzazione dei dati sarà particolarmente importante prevedere già nel questionario un opportuna codifica dei dati. La codifica dei dati è la fase in cui si associa a ciascuna modalità di risposta di ciascuna domanda un codice numerico. Supponiamo di aver somministrato a 60 studenti della Facolta di Scienze della Formazione un questionario il cui scopo è quello di rilevare informazioni sulle seguenti variabili: 1. SESSO maschio 1 femmina 2 2. TITOLO DI STUDIO C.F. (capofamiglia) lic.elementare 1 lic.media 2 diploma 3 laurea 4 3. TITOLO DI DIPLOMA Ist.Tec. Commerciale 1 Ist.Tec. Industriale 2 Liceo Scientifico 3 4. NUMERO DI ESAMI SOSTENUTI 5. VOTO DI PEDAGOGIA GENERALE 6. VOTO DI PSICOLOGIA GENERALE 1
Dopo aver numerato progressivamente tutti i questionari si procederà all immissione dei dati questionario per questionario. Ad esempio, supponiamo di voler immettere in un foglio di Excel i dati rilevati sui primi 5 studenti intervistati: Codice Quest. Sesso Titolo C.F. Tipo di diploma N.esami Voto Ped. Voto Psic. 1 Maschio lic.elem. Ist. Tec. Com. 3 21 27 2 Femmina lic.media Ist. Tec. Com. 4 20 23 3 Maschio lic.media Ist. Tec. Com. 2 21 23 4 Femmina laurea Liceo Scient. 3 21 27 5 Maschio lic.media Ist. Tec. Ind. 5 22 28 Con riferimento al primo studente, la procedura da seguire è la seguente: 1. Immettere i nomi delle variabili: (a) digitare nella cella A1 CODICE QUESTIONARIO; (b) digitare nella cella B1 SESSO; (c) digitare nella cella C1 TITOLO DI STUDIO DEL C.F.; (d) digitare nella cella D1 TIPO DI DIPLOMA; (e) digitare nella cella E1 N.ESAMI; (f) digitare nella cella F1 VOTO DI PEDAGOGIA; (g) digitare nella cella G1 VOTO DI PSICOLOGIA; 2. Immettere i dati relativi al primo questionario: (a) immettere nella cella A2 il codice del questionario 1; (b) immettere nella cella B2 il valore 1 corrispondente alla codifica della modalità maschio; (c) immettere nella cella C2 il valore 1 corrispondente alla codifica della modalità lic.elementare; (d) immettere nella cella D2 il valore 1 corrispondente alla codifica della modalità Ist.Tec.Com; (e) immettere nella cella E2 il valore 3; (f) immettere nella cella F2 il valore 21; (g) immettere nella cella G2 il valore 27; I dati relativi ai 59 restanti studenti sono stati registrati nel foglio 1 del file studenti.xls. 2 Distribuzioni di frequenza univariate: frequenze e percentuali Consideriamo il dataset contenuto nel foglio 1 del file studenti.xls e supponiamo di voler costruire la distribuzione di frequenza della variabile Numero di esami sostenuti. A tale scopo occorre: 1. individuare le modalità che la variabile assume nel collettivo degli studenti. Per calcolare la modalità minima e massima utilizziamo le funzioni MIN() e MAX(). Formalmente (a) digitare nella cella I1 la formula =MIN(E2:E61) per il calcolo del minimo; (b) digitare nella cella J1 la formula =MAX(E2:E61) per il calcolo del massimo; 2
essendo il minimo pari a 2 e il massimo pari a 5, le modalità della variabile sono 2, 3, 4, 5. 2. Costruire la tabella per la distribuzione di frequenza. Nella cella I4 scrivere il titolo Numero di esami e digitare nelle celle I5-I8 le modalità 2, 3, 4, 5. Inoltre nella cella J4 scrivere il titolo Frequenze assolute. 3. Calcolare le frequenze assolute corrispondenti alle diverse modalità utilizzando la seguente procedura: (a) digitare nella cella J5 la formula =CONTA.SE(E$2:E$61;I5) (b) copiare il contenuto di tale cella nelle celle J6-J8. 4. Calcolare la somma delle frequenze assolute digitando nella cella J9 la formula =SOMMA(J5:J8). Chiaramente il risultato deve essere pari alla numerosità del collettivo N = 60. Alla fine della procedura si otterrà la seguente tabella. Tabella 1: Distribuzione di frequenza del numero di esami - Scienze della Formazione N.esami Frequenze assolute 2 16 3 22 4 14 5 8 Totale 60 Nota 1: In Excel le celle sono identificate mediante delle coordinate. In base all impostazione predefinita le colonne sono identificate da lettere e le righe sono identificate da numeri. Ad esempio G5 si riferisce alla cella posizionata all intersezione tra la collana G e la riga 5. Un riferimento in Excel può identificare una cella (esempio G5) o un intervallo di celle (esempio G5:G8). I riferimenti in Excel possono essere: 1. relativi: se si copia la formula nelle righe o nelle colonne adiacenti il riferimento viene aggiornato; 2. assoluti: se si copia la formula nelle righe o nelle colonne adiacenti il riferimento non viene aggiornato. Per evitare l aggiornamento dei riferimenti di cella occorre utilizzare il simbolo $; 3. misti: un riferimento misto contiene una colonna assoluta e una riga relativa o viceversa. Ciò significa che se la formula viene copiata nelle righe o nelle colonne adiacenti cambia il riferimento relativo ma non quello assoluto che rimarrà inalterato. Ad esempio, nel calcolo delle frequenze assolute se avessimo omesso il simbolo $ e avessimo copiato il contenuto =CONTA.SE(E2:E61;I5) dalla cella J5 nella cella J6 la formula avrebbe subito il seguente aggiornamento =CONTA.SE(E3:CE62;I6). Notiamo che l intervallo di riferimento in cui cercare il valore contenuto nella cella I6 si è erroneamente modificato. Infatti i dati della variabile Numero di esami si trovano nell intervallo di celle (E2:E61) e non nell intervallo di celle (E3:E62). Allo scopo di evitare questo aggiornamento e poiché si vuole eliminare la variazione di spostamenti lungo la medesima colonna occorre inserire il simbolo $ a sinistra del numero. 3
Nota 2: Per calcolare la distribuzione di frequenza della Tabella 1 si può in alternativa al CONTA.SE() utilizzare il comando Tabella Pivot. Nella barra dei comandi cliccare su Dati e nel menu che si apre scegliere Rapporto Tabella Pivot e Grafico Pivot. Si apre la finestra di dialogo della Creazione guidata tabella pivot grafico pivot. Effettuare le seguenti operazioni: confermare che i dati sono in un elenco o database Microsoft Excel. Selezionare che il tipo di rapporto da creare è una Tabella pivot. Cliccare su Avanti. Confermare che i dati si trovano nell intervallo A1:G61. Cliccare su Avanti. Cliccare su Layout. Trascinare la variabile Numero di esami dentro l area Colonna della tabella centrale. Trascinare la variabile Numero di esami dentro l area Dati della tabella. In questo modo Excel produce, all interno dell area Dati, un riquadro conteggio di Categoria. Se la funzione applicata ai dati non fosse la funzione conteggio occorrerà selezionarla dal menù delle funzioni che appaiono cliccando sul riquadro all interno dell area Dati. Cliccare su OK. Indicare che si desidera collocare la tabella pivot in un nuovo foglio di lavoro. Cliccare su Fine. Nella versione Excel 2007 lo strumento Tabella Pivot si trova cliccando Inserisci nella barra dei comandi. A partire dalle frequenze assolute calcoliamo le proporzioni, le frequenze percentuali e le frequenze percentuali cumulate utilizzando la seguente procedura: 1. nella cella K4 digitare il titolo Proporzioni; 2. per calcolare la prima frequenza relativa nella cella K5 digitiamo =J5/J$9 ; 3. per ottenere le restanti frequenze relative copiare la formula fino alla cella K8; 4. calcolare la somma delle frequenze relative digitando nella cella K9 la formula =SOMMA(K5:K8). Il risultato della somma deve essere pari a 1. Per calcolare le frequenze percentuali utilizzare la seguente procedura: 1. nella cella L4 digitare il titolo Frequenze percentuali; 2. per calcolare la prima frequenza percentuale nella cella L5 digitiamo =K5*100 ; 3. per ottenere le restanti frequenze percentuali copiare la formula fino alla cella L8; 4. calcolare la somma delle frequenze percentuali digitando nella cella L10 la formula =SOMMA(L5:L8). Il risultato della somma deve essere pari a 100. Per calcolare le frequenze percentuali cumulate utilizzare la seguente procedura: 1. nella cella M4 digitare il titolo Frequenze percentuali cumulate; 2. nella cella M5 digitare L5; 3. nella cella M6 digitiamo =SOMMA($L$5:$L6) ; 4. copiare il contenuto della cella M6 fino a M8. La frequenza relativa cumulata corrispondente all ultima modalità deve essere pari a 100. Alla fine di questa procedura si otterrà la seguente tabella. 4
Tabella 2: Distribuzione di frequenza del numero di esami - Scienze della Formazione N.esami Freq. assolute Proporzioni Freq.percentuali Freq.perc.cumulate 2 16 0.27 27 27 3 22 0.37 37 64 4 14 0.23 23 87 5 8 0.13 13 100 Totale 60 1 100 3 Confronto tra distribuzioni Le frequenze relative consentono di confrontare distribuzioni secondo la stessa variabile su collettivi di diversa numerosità. Nel foglio 2 del file studenti.xls la variabile Numero di esami è stata rilevata su 30 studenti della Facoltà di Ingegneria. La corrispondente distribuzione di frequenza è Tabella 3: Distribuzione di frequenza del Numero di esami - Ingegneria N.esami Freq. assolute Freq.percentuali 2 7 23 3 5 17 4 14 47 5 3 13 Totale 30 100 Se ci limitassimo a confrontare le frequenze assolute delle due distribuzioni concluderemo che nella Facoltà di Scienze della Formazione e in Ingegneria lo stesso numero di studenti ha sostenuto 4 esami. In realtà per effettuare un confronto corretto è necessario ricondursi a un collettivo di numerosità 100 attraverso il calcolo delle frequenze percentuali. Notiamo infatti che nella Facoltà di Scienze della Formazione il 23% degli studenti ha sostenuto 4 esami contro il 47% della Facoltà di Ingegneria. 4 Rappresentazioni grafiche Il diagramma a barre è un grafico utilizzato per rappresentare variabili quantitative discrete e variabili qualitative. Il diagramma può essere di due tipi: a barre verticali (colonne), o a barre orizzontali (nastri). In particolare Excel usa l espressione istogramma per indicare il diagramma a barre verticali mentre usa l espressione barre per indicare il diagramma a barre orizzontali (o a nastri). Supponiamo di voler rappresentare graficamente la variabile Titolo di studio del C.F la cui distribuzione di frequenza è rappresentata nella Tabella 4. La procedura da seguire è la seguente: 1. selezionare le celle che contengono i dati; 2. cliccare sull icona Creazione guidata del grafico ; 5
Tabella 4: Distribuzione di frequenza del Titolo di studio del C.F. Titolo di studio del C.F. Freq. assolute lic.elementare 5 lic. media 20 diploma 20 laurea 15 Totale 60 3. in tipo di grafico scegliere Istogramma; 4. nella pagina Intervallo dati confermare che l intervallo dati sia corretto e serie in colonne. Nella pagina Serie controllare la correttezza dei dati da utilizzare per effettuare il grafico. In particolare nella parte in basso di questa finestra cliccare nello spazio bianco posto accanto alla dicitura Etichette asse categorie (X). Le etichette sono le modalità della variabile Titolo di studio del C.F., i valori da riportare in ordinata sono le corrispondenti frequenze assolute che si trovano nell intervallo dati $J$5:$J$8. Si osservi che il totale delle frequenze assolute pari a 60 è stato escluso dall intervallo. Cliccare su Avanti. 5. sulla pagina Titoli, scrivere il Titolo del grafico (nel nostro esempio Distribuzione del Titolo di studio del C.F.); scrivere il nome dell Asse (X) (nel nostro esempio Titolo di studio); scrivere il nome dell Asse (Y) (nel nostro esempio Freq.assolute); 6. posiziona il grafico come oggetto in un foglio di lavoro nuovo; 7. digitare il tasto fine. Alla fine della procedura si otterrà il seguente grafico. Figura 1: Distribuzione del Titolo di studio del C.F. 6
Per rappresentare graficamente variabili nominali si utilizza il diagramma a torta in cui l area del cerchio esprime la frequenza totale e le fette esprimono le frequenze delle varie modalità della variabile. Tali fette vengono determinate dividendo l intero angolo giro (360 ) in parti proporzionali alle frequenze da rappresentare. Ad esempio supponiamo di voler rappresentare graficamente la variabile Tipo di diploma. La distribuzione di frequenza della variabile è la seguente Tabella 5: Distribuzione di frequenza del Tipo di diploma Tipo di diploma Frequenze assolute Ist.Tec. Commerciale 16 Ist.Tec. Industriale 17 Liceo Scientifico 27 Totale 60 Analogamente a quanto effettuato in precedenza si deve procedere con la Creazione guidata del grafico scegliendo però nella pagina Tipo di grafico l opzione Torta. Alla fine della procedura si otterrà il seguente grafico. Figura 2: Distribuzione del Tipo di diploma Nella versione Excel 2007 i grafici (istogramma, grafico a torta) si trovano cliccando Inserisci nella barra dei comandi. 5 Gli indici di posizione In questa sezione si vedrà l utilizzo di Excel per il calcolo dei seguenti indici di posizione: 1. moda; 2. mediana; 3. media aritmetica. 7
5.1 La moda Per calcolare la moda della variabile Numero di esami basterà digitare il seguente comando: =MODA(E2:E61) ottenendo il risultato 3. La funzione MODA() può essere utilizzata anche per variabili qualitative dopo aver attribuito una codifica numerica alle modalità della variabile. 5.2 La mediana Per calcolare la mediana della variabile Numero di esami basterà digitare il seguente comando: =MEDIANA(E2:E61) La modalità mediana è 3. La funzione MEDIANA() può essere utilizzata anche per variabili qualitative ordinabili dopo aver attribuito una codifica numerica alle modalità della variabile. 5.3 La media aritmetica Per calcolare la media della variabile Numero di esami basterà digitare il seguente comando: La media è pari a 3.23. =MEDIA(E2:E61) Supponiamo di voler calcolare la moda della variabile Titolo di studio del capofamiglia. A tale riguardo basterà digitare il comando MODA(C2:C61) che fornisce il risultato 2. Poiché nella nostra codifica 2 corrisponde alla categoria licenza media, la moda della nostra distribuzione è licenza media. In modo analogo è possibile calcolare la mediana di variabili qualitative ordinabili. Supponiamo di voler calcolare la mediana della variabile Titolo di studio del capofamiglia. Dalla formula MEDIANA(C2:C61) otteniamo il risultato 3. Poiché nella nostra codifica 3 corrisponde alla categoria diploma, la mediana della nostra distribuzione è diploma. Notiamo che le funzioni MODA(), MEDIANA(), MEDIA() possono essere applicate unicamente a distribuzioni unitarie.nel caso in cui si disponga solo della distribuzione di frequenza allora non esistono in Excel funzioni che consentono di calcolare automaticamente la moda, la mediana e la media. In tali circostanze è possibile 1. calcolare la moda individuando nella distribuzione di frequenza la modalità a cui corrisponde la frequenza assoluta più alta. Dall esame della distribuzione di frequenza della variabile Numero di esami (Tabella 2) si evince che la moda è pari a 3. A tale modalità corrisponde la frequenza assoluta massima 22. Ciò conferma il risultato ottenuto con il comando MODA(). 8
2. Calcolare la mediana individuando la più piccola modalità (dopo averle ordinate) in corrispondenza della quale la frequenza percentuale cumulata supera per la prima volta 50. Formalmente ciò significa che occorre individuare la modalità x j tale che F j 1 < 50 e F j > 50 dove F j 1 e F j rappresentano le frequenze percentuali cumulate corrispondenti alle modalità j 1 e j. Per calcolare la mediana occorre, quindi, calcolare le frequenze percentuali cumulate. Dall esame della Tabella 2 si evince che la modalità mediana è 3. A tale modalità corrisponde una frequenza percentuale cumulata pari a 64%. Ciò conferma il risultato ottenuto con il comando MEDIANA(). 3. Calcolare la media utilizzando la formula x = k i=1 x i N i N (1) dove x 1,..., x k e N 1,..., N k sono rispettivamente le modalità e le frequenze assolute della variabile. Per il calcolo della formula (1) occore: digitare nella cella N4 il titolo x i N i ; digitare nella cella N5 la formula =J5*I5 e copiare la formula fino alla cella N8; calcolare la somma k i=1 x in i digitando nella cella N9 la formula La somma è pari a 194. =SOMMA(N5:N8). dividere la somma ottenuta per la numerosità del collettivo N = 60 digitando nella cella N10 la formula =N9/J9. Il risultato 3.23 conferma quanto ottenuto con il comando MEDIA(). I calcoli della procedura sono riportati nella seguente tabella: Tabella 6: Calcolo della media a partire da una distribuzione di frequenza Numero di esami sostenuti Frequenze assolute x i N i 2 16 32 3 22 66 4 14 56 5 8 40 Totale 60 194 9
6 Gli indici di variabilità In questa sezione si utilizzerà Excel per il calcolo dei seguenti indici di variabilità: 1. intervallo o campo di variazione; 2. varianza e deviazione standard (o scarto quadratico medio); 3. coefficiente di variazione. 6.1 Il campo di variazione Il campo di variazione è dato dalla differenza tra la modalità massima e la modalità minima della variabile campo di variazione = x max x min (2) Con riferimento alla variabile Numero di esami sostenuti calcoliamo il campo di variazione. Poiché nelle celle I1 e J1 abbiamo già calcolato il voto massimo e il voto minimo, per ottenere il campo di variazione basterà effettuare le seguenti operazioni nella cella P4 scrivere il titolo campo di variazione; nella cella Q4 scrivere la formula =J1-I1. Il campo di variazione risulta pari a 3. 6.2 La varianza e la deviazione standard La varianza di una distribuzione unitaria è data da s 2 = N (x i x) 2 i=1 N (3) Per calcolare la varianza della variabile Numero di esami occorre digitare nella cella P5 il titolo Varianza; digitare nella cella Q5 la formula =VAR.POP(E2:E61). Nel nostro esempio la varianza è 0.98. Per ottenere una misura di dipersione espressa nella stessa unità di misura della variabile procediamo a calcolare la deviazione standard o scarto quadratico medio. A tale riguardo occorre digitare nella cella P6 il titolo Deviazione Standard; digitare nella cella Q6 la formula =DEV.ST.POP(E2:E61). Poiché la deviazione standard è definita come la radice quadrata della varianza s = N (x i x) 2 N i=1 (4) 10
in alternativa alla formula =DEV.ST.POP(E2:E61) possiamo scrivere nella cella Q6 la formula RADQ(Q5). La funzione RADQ() calcola la radice quadrata di un numero. La deviazione standard è pari a 0.99. Notiamo che le funzioni =VAR.POP(), DEV.ST.POP() possono essere applicate unicamente a distribuzioni unitarie. Nel caso di distribuzioni di frequenza la varianza è definita come s 2 = k i=1 (x i x) 2 N i N (5) Per il calcolo della formula (5) occorre calcolare il quadrato degli scarti ponderati (x i x) 2 N i per ciascuna modalità. Nella cella O4 digitare il titolo Scarti. Nella cella O4 scrivere la formula (I5 N$10) 2 J5 copiandola fino alla cella O8; calcolare la somma =SOMMA(O5:O8) ; k i=1 (x i x) 2 N i digitando nella cella O9 la formula dividere la somma ottenuta per la numerosità del collettivo N = 60 digitando nella cella O10 la fomula =O9/J9. Il risultato è 0.98. Ciò conferma il risultato ottenuto con il comando VAR.POP(). 6.3 Il coefficiente di variazione Il coefficiente di variazione è dato dal rapporto tra la deviazione standard e la media aritmetica. La sua espressione è la seguente nella cella P7 scrivere il titolo Coefficiente di variazione; nella cella Q7 scrivere la formula =(Q6/N10)*100. Il coefficiente di variazione è pari a 31%. CV = s 100 (6) x 7 Distribuzioni doppie Una distribuzione doppia è una distribuzione relativa a due variabili statistiche (X, Y ). Una distribuzione doppia di frequenza è una tabella statistica a doppia entrata nella quale in ciascuna casella figurano le frequenze assolute relative alle diverse combinazioni delle modalità delle due variabili. 7.1 Costruzione di tabelle di frequenza bivariate Supponiamo di voler costruire una tabella di frequenza bivariata relativa alle variabili Tipo di diploma e Titolo di studio del capofamiglia. Lo strumento di Excel da utilizzare è la Tabella Pivot. La procedura da seguire è la seguente: 11
1. cliccare su una cella qualunque del dataset; 2. nella barra dei comandi cliccare su Dati e scegliere Rapporto tabella pivot e grafico pivot. 3. confermare che si vuole creare una Tabella pivot. Cliccare su Avanti. 4. specificare (o confermare) la posizione in cui si trovano i dati da utilizzare. Cliccare su Avanti. 5. Cliccare su Layout. Con riferimento alle variabili Titolo di studio del capofamiglia e Tipo di diploma, decidiamo di posizionare la prima nelle righe e la seconda nelle colonne della tabella. Quindi analogamente a quanto fatto per costruire una tabella di frequenza univariata occorre trascinare il riquadro Titolo di studio del capofamiglia dentro l area Riga della tabella; trascinare il riquadro Tipo di diploma dentro l area Colonna della tabella; trascinare il riquadro Tipo di diploma dentro l area Dati della tabella. In questo modo Excel produce, all interno dell area Dati, un riquadro conteggio di Categoria. Questo riquadro mostra ciò che apparirà nella tabella pivot, ossia il conteggio di quante volte appaiono le varie coppie di modalità nel collettivo dei 60 studenti. Se la funzione applicata ai dati non fosse la funzione conteggio occorrerà selezionarla dal menù delle funzioni che appaiono cliccando sul riquadro all interno dell area Dati. 6. Cliccare su OK. 7. indicare che si desidera collocare la tabella pivot in un nuovo foglio di lavoro. Cliccare su Fine. Nella versione Excel 2007 lo strumento Tabella Pivot si trova cliccando Inserisci nella barra dei comandi. Alla fine della procedura si otterrà la Tabella 7. Tabella 7: Distribuzione doppia di frequenza: Studenti per Titolo di studio del C.F. e Tipo di diploma Titolo di studio Tipo di Diploma C.F. 1 2 3 Totale 1 4 1 5 2 10 6 4 20 3 2 8 10 20 4 2 13 15 Totale 16 17 27 60 A partire da una tabella a doppia entrata è possibile calcolare gli indici di posizione e/o di variabilità precedentemente illustrati nel caso di distribuzioni univariate con riferimento alle distribuzioni marginali delle due variabili o alle distribuzioni condizionate. A tale scopo basterà individuare nella tabella doppia la distribuzione di frequenza univariata di interesse. 12
7.1.1 Calcolo delle frequenze relative della distribuzione doppia Per il calcolo delle frequenze relative della distribuzione doppia occorre innanzitutto procedere alla costruzione di una seconda tabella che nella generica cella contenga la frequenza relativa corrispondente ad ogni coppia di modalità. Lavoriamo sul foglio in cui è stata salvata la tabella a doppia entrata. La procedura da seguire è la seguente: 1. copiare le modalità della variabile Titolo di studio del capofamiglia in A13:A16; 2. copiare le modalità della variabile Tipo di diploma in B12:D12; 3. digitare nella cella B13 la formula =B5/$E$9 e copiarla in tutte le restanti celle della tabella. Alla fine della procedura si otterrà la Tabella 8. Tabella 8: Distribuzione doppia di frequenze relative: Studenti per titolo di studio del C.F. e Tipo di diploma Titolo di studio Tipo di Diploma C.F. 1 2 3 Totale 1 0.07 0.02 0.08 2 0.17 0.10 0.07 0.33 3 0.03 0.13 0.17 0.33 4 0.03 0.22 0.25 Totale 0.27 0.28 0.45 1 Per verificare la correttezza del risultato basterà verificare che la somma delle frequenze calcolate sia pari a 1. 7.1.2 Calcolo delle frequenze relative delle distribuzioni condizionate. Calcoliamo le frequenze relative delle distribuzioni del Tipo di diploma condizionate alle modalità della variabile Titolo di studio del C.F.. La procedura da seguire è la seguente: 1. copiare le modalità della variabile Titolo di studio del capofamiglia in A20:A23; 2. copiare le modalità della variabile Tipo di diploma in B19:D19; 3. digitare nella cella B20 la formula =B5/$E5 e copiarla nelle restanti celle della tabella a doppia entrata. Alla fine di tale procedura si otterrà la Tabella 9. 7.2 Analisi della dipendenza tra due variabili 7.2.1 L indice Chi-quadrato L espressione analitica del Chi-quadrato è la seguente χ 2 = (f o f e ) 2 f e (7) 13
Tabella 9: Distribuzioni condizionate Titolo di studio Tipo di Diploma C.F. 1 2 3 1 0.8 0.2 1 2 0.5 0.3 0.2 1 3 0.1 0.4 0.5 1 4 0.13 0.87 1 0.27 0.28 0.45 1 dove le f o e le f e rappresentano rispettivamente le frequenze osservate nei dati e le frequenze attese sotto l ipotesi di indipendenza. Ricordiamo che : f e = totale riga totale colonna. (8) totale tabella L indice Chi-quadrato misura la distanza che intercorre tra la tabella osservata e la tabella di indipendenza. Supponiamo di voler costruire la tabella teorica di indipendenza della Tabella 7, la procedura da seguire è la seguente: 1. copiare le modalità della variabile Titolo di studio del capofamiglia in A28:A31; 2. copiare le modalità della variabile Tipo di diploma in B27:D27; 3. digitare nella cella B28 la formula =($E5*B$9)/$E$9 e copiarla nelle restanti celle della tabella a doppia entrata. Se il calcolo è stato eseguito correttamente i totali riga e colonna devono coincidere con le frequenze osservate. Alla fine della procedura si otterrà la Tabella 10. Tabella 10: Tabella teorica di indipendenza Titolo di studio Tipo di Diploma C.F. 1 2 3 Totale 1 1.33 1.42 2.25 5 2 5.33 5.67 9 20 3 5.33 5.67 9 20 4 4 4.25 6.75 15 Totale 16 17 27 60 7.2.2 Il coefficiente di correlazione e la retta di regressione Il coefficiente di correlazione misura il grado della relazione lineare tra X e Y. Sia X=Voto di Psicologia Generale e Y=Voto di Pedagogia Generale. Allo scopo di analizzare l esistenza di un relazione lineare tra le due variabili procediamo alla costruzione del diagramma di dispersione utilizzando la seguente procedura: 14
1. selezionare le celle che contengono i dati; 2. cliccare sull icona Creazione guidata del grafico ; 3. in tipo di grafico scegliere Dispers.(X,Y); 4. inserire nelle due pagine Intervallo dati e Serie i dati da utilizzare per effettuare il grafico. Controllare che i valori di X siano G2:G61 e controllare che i valori di Y siano F2:F61. 5. sulla pagina Titoli, scrivere il Titolo del grafico (nel nostro esempio Diagramma di dispersione di X=Voto di Psicologia e Y =Voto di Pedagogia); scrivere il nome dell Asse (X) (nel nostro esempio Voto di Psicologia); scrivere il nome dell Asse (Y) (nel nostro esempio Voto di Pedagogia); 6. posiziona il grafico come oggetto in un foglio di lavoro nuovo; 7. digitare il tasto fine. Nella versione Excel 2007 il dagramma a dispersione si trova cliccando Inserisci nella barra dei comandi. Al termine della procedura si otterrà il seguente grafico. Figura 3: Diagramma di dispersione di X = Voto di Psicologia e Y = Voto di Pedagogia Dall osservazione del grafico è evidente che i punti tendono ad addensarsi intorno ad una retta, ciò significa che tra le due variabili sussite una relazione lineare. L espressione analitica del coefficiente di correlazione è la seguente r = Cov(x, y) s x s y (9) 15
in cui Cov(x, y) rappresenta la covarianza tra le due variabili X e Y mentre s x e s y indicano le rispettive deviazioni standard. Supponiamo di voler calcolare il coefficiente di correlazione tra i due variabili X e Y. A partire dalla distribuzione unitaria occorrerà digitare il comando =CORRELAZIONE(F4:F63;G4:G63). La correlazione risulta pari a 0.78. Per la costruzione della retta di regressione esistono in Excel vari metodi. E possibile per esempio utilizzare la seguente procedura: 1. nella barra dei comandi cliccare su Grafico e scegliere Aggiungi linea di tendenza; 2. nella pagina Tipo selezionare il grafico Lineare; 3. nella pagina Opzioni selezionare Visualizza l equazione sul grafico 4. cliccare OK. Al termine della procedura si otterrà il seguente grafico. Figura 4: Retta di regressione di Y = Voto di Pedagogia su X = Voto di Psicologia Gli assi non partono dall origine (0, 0) ma dal punto (17, 16) allo scopo di agevolare la visualizzazione del grafico. L equazione della retta di regressione che compare all interno del grafico è : y = 3.3 + 0.67x (10) 16
Esercizi Esercizio 1 I seguenti dati sono i voti di 20 studenti che hanno sostenuto l esame di Inglese 25, 24, 30, 20, 25, 20, 25, 30, 30, 20, 20, 30, 29, 20, 25, 25, 20, 25, 24, 25. Immettere i dati all interno di un foglio Excel; costruire la distribuzione di frequenza; determinare le frequenze relative; rappresentare graficamente la distribuzione. Esercizio 2 Le stature in cm di 10 persone sono 150, 180, 165, 142, 174, 172, 164, 165, 164. Immettere i dati in un foglio Excel e calcolare la moda, la mediana, la media aritmetica, il campo di variazione e la deviazione standard. Esercizio 3 Si consideri la seguente distribuzione di frequenza riferita a un collettivo di 20 famiglie sulle quali è stata rilevata la variabile Numero di figli per famiglia: Numero di figli Numero di famiglie 0 8 1 20 2 17 3 5 Totale 50 Rappresentare graficamente la distribuzione. Calcolare la moda, la mediana, la media e la varianza. Esercizio 4 Si consideri il dataset famiglie.xls contenente i dati relativi a 30 famiglie. riferimento alla variabile Numero di componenti: Con si calcoli la media, la mediana e la moda; si calcoli la corrispondente distribuzione di frequenza e la si rappresenti graficamente; sulla base della distribuzione di frequenza ottenuta, si calcoli la media aritmetica e la mediana e si verifichi che si ottengono gli stessi risultati ottenuti in precedenza utilizzando la distribuzione unitaria. Esercizio 5 Si consideri il dataset famiglie.xls contenente i dati relativi a 30 famiglie. Con riferimento alla variabile Titolo di godimento dell abitazione di residenza si calcoli la distribuzione di frequenza e la si rappresenti graficamente. Esercizio 6 Si consideri il dataset famiglie.xls contenente i dati relativi a 30 famiglie. Si calcoli la ditribuzione doppia relativa alle variabili Età del marito e Età della moglie; si rappresenti la distribuzione con un grafico a dispersione; 17
si calcoli il coefficiente di correlazione. Esercizio 7 Si consideri il dataset famiglie.xls contenente i dati relativi a 30 famiglie. Con riferimento alle variabili Titolo di godimento dell abitazione di residenza e Titolo di studio del Capofamiglia. Si calcoli la tabella di frequenza a doppia entrata; la tabella delle frequenze relative; la tabella teorica di indipendenza. 18