TECNICHE DI ANALISI DEI DATI AA 016/017 PROF. V.P. SENESE Questi materiali sono disponibili per tutti gli studenti al seguente indirizzo: https://goo.gl/rwabbd Seconda Università di Napoli (SUN) Dipartimento di Psicologia TECNICHE DI ANALISI DEI DATI Prof. V.P. Senese SCALA NOMINALE Quando nel sistema empirico è possibile esclusivamente riconoscere una suddivisione in categorie distinte e mutualmente escludentesi allora numeri uguali vengono assegnati ad elementi uguali, mentre numeri diversi ad elementi diversi ( f ). D A 1 C 4 B 3 E 5 1
SCALA NOMINALE PROPRIETÀ FORMALI: equivalenza simmetrica: A=B B=A; equivalenza transitiva: A=B e B=C A=C; non equivalenza simmetrica: AB BA D A 1 C 4 B 3 E 5 SCALA NOMINALE OPERAZIONI MATEMATICHE: nessuna, solo conteggio delle frequenze per ogni categoria. ANALISI STATISTICHE APPLICABILI: analisi descrittive (frequenze) e test non parametrici che si basano sul conteggio delle frequenze.
SCALA NOMINALE Sia A 1 una classe di bambini Italiani e Immigrati (N = 8). f Italiani = 1; Immigrati = B 1 = {1, 1,,, 1,, 1, 1} CITTAD. = 11 11?!? CITTAD. Italiani Immigrati CODICE 1 FREQUENZA 5 3 FREQ. % 63% 37% 6 5 4 3 1 0 63% ITALIANI 37% IMMIGRATI Grafico a barre variabile cittadinanza SCALA ORDINALE Quando nel sistema empirico tutti gli elementi godono di una proprietà ma in quantità o in grado diverso e sono ordinabili rispetto a tale grado, allora i numeri vengono assegnati in base all ordine. In questo sistema numeri uguali indicano quantità uguali, mentre numeri diversi indicano esclusivamente una graduatoria ( f ). A C B E D 1 3 4 5 3
SCALA ORDINALE PROPRIETÀ FORMALI: equivalenza (nominale) relazione d ordine asimmetrica: A<BB>A e non B<A relazione d ordine transitiva: A<B e B<CA<C A C B E D 1 3 4 5 SCALA ORDINALE OPERAZIONI MATEMATICHE: nessuna, solo conteggio delle frequenze per ogni categoria. ANALISI STATISTICHE APPLICABILI: analisi descrittive (frequenze) e test non parametrici che si basano sul conteggio delle frequenze e sugli indici di posizione. 4
SCALA ORDINALE Sia A 1 una Scuola Media (N = 70). f I MEDIA = 1; II MEDIA = ; III MEDIA = 3 B 1 = {1, 1,,, 1,, 1, 1, 3, 3,,, 1, 1,,,, 3,, 1, 3,,, 1, } CLASSE = 13 13?!? CLASSE I MED. II MED. III MED. CODICE 1 3 FREQUENZA 3 3 15 FREQ. % 33% 46% 1% FREQ. CUM. 3 55 70 FREQ. C.% 33% 79% 100% 35 30 5 0 15 10 5 0 46% 33% 1% I MED II MED III MED Grafico a barre variabile classe SCALE NON PARAMETRICHE Le variabili misurate su scala Nominale e Ordinale sono dette: VARIABILI QUALITATIVE o NON PARAMETRICHE VARIABILI DICOTOMICHE con due categorie (es. Si/No; M/F; V/F; ecc.) VARIABILI POLICOTOMICHE con più di due categorie (es. B/M/A; I/II/III; ecc.) 5
SCALA INTERVALLI Quando nel sistema empirico tutti gli elementi godono di una proprietà ma in quantità o in grado diverso ed è possibile stabilire un unità di misura della proprietà, allora i numeri vengono assegnati in base alla differenza di intensità della proprietà. In questo sistema numeri uguali indicano quantità uguali, mentre numeri diversi indicano il grado di presenza dell unità stabilita ( f ). A C B E D 1. 4.9 5. 1 3 4 5 6 - -1 0 1 3 SCALA INTERVALLI PROPRIETÀ FORMALI: equivalenza (NOMINALE); relazione d ordine (ORDINALE); costanza del rapporto tra intervalli: tra 1 e c è la stessa distanza che tra 3 e 4 3=+1 o 4=3+1 A C B E D 1. 4.9 5. 1 3 4 5 6 - -1 0 1 3 6
SCALA INTERVALLI OPERAZIONI MATEMATICHE: Addizione, sottrazione e moltiplicazione, ma non è possibile stabilire rapporti diretti tra le misure (es., non si può dire che 4 è il doppio di ). ANALISI STATISTICHE APPLICABILI: analisi descrittive, test non parametrici e test parametrici. SCALA INTERVALLI Sia A 1 un gruppo di studenti universitari (N = 7). f punteggio ad un test d intelligenza B 1 = {89, 89, 95, 95, 95, 98, 98, 98, 98, 100, 100, 100, 100, 100, 100, 100, 100, 10, 10, 10, 10, 103, 103, 103, 105, 105, 110} QI = 69 69! QI FREQ FREQ% 89 7 95 3 11 98 4 14 100 8 9 10 4 14 103 3 11 105 7 110 1 4 11 1 4 TOT 7 100 7
SCALA A RAPPORTI Quando nel sistema empirico tutti gli elementi godono di una proprietà ma in quantità o in grado diverso ed è possibile stabilire sia un unità di misura della proprietà, sia un elemento di intensità nulla, allora i numeri vengono assegnati in base alla differenza di intensità della proprietà ( f ) e il sistema numerico adottato godrà di tutte le proprietà dei numeri reali. A C B E D 0. 3.9 4. 0 1 3 4 5 SCALA A RAPPORTI PROPRIETÀ FORMALI: equivalenza (NOMINALE); relazione d ordine (ORDINALE); costanza del rapporto tra intervalli (INTERVALLI); costanza del rapporto tra valori: ad es. 4 è il doppio di 4/= e 8/4= non può assumere valori negativi A C B E D 0. 3.9 4. 0 1 3 4 5 8
SCALA A RAPPORTI OPERAZIONI MATEMATICHE: tutte anche la divisione. ANALISI STATISTICHE APPLICABILI: analisi descrittive, test non parametrici e test parametrici. SCALA A RAPPORTI Sia A 1 un gruppo di adulti (N = 30). f Tempi di reazione ad uno stimolo (RT) B 1 = {187, 187, 189, 189, 195,195, 195, 198, 198, 198, 198, 00, 00, 00, 00, 00, 00, 00, 00, 0, 0, 0, 0, 03, 03, 03, 05, 05, 10, 1} RT = 5978 5978! RT FREQ FREQ% F % C 187 7 7 189 7 14 195 3 10 4 198 4 13 37 00 8 7 64 0 4 13 77 03 3 10 87 05 7 94 10 1 3 97 1 1 3 100 TOT 30 100 -- 9
SCALE PARAMETRICHE Le variabili misurate su scala ad Intervalli e a Rapporto sono dette: VARIABILI QUANTITATIVE o PARAMETRICHE VARIABILI DISCRETE con categorie intere (es. n dei figli; ecc.) VARIABILI CONTINUE con infiniti valori (es. Tempi di reazione; ecc.) SCALE DI MISURA Ogni scala possiede le caratteristiche di quella che la precede. È possibile trasformare una misurazione ottenuta su una scala di livello superiore in una di livello inferiore, mentre non è vero il contrario. I test statistici applicabili alle scale di livello inferiore sono utilizzabili anche per scale di livello superiore, mentre non è vero il contrario. La scala di misura utilizzata per una variabile può dipendere dalla definizione operativa della variabile e dal suo uso all interno della ricerca. 10
SCALE DI MISURA In alcuni casi si rende necessario trasformare una variabile misurata ad un livello di scala superiore in un livello di scala inferiore. Sebbene questa trasformazione sia possibile bisogna ricordarsi che c è una perdita di informazioni. Scala a ORDINALE NOMINALE RAPPORTI SOGG. LATENZA 10 34 04 30 07 8 06 8 03 5 09 1 08 15 1 15 11 14 05 14 01 13 0 1 = 1 = 1 = = = 3 MISURAZIONE Il Signor M. ha 35 anni. È alto m 1.8 e pesa 75 kg. È biondo. Ha gli occhi azzurri. È laureato. Risiede in una città del nord Italia. Attualmente lavora come pilota automobilistico. È sposato. Ha un QI pari a 10. 11
Il Signor M. ha 35 anni. È alto m 1.8 e pesa 75 kg. È biondo. Ha gli occhi azzurri. È laureato. M. risiede in una città del nord Italia. Attualmente lavora come pilota automobilistico. È sposato. Ha un QI pari a 10. Come 1) INDIVIDUANDO possiamo trasformare ) DEFINENDO questo elemento PER del LE sistema VARIABILI empirico in una CIASCUNA misura? UNA FUNZIONE SESSO ETÀ ALTEZZA PESO COL. CAPELLI COL. OCCHI TIT. STUDIO RESIDENZA LAVORO STATO CIVILE QI A 4 A 1 A A 3 A 5 SESSO ETÀ ALTEZZA COL. CAPELLI Ai COL. OCCHI A 11 QI f 1 f f 3 f 4 f 5 f 6 B 1 15 5 13 4 9 14 7 10 1 6 11 3 8 MISURAZIONE Il Signor M. ha 35 anni. È alto m 1.8 e pesa 75 kg. È biondo. Ha gli occhi azzurri. È laureato. M. risiede in una città del nord Italia. Attualmente lavora come pilota automobilistico. È sposato. Ha un QI pari a 10. Definiamo le scale di misura e le f SESSO N - (1 = M; = F) ETÀ R - (x = ANNI) ALTEZZA R - (x = CM) PESO R - (x = KG) COL. CAPELLI N - (1 = CHI.; = SCU.) COL. OCCHI N - (1 = CHI.; = SCU.) TIT. STUDIO O - (0 = N; 1 = M; = D; 3 = L) RESIDENZA N - (1 = N; = C; 3 = S; 4 = I) LAVORO N - (0 = NO; 1 = SI) STATO CIVILE N - (0 = C/N; 1 = S; =S/D) QI I - (x = PUNT. QI) ID 001 S 1 E 35 A 1.8 P 75 CC 1 CO 1 TS 3 R L 1 SC 1 QI 10 1
MISURAZIONE Il Signor R. ha 8 anni. È alto m 1.74 e pesa 80 kg. È castano. Ha gli occhi castani. È diplomato. R. risiede in una città del sud Italia. Attualmente è disoccupato. Non è mai stato sposato. Ha un QI pari a 1. SESSO (1 = M; = F) ETÀ (x = ANNI) ALTEZZA (x = CM) PESO (x = KG) COL. CAPELLI (1 = CHI.; = SCU.) COL. OCCHI (1 = CHI.; = SCU.) TIT. STUDIO (0 = N; 1 = M; = D; 3 = L) RESIDENZA (1 = N; = C; 3 = S; 4 = I) LAVORO (0 = NO; 1 = SI) STATO CIVILE (0 = C/N; 1 = S) QI (x = PUNT. QI) ID 001 00... n S 1 1 E 35 8 A 1.8 1.74 P 75 80 CC 1 CO 1 TS 3 R 3 L 1 0 SC 1 0 QI 10 1 MATRICE VARIABILIxSOGGETTI MISURAZIONE Formato standard per la memorizzazione dei dati da analizzare statisticamente (Db). File: xlsx; csv; txt, ecc. Db SOGGETTIxVARIABILI Legenda 13
MISURAZIONE La misurazione non deve essere fine a se stessa, ma deve essere guidata in base a degli specifici obiettivi regolati in base a delle considerazioni teoriche che hanno portato alla formulazione di ipotesi scientifiche. IMPORTANTE: posso analizzare solo ciò che ho misurato; il tipo di analisi che posso fare dipende da ciò che ho misurato e da come ho raccolto i dati; per ciascun quesito teorico devo trovare la giusta tecnica di analisi. ESEMPIO #1 40 adolescenti vengono convocati per un esperimento di memoria episodica (ME lista di parole). Vengono divisi in modo casuale in due gruppi da 0. Al primo gruppo, prima di iniziare la prova, viene detto che si tratta di un compito molto difficile, mentre al secondo gruppo non viene data alcuna indicazione. Viene valutato il numero di parole ricordate correttamente. ISTRUZIONI (manipolata) VI N MEMORIA E (pun. al test) VD R 14
ESEMPIO # Allo scopo di valutare l effetto del sesso sull ansia di tratto ad un gruppo di 50 soggetti (5 M e 5 F) è stato somministrato un questionario di valutazione dell ansia di tratto. Quali sono le variabili considerate? SESSO (non manipolata) VI N ANSIA (punt. al test) VD I ESEMPIO #3 Ad un gruppo di 30 bambini italiani di 10 anni, 15 dei quali bilingue, viene somministrata una prova di scrittura in italiano (vengono dettate 35 parole) e si valutano gli errori commessi e i tempi impiegati nello scrivere ciascuna parola. Indicare le variabili oggetto di studio, la relazione e il livello di misura. 15
ESEMPIO #3 ETÀ VI N DICOTOMICA BILINGUISMO ERRORI (al dettato) VD R DISCRETA TEMPI (scrittura) VD R CONTINUA ESEMPIO #3 Dopo la prova risulta che uno dei bambini ha commesso errori? 16
INDICI DI TENDENZA CENTRALE Una misura di tendenza centrale è: un indice o statistica che rappresenta un insieme di misure mediante un unico valore. 1) LA MODA ) LA MEDIANA 3) LA MEDIA La MODA è: LA MODA un indice o statistica che indica la categoria numerica o le categorie che si presentano con maggior frequenza. APPLICAZIONE È una statistica significante per tutte le scale di misura: Nominali Ordinali Intervalli Rapporti 17
LA MODA In un campione di 30 studenti universitari è stata rilevata la variabile Facoltà il cui dominio è: Giurisprudenza (G=1); Medicina (M=); Lettere (L=3); Psicologia (P=4) B 1 = {1, 1, 1,,, 4, 4, 3, 3, 4, 4, 4, 3, 1, 1, 3, 3, 3, 1, 1,,,, 1, 1, 1, 1, 1,, 1} TABELLA DI FREQUENZE FAC. FREQ FREQ% 1 13 43% 6 0% 3 6 0% 4 5 17% TOT 30 100% Moda = 1 Moda = Giurisprudenza LA MEDIANA La MEDIANA è: un indice o statistica che indica la categoria numerica che divide una distribuzione (ordinata per valore) a metà. APPLICAZIONE È una statistica significante per le scale di misura: Ordinali Intervalli Rapporti Non è significante per le scale Nominali 18
LA MEDIANA Se il numero delle osservazioni (n) è dispari: Me 1 n Se il numero delle osservazioni (n) è pari: Me n i n 1 i Me Me l n inf n fc f i Me inf a dati non raggruppati dati raggruppati LA MEDIANA In un campione di 70 ragazzi è stata rilevata la variabile Classe il cui dominio è: I Media (=1); II Media (=); III Media (=3). B 1 = {1, 1,,, 1,, 1, 1, 3, 3,,, 1, 1,,,, 3,, 1, 3,,, 1, } ORDINARE B 1 = {1, 1, 1, 1, 1, 1, 1, 1, 1,,,,,,,,,,,,, 3, 3, 3, 3, } N = 70 TABELLA DI FREQUENZE CLASSE FREQ FREQ% FREQ C FREQ C% 1 3 33% 3 33% 3 46% 55 79% 3 15 1% 70 100% TOT 70 100% - 19
TABELLA DI FREQUENZE CLASSE FREQ FREQ% FREQ C 1 (.5 1.5) 3 33% 3 (1.5.5) 3 46% 55 3 (.5 3.5) 15 1% 70 TOT 70 100% N = 70 i Me = 35 l inf = 1.5 fc inf = 3 f ime = 3 a = 1.5-0.5 LA MEDIANA i i Me Me n 70 Me l inf 35 70 3 (.5 1.5) Me 1.5 3 1 (1) 1.5 1.9 3 n fc f Me = i Me inf a LA MEDIA La MEDIA è: un indice o statistica che corrisponde alla somma di tutti i numeri di una distribuzione diviso il numero di osservazioni. APPLICAZIONE È una statistica significante per le scale di misura: Intervalli Rapporti Non è significante per le scale di misura: Nominali Ordinali 0
x n i1 n x dati non raggruppati i LA MEDIA N = osservazioni x i = valori osservati = sommatoria MEDIA = x o (mu) x n i1 n f i i1 dati raggruppati i f x i x i = valori osservati f i = frequenze del valore x i = sommatoria LA MEDIA Ad un campione di 30 ragazzi è stato presentata uno stimolo (la parola Classe ) e sono stati registrati e tempi di reazione (RT) in un compito di produzione. B 1 = {187, 187, 189, 189, 195,195, 195, 198, 198, 198, 198, 00, 00, 00, 00, 00, 00, 00, 00, 0, 0, 0, 0, 03, 03, 03, 05, 05, 10} RT FREQ FREQ C fx i 187 374 189 4 378 195 3 7 585 198 4 11 79 00 8 19 1600 0 4 3 808 03 3 6 609 05 8 410 10 1 9 10 1 1 30 1 30 5978 x n i1 n i1 f x Moda = 00 Me = 00 i f i i n i1 x i 5978 5978 x 199.7 30 x = 199.7 1
LA MEDIA INDICI DI TENDENZA CENTRALE x
INDICI DI DISPERSIONE Una misura di dispersione è: un indice o statistica che rappresenta la variabilità delle osservazioni campionate. NdE Gamma Scostamento S. Scarto quadratico (S ) e (S) NdE Corrisponde al numero di classi (quindi di valori) con cui si è manifestato il fenomeno indagato. REPARTO A B C D E INGRESSI 1 1 3 7 4 REPARTO A B C D E INGRESSI 1-3 7 - LUNEDÌ NdE = 5 GIOVEDÌ NdE = 3 3
GAMMA Corrisponde alla grandezza dell intervallo nel quale sono contenuti i dati (quantitativi) di una distribuzione. Gamma = X max X min SCOSTAMENTO SEMPLICE Corrisponde alla sommatoria degli scarti dalla media. Scostament o S. n i 1 x i n X 4
SCARTO QUADRATICO DEVIANZA Corrisponde alla sommatoria degli scarti dalla media, al quadrato. Scarto quadratico n x i X i1 VARIANZA Corrisponde allo scarto quadratico medio. s N i 1 x i N X s varianza campionari a ( sigma ) varianza della popolazion e 5
DEVIAZIONE STANDARD Corrisponde alla radice quadrata dello scarto quadratico medio. s N i1 s x i N X s dev. st. campionari ( sigma ) a dev. st. della popolazion e DEVIAZIONE STANDARD x s 6
DEVIAZIONE STANDARD s s 3 s 1 INDICI DI POSIZIONE Una misura di POSIZIONE è: un indice o statistica che rappresenta la posizione di una data osservazione all interno di una distribuzione ordinata. Consentono di definire la percentuale di valori che si trova al di sopra o al di sotto del valore di interesse (quantili). QUARTILI PERCENTILI DECILI P x Quantile N 1 P q n. Quantili Posizione ( x) n. Quantili ( N 1) 7
QUARTILI Dividono una distribuzione ordinata in quattro parti uguali. 5% P Q 1 1 4 N 1 5% 50% Q 1 Q Q 3 DECILI Dividono una distribuzione ordinata in dieci parti uguali. 90% P D 1 1 10 N 1 10% D 1 D D 3 D 4 D 5 D 6 D 7 D 8 D 9 8
DECILI Dividono una distribuzione ordinata in cento parti uguali. P P 10 10 N 1 100 10% P 10 P 0 P 30 P 40 P 50 P 60 P 70 P 80 P 90 x f fc fc% 13 1 1 3.3 14 3 10.0 15 5 8 6.7 16 10 33.3 17 1 11 36.7 18 4 15 50.0 19 0 15 50.0 0 1 16 53.3 1 18 60.0 0 66.7 3 0 0 66.7 4 4 4 80.0 5 6 86.7 6 8 93.3 7 0 8 93.3 8 1 9 96.7 9 0 9 96.7 30 0 9 96.7 31 1 30 100.0 ESEMPIO #3 N = 30 x i = X Min = 13 X Max = 31 Gamma = 18 NdE = 14 Media = 0 Mdn = 19 Moda = 15 Q1 = 15.3 Q3 = 4 P x= = 65 s = 5 s = 5 9
ESEMPIO #3 N = 30 x i = X Min = 13 X Max = 31 Gamma = 18 NdE = 14 Media = 0 Mdn = 19 Moda = 15 Q1 = 15.3 Q3 = 4 P x= = 65 s = 5 s = 5 30