Dr. Marco Vicentini Anno Accademico Rev 02/04/2011

Documenti analoghi
Dr. Marco Vicentini Anno Accademico Rev 20/04/2011

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Metodi statistici per le ricerche di mercato

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Fondamenti e metodi analisi empirica nelle scienze sociali

Lezione 5 Corso di Statistica. Domenico Cucina

materiale didattico II incontro

La Dipendenza. Monia Ranalli. Ranalli M. Dipendenza Settimana # 3 1 / 19

L'analisi bivariata (associazione e cograduazione)

Statistica Descrittiva Soluzioni 8. Dipendenza

Statistica 1 A.A. 2015/2016

Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010.

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

Corso in Statistica Medica

Dispense Associazione PRELIMINARY DRAFT

La dipendenza. Antonello Maruotti

Dipartimento di Matematica, Informatica ed Economia (DiMIE) Statistica. Antonio Azzollini

Stesso valore medio per distribuzioni diverse

Copyright Esselibri S.p.A.

REGRESSIONE E CORRELAZIONE

Lezione 5 Corso di Statistica. Francesco Lagona

Corso di Psicometria Progredito

Metodi statistici per le ricerche di mercato

Esercitazioni di statistica

Statistica bivariata Relazione tra variabili

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Modelli Log-lineari Bivariati

A proposito di valutazione scolastica

7. STATISTICA DESCRITTIVA

Analisi dell associazione tra due caratteri

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

Analisi congiunta di più fenomeni

Statistica descrittiva in due variabili

Analisi bivariata. Il caso di caratteri qualitativi

Y M F Calcolare X e darne un adeguata interpretazione;

Statistica descrittiva in due variabili

STATISTICA 1 ESERCITAZIONE 6

Fonti e strumenti statistici per la comunicazione

Applicazioni statistiche e utilizzo del package statistico Spss - 7

STATISTICA: esercizi svolti sulla DIPENDENZA IN MEDIA

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Esercitazioni del corso: RELAZIONI TRA VARIABILI

Prof. Anna Paola Ercolani (Università di Roma) Lez. 1 - La misura del comportamento - cosa misuriamo?

Lezione 7 Corso di Statistica. Domenico Cucina

Casa dello Studente. Casa dello Studente

Capitolo 12 La regressione lineare semplice

Sono molti i casi in cui è possibile osservare o misurare su ognuna delle unità statistica di un collettivo più

Correlazione e regressione per problemi di Luciano Corso

Teoria e tecniche dei test. Concetti di base

Materiale didattico per il corso di Statistica I Quinta esercitazione SOLUZIONI

Corso di Laurea in MQEGA

Fonti e strumenti statistici per la Comunicazione

ANALISI STATISTICHE BIVARIATE. Tabelle di contingenza

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

Statistica descrittiva in due variabili

L analisi dell associazione o connessione tra due caratteri statistici

STATISTICA DESCRITTIVA - SCHEDA N. 1 VARIABILI QUALITATIVE

SCOPO DELL ANALISI DI CORRELAZIONE

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Esercizi di statistica

Statistica Corso Base (Serale) Dott.ssa Cristina Mollica

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Corso di Psicometria Progredito

Matematica Lezione 21

Statistica descrittiva III

ESERCITAZIONI N. 3 corso di statistica

Dipartimento di Matematica, Informatica ed Economia (DiMIE) Statistica. Antonio Azzollini Anno accademico 2016/2017

INFERENZA STATISTICA I (CANALE B)

Argomenti della lezione:

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

Lezione 6 Corso di Statistica. Domenico Cucina

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

INFERENZA STATISTICA I (CANALE B)

Statistiche per l analisi dei trend Capitolo 6

Esercizi di Probabilità e Statistica

Distribuzione di frequenza e rappresentazioni grafiche

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Esercitazione di Statistica Indici di associazione

Capitolo 11 Test chi-quadro

STATISTICA. Esonero 8 novembre 2014 Soluzione. Quesito 1.

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

SOLUZIONI PROVA SCRITTA DI STATISTICA (cod. 4038, 5047, 371, 377) 8 settembre 2005

STATISTICA. Esonero 8 novembre 2014 Soluzione. Quesito 1.

Elementi di matematica - dott. I. GRASSI

UNITÀ DIDATTICA 5 LA RETTA

Metodi Matematici e Informatici per la biologia. Esercizi

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

Lezione 8. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 8. A. Iodice. Relazioni tra variabili

LEZIONI DI STATISTICA MEDICA

Soggetto Genere Costo del soggiorno Titolo di studio

Relazioni tra variabili: le tabelle di contingenza

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

Statistica. Alfonso Iodice D Enza

Transcript:

Università degli Studi di Padova Facoltà di Psicologia, L4, Psicometria, Modulo B Dr. Marco Vicentini marco.vicentini@unipd.it Anno Accademico 2010 2011 Rev 02/04/2011

Tabelle di contingenza Percentuali di riga e di colonna Rappresentazioni grafiche Relazioni tra variabili Forma della relazione 5-2

8-3

In precedenza ci siamo posti l obiettivo di trovare degli indici descrittivi che riguardano i diversi aspetti della distribuzione di una singola variabile. Ci occuperemo ora della statistica descrittiva multivariata, ovvero degli indici che ci consentono di mettere in relazione due o più variabili. 8-4

Il problema più semplice consiste nella rappresentazione dei dati relativi a due variabili in una tabella. Il primo problema che ci poniamo, dunque, è quello di costruire e interpretare una tabella che contiene i dati relativi a due variabili. 8-5

Date due variabili X e Y, categoriali, ordinali, o cardinali ricondotte in classi, il problema è stabilire come si distribuiscono i casi sulla variabile X all interno di ciascuna modalità della variabile Y e viceversa. Una distribuzione doppia di frequenza associa una frequenza a ciascuna coppia (X i, Y j ). 8-6

C 1 C 2 C j C c R 1 n 11 n 12 n 1j n 1c n 1. R 2 n 21 n 22 n 2j n 2c n 2. R i n i1 n i2 n ij n ic n i. R r n r1 n r2 n rj n rc n r. n.1 n.2 n.j n.c n.. 8-7

Variabile Y indice j Variabile X indice i 8-8

Nelle celle sono riportate le frequenze congiunte (frequenze di cella). I pedici indicano quale modalità della variabile X e quale modalità della variabile Y sono coinvolte. Il primo pedice riguarda la posizione della modalità della variabile posta sulle righe (i); il secondo riguarda la posizione della della variabile posta sulle colonne (j). 8-9

Ogni riga e ogni colonna costituisce una distribuzione condizionata (o parziale). Per esempio, la prima colonna riporta la distribuzione della variabile X quando la variabile Y assume la modalità Y 1 : X Y 1. 8-10

Variabile Y indice j Y 1 Variabile X indice i 8-11

Nelle frequenze marginali di riga e di colonna il punto come pedice indica una somma. n. j = n i. = I! n ij i=1 J! n ij j=1 = marginale della j-esima colonna = marginale della i-esima riga 8-12

C 1 C 2 C j C c R 1 n 11 n 12 n 1j n 1c n 1. R 2 n 21 n 22 n 2j n 2c n 2. R i n i1 n i2 n ij n ic n i. R r n r1 n r2 n rj n rc n r. n.1 n.2 n.j n.c n.. 8-13

Le frequenze marginali di riga e di colonna non sono altro che le distribuzioni di frequenze semplici delle variabili X e Y. I J =.. = i= 1 j= 1 n j n ij n i n ij 8-14

C 1 C 2 C j C c R 1 n 11 n 12 n 1j n 1c n 1. R 2 n 21 n 22 n 2j n 2c n 2. R i n i1 n i2 n ij n ic n i. R r n r1 n r2 n rj n rc n r. n.1 n.2 n.j n.c n.. 8-15

La somma di tutte le frequenze marginali di riga e di colonna, infine, è uguale all ampiezza del collettivo, N. I! n = n =! n = n = N i.. j. j ij i=1 J j=1 I! i=1 J! j=1 8-16

C 1 C 2 C j C c R 1 n 11 n 12 n 1j n 1c n 1. R 2 n 21 n 22 n 2j n 2c n 2. R i n i1 n i2 n ij n ic n i. R r n r1 n r2 n rj n rc n r. n.1 n.2 n.j n.c n.. 8-17

Consumo di droghe Non consumatori Droghe lecite Droghe leggere Droghe pesanti Totale Carriera scolastica Mai bocciato/a 50 186 34 11 281 Bocciato/a 11 48 21 19 99 Totale 61 234 55 30 380 8-18

8-19

Percentuali di riga Percentuali di colonna Percentuali sul totale 8-20

Le percentuali di riga si ottengono dividendo ciascun valore di cella per il rispettivo marginale di riga e moltiplicando il risultato ottenuto per 100. Per esempio, 50 / 281 100 = 17,8% 8-21

Consumo di droghe Carriera scolastica Non Droghe Droghe Droghe Totale consumatori lecite leggere pesanti Mai 17,8 66,2 12,1 3,9 100 bocciato/a Bocciato/a 11,1 48,5 21,2 19,2 100 Totale 16,1 61,5 14,5 7,9 100 In questo modo si possono valutare le differenze nel consumo di droga tra gli studenti mai bocciati e quelli che lo sono stati almeno una volta. 8-22

Consumo di droghe Carriera scolastica Non Droghe Droghe Droghe Totale consumatori lecite leggere pesanti Mai 17,8 66,2 12,1 3,9 100 bocciato/a Bocciato/a 11,1 48,5 21,2 19,2 100 Totale 16,1 61,5 14,5 7,9 100 Es., tra i consumatori di droghe leggere, il numero di bocciati è maggiore del numero di mai bocciati. 8-23

Utilizzando le percentuali di riga, dunque, confrontiamo i valori di righe diverse all interno di una singola colonna. 8-24

Le percentuali di colonna si ottengono dividendo ciascun valore di cella per il rispettivo marginale di colonna e moltiplicando il risultato ottenuto per 100. Per esempio, 50 / 61 100 = 82,0% 8-25

Consumo di droghe Carriera scolastica Non Droghe Droghe Droghe Totale consumatori lecite leggere pesanti Mai 50 186 34 11 281 bocciato/a Bocciato/a 11 48 21 19 99 Totale 61 234 55 30 380 8-26

Consumo di droghe Carriera scolastica Non Droghe Droghe Droghe Totale consumatori lecite leggere pesanti Mai 82,0 79,5 61,8 36,7 73,9 bocciato/a Bocciato/a 18,0 20,5 38,2 63,3 26,1 Totale 100 100 100 100 100 In questo modo possiamo vedere come varia la percentuale di bocciati a seconda del tipo di consumatori. 8-27

Consumo di droghe Carriera scolastica Non Droghe Droghe Droghe Totale consumatori lecite leggere pesanti Mai 82,0 79,5 61,8 36,7 73,9 bocciato/a Bocciato/a 18,0 20,5 38,2 63,3 26,1 Totale 100 100 100 100 100 Es., tra gli studenti bocciati almeno una volta, vediamo che la percentuale di bocciati è maggiore per i consumatori di droghe leggere che per i non consumatori. 8-28

Utilizzando le percentuali di colonna, dunque, confrontiamo i valori di colonne diverse all interno di una singola riga. 8-29

In conclusione, quando calcoliamo le percentuali di riga siamo autorizzati a fare confronti all interno delle singole colonne; Quando calcoliamo le percentuali di colonna siamo autorizzati a fare confronti all interno delle singole righe. 8-30

Le percentuali sul totale si ottengono dividendo ciascun valore di cella per l ampiezza del collettivo e moltiplicando il risultato ottenuto per 100. Per esempio, 50 / 380 100 = 13,2% 8-31

Consumo di droghe Carriera scolastica Non Droghe Droghe Droghe Totale consumatori lecite leggere pesanti Mai 50 186 34 11 281 bocciato/a Bocciato/a 11 48 21 19 99 Totale 61 234 55 30 380 8-32

Consumo di droghe Carriera scolastica Non Droghe Droghe Droghe Totale consumatori lecite leggere pesanti Mai 13,2 48,9 8,9 2,9 73,9 bocciato/a Bocciato/a 2,9 12,6 5,5 5,0 26,1 Totale 16,1 61,5 14,5 7,9 100 Le percentuali sul totale sono particolarmente utili quando dall incrocio delle due variabili si vuole ricavare una tipologia. 8-33

In molti casi non è possibile attribuire in modo univoco ad una delle due variabili il ruolo di variabile indipendente. Non possiamo sapere se il consumo di droghe influenza il rendimento scolastico o se sono gli insuccessi scolastici a predisporre verso il consumo di droghe o se si tratta di un influenza reciproca. In questi casi è bene presentare entrambi i tipi di percentuali. 8-34

Diagramma di dispersione 8-35

Il diagramma di dispersione è un diagramma cartesiano nel quale i punti rappresentano i casi e le variabili costituiscono gli assi. 8-36

Caso Anno Temperatura 1 1950 23.5 2 1953 26.9 3 1956 23.9 temperatura 24 25 26 27 1950 1960 1970 1980 1990 anno 8-37

Gli anni sono rappresentati in ascissa e la temperatura è stata rappresentata in ordinata. Il numero di punti rappresentati è pari al numero di anni considerati. Il punto evidenziato rappresenta un caso. 8-38

Nozione di indipendenza nel caso di variabili nominali 8-39

L analisi bivariata ha come scopo lo studio della relazione tra due variabili. Nel caso di assenza di relazione parliamo di indipendenza tra due variabili. 8-40

Per il livello di misura nominale, i dati di due variabili vengono rappresentati in una tabella di contingenza. In una tabella di contingenza si ha indipendenza tra le due variabili se ciascuna distribuzione parziale è uguale alla corrispondente distribuzione marginale. 8-41

Nel caso dell esempio precedente, se le due variabili carriera scolastica e consumo di droghe fossero indipendenti, allora la distribuzione di frequenze relativa al consumo di droghe per i giovani bocciati dovrebbe essere uguale a quella che riguarda i giovani che non sono mai stati bocciati. 8-42

Se indichiamo con Y la variabile consumo di droghe (colonne) e con X la variabile carriera scolastica (righe) dovremmo osservare la seguente relazione: Y X 1 = Y X 2 8-43

Y X 1 = Y X 2 Variabile Y Variabile X X 1 8-44

Y X 1 = Y X 2 Variabile Y Variabile X X 2 8-45

Y X 1 = Y X 2 = Y.j Variabile Y Variabile X Y.j 8-46

Allo stesso modo, le distribuzioni parziali della variabile carriera scolastica (righe) dovrebbero essere uguali all interno delle cinque modalità della variabile consumo di droghe (colonne) ed essere uguali alla distribuzione marginale di riga: X Y 1 = X Y 2 = X Y 3 = X Y 4 = X Y 5 8-47

X Y 1 = X Y 2 = X Y 3 = X Y 4 = X Y 5 Y 1 Variabile Y Variabile X 8-48

X Y 1 = X Y 2 = X Y 3 = X Y 4 = X Y 5 Y 2 Variabile Y Variabile X 8-49

Consumo di droghe (Y) Carriera scolastica (X) Non Droghe Droghe Droghe Totale consumatori lecite leggere pesanti Mai 50 186 34 11 281 bocciato/a Bocciato/a 11 48 21 19 99 Totale 61 234 55 30 380 8-50

Dati i due vincoli precedenti, conoscendo le frequenze marginali, possiamo dunque calcolare i valori di cella che dovremmo aspettarci nel caso di completa indipendenza tra le due variabili. 8-51

Per una generica cella n ij la frequenza teorica in base all ipotesi di indipendenza si calcola come: marginale di riga marginale di colonna nˆ ij = n i. N n. j 8-52

Per i dati precedenti, le frequenze teoriche attese sono: Consumo di droghe Carriera scolastica Non Droghe Droghe Droghe Totale consumatori lecite leggere pesanti Mai 45,1 173,0 40,7 22,2 281 bocciato/a Bocciato/a 15,9 61,0 14,3 7,8 99 Totale 61 234 55 30 380 8-53

Nella teoria della probabilità, due eventi A e B sono detti indipendenti se la seguente relazione si verifica: P(A B) = P(A) P(B) 8-54

La probabilità teorica, P(A), può essere approssimata dalla probabilità empirica corrispondente al rapporto tra la frequenza con cui si verifica l evento A e la grandezza dello spazio campione Ω. P(A) = A / Ω 8-55

Nel caso di una tabella di contingenza, la frequenza dell evento A i, ovvero A i, è il numero di volte in cui l evento A i viene osservato nel collettivo, ovvero il totale marginale corrispondente ad A i. Per es., il numero di studenti mai bocciati è 281. Quindi, A i = 281. 8-56

La grandezza dello spazio campione, ovvero Ω, è semplicemente la grandezza del collettivo, N. Nell esempio, il numero totale di studenti è 380. Quindi, Ω = 380. 8-57

La probabilità di estrarre uno studente a caso da questo collettivo e osservare uno studente che non è mai stato bocciato (A i ) è P(A i ) = A i / Ω = 281 / 380 =.74 8-58

La probabilità di estrarre uno studente a caso da questo collettivo e osservare uno studente che è un consumatore di droghe leggere (B j ) è P(B j ) = B j / Ω = 55 / 380 =.145 8-59

Se gli eventi A i e B j sono indipendenti, la probabilità di estrarre uno studente a caso da questo collettivo e osservare uno studente che non è mai stato bocciato ed è un consumatore di droghe leggere è P(A i B j ) = P(Ai)P(B j ) =.74.145 =.107 8-60

Data la probabilità P(A i B j ) =.107, la frequenza teorica si calcola semplicemente moltiplicando la probabilità per l ampiezza del collettivo: ˆn ij = P( A i! B j )" N =.107" 380 = 40.7 8-61

Questo stesso risultato si ottiene: 8-62 ( ) ( ) ( ) 40.7 ˆ.... = = = = = N n n N N n N n N B P A P N B A P n j i j i j i j i ij

Indipendenza per variabili ordinali o cardinali 8-63

Consideriamo ora il caso di due variabili a livello ordinale o cardinale e chiediamoci cosa si intenda con la nozione di indipendenza in questo caso. Due variabili (ordinali o cardinali) sono indipendenti se al crescere dei valori in una variabile non corrisponde un aumento o una diminuzione sistematica dei valori sull altra. 8-64

Y Y X X 8-65

Se una delle due variabili è cardinale, possiamo dire che la variabile Y (cardinale) è indipendente in media dalla variabile X (di qualsiasi tipo) se, per ogni valore di X, la media dei valori di Y è costante. 8-66

Y Y X X 8-67

Chiarito che cosa si intende con la nozione di indipendenza nel caso delle variabili nominali, ordinali e cardinali, chiediamoci ora come si può descrivere la relazione tra due variabili, nel caso in cui non ci sia indipendenza. In generale parliamo di una relazione tra due variabili se i valori di una variabile variano in modo sistematico con i valori dell altra. 8-68

Per variabili ordinali o cardinali è possibile valutare, oltre all intensità e alla direzione, anche la forma della relazione tra due variabili. Un primo passo in questa direzione si può compiere esaminando il diagramma di dispersione. 8-69

Y Assenza di relazione. X 8-70

Y Y X Relazione lineare positiva. X Relazione lineare negativa. 8-71

Una relazione lineare tra due variabili (X e Y) può essere approssimata attraverso l equazione di una retta che metta in corrispondenza i valori di X e di Y nel modo seguente: Y = a + b X 8-72

Y In questo caso la funzione più adeguata per approssimare la distribuzione dei punti e quella di una iperbola: Y = 1 / X X 8-73

Y In questo caso la funzione più adeguata per approssimare la distribuzione dei punti e quella di una parabola: Y = a + b X + c X 2 X 8-74

In psicologia, gran parte delle analisi dei dati empirici si basa sullo studio delle relazioni lineari tra le variabili. Questo argomento sarà trattato nello studio della regressione e della analisi della varianza. 8-75