Il test di chi-quadro

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Il test di chi-quadro"

Transcript

1 Il test di chi-quadro Germano Rossi 18 novembre 2004 vers. 0.6 Indice Indice 1 1 Il test di chi-quadro [0.6] Introduzione Terminologia La formula di chi-quadro I valori teorici La distribuzione chi-quadro I gradi di libertà L inferenza Correzione di Yates Verifica di un modello Riepilogo Fonti Riferimenti bibliografici Questa dispensa è un capitolo di un lavoro più vasto intitolato Elementi di ragionamento statistico: per psicologia e scienze dell educazione da cui è tratto. Università degli Studi di Milano-Bicocca, Dipartimento di Psicologia ([email protected]) 1

2 2 CAPITOLO 1. IL TEST DI CHI-QUADRO [0.6] 1 Il test di chi-quadro [0.6] 1.1 Introduzione Il test di chi-quadro (χ 2 ) è una tecnica di inferenza statistica che si basa sulla statistica di chiquadro e sulla relativa distribuzione di probabilità 1. Si può usare con variabili a livello di scala nominale e/o ordinale, generalmente disposte in forma di tabelle di contingenza. Lo scopo principale di questa statistica è di verificare le differenze tra valori osservati e valori teorici (generalmente chiamati attesi ) e di effettuare un inferenza sul grado di scostamento fra i due. Praticamente la tecnica viene usata con 3 diversi obiettivi, tutti basati sullo stesso principio fondamentale: a) la casualità della distribuzione di una variabile categoriale; b) l indipendenza di due variabili qualitative (nominali o ordinali); c) le differenze con un modello teorico. Per lo scopo del punto b), l indice statistico di chi-quadro può essere considerato come una statistica di associazione Casualità della distribuzione di una variabile Per ora, ci limiteremo a considerare il primo aspetto (ovvero il punto a), utilizzando una ipotesi di lavoro della psichiatria, di qualche anno fa. Per diversi anni, gli psichiatri hanno avanzato l ipotesi che i pazienti affetti da schizofrenia nascano prevalentemente nei periodi invernali (Bradbury & Miller, 1985). Vogliamo vedere se anche i dati in nostro possesso ci portano a conclusioni analoghe. A questo scopo, usando le cartelle cliniche (del tutto inventate), raccogliamo le informazioni relative alla data di nascita di un certo numero di pazienti schizofrenici e li suddividiamo in categorie corrispondenti alle 4 stagioni dell anno: Tabella 1: Numero di schizofrenici nati nelle singole stagioni (Dati fittizi) Primavera Estate Autunno Inverno Totale Soggetti schizofrenici Se formulassimo un ipotesi di assoluta uniformità, cioè che la stagione di nascita non ha nulla a che fare con il fatto di manifestare successivamente un patologia schizofrenica, dovremmo aspettarci che ogni cella contenga più o meno la stessa percentuale di nati (poiché ci sono 4 celle, il 25% circa, cioè 159). In pratica quello che faremmo è utilizzare un ipotesi nulla di equiprobabilità: H 0 : P (P ) = P (E) = P (A) = P (I) = 0.25 contro un ipotesi alternativa non equiprobabile H 1 : P (P ) P (E) P (A) P (I) 0.25 e di usare l ipotesi nulla per generare le frequenze teoriche. 1 Il termine chi-quadro si usa per indicare contemporaneamente la distribuzione di probabilità, una particolare tecnica di inferenza statistica e un indice statistico. Alcuni autori usano il simbolo χ 2 (chi greca minuscola) per indicare la distribuzione di probabilità e X 2 (chi greca maiuscola) per indicare la statistica. In questa sede, però, non faremo questa distinzione.

3 1.1. INTRODUZIONE 3 E ben difficile però ottenere in ogni cella esattamente il valore atteso e si otterranno invece valori leggermente diversi che oscilleranno attorno a quello considerato uniforme. Valori molto vicini a quelli teorici avranno buone probabilità di essere delle variazioni casuali, mentre valori molto diversi e lontani da quelli teorici avranno poche probabilità di essere considerati fluttuazioni casuali. Serve quindi un criterio per decidere fino a che punto dobbiamo accettare come casuali le varie oscillazioni. Il procedimento di calcolo che adotteremo è abbastanza simile a quello che abbiamo usato per la varianza e può essere riassunto concretamente così: 1. Calcoliamo il valore medio teorico (t) che dovremmo aspettarci 636 / 4 = 159 all interno di ogni cella se i 4 eventi fossero equiprobabili Calcoliamo lo scarto della frequenza osservata (f) di ogni cella = -34 rispetto a quella teorica (t) 3. Eleviamo a quadrato questa differenza per diminuire i valori piccoli = 1156 ed aumentare quelli grandi Dividiamo infine per la frequenza teorica, in modo da standardizzare 1156/159 = 7.27 le distanze Ripetiamo il procedimento per tutte le celle Sommiamo i vari risultati parziali Ci sono in questo procedimento due passaggi (terzo e quarto) che potrebbero essere complessi da capire: il quadrato della differenza rispetto al valore teorico e la sua divisione per il valore teorico. Elevare a quadrato una differenza (tecnica che abbiamo già applicato per il calcolo della varianza), ci permette di ottenere due effetti: eliminare il segno negativo; amplificare le differenze proporzionalmente alla loro grandezza (il quadrato di 2 è 4, il quadrato di 5 è 25 e quello di 10 è 100). In questo modo, il numero che otteniamo è tanto più grande quanto maggiore è la differenza di partenza. Dividendo poi questo valore per la frequenza teorica, otteniamo una misurazione che, più o meno, equivale a dire: quante frequenze teoriche stanno in questo scarto quadratico. Si utilizza quindi ciascuna frequenza teorica come unità di misura per esprimere lo scarto. In pratica abbiamo costruito un numero che rappresenta la somma ponderata degli scarti delle frequenze di ciascuna cella rispetto alla sua attesa teorica (e che è la statistica di χ 2 ). E semplice allora capire come, maggiore è il valore trovato (il χ 2 ) e maggiore è lo scostamento delle frequenze osservate rispetto a quelle teoriche che ci dovremmo aspettare. Vale a dire, più i dati osservati e quelli teorici sono diversi fra loro (si allontanano), maggiori saranno le loro differenze e più grande diventerà il valore della statistica di χ 2. Più simili i dati teorici a quelli osservati e più piccolo sarà il valore dell indice statistico finale. Nel caso che stiamo considerando, maggiore sarà il valore finale e maggiore la probabilità che la distribuzione non sia casuale ma in qualche modo influenzata da qualcosa. E altrettanto facile capire come il valore trovato dipenda (per la sua grandezza) anche dal numero di celle e dal numero di frequenze totali: quante più celle possiede la tabella, tanto maggiore sarà la probabilità che una di esse si comporti in modo anomalo; quanto più alto il totale, quanto più è probabile trovare valori elevati della statistica di chi-quadro.

4 4 CAPITOLO 1. IL TEST DI CHI-QUADRO [0.6] A 1 A 2 A 3 B B B Tabella 2: Tavola di contingenza fra due ipotetiche variabili categoriali Indipendenza di due variabili categoriali Un lavoro analogo possiamo farlo su tabelle di contingenza (ossia tabelle a due entrate) che incrociano le frequenze con cui accadono assieme determinate categorie di due variabili. Ad es. una tabella di contingenza che incrocia i valori delle ipotetiche variabili A e B potrebbe essere come quella che compare in Tab. 2. Anche in questo caso abbiamo dei valori osservati (quelli della tabella) e possiamo calcolare dei valori teorici (basandoci proprio sul concetto di indipendenza probabilistica). H 0 : P (AB) = P (A) P (B) H 1 : P (AB) P (A) P (B) A questo punto il calcolo della statistica di χ 2 ci dirà quanto si discostano i dati osservati da quelli che abbiamo stimato sotto l ipotesi di indipendenza. Se il valore sarà basso, realtà e teoria si avvicineranno molto; se il valore sarà alto, si discosteranno. E se la realtà si avvicina molto alla teoria (χ 2 basso), poiché l ipotesi teorica è che le due variabili siano indipendenti fra loro, concluderemo che le due variabili non si influenzano reciprocamente. Mentre se il χ 2 è alto, non potremo dire che le variabili sono fra loro indipendenti, ma dovremo affermare che, in qualche modo, si influenzano reciprocamente Differenze con un modello teorico Infine, a partire da una qualunque configurazione di valori osservati, e una qualunque ipotesi teorica, possiamo applicare la statistica del χ 2 per vedere se l ipotesi teorica serve per spiegare i dati reali. In questo caso è l ipotesi alternativa che ipotizza l equiprobabilità, mentre l ipotesi nulla fa riferimento ad un modello esplicativo che genera la distribuzione dei dati. Dal momento che i valori teorici verrebbero stimati sulla base di una teoria, di un modello, di un ipotesi e la statistica di χ 2 sarebbe tanto più piccola quanto più teoria e realtà sono vicine fra loro. Ovvero, se la teoria spiega sufficientemente bene la realtà, il chi-quadro avrà un valore piccolo, se non la spiega abbastanza, avrà un valore elevato. 1.2 Terminologia Prima di proseguire, poniamo alcune basi terminologiche. Solitamente è possibile indicare i valori reali di una distribuzione, usando una lettera (generalmente x, y e z) per indicare la variabile e una lettera per indicare un indice (generalmente i, j e k). Usando questo tipo di notazione, possiamo riscrivere la Tab.2 in modo generico, in questo modo: A 1 A 2 A 3 B 1 f 11 f 12 f 13 B 2 f 21 f 22 f 23 B 3 f 31 f 32 f 33

5 1.3. LA FORMULA DI CHI-QUADRO 5 A 1 A 2 A 3 tot. B 1 f ij f i. B B tot. f.j f.. Tabella 3: Tabella generica In questa notazione, usiamo la lettera f per indicare la frequenza di ogni cella e, in particolare, f 11 indicherà il contenuto della cella all incrocio fra la riga 1 e la colonna 1, f 32 la cella all incrocio fra la riga 3 e la colonna 2; quindi f 11 = 60, f 12 = 53, f 31 = 55. Possiamo scrivere la stessa tabella in un modo più generico (Tab.). dove f ij indica le singole celle (al variare degli indici i e j ), mentre f i., f.j e f.. sono rispettivamente i totali di riga, i totali di colonna e il totale generale 2. Alcune ovvie relazioni possono essere espresse in termini matematici all interno di questa tabella, usando le stesse notazioni: a) il totale della i-esima riga è pari alla somma delle celle di quella riga (con c che indica il numero delle colonne): f i. = c j=1 f ij b) analogamente per i totali della colonna j-esima (con r che indica il numero delle righe): f.i = r i=1 f ij c) la numerosità totale della tabella corrisponde al totale generale che è pari alla somma di tutti i totali di riga, ovvero alla somma di tutti i totali di colonna oppure alla somma di tutte le celle: c r c r N = f.. = f.j = f i. = j=1 i=1 i=1 j=1 1.3 La formula di chi-quadro f ij Se trasformiamo il procedimento di calcolo usato al par in formula, poiché abbiamo solo una riga, possiamo scrivere: c χ 2 (f i t i ) 2 = i=1 t i dove indichiamo con c il numero di colonne, i è l indice che assume tutti i valori fra 1 e c, f i è il valore della cella (frequenza ottenuta) e t i è il corrispondente valore teorico. Se avessimo utilizzato una tabella a doppia entrata (come la Tab.??), la formula sarebbe invece: c r χ 2 (f ij t ij ) 2 = i=1 j=1 t ij 2 Alcuni testi usano il segno + al posto del punto e quindi f i+, f +j e f ++.

6 6 CAPITOLO 1. IL TEST DI CHI-QUADRO [0.6] in cui i e j indicano rispettivamente le righe (r) e le colonne (c). In genere, però, la formula di chi quadro la si trova scritta in modi più generici, usando notazioni di derivazione anglosassone, ad es.: χ 2 = (f o f e ) 2 f e In questo contesto f o significa frequenza osservata (observed) e f e frequenza teorica o attesa (expected) e il simbolo di sommatoria indica di sommare tutti i valori disponibili (ovvero tutte le celle della tabella). [Formule alternative χ 2 = f 2 o f e N (1) ] χ 2 = N(ad bc) 2 (a + b)(c + d)(a + c)(b + d) 1.4 I valori teorici Osservando bene la formula 1 vediamo che la parte più importante ma anche sconosciuta è proprio la frequenza attesa. In effetti, in base al modo in cui si calcola la frequenza attesa, cambia l uso che si fa del χ Equiprobabilità Al paragrafo abbiamo calcolato i valori teorici dividendo N per il numero di celle (t i = f i /c). Questo perché avevamo 1 sola variabile. L ipotesi sottintesa era che i dati si distribuissero in modo casuale. In pratica abbiamo testato l ipotesi che le frequenze nelle quattro stagioni fossero equiprobabili. H 0 : P (Estate) = P (Aut) = P (Inv) = P (Prim) =.25 H 1 : P (Estate) P (Aut) P (Inv) P (Prim) Indipendenza Con 2 variabili, le cose cambiano un poco. Vediamo come. Ipotizziamo di voler verificare se, in un campione di 42 soggetti di entrambi i sessi, la distribuzione dei livelli di educazione sia (H 1 ) o meno (H 0 ) dipendente dal sesso (Tab. 4). Tabella 4: Dati fittizi Livello Educativo Sesso Basso Alto Totale Maschi Femmine Totale Se precedentemente abbiamo utilizzato il totale generale e lo abbiamo diviso per il numero delle celle (cioè, in questo caso, 42 / 4 = 10.5), adesso dobbiamo considerare che vi sono dei vincoli. Abbiamo solo 20 soggetti di sesso femminile e non potremo mai aspettarci, neppure

7 1.4. I VALORI TEORICI 7 teoricamente, che siano 21 (cioè ); analogamente abbiamo solo 16 soggetti di livello educativo Alto (e non 21). I nostri valori teorici devono quindi tener conto di questi totali che costringono i risultati in una certa direzione; per calcolare i valori attesi (per ogni cella) si utilizza una formula abbastanza semplice: si moltiplicano fra loro i totali di riga e di colonna di quella cella e si divide il risultato per il totale generale, in formula: t ij = f i.f.j f.. (2) Applicando questa formula ad ogni elemento della Tab.??, avremmo: Freq. Freq. teorica Maschi Basso x 26 / 42 = Alto 9 22 x 16 / 42 = 8.38 Femmine Basso x 26 / 42 = Alto 7 20 x 16 / 42 = 7.62 La scelta di questo metodo di calcolo non è casuale. Infatti questa semplice formula di calcolo corrisponde alla probabilità teorica che si verifichino contemporaneamente 2 eventi fra di loro indipendenti ovvero la cui probabilità di comparsa di uno dei due non incide sulla probabilità del secondo e viceversa. Dallo studio della probabilità, sappiamo che tale valore è dato dal prodotto delle probabilità dei singoli eventi. Nel nostro caso, per la prima cella della tabella, si tratta di incrociare la probabilità di essere maschio [P(M)] con la probabilità di avere un basso livello educativo [P(B)]: P (MB) = P (M)P (B) La teoria della probabilità frequentista ci dice che la probabilità di un evento è data dalla frequenza con cui compare quell evento, divisa per il totale degli eventi, quindi: P (M) = tot. maschi tot. generale = = P (B) = tot. basso livello tot. generale = = P (MB) = = Poiché abbiamo 42 soggetti, dobbiamo moltiplicare N per la probabilità della prima cella, al fine di stimare quanti soggetti dovrebbero stare in quella cella: = Se scriviamo tutto il procedimento in un colpo solo, vediamo facilmente che la formuletta 2 è ricavata da tutto questo ragionamento: N P (MB) = N P (M) P (B) = = 42 42

8 8 CAPITOLO 1. IL TEST DI CHI-QUADRO [0.6] Un esempio Partendo dai dati della Tab. 2, proviamo a calcolare un chi-quadro completo. Iniziamo calcolando i totali di riga e di colonna sulle frequenze osservate (f o ). f o A 1 A 1 A 1 tot. B B B tot I valori teorici vengono calcolati come: f t / / / / / / / / /340 Notate come, per ogni colonna, vi sia una parte della formula che non cambia (analogamente se consideriamo le formule per riga). Facendo i conti a mano, possiamo semplificarli così: 168 / 340 = / 340 = / 340 = Nel trascrivere i dati, ho arrotondato a 2 cifre decimali mentre sarebbe opportuno utilizzare tutti i decimali possibili Otteniamo così le seguenti frequenze teoriche: f t Possiamo adesso applicare la formula per il calcolo del chi-quadro, dapprima calcolando, per ogni cella, il valore della formula e, successivamente sommando il tutto (volendo essere un esempio dettagliato, farò tutti i passaggi e userò tutti i decimali del visore di una normale calcolatrice). L applicazione della formula ad ogni cella: ( ) 2 /61.25 (53 45) 2 /45 ( ) 2 /17.5 ( ) 2 /45.08 ( ) 2 /33.12 ( ) 2 /12.88 ( ) 2 /60.27 ( ) 2 /44.28 ( ) 2 /17.22 Il calcolo della differenza: ( 1.25) 2 /61.25 (8) 2 /45 ( 5.5) 2 /17.5 (7.92) 2 /45.08 ( 10.12) 2 /33.12 (3.12) 2 /12.88 ( 5.27) 2 /60.27 (3.72) 2 /44.28 (2.78) 2 /17.22 Il quadrato della differenza:

9 1.5. LA DISTRIBUZIONE CHI-QUADRO / / / / / / / / /17.22 La divisione finale: Sommando il contenuto di tutte le celle e arrotondando a due decimali, otteniamo un χ 2 di E ora che abbiamo calcolato la statistica di chi-quadro, cosa ce ne facciamo? Al paragrafo 1.1 avevamo scritto che la statistica di chi-quadro serviva per stabilire fino a punto potevamo accettare le frequenze ottenute come analoghe, simili, vicine a quelle teoriche e che più alto era il valore trovato, tanto più era improbabile che tale lontananza fosse casuale. Dobbiamo a questo punto fare un procedimento di inferenza statistica. 1.5 La distribuzione chi-quadro [Forma della curva, cambi al variare dei gl, problemi di numerosità e di freq. teoriche] 1.6 I gradi di libertà Riprendiamo in considerazione la Tab.2, con i suoi totali. Il concetto di gradi di libertà nasce dal fatto che avendo 168 eventi nella categoria A1, dovendoli suddividere nelle 3 celle corrispondenti alle categorie di B, noi abbiamo libertà di mettere quanti eventi vogliamo in 2 sole celle... la terza è costretta a contenere gli eventi restanti. Lo stesso ragionamento viene fatto per A2, A3 e per ciascuno dei valori di B. Nella tabella quindi vi sono delle celle (per convenzione le ultime) che non possono contenere qualsiasi numero ma solo quanto resta per poter sommare al totale degli eventi di quella categorie. Nella tabella che segue queste celle sono indicate in grassetto. A 1 A 2 A 3 tot. B B B tot Il numero delle celle libere, corrisponde ai gradi di libertà (in inglese, degree of freedom, abbreviato in df ). La formula generale, facilmente comprensibile dall esempio precedente, è: gl = (r 1)(c 1) ossia numero di righe per numero di colonne, a ciascuno dei quali viene precedentemente sottratto uno. 1.7 L inferenza Una volta calcolato il valore finale di un chi-quadro si applica il solito meccanismo del livello di significatività, facendo riferimento alla distribuzione di chi-quadro e ai gradi di libertà impli-

10 10 CAPITOLO 1. IL TEST DI CHI-QUADRO [0.6] cati. Il valore di significatività trovato indica il rischio che noi corriamo, la probabilità che un determinato valore di chi-quadro sia casuale. Ritornando all esempio di Tab.1, per sapere se il valore di chi-quadro da noi trovato (42.73) è significativo, consultiamo le tavole relative della distribuzione di chi-quadro (la Tab.5 ne riporta una parte). Le tavole della distribuzione di chi-quadro riportano, generalmente, i valori critici di chiquadro per i vari gradi di libertà e per diversi valori α. Cerchiamo quindi la riga corrispondente a 3 gradi di libertà (cioè 4-1) e quindi avanziamo alla ricerca di un valore che sia superiore a quello da noi trovato. Nessuno dei valori segnati sulla riga supera il valore di 42.73, quindi la probabilità a esso connessa è così piccola da essere inferiore allo.001, cioè all 1 per mille. Tabella 5: Valori critici di chi-quadro (estratto) gl= La maggior parte dei programmi per computer, oltre a fornire il valore di chi-quadro e i gradi di libertà, fornisce anche un valore di probabilità (a volte chiamato significatività ) che permette di interpretare immediatamente il valore statistico calcolato senza utilizzare le tabelle. Se utilizzassimo un programma statistico per rifare lo stesso chi-quadro, otterremmo questi risultati: Patologia Chi-square df 3 Sig..000 Con 3 gradi di libertà (df = degree of freedom), un chi-quadro pari a è da considerarsi molto significativo; in effetti la significatività è pari a.000 (che significa che vi è almeno una cifra diversa da zero a partire dal quarto decimale e che tale cifra non viene visualizzata per motivi di arrotondamento) ovvero vi è meno di 1 probabilità su che i nostri dati siano così diversi tra loro per puro caso. Nel caso fittizio da noi considerato dovremmo quindi concludere che effettivamente nasce un numero di soggetti schizofrenici diverso rispetto alle stagioni di nascita e in particolare in inverno. Senza bisogno di applicare le formule, si possono consultare delle apposite tavole, che forniscono la probabilità associata ad un certo valore di χ 2, per un dato grado di libertà. Usando le tavole, dobbiamo seguire il seguente procedimento: 1. fissiamo un livello α (di solito α =.05); 2. calcoliamo i gradi di libertà; 3. troviamo sulle tavole la riga corrispondente ai gradi di libertà e la scorriamo fino alla colonna corrispondente al livello α; 4. all incrocio fra riga e colonna, troviamo il valore critico di χ 2 (χ 2 c); 5. se il nostro chi-quadro è inferiore al valore critico, accettiamo l ipotesi H 0 ; 6. se è superiore, accettiamo l ipotesi alternativa. Esempio: χ 2 =10.63; gl=4; α =.05

11 1.8. CORREZIONE DI YATES 11 χ 2 < χ 2 c accetto H 0 χ 2 > χ 2 c accetto H 1 Tabella 6: Regole di accettazione/rifiuto Consultando le tavole, trovo un χ 2 critico di 9.48 Poiché è maggiore del valore critico, rifiuto H 0 e accetto H Correzione di Yates Riprendendo, invece, i dati di Tab.3, già confrontando ad occhio i valori teorici e i valori ottenuti, possiamo aspettarci che il chi-quadro non sia significativo, poiché i due valori sono molto vicini fra loro. In effetti, se calcoliamo la statistica con un programma per computer, otteniamo: Pearson Chi-square.155 Continuity Correction.006 Df 1 Sig..694 Il risultato del chi-quadro (Pearson Chi-Square) è pari a che, con 1 grado di libertà non risulta significativo: la probabilità esatta calcolata (Sig.) è pari infatti a 0.694, cioè: se decidessimo di accettare l ipotesi H 1 che il sesso influisce sul livello economico di un individuo, correremmo un rischio di sbagliare del 69%; rischio che è considerato eccessivo e che ci induce ad accettare l ipotesi opposta. Poiché la tabella è composta da 4 celle in forma 2x2, viene calcolato un altro indice di chi-quadro (Continuity correction), conosciuto anche come correzione di Yates, che permette di adeguare maggiormente la distribuzione del chi-quadro di una tabella 2x2 alla curva di chiquadro. 1.9 Verifica di un modello Fino ad ora abbiamo utilizzato la statistica di chi-quadro per verificare se una determinata distribuzione era (oppure no) uniformemente distribuita. Per questo motivo, abbiamo calcolato i valori delle frequenze teoriche come rapporti ponderati delle righe e delle colonne e, per accettare l ipotesi H 1, ci aspettavamo di trovare valori di chi-quadro molto elevati e statisticamente associati ad un basso valore di α. Ma poiché la tecnica del chi-quadro confronta una distribuzione realmente ottenuta con una teorica, noi possiamo utilizzare questo test anche per verificare un nostro particolare modello di dati. In questo caso, però, un valore elevato di chi-quadro (quindi significativo), vorrebbe dire che la distribuzione reale dei nostri dati si discosta dalla distribuzione teorica che ci aspettavamo mentre un valore bassissimo o nullo, significherebbe che la nostra teoria spiega bene i dati da noi trovati. Come esempio usiamo quello iniziale. Leggiamo un articolo (ipotetico) in cui si afferma che nel periodo invernale (rispetto alle altre stagioni) nascono più soggetti che poi riveleranno disturbi di tipo schizofrenico. L autore dell articolo precisa anche che in genere, durante l inverno, nella sua popolazione di riferimento, sono nati circa il 55% di tutti i soggetti con tali disturbi. Noi allora prendiamo i dati in nostro possesso e calcoliamo un normale test di chi-quadro, che ci risulta significativo. A questo punto ci chiediamo se le caratteristiche del nostro campione sono simili a quelle del campione dell autore dell articolo. Ricalcoliamo il chi-quadro, usando questa

12 12 CAPITOLO 1. IL TEST DI CHI-QUADRO [0.6] volta come frequenze teoriche i valori che ricaveremo dai dati dell articolo, ad es. pari al 37% per l inverno e al 18% per la primavera, al 20% per l estate e al 25% per l autunno (Tab.7). Il χ 2 così ottenuto è pari a 1,48, che per 1 grado di libertà non è statisticamente significativo. Tabella 7: Confronto con un articolo di riferimento (Dati fittizi) Primavera Estate Autunno Inverno Totale freq. osservate % di riferimento freq. attese 114,48 127, , Tuttavia, in questa circostanza, un chi-quadro non significativo, indica che la distribuzione dei dati da noi ottenuta è vicina a quella teorica ipotizzata e che quindi il nostro campione è simile a quello utilizzato nell articolo di riferimento Riepilogo Ora che abbiamo spiegato anche a livello intuitivo la statistica di chi-quadro, affrontiamo brevemente i criteri da considerare nella sua applicazione. Può essere usata con una o due variabili categoriali o ordinali; L attribuzione di un caso (soggetto) ad una categoria/cella dev essere univoca, ovvero un soggetto classificato in una cella non deve comparire contemporaneamente in un altra: questo si chiama indipendenza dei casi; Non si può applicare (è rischioso) se più del 20% delle celle ha una frequenza attesa inferiore a 5 (solo nel caso di una tabella 2x2, si può utilizzare una formula alternativa chiamata correzione di Yates ); oppure se una cella ha frequenza attesa inferiore a 1. In questo caso, se vi sono 3 o più categorie e se il significato logico di tali categorie lo permette, è possibile accorparne alcune in modo da ampliare la numerosità di quella particolare riga/colonna. Ad es. è possibile far confluire la categoria convivente con quella di sposato e la categoria vedovo con divorziato se ciò che importa nell analisi è l ampiezza del nucleo familiare; Quando il numero di celle è piccolo e il numero di casi è grande conviene verificare la validità del chi-quadro tramite l uso del coefficiente C di contingenza. Quando si usa il chi-quadro su tabelle di contingenza con più di 2 righe o colonne, e si trova un valore significativo di χ 2, si vorrebbe anche sapere quale cella o quali celle sono responsabili della significatività. Questa conoscenza aiuta molto nell interpretare i risultati del test. Esistono delle tecniche abbastanza complesse, chiamate tecniche di partizione che permettono di andare a vedere come si comportano le celle o alcuni gruppi di celle rispetto a tutte le altre. Tralasciando queste tecniche di partizione, suggeriamo l uso dei residui standardizzati, proposti da Haberman (1973). Quando il residuo standardizzato di una cella supera il valore di 2 (in realtà 1.96, pari ad α =.05), la cella si discosta dal suo valore teorico a sufficienza per essere considerata come una cella anomala, che ha contribuito a rendere significativo il test di chi-quadro. Se dovete calcolare un chi-quadro su dati già in forma tabellare, anziché usare un complesso programma statistico, è più semplice usare un programma apposito. Nel mondo di internet ve ne sono due facilmente utilizzabili: il primo è un programma in italiano per il sistema operativo Dos 3, mentre il secondo programma è in inglese (chi1), più completo, ed è disponibile in 3

13 1.11. FONTI 13 qualunque mirror di SimtelNet nella directory di statistica Fonti Blalock jr. (1960, pp ), Cristante, Lis, e Sambin (1982, pp ). Riferimenti bibliografici Blalock jr., H. M. (1960). Social statistics. New York: McGraw-Hill Book. (Trad. it. Statistica per la ricerca sociale. Milano: Il Mulino, 1969.) Cristante, F., Lis, A., & Sambin, M. (1982). Statistica per psicologi. Firenze: Giunti Barbèra. 4 ad es. in 0.zip

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 10-Significatività statistica per la correlazione vers. 1.0 (5 novembre 2014) Germano Rossi 1 [email protected] 1 Dipartimento di Psicologia, Università

Dettagli

Elementi di Psicometria

Elementi di Psicometria Elementi di Psicometria 20-Chi quadro vers. 1.0 (27 aprile 2011) Germano Rossi 1 [email protected] 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2010-2011 G. Rossi (Dip. Psicologia)

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 13-Il t-test per campioni indipendenti vers. 1.1 (12 novembre 2014) Germano Rossi 1 [email protected] 1 Dipartimento di Psicologia, Università di

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 05-Deviazione standard e punteggi z vers. 1.1 (22 ottobre 2014) Germano Rossi 1 [email protected] 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Capitolo 11 Test chi-quadro

Capitolo 11 Test chi-quadro Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 11 Test chi-quadro Insegnamento: Statistica Corsi di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara Docenti: Dott.

Dettagli

Elementi di Psicometria

Elementi di Psicometria Elementi di Psicometria 7-Punti z e punti T vers. 1.0a (21 marzo 2011) Germano Rossi 1 [email protected] 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2010-2011 G. Rossi (Dip. Psicologia)

Dettagli

Esercizi di statistica

Esercizi di statistica Esercizi di statistica Test a scelta multipla (la risposta corretta è la prima) [1] Il seguente campione è stato estratto da una popolazione distribuita normalmente: -.4, 5.5,, -.5, 1.1, 7.4, -1.8, -..

Dettagli

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile Corso di Metodologia della ricerca sociale L analisi della varianza (ANOVA) La tecnica con cui si esplorano le relazioni

Dettagli

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 2 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1.1

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 3-I percentili vers. 1.2 (30 ottobre 2013) Germano Rossi 1 [email protected] 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2013-2014

Dettagli

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE 1 STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE La presentazione dei dati per molte ricerche mediche fa comunemente riferimento a frequenze, assolute o percentuali. Osservazioni cliniche conducono

Dettagli

Distribuzione Gaussiana - Facciamo un riassunto -

Distribuzione Gaussiana - Facciamo un riassunto - Distribuzione Gaussiana - Facciamo un riassunto - Nell ipotesi che i dati si distribuiscano seguendo una curva Gaussiana è possibile dare un carattere predittivo alla deviazione standard La prossima misura

Dettagli

si tratta del test del chi-quadro di adattamento e di quello di indipendenza. 1 l ipotesi che la popolazione segua una legge fissata;

si tratta del test del chi-quadro di adattamento e di quello di indipendenza. 1 l ipotesi che la popolazione segua una legge fissata; di : dado : normale Finora abbiamo visto test d ipotesi per testare ipotesi differenti, ma tutte concernenti il valore atteso di una o due popolazioni. In questo capitolo vediamo come testare 1 l ipotesi

Dettagli

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer Richiami di inferenza statistica Strumenti quantitativi per la gestione Emanuele Taufer Inferenza statistica Inferenza statistica: insieme di tecniche che si utilizzano per ottenere informazioni su una

Dettagli

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE La presentazione dei dati per molte ricerche mediche fa comunemente riferimento a frequenze, assolute o percentuali. Osservazioni cliniche conducono sovente

Dettagli

Ulteriori applicazioni del test del Chi-quadrato (χ 2 )

Ulteriori applicazioni del test del Chi-quadrato (χ 2 ) Ulteriori applicazioni del test del Chi-quadrato (χ 2 ) Finora abbiamo confrontato con il χ 2 le numerosità osservate in diverse categorie in un campione con le numerosità previste da un certo modello

Dettagli

Argomento 13 Sistemi lineari

Argomento 13 Sistemi lineari Sistemi lineari: definizioni Argomento Sistemi lineari Un equazione nelle n incognite x,, x n della forma c x + + c n x n = b ove c,, c n sono numeri reali (detti coefficienti) e b è un numero reale (detto

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 25-Dimensione degli effetti e 26-Metanalisi vers. 1.0 (2 dicembre 2014) Germano Rossi 1 [email protected] 1 Dipartimento di Psicologia, Università

Dettagli

x 2 + (x+4) 2 = 20 Alle equazioni di secondo grado si possono applicare i PRINCIPI di EQUIVALENZA utilizzati per le EQUAZIONI di PRIMO GRADO.

x 2 + (x+4) 2 = 20 Alle equazioni di secondo grado si possono applicare i PRINCIPI di EQUIVALENZA utilizzati per le EQUAZIONI di PRIMO GRADO. EQUAZIONI DI SECONDO GRADO Un'equazione del tipo x 2 + (x+4) 2 = 20 è un'equazione DI SECONDO GRADO IN UNA INCOGNITA. Alle equazioni di secondo grado si possono applicare i PRINCIPI di EQUIVALENZA utilizzati

Dettagli

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione. Statistica inferenziale La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione. Verifica delle ipotesi sulla medie Quando si conduce una

Dettagli

In altri termini, il logaritmo in base a di b è quel numero c tale per cui a elevato a c è uguale a b. In simboli

In altri termini, il logaritmo in base a di b è quel numero c tale per cui a elevato a c è uguale a b. In simboli LOGARITMO Il logaritmo è un operatore matematico indicato generalmente con loga(b); detta a la base e b l'argomento, il logaritmo in base a di b è definito come l'esponente a cui elevare la base per ottenere

Dettagli

Chi-quadro. sono variabili aleatorie indipendenti con distribuzione allora la variabile aleatoria

Chi-quadro. sono variabili aleatorie indipendenti con distribuzione allora la variabile aleatoria Chi-quadro In generale, se sono variabili aleatorie indipendenti con distribuzione allora la variabile aleatoria si distribuisce secondo una distribuzione Chi-quadro con k gradi di libertà Chi-quadro Dunque

Dettagli

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0. Regressione [] el modello di regressione lineare si assume una relazione di tipo lineare tra il valore medio della variabile dipendente Y e quello della variabile indipendente X per cui Il modello si scrive

Dettagli

Esercitazioni del corso: RELAZIONI TRA VARIABILI

Esercitazioni del corso: RELAZIONI TRA VARIABILI A. A. 009 010 Esercitazioni del corso: RELAZIONI TRA VARIABILI Isabella Romeo: [email protected] ommario Esercitazione 1: Tabelle a doppia entrata Distribuzioni marginali e condizionate Indipendenza

Dettagli

Corso di Psicometria Progredito

Corso di Psicometria Progredito Corso di Psicometria Progredito 43 I principali test statistici per la verifica di ipotesi: Il test del χ 2 per tavole di contingenza a 2 vie Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia

Dettagli

Note sulla probabilità

Note sulla probabilità Note sulla probabilità Maurizio Loreti Dipartimento di Fisica Università degli Studi di Padova Anno Accademico 2002 03 1 La distribuzione del χ 2 0.6 0.5 N=1 N=2 N=3 N=5 N=10 0.4 0.3 0.2 0.1 0 0 5 10 15

Dettagli

LEZIONE N. 11 ( a cura di MADDALENA BEI)

LEZIONE N. 11 ( a cura di MADDALENA BEI) LEZIONE N. 11 ( a cura di MADDALENA BEI) F- test Assumiamo l ipotesi nulla H 0 :β 1,...,Β k =0 E diverso dal verificare che H 0 :B J =0 In realtà F - test è più generale H 0 :Aβ=0 H 1 :Aβ 0 A è una matrice

Dettagli

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE 1 STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE La presentazione dei dati per molte ricerche mediche fa comunemente riferimento a frequenze, assolute o percentuali. Osservazioni cliniche conducono

Dettagli

REGRESSIONE E CORRELAZIONE

REGRESSIONE E CORRELAZIONE REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.

Dettagli

Il questionario per rilevare informazioni

Il questionario per rilevare informazioni Il questionario per rilevare informazioni Informazioni non scolastiche Non esistono solo le variabili relative all apprendimento o le variabili scolastiche Informazioni relative alle condizioni socio-culturali

Dettagli

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE 1. Distribuzione congiunta Ci sono situazioni in cui un esperimento casuale non si può modellare con una sola variabile casuale,

Dettagli

Statistica Elementare

Statistica Elementare Statistica Elementare 1. Frequenza assoluta Per popolazione si intende l insieme degli elementi che sono oggetto di una indagine statistica, ovvero l insieme delle unità, dette unità statistiche o individui

Dettagli

Il test (o i test) del Chi-quadrato ( 2 )

Il test (o i test) del Chi-quadrato ( 2 ) Il test (o i test) del Chi-quadrato ( ) I dati: numerosità di osservazioni che cadono all interno di determinate categorie Prima di tutto, è un test per confrontare proporzioni Esempio: confronto tra numero

Dettagli

Stabilità per sistemi a tempo continuo

Stabilità per sistemi a tempo continuo Esercizi 3, 1 Stabilità per sistemi a tempo continuo Analisi degli autovalori Analisi del polinomio caratteristico, criterio di Routh-Hurwitz Calcolo di Esercizi 3, 2 Esercizi Stabilità per sistemi a tempo

Dettagli

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 15: Metodi non parametrici

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 15: Metodi non parametrici Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 15: Metodi non parametrici 1 Metodi non parametrici Statistica classica La misurazione avviene con

Dettagli

Esercitazioni di Statistica

Esercitazioni di Statistica Esercitazioni di Statistica Indici di posizione e di variabilità Prof. Livia De Giovanni [email protected] Esercizio 1 Data la seguente distribuzione unitaria del carattere X: X : 4 2 4 2 6 4

Dettagli

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill Es. Soluzione degli esercizi del capitolo 8 home - indice In base agli arrotondamenti effettuati nei calcoli, si

Dettagli

Analisi bivariata. Il caso di caratteri qualitativi

Analisi bivariata. Il caso di caratteri qualitativi Analisi bivariata Il caso di caratteri qualitativi Pagina 337 Che cosa è l analisi bivariata? E lo studio congiunto di due caratteri Esempio nel caso di caratteri qualitativi: I valori delle celle derivano

Dettagli

Analisi della varianza a una via

Analisi della varianza a una via Analisi della varianza a una via Statistica descrittiva e Analisi multivariata Prof. Giulio Vidotto PSY-NET: Corso di laurea online in Discipline della ricerca psicologico-sociale SOMMARIO Modelli statistici

Dettagli

Monomi L insieme dei monomi

Monomi L insieme dei monomi Monomi 10 10.1 L insieme dei monomi Definizione 10.1. Un espressione letterale in cui numeri e lettere sono legati dalla sola moltiplicazione si chiama monomio. Esempio 10.1. L espressione nelle due variabili

Dettagli

Stabilire se il punto di coordinate (1,1) appartiene alla circonferenza centrata nell origine e di raggio 1.

Stabilire se il punto di coordinate (1,1) appartiene alla circonferenza centrata nell origine e di raggio 1. Definizione di circonferenza e cerchio. Equazione della circonferenza centrata in O e di raggio R. Esercizi. La circonferenza e il cerchio Definizioni: dato un punto C nel piano cartesiano e dato un numero

Dettagli

Insiemistica. Capitolo 1. Prerequisiti. Obiettivi. Gli insiemi numerici di base Divisibilità e fattorizzazione nei numeri interi

Insiemistica. Capitolo 1. Prerequisiti. Obiettivi. Gli insiemi numerici di base Divisibilità e fattorizzazione nei numeri interi Capitolo 1 Insiemistica Prerequisiti Gli insiemi numerici di base Divisibilità e fattorizzazione nei numeri interi Obiettivi Sapere utilizzare opportunamente le diverse rappresentazioni insiemistiche Sapere

Dettagli

Corso di Psicometria Progredito

Corso di Psicometria Progredito Corso di Psicometria Progredito 5. La correlazione lineare Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014 Sommario 1 Tipi di relazione

Dettagli

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione dei numeri relativi

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione dei numeri relativi Codice BCD Prima di passare alla rappresentazione dei numeri relativi in binario vediamo un tipo di codifica che ha una certa rilevanza in alcune applicazioni: il codice BCD (Binary Coded Decimal). È un

Dettagli