Analisi dei residui. Test Esatto di Fisher. Differenza fra proporzioni



Documenti analoghi
Il confronto fra proporzioni

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Elementi di Psicometria con Laboratorio di SPSS 1

STATISTICA IX lezione

VERIFICA DELLE IPOTESI

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

3. Confronto tra medie di due campioni indipendenti o appaiati

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

Elementi di Psicometria con Laboratorio di SPSS 1

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Statistiche campionarie

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Metodi statistici per le ricerche di mercato

Test statistici di verifica di ipotesi

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

Le funzioni continue. A. Pisani Liceo Classico Dante Alighieri A.S A. Pisani, appunti di Matematica 1

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Rapporto dal Questionari Insegnanti

Iniziamo con un esercizio sul massimo comun divisore: Esercizio 1. Sia d = G.C.D.(a, b), allora:

La distribuzione Normale. La distribuzione Normale

Prova di autovalutazione Prof. Roberta Siciliano

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Statistica. Lezione 6

E naturale chiedersi alcune cose sulla media campionaria x n

Disegni di Ricerca e Analisi dei Dati in Psicologia Clinica. Indici di Affidabilità

Strumenti informatici 13.1

Facoltà di Psicologia Università di Padova Anno Accademico

Analizza/Confronta medie. ELEMENTI DI PSICOMETRIA Esercitazione n Test t. Test t. t-test test e confronto tra medie chi quadrato

Lezione 6: Forma di distribuzione Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

OSSERVAZIONI TEORICHE Lezione n. 4

LEZIONE n. 5 (a cura di Antonio Di Marco)

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

LA CORRELAZIONE LINEARE

Un gioco con tre dadi

ANALISI DELLA VARIANZA A PIU CRITERI DI CLASSIFICAZIONE

Capitolo 4 Probabilità

Excel Terza parte. Excel 2003

Capitolo 13: L offerta dell impresa e il surplus del produttore

SPC e distribuzione normale con Access

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr.

19txtI_BORRA_ /11/13 10:52 Pagina 449 TAVOLE STATISTICHE

risulta (x) = 1 se x < 0.

LA MOLTIPLICAZIONE IN CLASSE SECONDA

I punteggi zeta e la distribuzione normale

Elementi di Psicometria con Laboratorio di SPSS 1


4 3 4 = 4 x x x 10 0 aaa

Matematica generale CTF

PROGETTO INDAGINE DI OPINIONE SUL PROCESSO DI FUSIONE DEI COMUNI NEL PRIMIERO

= variazione diviso valore iniziale, il tutto moltiplicato per 100. \ Esempio: PIL del 2000 = 500; PIL del 2001 = 520:

Ragionamento spaziale visivo e percezione

età sesso luogo-abitazione scuola superiore esperienza insegnamento

Verifica di ipotesi

LA STATISTICA NEI TEST INVALSI

Statistica inferenziale

L'impulso di una forza che varia nel tempo

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

Il test del Chi-quadrato

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

Una sperimentazione. Probabilità. Una previsione. Calcolo delle probabilità. Nonostante ciò, è possibile dire qualcosa.

Calcolo delle probabilità

LEZIONE 7. Esercizio 7.1. Quale delle seguenti funzioni è decrescente in ( 3, 0) e ha derivata prima in 3 che vale 0? x x2. 2, x3 +2x +3.

1. Distribuzioni campionarie

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

La f(x) dovrà rimanere all interno di questo intorno quando la x è all interno di un intorno di x 0, cioè I(x 0 ), cioè:

Tasso di interesse e capitalizzazione

Onestà di un dado. Relazione sperimentale

Corso di Matematica. Corso di Laurea in Farmacia, Facoltà di Farmacia. Università degli Studi di Pisa. Maria Luisa Chiofalo.

Concetto di potenza statistica

Tema A Se due eventi A e B sono indipendenti e tali che P (A) = 1/2 e P (B) = 2/3, si può certamente concludere che

APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE

LE FUNZIONI A DUE VARIABILI

Vademecum studio funzione

Capitolo 2 Distribuzioni di frequenza

Documento di accompagnamento: mediane dei settori bibliometrici

Statistica. Esercitazione 3 5 maggio 2010 Serie storiche. Connessione e indipendenza statistica

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

LA RETTA. Retta per l'origine, rette orizzontali e verticali

è decidere sulla verità o falsità

Relazioni tra variabili

Logica Numerica Approfondimento 1. Minimo Comune Multiplo e Massimo Comun Divisore. Il concetto di multiplo e di divisore. Il Minimo Comune Multiplo

Analisi di dati di frequenza

Titolo della lezione. Analisi dell associazione tra due caratteri: indipendenza e dipendenza

Esercitazioni di Statistica

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza

Corso di. Dott.ssa Donatella Cocca

Esercitazione 1 del corso di Statistica 2 Prof. Domenico Vistocco

Capitolo 12 La regressione lineare semplice

Temi di Esame a.a Statistica - CLEF

Soluzioni degli Esercizi del Parziale del 30/06/201 (Ippoliti-Fontanella-Valentini)

Principi generali. Vercelli 9-10 dicembre G. Bartolozzi - Firenze. Il Pediatra di famiglia e gli esami di laboratorio ASL Vercelli

L EFFICACIA DELLE MISURE DI POLITICA ATTIVA DEL LAVORO REALIZZATE IN PROVINCIA DI TORINO NEL

UNIVERSITÀ DEGLI STUDI DI TERAMO

Capitolo 11 Test chi-quadro

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

Transcript:

Statistica Economica Materiale didattico a cura del docente Analisi dei residui Test Esatto di Fisher Differenza fra proporzioni 1

Analisi dei residui Il test statistico ed il suo p-valore riassumono la forza delle evidenze statistiche contrarie all ipotesi nulla. Se il χ 2 è grande, allora, in qualche punto della tabella di contingenza i dati si allontanano da ciò che l ipotesi di indipendenza predice Il test, però, non ci dice se tutte le celle o solo una o due di esse deviano dall indipendenza Un confronto cella-per-cella rivela la natura delle prove statistiche fornite dal test La differenza (f o f e ) è chiamato residuo. La prima cella della solita tabella avrà, quindi, come residuo 279-261,4=17,6 Come facciamo a stabilire se un residuo è abbastanza grande da indicare un significativo allontanamento dall ipotesi di indipendenza? Per rispondere impieghiamo una forma aggiustata dei residui che si comporta come uno z-score 2

Residui Aggiustati: Il residuo aggiustato per una cella è pari a f o f e fe (1 prop. di riga)(1 prop. di colonna) Il denominatore è l errore standard della differenza (f o f e ) quando le variabili sono davvero indipendenti Se l ipotesi H 0 di indipendenza è vera, il residuo aggiustato è riferito al numero di errori standard che separano la frequenza osservata da quella attesa ed ha distribuzione normale standardizzata per grandi campioni Il residuo aggiustato, quindi, fluttua intorno al valore medio 0 con una deviazione standard pari a 1: così, vi è solo il 5% di probabilità che un particolare residuo sia superiore a 2 in valore assoluto Un grande residuo aggiustato fornisce prove contro l ipotesi di indipendenza per una particolare cella: un valore di tale residuo che supera 3 è una fortissima evidenza contro l indipendenza 2-a

Calcoliamo i residui aggiustati per la Tabella dell esempio di A. Agresti sul gap tra i sessi per ciò che attiene l affiliazione partitica Per la prima cella, abbiamo f o = 279 e f e = 261, 4. Le proporzioni marginali per la prima riga e per la prima colonna sono pari a 577/980 = 0, 589 e a 444/980 = 0, 453: Il residuo aggiustato per tale cella è, quindi: 279 261, 4 [261, 4(1 0, 589)(1 0, 453)] = 2, 3 Opinione politica Sesso Demo Indip Repubb F 2,3 0,5-2,6 M -2,3-0,5 2,6 Nel caso della prima cella, poiché il residuo è maggiore di 2, constatiamo una discrepanza fra f o ed f e più grande di quella che ci saremmo aspettati se le variabili fossero state davvero indipendenti 2-b

La Tabella mostra ampi residui positivi per le femmine Democratiche e per i maschi Repubblicani, le celle, cioè, in cui f o è molto più grande di f e : ciò vuole dire che esiste un numero significativo in più rispetto a ciò che prevede l ipotesi di indipendenza di femmine Democratiche e di maschi Repubblicani La Tabella mostra anche ampi residui negativi per le femmine Repubblicane e per i maschi Democratici, le due celle, cioè, in cui f o è molto più piccolo di f e : ciò vuole dire che ci sono molte meno femmine Repubblicane e molti meno maschi democratici rispetto a quanto si sarebbe dovuto osservare nel caso di indipendenza fra affiliazione partitica e sesso Si noti che, per ogni partito, la tabella in esame contiene solo un residuo aggiustato non ridondante: quello per le femmine è l opposto di quello per i maschi. Infatti, poiché le frequenze osservate e le frequenze attese hanno gli stessi totali di riga e colonna e, quindi, se f o > f e in una cella, l opposto deve avvenire nell altra cella 2-c

Il test esatto di Fisher Iniziamo dal caso delle Tabelle 2 2 si consideri una tabella di contingenza di dimensioni 2 2 del tipo B A b 1 b 2 Totale a 1 n 11 n 12 n 1+ a 2 n 21 n 22 n 2+ Totale n +1 n +2 n ++ Una volta che sono fissati i totali di riga e di colonna, è chiaro che il valore di n 11 determina, univocamente i valori delle altre 3 celle Nel 1934, l autorevole statistico britannico Ronald A. Fisher, ha proposto un test di indipendenza per piccoli campioni che si può utilizzare per situazioni come quelle descritte dalla tabella 3

Per illustrarne il funzionamento, nel suo libro The Design of Experiments del 1935 Fisher descrisse il seguente esperimento: Una collega di Fisher presso la Stazione Sperimentale di Rothamsted vicino a Londra, affermava di essere in grado, bevendo il tè di distinguere se nella tazza fosse stato versato prima il tè o il latte. Per verificare l attendibilità di tale affermazione, Fisher pianificò un esperimento nel quale la sua collega doveva assaggiare 8 tazze di tè. In 4 tazze mise prima il latte del tè, nelle altre 4 fece l opposto. Alla collega disse che esistevano appunto 4 tazze in cui il latte era stato messo prima del tè e 4 tazze in cui era stato messo dopo. Le tazze vennero presentate alla collega in ordine casuale Applichiamo il test esatto di Fisher per saggiare l ipotesi H 0 : Cio che dice la collega di Fisher è indipendente dall ordine con cui latte e tè sono stati versati 3-a

La distribuzione dei possibili valori di n 11 è la distribuzione ipergeometrica definita per tutte le possibili tabelle 2 2 che hanno dei marginali di riga e colonna pari a quelli fissati I potenziali valori per n 11 sono (0,1,2,3,4) Uno dei possibili risultati dell esperimento potrebbe essere, ad esempio, Valutazione collega Versato prima Latte Tè Totale Latte 3 1 4 Tè 1 3 4 Totale 4 4 8 La probabilità di osservare un risultato come questo, fornita dallo schema di campionamento ipergeometrico è P (3) = ( 4 3 )( 4 1) ( 8 ) = [4!/(3!)(1!)][4!/(1!)(3!)] [8!/(4!)(4!)] 4 = 0, 229 Infatti, P (x) = ( n1+ n 11 )( n2+ ) n ) 21 n +1 ( n++ 3-b

Una sintesi dei possibili esiti è n 11 Probabilità p valore 0 0,014 1,000 1 0,229 0,986 2 0,514 0,757 3 0,229 0,243 4 0,014 0,014 I p valori sono riferiti alla probabilità sottesa la coda destra per un ipotesi unilaterale L ipotesi alternativa H 1 prevede che, al contrario di quanto espresso nella ipotesi nulla, esista un associazione fra quanto indovina la collega di Fisher e l effettivo ordine con cui latte e tè vengono mischiati fra loro Immaginiamo che la collega di Fisher indovini, correttamente, che il tè è stato messo dopo il latte per 3 volte; la probabilità che per effetto del caso si possa osservare un n 11 uguale o più grande di 3 è P = P (3) + P (4) = 0, 243 3-c

Come è ovvio, un tale valore, non fornisce molte prove contro l ipotesi nulla di indipendenza, L esperimento non ci permette, quindi, di stabilire un associazione fra l effettivo ordine di miscelazione e quanto indovinato dalla collega di Fisher Ovviamente è difficile mostrare l associazione con così poche osservazioni, se l assaggiatrice avesse indovinato tutte le 4 tazze con il tè versato dopo il latte (n 11 = 4), allora sì, vi sarebbero state forti prove a favore della sua affermazione di essere capace di stabilire l ordine di miscelazione delle bevande: si sarebbe, infatti, ottenuto il valore più estremo possibile nella coda destra della distribuzione ipergeometrica P (4) = 0, 014 3-d

Differenza fra proporzioni Quando vengono analizzate delle tabelle di contingenza, vengono, di solito, poste le seguenti tre domande: Quanto è verosimile che il livello di associazione osservato in un campione si sarebbe comunque avuto anche se le variabili fossero state realmente indipendenti nella popolazione? Il test Chi-quadrato mira a fornire una risposta a questo quesito. Quanto si allontanano dall indipendenza i dati? Quando due variabili appaiono essere associate, i residui aggiustati evidenziano le celle in cui i conteggi sono significativamente diversi da ciò che l ipotesi di indipendenza prevede. Quanto è forte l associazione? Per rispondere usiamo una statistica come la differenza fra proporzioni, ottenendo così un intervallo di confidenza per stimare quanto forte può essere l associazione a livello di popolazione. L analisi della forza dell associazione ci rivela se l associazione riscontrata è meritevole di attenzione o se essa è, sì, statisticamente significativa ma debole e non importante in termini pratici. Discutiamo qui di come dare risposte al terzo quesito 4

Si osservino le due tabelle sotto riportate che descrivono l associazione fra l opinione sulla legalizzazione dell aborto e razza di un campione di 1000 individui Nessuna associazione: Opinione Razza Favorevole Contraria Totale Bianca 360 240 600 Nera 240 160 400 Totale 600 400 1000 Massima associazione: Opinione Razza Favorevole Contraria Totale Bianca 600 0 600 Nera 0 400 400 Totale 600 400 1000 4-a

La prima tabella mostra indipendenza statistica e rappresenta il livello più basso di associazione che possa registrarsi per le due variabili. Infatti, il 60% è a favore ed il 40% contrario all aborto sia nel gruppo dei bianchi e sia in quello dei neri Di contro, la seconda tabella mostra che tutti i bianchi sono a favore dell aborto mentre tutti i neri sono contrari. In questo caso vediamo come l opinione (variabile risposta) sia completamente dipendente dalla razza del rispondente È necessario trovare, allora, una misura della forza dell associazione che assuma valori nello spettro teorico dei casi che vanno dalla prima alla seconda tabella Misure di Associazione: Una misura di associazione è una statistica che riassume la forza della dipendenza statistica fra due variabili. 4-b

In casi come quelli riportati poco sopra una misura di associazione immediata è la differenza fra le proporzioni nei due gruppi per una data categoria della variabile risposta Possiamo misurare la differenza fra le proporzioni di bianchi e neri che sono a favore della aborto legalizzato. Nel caso della prima tabella abbiamo: 360 600 240 = 0, 6 0, 6 = 0 400 La differenza fra le proporzioni nella popolazione è 0 qualora le distribuzioni condizionate siano identiche e, cioè, quando le due variabili sono indipendenti. La differenza è 1 o -1 per le associazioni massime. Ad esempio, per la seconda tabella è: 600 600 0 400 = 1, 0 che è il massimo valore possibile per la differenza Per la stima della differenza fra proporzioni: Intervallo di Confidenza per Grandi Campioni per π 2 π 1 : Un intervallo di confidenza per π 2 π 1 è (ˆπ 2 ˆπ 1 ) ± zˆσˆπ2 ˆπ 1 (ˆπ 2 ˆπ 1 ) ± z che è pari a ˆπ 1 (1 ˆπ 1 ) n 1 + ˆπ 2(1 ˆπ 2 ) n 2 L intervallo è valido, di solito, quando sia n 1 ed n 2 hanno, almeno, 20 osservazioni. 4-c

La differenza fra proporzioni varia, come detto, fra -1 e 1: più forte è l associazione, più grande è la differenza in valore assoluto Vediamo come aumenta la differenza tra proporzioni mano a mano che aumenta il grado di associazione fra variabili: 25 25 30 20 35 15 Cont. di cella: 25 25 20 30 15 35 Diff. fra prop. 0,0 0,2 0,4 40 10 45 5 50 0 Cont. di cella: 10 40 5 45 0 50 Diff. fra prop. 0,6 0,8 1,0 Nella seconda tabella, ad esempio, la proporzione delle osservazioni che ricadono nella prima colonna è pari a 30/(30 + 20) = 0, 6 nella riga 1 e a 20/(20 + 30) = 0, 4 nella riga 2, la differenza è, quindi, 0, 6 0, 4 = 0, 2 4-d