Il test (o i test) del Chi-quadrato ( 2 )
|
|
|
- Giorgia Brescia
- 9 anni fa
- Visualizzazioni
Transcript
1 Il test (o i test) del Chi-quadrato ( ) I dati: numerosità di osservazioni che cadono all interno di determinate categorie Prima di tutto, è un test per confrontare proporzioni Esempio: confronto tra numero semi lisci e rugosi osservati in nella discendenza di una pianta eterozigote autofecondata DATI: 59 semi lisci e 14 semi rugosi o p = 59/73 = Ci si chiede di verificare l ipotesi nulla che la proporzione di semi lisci, 0, sia 0.75 Ci ricorda qualcosa?
2 Sappiamo già affrontare questo problema con un semplice test z! H 0 : = 0 H 1 : 0 z calc p n Però questa analisi si può affrontare anche con il test del chi-quadrato, calcolando sulle numerosità (non sulle proporzioni) la statistica Osservati sono le numerosità osservate ( Osservati Attesi ) Attesi ( O A A ) calc Attesi sono le numerosità attese se fosse vera l ipotesi nulla La sommatoria è per tutte le categorie ( in questo caso, semi lisci e semi rugosi) Come per il test z, questo test è valido se le numerosità attese nelle categorie sono maggiori o uguali a 5
3 Nell esempio o Valori attesi di semi lisci, su un totale di 73 semi, è pari a 0.75*73 = o Valori attesi di semi rugosi, su un totale di 73 semi, è pari a 0.5*73 = 18.5 o I valori attesi possono avere numeri decimali: sono medie di tante repliche ipotetiche di un esperimento sotto H 0 o Il totale dei valori attesi deve essere pari al numero totale di osservazioni! Per le verifica della significatività, ci servono i valori critici di una distribuzione teorica nuova, quella del. Infatti si può dimostrare che se è vera l ipotesi nulla (= 0 ), allora la distribuzione della statistica ( calc) segue una distribuzione teorica nota, quella del appunto, con un numero di gradi di libertà pari al numero di categorie indipendenti gdl: numero di pezzettini di informazione indipendente oppure numero di pezzettini di informazione meno il numero di parametri stimati dai dati per calcolare gli attesi In questo caso, c'è soltanto 1 gdl, e lo posso dimostrare in due modi: o esiste solo una classe indipendente (la numerosità nell'altra la posso calcolare per differenza dal totale) o se alle due classi di partenza tolgo una singola quantità che proviene dai dati e che mi serve per calcolare i valori attesi (il totale di osservazioni) ottengo 1.
4 La distribuzione del Tante curve a seconda dei gradi di libertà Il valore medio è uguale a il numero di gradi di libertà Il è sempre positivo (si calcola con un quadrato al numeratore) Varia tra 0 e +infinito
5 Estratto da tabella del Chi-quadrato I valori interni alla tabella corrispondono ai valori critici riferiti alla coda di destra, ovvero ai valori alla cui destra cade la frazione della curva riportata nella prima riga. Per esempio, con gradi di libertà, il 5% della distribuzione ha valori superiori a Si tratta quindi di una tabella delle aree a una coda. df
6 Riprendiamo l esempio dei semi lisci e rugosi calc A parità di gdl, valori grandi del entrambe le direzioni calc sono indice di allontanamento dall ipotesi nulla, in Tutte e due le deviazioni dall ipotesi nulla ( > 0 e < 0 ) determineranno una deviazione verso valori grandi,ossia verso la coda destra della distribuzione attesa quando è vera l'ipotesi nulla. Le ipotesi sono definite in maniera bidirezionale, ma se utilizziamo la statistica del dobbiamo usarla ad una coda!
7 Quindi il valore di Chi quadrato calcolato calc non è significativo per α = 0.05, visto che è inferiore al valore critico di La conclusione è ovviamente identica a quella ottenuta con il test z Ma quindi a cosa serve questo test se avevamo già z?
8 La generalizzazione del test del Chi-quadrato come test goodness of fit Il test che abbiamo visto per i piselli di Mendel si può considerare il caso più semplice di una categoria di test definiti test di bontà dell adattamento di una distribuzione empirica ad una distribuzione teorica, o più semplicemente goodness of fit tests Le proporzioni osservate si confrontano con quelle previste da un modello teorico Il modello teorico è da considerarsi l ipotesi nulla Nel caso dei piselli lisci e rugosi, esistevano solo due categorie e solo una proporzione prevista (l altra era determinata automaticamente). Questa situazione si può però estendere ad un numero maggiore di categorie. Per esempio, nella verifica della trasmissione di due geni indipendenti durante la trasmissione mendeliana in un incrocio di un doppio eterozigote Assunzione del test (generalizzazione quando ci sono più di categorie) Non più del 0% delle classi deve avere una numerosità attesa <5 (e nessuna classe deve avere numerosità attesa <1) Se cio non si verifica, una soluzione è quella di raggruppare alcune classi
9 Esempio La proporzione di semi che possiedono le caratteristiche CS, Cs, cs e cs dopo l'autofecondazione di piante eterozigoti a due geni è prevista, nel caso di geni indipendenti, nel rapporto 9:3:3:1. Verificare questa distribuzione teorica attesa su un campione di 1000 semi che hanno dato la seguente distribuzione osservata CS Cs cs cs Calcolo le numerosità ( = frequenze assolute) attese CS Cs cs cs 56,5 187,5 187,5 6,5 Calcolo il valore dei 4 elementi che devono essere sommati per ottenere il calc La somma porta a calc 44,1 144,3 149,6 487,
10 Il calore critico della distribuzione teorica del chi-quadrato con 3 gradi di libertà è 7.81 (con = 0.05) Quindi, la deviazione è altamente significativa ed è possibile respingere l'ipotesi nulla di adeguamento alla distribuzione teorica prevista (le proporzioni osservate si discostano significativamente da quelle attese Probabilmente i due geni sono localizzati in posizioni vicine sullo stesso cromosoma
11 Un esempio Verificare con il test appropriato se la distribuzione osservata si adatta a quella attesa.
12 Altri esempi Dispersione di semi con legge quadratica inversa Efficacia trappole per la cattura di uccelli Verifica se i dati osservati in un campione seguono una distribuzione teorica normale Vediamo quest ultimo esempio
13 La distribuzione di frequenza del peso in chilogrammi di frutta prodotta da 81 piante è riportato nella seguente tabella: Intervalli n i Vogliamo testare l'ipotesi nulla che questi dati siano estratti da una popolazione in cui la variabile "peso di frutta prodotta da un albero" ha una distribuzione gaussiana. Si deve cioè verificare se i dati osservati sono compatibili con un modello distributivo normale. L'ipotesi nulla è che lo siano, l'ipotesi alternativa è che non lo siano. Come sempre, se l'ipotesi nulla non verrà rifiutata, non potremmo dire con certezza che i dati provengono da una popolazione con distribuzione gaussiana della variabile, ma solo sono compatibili con questa ipotesi.
14 Per testare questa ipotesi, dobbiamo utilizzare (dopo aver calcolato media e varianza dei dati osservati) la distribuzione normale per calcolare le numerosità attese in ciascuna classe. Poi il test del chi-quadrato verrà utilizzato per confrontare le numerosità osservate con quelle attese Le numerosità attese vengono calcolate sulla base della distribuzione teorica gaussiana che ha la stessa media e la stessa deviazione standard calcolati a partire dai dati osservati Per il calcolo delle numerosità attese, avrò ovviamente bisogno della normale standardizzata, e quindi dovrò standardizzare i limiti delle classi Attenzione alle classi estreme e alla determinazione dei gradi di libertà da utilizzare per definire la distribuzione nulla appropriata Nel caso riportato, possiamo calcolare che media = 5.5 varianza = 5.6 dev. St. =.9
15 A questo punto procedo con la standardizzazione dei limiti superori, il calcolo delle aree a sinistra di questi limiti, il calcolo delle aree relative a ciascun intervallo, e quindi al calcolo delle numerosità attese Limite superiore Limite superiore stadardizz. Area a sinistra del limite sup. Area corrispondente all'intervallo Numerosità attese Totali
16 Ora calcolo la statistica test del chi-quadrato OSSERVATI ATTESI (O-A)^/A calc.4 critico, 7gdl, CONCLUSIONE: Non ci sono forti evidenze per rifiutare il modello teorico gaussiano. La distribuzione di frequenza empirica (dei dati osservati) è compatibile con una distribuzione teorica gaussiana
IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI
IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI Perchè confrontare le varianze stimate in due campioni? Torniamo all'esempio dei frinosomi Per poter applicare il test t avevamo detto che le varianze, e
Capitolo 11 Test chi-quadro
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 11 Test chi-quadro Insegnamento: Statistica Corsi di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara Docenti: Dott.
NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI
NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI I METODI PER IL CONFRONTO DI MEDIE (Campioni non indipendenti) Prof.ssa G. Serio, Prof. P. Trerotoli, Cattedra di Statistica Medica, Università di Bari
STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria Civile A.A. 2009-10 Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain 1 STATISTICHE, DISTRIBUZIONI CAMPIONARIE
Note sulla probabilità
Note sulla probabilità Maurizio Loreti Dipartimento di Fisica Università degli Studi di Padova Anno Accademico 2002 03 1 La distribuzione del χ 2 0.6 0.5 N=1 N=2 N=3 N=5 N=10 0.4 0.3 0.2 0.1 0 0 5 10 15
Metodi statistici per le ricerche di mercato
Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2013-2014 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per
Ulteriori applicazioni del test del Chi-quadrato (χ 2 )
Ulteriori applicazioni del test del Chi-quadrato (χ 2 ) Finora abbiamo confrontato con il χ 2 le numerosità osservate in diverse categorie in un campione con le numerosità previste da un certo modello
Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni
La statistica inferenziale Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni E necessario però anche aggiungere con
Test delle ipotesi. Le differenze che vengono riscontrate possono essere ovviamente ricondotte a due possibilità:
Test delle ipotesi Test delle ipotesi Nel cercare di costruire un legame tra dati osservati e ipotesi teoriche sulle caratteristiche dell intera popolazione si deve, in genere, prendere una decisione per
ˆp(1 ˆp) n 1 +n 2 totale di successi considerando i due gruppi come fossero uno solo e si costruisce z come segue ˆp 1 ˆp 2. n 1
. Verifica di ipotesi: parte seconda.. Verifica di ipotesi per due campioni. Quando abbiamo due insiemi di dati possiamo chiederci, a seconda della loro natura, se i campioni sono simili oppure no. Ci
N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.
N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle abelle riportate alla fine del documento. Esercizio 1 La concentrazione media di sostanze inquinanti osservata nelle acque di un fiume
Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016
Esercitazione 12 maggio 2016 ESERCIZIO 1 Si supponga che in un sondaggio di opinione su un campione di clienti, che utilizzano una carta di credito di tipo standard (Std) o di tipo business (Bsn), si siano
N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.
N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento. Esercizio 1 Un chimico che lavora per una fabbrica di batterie, sta cercando una batteria
Confronto tra due popolazioni Lezione 6
Last updated May 9, 06 Confronto tra due popolazioni Lezione 6 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura I anno, II semestre Concetti visti nell ultima lezione Le media
5. Test per proporzioni: confronto tra campioni e associazione
BIOSTATISTICA 5. Test per proporzioni: confronto tra campioni e associazione Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health [email protected] MARTA BLANGIARDO
L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale
L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile Corso di Metodologia della ricerca sociale L analisi della varianza (ANOVA) La tecnica con cui si esplorano le relazioni
Esercizi di statistica
Esercizi di statistica Test a scelta multipla (la risposta corretta è la prima) [1] Il seguente campione è stato estratto da una popolazione distribuita normalmente: -.4, 5.5,, -.5, 1.1, 7.4, -1.8, -..
Gli errori nella verifica delle ipotesi
Gli errori nella verifica delle ipotesi Nella statistica inferenziale si cerca di dire qualcosa di valido in generale, per la popolazione o le popolazioni, attraverso l analisi di uno o più campioni E
07/01/2016. Scalisi - Tecniche Psicometriche LA VERIFICA DELLE IPOTESI. La verifica delle ipotesi. Popolazioni e campioni
LA VERIFICA DELLE IPOTESI Popolazioni, campioni, parametri ed indicatori 1 2 3 Popolazioni e campioni Viene definita popolazione o universo l insieme completo di tutti gli elementi che hanno in comune
Test di ipotesi su due campioni
2/0/20 Test di ipotesi su due campioni Confronto tra due popolazioni Popolazioni effettive: unità statistiche realmente esistenti. Esempio: Confronto tra forze lavoro di due regioni. Popolazioni ipotetiche:
Analisi della varianza
Analisi della varianza Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona ANALISI DELLA VARIANZA - 1 Abbiamo k gruppi, con un numero variabile di unità statistiche.
Distribuzioni campionarie. Antonello Maruotti
Distribuzioni campionarie Antonello Maruotti Outline 1 Introduzione 2 Concetti base Si riprendano le considerazioni fatte nella parte di statistica descrittiva. Si vuole studiare una popolazione con riferimento
Verifica delle ipotesi
Statistica inferenziale Stima dei parametri Verifica delle ipotesi Concetti fondamentali POPOLAZIONE o UNIVERSO Insieme degli elementi cui si rivolge il ricercatore per la sua indagine CAMPIONE Un sottoinsieme
STATISTICA DESCRITTIVA. Elementi di statistica medica GLI INDICI INDICI DI DISPERSIONE STATISTICA DESCRITTIVA
STATISTICA DESCRITTIVA Elementi di statistica medica STATISTICA DESCRITTIVA È quella branca della statistica che ha il fine di descrivere un fenomeno. Deve quindi sintetizzare tramite pochi valori(indici
Distribuzione normale
Distribuzione normale istogramma delle frequenze di un insieme di misure relative a una grandezza che varia con continuità popolazione molto numerosa, costituita da una quantità praticamente illimitata
PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE
PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE 1. Distribuzione congiunta Ci sono situazioni in cui un esperimento casuale non si può modellare con una sola variabile casuale,
Elementi di Psicometria con Laboratorio di SPSS 1
Elementi di Psicometria con Laboratorio di SPSS 1 05-Deviazione standard e punteggi z vers. 1.1 (22 ottobre 2014) Germano Rossi 1 [email protected] 1 Dipartimento di Psicologia, Università di Milano-Bicocca
CONFRONTI MULTIPLI TEST HSD DI TUKEY
CONFRONTI MULTIPLI TEST HSD DI TUKEY Nel caso in cui i risultati dell analisi della varianza ad una via sono significativi, ovvero se il R.V. è risultato avere un F maggiore dell F critico, e quindi le
La casualità nello spazio o nel tempo: la distribuzione di Poisson
La casualità nello spazio o nel tempo: la distribuzione di Poisson Cosa potrebbero rappresentare questi punti? o Organismi o eventi presenti in una certa area Per esempio, ci interessa capire come avviene
STIMA DELLA VARIANZA CAMPIONARIA
STIMA DELLA VARIANZA CAMPIONARIA Abbiamo visto che una stima puntuale corretta per il valore atteso µ delle variabili aleatorie X i è x n = (x 1 +.. + x n )/n. Una stima puntuale della varianza σ 2 delle
Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi
Esercitazione 14 Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () 1 / 14 Ex.1: Verifica Ipotesi sulla media (varianza nota) Le funi prodotte da un certo macchinario hanno una
LE DISTRIBUZIONI CAMPIONARIE
LE DISTRIBUZIONI CAMPIONARIE Argomenti Principi e metodi dell inferenza statistica Metodi di campionamento Campioni casuali Le distribuzioni campionarie notevoli: La distribuzione della media campionaria
Distribuzione Normale
Distribuzione Normale istogramma delle frequenze di un insieme di misure di una grandezza che può variare con continuità popolazione molto numerosa, costituita da una quantità praticamente illimitata di
Università del Piemonte Orientale. Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia. Corso di Statistica Medica
Università del Piemonte Orientale Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia Corso di Statistica Medica Le distribuzioni teoriche di probabilità La distribuzione Normale (o di
Esercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
Università degli Studi di Padova. Corso di Laurea in Medicina e Chirurgia - A.A
Università degli Studi di Padova Corso di Laurea in Medicina e Chirurgia - A.A. 015-16 Corso Integrato: Statistica e Metodologia Epidemiologica Disciplina: Statistica e Metodologia Epidemiologica Docenti:
ALCUNI ELEMENTI DI VERIFICA DI IPOTESI STATISTICHE Vittorio Colagrande
ALCUNI ELEMENTI DI VERIFICA DI IPOTESI STATISTICHE Vittorio Colagrande Altro problema dell inferenza è quello della verifica di ipotesi: si ipotizza su una caratteristica di una popolazione oggetto di
STATISTICA ESERCITAZIONE 13
STATISTICA ESERCITAZIONE 13 Dott. Giuseppe Pandolfo 9 Marzo 2015 Errore di I tipo: si commette se l'ipotesi nulla H 0 viene rifiutata quando essa è vera Errore di II tipo: si commette se l'ipotesi nulla
Teoria della stima dei parametri:
INFERENZA STATISTICA Teoria della verifica dell ipotesi : si verifica, in termini probabilistici, se una certa affermazione relativa alla popolazione è da ritenersi vera sulla base dei dati campionari
Proprietà della varianza
Proprietà della varianza Proprietà della varianza Proprietà della varianza Proprietà della varianza Intermezzo: ma perché dovremmo darci la pena di studiare come calcolare la varianza nel caso di somme,
DISTRIBUZIONE NORMALE (1)
DISTRIBUZIONE NORMALE (1) Nella popolazione generale molte variabili presentano una distribuzione a forma di campana, bene caratterizzata da un punto di vista matematico, chiamata distribuzione normale
Nozioni di statistica
Nozioni di statistica Distribuzione di Frequenza Una distribuzione di frequenza è un insieme di dati raccolti in un campione (Es. occorrenze di errori in seconda elementare). Una distribuzione può essere
Il Test di Ipotesi Lezione 5
Last updated May 23, 2016 Il Test di Ipotesi Lezione 5 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura I anno, II semestre Il test di ipotesi Cuore della statistica inferenziale!
PSICOMETRIA. Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI
PSICOMETRIA Corso di laurea triennale (classe 34) VERIFICA DELL IPOTESI CON DUE CAMPIONI CAMPIONI INDIPENDENTI Campioni estratti casualmente dalla popolazione con caratteristiche omogenee Assegnazione
le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:
DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano [email protected] si basano su tre elementi: le scale di misura sistema empirico: un insieme di entità non numeriche (es. insieme di persone; insieme
Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva
Probabilità classica Distribuzioni e leggi di probabilità La probabilità di un evento casuale è il rapporto tra il numero dei casi favorevoli ed il numero dei casi possibili, purchè siano tutti equiprobabili.
Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.
Regressione [] el modello di regressione lineare si assume una relazione di tipo lineare tra il valore medio della variabile dipendente Y e quello della variabile indipendente X per cui Il modello si scrive
