Statistica inferenziale per variabili quantitative
|
|
|
- Valentino Basso
- 7 anni fa
- Просмотров:
Транскрипт
1 Lezione 7: - Z - test e intervalli di Confidenza - t-test per campioni indipendenti e dipendenti Cattedra di Biostatistica Dipartimento di Scienze scperimentali e cliniche, Università degli Studi G. d Annunzio di Chieti Pescara Prof. Enzo Ballone Statistica inferenziale per variabili quantitative Statistica inferenziale per variabili quantitative Glicemia 1
2 Un problema pratico Quesito: qual è la glicemia media della popolazione degli studenti iscritti al primo anno del corso di laurea in medicina? Procedura 1. dall'elenco dei 200 studenti estraggo un campione casualmente costituito da 10 unità; 2. calcolo la media aritmetica e la deviazione standard. 3. determino i livelli di glicemia in ciascun soggetto che costituisce il campioni Un problema pratico Un problema pratico x Posso affermare che = = µ? NO! perché l'estrazione del campione comporta necessariamente una perdita di informazione che si traduce nell'introduzione di un errore casuale Se il problema si esaurisse con questa affermazione tutte le osservazioni effettuate su base campionaria non servirebbero a nulla in quanto l'interesse è sempre rivolto alla popolazione! 2
3 Un breve salto nella teoria Popolazione costituita da N elementi Il carattere in esame ha media aritmetica=µ deviazione standard= σ Un breve salto nella teoria 1. si estraggano da tale popolazione infiniti campioni di numerosità n e per ognuno di essi si calcoli la media aritmetica = (= x i ) Un breve salto nella teoria 2. il risultato è un insieme infinito di medie aritmetiche = (= X i ) riferite a campioni di numerosità n; 3
4 Un breve salto nella teoria 3. se ciascuna = X i viene considerata come un'osservazione individuale è possibile costruire una distribuzione di frequenza definita: DISTRIBUZIONE DI CAMPIONAMENTO DELLE MEDIE DEI CAMPIONI DI NUMEROSITA' n. Un breve salto nella teoria 4. La distribuzione di campionamento ha le seguenti proprietà: A) la media aritmetica è uguale alla media aritmetica della popolazione B) la deviazione standard è uguale a: questo parametro viene definito errore standard (E.S.) ed è una misura della precisione della stima campionaria della media aritmetica della popolazione (misura dell'errore campionario delle medie aritmetiche). C) la forma è approssimativamente normale, a condizione che: il carattere sia distribuito normalmente nella po-polazione o; n sia sufficientemente grande (>30); Un breve salto nella teoria 4
5 Un breve salto nella teoria L'errore di campionamento è tanto più evidente quanto più piccolo è il campione: Un breve salto nella teoria Un breve salto nella teoria 5
6 Un breve salto nella teoria L'errore di campionamento è tanto più evidente quanto più è disperso è il fenomeno in esame: distribuzione della variabile x in due popolazioni con µ uguali e σ diverse Un breve salto nella teoria distribuzione di campionamento delle x ia e x ib Distribuzione di campionamento delle x ib Un breve salto nella teoria 5. il fatto che le = x i si distribuiscano secondo la legge normale consente di calcolare la proba-bilità che = x sia più o meno diversa da µ. 6
7 Un breve salto nella teoria 6. per calcolare questa probabilità si trasforma la distribuzione di campionamento nella distribuzione normale standardizzata: Un breve salto nella teoria Un breve salto nella teoria ad ogni valore di z corrisponde un preciso valore dell'area a destra del valore stesso ad esempio per Z= 1,96 7
8 8
9 Segue esempio: Segue esempio: Segue esempio: la media aritmetica della popolazione è compresa in questo intervallo con una probabilità del 95%. In generale: intervallo di confidenza al livello di probabilità (1- a ) : 9
10 Segue esempio: ovvero u è compreso nell'intervallo indicato con una probabilità (1-a); a è l'area delle code della gaussiana ed è definita dal valore di z. Questa tabella riporta le aree tratteggiate Problema: se è sconosciuta (come spesso accade) il discorso procede come prima con due differenze: si utilizza S a1 posto di σ (σ --S ) : si utilizza la-"distribuzione t anzichè quella -- normale ( Z -- t ); l'intervallo di confidenza al livello di probabilità (1-a)`diventa: 10
11 Tabella Percentili della distribuzione t (questa tabella dà i valori di t che,, per diversi g.1., staccano una specificata proporzione in una o nelle due code della distribuzione t) Esempio: Nell'esempio delle glicemie per una probabilità del 95%, con (10-1)= 9 gradi di libertà; t = 2,262 la glicemia media (= µ) della popolazione degli studenti iscritti al primo anno di medicina) è compresa tra: 85,47 ± con una probabilità del 95% Riepilogo RIEPILOGO SUGLI INTERVALLI DI CONFIDENZADELLA MEDIA ARITMETICA CAMPIONARIA se σ è conosciuta: se σ è sconosciuta: 11
12 Un secondo problema La letteratura riporta che i pazienti affetti da cancro hanno una sopravvivenza media di 38,3 mesi e deviazione standard di 43,3 mesi: P: µ = 38,3 mesi σ = 43,3 mesi (la distribuzione dei tempi di sopravvivenza non è sicuramente gaussiana) Si saggia la capacità di un nuovo farmaco di allungare la sopravvivenza somministrandolo a 100 pazienti ottenendo una sopravvivenza media di 46,9 mesi: (La dimensione campionaria è sufficiente a garantire la normalità della distribuzione di campionamento) Un secondo problema Formalizzo il problema avanzando due ipotesi: Un secondo problema 12
13 Conclusione I test statistici saggiano la veridicità dell ipotesi nulla. Si torni alla teoria dei campioni: 1. dalla popolazione con media u e deviazione standard σ: Si estraggono infiniti campioni di numerosità n 13
14 2. se ciascuna x =i viene considerata come un'osservazione individuale è possibile costruire una distri-buzione di campionamento (distribuzione di campionamento delle medie dei campioni di numerosità n): 3. standardizzando: Si torni al problema: 14
15 si accetta l'ipotesi nulla (p>0.05) è la probabilità associata alla veridicità dell'ipotesi nulla il farmaco non può essere considerato efficace Un terzo problema: si considerino 2 campioni costituiti da soggetti caratterizzati da diverse abitudini alimentari si analizzano i livelli di glicemia di ciascun soggetto appartenente ai 2 campioni e si calcolano le medie aritmetiche e le deviazioni standard: l'alimentazione condiziona i livelli glicemici? le glicemie medie nei 2 campioni differiscono per le diverse abitudini alimentari o per effetto dello errore di campionamento? Un terzo problema: È possibile avanzare due ipotesi: 15
16 Si torni alla teoria dei campioni formalizzandola in modo diverso rispetto agli esempi precedenti: 1. si estraggono dalla popolazione infinite coppie di campioni di numerosità fissa n1 e n2) e per ogni coppia si calcoli la differenza tra le medie aritmetiche ( x =1 - x =2); 2. il risultato è un insieme infinito di differenze di medie ( x =1 - x=2) riferite a coppie di numerosità n1 e n2,: 3. se ciascuna differenza viene considerata come un'osservazione individuale è possibile costruire una distribuzione di frequenza definita: DISTRIBUZIONE DI CAMPIONAMENTO DELLE DIFFERENZE DELLE MEDIE CAMPIONARIE DI NUMEROSITA n 1 e n 2 4. se (n1 e n2 )>30 questa distribuzione sarà del tipo: 16
17 5. se σ 1 e σ2 sono sconosciute, si fa riferimento alla distribuzione t: l'errore standard diventa: è necessario tenere conto dei gradi di libertà: g.l.=(n 1-1)+(n 2-1) 6. pertanto: 7. dalla tavola della distribuzione t, in corrispondenza di un'area (delle due code)=0.05 e dei gradi di libertà (=n1+n2-2) trovo il valore teorico di t. Ad esempio per 50 gradi di libertà: 17
18 8. mediante la formula: si calcola il valore reale di t 9. si configurano due possibilità: 10. in generale (e ad esempio per 50 gradi di libertà): 18
19 se: t < si accetta l'ipotesi nulla (p>0.05) (le due medie non differiscono significativamente) se t > si respinge l'ipotesi nulla (p<0.05) (le due medie differiscono significativamente) se t > <t< si respinge l'ipotesi nulla (0.02 < p < 0.05) <t< si respinge l'ipotesi nulla (0.01 < p < 0.02) t > si respinge l'ipotesi nulla (p < 0.01) Si torni al problema: Dalla tavola di distribuzione t per ( )=90 gradi di libertà t >
20 quindi si respinge l'ipotesi nulla e si accetta quella alternativa (p<0.01) le due medie differiscono significativamente (ovvero è improbabile - probabilità inferiore all' 1% - che le due medie differiscano per il solo errore di campionamento) Nella formalizzazione delle due ipotesi (H o e H 1 ) ci si era chiesto: H o = le due medie campionarie differiscono per l'errore di campionamento o H 1 = le due medie campionarie sono riferite a due popolazioni con medie diverse? in questo caso si fa riferimento alle due code della distribuzione di campionamento: 20
21 tornando al problema, se l'ipotesi alternativa (H fosse: x=2 > x=1 in quanto µ2 > µ1 ricordando che t = dalla tavola di distribuzione t per ( =)90 gradi di libertà: quindi si respinge l'ipotesi nulla e si accetta quella alternativa (p<0.005) UN QUARTO PROBLEMA si consideri un campione di 10 pazienti ipertesi cui viene somministrato un farmaco antiipertensivo; a questi pazienti viene misurata la pressione sistolica prima della somministrazione del farmaco e alcune ore dopo la somministrazione stessa: 21
22 La pressione arteriosa è diminuita per l'errore di campionamento (H o ) o per effetto del farmaco (H 1 )? In questo caso i 2 campioni (PAS prima e PAS dopo la somministrazione) sono appaiati (ovvero ciascuna osservazione di un campione si accoppia con una osservazione dell'altro campione). Per saggiare l'ipotesi nulla si utilizza sempre il test del t di Student per campioni appaiati. 22
23 23
24 DUE ERRORI NEL SAGGIARE L'IPOTESI NULLA rifiuto l'ipotesi nulla l'ipotesi nulla è vera (p<0.05) accetto di commettere un errore (di I tipo=a) inferiore al 5% di rifiutare l'ipotesi nulla benchè nella realtà sia vera. 24
25 DUE ERRORI NEL SAGGIARE L'IPOTESI NULLA II: errore di II tipo (β) l'errore di II tipo (β) è la probabilità associata al rischio di accettare l'ipotesi nulla benché nella realtà non sia vera. Si definisce potenza di un test il complementare all'unità dell'errore di II tipo (1-B), La potenza è la capacità di un test di respingere Ho quando questa è falsa. 25
Lezione VII: t-test. Prof. Enzo Ballone
Lezione VII: t-test Cattedra di Biostatistica Dipartimento di Scienze Biomediche, Università degli Studi G. d Annunzio di Chieti Pescara Prof. Enzo Ballone Un terzo problema: si considerino 2 campioni
Statistica Inferenziale
Statistica Inferenziale a) L Intervallo di Confidenza b) La distribuzione t di Student c) La differenza delle medie d) L intervallo di confidenza della differenza Prof Paolo Chiodini Dalla Popolazione
Test d ipotesi: confronto fra medie
Test d ipotesi: confronto fra medie Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona CONFRONTO FRA MEDIE 1) confronto fra una media campionaria e una media di popolazione
STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE
1 STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE La presentazione dei dati per molte ricerche mediche fa comunemente riferimento a frequenze, assolute o percentuali. Osservazioni cliniche conducono
STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE
STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE La presentazione dei dati per molte ricerche mediche fa comunemente riferimento a frequenze, assolute o percentuali. Osservazioni cliniche conducono sovente
LEZIONI DI STATISTICA MEDICA
LEZIONI DI STATISTICA MEDICA Lezione n.12 - Test statistico Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona IPOTESI SCIENTIFICA Affermazione che si può sottoporre a verifica
Confronto tra due popolazioni Lezione 6
Last updated May 9, 06 Confronto tra due popolazioni Lezione 6 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura I anno, II semestre Concetti visti nell ultima lezione Le media
Verifica delle ipotesi
Statistica inferenziale Stima dei parametri Verifica delle ipotesi Concetti fondamentali POPOLAZIONE o UNIVERSO Insieme degli elementi cui si rivolge il ricercatore per la sua indagine CAMPIONE Un sottoinsieme
LEZIONI DI STATISTICA MEDICA
LEZIONI DI STATISTICA MEDICA Lezione n.11 - Principi dell inferenza statistica - Campionamento - Distribuzione campionaria di una media e di una proporzione - Intervallo di confidenza di una media e di
DISTRIBUZIONI DI CAMPIONAMENTO
DISTRIBUZIONI DI CAMPIONAMENTO 12 DISTRIBUZIONE DI CAMPIONAMENTO DELLA MEDIA Situazione reale Della popolazione di tutti i laureati in odontoiatria negli ultimi 10 anni, in tutte le Università d Italia,
Questo calcolo richiede che si conoscano media e deviazione standard della popolazione.
Università del Piemonte Orientale Corso di laurea in biotecnologie Corso di Statistica Medica La distribuzione t - student 1 Abbiamo visto nelle lezioni precedenti come il calcolo del valore Z, riferito
Teoria della stima dei parametri:
INFERENZA STATISTICA Teoria della verifica dell ipotesi : si verifica, in termini probabilistici, se una certa affermazione relativa alla popolazione è da ritenersi vera sulla base dei dati campionari
Università degli Studi di Padova. Corso di Laurea in Medicina e Chirurgia - A.A
Università degli Studi di Padova Corso di Laurea in Medicina e Chirurgia - A.A. 015-16 Corso Integrato: Statistica e Metodologia Epidemiologica Disciplina: Statistica e Metodologia Epidemiologica Docenti:
Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 23 Outline 1 2 3 4 5 6 () Statistica 2 / 23 La verifica delle ipotesi Definizione Un ipotesi statistica
Il Test di Ipotesi Lezione 5
Last updated May 23, 2016 Il Test di Ipotesi Lezione 5 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura I anno, II semestre Il test di ipotesi Cuore della statistica inferenziale!
Intervallo di confidenza
Intervallo di confidenza Prof. Giuseppe Verlato, Prof. Roberto de Marco Sezione di Epidemiologia e Statistica Medica, Università di Verona campione inferenza popolazione Media Riportare sempre anche Stima
Esercizi di statistica
Esercizi di statistica Test a scelta multipla (la risposta corretta è la prima) [1] Il seguente campione è stato estratto da una popolazione distribuita normalmente: -.4, 5.5,, -.5, 1.1, 7.4, -1.8, -..
Tipi di variabili. Indici di tendenza centrale e di dispersione
Tipi di variabili. Indici di tendenza centrale e di dispersione L. Boni Variabile casuale In teoria della probabilità, una variabile casuale (o variabile aleatoria o variabile stocastica o random variable)
Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.
5 STIMA PUNTUALE DEI PARAMETRI [Adattato dal libro Excel per la statistica di Enzo Belluco] Sia θ un parametro incognito della distribuzione di un carattere in una determinata popolazione. Il problema
Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II
Fondamenti di statistica per il miglioramento genetico delle piante Antonio Di Matteo Università Federico II Modulo 2 Variabili continue e Metodi parametrici Distribuzione Un insieme di misure è detto
Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica
Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 8 Intervalli di confidenza Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università
Contenuti: Capitolo 14 del libro di testo
Test d Ipotesi / TIPICI PROBLEMI DI VERIFICA DI IPOTESI SONO Test per la media Test per una proporzione Test per la varianza Test per due campioni indipendenti Test di indipendenza Contenuti Capitolo 4
Esercitazione 8 del corso di Statistica 2
Esercitazione 8 del corso di Statistica Prof. Domenico Vistocco Dott.ssa Paola Costantini 6 Giugno 8 Decisione vera falsa è respinta Errore di I tipo Decisione corretta non è respinta Probabilità α Decisione
05. Errore campionario e numerosità campionaria
Statistica per le ricerche di mercato A.A. 01/13 05. Errore campionario e numerosità campionaria Gli schemi di campionamento condividono lo stesso principio di fondo: rappresentare il più fedelmente possibile,
Statistica 1- parte II
Statistica 1- parte II Esercitazione 3 Dott.ssa Antonella Costanzo 25/02/2016 Esercizio 1. Verifica di ipotesi sulla media (varianza nota) Il preside della scuola elementare XYZ sospetta che i suoi studenti
Lezione VI: Distribuzione normale. La distribuzione normale (curva di Gauss). Prof. Enzo Ballone. Lezione 6a- Ia distribuzione normale
Lezione VI: Distribuzione normale Cattedra di Biostatistica Dipartimento di Scienze Biomediche, Università degli Studi G. d Annunzio di Chieti Pescara Prof. Enzo Ballone Lezione 6a- Ia distribuzione normale
C.I. di Metodologia clinica
C.I. di Metodologia clinica Modulo 5. I metodi per la sintesi e la comunicazione delle informazioni sulla salute Quali errori influenzano le stime? L errore casuale I metodi per la produzione delle informazioni
STATISTICA A K (60 ore)
STATISTICA A K (60 ore) Marco Riani [email protected] http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta
TRACCIA DI STUDIO. Test di confronto per misure qualitative. Verifica di ipotesi
TRACCIA DI STUDIO Verifica di ipotesi Nelle analisi statistiche di dati sperimentali riguardanti più gruppi di studio (talvolta più variabili) si pone come ipotesi da verificare la cosiddetta ipotesi zero:
07/01/2016. Scalisi - Tecniche Psicometriche LA VERIFICA DELLE IPOTESI. La verifica delle ipotesi. Popolazioni e campioni
LA VERIFICA DELLE IPOTESI Popolazioni, campioni, parametri ed indicatori 1 2 3 Popolazioni e campioni Viene definita popolazione o universo l insieme completo di tutti gli elementi che hanno in comune
Quanti soggetti devono essere selezionati?
Quanti soggetti devono essere selezionati? Determinare una appropriata numerosità campionaria già in fase di disegno dello studio molto importante è molto Studi basati su campioni troppo piccoli non hanno
ESAME. 9 Gennaio 2017 COMPITO B
ESAME 9 Gennaio 2017 COMPITO B Cognome Nome Numero di matricola 1) Approssimare tutti i calcoli alla quarta cifra decimale. 2) Ai fini della valutazione si terrà conto solo ed esclusivamente di quanto
LA DISTRIBUZIONE NORMALE. La distribuzione Gaussiana. Dott.ssa Marta Di Nicola
LA DISTRIBUZIONE NORMALE http://www.biostatistica.unich.itit «È lo stesso delle cose molto piccole e molto grandi. Credi forse che sia tanto facile trovare un uomo o un cane o un altro essere qualunque
Proprietà della varianza
Proprietà della varianza Proprietà della varianza Proprietà della varianza Proprietà della varianza Intermezzo: ma perché dovremmo darci la pena di studiare come calcolare la varianza nel caso di somme,
Cognome e nome. 2 In uno studio viene misurata la pressione arteriosa sistolica a 5 maschi adulti, con i seguenti risultati : 129; 134; 142; 128; 146
Statistica medica. Biotecnologie mediche A.a. 2004-2005 1 Febbraio 2005 Tempo previsto 60 minuti Cognome e nome 1 Indicate a quale categoria appartengono le seguenti variabili: Nominale Ordinale Numerica
Esercizi riassuntivi di Inferenza
Esercizi riassuntivi di Inferenza Esercizio 1 Un economista vuole stimare il reddito medio degli abitanti di una cittadina mediante un intervallo al livello di confidenza del 95%. La distribuzione del
Fondamenti di Psicometria. La statistica è facile!!! VERIFICA DELLE IPOTESI
Fondamenti di Psicometria La statistica è facile!!! VERIFICA DELLE IPOTESI INFERENZA STATISTICA Teoria della verifica dell ipotesi : si verifica, in termini probabilistici, se una certa affermazione relativa
x ;x Soluzione Gli intervalli di confidenza possono essere ottenuti a partire dalla seguente identità: da cui si ricava: IC x ;x = +
ESERCIZIO 6.1 Si considerino i 0 campioni di ampiezza n = estratti da una popolazione X di N = 5 elementi distribuiti normalmente, con media µ = 13,6 e σ = 8,33. A partire dalle 0 determinazioni della
