CONFRONTO DIDUE CAMPIONI CASUALI

Documenti analoghi
Statistica di base per l analisi socio-economica

Statistica multivariata Donata Rodi 17/10/2016

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Esercitazione del

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Presentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

Statistica Compito A

Prova scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A)

Test di ipotesi su due campioni

COMPLEMENTI DI PROBABILITA E STATISTICA. 3 Crediti

Ringraziamenti dell Editore

REGRESSIONE E CORRELAZIONE

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Soluzione degli esercizi di riepilogo sul controllo statistico di qualità e sull ANOVA.

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Test per la correlazione lineare

Distribuzioni e inferenza statistica

Analisi della varianza

Ulteriori Conoscenze di Informatica e Statistica

Prova scritta di Complementi di Probabilità e Statistica. 7 Dicembre 2012

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Statistica Applicata all edilizia: il modello di regressione

Corso di Psicometria Progredito

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Applicazioni statistiche e utilizzo del package statistico Spss - 7

Esplorazione dei dati

Teoria e tecniche dei test. Concetti di base

viii Indice generale

Statistica. Alfonso Iodice D Enza

Statistica descrittiva: misure di associazione

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori

Distribuzioni di probabilità

METODO DEI MINIMI QUADRATI

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

CAPITOLO 11 ANALISI DI REGRESSIONE

Statistica. Alfonso Iodice D Enza

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Esercitazione di Statistica Indici di associazione

ESERCITAZIONE IV - Soluzioni

Distribuzioni di Probabilità

Analisi della varianza a una via

ANOVA: ANALISI DELLA VARIANZA Prof. Antonio Lanzotti

STATISTICA (modulo I - Statistica Descrittiva) Soluzione Esercitazione I

Variabili aleatorie continue

Capitolo 6 La distribuzione normale

Prova scritta Affidabilità dei sistemi stocastici e controllo statistico di qualità 28 Marzo 2013

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2013/2014. I Esonero - 29 Ottobre Tot.

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

Casa dello Studente. Casa dello Studente

Variabili casuali multidimensionali

Esercitazioni di Statistica

Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

SCOPO DELL ANALISI DI CORRELAZIONE

Capitolo 6. La distribuzione normale

Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo

Associazione tra caratteri quantitativi: gli indici di correlazione

Matricola: Corso: 1. (4 Punti) Stimare la variazione del reddito quando il prezzo del prodotto finale raddoppia.

RELAZIONE FINALE DEL DOCENTE. Materia: MATEMATICA E COMPLEMENTI DI MATEMATICA Classe 4BPT A. S. 2015/2016

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Studio dell aleatorietà: : proprietà di indipendenza ed uniformità. Daniela Picin

Calcolo delle Probabilità 2

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

Il confronto fra medie

TEST NON PARAMETRICO DI MANN-WHITNEY

Inferenza statistica II parte

Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

Statistiche e relazioni

Premessa: la dipendenza in media

Il campionamento e l inferenza. Il campionamento e l inferenza

Serie storiche Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Caratterizzazione dei consumi energetici (parte 3)

STATISTICA Disciplina scien tifica che fornisce strumenti per l interpretazione delle informazioni contenute in insiemi di dati relativi a

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Analisi della correlazione canonica

Statistica Descrittiva III

Campionamento La statistica media campionaria e la sua distribuzione. Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

CORSO INTENSIVO ESTIVO DI ALBA DI CANAZEI STATISTICA. A. A. 2013/2014 (Prof. Marco Minozzo;

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Il metodo dei minimi quadrati. Molto spesso due grandezze fisiche x e y, misurabili direttamente, sono legate tra loro da una legge del tipo:

STATISTICA DESCRITTIVA (variabili quantitative)

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Test F per la significatività del modello

Scheda Corso di STATISTICA (D.M. 270 per 9 CFU) Anno Accademico 2014/2015 (versione in Italiano)

Prova scritta di Affidabilità dei sistemi e controllo statistico di qualità

Transcript:

CONFRONTO DIDUE CAMPIONI CASUALI ( x, x,, x ) ( y, y,, y ) 1 n 1 n POPOLAZIONE 1 POPOLAZIONE Le due popolazioni hanno lo stesso modello stocastico? Le due popolazioni hanno la stessa media? Le due popolazioni hanno la stessa varianza? Tra le due popolazioni c è una qualche legge di DIPENDENZA l una dall altra oppure sono indipendenti? 1

Esempio: La tabella riporta la lunghezza e la larghezza della conchiglia di brachiopoli Composita. LUNGHEZZA LARGHEZZA 18.4 15.4 16.9 15.1 13.6 10.9 11.4 9.7 7.8 7.4 6.3 5.3 Scatter diagram(o diagramma di dispersione)

CONSIDERAZIONI SULLO SCATTER DIAGRAM Le correlazioni, possibilmente positiva o possibilmente, negativa si hanno quando i punti rappresentativi delle coppie di dati, pur disponendosi attorno ad una delle due diagonali del diagramma, presentano una dispersionepiuttosto accentuata tale da far presumere l esistenza di altre cause che intervengono a determinare l'effetto studiato. http://www.taed.unifi.it/qualita/diagrammi%0di%0correlazione.htm 3

Come si misura il grado di correlazione tra due campioni casuali? Il coefficiente di correlazione è una misura del grado di linearità della distribuzione dei punti nel diagramma x-y. SOMMA CORRETTA DEI PRODOTTI n i= 1 ( )( ) SCP = x x y y i i Dipende da n COVARIANZA SCP Dipende dalle unità di misura COV = n 1 CORRELAZIONE DI PEARSON r xy COV = S S x y Misura adimensionale IN STATVIEW 4

Il coefficiente di correlazione non è una misura generale della relazione tra due variabili, ma esprime solo il grado di linearità della correlazione in un grafico a dispersione. Gli outlierspossono modificare significativamente il valore del coefficiente di correlazione. 5

6

Il coefficiente di correlazione misura solo il grado di relazione lineare 7

Essendo il valore del coefficiente di correlazione piuttosto elevato, ed avendo provato con un test di ipotesi la bontà dell ipotesi di re.- lazione lineare tra i due campioni, determiniamo i coefficienti della retta che descrive tale relazione. Warning: Trasformazioni sui dati possono indurre correlazioni! Coefficiente corr. Spearman R( x i ) n [ R x ] i R yi 6 ( ) ( ) i= 1 r = 1 n( n 1) = posizione nel campione ordinato Si usa quando una delle due popolazioni non è gaussiana Quanto è appropriato scegliere una funzione monotona per descrivere la dipendenza dei dati 8

Due parole sulla popolazione gaussiana bidimensionale e il concetto di indipendenza Coppie di variabili aleatorie Definizione: Si definisce vettore aleatorio la coppia (,) dove,, sono definite sullo stesso spazio campione : S R, : S R (, ) : S R Esempio: peso-altezza di una persona (, ) random vector 9

Variabili discrete { } (, ) ω / ( ω), ( ω) = x = y = S = x = y { ω / ( ω) } ω / ( ω) { } = S = x S = y ( ) ω = y ( ) ω = x { ( ) ( ) } ( ) { } { ( ) } ω S : ω x, ω y = ω S : ω x ω S : ω y (ω) = y ω S { ω : ( ω), ( ω) } P S x y = F, ( x, y) Funzione di ripartizione doppia (ω) = x 10

B f ( x, y) d x dy f ( x, y) x y P ( x) Esempio : La f ( x, y) = πσ for ( x, y) R funzione densità di probabilità di una normale bivariata è : 1 1 exp 1 σ ρ (1 ρ ),( µ, µ ) R Gaussiana (congiunta) bidimensionale, con parametri σ ( x µ ) ρ( x µ )( y µ ) ( y µ ) σ > 0, σ σ σ > 0 e ρ (-1,1). + σ µ = E µ = E [ ] [ ] [ ] [ ] σ = Var σ = Var ρ ( 1,1) 11

σ = 1, σ = 1, µ = 0, µ = 0, ρ = 0 Contour plots σ = 1, σ = 1, µ = 0, µ = 0, ρ = 0.9 σ = 1, σ = 1, µ = 0, µ = 0, ρ = 0 1 (1 ρ ) dove Gaussiana bidimensionale ( x µ ) ρ( x µ )( y µ ) ( y µ ) σ x x =, y σ σ + σ µ σ µ = Σ = µ cov(, ) = cov(,) σ T 1 ( x µ ) Σ ( x µ ) Il coefficiente di correlazione (o la covarianza) è l unico strumento che consente di analizzare le relazioni esistenti tra due variabili aleatorie? Teorema : Due variabili aleatorie congiuntamente gaussiane sono indipendenti se e solo se ρ = 0. IPOTESI FONDAMENTALE IN MOLTI DEI TEST CHE VEDREMO 1

Effettuare previsioni, mediante - INTERPOLAZIONE - ESTRAPOLAZIONE Indica la percentuale di variabilità della che è spiegata dalla Coefficiente di determinazione Come si calcolano i coefficienti? IL METODO DEI MINIMI QUADRATI Minimizzare la distanza tra i punti delle osservazioni e la retta stessa. 13

residui Si cerca il minimo della funzione rispetto a e b L a b y ax b n = i i i= 1 (, ) ( ) Stima della variabilità degli stimatori INTERCETTA E LUNGHEZZA. Sono i valori dei coefficienti sui dati standardizzati. Se la retta di regressione è y= α x+ β H H 0 1 : β = 0 : β 0 H H 0 1 : α = 0 : α 0 14

ANALISI DEI RESIDUI Perché il modello sia valido è necessario che i residui abbiano legge gaussiana: 1) Normplot ) Test di Kolmogorov-Smirnov 1,5 1 0,5 0-1,5-1 -0,5 0 0,5 1 1,5-0,5 Serie1-1 -1,5 - Il quantile di riferimento è 0.5196 TEST DI KOLMOGOROV-SMIRNOV 15

Con Statview Un valore pari a indica che non è presente alcuna autocorrelazione. Valori piccoli di d indi canoche i residui successivi sono, in media, vicini in valore l'uno all'altro, o correlati positivamente. Valori grandi di dindicano che i residui successivi sono, in media, molto diffe rentiin valore l'uno dall'altro, o correlati negativamente. Altri tipi di funzioni 16

esponenziale logaritmica potenza growth Assumiamo che dall esperimento casuale non si evinca se i due campioni casuali siano correlati o meno, siano indipendenti o meno. Molti dei test per il confronto di due popolazioni si basano sull ipotesi che i due campioni casuali provengano da popolazioni indipendenti. TEST CHI-QUADRATO PER L INDIPENDENZA TAVOLA DI CONTINGENZA DATI NOMINALI 17

COSTRUZIONE DI UNA TAVOLA DI CONTINGENZA IN STATVIEW 18

H 0 : la popolazione età e la popolazione "smoking history" sono indipendenti H1 : la popolazione età e la popolazione "smoking history" non sono indipendenti STATISTICA TEST χ( s 1) ( r 1) Essendo maggiore di 0.05 l ipotesi nulla non si rigetta Variabili continue? Meglio Hoeffdingtest Misure di correlazione tra variabili nominali Coeff. di contingenza: quando le modalità sono maggiori di. Tavole quadrate. Coeff. di Cramer: quando le modalità sono maggiori di. Tavole rettangolari. Grado di associazione tra variabili 19

H 0 : la popolazione età e la popolazione "smoking history" sono indipendenti H1 : la popolazione età e la popolazione "smoking history" non sono indipendenti STATISTICA TEST Usa il logaritmo delle frequenze osservate. Non applicabile quando una cella è vuota. Strategia maximum likelihood. Confronto di due popolazioni gaussiane indipendenti. Esempio: Misure di porosità(%) di campioni di arenaria A B 13 15 17 10 15 15 3 3 7 18 9 6 18 4 7 18 0 19 4 1 0

Hanno la stessa media? H H : µ = µ 0 1 : µ µ 1 1 T -TEST Per effettuare questo test è necessario definire una variabile nominale etichetta che suddivide i dati nei gruppi, e poi una variabile che contiene l unione dei due campioni. 1

Selezionando T-testunpaired in ANALZED.

Statistica descrittiva dei due gruppi La statistica test è una variabile aleatoria T-student con gradi di libertà DF = n1 + n Essendo il p-value= 0.3139 > 0.005, non si rigetta l ipotesi nulla che i due campioni provengano da due popolazioni aventi la stessa media. H H Hanno la stessa varianza? : σ = σ 0 1 : σ σ 1 1 F -TEST Omogeneità della varianza 3

Distribuzione di Fisher S La statistica test è F= e dipende da gradi di libertà: la taglia S del numeratore n e quella del denominatore n 1 1 NB Entrambi questi TEST possono essere effettuati solo se le popolazioni da cui provengono i campioni sono GAUSSIANE (quindi è necessario verificare questa ipotesi con un test). Abbiamo visto come usare il test di Kolmogorov Smirnov per una distribuzione QUALSIASI in Excel. Solo per la distribuzione gaussiana, STATVIEW ha a disposizione una procedura che simula il KS test univariato, usando il KS test per il confronto di due campioni. 4

KS TEST PER IL CONFRONTO DELLE DISTRIBUZIONI DI DUE POPOLAZIONI L idea è quella di costruire le funzioni di ripartizioni empiriche per i due campioni e poi di valutare la distanza massima tra queste ultime 5

Anche per effettuare questo test è necessario definire una variabile nominale etichetta che suddivide i dati nei gruppi, e poi una variabile che contiene l unione dei due campioni. Essendo il p-value= 0.8131 > 0.005, non si rigetta l ipotesi nulla che i due campioni provengano da due popolazioni aventi la stessa distribuzione. Normality test 6

? SIMULIAMO LA MEDESIMA PROCEDURA Generiamo un campione casuale da una legge gaussiana standard lo trasformiamo in un campione casuale proveniente da una popolazionegaussiana con media e varianza campionaria. 7

doppio click. 8

TRASFORMAZIONE DEL CAMPIONE GAUSSIANO STANDARD Si definisce una formula per la trasformazione del campione E infine si confrontano i due campioni così ottenuti con un KS normale 9

PER IL PRIMO GRUPPO. PER IL SECONDO GRUPPO. 30

T-paired test Campioni di calcare estratti da una cava sottoposti a un procedimento di purificazione. Si vuole determinare se il procedimento ha ridotto la gravità specifica (rapporto tra volumi rispetto a una sostanza presa come riferimento). La caratteristica di questo test è che vengono impiegate le STESSE unità statistiche. IN STATVIEW 31

Se una delle due popolazioni non è gaussiana e i dati sono unpaired MANN WHITNE TEST H : M = M Vengono confrontate le mediane H : M M 0 1 1 1 Esempio: Osservazioni di Cu(Rame) in campioni di creta e pietra verde. Pietra verde Creta 791(1) 648() 536(3) 118(5) 501(4) 104(6) 7(7) 36(8) 0(9) Le osservazioni dei due campioni vengono combinate e ordinate dalla osservazione più piccola a quella più grande. Se i due campioni sono stati estratti casualmente dalla stessa popolazione ci si aspetta che rispetto alla sequenza dei ranghi, gli elementi di un campione appaiano distribuiti uniformemente. n1, ( n1, + 1) La statistica test è min{ Rx, R y} con Rx, y = n1n + Wx, y W = somma dei ranghi del I campione e W = somma dei ranghi del II campione x y Pesati rispetto alla legge uniforme { x, y } min { x, y} R U R U prime, Z-value R R stand. 3

Se una delle due popolazioni non è gaussiana e i dati sono paired WILCOON TEST Esempio: Contenuto di metallo in 13 cloni di pioppo che crescono in una zona inquinata, mi- Surato in agosto e novembre. Obbiettivo POP. GAUSSIANE POP. NON GAUSSIANE Descrivere un campione Media Confrontare un campione con un modello teorico Confrontare campioni paired Confrontare campioni unpaired Confrontare 3 o più campioni unmatched Confrontare 3 o più campioni matched Associazioni tra campioni Predizione deivalori tra due campioni Test T (un campione) Test T (paired) Test T (unpaired) One-way ANOVA Repeated Measure ANOVA Mediana Test dei segni Wilcoxon test Mann-Whitney Test Kruskal-Wallis test Friedman Test Correlazione di Pearson Correlazione di Spearman Regressione Regressione non parametrica 33