CONFRONTO DIDUE CAMPIONI CASUALI ( x, x,, x ) ( y, y,, y ) 1 n 1 n POPOLAZIONE 1 POPOLAZIONE Le due popolazioni hanno lo stesso modello stocastico? Le due popolazioni hanno la stessa media? Le due popolazioni hanno la stessa varianza? Tra le due popolazioni c è una qualche legge di DIPENDENZA l una dall altra oppure sono indipendenti? 1
Esempio: La tabella riporta la lunghezza e la larghezza della conchiglia di brachiopoli Composita. LUNGHEZZA LARGHEZZA 18.4 15.4 16.9 15.1 13.6 10.9 11.4 9.7 7.8 7.4 6.3 5.3 Scatter diagram(o diagramma di dispersione)
CONSIDERAZIONI SULLO SCATTER DIAGRAM Le correlazioni, possibilmente positiva o possibilmente, negativa si hanno quando i punti rappresentativi delle coppie di dati, pur disponendosi attorno ad una delle due diagonali del diagramma, presentano una dispersionepiuttosto accentuata tale da far presumere l esistenza di altre cause che intervengono a determinare l'effetto studiato. http://www.taed.unifi.it/qualita/diagrammi%0di%0correlazione.htm 3
Come si misura il grado di correlazione tra due campioni casuali? Il coefficiente di correlazione è una misura del grado di linearità della distribuzione dei punti nel diagramma x-y. SOMMA CORRETTA DEI PRODOTTI n i= 1 ( )( ) SCP = x x y y i i Dipende da n COVARIANZA SCP Dipende dalle unità di misura COV = n 1 CORRELAZIONE DI PEARSON r xy COV = S S x y Misura adimensionale IN STATVIEW 4
Il coefficiente di correlazione non è una misura generale della relazione tra due variabili, ma esprime solo il grado di linearità della correlazione in un grafico a dispersione. Gli outlierspossono modificare significativamente il valore del coefficiente di correlazione. 5
6
Il coefficiente di correlazione misura solo il grado di relazione lineare 7
Essendo il valore del coefficiente di correlazione piuttosto elevato, ed avendo provato con un test di ipotesi la bontà dell ipotesi di re.- lazione lineare tra i due campioni, determiniamo i coefficienti della retta che descrive tale relazione. Warning: Trasformazioni sui dati possono indurre correlazioni! Coefficiente corr. Spearman R( x i ) n [ R x ] i R yi 6 ( ) ( ) i= 1 r = 1 n( n 1) = posizione nel campione ordinato Si usa quando una delle due popolazioni non è gaussiana Quanto è appropriato scegliere una funzione monotona per descrivere la dipendenza dei dati 8
Due parole sulla popolazione gaussiana bidimensionale e il concetto di indipendenza Coppie di variabili aleatorie Definizione: Si definisce vettore aleatorio la coppia (,) dove,, sono definite sullo stesso spazio campione : S R, : S R (, ) : S R Esempio: peso-altezza di una persona (, ) random vector 9
Variabili discrete { } (, ) ω / ( ω), ( ω) = x = y = S = x = y { ω / ( ω) } ω / ( ω) { } = S = x S = y ( ) ω = y ( ) ω = x { ( ) ( ) } ( ) { } { ( ) } ω S : ω x, ω y = ω S : ω x ω S : ω y (ω) = y ω S { ω : ( ω), ( ω) } P S x y = F, ( x, y) Funzione di ripartizione doppia (ω) = x 10
B f ( x, y) d x dy f ( x, y) x y P ( x) Esempio : La f ( x, y) = πσ for ( x, y) R funzione densità di probabilità di una normale bivariata è : 1 1 exp 1 σ ρ (1 ρ ),( µ, µ ) R Gaussiana (congiunta) bidimensionale, con parametri σ ( x µ ) ρ( x µ )( y µ ) ( y µ ) σ > 0, σ σ σ > 0 e ρ (-1,1). + σ µ = E µ = E [ ] [ ] [ ] [ ] σ = Var σ = Var ρ ( 1,1) 11
σ = 1, σ = 1, µ = 0, µ = 0, ρ = 0 Contour plots σ = 1, σ = 1, µ = 0, µ = 0, ρ = 0.9 σ = 1, σ = 1, µ = 0, µ = 0, ρ = 0 1 (1 ρ ) dove Gaussiana bidimensionale ( x µ ) ρ( x µ )( y µ ) ( y µ ) σ x x =, y σ σ + σ µ σ µ = Σ = µ cov(, ) = cov(,) σ T 1 ( x µ ) Σ ( x µ ) Il coefficiente di correlazione (o la covarianza) è l unico strumento che consente di analizzare le relazioni esistenti tra due variabili aleatorie? Teorema : Due variabili aleatorie congiuntamente gaussiane sono indipendenti se e solo se ρ = 0. IPOTESI FONDAMENTALE IN MOLTI DEI TEST CHE VEDREMO 1
Effettuare previsioni, mediante - INTERPOLAZIONE - ESTRAPOLAZIONE Indica la percentuale di variabilità della che è spiegata dalla Coefficiente di determinazione Come si calcolano i coefficienti? IL METODO DEI MINIMI QUADRATI Minimizzare la distanza tra i punti delle osservazioni e la retta stessa. 13
residui Si cerca il minimo della funzione rispetto a e b L a b y ax b n = i i i= 1 (, ) ( ) Stima della variabilità degli stimatori INTERCETTA E LUNGHEZZA. Sono i valori dei coefficienti sui dati standardizzati. Se la retta di regressione è y= α x+ β H H 0 1 : β = 0 : β 0 H H 0 1 : α = 0 : α 0 14
ANALISI DEI RESIDUI Perché il modello sia valido è necessario che i residui abbiano legge gaussiana: 1) Normplot ) Test di Kolmogorov-Smirnov 1,5 1 0,5 0-1,5-1 -0,5 0 0,5 1 1,5-0,5 Serie1-1 -1,5 - Il quantile di riferimento è 0.5196 TEST DI KOLMOGOROV-SMIRNOV 15
Con Statview Un valore pari a indica che non è presente alcuna autocorrelazione. Valori piccoli di d indi canoche i residui successivi sono, in media, vicini in valore l'uno all'altro, o correlati positivamente. Valori grandi di dindicano che i residui successivi sono, in media, molto diffe rentiin valore l'uno dall'altro, o correlati negativamente. Altri tipi di funzioni 16
esponenziale logaritmica potenza growth Assumiamo che dall esperimento casuale non si evinca se i due campioni casuali siano correlati o meno, siano indipendenti o meno. Molti dei test per il confronto di due popolazioni si basano sull ipotesi che i due campioni casuali provengano da popolazioni indipendenti. TEST CHI-QUADRATO PER L INDIPENDENZA TAVOLA DI CONTINGENZA DATI NOMINALI 17
COSTRUZIONE DI UNA TAVOLA DI CONTINGENZA IN STATVIEW 18
H 0 : la popolazione età e la popolazione "smoking history" sono indipendenti H1 : la popolazione età e la popolazione "smoking history" non sono indipendenti STATISTICA TEST χ( s 1) ( r 1) Essendo maggiore di 0.05 l ipotesi nulla non si rigetta Variabili continue? Meglio Hoeffdingtest Misure di correlazione tra variabili nominali Coeff. di contingenza: quando le modalità sono maggiori di. Tavole quadrate. Coeff. di Cramer: quando le modalità sono maggiori di. Tavole rettangolari. Grado di associazione tra variabili 19
H 0 : la popolazione età e la popolazione "smoking history" sono indipendenti H1 : la popolazione età e la popolazione "smoking history" non sono indipendenti STATISTICA TEST Usa il logaritmo delle frequenze osservate. Non applicabile quando una cella è vuota. Strategia maximum likelihood. Confronto di due popolazioni gaussiane indipendenti. Esempio: Misure di porosità(%) di campioni di arenaria A B 13 15 17 10 15 15 3 3 7 18 9 6 18 4 7 18 0 19 4 1 0
Hanno la stessa media? H H : µ = µ 0 1 : µ µ 1 1 T -TEST Per effettuare questo test è necessario definire una variabile nominale etichetta che suddivide i dati nei gruppi, e poi una variabile che contiene l unione dei due campioni. 1
Selezionando T-testunpaired in ANALZED.
Statistica descrittiva dei due gruppi La statistica test è una variabile aleatoria T-student con gradi di libertà DF = n1 + n Essendo il p-value= 0.3139 > 0.005, non si rigetta l ipotesi nulla che i due campioni provengano da due popolazioni aventi la stessa media. H H Hanno la stessa varianza? : σ = σ 0 1 : σ σ 1 1 F -TEST Omogeneità della varianza 3
Distribuzione di Fisher S La statistica test è F= e dipende da gradi di libertà: la taglia S del numeratore n e quella del denominatore n 1 1 NB Entrambi questi TEST possono essere effettuati solo se le popolazioni da cui provengono i campioni sono GAUSSIANE (quindi è necessario verificare questa ipotesi con un test). Abbiamo visto come usare il test di Kolmogorov Smirnov per una distribuzione QUALSIASI in Excel. Solo per la distribuzione gaussiana, STATVIEW ha a disposizione una procedura che simula il KS test univariato, usando il KS test per il confronto di due campioni. 4
KS TEST PER IL CONFRONTO DELLE DISTRIBUZIONI DI DUE POPOLAZIONI L idea è quella di costruire le funzioni di ripartizioni empiriche per i due campioni e poi di valutare la distanza massima tra queste ultime 5
Anche per effettuare questo test è necessario definire una variabile nominale etichetta che suddivide i dati nei gruppi, e poi una variabile che contiene l unione dei due campioni. Essendo il p-value= 0.8131 > 0.005, non si rigetta l ipotesi nulla che i due campioni provengano da due popolazioni aventi la stessa distribuzione. Normality test 6
? SIMULIAMO LA MEDESIMA PROCEDURA Generiamo un campione casuale da una legge gaussiana standard lo trasformiamo in un campione casuale proveniente da una popolazionegaussiana con media e varianza campionaria. 7
doppio click. 8
TRASFORMAZIONE DEL CAMPIONE GAUSSIANO STANDARD Si definisce una formula per la trasformazione del campione E infine si confrontano i due campioni così ottenuti con un KS normale 9
PER IL PRIMO GRUPPO. PER IL SECONDO GRUPPO. 30
T-paired test Campioni di calcare estratti da una cava sottoposti a un procedimento di purificazione. Si vuole determinare se il procedimento ha ridotto la gravità specifica (rapporto tra volumi rispetto a una sostanza presa come riferimento). La caratteristica di questo test è che vengono impiegate le STESSE unità statistiche. IN STATVIEW 31
Se una delle due popolazioni non è gaussiana e i dati sono unpaired MANN WHITNE TEST H : M = M Vengono confrontate le mediane H : M M 0 1 1 1 Esempio: Osservazioni di Cu(Rame) in campioni di creta e pietra verde. Pietra verde Creta 791(1) 648() 536(3) 118(5) 501(4) 104(6) 7(7) 36(8) 0(9) Le osservazioni dei due campioni vengono combinate e ordinate dalla osservazione più piccola a quella più grande. Se i due campioni sono stati estratti casualmente dalla stessa popolazione ci si aspetta che rispetto alla sequenza dei ranghi, gli elementi di un campione appaiano distribuiti uniformemente. n1, ( n1, + 1) La statistica test è min{ Rx, R y} con Rx, y = n1n + Wx, y W = somma dei ranghi del I campione e W = somma dei ranghi del II campione x y Pesati rispetto alla legge uniforme { x, y } min { x, y} R U R U prime, Z-value R R stand. 3
Se una delle due popolazioni non è gaussiana e i dati sono paired WILCOON TEST Esempio: Contenuto di metallo in 13 cloni di pioppo che crescono in una zona inquinata, mi- Surato in agosto e novembre. Obbiettivo POP. GAUSSIANE POP. NON GAUSSIANE Descrivere un campione Media Confrontare un campione con un modello teorico Confrontare campioni paired Confrontare campioni unpaired Confrontare 3 o più campioni unmatched Confrontare 3 o più campioni matched Associazioni tra campioni Predizione deivalori tra due campioni Test T (un campione) Test T (paired) Test T (unpaired) One-way ANOVA Repeated Measure ANOVA Mediana Test dei segni Wilcoxon test Mann-Whitney Test Kruskal-Wallis test Friedman Test Correlazione di Pearson Correlazione di Spearman Regressione Regressione non parametrica 33