CMPLEMENTI DI PRBABILITA E STATISTICA 3 Crediti Docente : Elvira Di Nardo (dinardo@unibas.it, 097-05890) Modalità di esame: Prova scritta alla fine del corso + Tesina (facoltativa) Testi consigliati: Manuale on-line di statistica Informazioni: http://www.unibas.it/utenti/dinardo/didattica.html Statistica Descrittiva Indici di posizione, di asimmetria e di dispersione
Costruzione di un istogramma 3 Costruzione di un Box-Plot 4
60 50 40 30 0 0 0 q min mediana max q3 Cliccare sul singolo dato due volte in modo da ottenere la finestra Formato serie dati 5 http://cirdis.stat.unipg.it/files/sperimentazione/box-plot-in-excel.html 6 3
Costruzione di un Q-Q plot Assegnato un campione casuale RDINAT è il grafico delle coppie i 0,5 ( x() i, z() i ) dovep( Z < z() i ) = n Viene anche usato per verificare se due campioni casuali provengono dalla stessa popolazione. 7 Statistica Inferenziale per un campione casuale test sulla media popolazione normale con varianza nota test sulla media popolazione normale con varianza incognita test sulla media popolazione non normale, taglia maggiore di 30 test sulla varianza popolazione normale Cosa accade per popolazioni non normali e/o taglie inferiori a 30? TEST NN PARAMETRICI (distribution free) 8 4
I test non parametrici sono meno potenti, per cui è più difficile rifiutare l ipotesi nulla, ma quando l ipotesi nulla è rifiutata, generalmente le conclusioni non possono essere sospettate di invalidità Test sulla media Test sulla varianza Test sulla mediana (test dei segni) Test di intervallo interquartile di Westenberg In fase ancora sperimentale 9 Test dei segni (test mediana) Scopo: verifica di ipotesi sulla tendenza centrale H 0 : M = M H : M M Procedura Si confronta ogni elemento del campione con il valore di riferimento trasformando il campione casuale in una sequenza di segni + e -. NB: eventuali differenze nulle non vengono riportate Si contano il numero di segni positivi: r+ Se fosse vera l ipotesi nulla, la v.a. R+ che conta il numero di segni positivi risulterebbe binomiale di parametri (taglia, 0.5). Vale che + + + + P( R r ) = P( R n r ) 0 0 0 5
Risultano sospetti sia valori troppo alti di r+ che valori troppo bassi (indice di sbilanciamento nella distribuzione dei segni). + + + p = P( R r ) se r n / + + + p = P( R r ) se r n / Se p< si rifiuta l ipotesi nulla, se p> non si rifiuta l ipotesi nulla Esempio: Da una serie di rilevazioni sulla quantità di specie presenti in alcuni ambienti, sono stati rilevati i seguenti 0 valori di biodiversità (vedi tabella). Si valuti se la tendenza centrale di questa serie è significativamente differente da 6.5, valore centrale dell area in studi precedenti.,5 4,5,7 4,9,9 5,3,9 6,5 3, 6,5 3, 8,9 3, 9,7 3,8,7 3,9 5,7 4, 8,9 - - - - - - - 0-0 - + - + - + - + - + N=8, r+=5 0,0965 Si rigetta l ipotesi nulla. 6
Riconoscere la legge di distribuzione di un campione casuale TEST CHI-QUADRAT Da Analisi Dati -> Istogramma Classe Frequenza 50 0 75 00 5 50 Altro 3 Costruzione delle frequenze attese 4 7
Classe Frequenza Freq attese Differenze Diff.divise 50 0 3,9346934 5,488 3,934693 75,3464 0,433436 0,33064 00,04487 0,97 0,873094 5 0,837464,40798,7983 50 0,6337464,866649,9454 Altro,3306 0,0535 0,03977 0 0 9,8953 = INV.CHI(0,05;5) =.07 5 Test di Kolmogorov-Smirnov Scopo: verificare se esiste una differenza significativa tra la funzione di ripartizione empirica costruita per il campione casuale e la funzione di ripartizione di un modello teorico. Statistica: D = max F ( x ) Fˆ ( x ) Fˆ ( x ) i i=,,..., n # di elementi del campione xi = n Per n 35 si usano le tavole, per n > 35 si usano i valori.36.63 D = per α = 0.05 e D = per α = 0.0 n n NB: questo test è più potente del test chi-quadrato. X i i 6 8
Esercizio: Supponiamo di voler verificare l ipotesi che una certa popolazione abbia distribuzione esponenziale con legge x F( x) = exp, x > 0 00 Che conclusioni si possono trarre se un campione ordinato di numerosità 0 mostra i seguenti valori? 66 7 8 94 6 4 40 45 55 66 0, 0,48349-0,3835 7 0, 0,5348-0,335 8 0,3 0,5554-0,554 94 0,4 0,60937-0,0937 0,5 0,6737-0,737 6 0,6 0,68654-0,0865 4 0,7 0,7066-0,006 40 0,8 0,753403 0,046597 45 0,9 0,76543 0,3457 55 0,78775 0,48 Stat. test 7 Test Kolmogorov-Smirnov (in EXCEL) 8 9
Si sceglie la funzione distribuzione teorica tra le funzioni statistiche di Excel Si determina il valore della statistica 9 Statistica Inferenziale per due campioni casuali test Z sulla differenza tra medie, varianze note, popolazioni normali 0 0
test T sulla differenza tra medie per dati accoppiati Questa forma del test t non presuppone che le varianze delle due popolazioni siano uguali. È possibile utilizzare un test accoppiato quando vi è un naturale appaiamento tra le osservazioni dei campioni, come nel caso di una duplice verifica di un gruppo campione, prima e dopo un esperimento. test T sulla differenza tra medie, popolazioni normali, varianze incognite ma uguali
test T sulla differenza tra medie, popolazioni normali, varianze incognite e diverse 3 test F sul rapporto tra varianze, popolazioni normali Ipotesi fondamentale: Indipendenza dei campioni 4
Test chi-quadrato ( classificazioni) I classificazione II classificazione R R M R s C M s C M s L K K K C m m m M sm Tavola di contingenza E ij = frequenza assoluta attesa relativa al livello per la I classificazione e al livello classificazione j i per la II = n p ij = n u v i j uˆ = m i ij n j= vˆ = j ij n i= s 5 Test chi-quadrato ( classificazioni) χ = s m ( ij Eij ) i= j= E ij χ α,( s )( m ) Esempio: Una compagnia deve scegliere tra 3 diversi progetti di pensionamento. I direttori vogliono sapere se la preferenza espressa per uno dei tre progetti è indipendente dalla categoria di lavoro. Effettuano una indagine tra 500 lavoratori e i risultati sono riportati in tabella: Categoria lavorativa 3 Totale Lav.fissi 60 40 40 340 Lav.ad ore 40 60 60 60 Totale 00 00 00 500 Frequenze osservate Categoria lavorativa 3 Lav.fissi 36 36 68 Lav.ad ore 64 64 3 Totale 00 00 00 Frequenze attese Totale 340 60 500 χ = 49.63 > χ 0.05, = 5.99 6 3
Test chi-quadrato per l indipendenza (in EXCEL) 60 40 40 40 60 60 36 36 68 64 64 3,66906E- 7 Test di Fisher Scopo: verificare se due fattori A e B hanno influito sulla presenza Di un certo carattere. + indica la presenza del carattere - indica l assenza del carattere + - A a b a+b B c d c+d a+c b+d n La probabilità di osservare questo tipo di configurazione è data da una v.a. ipergeometrica a + b c + d a c P ( R+ = a) = a + b + c + d a + c 8 4
Il metodo di Fisher si basa sul concetto che tenendo fissi i totali i numeri a,b,c,d possono assumere a caso qualsiasi valore. Procedura: si riduce di il numero di osservazioni nella casella con il numero minore modificando gli altri valori in modo da mantenere i marginali costanti (fino a 0); si calcolano le probabilità ipergeometriche associate alle tabelle così costruite (e si sommano); se il valore ottenuto è piuttosto basso (inferiore a 0.0 o 0.05) si rigetta l ipotesi nulla di indipendenza (altrimenti si andrebbe contro il principio zero della statistica) Per campioni di taglia elevata si può usare il test chiquadrato per l indipendenza. 9 Esercizio: Vengono esaminati un lotto di 8 esemplari di uno stesso prodotto industriale, ottenuti in parte col processo di lavorazione A e in parte col processo di lavorazione B. I 8 esemplari vengono classificati in base al numero di difetti: C= 3 e C D D= >3. Si determini se il processo di produzione ha A 8 0 influito sulla presenza dei difetti B 5 3 8 7 8 0 8 0 8 0 8 5 0 7 6 P( ) = = 0.079 P(0) = = 0.0005 P() = = 0.0087 8 8 8 7 7 7 30 5
Test di Mc Nemar Scopo: verificare l esistenza di differenze tra prima e dopo un certo trattamento. Necessari: dati appaiati, risposte nominali binarie prima+ - dopo + - a b c d b e c rappresentano gli elementi su cui c è stata una modifica del carattere; Se fosse vera l ipotesi nulla (il trattamento non determina un mutamento significativo), coloro che sono passati da + a (e viceversa) dovrebbero aver scelto a caso: il numero dei cambi da + a - = numero dei cambi da a +. 3 se il trattamento fosse inefficace, il numero medio di cambiamenti: (b+c)/=e Statistica: K = ( b E) ( c E) E + E χ Il test chi-quadrato (a due vie) si applica a campioni potenzialmente indipendenti Il test di McNemar si applica a campioni DIPENDENTI! Esercizio: 5 soggetti di cui 8 fumatori e 7 non fumatori furono immessi in stesso ambiente lavorativo in cui predominavano i fumatori incalliti. Dopo 3 mesi di attività lavorativa dei 8 fumatori, 4 avevano smesso di fumare, e dei 7 non fumatori, 4 avevano cominciato a fumare. Il trattamento era stato efficace? 3 6
Esercizi. Una compagnia effettua 3 turni su 4 macchine ogni giorno. Per ogni macchina sono stati registrati i numeri di guasti per ogni turno (in tabella). Verificare l ipotesi che i gustai sono indipendenti dai turni. Turni A B C D 4 0 6 3 9 4 3 5 7 6 0. Verificare con un test di Kolmogorov e con un test chi-quadrato se il seguente campione casuale può ritenersi distribuito secondo un modello binomiale. 5 4 9 3 6 6 4 5 8 5 4 3 4 4 4 33 Esercizi. Esaminando uno stesso campione prima e dopo un certo trattamento, sono state riscontrate le frequenze di cambiamenti (in entrambi i versi dal + al - o dal - al +) e di assenza dei medesimi (dal - al - o dal + al +) riportate in tabella. Il trattamento ha influito nel determinare un verso prevalente dei cambiamenti?. Verificare se per il seguente campione si può assumere che la mediana è 0. 3. Gli alberi da frutta sono spesso soggetti a malattie causate da batteri che prendono il nome di ruggine da fuoco, per il fatto che i rami degli alberi affetti da tale malattia appaiono bruciacchiati. 4 alberi con questa malattia sono stati suddivisi in due gruppi: a 9 alberi non è stata applicata alcuna + - tot - 4 + 5 7 tot 37 4 4-0,30,73 -,8 -,8 0,4-0,3,8,0,0 -,09 Morti Vivi Tratt. A 7 9 Tratt. B 0 5 5 7 7 4 terapia (e di questi 7 sono morti entro l anno e sono sopravvissuti per altri 4 anni), mentre a 5 alberi sono stati tagliati i rami che sembravano affetti da batteri (e di questi tutti sono sopravvissuti per altri 4 anni). Verificare se è utile intervenire sugli alberi ammalati. 34 7