Esercitazione 2 22.5.2014 (AVVISI) RIEPILOGO STATISTICHE (NOTA) TEST DEL CHI2 Accedere alle macchine con LOGIN: esame PASSWORD: didattica AVVISO Valutazione prova intercorso Vincolo di accesso alla seconda prova Oggi lavoriamo usando la procedura vista per la prova intercorso: cliccate sull icona Esame_P13 1
Esercizio La tabella nel filepeso_tavolette.xlsxriporta il peso in grammi di un campione di 100 tavolette di cioccolato. a) Fornire una tabella delle statistiche studiate relative ai dati contenuti nella tabella, che contenga, oltre alle statistiche standard (media, mediana,. Curtosi ) anche il Secondo più grande e il Terzo più piccolo, utilizzando la funzione Riepilogo statistiche. b) Ripetere l esercizio (di cui al punto a)) senza far uso della funzione Riepilogo statistiche, ma calcolando i valori necessari (media, mediana, etc.) con le opportune funzioni di Excel, in modo che la tabella risultante sia identica a quello fornita al punto a). Mantenere il foglio Datiinalterato, e svolgere il punto a) in un foglio nominato Svolgimento a), e il punto b) in un foglio nominato Svolgimento b). Esempio 6.1 PROVIAMO La tabella peso_tavolette.xlsx riporta il peso in grammi di un campione di 100 tavolette di cioccolato. Proviamo a richiamare la funzione Riepilogo statistiche 2
Esempio 6.1 Media 99,79652336 Errore standard 0,010062453 Mediana 99,79312502 Moda #N/D Deviazione standard 0,100624532 Varianza campionaria 0,010125296 Curtosi 0,083114239 Asimmetria 0,069723767 Intervallo 0,484818884 Minimo 99,55261744 Massimo 100,0374363 Somma 9979,652336 Conteggio 100 Più grande(2) 100,0121 Più piccolo(3) 99,57665 Non esistono duplicati Manualmente: Funzioni del Riepilogo statistiche Riepilogo statistiche Media Errore standard Mediana Moda Deviazione standard Varianza campionaria Curtosi Asimmetria Intervallo Minimo Massimo Somma Conteggio Più grande(2) Più piccolo(3) =MEDIA(A2:A101) =G6/RADQ(G14) =MEDIANA(A2:A101) =MODA(A2:A101) Non hanno =DEV.ST(A2:A101) funzione =VAR(A2:A101) esplicita =CURTOSI(A2:A101) =ASIMMETRIA(A2:A101) =MAX(A2:A101)-MIN(A2:A101) =MIN(A2:A101) =MAX(A2:A101) =SOMMA(A2:A101) =CONTA.NUMERI(A2:A101) =GRANDE(A2:A101;2) =PICCOLO(A2:A101;3) 3
Test chi2 Test di significatività non parametrico (non basata su una distribuzione probabilistica) che viene usato per valutare se i valori di frequenza ottenuti tramite una rilevazione sono diverse in maniera significativa dalle ottenute con la distribuzione teorica Questo test ci permette di rifiutare o accettare un ipotesi data. Passi per effettuare un test di significatività Ipotesi H 0 : Non esiste correlazione tra i dati Test di significatività no si Rifiuto H χ 2 <χ 2 0 C Accetto H 0 4
Calcolo di χ 2 e χ 2 C Per calcolare χ 2 abbiamo due strategie: usando la funzione TEST.CHI di excel, a mano. Per calcolare χ 2 Coccorre conoscere il livello di significatività α (prob. di accettare o rigettare l ipotesi nulla) e i gradi di libertà (quantità delle sperimentali che devo conoscere direttamente). Si può conosce in due modi: consultando la tabella della distribuzione χ 2 usando la funzione Excel INV.CHI Quindi più velocemente: ACCETTOse TEST.CHI(int_effettivo; int_previsto) > α Confronto dato empirico e dato teorico empiriche: probabilità teoriche: modalità fe teoriche: p ft=p*n (fe- ft) 2 / ft testa 499 0,5 500 0,002 croce 501 0,5 500 0,002 Tratto dalle slides delle lezioni in aula n= 1000 funzione test χ2= 0,004 livello di significativita' α= 0,05 valore critico χ c 2= 3,841458821 Confrontare χ 2 col valore teorico nel caso di moneta non truccata Il valore critico lo posso ottenere dalla tabella dei valori della distribuzione χ 2, in funzione di α e dei gradi di libertà, o calcolarlo direttamente con INV.CHI(probabilità; gradi_libertà), dove gradi di libertà = quantità delle sperimentali che devo conoscere direttamente. Nel nostro esempio: α = 0,05 e gradi di libertà = 1 (perché basta conoscere p per ottenere q=1-p) χ 2 c = INV.CHI(0,05;1) = 3,841458821 5
Funzione TEST.CHI TEST.CHI(B2:B3;D2:D3) = 0,950 Indica direttamente che il valore di χ 2 (0,004) corrisponde a χ 2 0,950 Dato che 0,950 > 0,05: ACCETTO l ipotesi nulla! Esempio dal libro di fisica La tabella mostra 40 misurazioni di una variabile. Vogliamo valutare col test di χ 2 la concordanza con una distribuzione normale di Gauss. 731 772 771 681 722 688 653 757 733 742 739 780 709 676 760 748 672 687 766 645 678 748 689 810 805 778 764 753 709 675 698 770 754 830 725 710 738 638 787 712 Procediamo come segue. Calcoliamo la media X, la deviazione standard σ. Stabiliamo di considerare i valori nei 4 intervalli individuati da X - σ, X, X + σ. Per ogni intervallo calcoliamo le empiriche, date del numero di valori che ricadono in quell intervallo. Come si fa? calcoliamo il numero di valori X - σ, X, X + σ, rispettivamente, con la funzione CONTA.PIÙ.SE(A1:J4;"< X - σ"), eccetera. Otteniamo: ausiliare X 683,3 8 X 730,1 18 X 776,9 34 X>776,9 6 6
Calcolo probabilità intermedie Calcoliamo ora le probabilità teoriche concordi ad una distribuzione normale. Come passo intermedio calcoliamo: P(X 683,3) = DISTRIB.NORM.N(683,3;$B$9;$B$10;VERO) e similmente per le altre. Otteniamo: ausiliare probabilità ausiliare X 683,3 8 0,16 X 730,1 18 0,50 X 776,9 34 0,84 X>776,9 6 0,50 Rispettivamente la media e la deviazione standard Calcolo probabilità teoriche Con i valori calcolati nella slide precedente, possiamo ora calcolare: k Intervallo empiriche Ok probabilità teoriche pk frequenza teorica Ek (fe-ft) 2 /ft 1 0< X 683,3 8 0,16 6,3 0,4320 2 683,3< X 730,1 10 0,34 13,7 0,9825 3 730,1< X < 776,9 16 0,34 13,7 0,4018 4 X >776,9 6 0,16 6,3 0,0176 χ 2 = 1,8340 Per esempio: P(683,3< X 730,1) = P(X 730,1) - P(X 683,3). E k = p k * n, dove n=conta.valori(a1:j4) Il valore χ 2 è ottenuto come la somma dei valori soprastanti. 7
Considerazioni finali Infine calcolo il valore critico con cui confrontare con INV.CHI(0,05;1) ed accetto se χ 2 è minore di tale valore χ 2 = 1,8340 valore critico = 3,84 risultato: accetto H0 In questa cella scriverò la funzione SE(F26<F28; "accetto H 0 ";"rifiuto H 0 "). se χ 2 < χ 2 c 731 772 771 681 722 688 653 757 733 742 739 780 709 676 760 748 672 687 766 645 678 748 689 810 805 778 764 753 709 675 698 770 754 830 725 710 738 638 787 712 n= 40 minimo= 638 massimo= 830 X media= 730,1 σ dev. standard= 46,8 X - σ = 683,3 X + σ = 776,8 k Intervallo probabilità empiriche Ok teoriche pk frequenza teorica Ek (fe-ft) 2 /ft 1 0< X 683,3 8 0,16 6,3 0,4320 2 683,3< X 730,1 10 0,34 13,7 0,9825 3 730,1< X < 776,9 16 0,34 13,7 0,4018 4 X >776,9 6 0,16 6,3 0,0176 ausiliare probabilità ausiliare X 683,3 8 0,16 X 730,1 18 0,50 X 776,9 34 0,84 X>776,9 6 0,16 χ 2 = 1,8340 valore critico = 3,84 risultato: accetto H0 8
Esempio Un associazione ambientalista sostiene che un azienda Xha riversato in un fiume rifiuti tossici che hanno provocato cambiamenti nella distribuzione maschi-femmine nella categoria dei pesci Fish. Vengono riportati i seguenti dati empirici, per 4rami del fiume Freq.emp. Maschi Femmine totale Ramo A 53 43 96 Ramo B 35 22 57 Ramo C 48 39 87 Ramo D 18 12 30 Totale 154 116 270 Esempio Il giudice, per condannare l azienda, ha bisogno del test di significatività del chi2, per capire se accettare o rifiutare l ipotesi (nulla): Il rapporto maschifemmine è 1:1. Controllare cosa accade se il campione è unico (senza suddividere sui rami) Freq.emp. Maschi Femmine totale Ramo A 53 43 96 Ramo B 35 22 57 Ramo C 48 39 87 Ramo D 18 12 30 Totale 154 116 270 9
Rivediamo un esempio Effettuando 50 lanci di un dado si sono ottenuti: 9 uno 11 due 5 tre 8 quattro 10 cinque 7 sei. Vogliamo valutare se il dado è equo. Confrontiamo le ottenute con quelle teoriche della distribuzione uniforme, corrispondente ai dadi equi. Per valutarne la discordanza, calcoliamo il relativo χ 2. Con Excel (senza usare TEST.CHI) modalità empiriche: fe probabilità teoriche: p teoriche: ft=p*n (fe- ft) 2 / ft 1 9 0,1667 8,333333333 0,053333333 2 11 0,1667 8,333333333 0,853333333 3 5 0,1667 8,333333333 1,333333333 4 8 0,1667 8,333333333 0,013333333 5 10 0,1667 8,333333333 0,333333333 6 7 0,1667 8,333333333 0,213333333 n= 50 funzione test χ2= 2,8 livello di significativita' α= 0,05 valore critico χ c 2= 11,07049769 Confrontare χ 2 col valore teorico nel caso di dadi equi risultato: si accetta l'ipotesi nulla gradi di libertà = 5(perché occorre conoscere 5 per ottenere anche la sesta) INV.CHI(0,05;5) = 11,07049769 2,8 < 11,07049769 quindi ACCETTO 10
Con la funzione TEST.CHI TEST.CHI(B2:B7;D2:D7) = 0,731 Indica direttamente che il valore di χ 2 corrisponde a χ 2 0,731 Dato che 0,731 > 0,05: ACCETTO! Uso la funzione: SE(D11>D10; "ACCETTO H 0 ";"RIFIUTO H 0 ") Per casa Rivedete tutta la lezione 6 e anche l esempio alla fine (relazione tra l influenza e prendere o meno l autobus) 11