LEZIONI DI STATISTICA

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "LEZIONI DI STATISTICA"

Transcript

1 LEZIONI DI STATISTICA Lezione 1: Cenni di probabilita Diego di Bernardo Edito da Vincenza Maselli

2 CENNI DI PROBABILITÀ La probabilità è la teoria matematica alla base della statistica. DEFINIZIONI S SPAZIO DI CAMPIONI: insieme di tutti i possibili risultati di un esperimento. Esempi: DADO: MONETA: S = { 1,,3,4,5,6 } S = { testa,croce} MONETE: S={(testa,testa) (testa,croce) (croce,testa) (croce,croce)} X VARIABILE ALATORIA, valori di S x i è il valore assunto dalla v. a. X nell esperimento i. Viene anche chiamato realizzazione. X S può assumere uno dei PROBABILITÀ: { } s = x 1,x...,x N x i S P( X = x i ) [ 0,1] P ha le seguenti proprietà: 1. P(X = x 1 ) + P(X = x ) P(X = x n ) =1. N i=1 i,p(x = x i ) 0,1 P(X = x i ) [ ]

3 Esempi: S = { testa,croce} x i P( x i ) X S testa 1/ croce 1/ Due dadi: abbiamo bisogno di due variabili aleatorie { } S = 1,,3,4,5,6 X S Y S { } (X,Y) SxS = (1,1),(1,),(1,3)... (x i, y i ) 1 1 1/36 1 1/ / / / /36 1 1/36 P(X = x i,y = y i ) Osserviamo: P(X =1,Y = ) = 1 36 = = P(X =1)P(X = ) REGOLA 1: P(A,B) = P(A)P(B) SE E SOLO SE A e B sono INDIPENDENTI

4 Esempio: { } S = blu,verde,marrone X S v. a. colore occhio sinistro, Y S v. a. colore occhio destro P(X = blu) = P(X = verde) = P(X = marrone) = 1 3 P(X = marrone,y = marrone)? = P(X = marrone)p(y = marrone) = 1 9 è vero? Chiediamo: Nome X(o. s) Y(o. d.) 1) M M ) M M 3) M M P(X = marrone,y = marrone) =1 X ed Y non sono INDIPENDENTI REGOLA : P(A,B) = P(A)P(B / A) = P(B)P(A /B) P(X = marrone,y = marrone) = P(X = marrone)p(y = marrone / X = marrone) = 1/3*1 = 1/3 REGOLA 3: P(A oppure B) = P(A) + P(B) Esempio: DADO: S = 1,,3,4,5,6 { } X S P(X =1 oppure X = ) = P(X =1) + P(X =1) = = 1 3

5 CALCOLO DELLE PROBABILITÀ Se ho N possibili risultati nello spazio S tutti equiprobabili allora P(X = y i ) = 1 N POTENZA: N = n k numero di elementi di S per l unione di k esperimenti, dove ogni esperimento ha n possibili risultati. Esempio: Lancio di due dadi Ogni dado ha n = 6 possibili risultati, quindi per due (k=) dadi avrò N= 6 = 36 possibili risultati. Lancio di 3 dadi N = 6 3 Lancio di 3 monete N = 3 Definizione matematica: FATTORIALE n!= (n)(n 1)(n )...*1 Esempi: 3! = 3**1=6 10! = 10*9*8*7*6*5*4*3**1 100! = troppo grande!

6 COMBINAZIONI N = n! (n k)!k! combinazioni di k oggetti da n oggetti Esempio: k = coppie di topi n = 3 topi topo verde topo nero topo rosso 3! (3 )!! = 6 1* = PERMUTAZIONI N = n! (n k)! permutazione di k oggetti Esempio: Coppie di topi 3! (3 )! = 6 1 =

7 PERMUTAZIONI CON RIPETIZIONI POTENZA N = n k 3 =

8 DESCRIZIONE DI VARIABILE ALEATORIA X S X = x i S P( X = x i ) [ 0,1] v. a. P(X = x i ) = p i VALORE ATTESO O MEDIA PESATA µ x E(X) = p i x i N i=1 = P1x1+Px+ +PnXn Esempio: DADO S = { 1,,3,4,5,6 } X S E(X) = = 1 6 = 7 = 3,5 PROPRIETÀ DI LINEARITÀ: E(aX ± by) = ae(x) ± be(y) Esempio: somma di due dadi E(X + Y) = E(X) + E(Y) = 7

9 MEDIANA: X M M(X) = P(X = x i > x M ) = P(X = x i < x M ) Esempio: DADO a 7 facce X M = 4 S = { 1,,3,4,5,6,7 } P(x i > X M ) = P(x i = 5) + P(x i = 6) + P(x i = 7) = 3 7 P(x i < X M ) = P(x i =1) + P(x i = ) + P(x i = 3) = 3 7 Per gli spazi di S con N pari si usa la media dei valori centrali VARIANZA N σ VAR(X) = E[(X µ x x ) ] = p i (x i µ x ) i=1 µ x E(X) DEVIAZIONE STANDARD σ = x σ STD(X) = x VAR(X)

10 X Y STD(X) STD(Y) µ x µ y µ x µ y σ x = σ y X Y µx = µy µ x = µ y σ x σ y

11 PROPRIETÀ: VAR(aX + by) = a VAR(X) + b VAR(Y) + abe[(x µ x )(y µ y )] COV(X,Y) Se X, Y sono indipendenti COV(X,Y) = 0 STD X Y = X Y VAR(X) X + VAR(Y) Y STD(X + Y) STD(X) + STD(Y) STD(X ± Y) = VAR(X) + VAR(Y)

12 DISTRIBUZIONE DI PROBABILITÀ La funzione di probabilità può assumere diverse forme : P(X) UNIFORME P(X) v. a. discreta TRIANGOLARE Se X è un numero reale (es: misura dell espressione di un gene) f(x) b UNIFORME PARAMETRI a v.a. continua f(x) σ x PARAMETRI GAUSSIANA O NORMALE µ x

13 LEZIONI DI STATISTICA Lezione : Statistica Diego Di Bernardo Edito da Vincenza Maselli

14 STATISTICA Che cos è la statistica? A cosa serve? Esempio: Gene A: v.a. X P(X = x i ) Domanda: Il gene A è espresso oppure no nel topo wt? Quanto è espresso? Esperimento: è espresso? Quanto? Risposta classica SI oppure NO gene A = 4 Risposta statistica Si (96%) e NO (4%) gene A = 4,1 ± 0, INFERENZA STATISTICA: stima di P(X) dalle misure sperimentali Per dare la risposta statistica dobbiamo conoscere P(X). MA NON LA CONOSCIAMO! Come posso fare? Soluzione 1: Ripeto lo stesso esperimento molte volte, (L) Problema Devo fare troppi esperimenti P(X) 50% Numero di volte che il gene A è compreso tra 0 e 1 diviso il numero di esperimenti K/L 40% % 4% 1% 1% Gene A Soluzione : Cerco di stimare solo alcune proprietà di X, come la media E(X) e la varianza E[(X-E(X)) ]

15 STIMA DELLA MEDIA X v. a. P(X) X = { x 1, x,...,x n } Problema µ x = E(X) = P 1 x P n X n Non conosco P 1,P,,P n Soluzione: eseguo L misure di X e stimo µ x da queste L osservazioni: STIMA DELLA MEDIA ˆ µ x = a 1 + a a L L Perché è solo una stima? µ x = P 1 x 1 + P x P n X n Tutti i possibili valori di X, cioè gli elementi di S Nella stima invece conosco solo alcuni (L) degli elementi di S e non conosco P i che quindi assumo essere 1 L STIMA DELLA VARIANZA σ ˆ x = (a 1 ˆ µ x ) + (a ˆ µ x ) (a L ˆ µ x ) L 1 STIMA DELLA DEVIAZIONE STANDARD ˆ σ x = σ ˆ x

16 PROPRIETÀ ˆ µ x +y = ˆ µ x + ˆ µ y σ ˆ x +y = σ ˆ x + σ ˆ y

17 INFERENZA DELLA MEDIA ED INTERVALLI DI CONFIDENZA INTERVALLO DI CONFIDENZA: intervallo che contiene i valori più probabili della grandezza che ho stimato. 1. L misure dell espressione del gene A: a 1, a,, a L. STIMO la media 3. STIMO la varianza ˆ µ A = a 1 + a a L L σ A è la VERA VARIANZA dove µ A è la VERA MEDIA σ ˆ A = (a ˆ 1 µ A ) + (a ˆ µ A ) (a L ˆ µ A ) L 1 dove 4. Voglio trovare l intervallo che contiene i valori più probabili della vera media Come faccio? µ A cioè ˆ µ A ± K. STIMO la varianza di µ A : ˆ σ ˆ µ A = σ a1 +a +...+a L L per la proprietà additiva ˆ σ ˆ µ A σ a1 L = ˆ σ a L + ˆ ˆ σ al L = L σ ˆ A L σ = ˆ A L

18 ERRORE STANDARD: deviazione standard della stima della media σ σ ˆ µ ˆ A = ˆ A L OSSERVA: σ ˆ µ ˆ A σ ˆ A infatti σ ˆ A è la stima di σ A mentre σ ˆ µ ˆ A è la stima di σ ˆ µ A Se L è molto grande, ˆ σ ˆ µ A σ = ˆ A L = 0 mentre ˆ σ A = σ A Quindi più misure faccio, meno errore commetto nella stima di µ A REGOLA PRATICA: valori di ˆ σ ˆ µ A ± ˆ A L contiene circa il 96% dei possibili µ A. Cioè ho il 96% di probabilità che il VERO VALORE di cada in questo intervallo. µ A

19 Esempio Strumento di misura: GENE-O-MATIC S = { 1,,3,4,5,6,...,0} 1 = poco espresso 0 = molto espresso gene A quando è espresso P 1 =0.1 P =0.05 P 3 =0.1 P 4 =0.4 P 5 =0.0 P 0 =0. P 1 =numero di volte che uscito 1 / numero di misure P =numero di volte che uscito / numero di misure µ gene A =0.1*1+0.05*+ +0.*0=4.1 Strumento di misura: SUPER-GENE-O-MATIC non fa errori!!! S = { 1,,3,4,5,6,...,0} 1 = poco espresso 0 = molto espresso gene A quando è espresso P 1 =0 P =0 P 3 =0 P 4 =4 P 5 =0 P 0 =0 µ gene A =0*1+0*+0*3+1*4 +0*19+0*0=4

20 Esempio: espressione del gene A (in verde il primo esempio con L = in blu il secondo esempio con L = 3) stima MEDIA della X Controllo µ^ Y Trattamento = x = 14 = 7 ^ µ x = = = 14 stima della MEDIA stima VAR stima VAR stima STD stima STD ^ ^ µ x = = = 7 µ x = = = ^ (6 7) + (8 7) 1+ 1 ^ (10 14) + (18 14) σ x = = = σ x = = = ^ (6 7) + (8 7) + (7 7) 1+ 1 ^ (10 14) + (18 14) + (14 14) 3 σ x = = = 1 σ x = = = ^ σ x = 1.4 σ x = ^ σ x = 1 1 σ x = 16 4 ^ ^ errore standard σ^ µ^ = x =1 ^ σ µ x = = 4 ^ 3 errore standard ^ 1 ^ ^ ^ 16 σ µ x = = 0.6 σ µ x = = risultato 7±1 14±4 risultato 7±0.6 14±.3 Errore che faccio nello stimare la media

21 e il fold change? che errore faccio? Cioè qual è l errore standard? µ ˆ y µ ˆ x = 14 7 = ˆ σ µ ˆ y ˆ µ = ˆ y σ ˆ ˆ µ ˆ x µ x ˆ σ µ ˆ y µ x µ + ˆ x ˆ µ y = RISULTATO: ±0.64

22 LEZIONI DI STATISTICA Lezione 3: t-test Diego Di Bernardo Edito da Vincenza Maselli

23 Il gene a è espresso nel tessuto? t-test PROCEDURA PER IL t-test: TWO TAILEGDT-TEST (1) Eseguiamo L misure: a 1,a,...,a L () Calcoliamo la stima della media: ˆ µ A = a 1 + a a L L (3) Calcoliamo la stima della deviazione standard: σ ˆ A = (a 1 ˆ µ A ) + (a ˆ µ A ) (a L ˆ µ A ) L σ (4) Calcoliamo l errore standard: S.E.= ˆ A L (5) Formuliamo l ipotesi nulla: H 0 :µ 0 A = 0 (il gene non è espresso) (6) Calcoliamo la statistica t: t = µ ˆ 0 ( A µ A ) S.E. ( ) µ = ˆ 0 A µ A ˆ σ A L µ A = ˆ ˆ (7) Se t allora p 0.04 (il gene a è espresso con σ A L p 0.04) EXCEL BOX

24 CONFRONTO TRA DUE POPOLAZIONI t-test paired e unpaired t-test Problema: a 1,a,...,a N b 1,b,...,b N A B Esempio: misura dell espressione di un gene in due topi diversi, wt e ko IPOTESI NULLA: H : 0 µ = Ci sono 3 modi per affrontare il problema, a seconda dei casi: CASO 1. PAIRED t-test: si usa nel caso in cui le misure nei due esperimenti possono essere suddivisi in coppie. Quindi N = M. *** Esempio 1: Voglio sapere se un nuovo farmaco ha un effetto migliore rispetto ad uno tradizionale Esempio : voglio sapere se un gene è più espresso in un occhio trattato rispetto ad uno non trattato PROCEDURA PAIRED T-TEST: A µ Esempio: il gene di interesse non B varia, cioè non è diferenzialmente espresso nei due topi 1. Dalle L coppie di misure calcolo H 0 : µ Z = 0 Z 1 = a 1 b 1 Z = a b Z L = a L b L µ Z = µ A µ B = 0 µ A = µ B. 7. Come prima (con Z invece di A) EXCEL BOX

25 CASO 3. UNPAIRED t-test (VARIABILE DISEGUALE): si usa nel caso generale in cui ho due misure indipendenti. a 1,a,...,a N b 1,b,..,b M (gene nel topo wt) (gene nel topo ko) Assumo che σ A σ B H 0 : µ a = µ b µ a µ a = 0 = µ a b IPOTESI NULLA PROCEDURA UNPAIRED T-TEST (VARIANZA DISEGUALE) 1. Eseguo N misure. Calcolo la stima della media a 1,a,...,a N e M misure b 1,b,...,b M ˆ µ A = a + a a N N ˆ µ B = b + b b 1 M M ˆ µ A ˆ µ B = ˆ µ A B 3. Calcolo la deviazione standard σ ˆ A = (a ˆ µ 1 A ) + (a ˆ µ A ) (a L ˆ µ A ) N 1 σ ˆ B = (b ˆ µ + (b 1 B ) ˆ µ B ) (b M ˆ µ B ) M 1 4. Calcolo la deviazione standard di ˆ µ A ˆ µ B = ˆ µ A B (errore standard) σ ˆ σ ˆ µ ˆ A B = σ ˆ µ ˆ A + σ ˆ µ ˆ B = A N + σ ˆ B M 5. Calcolo della statistica t = ˆ µ ˆ µ ˆ µ A B σ ˆ A N + σ ˆ = A ˆ µ B S.E B A + S.E. B M

26 6. Se t allora p 0.04 Approssimativamente Meglio usare un programma tipo Excel EXCEL BOX ATTENZIONE: è meglio NON USARE MAI questo caso 3. L ipotesi di varianze diseguali è pericolosa, perché significa che le due popolazioni (cioè due set di misure) non sono confrontabili!

27 CASO. UNPAIRED T-TEST (VARIANZE UGUALI): si usa nelle stesse condizioni del caso 3, cioè due serie di misure indipendenti. ATTENZIONE usare SEMPRE questo al posto del caso 3! H 0 : µ a = µ b µ a µ a = 0 = µ a b Ipotesi nulla PROCEDURA UNPAIRED T-TEST (VARIANZE UGUALI) Come il caso 3 1. Eseguo N misure a 1,a,...,a N e M misure b 1,b,...,b M. Calcolo la stima della media ˆ µ A, ˆ µ B e ˆ µ A ˆ µ B = ˆ µ A B 3. Calcolo la deviazione standard σ ˆ A, σ ˆ B 4. Calcolo DELL ERRORE STANDARD COMBINATO, PSE (Pooled Standard Error) (N 1) σ ˆ µ ˆ A B = σ ˆ + (M 1) σ ˆ A B 1 N + M N + 1 M E un modo alternativo a quello del caso 3, ma molto più preciso se le varianze sono uguali. 5. Calcolo della statistica t = ˆ µ ˆ µ A B σ ˆ µ ˆ A B 6. Se t allora usiamo excel EXCEL BOX

28 LEZIONI DI STATISTICA Lezione 4: ANOVA Diego di Bernardo Edito da Vincenza Maselli

29 Riepilogo T-test 1) Il gene A è espresso nel topo wt? S.E. σ ˆ L STATISTICA T t = ˆ µ p 0,04 σ ˆ L 0 ˆ µ S.E. σ ˆ L IPOTESI NULLA H 0 : µ = 0 0 ˆ µ Più è grande questa distanza, più l ipotesi nulla è inattendibile, cioé più piccolo è il p-value ) Confronto tra due popolazioni (il gene A è differenzialmente espresso nel topo wt vs il topo ko) H 0 : µ wt = µ ko µ wt µ ko = 0 CASO ( il caso 3 non si usa mai) t = ˆ µ ˆ wt µ ko S.E. pooled S.E.pooled = ( N 1) σ ˆ wt + (M 1) σ ˆ ko N + M 1 N + 1 M 0 S.E wt ˆ µ wt S.E ko ˆ µ ko

30 S.E pooled 0 ˆ µ wt ˆ µ ko Per l ipotesi nulla S.E pooled 0 ˆ µ wt ˆ µ ko Più è grande questa distanza più è piccolo il p-value Cosa significa S.E. pooled? S.E.pooled = σ ˆ pooled = = a 1 µ ˆ wt ( N 1) σ ˆ wt + M 1 N M ( ) ˆ σ ko 1 N + 1 M ( ( N 1) a 1 µ ˆ wt ) ( a N µ ˆ wt ) N 1 a 1,...,a n gene A in wt b 1,...,b n gene B in ko ( ( ) b 1 µ ˆ ko ) ( b M µ ˆ ko ) + M 1 N + M ( ) ( a N ˆ ) + ( b 1 ˆ ) ( b M ˆ ) µ wt N + M µ ko µ ko M 1 Quindi σ ˆ pooled è la stima della deviazione standard usando tutte le misure. Se assumiamo che le varianze sono uguali nelle due popolazioni, allora si possono usare tutte le misure per avere una stima più precisa. =

31 ANOVA: ANalysis Of VAriance Si usa nel caso in cui si voglia confrontare la media in più di due popolazioni (nel caso di due popolazioni si usa il t-test). Esempio: il gene X è differenzialmente espresso tra un topo wt, un topo ko omozigote ed un topo ko eterozigote? oppure c è differenza tra 3 dosi diverse di farmaco nella valutazione della frequenza cardiaca? PERCHÈ NON SI FANNO TUTTI I POSSIBILI T-TEST? Usando tutte le possibili combinazioni di t-test aumento la probabilità di commettere un errore, Esempio: Topo a 5 occhi: o.s.s o.s o.c. o.d o.d.d a 1 b 1 c 1 d 1 e 1 a b c d e a 3 b 3 c 3 d 3 e 3 Facendo tutti I possibili t-test, cioè tutte le possibili combinazioni di due occhi da 5 si ha 5! N = = ( 5 )!! ( 1 3) ( 1 ) = 10 1 = 10 t-test. Se dico che un t-test è significativo quando p < 0.05, significa che acceto il 5% di probabilità di commettere un errore per ogni t-test.

32 Quindi su 10 t-test commetto 0.05*10 = 0.5 errori. Sei il topo avesse 10 10! occhi N sarebbe N = ( 10 )!! = = 45, cioè almeno 45*0.05 =.5 t-test saranno sbagliati.

33 Gene x nel topo wt Gene x nel topo ko omozigote Gene x nel topo ko eterozigote a 1,a,...,a N b 1,b,...,b M c 1,c,...,c L N misure M misure L misure ˆ ˆ ˆ µ wt µ o µ e ˆ µ wt ˆ µ o ˆ µ e ˆ µ wt ˆ µ e ˆ µ o ˆ µ wt ˆ µ e ˆ µ o IPOTESI NULLA: H 0 : ˆ µ wt = µ ˆ o = µ ˆ e Assumiamo uguale varianza Come caso del t-test LE MEDIE SONO UGUALI. L IPOTESI NULLA SARÀ RIFIUTATA SE ALMENO UNA MEDIA È DIVERSA DALLE ALTRE. L idea su cui si basa questa procedura è un confronto tra quanto variano le medie rispetto alla variazione delle misure. Cioè se le medie sono distanti tra loro rispetto agli S.E., allora H 0 verrà rifiutata con p value piccolo. Eseguo N misure c 1,c,...,c L a 1,a,...,a N, M misure b 1,b,...,b M ed L misure

34 Calcolo le stime delle medie: la media globale: e le stime delle deviazioni standard: ˆ µ wt = a a N N ˆ µ o = b b M M ˆ µ e = c c L L ˆ µ glo = a a N + b b M + c c L N + M + L σ ˆ wt, σ ˆ o, σ ˆ e Calcolo l errore standard combinato al quadrato (detto anche Mean Square Error MSE): ˆ σ µ ˆ glo = N 1 ( ) ( a N ˆ ) ( b 1 ˆ ) ( b M ˆ ) + ( c 1 ˆ ) ( c L ˆ ) = a 1 µ ˆ wt ( ) ˆ σ wt ( ) ˆ µ wt ( ) ˆ + M 1 σ o + L 1 N + M + L 3 σ e µ o N + M + L 3 1 N + 1 M + 1 L σ ˆ ˆ µ glo ci da un idea di quanto sono variabili le nostre misure. µ o µ e µ e 1 N + 1 M + 1 = L Un modo alternativo di calcolare σ ˆ ˆ µ glo quando H 0 è vera è calcolarlo direttamente dalle medie, invece che dalle misure: Mean Square For Treatments (MSTR): σ ˆ ˆ µ alt = N ( ˆ µ wt µ ˆ glo ) + M ( µ ˆ o ˆ µ glo ) + L( µ ˆ e µ ˆ glo ) N + 1 M + 1 L abbiamo usato la classica formula della varianza, ma pesata. ˆ σ ˆ µ alt ci da un idea di quanto sono variabili le misure. Calcoliamo la statistica σ F = ˆ ˆ µ alt se H ˆ 0 è vera allora σ ˆ µ glo ˆ σ ˆ µ alt σ ˆ = ˆ µ glo e quindi F = 1.

35 Più F > 1 più posso rifiutare H 0 con un p-value più piccolo. SE IL P-VALUE È SIGNIFICATIVO ( CIOÈ POSSO DIRE CHE NON È VERO CHE p 0.05) POSSO RIFIUTARE H0, ˆ µ wt = µ ˆ o = ˆ µ e MA NON SO DIRE SE TUTTE LE MEDIE SONO DIVERSE OPPURE SOLO UNA È DIVERSA DALLE ALTRE.

36 EXCEL BOX: TAVOLA DI ANOVA ANOVA: single factor alpha = 0.05 DATI wt o e VALORE DEL P-VALUE AL DI SOTTO DEL QUALE RIFIUTIAMO H 0 Source of variation Between groups Within groups ANOVA TABLE SS df MS F P Fcrit ˆ σ ˆ 3-1 µ alt ( N 1) ˆ + ( M 1) σ ˆ o + ( L 1) ˆ σ wt σ e N+M+L-3 SS df = MST R σ ˆ σ ˆ MST R MSE = ˆ ˆ µ alt µ glo p-value SS df = MSE Total somma somma valore di F per avere p =0.05

37 MULTIPLE HYPOTHESIS TESTING PROBLEM Esempio: micorarray con geni. Voglio i geni differenzialmente espressi. TRATTATO CONTROLLO 3 replicati 3 replicati 3 MA 3 MA Gene1 a 1,1,a 1,,...,a 1,0.000 b 1,1,b 1,,...,b 1,0.000 t-test t 1 Gene a,1,a,,...,a,0.000 b,1,b,,...,b,0.000 t-test t Gene0000 a 0.000,1,a 0.000,,...,a 0.000,0.000 b 0.000,1,b 0.000,,...,b 0.000,0.000 t-test t Faccio 0000 t-test. Assumo che ogni t-test è significativo se p 0.05 (probabilità del 5% di sbaglaire, cioè di dire che un gene è differenzialmente espresso quando non lo è). In uqesto modo commetto 0.05*0000=1000 errori, quindi sbaglio almeno 1000 geni

38 BONFERRONI CORRECTION E molto semplice. Vistoche un p<0.05 non e un criterio molto stringente quando eseguo molti t-test simultaneamente (come nel caso dei microrray) faccio una correzione: p bonferroni = α N dove α e il valore limite di p al di sotto del quale considero significativo il test (di solito α =0.05). N e il numero di t-test che eseguo simultaneamente (di solito N=numero di geni sul microarray). Quindi diro che il gene X e differenzialmente espresso se il suo p value e : p genex < p bonferroni = α N La Bonferroni correction funziona, ma e troppo stringente, cioe pochi gene risultano significativi, e molti sono scartati ingiustamente. False Discovery rate Un modo alternativo e calcolare una quantita chiamata FDR. Si calcola cosi, per ogni gene i nel microarray, prendiamo il suo valore p i e calcoliamo: FDR i = p i *K i N dove N e il numero di geni nel microarray e K i e il numero di gene che hanno un valore p minore di quello del gene in questione, cioe minore di p i.

39 FDR varia tra 0 e 1. Possiamo ora scegliere i geni in base al loro FDR invece che il valore p. Se ad esempio prendiamo tutti i geni con un FDR<0.1, di questi saranno veramente differenzialmente espressi solo il 90% (0.9) mentre il 10% (0.1) saranno falsi positivi. Se scegliamo FDR<0., allora dei geni selezionati l 80% saranno differenzialmente espressi, mentre il 0% (0.) saranno falsi positivi.

40 LEZIONI DI STATISTICA Lezione 5: Correlazione Lineare e Regressione Lineare Diego di Bernardo Edito da Vincenza Maselli

41 CORRELAZIONE LINEARE Si usa per capire se c è una associazione tra due variabili. Esempio 1. In un esperimento di microarray misuro la serie temporale di N geni (graf. 1). Voglio sapere quali geni si comportano allo stesso modo. Voglio sapere se c è un associazione tra il gene e il gene 1 e tra il gene e il gene 3 (graf ). Grafico t Grafico Gene 1 Gene 3 Osservando questi grafici si può dire che il gene e il gene 1 mostrano un associazione maggiore dei geni e 3, cioè I geni e 1 sono più

42 correlati dei geni e 3. È possibile quantificare questa associazione? Si può calcolare la significatività, ossia un p-value? Esempio. Data una serie di esperimenti di micorarray (ko, stress, drug treatment, etc..) si vogliono trovare dei geni che si comportano come il gene di interesse. (esempio gene della sordità): Gene 1 Gene Gene Per scoprire una correlazione o si osservano tutti i grafici o ci si affida più efficacemente al coefficiente di correlazione.

43 COEFFICIENTE DI CORRELAZIONE. Procedura per il calcolo di r (coefficiente di correlazione): gene 1: gene : a 1,a,...,a N b 1,b,...,b N STESSO NUMERO DI MISURE ˆ µ 1 = a + a a 1 N Calcolo la stima della media: N ˆ µ = b + b b N N (a Calcolo: r = 1 ˆ µ 1 )(b 1 ˆ µ )+...+ (a N ˆ µ 1 )(b N ˆ µ ) [(a 1 ˆ µ 1 ) (a N ˆ µ 1 ) ] (b 1 ˆ µ ) (b N ˆ µ ) Proprietà di r: r varia tra -1 e 1 r =1 r = -1 [ ] Vi ricorda qualcosa? Gene Gene Gene Gene Gene 1 Gene 1 r = 0 r = -0.8 Gene 1 Gene 1

44 r = 0.8 Gene 1 EXCEL BOX Posso sapere se l associazione tra i due geni è significativa? IPOTESI NULLA: H 0 : r = 0 I DUE GENI NON SONO CORRELATI Clacolo la statistica: t = r N 1 r Non chiedete perché Applico il classico t test che mi da il p-value: EXCEL BOX Attenzione! Va usato N- Esempio: Il gene 1 e il gene sono correlati: r = 0,76 p 0,05

45 ATTENZIONE: CORRELAZIONE NON IMPLICA CAUSALITÀ! Esempio: Cocktail Party Dopo un party alcune delle persone si ammalano. Un medico intervista le persone ammalate e misura il consumo di vino e di noccioline ed il livello dei sintomi. CORRELAZIONE CAUSALITÀ CORRELAZIONE Il medico trova che più vino le persone hanno bevuto più sono gravi i sintomi: cioè vino e sintomi sono correlati. r = 0,68 p 0,05 Consumo di vino

46 Questo porterebbe a pensare che sia stato il vino a causare la malattia. In realtà la causa sono le noccioline, le persone ammalate hanno mangiato più noccioline delle altre e di conseguenza hanno bevuto più vino!

47 SPEARMAN RANK-ORDER CORRELATION COEFFICIENT: r si può calcolare come prima e si può fare il t-test solo nell ipotesi che la distribuzione delle due variabili sia binormale: Gene 1 Gene Non sempre questo è vero, nei casi in cui non è vero si può procedere così: Procedura per il calcolo di r S : Spearman Correlation Coefficient Gene 1: Gene : a 1,a,...,a N b 1,b,...,b N Ordiniamo i valori in modo crescente, (facciamo il rank dei valori): Esempio: a 1 = 3,5 a =1, a 3 = 0,7 a 4 =,9 b 1 = 0,75 b = 0,7 b 3 = 0,4 b 4 =1, R a 3 = 0,7 1 a =1, a 4 =,9 3 a 1 = 3,5 4 S b 3 = 0,4 1 b = 0,7 b 1 = 0,75 3 b 4 =1, 4 R= rank gene 1 S = rank gene

48 Procediamo come prima ma invece di utilizzare a 1, b 1, etc usiamo R e S R ˆ = R + R R 1 N N ˆ S = S 1 + S S N N r S = ( r 1 R ˆ )( s 1 S ˆ )+...+ r N R ˆ ( r 1 R ˆ ) ( r N R ˆ [ ) ] s 1 ˆ ( )( s N S ˆ ) ( S ) ( s N S ˆ ) [ ] Calcoliamo EXCEL BOX t = r S N 1 r S Quando non usare la correlazione lineare: Gene Se otteniamo un grafico di questo tipo appare ovvio che non ha senso tentare di approssimare al curva ad una retta Bisogna sempre guardare i dati prima di farci qualcosa!!!

49 REGRESSIONE LINEARE Si usa per capire se c è una associazione tra una variabile (misura) ed un parametro di controllo. Esempio: Vettore inducibile Promotore inducibile dalla tetraciclina GFP GFP i = a TET i + b a =? b =? [tetraciclina] µl Vogliamo trovare la linea migliore che passa attraverso i punti. Il trucco è trovare la linea che passa più vicino ai miei punti. distanza GFP i GF ˆ P i a+ b(1µl) TET i

50 Cerco la linea che minimizza la somma al quadrato delle distanze, cioè che GFP i a btet i ( ) ( GFP N a btet N ) sia minima. Procedura per la regressione lineare y i = a+ bx i x 1, x,...,x N y 1,y,...,y N ˆ µ x ˆ µ y Clacolo b ˆ = x ˆ 1 a ˆ = ˆ µ y b ˆ ˆ µ x Errore standard di S.E. b = σ ˆ ˆ b ± S.E. b S xx ( )+...+ ( x N ˆ µ x )( y N ˆ µ y ) = S ( x 1 ˆ µ x ) ( x N ˆ µ x ) xx ( µ x ) y i ˆ µ y ˆ b σ ˆ = y a bx i i Posso testare l ipotesi nulla: H 0 : b = 0 ( ) ( y N a bx N ) EXCEL BOX N t = ˆ b S.E. b = b ˆ σ ˆ S xx p-value y i = a+ bx i Quanto è buona la linea? Residual sum of squares SS resid ( ) ( y N y ˆ N ) = y 1 y ˆ 1

51 Y ˆ y 1 Errore y 1 x i x Che relazione c è tra regressione lineare ed il coefficiente di correlazione? ( µ y ) ˆ y 1 R = y ˆ ˆ i y 1 ˆ r = R ( y N ˆ µ y ) = SS reg ( ) ( y N y ˆ N ) SS resid y ˆ EXCEL BOX LINREG(Y i :Y N ;X i :X N ;T RUE;TRUE) F =t TDIST( F i ; N-; )

52 LEZIONI DI STATISTICA Lezione 6: Metodi non parametrici Diego di Bernardo Edito da Vincenza Maselli

53 METODI NON-PARAMETRICI Tutto quello che abbiamo detto fino a questo punto è valido fino ad un certo punto, c è un piccolo imbroglio Abbiamo implicitamente assunto che le nostre misure avessero una distribuzione GAUSSIANA (o NORMALE). Che significa? Gene X Misure di espressione: a 1, a,,a N Gauss era sulla banconota da 10 marchi tedeschi I dati sono distribuiti come una gaussiana se l istogramma: E Simmetrico Ha forma a campana Max { a 1, a,,a N } Numero di volte che le nostre misure sono contenute in un questo intervallo Esempio: Gene X: 0,15 0,18 0, 0,14 0,0 0,31 0, ,1 0, 0,31 Se i dati non sono distribuiti come una gaussiana, TUTTO QUELLO CHE ABBIAMO DETTO NON È VALIDO! Cioè non possiamo fare t-test, anova, correlazione Cosa si può fare allora in questi casi? Imbroglio e me ne frego! (lo fanno in molti!!!)

54 Utilizzo metodi che non richiedono questa ipotesi.

55 WILCOXON SIGNED RANK Questo test è equivalente al t-test per una singola popolazione (T- DIST). Si usa per rispondere alla domanda: È LA MEDIA DELLA MIA MISURA DIVERSA DA ZERO? Esempio: è il gene X espresso nel topo wt? Procedura per il Wilcoxon Signed Rank: ho le mie misure (controllo che l istogramma sia più o meno simmetrico, non c è bisogno che sia a campana). H 0 : µ = 0 IPOTESI NULLA Calcoliamo ˆ µ x = a + a a 1 N N calcolo la differenza dei miei dati dalla media µ: d 1 = a 1 ˆ µ x d = a ˆ µ x d N = a N ˆ µ x calcolo i rank delle distanze: d 1 =1, ad esempio: se d = 0,8 d 3 =,4 d 4 = 0,9 li ordino dal più piccolo al più grande: R 1 = R( d 1 ) = 3 R = R( d ) = e quindi: R 3 = R d 3 ( ) = 4 ( ) =1 R 4 = R d 4 R 1,R,...,R N sono tutti numeri tra 1 e N d 4 < d < d1 < d3

56 calcolo la statistica d i > 0 S t = somma degli R i che hanno le differenze ( ) Osserva: N = N N +1 = R 1 + R R N Se la media µ = 0, cioè se H 0 è vera allora S t = N ( N +1 ) = R + R R 1 N 4 Esempio: x x x x x x x x x 0 x x x x x x x 0 Calcolo la σ di S t (perchè asumo che S t ha una distribuzione gaussiana, se uso un computer per fare i calcoli questa ipotesi non è necessaria). σ St = N ( N +1 )( N + ) 4 calcolo la statistica se Z > il p 0,04 Z = S t > N ( N +1 ) 4 ( ) S t < N N +1 4 S t N ( N +1 ) 4 = σ St S t N ( N +1 ) 4 N N +1 ( )( N + ) 4 oppure uso EXCEL EXCEL BOX Z > 0 Z < 0 *NORMDIST(Z) = p-value *(1-NORMDIST(Z)) = p-value

57 Se p 0,05 dico che espresso!!! H 0 : µ = 0 non è vera e quindi il mio gene è

58 MANN-WHITNEY TEST Si usa per confrontare la media tra due popolazioni. È l equivalente di un t-test. Esempio: è il gene X differenzialmente espresso in un topo wt e uno ko? a 1,a,...,a N b 1,b,...,b M wt ko PROCEDURA PER IL MANN-WITHNEY TEST: a 1,a,...,a N H 0 : µ A = µ B b 1,b,...,b M calcolo i rank R delle misure combinate cioè metto tutto assieme a 1,a,...,a N,b 1,b,...,b M. Ordino dal più piccolo al più grande e assegno i rank R 1,R,...R N +M Esempio: a 1 =1 a =,3 a 3 = 0,9 b 1 = 0,1 b =1,7 b 3 =1, R= b1 < a3 < a1 < b3 < b < a calcolo la statistica S A = soma degli R delle misure a Esempio: S A = R( a 1 )+ R( a )+ ( a 3 ) = =11 calcolo ( ) U A = S A N N +1

59 Esempio: U A =11 3 ( 3+1 ) U A varia tra 0 e NM =11 6 = 5 U A = 0 se tutte le misure a 1,a,...,a N sono sempre minori di b 1,b,...,b M U A = NM se a 1,a,...,a N sono sempre maggiori di b 1,b,...,b M Se H 0 è vera U A NM calcolo la statistica calcolo il p-value Z = U A NM NM M + N +1 ( ) 1 EXCEL BOX Z > 0 Z < 0 *NORMDIST(Z) = p-value *(1-NORMDIST(Z)) = p-value

60 KRUSKAL-WALLIS TEST Si usa per confrontare 3 o più popolazioni. È l equivalente dell ANOVA: Esempio: è il gene X differenzialmente espresso nel topo wt, O ed E? PROCEDURA PER IL KRUSKAL-WALLIS TEST: a 1,a,...,a N, b 1,b,...,b M c 1,c,...,c L Calcolo i rank delle misure combinatorie (come pr il MW test) R 1, R,...R N +M +L calcolo la media dei rank per le misure a, b e c, R a, R b e R c. calcolo la statistica H. 1 H = N + M + L calcolo il p-value ( )( N + M + L +1) NR a + MR ( b + LR c ) 3 N + M + L 1 ( ) EXCEL BOX CHIDIST(H,K) = p-value K = numero di popolazioni 1 (nel nostro esempio K = 3 1 = )

61 PARAMETRICI VERSO NON PARAMETRICI Parametrici Non Parametrici Singola Popolazione T-DIST WILCOXON SIGNED RANK Due Popolazioni T-TEST MANN-WHITNEY TEST Tre o più Popolazioni ANOVA KRUSKAL-WALLIS TEST Correlazione CORREL R PEARMAN RANK CORRELATION

Test non parametrici. Test non parametrici. Test non parametrici. Test non parametrici

Test non parametrici. Test non parametrici. Test non parametrici. Test non parametrici Test non parametrici Test non parametrici Il test T di Student per uno o per due campioni, il test F di Fisher per l'analisi della varianza, la correlazione, la regressione, insieme ad altri test di statistica

Dettagli

VARIABILI ALEATORIE CONTINUE

VARIABILI ALEATORIE CONTINUE VARIABILI ALEATORIE CONTINUE Se X è una variabile aleatoria continua, la probabilità che X assuma un certo valore x fissato è in generale zero, quindi non ha senso definire una distribuzione di probabilità

Dettagli

Università del Piemonte Orientale. Corsi di Specialità. Corso di Statistica Medica. Analisi dei dati quantitativi : Analisi della varianza

Università del Piemonte Orientale. Corsi di Specialità. Corso di Statistica Medica. Analisi dei dati quantitativi : Analisi della varianza Università del Piemonte Orientale Corsi di Specialità Corso di Statistica Medica Analisi dei dati quantitativi : Analisi della varianza Università del Piemonte Orientale Corso di laurea in biotecnologie

Dettagli

La statistica nella ricerca scientifica

La statistica nella ricerca scientifica La statistica nella ricerca scientifica Pubblicazione dei risultati Presentazione dei dati e la loro elaborazione devono seguire criteri universalmente validi Impossibile verifica dei risultati da parte

Dettagli

Statistica inferenziale

Statistica inferenziale Statistica inferenziale Popolazione e campione Molto spesso siamo interessati a trarre delle conclusioni su persone che hanno determinate caratteristiche (pazienti, atleti, bambini, gestanti, ) Osserveremo

Dettagli

Problema pratico: Test statistico = regola di decisione

Problema pratico: Test statistico = regola di decisione La verifica delle ipotesi statistiche Problema pratico: Quale, tra diverse situazioni possibili, riferite alla popolazione, è quella meglio sostenuta dalle evidenze empiriche? Coerenza del risultato campionario

Dettagli

Elementi di Statistica

Elementi di Statistica Elementi di Statistica Contenuti Contenuti di Statistica nel corso di Data Base Elementi di statistica descrittiva: media, moda, mediana, indici di dispersione Introduzione alle variabili casuali e alle

Dettagli

1. Richiami di Statistica. Stefano Di Colli

1. Richiami di Statistica. Stefano Di Colli 1. Richiami di Statistica Metodi Statistici per il Credito e la Finanza Stefano Di Colli Dati: Fonti e Tipi I dati sperimentali sono provenienti da un contesto delimitato, definito per rispettare le caratteristiche

Dettagli

iovanella@disp.uniroma2.it http://www.disp.uniroma2.it/users/iovanella Verifica di ipotesi

iovanella@disp.uniroma2.it http://www.disp.uniroma2.it/users/iovanella Verifica di ipotesi iovanella@disp.uniroma2.it http://www.disp.uniroma2.it/users/iovanella Verifica di ipotesi Idea di base Supponiamo di avere un idea del valore (incognito) di una media di un campione, magari attraverso

Dettagli

Elaborazione dati in Analisi Sensoriale

Elaborazione dati in Analisi Sensoriale Elaborazione dati in Analisi Sensoriale Si è parlato di interpretazione corretta dei risultati ottenuti; a questo concorrono due fattori: affidabilità e validità. Se i test fossero stati ripetuti con lo

Dettagli

6. Modelli statistici: analisi della regressione lineare

6. Modelli statistici: analisi della regressione lineare BIOSTATISTICA 6. Modelli statistici: analisi della regressione lineare Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk MARTA BLANGIARDO

Dettagli

Analisi statistica degli errori

Analisi statistica degli errori Analisi statistica degli errori I valori numerici di misure ripetute risultano ogni volta diversi l operazione di misura può essere considerata un evento casuale a cui è associata una variabile casuale

Dettagli

Elementi di Calcolo delle Probabilità e Statistica per il corso di Analisi Matematica B

Elementi di Calcolo delle Probabilità e Statistica per il corso di Analisi Matematica B Elementi di Calcolo delle Probabilità e Statistica per il corso di Analisi Matematica B Laurea in Ingegneria Meccatronica A.A. 2010 2011 n-dimensionali Riepilogo. Gli esiti di un esperimento aleatorio

Dettagli

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE STATISTICA DESCRITTIVA SCHEDA N. : REGRESSIONE LINEARE Nella Scheda precedente abbiamo visto che il coefficiente di correlazione fra due variabili quantitative X e Y fornisce informazioni sull esistenza

Dettagli

Analisi statistica di dati biomedici Analysis of biologicalsignals

Analisi statistica di dati biomedici Analysis of biologicalsignals Analisi statistica di dati biomedici Analysis of biologicalsignals II Parte Verifica delle ipotesi (a) Agostino Accardo (accardo@units.it) Master in Ingegneria Clinica LM in Neuroscienze 2013-2014 e segg.

Dettagli

Facciamo qualche precisazione

Facciamo qualche precisazione Abbiamo introdotto alcuni indici statistici (di posizione, di variabilità e di forma) ottenibili da Excel con la funzione Riepilogo Statistiche Facciamo qualche precisazione Al fine della partecipazione

Dettagli

La distribuzione Gaussiana

La distribuzione Gaussiana Università del Piemonte Orientale Corso di Laurea in Biotecnologie Corso di Statistica Medica La distribuzione Normale (o di Gauss) Corso di laurea in biotecnologie - Corso di Statistica Medica La distribuzione

Dettagli

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE Matematica e statistica: dai dati ai modelli alle scelte www.dima.unige/pls_statistica Responsabili scientifici M.P. Rogantin e E. Sasso (Dipartimento di Matematica Università di Genova) PROBABILITÀ -

Dettagli

Abbiamo visto due definizioni del valore medio e della deviazione standard di una grandezza casuale, in funzione dalle informazioni disponibili:

Abbiamo visto due definizioni del valore medio e della deviazione standard di una grandezza casuale, in funzione dalle informazioni disponibili: Incertezze di misura Argomenti: classificazione delle incertezze; definizione di incertezza tipo e schemi di calcolo; schemi per il calcolo dell incertezza di grandezze combinate; confronto di misure affette

Dettagli

La variabile casuale Binomiale

La variabile casuale Binomiale La variabile casuale Binomiale Si costruisce a partire dalla nozione di esperimento casuale Bernoulliano che consiste in un insieme di prove ripetute con le seguenti caratteristiche: i) ad ogni singola

Dettagli

STATISTICA GIUSEPPE DE NICOLAO. Dipartimento di Informatica e Sistemistica Università di Pavia

STATISTICA GIUSEPPE DE NICOLAO. Dipartimento di Informatica e Sistemistica Università di Pavia STATISTICA GIUSEPPE DE NICOLAO Dipartimento di Informatica e Sistemistica Università di Pavia SOMMARIO V.C. vettoriali Media e varianza campionarie Proprietà degli stimatori Intervalli di confidenza Statistica

Dettagli

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi :

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi : Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi dei dati quantitativi : Confronto tra due medie Università del Piemonte Orientale Corso di laurea in

Dettagli

PROBABILITA GIUSEPPE DE NICOLAO. Dipartimento di Informatica e Sistemistica Università di Pavia

PROBABILITA GIUSEPPE DE NICOLAO. Dipartimento di Informatica e Sistemistica Università di Pavia PROBABILITA GIUSEPPE DE NICOLAO Dipartimento di Informatica e Sistemistica Università di Pavia SOMMARIO Probabilità Variabili casuali: distribuzioni, densità, istogrammi Media, varianza, momenti Distribuzione

Dettagli

LEZIONE n. 5 (a cura di Antonio Di Marco)

LEZIONE n. 5 (a cura di Antonio Di Marco) LEZIONE n. 5 (a cura di Antonio Di Marco) IL P-VALUE (α) Data un ipotesi nulla (H 0 ), questa la si può accettare o rifiutare in base al valore del p- value. In genere il suo valore è un numero molto piccolo,

Dettagli

Università del Piemonte Orientale. Corso di dottorato in medicina molecolare. a.a. 2002 2003. Corso di Statistica Medica. Inferenza sulle medie

Università del Piemonte Orientale. Corso di dottorato in medicina molecolare. a.a. 2002 2003. Corso di Statistica Medica. Inferenza sulle medie Università del Piemonte Orientale Corso di dottorato in medicina molecolare aa 2002 2003 Corso di Statistica Medica Inferenza sulle medie Statistica U Test z Test t campioni indipendenti con uguale varianza

Dettagli

Università degli Studi di Milano

Università degli Studi di Milano Università degli Studi di Milano Laurea in Scienza della Produzione e Trasformazione del Latte Note di Calcolo delle Probabilità e Statistica STEFANO FERRARI Analisi Statistica dei Dati Note di Calcolo

Dettagli

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12)

Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 2011-12) Laboratorio R Corso di Algebra e Modelli lineari (Anno Accademico 011-1) REGRESSIONE LINEARE SEMPLICE OPEN STATISTICA 8.44 Per 8 settimanali, appartenenti alla medesima fascia di prezzo e presenti in edicola

Dettagli

Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza

Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza Esercitazione Statistica Computazionale B Modelli di regressione lineare semplice Verifica di ipotesi - Analisi della varianza 3 maggio 2005 Esercizio 1 Consideriamo l esempio del libro di testo Annette

Dettagli

Statistica descrittiva

Statistica descrittiva Statistica descrittiva La statistica descrittiva mette a disposizione il calcolo di indicatori sintetici che individuano, con un singolo valore, proprieta` statistiche di un campione/popolazione rispetto

Dettagli

Statistiche Inferenziali introduzione

Statistiche Inferenziali introduzione 5 Statistiche Inferenziali introduzione (non per statistici!) Ringraziamenti Questi lucidi derivano da adattamenti personali di materiale prodotto (fornitomi o reso scaricabile) da: C. O Dushlaine, S.

Dettagli

S.I.C.S.I. Scuola Interuniversitaria Campana di Specializzazione all Insegnamento VIII ciclo - a.a. 2008/2009. Metodo Monte Carlo

S.I.C.S.I. Scuola Interuniversitaria Campana di Specializzazione all Insegnamento VIII ciclo - a.a. 2008/2009. Metodo Monte Carlo S.I.C.S.I. Scuola Interuniversitaria Campana di Specializzazione all Insegnamento VIII ciclo - a.a. 008/009 Metodo Monte Carlo Laboratorio di Didattica della Matematica Applicata 1 L. Parisi A. Stabile

Dettagli

DISTRIBUZIONI DI VARIABILI CASUALI DISCRETE

DISTRIBUZIONI DI VARIABILI CASUALI DISCRETE DISTRIBUZIONI DI VARIABILI CASUALI DISCRETE variabile casuale (rv): regola che associa un numero ad ogni evento di uno spazio E. variabile casuale di Bernoulli: rv che può assumere solo due valori (e.g.,

Dettagli

Test statistici non-parametrici

Test statistici non-parametrici Test statistici non-parametrici Il test t di Student e l ANOVA sono basati su alcune assunzioni. Variabili continue o almeno misurate in un intervallo (es. non conosco il valore assoluto, ma posso quantificare

Dettagli

Statistica Medica. Verranno presi in esame:

Statistica Medica. Verranno presi in esame: Statistica Medica Premessa: il seguente testo cerca di riassumere e rendere in forma comprensibile ai non esperti in matematica e statistica le nozioni e le procedure necessarie a svolgere gli esercizi

Dettagli

LEZIONI DI STATISTCA APPLICATA. Parte 2. Statistica inferenziale. Variabili continue per continue. Alessandro Valbonesi. SARRF di Scienze ambientali

LEZIONI DI STATISTCA APPLICATA. Parte 2. Statistica inferenziale. Variabili continue per continue. Alessandro Valbonesi. SARRF di Scienze ambientali LEZIONI DI STATISTCA APPLICATA Parte 2 Statistica inferenziale Variabili continue per continue Alessandro Valbonesi SARRF di Scienze ambientali Anno accademico 2010-11 CAPITOLO 7 - RELAZIONI TRA DUE O

Dettagli

Politecnico di Milano Temi d esame di STATISTICA dell AA 2004/2005 per allievi ING INF [2L]. Proff. A. Barchielli, I. Epifani

Politecnico di Milano Temi d esame di STATISTICA dell AA 2004/2005 per allievi ING INF [2L]. Proff. A. Barchielli, I. Epifani Politecnico di Milano Temi d esame di STATISTICA dell AA 004/005 per allievi ING INF [L]. Proff. A. Barchielli, I. Epifani 1 1 STATISTICA per ING INF [L] Proff. A. Barchielli, I. Epifani 0.06.05 I diritti

Dettagli

In una tabella 2 x 2 il valore del chiquadrato, che quantifica la differenza fra i numero osservati e quelli attesi, è la somma delle quattro celle

In una tabella 2 x 2 il valore del chiquadrato, che quantifica la differenza fra i numero osservati e quelli attesi, è la somma delle quattro celle Test statistici il chi quadrato Valutare la differenza tra due percentuali o proporzioni L'ipotesi zero (o ipotesi nulla) afferma che la differenza osservata - di qualsiasi entità essa sia - è dovuta al

Dettagli

Analizza/Confronta medie. ELEMENTI DI PSICOMETRIA Esercitazione n. 7-8-9-107. Test t. Test t. t-test test e confronto tra medie chi quadrato

Analizza/Confronta medie. ELEMENTI DI PSICOMETRIA Esercitazione n. 7-8-9-107. Test t. Test t. t-test test e confronto tra medie chi quadrato Analizza/Confronta medie ELEMENTI DI PSICOMETRIA Esercitazione n. 7-8-9-107 t-test test e confronto tra medie chi quadrato C.d.L. Comunicazione e Psicologia a.a. 2008/09 Medie Calcola medie e altre statistiche

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

LEZIONI DI STATISTCA APPLICATA. Parte 2. Statistica inferenziale. Variabili continue per categoriali. Alessandro Valbonesi

LEZIONI DI STATISTCA APPLICATA. Parte 2. Statistica inferenziale. Variabili continue per categoriali. Alessandro Valbonesi LEZIONI DI STATISTCA APPLICATA Parte 2 Statistica inferenziale Variabili continue per categoriali Alessandro Valbonesi SARRF di Scienze ambientali Anno accademico 2010-11 CAPITOLO 4 - TEST STATISTICI CHE

Dettagli

Viene lanciata una moneta. Se esce testa vinco 100 euro, se esce croce non vinco niente. Quale è il valore della mia vincita?

Viene lanciata una moneta. Se esce testa vinco 100 euro, se esce croce non vinco niente. Quale è il valore della mia vincita? Viene lanciata una moneta. Se esce testa vinco 00 euro, se esce croce non vinco niente. Quale è il valore della mia vincita? Osserviamo che il valore della vincita dipende dal risultato dell esperimento

Dettagli

Statistica. Lezione 6

Statistica. Lezione 6 Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 6 a.a 011-01 Dott.ssa Daniela Ferrante

Dettagli

Capitolo 9: PROPAGAZIONE DEGLI ERRORI

Capitolo 9: PROPAGAZIONE DEGLI ERRORI Capitolo 9: PROPAGAZIOE DEGLI ERRORI 9.1 Propagazione degli errori massimi ella maggior parte dei casi le grandezze fisiche vengono misurate per via indiretta. Il valore della grandezza viene cioè dedotto

Dettagli

Confronto tra gruppi (campioni indipendenti)

Confronto tra gruppi (campioni indipendenti) Confronto tra gruppi (campioni indipendenti) Campioni provenienti da una popolazione Normale con medie che possono essere diverse ma varianze uguali campioni: Test z or t sulla differenza tra medie 3,

Dettagli

ANALISI DI CORRELAZIONE

ANALISI DI CORRELAZIONE ANALISI DI CORRELAZIONE Esempio: Dati raccolti da n = 129 studenti di Pavia (A.A. 21/2) Altezza (cm) Peso (Kg) Voto Algebra e Geometria Voto Fisica I Valutare la correlazione delle seguenti coppie: Peso

Dettagli

Introduzione alla Teoria degli Errori

Introduzione alla Teoria degli Errori Introduzione alla Teoria degli Errori 1 Gli errori di misura sono inevitabili Una misura non ha significato se non viene accompagnata da una ragionevole stima dell errore ( Una scienza si dice esatta non

Dettagli

Calcolo delle probabilità

Calcolo delle probabilità Calcolo delle probabilità Laboratorio di Bioinformatica Corso A aa 2005-2006 Statistica Dai risultati di un esperimento si determinano alcune caratteristiche della popolazione Calcolo delle probabilità

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 10-Il test t per un campione e la stima intervallare (vers. 1.1, 25 ottobre 2015) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia,

Dettagli

2. Analisi Statistica dei Dati

2. Analisi Statistica dei Dati Frequenza e Probabilità Distribuzione di probabilità Media e varianza Regressione statistica Test del χ Correlazione lineare Analisi della varianza Media e varianza multivariata Gaussiana Multivariata

Dettagli

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr.

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr. Corso di Laurea in Scienze e Tecnologie Biomolecolari Matematica e Statistica II Prova di esame dell 11/1/2012 NOME COGNOME N. Matr. Rispondere alle domande nel modo più completo possibile, cercando di

Dettagli

La Statistica come strumento di analisi nelle scienze umanistiche e comportamentali

La Statistica come strumento di analisi nelle scienze umanistiche e comportamentali La Statistica come strumento di analisi nelle scienze umanistiche e comportamentali Elementi di Analisi Multivariata V SCUOLA ESTIVA AISV 5 -- 9 ottobre 009 - Soriano nel Cimino (VT) Sabrina Giordano Dipartimento

Dettagli

ANALISI DEI DATI EPIDEMIOLOGICI

ANALISI DEI DATI EPIDEMIOLOGICI ANALISI DEI DATI EPIDEMIOLOGICI Cenni di statistica Che cosa è la statistica Statistica descrittiva e statistica inferenziale Test statistici di ipotesi Intervalli di confidenza Analisi stratificata TEST

Dettagli

ELEMENTI DI STATISTICA PER IDROLOGIA

ELEMENTI DI STATISTICA PER IDROLOGIA Carlo Gregoretti Corso di Idraulica ed Idrologia Elementi di statist. per Idrolog.-7//4 ELEMETI DI STATISTICA PER IDROLOGIA Introduzione Una variabile si dice casuale quando assume valori che dipendono

Dettagli

Lineamenti di econometria 2

Lineamenti di econometria 2 Lineamenti di econometria 2 Camilla Mastromarco Università di Lecce Master II Livello "Analisi dei Mercati e Sviluppo Locale" (PIT 9.4) Aspetti Statistici della Regressione Aspetti Statistici della Regressione

Dettagli

Indice. pag. 15. Prefazione. Introduzione» 17

Indice. pag. 15. Prefazione. Introduzione» 17 Indice Prefazione 15 Introduzione 17 1. Pianificazione della qualità 1.1. Il concetto di 6 sigma 1.1.1. Le aree e le fasi del sei sigma 1.2. I processi produttivi e la variabilità 1.2.1. Cause comuni 1.2.2.

Dettagli

Probabilità e Statistica Esercitazioni. a.a. 2006/2007

Probabilità e Statistica Esercitazioni. a.a. 2006/2007 Probabilità e Statistica Esercitazioni a.a. 2006/2007 C.d.L.: Ingegneria per l Ambiente ed il Territorio, Ingegneria Civile, Ingegneria Gestionale, Ingegneria dell Informazione C.d.L.S.: Ingegneria Civile

Dettagli

DISTRIBUZIONI DI PROBABILITÀ

DISTRIBUZIONI DI PROBABILITÀ Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria Civile A.A. 2009-10 Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain 1 LE PRINCIPALI DISTRIBUZIONI

Dettagli

Note introduttive Il software econometrico Easy Reg è scaricabile gratuitamente da internet (http://econ.la.psu.edu/~hbierens/easyreg.

Note introduttive Il software econometrico Easy Reg è scaricabile gratuitamente da internet (http://econ.la.psu.edu/~hbierens/easyreg. Note introduttive Il software econometrico Easy Reg è scaricabile gratuitamente da internet (http://econ.la.psu.edu/~hbierens/easyreg.htm) Per importare i dati in Easy Reg bisogna: 1. Cambiare le impostazioni

Dettagli

Regressione lineare multipla Strumenti quantitativi per la gestione

Regressione lineare multipla Strumenti quantitativi per la gestione Regressione lineare multipla Strumenti quantitativi per la gestione Emanuele Taufer Regressione lineare multipla (RLM) Esempio: RLM con due predittori Stima dei coefficienti e previsione Advertising data

Dettagli

4.2. IL TEST F DI FISHER O ANALISI DELLA VARIANZA (ANOVA)

4.2. IL TEST F DI FISHER O ANALISI DELLA VARIANZA (ANOVA) 4.2. IL TEST F DI FISHER O ANALISI DELLA VARIANZA (ANOVA) L analisi della varianza è un metodo sviluppato da Fisher, che è fondamentale per l interpretazione statistica di molti dati biologici ed è alla

Dettagli

PROBABILITA, VALORE ATTESO E VARIANZA DELLE QUANTITÁ ALEATORIE E LORO RELAZIONE CON I DATI OSSERVATI

PROBABILITA, VALORE ATTESO E VARIANZA DELLE QUANTITÁ ALEATORIE E LORO RELAZIONE CON I DATI OSSERVATI statistica, Università Cattaneo-Liuc, AA 006-007, lezione del 08.05.07 IDICE (lezione 08.05.07 PROBABILITA, VALORE ATTESO E VARIAZA DELLE QUATITÁ ALEATORIE E LORO RELAZIOE CO I DATI OSSERVATI 3.1 Valore

Dettagli

UNIVERSITÀ DEGLI STUDI DI FERRARA

UNIVERSITÀ DEGLI STUDI DI FERRARA UNIVERSITÀ DEGLI STUDI DI FERRARA Anno Accademico 2012/2013 REGISTRO DELL ATTIVITÀ DIDATTICA Docente: ANDREOTTI MIRCO Titolo del corso: MATEMATICA ED ELEMENTI DI STATISTICA Corso: CORSO UFFICIALE Corso

Dettagli

Politecnico di Milano - Anno Accademico 2010-2011 Statistica 086449 Docente: Alessandra Guglielmi Esercitatore: Stefano Baraldo

Politecnico di Milano - Anno Accademico 2010-2011 Statistica 086449 Docente: Alessandra Guglielmi Esercitatore: Stefano Baraldo Politecnico di Milano - Anno Accademico 200-20 Statistica 086449 Docente: Alessandra Guglielmi Esercitatore: Stefano Baraldo Esercitazione 9 2 Giugno 20 Esercizio. In un laboratorio per il test dei materiali,

Dettagli

Prefazione all edizione originale. Prefazione all edizione italiana

Prefazione all edizione originale. Prefazione all edizione italiana Indice Prefazione all edizione originale Prefazione all edizione italiana xiii xv 1 Il miglioramento della qualità nel moderno ambiente produttivo 1 1.1 Significato dei termini qualità e miglioramento

Dettagli

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2. Analisi multivariata Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Cercare di capire le relazioni

Dettagli

Verità ed esperienza: come la natura genera le osservazioni sperimentali

Verità ed esperienza: come la natura genera le osservazioni sperimentali Verità ed esperienza: come la natura genera le osservazioni sperimentali Andrea Onofri Dipartimento di Scienze Agrarie ed Ambientali Universitá degli Studi di Perugia 10 gennaio 2012 Indice 1 Presupposti

Dettagli

Modelli statistici lineari

Modelli statistici lineari Modelli statistici lineari Sergio Polini 19 gennaio 2010 2 Indice 1 Disegni sperimentali e modelli statistici parametrici 5 1.1 Il disegno sperimentale............................. 5 1.1.1 Le componenti

Dettagli

Esercitazione del 14/02/2012 Istituzioni di Calcolo delle Probabilità

Esercitazione del 14/02/2012 Istituzioni di Calcolo delle Probabilità Esercitazione del 14/02/2012 Istituzioni di Calcolo delle Probabilità David Barbato Questa raccolta comprende sia gli esercizi dell esercitazione del 14 febbraio sia gli esercizi di ricapitolazione sulle

Dettagli

Esplorazione dei dati

Esplorazione dei dati Esplorazione dei dati Introduzione L analisi esplorativa dei dati evidenzia, tramite grafici ed indicatori sintetici, le caratteristiche di ciascun attributo presente in un dataset. Il processo di esplorazione

Dettagli

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

L Analisi della Varianza ANOVA (ANalysis Of VAriance) L Analisi della Varianza ANOVA (ANalysis Of VAriance) 1 CONCETTI GENERALI Finora abbiamo descritto test di ipotesi finalizzati alla verifica di ipotesi sulla differenza tra parametri di due popolazioni

Dettagli

Il corso si colloca nell ambito del corso integrato di scienze quantitative, al secondo anno, primo semestre.

Il corso si colloca nell ambito del corso integrato di scienze quantitative, al secondo anno, primo semestre. Corso di Statistica Medica 2004-2005 Il corso si colloca nell ambito del corso integrato di scienze quantitative, al secondo anno, primo semestre. Sono previste 30 ore di lezione di statistica e 12 di

Dettagli

Esercizi: i rendimenti finanziari

Esercizi: i rendimenti finanziari Esercizi: i rendimenti finanziari Operazioni algebriche elementari Distribuzione e dipendenza Teoria di probabilità Selezione portafoglio p. 1/25 Esercizio I Nella tabella sottostante relativa all indice

Dettagli

Approfondimento 4.6. La valutazione statistica della discriminatività di un item

Approfondimento 4.6. La valutazione statistica della discriminatività di un item Approfondimento.6 La valutazione statistica della discriminatività di un item. Item di test di prestazione massima Per valutare la discriminatività di un item di un test di prestazione massima occorre

Dettagli

CORSO DI LAUREA IN OTTICA E OPTOMETRIA CORSO DI INFORMATICA E STATISTICA DANIELE.MONTANINO@UNISALENTO.IT

CORSO DI LAUREA IN OTTICA E OPTOMETRIA CORSO DI INFORMATICA E STATISTICA DANIELE.MONTANINO@UNISALENTO.IT CORSO DI LAUREA IN OTTICA E OPTOMETRIA CORSO DI INFORMATICA E STATISTICA DANIELE.MONTANINO@UNISALENTO.IT CONVENZIONE SULLE CIFRE SIGNIFICATIVE La convenzione usata sul troncamento delle cifre è troncare

Dettagli

Valori caratteristici di distribuzioni

Valori caratteristici di distribuzioni Capitolo 3 Valori caratteristici di distribuzioni 3. Valori attesi di variabili e vettori aleatori In molti casi è possibile descrivere adeguatamente una distribuzione di probabilità con pochi valori di

Dettagli

Diaz - Appunti di Statistica - AA 2001/2002 - edizione 29/11/01 Cap. 3 - Pag. 1 = 1

Diaz - Appunti di Statistica - AA 2001/2002 - edizione 29/11/01 Cap. 3 - Pag. 1 = 1 Diaz - Appunti di Statistica - AA 2001/2002 - edizione 29/11/01 Cap. 3 - Pag. 1 Capitolo 3. L'analisi della varianza. Il problema dei confronti multipli. La soluzione drastica di Bonferroni ed il test

Dettagli

qwertyuiopasdfghjklzxcvbnmqwerty AppuntiBicoccaAppuntiBicoccaAppu ntibicoccaappuntibicoccaappuntibic occaappuntibicoccaappuntibicoccaa

qwertyuiopasdfghjklzxcvbnmqwerty AppuntiBicoccaAppuntiBicoccaAppu ntibicoccaappuntibicoccaappuntibic occaappuntibicoccaappuntibicoccaa qwertyuiopasdfghjklzxcvbnmqwerty AppuntiBicoccaAppuntiBicoccaAppu ntibicoccaappuntibicoccaappuntibic occaappuntibicoccaappuntibicoccaa Analisi multivariata dei dati Teoria e procedimento con SPSS ppuntibicoccaappuntibicoccaappunt

Dettagli

Calcolo delle Probabilità

Calcolo delle Probabilità Calcolo delle Probabilità Il calcolo delle probabilità studia i modelli matematici delle cosidette situazioni di incertezza. Molte situazioni concrete sono caratterizzate a priori da incertezza su quello

Dettagli

Appunti di Probabilità

Appunti di Probabilità Appunti di Probabilità Bruno Betrò CNR-IMATI, Sezione di Milano bruno.betro@mi.imati.cnr.it www.mi.imati.cnr.it/ bruno Testi di riferimento: Dall Aglio G., Calcolo delle Probabilità, Zanichelli Scozzafava

Dettagli

VERIFICA DELLE IPOTESI

VERIFICA DELLE IPOTESI VERIFICA DELLE IPOTESI Introduzione Livelli di significatività Verifica di ipotesi sulla media di una popolazione normale Verifica di ipotesi sulla varianza di una popolazione normale Verifica di ipotesi

Dettagli

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Un po di statistica. Christian Ferrari. Laboratorio di Matematica Un po di statistica Christian Ferrari Laboratorio di Matematica 1 Introduzione La statistica è una parte della matematica applicata che si occupa della raccolta, dell analisi e dell interpretazione di

Dettagli

Statistica descrittiva

Statistica descrittiva Corso di Laurea in Ingegneria per l Ambiente ed il Territorio Corso di Costruzioni Idrauliche A.A. 2004-05 www.dica.unict.it/users/costruzioni Statistica descrittiva Ing. Antonino Cancelliere Dipartimento

Dettagli

Metodi di previsione

Metodi di previsione Metodi di previsione Giovanni Righini Università degli Studi di Milano Corso di Logistica I metodi di previsione I metodi di previsione sono usati per ricavare informazioni a sostegno dei processi decisionali

Dettagli

Gli eventi sono stati definiti come i possibili risultati di un esperimento. Ogni evento ha una probabilità

Gli eventi sono stati definiti come i possibili risultati di un esperimento. Ogni evento ha una probabilità Probabilità Probabilità Gli eventi sono stati definiti come i possibili risultati di un esperimento. Ogni evento ha una probabilità Se tutti gli eventi fossero ugualmente possibili, la probabilità p(e)

Dettagli

Tasso di interesse e capitalizzazione

Tasso di interesse e capitalizzazione Tasso di interesse e capitalizzazione Tasso di interesse = i = somma che devo restituire dopo un anno per aver preso a prestito un euro, in aggiunta alla restituzione dell euro iniziale Quindi: prendo

Dettagli

3. Confronto tra medie di due campioni indipendenti o appaiati

3. Confronto tra medie di due campioni indipendenti o appaiati BIOSTATISTICA 3. Confronto tra medie di due campioni indipendenti o appaiati Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk MARTA BLANGIARDO

Dettagli

Per forma di una distribuzione si intende il modo secondo il quale si dispongono i valori di un carattere intorno alla rispettiva media.

Per forma di una distribuzione si intende il modo secondo il quale si dispongono i valori di un carattere intorno alla rispettiva media. FORMA DI UNA DISTRIBUZIONE Per forma di una distribuzione si intende il modo secondo il quale si dispongono i valori di un carattere intorno alla rispettiva media. Le prime informazioni sulla forma di

Dettagli

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della RELAZIONE TRA VARIABILI QUANTITATIVE Lezione 7 a Accade spesso nella ricerca in campo biomedico, così come in altri campi della scienza, di voler studiare come il variare di una o più variabili (variabili

Dettagli

(accuratezza) ovvero (esattezza)

(accuratezza) ovvero (esattezza) Capitolo n 2 2.1 - Misure ed errori In un analisi chimica si misurano dei valori chimico-fisici di svariate grandezze; tuttavia ogni misura comporta sempre una incertezza, dovuta alla presenza non eliminabile

Dettagli

Dipartimento di Scienze Biomediche, Sperimentali e Cliniche «Mario Serio»

Dipartimento di Scienze Biomediche, Sperimentali e Cliniche «Mario Serio» PRECORSO 2014 Problemi di Matematica Giovanni Romano Dipartimento di Scienze Biomediche, Sperimentali e Cliniche «Mario Serio» PRECORSO 2014: ciclo formativo di orientamento alle prove di ammissione ai

Dettagli

Esperimenti in vaso: disegni a randomizzazione completa

Esperimenti in vaso: disegni a randomizzazione completa Esperimenti in vaso: disegni a randomizzazione completa Andrea Onofri 10 marzo 2015 Indice 1 Disegno sperimentale 2 2 Analisi dei dati 3 2.1 Analisi della varianza (ANOVA).................. 4 2.2 Errore

Dettagli

Misure della dispersione o della variabilità

Misure della dispersione o della variabilità QUARTA UNITA Misure della dispersione o della variabilità Abbiamo visto che un punteggio di per sé non ha alcun significato e lo acquista solo quando è posto a confronto con altri punteggi o con una statistica.

Dettagli

Dati statistici e scale di misura

Dati statistici e scale di misura Capitolo aggiuntivo 12 Dati statistici e scale di misura La statistica è un insieme di metodi e tecniche per: raccogliere informazioni su un fenomeno (ad esempio i risultati di un esperimento di laboratorio)

Dettagli

Metodologie statistiche per l analisi del rischio PROGETTAZIONE ED ANALISI DEGLI ESPERIMENTI PER L ANALISI DEL RISCHIO

Metodologie statistiche per l analisi del rischio PROGETTAZIONE ED ANALISI DEGLI ESPERIMENTI PER L ANALISI DEL RISCHIO Corso di Laurea in Sicurezza igienico-sanitaria degli alimenti Metodologie statistiche per l analisi del rischio PROGETTAZIONE ED ANALISI DEGLI ESPERIMENTI PER L ANALISI DEL RISCHIO Facoltà di Medicina

Dettagli

Esercitazione di riepilogo 23 Aprile 2013

Esercitazione di riepilogo 23 Aprile 2013 Esercitazione di riepilogo 23 Aprile 2013 Grafici Grafico a barre Servono principalmente per rappresentare variabili (caratteri) qualitative, quantitative e discrete. Grafico a settori circolari (torta)

Dettagli

Concetti introduttivi

Concetti introduttivi Indice 1 Concetti introduttivi 3 1.1 Studi sperimentali e studi osservazionali..................... 3 1.2 Concetti iniziali: indipendenza fra eventi..................... 6 1.3 Indipendenza fra variabili

Dettagli

Facoltà di Psicologia - Corso FSE gennaio febbraio 2010. Marco Vicentini info@marcovicentini.it

Facoltà di Psicologia - Corso FSE gennaio febbraio 2010. Marco Vicentini info@marcovicentini.it Facoltà di Psicologia - Corso FSE gennaio febbraio 2010 Marco Vicentini info@marcovicentini.it Statistica e Psicologia Quali statistiche per la psicologia? Quali programmi per la statistica? Codifica e

Dettagli

Metodi Matematici e Informatici per la Biologia----31 Maggio 2010

Metodi Matematici e Informatici per la Biologia----31 Maggio 2010 Metodi Matematici e Informatici per la Biologia----31 Maggio 2010 COMPITO 4 (3 CREDITI) Nome: Cognome: Matricola: ISTRUZIONI Gli esercizi che seguono sono di tre tipi: Domande Vero/Falso: cerchiate V o

Dettagli

Statistical learning Strumenti quantitativi per la gestione

Statistical learning Strumenti quantitativi per la gestione Statistical learning Strumenti quantitativi per la gestione Emanuele Taufer Vendite Simbologia Reddito Statistical learning A cosa ci serve f? 1 Previsione 2 Inferenza Previsione Errore riducibile e errore

Dettagli

Capitolo 12 La regressione lineare semplice

Capitolo 12 La regressione lineare semplice Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara

Dettagli