Università del Piemonte Orientale. Corso di dottorato in medicina molecolare. a.a Corso di Statistica Medica. Inferenza sulle medie

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Università del Piemonte Orientale. Corso di dottorato in medicina molecolare. a.a. 2002 2003. Corso di Statistica Medica. Inferenza sulle medie"

Transcript

1 Università del Piemonte Orientale Corso di dottorato in medicina molecolare aa Corso di Statistica Medica Inferenza sulle medie Statistica U Test z Test t campioni indipendenti con uguale varianza Test t campioni indipendenti con varianza disuguale Test t campioni appaiati Dottorato di medicina molecolare

2 Popolazione: - insieme di tutti i valori realizzati o possibili di una variabile ; insieme che raccoglie tutte le osservazioni possibili, di una data variabile o un dato fenomeno - può essere finita (comunque molto grande) o infinita Campione: - Raccolta finita di elementi estratti da una popolazione - Lo scopo dell estrazione è quello di ottenere informazioni sulla popolazione - Pertanto il campione deve essere rappresentativo della popolazione da cui viene estratto ( non viziato, cioè non affetto da errore sistematico) - Per corrispondere a queste esigenze il campione viene individuato con un campionamento casuale - In un campionamento casuale semplice tutti gli individui nella popolazione hanno uguale probabilità di essere inclusi nel campione Data una popolazione con N individui (N molto grande rispetto alla dimensione del campione) la probabilità per l i-esimo individuo è 1/N Dottorato di medicina molecolare

3 Come misuriamo la probabilità di osservare un dato valore, assumendo una data distribuzione? Se la distribuzione dei valori nella popolazione segue una forma Normale (Gaussiana) possiamo stimare la probabilità di osservare un valore compreso in un dato intervallo usando la statistica U Distribuzione gaussiana: f ( x) = σ ( ) 2 x 2 / 1 µ σ π e Dottorato di medicina molecolare

4 u = x µ σ dove: x: valore cui siamo interessati σ: deviazione standard nella popolazione µ: media nella popolazione u: deviata normale standardizzata corrispondente ai valori dati per (x, σ, µ) Il valore U, letto sulle apposite tabelle indica la probabilità di osservare un valore compreso tra x e (oppure tra 0 ed x, prestate attenzione alle spiegazioni fornite insieme alle tavole), data una distribuzione normale con media µ e deviazione standard σ In alternativa usate la funzione distribnormst di EXCEL (o analoghi) Dottorato di medicina molecolare

5 Dottorato di medicina molecolare

6 Dottorato di medicina molecolare

7 Probabilità cumulativa per la Distribuzione Normale Standard La tavola indica il valore di Q(z), dato il valore di z Second digit of Z z Dottorato di medicina molecolare

8 Esercizio Si consideri una popolazione con altezza distribuita come una Gaussiana con media (µ) = 172,5 cm e deviazione standard (σ) =6,25 cm Qual è la probabilità di incontrare un individuo estratto da tale popolazione e di altezza superiore a cm 190? U = ( ,5) / 6,25 = 2,8 Da cui p= 0,00256 Dottorato di medicina molecolare

9 Se la distribuzione non è gaussiana? 1 Applicare una trasformazione matematica (logaritmo, radice quadrata) ai dati originali in modo da ottenere una distribuzione simile alla gaussiana (i tests per valutare l adattamento alla distribuzione gaussiana saranno visti in una prossima lezione) 2 Calcolare una distribuzione cumulativa empirica e riferirsi a quella (operazione molto pericolosa, da tentare solo se si dispone di un grande numero di osservazioni) Dottorato di medicina molecolare

10 Il campione corrisponde alla popolazione? Con questo problema passiamo dall uso della distribuzione gaussiana a scopo descrittivo all uso a scopo inferenziale Per procedere dobbiamo esaminare la relazione tra la distribuzione di una variabile in una popolazione ed i valori della variabile nei campioni (statistici) estratti da tale popolazione Dottorato di medicina molecolare

11 Cosa ci aspettiamo da un singolo campione estratto da una popolazione? - Il valore atteso della media campionaria 1 è la media della popolazione, in altre parole la media campionaria è una stima non distorta della media della popolazione - Il valore atteso della varianza campionaria 2 (calcolata con n-1) è la varianza della popolazione, in altre parole la varianza campionaria (calcolata con n-1) è una stima non distorta della varianza della popolazione 1 media dei valori della variabile tra i soggetti che compongono il campione 2 varianza dei valori della variabile tra i soggetti che compongono il campione Dottorato di medicina molecolare

12 La distribuzione di frequenza dei campioni Cioè costruiamo una popolazione di campioni (ripetendo infinite volte il campionamento dalla stessa popolazione) Consideriamo una popolazione di individui (unità statistiche); per ciascuno sia noto il valore di una data variabile numerica La distribuzione della variabile nella popolazione è normale (Gaussiana) con media µ e deviazione standard δ Si estraggano ripetuti campioni di dimensione n da tale popolazione Definiamo media campionaria la media calcolata per le osservazioni che compongono il campione osserviamo che: la distribuzione delle medie campionarie sarà normale (Gaussiana), con media µ e deviazione standard δ/ n Dottorato di medicina molecolare

13 - La forma della distribuzione di frequenza delle medie campionarie è normale Questo accade anche se la distribuzione nella popolazione non è normale (Teorema del limite centrale ) - La variabilità della distribuzione delle medie campionarie è inferiore alla variabilità nella popolazione Campioni più grandi avranno variabilità inferiore La deviazione standard delle medie campionarie viene indicata anche come Errore Standard della Media (spesso abbreviato in Errore standard) Errore standard = deviazione standard della popolazione / (numerosità campionaria) =δ/ n Dottorato di medicina molecolare

14 - Dottorato di medicina molecolare

15 Dottorato di medicina molecolare

16 Dottorato di medicina molecolare

17 La variabilità della distribuzione delle medie campionarie è inferiore alla variabilità nella popolazione Campioni più grandi avranno variabilità inferiore La deviazione standard delle medie campionarie viene indicata anche come Errore Standard della Media (spesso abbreviato in Errore standard) Errore standard = deviazione standard della popolazione / (numerosità campionaria) =δ/ n Dottorato di medicina molecolare

18 Dottorato di medicina molecolare

19 Dottorato di medicina molecolare

20 Verifichiamo queste assunzioni su un ulteriore esempio: L istogramma presenta la distribuzione di frequenza di osservazioni distribuite in modo uniforme La variabile considerata (indicata come I) assume i soli valori interi tra 0 e 9 L esempio è analogo a quello presentato nel testo di PArmitage e GBerry Statistical Methods in Medical Researchs (editaliana McGraw-Hill) Alcune statistiche descrittive della Variabile I nella popolazione N Mean 45 Std Deviation Variance Skewness 0 Kurtosis La distribuzione è Uniforme Dottorato di medicina molecolare

21 Dottorato di medicina molecolare FREQUENCY popol azi one

22 Estraiamo da questa distribuzione campioni ripetuti di diversa numerosità (n=5, n=10, n=20, ciascuno ripetuto 5000 volte) Esaminiamo le caratteristiche delle distribuzioni di frequenza delle medie campionarie Dottorato di medicina molecolare

23 Distribuzione e variabilità dei Campioni con n=5 Variable: md (media campionaria) N 5000 Mean 45 Std Deviation Variance Skewness Kurtosis Coeff Variation Median Mode Range Interquartile Range Dottorato di medicina molecolare

24 Distribuzione e variabilità dei Campioni con n=10 Variable: md (media campionaria) N 5000 Mean 45 Std Deviation Variance Skewness Kurtosis Coeff Variation Median Mode Range Interquartile Range Dottorato di medicina molecolare

25 Distribuzione e variabilità dei Campioni con n=20 Variable: md (media campionaria) N 5000 Mean 45 Std Deviation Variance Skewness Kurtosis Coeff Variation Median Mode Range Interquartile Range Dottorato di medicina molecolare

26 da distribuzione uniforme (interi da 0 a 9) µ=4,5 δ=2, n=5 /10 / Dottorato di medicina molecolare

27 Conclusione / ripasso La distribuzione di probabilità rilevante per condurre inferenze sulle medie è la distribuzione gaussiana perché: - la distribuzione gaussiana è la forma limite delle distribuzioni di frequenza campionarie, quale che sia la distribuzione originale delle osservazioni, purché i campioni siano di numerosità sufficiente Inoltre, se la distribuzione di frequenza della popolazione è gaussiana, la distribuzione delle medie campionarie è gaussiana anche per n piccoli Inoltre: - la distribuzione di frequenza di molte variabili biologiche è Gaussiana; - la distribuzione degli errori casuali è Gaussiana; Dottorato di medicina molecolare

28 Rivediamo le caratteristiche principali della distribuzione gaussiana Formula: f(x) = (1/σ 2π)*exp[-1/2(x-µ) 2 /σ 2 ] µ (media) e σ (deviazione standard) sono i parametri che definiscono la distribuzione - il dominio della funzione è - <= x <= - L area compresa tra - e ha valore unitario, - f(x) è un valore di probabilità e viene anche indicato con la lettera p - La distribuzione è simmetrica, media = mediana = moda La distribuzione gaussiana con µ=0 e δ = 1 viene definita Deviazione Normale Standard Dottorato di medicina molecolare

29 Il grafico seguente mostra due curve normali con DS=1 (curva nera) e DS=2 (curva rossa) Entrambe hanno media=0 y x0 Dottorato di medicina molecolare

30 In questo grafico si mostra la relazione tra funzione di densità di probabilità gaussiana (curva a campana, corrisponde ad una distribuzione normale standard) e la corrispondente funzione cumulativa (curva sigmoide) GS X Dottorato di medicina molecolare

31 Il processo di verifica dell ipotesi: Il processo serve a valutare la probabilità di ottenere / estrarre un campione con media campionaria x, data una popolazione con media µ e varianza σ 2 Procediamo in modo analogo a quanto avevamo visto per la statistica U (probabilità di ottenere un singolo risultato) ma Utilizziamo le caratteristiche della distribuzione dei campioni invece che quelle delle osservazioni nella popolazione Statistiche Singole osservazioni nella Campioni estratti dalla popolazione popolazione Tendenza centrale µ: Media dei valori nella popolazione Media delle medie campionarie Variabilità σ: Deviazione standard dei valori nella popolazione Deviazione standard delle medie campionarie -> Errore standard Dottorato di medicina molecolare

32 L ipotesi di lavoro: il campione non proviene dalla popolazione considerata ma di un altra popolazione, con media differente Siamo interessati al confronto tra la media campionaria e la media della popolazione I parametri della distribuzione di probabilità della variabile nella popolazione (µ e σ) sono noti L ipotesi nulla: il campione estratto ha media uguale a quella della popolazione (corrisponde cioè ad un campione tratto dalla popolazione) Dottorato di medicina molecolare

33 Gli errori di primo e di secondo tipo e la dimensione del campione vengono definiti Nel calcolo della dimensione del campione occorre anche considerare che la distribuzione di frequenza di campioni piccoli si differenzia dalla distribuzione gaussiana maggiormente che la distribuzione di frequenza di campioni grandi L esperimento consiste nell estrazione di un campione e nel calcolo della media campionaria Dottorato di medicina molecolare

34 Il test statistico consiste nel calcolo della deviata normale standardizzata: Z = (X - µ)/ (σ/ n) = (X - µ)/ ES Dove X: media campionaria µ: media della popolazione (σ/ n): errore standard della media (cioè deviazione standard della media campionaria) σ: deviazione standard della popolazione n: numerosità del campione Il test è di tipo parametrico, cioè è valido a condizione che siano validi i presupposti relativi alla distribuzione di probabilità (gaussiana) L assunzione è generalmente vera dato il teorema del limite centrale (sempre che n sia sufficientemente grande e la forma della distribuzione della popolazione non sia troppo asimmetrica) Dottorato di medicina molecolare

35 Il valore di probabilità corrispondente al valore Z (valore assoluto di Z) così ottenuto si legge dalla tabella della distribuzione normale standard Se Z>0 viene letto il valore di probabilità compreso tra Z e Se Z<0 viene letto il valore di probabilità compreso tra Z e - Dottorato di medicina molecolare

36 Esempio 1 Confronto della pressione sistolica tra un gruppo di pazienti affetti da una nuova forma di arteriopatia con la popolazione generale H lavoro= i soggetti considerati, affetti da una rara malattia delle arterie hanno pressione arteriosa (sistolica) diversa dalla popolazione generale L ipotesi è nata osservando che i primi casi avevano valori pressori molto elevati H0= media della popolazione: pressione sistolica 145 mmhg test a due code (sebbene l ipotesi di lavoro sia indirizzata maggiormente verso un rialzo pressorio, non ho informazioni sufficientemente forti da scegliere un test ad una coda) errore 1 tipo =005 numerosità campionaria non modificabile poichè sono inclusi tutti i pazienti disponibili Non è stata calcolata la potenza statistica Test statistico: test Z (confronto tra una media campionaria e la media della popolazione) Dottorato di medicina molecolare

37 Requisiti del test scelto: La deviazione standard della misura della pressione della popolazione è nota da precedenti studi ed è pari a 2,53 mmhg; La distribuzione della variabile nella popolazione è gaussiana, pertanto anche piccoli campioni saranno distribuiti secondo tale distribuzione Dottorato di medicina molecolare

38 I dati: Obs pressure (mmhg) Dottorato di medicina molecolare

39 Le statistiche campionarie necessarie per il test N 15 Media mmhg (calcolo omesso) I parametri necessari per il test µ=145 mmhg δ=2,53 mmhg Il valore della statistica Z (errore 1 tipo <= 0,05 e test a due code) = 1,960 Dottorato di medicina molecolare

40 Il calcolo del test Z = (X - µ)/ (σ/ n) Z = ( ) / (2,53/ 15) = = 6, Conclusione = rifiuto l ipotesi nulla Dottorato di medicina molecolare

41 Esempio 2 In questo esercizio si fa ricorso alla trasformazione logaritmica Una compagnia di assicurazioni intende controllare quali agenzie sono troppo severe oppure troppo disponibili nella valutazione dei danni Viene effettuato un campione delle pratiche seguite da ciascuna agenzia Per rendere omogenea la popolazione di provenienza vengono esclusi gli incidenti con feriti e quelli in autostrada Il costo medio nella popolazione (tutte le pratiche della compagnia di assicurazione) (in migliaia di euro) = 1,6 Deviazione standard della popolazione (in migliaia di euro) = 3,4 H lavoro: L'agenzia xxyy si discosta dai parametri definiti sulla base della popolazione di tutti gli incidenti dell'anno in corso H0: l'agenzia non si discosta Dottorato di medicina molecolare

42 test a due code (interessano entrambi gli scostamenti) errore 1 tipo =010 (dato il piano di lavoro di controllo) numerosità campionaria 20 pratiche Non è stata calcolata la potenza statistica Test statistico: test Z (confronto tra una media campionaria e la media della popolazione) Dottorato di medicina molecolare

43 Requisiti del test scelto: La deviazione standard del costo medio è nota, poichè il centro di calcolo della compagnia ha tutte le pratiche La distribuzione della variabile nella popolazione è asimmetrica con coda a destra (valori elevati), come indicato dal centro di calcolo Viene effettuata una trasformazione logaritmica per renderla simile alla gaussiana: dopo la trasformazione anche piccoli campioni si distribuiscono secondo la distribuzione gaussiana Il centro di calcolo fornisce µ e σ della popolazione, con i dati trasformati su scala logaritmica Dottorato di medicina molecolare

44 I dati Obs costo lcosto Dottorato di medicina molecolare

45 The UNIVARIATE Procedure Variable: costo Stem Leaf # Boxplot * *--+--* Dottorato di medicina molecolare

46 The UNIVARIATE Procedure Variable: lcosto Stem Leaf # Boxplot *--+--* Dottorato di medicina molecolare

47 Variable: lcosto (log e del costo) Moments N 22 Mean Dottorato di medicina molecolare

48 Il calcolo del test Indico media e Ds della popolazione calcolati dai logaritmi dei dati originali µ = 0, σ = 0, x = 0,216 Z = (X - µ )/ (σ / n) Z = (0,216-0,262364) / (0,875469/ 22) = = - 0,2484 Conclusione = non rifiuto l ipotesi nulla Dottorato di medicina molecolare

49 Intervalli di confidenza Abbiamo visto che la media campionaria costituisce la stima migliore della media della popolazione ma questo non significa che la media campionaria sia priva di errore campionario: si osserva facilmente che campioni ripetuti danno medie campionarie diverse L intervallo di confidenza fornisce una indicazione della precisione della stima L intervallo di confidenza fornisce un espressione formale dell incertezza che deve essere aggiunta alla media campionaria a causa del semplice errore di campionamento (Armitage) Dottorato di medicina molecolare

50 L intervallo di confidenza della media campionaria è un intervallo di valori intorno alla media campionaria; tale intervallo ha una probabilità definita di includere il parametro (valore della statistica nella popolazione) Dottorato di medicina molecolare

51 Estrazione di 50 campioni di numerosità 20 da distribuzione gaussiana con µ=0 e δ=1 Le barre rappresentano l intervallo di confidenza al 95% M D ID Dottorato di medicina molecolare

52 L intervallo di confidenza è definito in modo tale da soddisfare la seguente equazione: [X - Z α/2 *(σ/ n)] < µ < [X + Z α/2 *(σ/ n)] Dove: X: media campionaria µ: media della popolazione (σ/ n): errore standard della media (cioè deviazione standard della media campionaria) Z α/2 = valore della deviata normale standardizzata corrispondente all errore di 1 tipo scelto Limite fiduciale superiore = X + Z α/2 *(σ/ n) Limite fiduciale inferiore = X - Z α/2 *(σ/ n) Di solito l intervallo di confidenza intorno alla media viene indicato come: X ± Z α/2 *(σ/ n) Dottorato di medicina molecolare

53 Un altra definizione dell intervallo di confidenza è l intervallo di valori della media campionaria che non avrebbe portato al rifiuto dell ipotesi nulla Ripetendo un campionamento dalla stessa popolazione ci aspettiamo che, se vale l ipotesi nulla, la proporzione di campioni il cui intervallo di confidenza non comprende il valore della media corrispondente all ipotesi nulla sia pari al valore dell errore di 1 tipo Dati i 50 campioni dell esercizio precedente, osserviamo che in tre casi l intervallo di confidenza non comprende la media Dottorato di medicina molecolare

54 Esempio: calcolo dell intervallo di confidenza nel caso del primo esempio: N 15 Media campionaria mmhg (calcolo omesso) µ=145 mmhg δ=2,53 mmhg Limite superiore = *(2,53/ 15) = 147,85 Limite inferiore = *(2,53/ 15) = 150,41 147,85 <= µ <=150,41 Dottorato di medicina molecolare

55 Il test t di Student Spesso non abbiamo informazioni sul parametro e la statistica campionaria è calcolata proprio per avere informazioni relative al valore (ignoto) del parametro In questo caso la soluzione adottata è quella di stimare la varianza della popolazione in base alla varianza del campione Si dimostra infatti che l Atteso della varianza campionaria è la varianza della popolazione, se il denominatore è (n-1) La varianza del campione però è affetta da variabilità casuale rispetto alla varianza della popolazione, a causa del campionamento Pertanto non potremo usare statistiche basate sulla distribuzione normale standardizzata, che risulterebbe troppo poco conservativa Gosset (che pubblicava con lo pseudonimo di Student) propose di utilizzare una famiglia di distribuzioni, con forma simmetrica e con ampiezza dipendente dal numero di osservazioni del campione: le funzioni di distribuzione t (o t di Student) Dottorato di medicina molecolare

56 Dottorato di medicina molecolare

57 La distribuzione t per 30 gradi di libertà è praticamente una distribuzione normale standardizzata Si noti che i valori di probabilità cumulativa esterni ad un dato valore di X sono maggiori man mano che si riduce il numero di gradi di libertà La probabilità corrispondente all intervallo tra un dato X e si legge su apposite tabelle Si noti che i valori di probabilità corrispondenti ad un dato valore di t cambiano con il numero di gradi di libertà Dottorato di medicina molecolare

58 Dottorato di medicina molecolare

59 Dottorato di medicina molecolare

60 Dottorato di medicina molecolare

61 Possiamo anche utilizzare la funzione distribt di EXCEL (o analoghi), che fornisce il valore di probabilità corrispondente Dottorato di medicina molecolare

62 Inferenza sulle medie basata sull uso della distribuzione t Nell inferenza sulle medie basata sull uso della distribuzione t dobbiamo distinguere tre diversi casi: - Confronto tra un campione e la media della popolazione - Confronto tra due campioni indipendenti - Confronto tra due campioni appaiati Dottorato di medicina molecolare

63 Confronto tra un campione e la media della popolazione test t Il test è analogo al test Z ma tiene conto del fatto che la varianza è stimata dal campione: t gl = (X - µ)/ (s/ n) X: media campionaria µ: media della popolazione s: deviazione standard del campione (s/ n): errore standard della media (cioè deviazione standard della media campionaria) n: numerosità del campione il numero di gradi di libertà è gl= n-1 Il test è di tipo parametrico, cioè è valido a condizione che: Dottorato di medicina molecolare

64 - nella popolazione la variabile sia distribuita secondo la distribuzione di probabilità gaussiana; - il campione abbia la stessa varianza della popolazione La prima assunzione è generalmente vera dato il teorema del limite centrale (sempre che n sia sufficientemente grande e la forma della distribuzione della popolazione sia simmetrica o almeno non sia troppo asimmetrica) La seconda è vera se vale H0 (il campione appartiene alla popolazione), mentre non è valutabile altrimenti Dottorato di medicina molecolare

65 Esempio Confronto della pressione sistolica tra un gruppo di pazienti affetti da una nuova forma di arteriopatia con la popolazione generale (è l esempio precedente, sviluppato senza fare uso della informazione sulla deviazione standard della popolazione) H lavoro= i soggetti considerati, affetti da una rara malattia delle arterie hanno pressione arteriosa (sistolica) diversa dalla popolazione generale L ipotesi è nata osservando che i primi casi diagnosticati avevano valori pressori molto elevati H0= media della popolazione: pressione sistolica 145 mmhg test a due code (sebbene l ipotesi di lavoro sia indirizzata maggiormente verso un rialzo pressorio, non ho informazioni sufficientemente forti da scegliere un test ad una coda) errore 1 tipo =005 numerosità campionaria non modificabile poichè sono inclusi tutti i pazienti disponibili Non è stata calcolata la potenza statistica Dottorato di medicina molecolare

66 Test statistico: test t(confronto tra una media campionaria e la media della popolazione, senza dati sulla deviazione standard della popolazione) Requisiti del test scelto: La deviazione standard della misura della pressione della popolazione non è nota La distribuzione della variabile nella popolazione è gaussiana, pertanto anche piccoli campioni saranno distribuiti secondo tale distribuzione Dottorato di medicina molecolare

67 I dati individuali: Obs pressure (mmhg) Dottorato di medicina molecolare

68 Le statistiche campionarie N 15 Mean Std Deviation Variance I parametri necessari per il test µ=145 mmhg s= Std Deviation Il valore della statistica t (errore 1 tipo <= 0,05 e test a due code, 14 gl) = 2,145 Dottorato di medicina molecolare

69 Il calcolo del test t 14 = (X - µ)/ (s/ n) t 14 = ( ) / (107/ 15) = = 1,496 Conclusione = non rifiuto l ipotesi nulla Dottorato di medicina molecolare

70 Intervallo di confidenza basato sul test t Possiamo anche definire un intervallo di confidenza della media campionaria basandoci sul test e sulla distribuzione t L intervallo di confidenza è definito in modo tale da soddisfare la seguente equazione: [X - t gl,α/2 *(s/ n)] < µ < [X + t gl,α/2 *(s/ n)] Dove: t gl,α/2 = valore della funzione t con il numero dato di gradi di libertà corrispondente all errore di 1 tipo scelto Limite fiduciale superiore = X + t gl,α/2 *(s/ n) Limite fiduciale inferiore = X - t gl,α/2 *(s/ n) Dottorato di medicina molecolare

71 Esempio: calcolo dell intervallo di confidenza Risultati: N 15 Media campionaria 1491 mmhg (calcolo omesso) µ=145 mmhg s= 1072 mmhg Il valore della statistica t (errore 1 tipo <= 0,05 e test a due code, 14 gl) = 2,145 Limite superiore = ,145 *( 1072/ 15) = 154,56 mmhg Limite inferiore = ,145 *( 1072/ 15) = 143,71 mmhg Dottorato di medicina molecolare

72 Estrazione di 50 campioni di numerosità 20 da una distribuzione gaussiana con µ=0 e δ ignota L errore standard è stato calcolato in base alla distribuzione t Le barre rappresentano l intervallo di confidenza al 95% Si noti che le barre sono di ampiezza diversa tra loro µ ID Dottorato di medicina molecolare

73 Confronto tra due campioni indipendenti test t Il caso dei campioni con la stessa varianza Nel caso del confronto tra due campioni indipendenti il test è costruito per valutare la probabilità (data H0) della differenza osservata tra le medie dei due campioni, correggendo per l errore standard Il calcolo della differenza tra le due medie non pone difficoltà x = (X 1 X 2 ); Il calcolo dell errore standard richiede l individuazione di un valore comune della varianza Questo valore può essere stimato se i due campioni appartengono alla stessa popolazione (H0) oppure a due popolazioni diverse (H1) ma con varianza uguale In tal caso si potrà calcolare uno stimatore comune dell errore standard Dottorato di medicina molecolare

74 Dottorato di medicina molecolare Nel caso di due campioni con varianza comune, lo stimatore migliore della varianza comune è la media delle due varianze campionarie, pesata per il numero di gradi di libertà di ciascun campione ( ) ( ) ( ) ( ) ( ) ( ) ( ) Σ Σ = + + = n n x x x x n n s n s n S = somma delle devianze / gradi di libertà Si consideri che: n n x x var σ = σ + Quindi ES(X 1 X 2 ) = (s 2 /n 1 + s 2 /n 2 ) = s 2 * (1/n 1 + 1/n 2 ) t gl = (X 1 X 2 ) / ES(X 1 X 2 ) = (X 1 X 2 ) / [ s 2 * (1/n 1 + 1/n 2 )]

75 Esempio: In un laboratorio si intende confrontare l effetto di due differenti diete sulla crescita di ratti La tabella indica l incremento di peso conseguito in 60 giorni H lavoro: la dieta 1 consente una più veloce aumento di peso H0: le due diete sono uguali per quanto riguarda l aumento di peso Test a 2 code Errore di primo tipo= 005 Numerosità campionaria definita in base al numero di animali già trattati con le due diete Errore di 2 tipo non misurato Test t-student (confronto tra medie di 2 campioni indipendenti) requisiti La distribuzione del peso degli animali è gaussiana Gli animali sono dello stesso ceppo, si suppone quindi che la varianza del peso sia la stessa e che le due diete non modifichino la varianza comune Dottorato di medicina molecolare

76 I dati: Dieta 1 Dieta X 1 = 1200 X 2 = 1010 n 1 = 12 n 2 = 7 Dottorato di medicina molecolare

77 S 2 = {Σ(x 1 X 1 ) 2 + Σ(x 2 X 2 ) 2 } / [(n 1 + n 2-2)] Σ(x 1 X 1 ) 2 = 5032,00 Σ(x 2 X 2 ) 2 = 2552,00 S 2 = { } / 17 = ES(X 1 X 2 ) = s 2 * (1/n 1 + 1/n 2 ) ES(X 1 X 2 ) = * (1/12 + 1/7) = = 1004 t 17 = ( ) / 1004 = 189 p=0076 Dottorato di medicina molecolare

78 Il test t può essere agevolmente calcolato utilizzando la funzione testt di Excel (o analoghi) La stessa funzione effettua il test t nelle tre diverse condizioni, assegnando i codici appropriati al campo Tipo (1= appaiato; 2 non appaiato omoscedastico; 3: non appaiato eteroscedastico) Dottorato di medicina molecolare

79 Calcolo dell intervallo di confidenza sulla differenza tra le medie test t L intervallo di confidenza viene calcolato rispetto alla differenza delle medie campionarie Indichiamo tale differenza come X [ X - t gl,α/2 *(s/ n)] < (x 1 x 2 ) < [ X + t gl,α/2 *(s/ n)] Dove: t gl,α/2 = valore della funzione t (con il numero dato di gradi di libertà) corrispondente all errore di 1 tipo scelto s: deviazione standard comune n: (1/n 1 + 1/n 2 ) Limite fiduciale superiore = X + t gl,α/2 *(s/ n) Limite fiduciale inferiore = X - t gl,α/2 *(s/ n) Dottorato di medicina molecolare

80 Calcolo dell intervallo di confidenza (continua dall esempio precedente) [ X - t gl,α/2 *(s/ n)] < (x 1 x 2 ) < [ X + t gl,α/2 *(s/ n)] X = (x 1 x 2 ) = 190 t 17,005/2 = 2110 ES(X 1 X 2 ) = ES( X) = 1004 Limiti di confidenza= 190 ± 2110 *1004 = -22; 402 Dottorato di medicina molecolare

81 Confronto tra due campioni appaiati E (X 1 X 2 ) = µ 1 - µ 2 Ma s s 2 2 < δ δ 2 2 Calcolo differenze d tra le osservazioni appaiate d 1 = x 1 - x 2 calcolo quindi media e varianza di d, usando le formule consuete Calcolo quindi la statistica t con gl= (nosservazioni 1) Dottorato di medicina molecolare

82 I dati trattamento placebo diff Differenza media = - 1,30 n = 10 S 2 = Σ(d 1 D) 2 / (n) = 186,1 / 9 = 20,68 ES(d) = s 2 / 1/n = 20,68 / 10 = 2,068 = 1,438 t 9 = -1,30 / 1,438 = - 0,90 p=039 Dottorato di medicina molecolare

83 Calcolo dell intervallo di confidenza sulla differenza tra le medie L intervallo di confidenza viene calcolato rispetto alla differenza media [D - t gl,α/2 *(s/ n)] < (x 1 x 2 ) < [D + t gl,α/2 *(s/ n)] Dove: t gl,α/2 = valore della funzione t (con il numero dato di gradi di libertà) corrispondente all errore di 1 tipo scelto s: deviazione standard della differenza n = numero di osservazioni Limite fiduciale superiore = D + t gl,α/2 *(s/ n) Limite fiduciale inferiore = D - t gl,α/2 *(s/ n) Dottorato di medicina molecolare

84 Calcolo dell intervallo di confidenza (continua dall esempio precedente) D = - 1,30 T 9,005/2 = 2262 ES(D) = 1,438 Limiti di confidenza= -1,30 ± 2262*1,438 = -4,55; 1,95 Dottorato di medicina molecolare

85 La verifica dei requisiti di normalità sarà considerata in una delle prossime lezioni In modo approssimato si può: 1 tenere conto che la distribuzione di campionamento è sempre normale quando i campioni sono grandi n> 30 garantisce la anormalità della distribuzione dei campioni anche se la distribuzione di base è asimmetrica 2 Disegnare un istogramma, che deve essere simmetrico 3 Utolizzare una procedura (grafici QQ o PP in SPSS) che effettua il test di normalità Dottorato di medicina molecolare

86 Dottorato di medicina molecolare

87 Il caso di due campioni con varianze diverse esula da questo programma (si può comunque affrontare con i test non parametrici, considerati nelle prossime lezioni Dottorato di medicina molecolare

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi :

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi : Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi dei dati quantitativi : Confronto tra due medie Università del Piemonte Orientale Corso di laurea in

Dettagli

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica

Dettagli

La distribuzione Gaussiana

La distribuzione Gaussiana Università del Piemonte Orientale Corso di Laurea in Biotecnologie Corso di Statistica Medica La distribuzione Normale (o di Gauss) Corso di laurea in biotecnologie - Corso di Statistica Medica La distribuzione

Dettagli

Inferenza statistica. Statistica medica 1

Inferenza statistica. Statistica medica 1 Inferenza statistica L inferenza statistica è un insieme di metodi con cui si cerca di trarre una conclusione sulla popolazione sulla base di alcune informazioni ricavate da un campione estratto da quella

Dettagli

Statistiche campionarie

Statistiche campionarie Statistiche campionarie Sul campione si possono calcolare le statistiche campionarie (come media campionaria, mediana campionaria, varianza campionaria,.) Le statistiche campionarie sono stimatori delle

Dettagli

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica Università del Piemonte Orientale Corsi di Laurea Triennale di area tecnica Corso di Statistica Medica Campionamento e distribuzione campionaria della media Corsi di laurea triennale di area tecnica -

Dettagli

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale BIOSTATISTICA 2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk

Dettagli

Statistica. Lezione 6

Statistica. Lezione 6 Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 6 a.a 011-01 Dott.ssa Daniela Ferrante

Dettagli

Inferenza statistica

Inferenza statistica Inferenza statistica L inferenza statistica è un insieme di metodi con cui si cerca di trarre una conclusione sulla popolazione in base ad informazioni ricavate da un campione. Inferenza statistica: indurre

Dettagli

Statistica descrittiva: prime informazioni dai dati sperimentali

Statistica descrittiva: prime informazioni dai dati sperimentali SECONDO APPUNTAMENTO CON LA SPERIMENTAZIONE IN AGRICOLTURA Statistica descrittiva: prime informazioni dai dati sperimentali La statistica descrittiva rappresenta la base di partenza per le applicazioni

Dettagli

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: Esempi di domande risposta multipla (Modulo II) 1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: 1) ha un numero di elementi pari a 5; 2) ha un numero di elementi

Dettagli

Statistica inferenziale

Statistica inferenziale Statistica inferenziale Popolazione e campione Molto spesso siamo interessati a trarre delle conclusioni su persone che hanno determinate caratteristiche (pazienti, atleti, bambini, gestanti, ) Osserveremo

Dettagli

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva Università del Piemonte Orientale Corsi di Laurea Triennale Corso di Statistica e Biometria Introduzione e Statistica descrittiva Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2013-2014 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 5-Indici di variabilità (vers. 1.0c, 20 ottobre 2015) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Misure della dispersione o della variabilità

Misure della dispersione o della variabilità QUARTA UNITA Misure della dispersione o della variabilità Abbiamo visto che un punteggio di per sé non ha alcun significato e lo acquista solo quando è posto a confronto con altri punteggi o con una statistica.

Dettagli

Esercitazione di riepilogo 23 Aprile 2013

Esercitazione di riepilogo 23 Aprile 2013 Esercitazione di riepilogo 23 Aprile 2013 Grafici Grafico a barre Servono principalmente per rappresentare variabili (caratteri) qualitative, quantitative e discrete. Grafico a settori circolari (torta)

Dettagli

Stima per intervalli Nei metodi di stima puntuale è sempre presente un ^ errore θ θ dovuto al fatto che la stima di θ in genere non coincide con il parametro θ. Sorge quindi l esigenza di determinare una

Dettagli

Il corso si colloca nell ambito del corso integrato di scienze quantitative, al secondo anno, primo semestre.

Il corso si colloca nell ambito del corso integrato di scienze quantitative, al secondo anno, primo semestre. Corso di Statistica Medica 2004-2005 Il corso si colloca nell ambito del corso integrato di scienze quantitative, al secondo anno, primo semestre. Sono previste 30 ore di lezione di statistica e 12 di

Dettagli

Concetto di potenza statistica

Concetto di potenza statistica Calcolo della numerosità campionaria Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Concetto di potenza statistica 1 Accetto H 0 Rifiuto H 0 Ipotesi Nulla (H

Dettagli

3. Confronto tra medie di due campioni indipendenti o appaiati

3. Confronto tra medie di due campioni indipendenti o appaiati BIOSTATISTICA 3. Confronto tra medie di due campioni indipendenti o appaiati Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk MARTA BLANGIARDO

Dettagli

VERIFICA DELLE IPOTESI

VERIFICA DELLE IPOTESI VERIFICA DELLE IPOTESI Nella verifica delle ipotesi è necessario fissare alcune fasi prima di iniziare ad analizzare i dati. a) Si deve stabilire quale deve essere l'ipotesi nulla (H0) e quale l'ipotesi

Dettagli

Corso di Laurea in Ingegneria Informatica Anno Accademico 2014/2015 Calcolo delle Probabilità e Statistica Matematica

Corso di Laurea in Ingegneria Informatica Anno Accademico 2014/2015 Calcolo delle Probabilità e Statistica Matematica Corso di Laurea in Ingegneria Informatica Anno Accademico 2014/2015 Calcolo delle Probabilità e Statistica Matematica Nome N. Matricola Ancona, 14 luglio 2015 1. Tre macchine producono gli stessi pezzi

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 12-Il t-test per campioni appaiati vers. 1.2 (7 novembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato. Esercizio 1 Sia X 1,..., X un campione casuale estratto da una variabile aleatoria normale con media pari a µ e varianza pari a 1. Supponiamo che la media campionaria sia x = 2. 1a) Calcolare gli estremi

Dettagli

Grafici delle distribuzioni di frequenza

Grafici delle distribuzioni di frequenza Grafici delle distribuzioni di frequenza L osservazione del grafico può far notare irregolarità o comportamenti anomali non direttamente osservabili sui dati; ad esempio errori di misurazione 1) Diagramma

Dettagli

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1 Potenza dello studio e dimensione campionaria Laurea in Medicina e Chirurgia - Statistica medica 1 Introduzione Nella pianificazione di uno studio clinico randomizzato è fondamentale determinare in modo

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 10-Il test t per un campione e la stima intervallare (vers. 1.1, 25 ottobre 2015) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia,

Dettagli

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo Metodi statistici per l economia (Prof. Capitanio) Slide n. 9 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 TEST D IPOTESI Partiamo da un esempio presente sul libro di testo.

Dettagli

Corso di. Dott.ssa Donatella Cocca

Corso di. Dott.ssa Donatella Cocca Corso di Statistica medica e applicata Dott.ssa Donatella Cocca 1 a Lezione Cos'è la statistica? Come in tutta la ricerca scientifica sperimentale, anche nelle scienze mediche e biologiche è indispensabile

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2014-2015 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

Matlab per applicazioni statistiche

Matlab per applicazioni statistiche Matlab per applicazioni statistiche Marco J. Lombardi 19 aprile 2005 1 Introduzione Il sistema Matlab è ormai uno standard per quanto riguarda le applicazioni ingegneristiche e scientifiche, ma non ha

Dettagli

Il corso si colloca nell ambito del corso integrato di scienze quantitative, al primo anno.

Il corso si colloca nell ambito del corso integrato di scienze quantitative, al primo anno. Corso di Statistica Medica Il corso si colloca nell ambito del corso integrato di scienze quantitative, al primo anno. Sono previste 40 ore complessive, di cui almeno 16 di lezione frontale e le restanti

Dettagli

STATISTICA INFERENZIALE

STATISTICA INFERENZIALE STATISTICA INFERENZIALE Premessa importante: si ipotizza che il comportamento della popolazione rispetto ad una variabile casuale X viene descritto attraverso una funzione parametrica di probabilità p

Dettagli

Test non parametrici. Test non parametrici. Test non parametrici. Test non parametrici

Test non parametrici. Test non parametrici. Test non parametrici. Test non parametrici Test non parametrici Test non parametrici Il test T di Student per uno o per due campioni, il test F di Fisher per l'analisi della varianza, la correlazione, la regressione, insieme ad altri test di statistica

Dettagli

Analisi statistica di dati biomedici Analysis of biologicalsignals

Analisi statistica di dati biomedici Analysis of biologicalsignals Analisi statistica di dati biomedici Analysis of biologicalsignals II Parte Verifica delle ipotesi (a) Agostino Accardo (accardo@units.it) Master in Ingegneria Clinica LM in Neuroscienze 2013-2014 e segg.

Dettagli

Facciamo qualche precisazione

Facciamo qualche precisazione Abbiamo introdotto alcuni indici statistici (di posizione, di variabilità e di forma) ottenibili da Excel con la funzione Riepilogo Statistiche Facciamo qualche precisazione Al fine della partecipazione

Dettagli

ESERCIZI DI STATISTICA DESCRITTIVA

ESERCIZI DI STATISTICA DESCRITTIVA ESERCIZI DI STATISTICA DESCRITTIVA ES1 Data la seguente serie di dati su Sesso e Altezza di 8 pazienti, riempire opportunamente due tabelle per rappresentare le distribuzioni di frequenze dei due caratteri,

Dettagli

VERIFICA DELLE IPOTESI

VERIFICA DELLE IPOTESI VERIFICA DELLE IPOTESI Introduzione Livelli di significatività Verifica di ipotesi sulla media di una popolazione normale Verifica di ipotesi sulla varianza di una popolazione normale Verifica di ipotesi

Dettagli

La logica statistica della verifica (test) delle ipotesi

La logica statistica della verifica (test) delle ipotesi La logica statistica della verifica (test) delle ipotesi Come posso confrontare diverse ipotesi? Nella statistica inferenziale classica vengono sempre confrontate due ipotesi: l ipotesi nulla e l ipotesi

Dettagli

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva Brugnaro Luca Progetto formativo complessivo Obiettivo: incrementare le competenze degli operatori sanitari nelle metodiche

Dettagli

Abbiamo visto due definizioni del valore medio e della deviazione standard di una grandezza casuale, in funzione dalle informazioni disponibili:

Abbiamo visto due definizioni del valore medio e della deviazione standard di una grandezza casuale, in funzione dalle informazioni disponibili: Incertezze di misura Argomenti: classificazione delle incertezze; definizione di incertezza tipo e schemi di calcolo; schemi per il calcolo dell incertezza di grandezze combinate; confronto di misure affette

Dettagli

METODOLOGIA CLINICA Necessita di: Quantificazione Formalizzazione matematica

METODOLOGIA CLINICA Necessita di: Quantificazione Formalizzazione matematica METODOLOGIA CLINICA Necessita di: Quantificazione Formalizzazione matematica EPIDEMIOLOGIA Ha come oggetto lo studio della distribuzione delle malattie in un popolazione e dei fattori che la influenzano

Dettagli

STATISTICA DESCRITTIVA. Le misure di tendenza centrale

STATISTICA DESCRITTIVA. Le misure di tendenza centrale STATISTICA DESCRITTIVA Le misure di tendenza centrale 1 OBIETTIVO Individuare un indice che rappresenti significativamente un insieme di dati statistici. 2 Esempio Nella tabella seguente sono riportati

Dettagli

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione) Esercitazione #5 di Statistica Test ed Intervalli di Confidenza (per una popolazione) Dicembre 00 1 Esercizi 1.1 Test su media (con varianza nota) Esercizio n. 1 Il calore (in calorie per grammo) emesso

Dettagli

Università del Piemonte Orientale. Corsi di Specialità. Corso di Statistica Medica. Analisi dei dati quantitativi : Analisi della varianza

Università del Piemonte Orientale. Corsi di Specialità. Corso di Statistica Medica. Analisi dei dati quantitativi : Analisi della varianza Università del Piemonte Orientale Corsi di Specialità Corso di Statistica Medica Analisi dei dati quantitativi : Analisi della varianza Università del Piemonte Orientale Corso di laurea in biotecnologie

Dettagli

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a) Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B Eventi indipendenti: un evento non influenza l altro Eventi disgiunti: il verificarsi di un evento esclude l altro Evento prodotto:

Dettagli

1. Distribuzioni campionarie

1. Distribuzioni campionarie Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013 lezioni di statistica del 3 e 6 giugno 2013 - di Massimo Cristallo - 1. Distribuzioni campionarie

Dettagli

Esercitazioni di Statistica

Esercitazioni di Statistica Esercitazioni di Statistica Test d ipotesi sul valor medio e test χ 2 di adattamento Prof. Livia De Giovanni statistica@dis.uniroma1.it Esercizio 1 Si supponga che il diametro degli anelli metallici prodotti

Dettagli

3) ANALISI DEI RESIDUI

3) ANALISI DEI RESIDUI 3) ANALISI DEI RESIDUI Dopo l analisi di regressione si eseguono alcuni test sui residui per avere una ulteriore conferma della validità del modello e delle assunzioni (distribuzione normale degli errori,

Dettagli

Esplorazione dei dati

Esplorazione dei dati Esplorazione dei dati Introduzione L analisi esplorativa dei dati evidenzia, tramite grafici ed indicatori sintetici, le caratteristiche di ciascun attributo presente in un dataset. Il processo di esplorazione

Dettagli

l insieme delle misure effettuate costituisce il campione statistico

l insieme delle misure effettuate costituisce il campione statistico Statistica negli esperimenti reali si effettuano sempre un numero finito di misure, ( spesso molto limitato ) l insieme delle misure effettuate costituisce il campione statistico Statistica descrittiva

Dettagli

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice Esercitazione 15 Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () 1 / 18 L importanza del gruppo di controllo In tutti i casi in cui si voglia studiare l effetto di un certo

Dettagli

Teoria della Stima. Stima della Media e di una Porzione di Popolazione. Introduzione. Corso di Laurea in Scienze Motorie AA2002/03 - Analisi dei Dati

Teoria della Stima. Stima della Media e di una Porzione di Popolazione. Introduzione. Corso di Laurea in Scienze Motorie AA2002/03 - Analisi dei Dati Teoria della Stima. Stima della Media e di una Porzione di Popolazione Introduzione La proceduta in base alla quale ad uno o più parametri di popolazione si assegna il valore numerico calcolato dalle informazioni

Dettagli

LEZIONI DI STATISTCA APPLICATA. Parte 2. Statistica inferenziale. Variabili continue per categoriali. Alessandro Valbonesi

LEZIONI DI STATISTCA APPLICATA. Parte 2. Statistica inferenziale. Variabili continue per categoriali. Alessandro Valbonesi LEZIONI DI STATISTCA APPLICATA Parte 2 Statistica inferenziale Variabili continue per categoriali Alessandro Valbonesi SARRF di Scienze ambientali Anno accademico 2010-11 CAPITOLO 4 - TEST STATISTICI CHE

Dettagli

E naturale chiedersi alcune cose sulla media campionaria x n

E naturale chiedersi alcune cose sulla media campionaria x n Supponiamo che un fabbricante stia introducendo un nuovo tipo di batteria per un automobile elettrica. La durata osservata x i delle i-esima batteria è la realizzazione (valore assunto) di una variabile

Dettagli

La distribuzione Normale. La distribuzione Normale

La distribuzione Normale. La distribuzione Normale La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una

Dettagli

Statistica. L. Freddi. L. Freddi Statistica

Statistica. L. Freddi. L. Freddi Statistica Statistica L. Freddi Statistica La statistica è un insieme di metodi e tecniche per: raccogliere informazioni su un fenomeno sintetizzare l informazione (elaborare i dati) generalizzare i risultati ottenuti

Dettagli

Il confronto fra proporzioni

Il confronto fra proporzioni L. Boni Il rapporto Un rapporto (ratio), attribuendo un ampio significato al termine, è il risultato della divisione di una certa quantità a per un altra quantità b Il rapporto Spesso, in maniera più specifica,

Dettagli

è decidere sulla verità o falsità

è decidere sulla verità o falsità I test di ipotesi I test di ipotesi Il test delle ipotesi consente di verificare se, e in quale misura, una determinata ipotesi (di carattere sociale, biologico, medico, economico, ecc.) è supportata dall

Dettagli

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Un po di statistica. Christian Ferrari. Laboratorio di Matematica Un po di statistica Christian Ferrari Laboratorio di Matematica 1 Introduzione La statistica è una parte della matematica applicata che si occupa della raccolta, dell analisi e dell interpretazione di

Dettagli

ESAME DI STATISTICA Nome: Cognome: Matricola:

ESAME DI STATISTICA Nome: Cognome: Matricola: ESAME DI STATISTICA Nome: Cognome: Matricola: ISTRUZIONI: Per la prova è consentito esclusivamente l uso di una calcolatrice tascabile, delle tavole della normale e della t di Student. I risultati degli

Dettagli

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010 LEZIONE 3 "Educare significa aiutare l'animo dell'uomo ad entrare nella totalità della realtà. Non si può però educare se non rivolgendosi alla libertà, la quale definisce il singolo, l'io. Quando uno

Dettagli

In questa dispensa cercheremo di approfondire le più comuni tecniche statistiche per l analisi dei dati raccolti nell ambito di ricerca clinica e di

In questa dispensa cercheremo di approfondire le più comuni tecniche statistiche per l analisi dei dati raccolti nell ambito di ricerca clinica e di In questa dispensa cercheremo di approfondire le più comuni tecniche statistiche per l analisi dei dati raccolti nell ambito di ricerca clinica e di base. Verranno inoltre forniti i concetti fondamentali

Dettagli

DISTRIBUZIONI DI PROBABILITÀ

DISTRIBUZIONI DI PROBABILITÀ Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria Civile A.A. 2009-10 Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain 1 LE PRINCIPALI DISTRIBUZIONI

Dettagli

Piacenza, 10 marzo 2014 La preparazione della tesi di Laurea Magistrale

Piacenza, 10 marzo 2014 La preparazione della tesi di Laurea Magistrale Piacenza, 0 marzo 204 La preparazione della tesi di Laurea Magistrale ma questa statistica a che cosa serve? non vedo l ora di cominciare a lavorare per la tesi. e dimenticarmi la statistica!! il mio relatore

Dettagli

I punteggi zeta e la distribuzione normale

I punteggi zeta e la distribuzione normale QUINTA UNITA I punteggi zeta e la distribuzione normale I punteggi ottenuti attraverso una misurazione risultano di difficile interpretazione se presi in stessi. Affinché acquistino significato è necessario

Dettagli

PROBABILITA, VALORE ATTESO E VARIANZA DELLE QUANTITÁ ALEATORIE E LORO RELAZIONE CON I DATI OSSERVATI

PROBABILITA, VALORE ATTESO E VARIANZA DELLE QUANTITÁ ALEATORIE E LORO RELAZIONE CON I DATI OSSERVATI statistica, Università Cattaneo-Liuc, AA 006-007, lezione del 08.05.07 IDICE (lezione 08.05.07 PROBABILITA, VALORE ATTESO E VARIAZA DELLE QUATITÁ ALEATORIE E LORO RELAZIOE CO I DATI OSSERVATI 3.1 Valore

Dettagli

Analisi statistica degli errori

Analisi statistica degli errori Analisi statistica degli errori I valori numerici di misure ripetute risultano ogni volta diversi l operazione di misura può essere considerata un evento casuale a cui è associata una variabile casuale

Dettagli

Statistica descrittiva

Statistica descrittiva Statistica descrittiva La statistica descrittiva mette a disposizione il calcolo di indicatori sintetici che individuano, con un singolo valore, proprieta` statistiche di un campione/popolazione rispetto

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 29-Analisi della potenza statistica vers. 1.0 (12 dicembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Esercitazione n.2 Inferenza su medie

Esercitazione n.2 Inferenza su medie Esercitazione n.2 Esercizio L ufficio del personale di una grande società intende stimare le spese mediche familiari dei suoi impiegati per valutare la possibilità di attuare un programma di assicurazione

Dettagli

Relazioni tra variabili

Relazioni tra variabili Università degli Studi di Padova Facoltà di Medicina e Chirurgia Corso di Laurea in Medicina e Chirurgia - A.A. 009-10 Scuole di specializzazione in: Medicina Legale, Medicina del Lavoro, Igiene e Medicina

Dettagli

Istituzioni di Statistica e Statistica Economica

Istituzioni di Statistica e Statistica Economica Istituzioni di Statistica e Statistica Economica Università degli Studi di Perugia Facoltà di Economia, Assisi, a.a. 2013/14 Esercitazione n. 4 A. Si supponga che la durata in giorni delle lampadine prodotte

Dettagli

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

L Analisi della Varianza ANOVA (ANalysis Of VAriance) L Analisi della Varianza ANOVA (ANalysis Of VAriance) 1 CONCETTI GENERALI Finora abbiamo descritto test di ipotesi finalizzati alla verifica di ipotesi sulla differenza tra parametri di due popolazioni

Dettagli

R - Esercitazione 5. Lorenzo Di Biagio dibiagio@mat.uniroma3.it. Lunedì 2 Dicembre 2013. Università Roma Tre

R - Esercitazione 5. Lorenzo Di Biagio dibiagio@mat.uniroma3.it. Lunedì 2 Dicembre 2013. Università Roma Tre R - Esercitazione 5 Lorenzo Di Biagio dibiagio@mat.uniroma3.it Università Roma Tre Lunedì 2 Dicembre 2013 Intervalli di confidenza (1) Sia X 1,..., X n un campione casuale estratto da un densità f (x,

Dettagli

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008 Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica 18 dicembre 008 Esame sull intero programma: esercizi da A a D Esame sulla seconda parte del programma: esercizi

Dettagli

Temi di Esame a.a. 2012-2013. Statistica - CLEF

Temi di Esame a.a. 2012-2013. Statistica - CLEF Temi di Esame a.a. 2012-2013 Statistica - CLEF I Prova Parziale di Statistica (CLEF) 11 aprile 2013 Esercizio 1 Un computer è collegato a due stampanti, A e B. La stampante A è difettosa ed il 25% dei

Dettagli

Il controllo delle prestazioni del provider. IL CONTROLLO DELLE PRESTAZIONI DEL PROVIDER (riferimenti)

Il controllo delle prestazioni del provider. IL CONTROLLO DELLE PRESTAZIONI DEL PROVIDER (riferimenti) del provider IL CONTROLLO DELLE PRESTAZIONI DEL PROVIDER (riferimenti) 1 del provider - premessa (1) in merito alla fase di gestione ordinaria dell outsourcing sono state richiamate le prassi di miglioramento

Dettagli

CORSO DI STATISTICA ED ELEMENTI DI INFORMATICA

CORSO DI STATISTICA ED ELEMENTI DI INFORMATICA ANNO ACCADEMICO 2013-2014 UNIVERSITA DEGLI STUDI DI TERAMO FACOLTA DI MEDICINA VETERINARIA CORSO DI STATISTICA ED ELEMENTI DI INFORMATICA CFU 5 DURATA DEL CORSO : ORE 35 DOCENTE PROF. DOMENICO DI DONATO

Dettagli

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale I ESERCITAZIONE ESERCIZIO 1 Si vuole testare un nuovo farmaco contro il raffreddore. Allo studio partecipano 200 soggetti sani della stessa età e dello stesso sesso e con caratteristiche simili. i) Che

Dettagli

Dai dati al modello teorico

Dai dati al modello teorico Dai dati al modello teorico Analisi descrittiva univariata in R 1 Un po di terminologia Popolazione: (insieme dei dispositivi che verranno messi in produzione) finito o infinito sul quale si desidera avere

Dettagli

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 6

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 6 CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 6 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Stima puntuale per la proporzione Da un lotto di arance se ne estraggono 400, e di queste 180

Dettagli

CORSO DI MISURE ANALISI DEI SEGNALI NEL DOMINIO DEL TEMPO

CORSO DI MISURE ANALISI DEI SEGNALI NEL DOMINIO DEL TEMPO CORSO DI MISURE ANALISI DEI SEGNALI NEL DOMINIO DEL EMPO ing Emanuele Zappa SEGNALI: grandezze di base nel dominio del tempo: Ampiezza picco-picco (pk.pk) Ampiezza massima positiva empo Ampiezza massima

Dettagli

Politecnico di Milano - Anno Accademico 2010-2011 Statistica 086449 Docente: Alessandra Guglielmi Esercitatore: Stefano Baraldo

Politecnico di Milano - Anno Accademico 2010-2011 Statistica 086449 Docente: Alessandra Guglielmi Esercitatore: Stefano Baraldo Politecnico di Milano - Anno Accademico 200-20 Statistica 086449 Docente: Alessandra Guglielmi Esercitatore: Stefano Baraldo Esercitazione 9 2 Giugno 20 Esercizio. In un laboratorio per il test dei materiali,

Dettagli

Slide Cerbara parte1 5. Le distribuzioni teoriche

Slide Cerbara parte1 5. Le distribuzioni teoriche Slide Cerbara parte1 5 Le distribuzioni teoriche I fenomeni biologici, demografici, sociali ed economici, che sono il principale oggetto della statistica, non sono retti da leggi matematiche. Però dalle

Dettagli

INTRODUZIONE AL DESIGN OF EXPERIMENTS (Parte 1)

INTRODUZIONE AL DESIGN OF EXPERIMENTS (Parte 1) INTRODUZIONE AL DESIGN OF EXPERIMENTS (Parte 1) 151 Introduzione Un esperimento è una prova o una serie di prove. Gli esperimenti sono largamente utilizzati nel campo dell ingegneria. Tra le varie applicazioni;

Dettagli

Statistica Medica. Verranno presi in esame:

Statistica Medica. Verranno presi in esame: Statistica Medica Premessa: il seguente testo cerca di riassumere e rendere in forma comprensibile ai non esperti in matematica e statistica le nozioni e le procedure necessarie a svolgere gli esercizi

Dettagli

La statistica nella ricerca scientifica

La statistica nella ricerca scientifica La statistica nella ricerca scientifica Pubblicazione dei risultati Presentazione dei dati e la loro elaborazione devono seguire criteri universalmente validi Impossibile verifica dei risultati da parte

Dettagli

STATISTICA (I MODULO INFERENZA STATISTICA) Esercitazione I 27/4/2007

STATISTICA (I MODULO INFERENZA STATISTICA) Esercitazione I 27/4/2007 Esercitazione I 7/4/007 In una scatola contenente 0 pezzi di un articolo elettronico risultano essere difettosi. Si estraggono a caso due pezzi, uno alla volta senza reimmissione. Quale è la probabilità

Dettagli

LA CORRELAZIONE LINEARE

LA CORRELAZIONE LINEARE LA CORRELAZIONE LINEARE La correlazione indica la tendenza che hanno due variabili (X e Y) a variare insieme, ovvero, a covariare. Ad esempio, si può supporre che vi sia una relazione tra l insoddisfazione

Dettagli

Prova di autovalutazione Prof. Roberta Siciliano

Prova di autovalutazione Prof. Roberta Siciliano Prova di autovalutazione Prof. Roberta Siciliano Esercizio 1 Nella seguente tabella è riportata la distribuzione di frequenza dei prezzi per camera di alcuni agriturismi, situati nella regione Basilicata.

Dettagli

Statistica Applicata all edilizia: alcune distribuzioni di probabilità

Statistica Applicata all edilizia: alcune distribuzioni di probabilità Statistica Applicata all edilizia: Alcune distribuzioni di probabilità E-mail: orietta.nicolis@unibg.it 7 marzo 20 Indice Indici di curtosi e simmetria Indici di curtosi e simmetria 2 3 Distribuzione Bernulliana

Dettagli

Inferenza statistica I Alcuni esercizi. Stefano Tonellato

Inferenza statistica I Alcuni esercizi. Stefano Tonellato Inferenza statistica I Alcuni esercizi Stefano Tonellato Anno Accademico 2006-2007 Avvertenza Una parte del materiale è stato tratto da Grigoletto M. e Ventura L. (1998). Statistica per le scienze economiche,

Dettagli

Inferenza statistica. Inferenza statistica

Inferenza statistica. Inferenza statistica Spesso l informazione a disposizione deriva da un osservazione parziale del fenomeno studiato. In questo caso lo studio di un fenomeno mira solitamente a trarre, sulla base di ciò che si è osservato, considerazioni

Dettagli

Analisi di dati di frequenza

Analisi di dati di frequenza Analisi di dati di frequenza Fase di raccolta dei dati Fase di memorizzazione dei dati in un foglio elettronico 0 1 1 1 Frequenze attese uguali Si assuma che dalle risposte al questionario sullo stato

Dettagli

Elementi di Statistica descrittiva Parte I

Elementi di Statistica descrittiva Parte I Elementi di Statistica descrittiva Parte I Che cos è la statistica Metodo di studio di caratteri variabili, rilevabili su collettività. La statistica si occupa di caratteri (ossia aspetti osservabili)

Dettagli

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr.

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr. Corso di Laurea in Scienze e Tecnologie Biomolecolari Matematica e Statistica II Prova di esame dell 11/1/2012 NOME COGNOME N. Matr. Rispondere alle domande nel modo più completo possibile, cercando di

Dettagli

INDICE PREFAZIONE VII

INDICE PREFAZIONE VII INDICE PREFAZIONE VII CAPITOLO 1. LA STATISTICA E I CONCETTI FONDAMENTALI 1 1.1. Un po di storia 3 1.2. Fenomeno collettivo, popolazione, unità statistica 4 1.3. Caratteri e modalità 6 1.4. Classificazione

Dettagli

Facoltà di Psicologia Università di Padova Anno Accademico 2010-2011

Facoltà di Psicologia Università di Padova Anno Accademico 2010-2011 Facoltà di Psicologia Università di Padova Anno Accademico 010-011 Corso di Psicometria - Modulo B Dott. Marco Vicentini marco.vicentini@unipd.it Rev. 10/01/011 La distribuzione F di Fisher - Snedecor

Dettagli