Statistica inferenziale
Popolazione e campione Molto spesso siamo interessati a trarre delle conclusioni su persone che hanno determinate caratteristiche (pazienti, atleti, bambini, gestanti, ) Osserveremo un campione della popolazione Dall osservazione del campione, trarremo delle conclusioni sulla popolazione Assumiamo che il campione in esame sia un campione casuale della popolazione
Campione Inferenza Popolazione statistica
Parametri della popolazione Le caratteristiche (ignote) della popolazione sono chiamate parametri e sono indicate con le lettere greche Media μ Varianza σ 2 Deviazione standard σ
Statistiche I valori osservati nel campione sono chiamati statistiche Media x Varianza s 2 Deviazione standard s
Teoria della probabilità Fondamento dell inferenza statistica è la teoria della probabilità
Definizione di probabilità La probabilità di un evento A è la frequenza relativa con cui si verifica l evento A in una serie molto lunga di esperimenti condotti in condizioni sostanzialmente identiche P A = m n È la definizione frequentista di probabilità Esistono anche altre definizioni di probabilità (definizione soggettiva o bayesiana)
Eventi esclusivi e non esclusivi Due eventi A e B sono esclusivi se non possono verificarsi contemporaneamente Due eventi A e B sono non esclusivi se possono verificarsi contemporaneamente
Proprietà additiva della probabilità Se 2 o più eventi sono mutuamente esclusivi P A B = P A + P(B) A B
Proprietà additiva della probabilità Se 2 o più eventi non sono mutuamente esclusivi P A B = P A + P B P(A B) A B
Eventi dipendenti ed indipendenti Due eventi A e B sono indipendenti se il verificarsi dell uno non modifica la probabilità che l altro evento si verifichi Due eventi A e B sono dipendenti se il verificarsi dell uno influenza la probabilità che l altro evento si verifichi
Probabilità condizionale È la probabilità che si verifichi l evento B, condizionata al fatto che l evento A si sia già verificato P(B A) Se A e B sono indipendenti P B A = P(B)
Proprietà moltiplicativa della probabilità P A B = P A P(B A) Se due eventi sono indipendenti P A B = P A P(B)
Esercitazione La probabilità che uno studente superi l esame di Fisiologia Umana al primo appello è 0.2 La probabilità che uno studente superi l esame di Fisiologia Umana al secondo appello è 0.3 Qual è la probabilità di superare l esame al primo o al secondo appello?
Esercitazione La probabilità che uno studente superi l esame di Fisiologia Umana al primo appello è 0.2 La probabilità che uno studente superi l esame di Salute e Attività Motoria al primo appello è 0.3 Qual è la probabilità di superare entrambi gli esami al primo appello?
La distribuzione di probabilità E una relazione matematica, o una regola, che assegna ad ogni possibile valore x (modalità) di una variabile aleatoria discreta X la probabilità P(X=x) Può essere espressa in forma di tabella o grafico che presenta le modalità e le probabilità associate oppure sotto forma di formula matematica dalla quale è possibile ricavare i singoli valori di probabilità
Distribuzioni di probabilità Esistono funzioni di distribuzione di probabilità di ogni forma e dimensione Le distribuzioni appartengono a famiglie Ogni curva che appartiene ad una famiglia è determinata dal valore di una serie di parametri Fenomeni diversi possono avere una distribuzione di probabilità che appartiene a famiglie diverse es. la distribuzione delle altezze appartiene alla famiglia delle distribuzioni normali, la durata della vita alle distribuzioni Weibull
Le variabili aleatorie Una variabile aleatoria (o casuale) X è definita come una quantità numerica che assume differenti valori x con un probabilità specificata P(X=x) Si distinguono due tipi di variabili aleatorie: Variabili aleatorie discrete Variabili aleatorie continue
Distribuzione di una variabile Probability f(x).1.2.3.4 0 aleatoria discreta X discreta: funzione di probabilità f(x) le modalità che la variabile può assumere sono costituite da valori interi Per ogni possibile valore x la probabilità è definita: f(x)=pr(x=x) 0 1 2 3 4
Distribuzione di una variabile aleatoria continua X continua: funzione di densità f(x) le modalità possibili sono i valori di un continuum classi di tali valori si verificano con una probabilità specifica Funzione tale che Pr(a<X<b) è uguale all area sottesa alla curva compresa tra a e b a b
Statistics Review (permutazioni e combinazioni) Permutazioni Combinazioni in quanti modi differenti n oggetti possono essere selezionati r alla volta (considerando l ordine) in quanti modi differenti n oggetti possono essere selezionati r alla volta (senza considerare l ordine) p n r n n 1 n 2... n r 1 p n r n! n r! c n r n r n! r! n r!
La distribuzione binomiale Campione casuale di grandezza n da una popolazione con prevalenza π della malattia D x i =1 se ith individuo nel campione ha la malattia x i =0 se ith individuo nel campione non ha la malattia X= x 1 + x 2 + +x n è il numero di individui con la malattia nel campione La distribuzione di X dipende da n e π ed è chiamata distribuzione binomiale n e π sono i parametri della distribuzione
La Distribuzione Binomiale: ASSUNTI DI BASE Esiste un numero fisso di esperimenti n Ogni esperimento dà luogo a uno tra due risultati mutuamente esclusivi Evento elementare di tipo binario I risultati degli n esperimenti sono indipendenti E applicabile la proprietà moltiplicativa per il calcolo della probabilità di insiemi unione La probabilità di successo p è costante per ciascun esperimento L evento elementare ha distribuzione uniforme P(X=x)=k
La distribuzione binomiale: funzione di probabilità La funzione di probabilità è data dalla seguente espressione matematica n P X x x p x p n x ( ) ( ) 1 X P n è la prevalenza stimata dal campione La distribuzione di P deriva dalla distribuzione binomiale
La distribuzione binomiale Selezionando n soggetti, la probabilità di ottenere x successi è n P( X x) x p x ( p ) 1 N combinazioni equivalenti Probabilità marginale eventi elementari favorevoli n x Probabilità marginale eventi elementari sfavorevoli Il valore atteso ( media ) è E(X) = n*p La varianza è = n*p* (1-p)
La distribuzione binomiale: un esempio Y variabile casuale che rappresenta il comportamento nei confronti dell attività fisica Y=1 se il soggetto è sedentario Y=0 se il soggetto non è sedentario P=29% P(Y=1)= p= 0,29 P(Y=0)= 1-p= 1-0,29= 0,71
La distribuzione binomiale Immaginiamo di selezionare due soggetti in maniera casuale. Qual è la distribuzione della variabile X? In altre parole, qual è la probabilità di ottenere 0, 1 o 2 soggetti sedentari? Risultato di Y Primo soggetto Secondo soggetto Probabilità di questi risultati Numero di sedentari X 0 0 (1-p)(1-p) 0 1 0 p(1-p) 1 0 1 (1-p)p 1 1 1 pp 2 P(X=0)= (1-p) 2 = (0,71) 2 = 0,504 P(X=1)= p(1-p)+(1-p)p= 2p(1-p)= 2*0,29*0,71= 0,412 P(X=2)= p 2 = (0,29) 2 = 0,084
La distribuzione binomiale Nell esempio precedente, n=2 e p=0,29 E se avessimo studiato tre soggetti? X variabile casuale binomiale con n=3 e p=0,29 P(X=0)= (1-p) 3 = (0,71) 3 = 0,358 P(X=1)= = 0,439 P(X=2)= = 0,179 P(X=3)= = 0,024
La distribuzione binomiale: un esempio Assumendo che il 30% degli studenti sono sedentari, quanti soggetti sedentari ci aspettiamo se selezioniamo casualmente 5 studenti? Utilizza la distribuzione binomiale per studiare la distribuzione di probabilità della variabile casuale binomiale X con n=5 e p=0,30
Tabella della distribuzione binomiale
0 Probability.1.2.3.4 Distribuzione binomiale, n=5 p=0.3 0 1 2 3 4 5
0 Probability.1.2.3.4 0 Probability.1.2.3.4 Distribuzione binomiale La distribuzione binomiale è asimmetrica quando p è piccolo (vicino a 0) n=5, p=0,3 0 1 2 3 4 5 o quando p è grande (vicino a 1) n=5, p=0,7 0 1 2 3 4 5
0.05.1 Probability.15.2.25 0 Probability.1.2.3 Distribuzione binomiale Per valori di p vicini o uguali a 0,5 la distribuzione diventa simmetrica n=5, p=0,5 0 1 2 3 4 5 n=10, p=0,5 0 1 2 3 4 5 6 7 8 9 10
0.05 Probability.1.15.2 0 Probability.1.2.3.4 Distribuzione binomiale All aumentare di n, la distribuzione diventa sempre meno asimmetrica n=10, p=0.1 0 1 2 3 4 5 6 7 8 9 10 n=100, p=0.1 0123456789101121314151617181920212232425262728293031323343536373839404142434454647484950
Funzione di densità di probabilità Immaginiamo di poter misurare una variabile numerica continua in tutti i membri di una popolazione La distribuzione di questa variabile nella popolazione è caratterizzata dalla sua funzione di densità di probabilità
Proprietà della funzione di densità di probabilità Per ogni intervallo (a,b) la probabilità che un soggetto appartenente alla popolazione abbia un valore compreso tra a e b è uguale all area sottesa alla curva L area totale sotto la curva deve essere uguale ad uno a b
La distribuzione normale E la distribuzione continua più comune, ed è nota anche come distribuzione Gaussiana Ha la caratteristica forma a campana È unimodale e simmetrica intorno alla media μ La sua densità di probabilità è data dall equazione y = 1 x μ 2 2πσ e 2σ 2
0.01.02.03.04 y La distribuzione normale μ=170 σ=10 120 140 160 180 200 220 x
0.01.02.03.04 y La distribuzione normale μ=170 σ=12 120 140 160 180 200 220 x
0.1.2.3.4 y La distribuzione normale standard (Z) μ=0 σ=1-4 -2 0 2 4 x
La distribuzione normale standard Qualsiasi distribuzione normale può essere correlata alla distribuzione normale standard, attraverso un opportuna trasformazione x μ z = σ z è la deviata normale standard o z-score
0.1.2.3.4 y La distribuzione normale standard AUC=68% -4-3 -2-1 0 1 2 3 4 x
0.1.2.3.4 y La distribuzione normale standard AUC=95% 2.5% 2.5% -4-3 -2-1 0 1 2 3 4 x
La distribuzione normale standard I valori della distribuzione normale standard sono riportati in una tabella Stata ha in memoria la tabella della distribuzione normale standard e molte altre funzioni di densità di probabilità (t di Student, binomiale, Chi quadro, F, )
La distribuzione normale standard
Applicazioni della distribuzione normale standard Immaginiamo di conoscere la media e la deviazione standard della pressione arteriosa sistolica (PAS) nella popolazione μ=120 mmhg σ=15 mmhg Qual è la probabilità che un individuo preso a caso da questa popolazione abbia una PAS superiore a 140 mmhg?
Applicazioni della distribuzione μ=120 mmhg σ=15 mmhg x=140 mmhg z = x μ σ normale standard = 140 120 15 = 1.33 Dobbiamo calcolare l AUC in Z nell intervallo (1.33, )
0.1.2.3.4 y Applicazioni della distribuzione normale standard 9.1% -4-3 -2-1 0 11.33 2 3 4 x
Applicazioni della distribuzione normale standard Qual è la probabilità che un individuo preso a caso da questa popolazione abbia una PAS inferiore a 90 mmhg?
Applicazioni della distribuzione μ=120 mmhg σ=15 mmhg x=90 mmhg normale standard z = x μ = 90 120 = 2 σ 15 Dobbiamo calcolare l AUC in Z in (-, -2)
0.1.2.3.4 y Applicazioni della distribuzione normale standard 2.3% -4-3 -2-1 0 1 2 3 4 x
Applicazioni della distribuzione normale standard Qual è la probabilità che un individuo preso a caso da questa popolazione abbia una PAS compresa tra 100 e 110 mmhg?
Applicazioni della distribuzione μ=120 mmhg σ=15 mmhg x1=100 mmhg x2=110 mmhg z = x μ σ z = x μ σ normale standard = 100 120 15 = 110 120 15 = 1.33 = 0.67 Dobbiamo calcolare l AUC in Z in (-1.33, -0.67)
0.1.2.3.4 y Applicazioni della distribuzione normale standard 16.0% -4-3 -2-1.33-1-.67 0 1 2 3 4 x