Distribuzioni e inferenza statistica

Distribuzioni di probabilità L analisi statistica spesso studia i fenomeni collettivi confrontandoli con modelli teorici di riferimento. Tra di essi, vedremo: la distribuzione binomiale, la distribuzione di Poisson, la distribuzione normale o Gaussiana, e altre. Scopo: Molti fenomeni sono approssimabili con esse Inferenza statistica: dai dati di un campione verificare ipotesi sull intera popolazione

Distribuzione binomiale (cap. 7.2) E la distribuzione di probabilità usata quando: le prove ripetute sono indipendenti i risultati di ciascuna prova sono due la probabilità p di successo è costante Esempi: un sondaggio in cui ogni persona può esprimere SI o NO; un test di qualità sul funzionamento di un elettrodomestico (funziona, non funziona)

Per calcolare la densità di probabilità (ossia la probabilità che una variabile assuma un certo valore) di una distribuzione binomiale, in Excel si usa la funzione oppure Dove DISTRIB.BINOM(num_successi;prove;probabilità_s;cumulativo) DISTRIB.BINOM.N(num_successi;prove;probabilità_s;cumulativo) Num_successi = numero di successi in prove (x nella formula) Prove= numero di prove indipendenti (n nella formula) Probabilità_s= probabilità di successo per ciascuna prova (p nella formula) Cumulativo= valore logico che determina la forma assunta dalla funzione. Se è VERO, DISTRIB.BINOM restituirà la funzione distribuzione cumulativa, ovvero la probabilità che venga restituito un numero di successi di num_successi: Se è FALSO, verrà restituita la funzione massa di probabilità, ovvero la probabilità che venga restituito un numero massimo di successi = al valore di num_successi che è corrispondente alla densità di probabilità

DISTRIBUZIONE BINOMIALE La distribuzione binomiale permette di calcolare, per numeri n piccoli, le probabilità di avere un certo numero k di successi nelle n prove. Se abbiamo molte prove, n diventa molto grande. Trovare le probabilità dei successi k diventa difficile. Per valori alti di n il problema non è di trovare la probabilità connessa ad uno specifico numero k di successi, ma di trovare ad esempio la probabilità di trovare più o meno di k successi.

DISTRIBUZIONE DI POISSON (cap. 7.4) NEW! Si usa quando la probabilità di successo p è piccola, il numero n delle prove è molto elevato e il prodotto =np è finito. La funzione di probabilità della distribuzione di Poisson è: P(X x) x x! e In Excel POISSON(x; media; cumulativo) dove Media = cumulativo = valore logico. Se è VERO, restituisce la funzione di distribuzione cumulativa P(X x); se è FALSO P(X=x) Provate con i dati dell Esempio 7.5 e 7.6, p. 165

DISTRIBUZIONE NORMALE Si ricorre allora alle distribuzioni NORMALE (GAUSSIANA), o di Poisson, che valgono per n molto grande. In questo caso lo scaloide della distribuzione di probabilità binomiale, ossia l insieme dei rettangoli che rappresentano le probabilità dei singoli k, tende a diventare un area sottostante ad una linea continua.

Per il calcolo della funzione di probabilità normale, in Excel si usa DISTRIB.NORM.N(x;media;dev_standard;cumulativo) Dove: x 0 = valore per il quale si desidera la distribuzione media=media aritmetica della distribuzione (μ nella formula) dev_standard=deviazione standard della distribuzione ( nella formula) Cumulativo=valore logico. Se è VERO, restituisce la funzione di distribuzione cumulativa P( x x x0 x0 1 1/2(x μ) 0) f(x) e σ 2π 2 /σ 2 dx se è FALSO, restituisce la funzione massa di probabilità P(X= x 0 )

Altre distribuzioni continue Distribuzione 2 (par. 7.6) Distribuzione t di Student Distribuzione F di Fisher (per la regressione)

Distribuzione 2 (a n gradi di libertà) E una distribuzione di probabilità continua, ottenuta come somma dei quadrati di n variabili casuali indipendenti, con media 0 e varianza 1 Caratteristiche: L asimmetria La dipendenza dal parametro n La non negatività della funzione Al variare di n esistono infinite distribuzioni In Excel si usa la funzione DISTRIB.CHI(x;gradi_libertà) gdl=n

Distribuzione t di Student E una distribuzione di probabilità continua. Consideriamo due variabili indipendenti Z, Q, dove Z è distribuita normalmente con media 0 e varianza 1 Q è distribuita secondo un 2 con n gradi di libertà Si può dimostrare che la variabile casuale continua segue una distribuzione t di Student con n gradi di libertà

Distribuzione t di Student Caratteristiche: Simmetrica rispetto al valor medio Dipende da n All aumentare di n tende alla distribuzione normale Per ogni valore di n si ha una diversa distribuzione In Excel si usa la funzione DISTRIB.T(x;gradi_libertà;coda) Se coda=1 (risp. 2), viene restituita una distribuzione a 1 coda (risp. 2 code).

Distribuzione F di Fisher E una distribuzione usata per confrontare il grado di variabilità di due insiemi di dati ed è usata nello studio dell analisi della varianza (ANOVA) Consideriamo due variabili casuali X 1 e X 2 distribuite secondo un 2 con n 1 e n 2 gradi di libertà, risp. Si può dimostrare che la variabile F= (X 1 /n 1 ) / (X 2 /n 2 ) segue una distribuzione F con n 1 e n 2 gradi di libertà

Distribuzione F di Fisher In Excel si usa la funzione DISTRIB.F(x;gradi_libertà1; gradi_libertà2)

A cosa può servire tutto ciò? Inferenza statistica Indagine campionaria: indagine svolta su una parte dell intero collettivo da indagare (popolazione) Estendere i risultati a tutta la popolazione: i risultati ottenuti per il campione sono approssimativamente validi per tutta la popolazione

Inferenza statistica: insieme di metodi che consentono di precisare a posteriori i margini di tale approssimazione oppure a priori l articolazione e il dimensionamento ottimale del campione

Problemi inferenziali Stima dei parametri Verifica di ipotesi sui parametri sulla base dei risultati del campione, si valutano i parametri che caratterizzano la distribuzione del carattere nella popolazione (a posteriori) o se ne verificano le congetture (a priori) Problemi inferenziali parametrici Verifica di altre ipotesi riguardano aspetti della distribuzione del carattere nella popolazione non suscettibili di essere espressi dai parametri che compaiono, che valgano per qualsiasi forma funzionale di tale distribuzione Problemi inferenziali nonparametrici

Stima dei parametri (cap. 8.2 cenni) Si distingue: Stima puntuale dei parametri (consiste nella migliore valutazione di un parametro, ottenibile sulla base delle osservazioni campionarie). Parametri: media, frequenza, differenze tra medie. Intervalli di confidenza (stima di un intervallo di confidenza in cui si trova, con una prefissata probabilità, il vero e ignoto parametro da stimare). Dimensione del campione

Verifica di ipotesi (cap. 8.4 cenni) Nell inferenza statistica parametrica si formulano ASSUNZIONI sui valori di un parametro incognito di una distribuzione di probabilità di funzione NOTA. La verifica statistica delle ipotesi vaglia il grado di attendibilità che può essere attribuito loro.

Inferenza statistica non parametrica (cap. 9) Si tratta di usare metodi (detti non parametrici) che non usano alcuna informazione sulla distribuzione di probabilità. Dunque sono utili quando non si conosce la distribuzione di probabilità della popolazione e non è possibile usare test che coinvolgono ipotesi sui parametri della distribuzione. Vedremo un test per la bontà dell adattamento : il test del 2, che state utilizzando in Fisica.

Test del 2 (di buon adattamento) I test di buon adattamento, in generale, hanno lo scopo di verificare se una variabile in esame abbia o meno un certa distribuzione ipotizzata sulla base, come al solito, di dati sperimentali. Si usa per confrontare un insieme di frequenze osservate in un campione, con le analoghe quantità teoriche ipotizzate per la popolazione

Test del 2 (di buon adattamento) I test di buon adattamento, in generale, hanno lo scopo di verificare se una variabile in esame abbia o meno un certa distribuzione ipotizzata sulla base, come al solito, di dati sperimentali. Si usa per confrontare un insieme di frequenze osservate in un campione, con le analoghe quantità teoriche ipotizzate per la popolazione Confronto tra frequenze empiriche e teoriche Mediante il test è possibile misurare quantitativamente il grado di deviazione tra i due insiemi di valori