Inferenza statistica procedimento per indurre le caratteristiche non note di un aggregato a partire dalle informazioni disponibili su una parte di esso. Obiettivo del corso presentare la teoria ed i metodi statistici che presiedono a tale procedimento. In particolare: - metodi basati sul concetto di verosimiglianza; - metodi parametrici; - metodi per la stima e la verifica di ipotesi. Un po di terminologia Unità statistiche elementi che compongono la popolazione e il campione (individui, soggetti, casi). Variabili caratteristiche (qualitative o quantitative) delle unità statistiche cui è rivolto l interesse dell inferenza statistica. Esempio (Azzalini, pp. 6-15) Popolazione partita di 5000 guarnizioni in materiale plastico Obiettivo valutare la qualità dei pezzi forniti Unità statistica la guarnizione della partita Variabile conformità delle guarnizioni alle specifiche tecniche Modalità della variabile: conforme/ non conforme (difettoso). In simboli: Conformità alle specifiche tecniche Non conforme 1 Conforme 0 θ = probabilità di produzione di una guarnizione non conforme Y Ber(θ), con 0 θ 1 Y (modello probabilistico del problema inferenziale) 1 2
Principali ragioni per il ricorso ad un campione: 1) esigenze di tempestività; 2) vincoli economici; 3) popolazioni virtuali, di dimensioni non finite; 4) campionamento distruttivo. Come deve essere il campione? - rappresentativo della popolazione (ovvero) - selezionato in base a caratteristiche indipendenti da quelle oggetto di studio (ovvero) - selezionato con un meccanismo di tipo casuale Un meccanismo casuale permette inoltre di valutare il grado di corrispondenza tra il campione e la popolazione. Esperimento aleatorio ausiliario Equivalenza ideale tra: popolazione urna unità statistiche palline (una pallina numerata per ciascuna unità) Estrazione casuale delle palline dall urna = estrazione casuale delle unità dalla popolazione. Possibili varianti del processo di estrazione (modelli di campionamento): - con o senza reinserimento di una pallina estratta - con probabilità di estrazione diversa per ciascuna pallina - con probabilità di estrazione che dipende dalla pallina estratta - con più di un urna (es.: estrazione casuale di un urna e successiva estrazione casuale di una pallina dall urna estratta) - ecc Campione casuale semplice (estrazione con reinserimento in cui gli elementi del campione provengono tutti dalla medesima popolazione) 3 4
Numero di unità da estrarre: n (Y1,, Yi,, Yn): campione PRIMA dell estrazione Yi è detta variabile casuale campionaria Il modello di campionamento determina: - la dipendenza / l indipendenza tra le Yi - il legame tra ciascuna Yi e il modello probabilistico. Nel caso di un campione casuale semplice: - le Yi sono indipendenti, - la distribuzione di ogni Yi coincide con quella specificata nel modello probabilistico per Y. Campione casuale semplice: composto da n v.c. campionarie I.I.D. Campione casuale semplice di numerosità n = 50 estratto dal lotto di 5000 guarnizioni: (y1= 1, y2= 0,, y50= 1) 50 x = y i guarnizioni sono difettose i= 1 50 x guarnizioni sono conformi. Poniamo che x = 4. k = numero di guarnizioni difettose nella partita =? θ = k/5000 =? 4 : 50 = k : 5000 = θ che risolta per θ ci dà: θ = 4/50. Campione casuale semplice di n = 50 guarnizioni (modello di campionamento) Modello statistico del problema inferenziale: - modello probabilistico: bernoulliano - modello di campionamento: casuale semplice. 5 6
Alcuni interrogativi aperti: 1) esistono altri modi ragionevoli di procedere per determinare θ? 2) qual è il grado di accuratezza del valore θ? 3) qual è un intervallo di valori plausibili per θ? 4) se n = 100 x = 8 cosa cambia? 5) il fornitore garantisce max 5% di guarnizioni difettose, il campione ne contiene l 8%; l industria che produce le pompe può contestare la partita? il campione è sfortunato? 6) esiste un criterio generale applicabile ad ogni situazione, anche più complessa? La risposta si basa su opportuni metodi di inferenza statistica, e dipende dalla relazione che sussiste tra k (ovvero θ) e x. Si tratta di una relazione regolata da leggi del calcolo delle probabilità. x è la determinazione di una variabile casuale X La distribuzione di probabilità di X è determinata: - dal modello probabilistico (bernoulliano); - dal modello di campionamento (casuale semplice): X Bin(n, θ) n x x n x P{X = x} = θ ( θ) X Bin(50, θ) 50 θ x x x P{X = x} = ( 1 θ) 1 x = 0, 1,, n 50 dove θ = k/5000, dove k = 0, 1,, 5000 x = 0, 1,, 50 (1.1) La (1.1) identifica una classe di funzioni di probabilità binomiali (uguali nella forma diverse nel parametro). Tra queste vi è anche quella da cui deriva il campione. 7 8
Cambiamento di terminologia: da inferenza sulle caratteristiche non note di un aggregato a inferenza sul valore del parametro θ della distribuzione di probabilità di una variabile casuale. La funzione di verosimiglianza Per x = 4 la (1.1) diventa: 50 4 L(θ) = θ 4 ( 1 θ) 46 con 0 θ 1 Problemi di inferenza statistica: 1) problemi di stima statistica 2) problemi di verifica di ipotesi statistiche 0,19 0,14 L(θ) 0,09 0,04-0,01-0,01 0,19 0,39 0,59 0,79 0,99 θ Esprime il grado di accordo tra i possibili valori di θ e il valore osservato di x. maxl(θ) quando θ= θˆ =4/50. θˆ = 4/50 è la stima di massima verosimiglianza di θ. 9 10
Nel caso generale: n θ x x n x L(θ) = ( ) 1 θ 0 θ 1, e la stima di θ di massima verosimiglianza è θˆ = x/n ATTENZIONE!!! La funzione di verosimiglianza non è una funzione di densità di probabilità!!! Stima intervallare Qual è un insieme di valori plausibili per θ? Verifica di ipotesi (θ1, θ2) Il problema della verifica di ipotesi e quello della stima intervallare sono legati tra loro. (θ1, θ2) = intervallo di valori plausibili per θ contenente la stima θˆ qualunque θ (θ1, θ2) è compatibile con θˆ θ0 = valore prefissato di riferimento per θ θ0 è compatibile con θˆ θ0 (θ1, θ2) L individuazione di una stima intervallare si basa sulla verosimiglianza: valori più plausibili del parametro hanno una verosimiglianza più alta. C è conformità tra l osservazione empirica (8% di guarnizioni difettose nel campione) ed un valore prefissato di riferimento per il parametro (il 5% garantito dal fornitore)? Sì, purché la discrepanza tra i due valori rientri entro i limiti attesi per la discrepanza tra il vero valore del parametro e una sua stima basata su un campione casuale. 11 12
La verosimiglianza relativa L(θ)/ L( θˆ ) = L*(θ) 0 θ 1, Esempio di criterio per la determinazione di una stima intervallare di θ: L*(θ) > 1/5 = 0,2 0,99 0,99 0,79 0,79 L*(θ) 0,59 L(θ) 0,59 0,39 0,39 0,19 0,19-0,01-0,01 0,03 0,07 0,11 0,15 0,19 0,23 0,27 0 L*(θ) 1 L*(θ) = 1 per θ = θˆ L*(θ) è la verosimiglianza divisa per una costante (di normalizzazione) θ -0,01-0,01 0,03 0,07 0,11 0,15 0,19 0,23 0,27 Se θ = 0,05 L*(θ) = 0,668 l affermazione del fornitore non è incompatibile con il risultato sperimentale θ 13 14
n = 100, x = 8, θˆ = 8/100 0,99 0,79 n = 50 n = 100 0,59 L*(θ) 0,39 0,19-0,01-0,01 0,03 0,07 0,11 0,15 0,19 0,23 0,27 θ - la nuova verosimiglianza relativa è più concentrata attorno alla stima di massima verosimiglianza - valori del parametro diversi da θˆ sono meno verosimili - la stima intervallare si restringe attorno a θˆ - la verosimiglianza relativa per θ = 0,05 diminuisce (da 0,668 a 0,446) Il principio del campionamento ripetuto θˆ è una v.c; E( θˆ ) =? Var( θˆ ) =? θˆ - θ? 15