STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA



Documenti analoghi
Distribuzioni campionarie. Antonello Maruotti

Capitolo 11 Test chi-quadro

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016

STIMA DELLA VARIANZA CAMPIONARIA

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Verifica delle ipotesi

LEZIONI DI STATISTICA MEDICA

LEZIONI DI STATISTICA MEDICA

Esercizi di Probabilità e Statistica

Esercitazioni di statistica

Contenuti: Capitolo 14 del libro di testo

STATISTICA ESERCITAZIONE

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Statistica Inferenziale

Teorema del limite centrale TCL

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI

Università di Pavia Econometria. Richiami di Statistica. Eduardo Rossi

STATISTICA MULTIVARIATA SSD MAT/06

Statistica. Capitolo 10. Verifica di Ipotesi su una Singola Popolazione. Cap. 10-1

La statistica è la scienza che permette di conoscere il mondo intorno a noi attraverso i dati.

INTRODUZIONE ALLA STATISTICA PER LA RICERCA IN SANITA

Campionamento La statistica media campionaria e la sua distribuzione

Esercitazioni di Statistica

Il Test di Ipotesi Lezione 5

Contenuto del capitolo

Metodi statistici per le ricerche di mercato

PROBABILITÀ ELEMENTARE

INTERVALLI DI CONFIDENZA e TEST D IPOTESI 1 / 30

La verifica delle ipotesi

Metodi statistici per le ricerche di mercato

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

Corso di STATISTICA EGA - Classe 1 aa Docenti: Luca Frigau, Claudio Conversano

Tipi di variabili. Indici di tendenza centrale e di dispersione

Capitolo 7. Distribuzioni campionarie. Statistica. Levine, Krehbiel, Berenson

Metodi statistici per le ricerche di mercato

Corso di Statistica Esercitazione 1.8

Statistica Inferenziale Soluzioni 3. Verifica di ipotesi

Test di ipotesi. Test

Concetti principale della lezione precedente

05. Errore campionario e numerosità campionaria

Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017

Modelli descrittivi, statistica e simulazione

Cenni di Statistica Inferenziale

Esempio (Azzalini, pp. 6-15)

Gli intervalli di confidenza. Intervallo di confidenza per la media (σ 2 nota) nel caso di popolazione Gaussiana

Statistica Metodologica

Intervallo di confidenza.

Richiami di inferenza statistica Strumenti quantitativi per la gestione

Esercitazione # 6. a) Fissato il livello di significatività al 5% si tragga una conclusione circa l opportunità di avviare la campagna comparativa.

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

Il campionamento e l inferenza. Il campionamento e l inferenza

Metodi Statistici per il Marketing. #05 Elementi di statistica inferenziale e di teoria dei campioni

Metodi statistici per le ricerche di mercato

COGNOME.NOME...MATR..

STATISTICA APPLICATA Prof.ssa Julia Mortera. INTRODUZIONE al STATISTICA

Fondamenti statistici : Test d Ipotesi (1)

COGNOME.NOME...MATR..

Capitolo 9 Verifica di ipotesi: test basati su un campione

Capitolo 12 La regressione lineare semplice

ESAME. 9 Gennaio 2017 COMPITO A

Il test (o i test) del Chi-quadrato ( 2 )

Statistica Applicata all edilizia: Stime e stimatori

Richiami di Statistica

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

STATISTICA. Federico M. Stefanini. e.mail: a.a (3 CFU)

LE DISTRIBUZIONI CAMPIONARIE

Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1

Distribuzioni di Probabilità

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

lezione 4 AA Paolo Brunori

Parametri e statistiche. Parametri e statistiche. Distribuzioni campionarie. Popolazione Parametri Valori fissi, Statistiche o Stimatori.

ESAME. 9 Gennaio 2017 COMPITO B

Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1

1.1 Obiettivi della statistica Struttura del testo 2

X = X 1 + X X n. dove. 1 se alla i-esima prova si ha un successo 0 se alla i-esima prova si ha un insuccesso. X i =

Statistica inferenziale

Intervallo di confidenza

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Laboratorio di Probabilità e Statistica

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

Capitolo 8. Probabilità: concetti di base

Distribuzioni campionarie

Statistica Inferenziale

Statistica Inferenziale

Statistica Inferenziale

Matematica con elementi di Informatica

Introduzione all'inferenza Lezione 4

Metodi statistici per lo studio dei fenomeni biologici

MISURE DI SINTESI 54

ALCUNI ELEMENTI DI VERIFICA DI IPOTESI STATISTICHE Vittorio Colagrande

Capitolo 9 Verifica di ipotesi: test basati su un campione

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

Metodi statistici per le ricerche di mercato

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2014/2015 II Esonero - 15 Gennaio 2015

LA LUNGHEZZA DEI GENI UMANI (Es4.1)

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 5

Inferenza statistica

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

La distribuzione normale

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Transcript:

Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria Civile A.A. 2009-10 Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain 1 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 2

SOMMARIO DEFINIZIONE DI INFERENZA STATISTICHE E DISTRIBUZIONI CAMPIONARIE STIMA PUNTUALE STIMA INTERVALLARE VERIFICA DI IPOTESI CARTE DI PROBABILITÀ 3 INFERENZA L inferenza statistica può essere definita come la disciplina che utilizza l informazione campionaria, per fare delle affermazioni sulla popolazione da cui il campione è stato tratto, in particolare sui parametri della distribuzione della popolazione stessa (solitamente µ e σ, vedere La rappresentazione e la sintesi dei dati ). Le affermazioni della statistica inferenziale sono di due tipi: STIMA: si vuole indicare un valore plausibile per il parametro della popolazione, sotto una delle 2 forme: 1. un valore ben definito (STIMA PUNTUALE) 2. un intervallo in cui molto verosimilmente il parametro sia incluso (STIMA INTERVALLARE) VERIFICA DI IPOTESI: indicare quale tra due specifiche ipotesi sul parametro (nulla o alternativa) sia da accettare 4

INFERENZA SUI PROCESSI PRODUTTIVI Si è visto come le distribuzioni di probabilità consentono di modellare e descrivere un fenomeno/processo di interesse. In relazione a questo obiettivo tuttavia, non è realistico pensare di conoscere i parametri che regolano tali fenomeni/processi e quindi è necessario ricorrere all inferenza per stimare tali parametri e per risolvere dei problemi decisionali che li riguardano. Ad esempio non è plausibile che sia possibile conoscere con esattezza o una dimensione media di una variabile numerica critica dal punto di vista delle prestazioni/qualità di un materiale, prodotto o processo o la frazione di unità non conformi, non idonee o difettose presenti in un processo di fabbricazione o la capacità di processo di rispondere alle specifiche di progettazione 5 STATISTICHE E DISTRIBUZIONI CAMPIONARIE I metodi inferenziali presuppongono che il campione di dati (x 1,..., x n ), ottenuto dalla popolazione di interesse, sia un campione casuale, cioè ottenuto in modo che le osservazioni {x i } siano indipendenti ed identicamente distribuite (IID). Ogni funzione dei dati campionari, che non contiene parametri ignoti, viene definita statistica. La media e la varianza campionaria (e la deviazione std), oltre a essere indici descrittivi della tendenza centrale e della variabilità del campione, sono esempi di statistiche. Notiamo che le statistiche, in quanto funzioni di v.a. sono loro stesse v.a. Se conosciamo la legge di distribuzione della popolazione dalla quale è preso il campione, possiamo determinare la legge di distribuzione della statistica, detta distribuzione campionaria. 6

CAMPIONAMENTO CAMPIONAMENTO DA DISTRIBUZIONE NORMALE Come conseguenza delle proprietà della distribuzione di una combinazione lineare di v.a. normali, se x=(x 1,..., x n ), è un campione casuale di numerosità n, estratto da una v.a. X normale con media µ e varianza σ 2, allora la media campionaria X N(µ, σ 2 /n). CAMPIONAMENTO DA ALTRE DISTRIBUZIONI In virtù del Teorema del Limite Centrale, senza riferimento al tipo di distribuzione della popolazione, la legge di distribuzione della media campionaria sopra citata è ancora approssimativamente valida: d 2 σ X N µ, n Il grado di approssimazione dipende dalla particolare forma della distribuzione di X: più è simmetrica migliore è l approssimazione. 7 CAMPIONAMENTO DA DISTRIBUZIONE BERNOULLIANA 8

CAMPIONAMENTO DA DISTRIBUZIONE DI POISSON 9 STIMA DEI PARAMETRI DI UNA VARIABILE CASUALE Una variabile casuale è caratterizzata dalla sua legge di probabilità che è identificata dai suoi parametri. Dato un valore plausibile dei parametri, siamo in grado di descrivere e rappresentare un modello statistico per la caratteristica di interesse. Possiamo definire come stimatore di un parametro ignoto, la statistica (che è una variabili casuale) che corrisponde a tale parametro. Uno stimatore puntuale è una statistica che produce un singolo valore numerico. Un particolare valore numerico, ottenuto sulla base dei dati campionari, è detto stima. Uno stimatore intervallare è un intervallo casuale entro cui il vero valore del parametro cade con un livello di probabilità assegnata (livello di confidenza). Questi intervalli sono usualmente indicati come intervalli di confidenza. 10

PROPRIETÀ DI UNO STIMATORE Preso un campione casuale di n osservazioni da una v.c. X, la media campionaria x, la varianza campionaria s 2, la deviazione standard campionaria s, sono rispettivamente stimatori puntuali della media della popolazione µ, della varianza della popolazione σ 2 e della deviazione standard della popolazione σ. Agli stimatori sono richieste alcune importanti proprietà, tra le quali le più rilevanti sono o non distorsione: il valore atteso (la media) dello stimatore deve essere uguale al parametro da stimare o minima varianza: (in qualità di v.c.) ad uno stimatore è richiesto di avere la minore variabilità possibile, rispetto a tra tutti i possibili stimatori del parametro o consistenza: al crescere della numerosità campionaria, la varianza dello stimatore deve tendere a zero 11 MEDIA, VARIANZA E DEVIAZIONE STANDARD CAMPIONARIE Mentre la media campionaria x e la varianza campionaria s 2, sono stimatori non distorti della media della popolazione µ, della varianza della popolazione σ 2, la deviazione standard campionaria s NON è uno stimatore non distorto della deviazione standard della popolazione σ. 12

INTERVALLI DI CONFIDENZA 13 INTERVALLI DI CONFIDENZA 14

INTERVALLI DI CONFIDENZA INTERVALLO DI CONFIDENZA DELLA MEDIA CON VARIANZA NOTA Furthermore, a 100(1 α)% upper confidence bound on µ is whereas a 100(1 α)% lower confidence bound on µ is 15 INTERVALLI DI CONFIDENZA INTERVALLO DI CONFIDENZA DELLA MEDIA CON VARIANZA IGNOTA Notiamo che la distribuzione di riferimento non è normale, bensì la v.a. t di Student. la 16

INTERVALLI DI CONFIDENZA INTERVALLO DI CONFIDENZA DELLA PROPORZIONE 17 INTERVALLI DI CONFIDENZA CONDIZIONI PER L INFERENZA A DUE CAMPIONI 18

INTERVALLI DI CONFIDENZA DELLA DIFFERENZA DELLE MEDIE VARIANZE NOTE VARIANZE IGNOTE MA UGUALI 19 INTERVALLI DI CONFIDENZA DELLA DIFFERENZA DELLE MEDIE VARIANZE IGNOTE E DIVERSE 20

INTERVALLO DI CONFIDENZA DELLA DIFFERENZA DI DUE PROPORZIONI 21 VERIFICA D IPOTESI Una ipotesi statistica è una affermazione sui parametri di una distribuzione di probabilità. Ipotesi Alternativa Ipotesi Nulla L ipotesi nulla corrisponde allo stato delle cose che possiamo presumere vero se non sono intervenuti fattori di cambiamento. Ad esempio: il processo è sotto controllo o il processo è conforme. L ipotesi alternativa corrisponde invece ad una eventuale situazione di allontanamento dall ipotesi nulla che l analista vorrebbe mettere in evidenza in caso si verificasse. L ipotesi alternativa può essere bilateriale (simbolo, come nell esempio) o unilateriale (simbolo > o <, a seconda dell interesse dell analista). 22

ERRORE DI I E II TIPO 23 ERRORE DI I E II TIPO 24

PROCEDURA DECISIONALE La procedura decisionale per condurre una verificare di ipotesi consta dei seguenti passi: specificare l ipotesi nulla e l ipotesi alternativa di interesse considerare l appropriata statistica (meglio detta statistica test ) in relazione alle ipotesi di cui sopra fissare l errore di I tipo α (detto anche livello di significatività del test ) ad un valore accettabile; questa operazione identifica nella distribuzione della statistica test due regioni: la regione di accettazione e la regione di rifiuto (detta anche regione critica ) in base ai dati campionari (ottenuti da un campione casuale IID dalla popolazione sotto indagine) calcolare il valore osservato della statistica test se tale valore appartiene alla regione critica si deve rifiutare l ipotesi nulla, altrimenti apparterrà alla regione di accettazione e non si può rifiutare l ipotesi nulla 25 IL P-VALUE NELLA PROCEDURA DECISIONALE In alternativa al considerare le due regioni di accettazione e rifiuto, è possibile prendere la decisione in base al p-value: Il p-value rappresenta la probabilità di osservare un valore della statistica test uguale o più estremo del valore che si calcola a partire dal campione, quando l ipotesi H 0 è vera. Il p-value è anche chiamato livello di significatività osservato, in quanto coincide con il più piccolo livello di significatività in corrispondenza del quale H 0 è rifiutata. In base a questo approccio, la regola decisionale per rifiutare H 0 è la seguente: Se il p-value è maggiore o uguale a α, l ipotesi nulla non è rifiutata. Se il p-value è minore di α, l ipotesi nulla è rifiutata. 26

UN ESEMPIO Consideriamo ad esempio il caso di una verifica di ipotesi sulla media (σ nota) dove la statistica test Z ha una distribuzione normale standard. In base ai dati campionari, il valore osservato della statistica test è +1.50. Naturalmente, la decisione presa in base alla regione di accettazione/rifiuto è coerente a quella presa in base alla regola del p-value (= 0.0668 2). 27 ANALOGIA TRA VERIFICA D IPOTESI E INTERVALLI DI CONFIDENZA Pur rispondendo ad obiettivi e motivazioni sostanzialmente diverse, stima intervallare e verifica di ipotesi presentano molte analogie, tanto che queste due procedure inferenziali hanno come comune origine l espressione della distribuzione di probabilità di una stessa statistica test. Prendiamo, ad esempio, il caso della verifica di ipotesi sulla media (σ nota) ed il corrisponde problema di stima intervallare di µ (σ nota): entrambe le procedure si riferiscono alla distribuzione normale standard della statistica Z (vedi slide seguente). Fissato il livello di significatività α ed il livello di confidenza a (1 α), si può facilmente verificare che il valore µ 0 sotto ipotesi è compreso nell intervallo di confidenza se e solo se l ipotesi nulla viene accettata. Questo risultato è generalizzabile a tutte le altre procedure di stima intervallare e alla corrispondente verifica di ipotesi. 28

VERIFICA D IPOTESI SULLA MEDIA (VARIANZA NOTA) H 1 nell equazione 3-22 rappresenta una ipotesi alternativa a due code (o bilaterale) La procedura per testare questa ipotesi consiste: considerare un campione casuale di n osservazioni della variabile casuale X, calcolare la statistica test, e rigettare H 0 se Z 0 > Z α/2, dove Z α/2 è il percentile superiore a livello α/2 della distribuzione normale standard 29 VERIFICA D IPOTESI SULLA MEDIA (VARIANZA IGNOTA) Per le ipotesi alternative a due code, rigettare H 0 se t 0 > t α/2,n-1, dove t α/2,n-1, è il percentile superiore a livello α/2 della distribuzione t con n 1 gradi di libertà Per l ipotesi alternativa ad una coda, se H 1 : µ 1 > µ 0, rigettare H 0 if t 0 > t α,n 1, e se H 1 : µ 1 < µ 0, rigettare H 0 if t 0 < t α,n 1 Si potrebbe inoltre calcolare il P-value del t-test 30

ESEMPIO 31 ESEMPIO 32

ESEMPIO 33 VERIFICA D IPOTESI SULLA PROPORZIONE 34

VERIFICA D IPOTESI SULLA DIFFERENZE DI 2 MEDIE (VARIANZE NOTE) 35 VERIFICA D IPOTESI SULLA DIFFERENZE DI 2 MEDIE (VARIANZE IGNOTE) VARIANZE IGNOTE MA UGUALI 36

VERIFICA D IPOTESI SULLA DIFFERENZE DI 2 MEDIE (VARIANZE IGNOTE) VARIANZE IGNOTE E DIVERSE 37 VERIFICA D IPOTESI SULLA DIFFERENZE DI 2 PROPORZIONI 38

VALUTAZIONE DELLA POTENZA DEL TEST 39 RELAZIONE TRA POTENZA DEL TEST E DIMENSIONE CAMPIONARIA 40

CURVA OPERATIVA CARATTERISTICA 41