L APPROCCIO SIMULAZIONE OTTIMIZZAZIONE ( SIMULATION BASED OPTIMIZATION ) 171

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "L APPROCCIO SIMULAZIONE OTTIMIZZAZIONE ( SIMULATION BASED OPTIMIZATION ) 171"

Transcript

1 L APPROCCIO SIMULAZIONE OTTIMIZZAZIONE ( SIMULATION BASED OPTIMIZATION ) L APPROCCIO SIMULAZIONE OTTIMIZZAZIONE ( SIMULATION BASED OPTIMIZATION ) La Simulazione e l Ottimizzazione possono interagire e integrarsi quando si vuole determinare qual è la combinazione di dati di input di una simulazione che ottimizza uno o più indici di prestazione. In questo caso la funzione obiettivo del problema di ottimizzazione non è disponibile in forma analitica, o comunque non calcolabile con procedure deterministiche, ma il suo valore in corrispondenza di diversi valori delle variabili è ottenibile solamente attraverso il risultato di una simulazione. Potrebbero presentarsi casi in cui oltre la funzione obiettivo anche i vincoli non siano disponibili e la loro verifica può essere effettuata solamente attraverso una simulazione. Infine, anche il valore di alcune variabili (uncontrollable variables) del problema di ottimizzazione potrebbe essere ottenuto solamente attraverso una simulazione, ovvero dipendere dai dati di input della simulazione (controllable variables). Ovviamente lo scopo del processo di ottimizzazione è ben diverso da quello di analisi di scenario proprio della simulazione: infatti, come già evidenziato nell introduzione allo studio della Simulazione, nel primo caso si deve decidere quale configurazione del sistema è la migliore tra tutte le ammissibili (approccio what best ); nel secondo caso le configurazioni alternative del sistema sono date e ovviamente in numero finito (approccio what if ). Si osservi che molto spesso questo numero non può essere elevato a causa dell alto costo computazionale dei run di simulazione. Per evidenziare l importanza e l attualità della simulazione ottimizzazione, riportiamo di seguito alcune righe della prefazione del testo Handbook on simulation optimization di Michael C. Fu di recente pubblicazione [Fu, 2014]: Arguably, the two most powerful operations research/management science (OR/MS) techniques are simulation and optimization. [... ] Optimization dates back many centuries and is generally considered the older of the two siblings. Both approaches were propelled forward by the advent of the digital computer over half a century ago, leading up to the present golden age when both routinely address complex large-scale realworld problems and both are implemented in a large variety of computer software packages. However, combining the two techniques is a more recent development, and software effectively integrating the two is relatively limited; thus, simulation optimization remains an exciting and fertile area of research. Risulta molto evidente come attualmente l approccio simulazione ottimizzazione sia considerato uno strumento molto efficace per lo studio di problemi reali complessi e di grandi dimensioni che sempre piú spesso si presentano in numerosi settori applicativi. Nella sua forma più semplice un problema di Ottimizzazione e Simulazione può essere formulato come segue: supponiamo di avere una misura di prestazione ot-

2 172 SIMULAZIONE tenuta in output da una simulazione e indichiamo tale misura con f. Il valore che f assume dipende dal valore dei dati di input che denotiamo con x 1,..., x n. Per il problema di ottimizzazione questi ultimi saranno le variabili di decisione. Poiché f è ottenuta dall output di una simulazione, essa è, in generale, una variabile aleatoria. Lo scopo sarà pertanto quello di minimizzare/massimizzare il suo valore atteso E (f(x 1,..., x n )) su tutte le combinazioni possibili di x 1,..., x n. Naturalmente ci possono essere vincoli di vario tipo sulle variabili di decisione (i dati di input) che limitano le combinazioni possibili (ammissibili) da considerare. Sottolineamo ancora il fatto che la funzione obiettivo non è calcolata analiticamente o comunque in maniera deterministica, ma ottenuta come output di una simulazione. Sarà quindi necessario effettuare un certo numero di repliche indipendenti della simulazione e utilizzare per la f il valore medio dei diversi valori ottenuti in queste repliche (ovviamente in corrispondenza dei medesimi dati di input). In una forma piú generale un problema di simulazione ottimizzazione, può essere formalmente scritto nel seguente modo: min E [f(x, z, ω)] s.t. E [g(x, z, ω)] 0 x l x x u z l z z u x IR n, z Z n, dove f è funzione a valori reali, g e h sono funzioni a valori vettoriali. La funzione f viene valutata attraverso la simulazione di particolari istanze delle variabili continue x e delle variabili discrete z (input del modello) e della realizzazione di varibili aleatorie, ovvero il vettore ω, che può essere anch esso funzione degli input x e z. In pratica, l introduzione del vettore ω serve per evidenziare l effetto stocastico della simulazione. Analogamente, i vincoli rappresentati dalla funzione g sono valutati attraverso la simulazione. Inoltre ci possono essere vincoli che non dipendono da variabili aleatorie (rappresentati dalla funzione h) e vincoli di tipo box sulle variabili. Uno schema complessivo dell implementazione di una procedure di simulazione ottimizzazione può essere cosí sintetizzato: viene simulata una sequenza di configurazioni del sistema, ciascuna corrispondente ad una particolare scelta dei dati di input. Ad ogni step della sequenza un algoritmo di ottimizzazione effettua una ricerca nello spazio dei possibili dati di input (regione ammissibile) fino alla determinazione della configurazione ottima. Quindi l algoritmo di ottimizzazione sceglie una configurazione iniziale e il simulatore effettua le repliche della simulazione. Il risultato della simulazione è inviato all algoritmo di ottimizzazione e viene verificato un criterio di arresto. Se questo non è verificato, l algoritmo

3 L APPROCCIO SIMULAZIONE OTTIMIZZAZIONE ( SIMULATION BASED OPTIMIZATION ) 173 di ottimizzazione determina una nuova configurazione da simulare e il processo continua iterativamente fino al soddisfacimento del criterio di arresto. Per una trattazione completa della simulation based optimization si rimanda al già citato [Fu, 2014]. Riportiamo di seguito in estrema sintesi alcune osservazioni importanti: il tempo totale di un esecuzione dipende dal numero di configurazioni del sistema che sono state esaminate (numero di iterazioni dell algoritmo di ottimizzazione), ma anche da tempo necessario per simulare ciascuna di queste configurazioni; in caso di varianza elevata, sarà necessario un numero di repliche adeguato per ottenere l accuratezza desiderata; esiste la possibilità di effettuare implementazioni parallele. Molti simulatori includono optimization packages (spesso basati su algorimti euristici) già integrati con il simulatore e che prevedono una visulizzazione di vario tipo durante le iterazioni dell algoritmo. Un esempio è costituito da tool OptQuest R for ARENA R disponibile all interno del simulatore ARENA R (cfr. paragrafo 2.7). Disponendo di un proprio codice che implementa l algoritmo di ottimizzazione che si vuole utilizzare, sarà ovviamente necessario creare un interfaccia tra il simulatore e l algoritmo di ottimizzazione e questo spesso richiede tecnicalità che possono essere non da banali da realizzare, soprattutto per la sincronizzazione dei due tool. A titolo di esempio, il simulatore ARENA R permette di utilizzare Microsoft Visual Basic (VBA) per realizzare tale interfaccia.

4 174 SIMULAZIONE 2.7 SOFTWARE DI SIMULAZIONE (SIMULATORI) Nel paragrafo abbiamo fatto cenno ad alcuni pacchetti software di simulazionei. L uso di tali simulatori è oggi diventato assai diffuso all interno di diverse realtà della vita reale in ragione della loro generalità e flessibilità di uso. Faremo riferimento a simulatori ad eventi discreti general purpose, ovvero non destinati alla creazione di modelli di simulazione specifici bensí capaci di creare modelli di simulazione di sistemi complessi anche molto diversi fra di loro. Tali simulatori hanno ormai raggiunto un ottimo livello di adattabilità e facilità di uso. Sono di solito basati su un interfaccia grafica che permette di costruire un modello con il semplice drag and drop di moduli predefiniti all interno di appositi riquadri di lavoro, ignorando l esistenza del linguaggio nel quale il simulatore realizzerà il modello stesso. Inoltre, sono dotati di animazioni grafice anche tridimensionali che permettono di osservare il funzionamento del sistema implementato nel modello di simulazione. Tali animazioni sono molto utili se si vuole mostrare tale funzionamento a persone che sono poco propense ad osservare tabelle spesso molto lunghe e piene di valori numerici poco significativi ad un occhio poco esperto. Abbiamo scelto i due seguenti simulatori: ARENA R Prodotto dalla Rockwell Automation, è un simulatore oggi largamente utilizzato, che attraverso un interfaccia grafica consente sia di realizzare un modello di simulazione, sia di effettuare i diversi run di una simulazione e di analizzare i risultati ottenuti. SIMIO TM Prodotto dalla SIMIO LCC, anch esso con una efficace interfaccia grafica è basato su oggetti intelligenti che una volta costruiti, possono essere riutilizzati in progetti diversi. SIMIO è un simulatore di più recente generazione e rappresenta un passaggio dal paradigma della simulazione process oriented a quello della simulazione objects oriented. Entrambi i simulatori sono dotati di strumenti di animazione e visualizzazione 3D che permettono di osservare bene il funzionamento del sistema reale. Gli studenti posso scaricare dai rispettivi siti le versioni trial/studente delle release piú recenti di entrambi. Per ogni dettaglio sull uso di ARENA si fa riferimento a [Kelton et al., 2004], [Altiok, Melamed, 2007], [Rossetti, 2010] e alla User s Guide. Per ogni dettaglio sull uso di SIMIO si fa riferimento a [Kelton et al., 2011], [Joines, Roberts, 2012] e alla User s Guide.

5 SOFTWARE DI SIMULAZIONE (SIMULATORI) ARENA Si riporta una descrizione molto sintetica dei moduli che costituiscono i Basic process di ARENA, ovvero i moduli: CREATE, PROCESS, DISPOSE, DECIDE, ASSIGN, BATCH e SEPARATE. CREATE: genera le entità e le immette nel sistema. La generazione può avvenire secondo uno schema fissato o specificando la distribuzione di probabilità dei tempi di interarrivo. PROCESS: rappresenta qualsiasi tipo di processamento di entità. Permette anche di considerare l utilizzazione di risorse (e dei relativi vincoli di disponibilità) secondo tre schemi: size delay, seize delay release e delay release. DISPOSE: espelle le entità dal sistema. Permette anche di specificare se registrare le statistiche dell ingresso delle entità. DECIDE: permette di controllare l istradamento delle entità sulla base di condizioni oppure sulla base di probabilità in corrispondenza per ciascuna uscita. ASSIGN : esegue l assegnazione di variabili e attributi. L operazione di assegnazione è effettuata quando un entità attraversa il modulo. BATCH : permette di raggruppare entità. La costruzione del batch è controllata dal numero delle entità o da attributi. Le entità che entrano nel modulo vengono raggruppate e si avrà una sola entità (gruppo) in uscita dal modulo. SEPARATE: ha due funzioni: produrre una o piú copie di una entità, oppure separare un gruppo di entità precedentemente raggruppate Modelli in ARENA Si riportano di seguito i testi di alcuni esercizi svolti durante le esercitazioni. I relativi modelli implementati con ARENA sono disponibili sul sito web del corso. Si tratta di esempi molto introduttivi destinati solamente ad illustrare l uso dei moduli presenti nei Basic process di ARENA. MODELLO 1. Un modello che rappresenti un sistema a coda M/M/1 con media dei tempi di interarrivo pari a 60 minuti e media dei tempi di servizio pari a 50 minuti. MODELLO 2. Ad un istituto di credito arrivano richieste di erogazione di mutui. La distribuzione dei tempi di interarrivo di tali tempi è esponenziale con

6 176 SIMULAZIONE media 2 ore. La richiesta viene esaminata da un impiegato il cui tempo per completare la pratica è distrbuito secondo una ditribuzione triangolare con valori (1, 1.75, 3) ore. In genere, nell 88% dei casi la pratica va a buon fine, ovvero il mutuo è concesso. Nel rimanente 12% dei casi, la risposta è negtiva. MODELLO 3. Un impresa per la trasformazione di semilavorati deve processare l arrivo di 100 semilavorati. Questi dovranno passare attraverso 2 ulteriori processi di lavorazione: detti Machining Center ed Inspection Station. Dopo tali processi verrà effettuato il controllo di qualità sul prodotto finito valutandone il grado di finitezza. I dati relativi al problema sono: al primo processo produttivo i semilavorati arrivano uno alla volta con intertempo di arrivo esponenziale (media pari ad 1 minuto); i tempi di processamento (espressi in minuti) al Machining Center sono uniformemente distribuiti nell intervallo [0.65, 0.70]; i tempi di processamento (espressi in minuti) al Inspection Station sono uniformemente distribuiti nell intervallo [0.75, 0.80]; con probabilità del 50% i pezzi controllati sono perfect ed escono dal sistema attraverso un proprio canale; con probabilità del 20% i pezzi controllati sono very good ed escono dal sistema attraverso un proprio canale; con probabilità del 5% i pezzi controllati sono good ed escono dal sistema attraverso un proprio canale; con probabilità del 25% i pezzi controllati rientrano nel sistema e vengono rilavorati sui due processi. MODELLO 4. In un laboratorio di analisi di un ospedale il centro prelievi è aperto dal lunedì al sabato dalle 7.30 alle Gli utenti arrivano al centro con intertempi di arrivo distribuiti esponenzialmente con media 7 minuti. Appena arrivato al centro prelievi un utente deve ritirare un numero da una macchinetta distributrice e poi deve attendere di essere chiamato allo sportello per l accettazione dove presenterà la richiesta di analisi del proprio medico curante; gli utenti sono chiamati in ordine di numero crescente e le operazioni per l accettazione sono eseguite in tempi distribuiti uniformemente tra 1 e 1.5 minuti. Dopo l accettazione l utente si reca all ufficio cassa se deve pagare il ticket oppure, se è esente da tale pagamento, si reca direttamente all ambulatorio per il prelievo. Il pagamento del ticket richiede tempi distribuiti uniformemente tra 0.5 e 1 minuto, mentre i tempi per effettuare i prelievi presso l ambulatorio sono distribuiti esponenzialmente con media 5 minuti.

7 SOFTWARE DI SIMULAZIONE (SIMULATORI) 177 MODELLO 5. Una catena di montaggio costruisce apparecchi assemblando due parti. Le due parti arrivanno alla catena dall esterno da due ingressi diversi (I1 e I2 ). Le singole parti arrivano alla catena di montaggio secondo due diverse distribuzione di probabilità dei tempi di interarrivo: dall ingresso I1 secondo una distribuzione uniforme tra 0.4 e 0.7 ore, dall ingresso I2 secondo una distribuzione normale a media 0.5 ore e deviazione standard 0.2. Le singole parti, prima dell assemblaggio subiscono un pretrattamento; i tempi necessari per questa operazione sono distributi secondo la distribuzione normale a media 0.1 ore e deviazione standard 0.03 per le parti che sono arrivate dall ingresso I1 e a media 0.15 ore e deviazione standard 0.04 per le parti arrivate dall ingresso I2. L assemblaggio è effettuato in un tempo costante pari a 0.3 ore. Dopo l assemblaggio c è una lavorazione finale che richiede un tempo distribuito secondo la distribuzione normale a media 0.6 ore e deviazione standard MODELLO 6. In una videoteca entrano clienti con tempi di interarrivo distribuiti esponenzialmente con media 5 minuti. Una volta entrati i clienti scelgono casualmente tra i tre diversi tipi di film (drammatico, commedia, azione). Il tempo impiegato nella scelta ha distribuzione triangolare con valore minimo 1 minuto, massimo 10 minuti e valore piú probabile 5 minuti. Una volta effettuata la scelta il cliente può decidere se acquistare anche una pizza oppure dirigersi direttamente alla cassa. Nel 25% dei casi la pizza viene acquistata e questo richiede un tempo distribuito secondo una distribuzione triangolare con valore minimo 0.5 minuti, massimo 2 minuti e valore piú probabile 1 minuto. Il tempo necessario al pagamento alla cassa (con o senza la pizza) è anch esso distribuito secondo una distribuzione triangolare con valore minimo 1 minuto, massimo 4 minuti e valore piú probabile 2 minuti. MODELLO 7. Un Computer consta di 1 CPU, 3 terminali, 1 unità Hard Disk (HD) e 1 unità a nastro (Tape). In ciascun terminale siede un utente il quale invia jobs alla CPU con intertempi distribuiti esponenzialmente (valore atteso pari a 100 secondi). I jobs si accumulano in una coda (FIFO) prima di essere processati dalla CPU. Ciascun job processato dalla CPU la tiene occupata per un tempo distribuito esponenzialmente (valore atteso pari a 1 secondo). Un job che lascia la CPU può: con probabilità 20% ritornare al terminale che l ha inviato; con probabilità 72% andare nella coda (FIFO) dell Hard Disk; con probabilità 8% andare nella coda (FIFO) dell unit a nastro. Ciascun job processato dall Hard Disk necessita di un tempo distribuito esponenzialmente (valore atteso pari a 1.39 secondi), dopodiché torna alla coda della CPU. Analogamente ciascun job processato dall unità a nastro necessita di

8 178 SIMULAZIONE un tempo distribuito esponenzialmente (valore atteso pari a secondi), poi torna alla coda della CPU. Tutti i job prodotti dagli operatori sono tra loro statisticamente indipendenti. MODELLO 8. Un azienda di vendite per corrispondenza riceve richieste di ordini con distribuzione esponenziale a media 9 minuti. Due operatori telefonici accettano gli ordini. Per entrambi il tempo di servizio è distribuito secondo la distribuzione triangolare con valore minimo 3 minuti, massimo 11 minuti e valore piú probabile 7 minuti il primo operatore e valore minimo 2 minuti, massimo 11 minuti e valore piú probabile 8 minuti il secondo. Una volta terminata la chiamata l ordine viene passato all addetto del reparto consegne che provvede a preparare l ordine e a caricarlo su un furgone. Tale operazione richiede un tempo distribuito secondo la distribuzione triangolare con valore minimo 5 minuti, massimo 20 minuti e valore piú probabile 10 minuti. Prima di partire per le consegne, il furgone attende che vi siano caricate le merci corrispondenti a 10 ordini. I tempi per le consegne sono distribuiti secondo la distribuzione triangolare con valore minimo 20 minuti, massimo 80 minuti e valore piú probabile 40 minuti. Per ciascun ordine consegnato il fattorino fornisce la notifica di avvenuta consegna all azienda che provvede ad inserire il cliente nella lista delle consegne effettuate. Tale operazione avviene con un tempo distribuito secondo la distribuzione triangolare con valore minimo 1 minuto, massimo 4 minuti e valore piú probabile 2 minuti. L ultima operazione è l emissione della fattura da inviare al cliente che avviene con un tempo distribuito secondo la distribuzione triangolare con valore minimo 0.8 minuti, massimo 2 minuti e valore piú probabile 1 minuto.

9 RIFERIMENTI DEL CAPITOLO RIFERIMENTI DEL CAPITOLO 2 La trattazione di questo capitolo è basata sul testo [Law, Kelton, 2000] che rappresenta un testo completo su tutti gli aspetti della simulazione e quindi utile anche per approfondimenti. Per aspetti più teorici si può consultare il capitolo 11 del testo [Ross, 2003a]. Fra i numerosi ulteriori testi sulla simulazione citiamo, ad esempio, [Ross, 2002] e [Banks et al., 2001]. Il testo [Banks, 1998] riporta una collezione di articoli che forniscono un adeguata panoramica sulle metodologie e le aree di applicazione della simulazione. Per quanto riguarda il software di simulazione ARENA trattato nel paragrafo 2.7 si fa riferimento al testo [Kelton et al., 2004]. Segnaliamo inoltre il sito Web dell Informs College on Simulation e il sito dei proceedings delle conferenze annuali Winter Simulation Conference nel quale si possono trovare molti articoli e survey aggiornate su diversi aspetti della simulazione e su applicazioni della simulazione. Banks, J. (1998). Handbook on Simulation. Principles, Methodology, Advances, Applications, and Practice. Wiley and Sons, New York. Banks, J., J.S.Carson, Nelson, B., Nicol, D. (2001). system simulation. Prentice Hall. Discrete event Fu, M. C. (2014). Handbook on Simulation Optimziation. Springer. Law, A., Kelton, W. (2000). Simulation modeling and analysis. McGraw Hill, New York, third edition. Kelton, W., Sadowski, R., Sturrock, D. (2004). Arena. McGraw Hill, New York, third edition. Simulation with Ross, S. (2002). Simulation. Academic Press, San Diego, third edition. Ross, S. (2003a). Introduction to probability models. Academic Press, San Diego. Ross, S. (2003b). Probabilità e statistica. Apogeo, Milano.

10 180 SIMULAZIONE 2.9 ESERCIZI SULLA SIMULAZIONE Esercizio Applicare il metodo della trasformazione inversa per generare cinque osservazioni casuali dalla distribuzione esponenziale con media pari ad 1, a partire dai seguenti cinque numeri casuali generati dalla distribuzione uniforme in [0, 1) Esercizio Si vuole effettuare una simulazione di un sistema di code M/M/3 in cui la frequenza media di arrivo è pari a 20 e la velocità di servizio è pari a 10, essendo interessati a stimare il numero medio di utenti presenti nel sistema. Supponiamo che siano state effettuate 5 repliche indipendenti dalle quali si sono ottenuti i seguenti risultati: 1 a replica: a replica: a replica: a replica: a replica: 2.55 Calcolare la stima della media e l intervallo di confidenza al 95%. Facendo riferimento a tale intervallo di confidenza, trascurando il problema dello start up e supponendo di voler ottenere un errore assoluto sulla stima della media inferiore a 0.2, determinare se le cinque repliche effettuate sono sufficienti ad ottenere tale precisione. In caso negativo, applicando la procedura iterativa, determinare il numero delle repliche necessarie per ottenere la precisione voluta sapendo che nelle eventuali successive cinque repliche si ottengono i seguenti valori: 6 a replica: a replica: a replica: a replica: a replica: 2.88 Esercizio Applicare la procedura di Welch, con un valore di time window k = 2, al seguente output di una simulazione 1 a replica: a replica: a replica: a replica: a replica: Dei valori Ŷj(2) ottenuti dalla procedura, (trascurando il problema dello startup) determinare media e t intervallo di confidenza al 95%.

11 3 Elementi di statistica In questo capitolo, sono riportati in breve alcuni elementi di Statistica di uso comune all interno della Simulazione che lo studente dovrebbe aver già acquisito nel suo curriculum di studi attraverso corsi specifici. Tali importanti aspetti non sono stati trattati esplicitamente, ma considerati come prerequisiti già in possesso degli studenti e sono qui riportati per completezza di informazione. Pertanto questo capitolo non fa esplicitamente parte del programma di esame. 3.1 ELEMENTI DI STATISTICA INFERENZIALE In questo paragrafo verranno illustrati alcuni elementi di Statistica che sono essenziali per procedere alla costruzione di un modello di simulazione e per effettuare correttamente una simulazione. Si tratta essenzialmente della stima dei parametri e dei test statistici, elementi chiave per l analisi dell input e dell output di una simulazione. Infatti, per effettuare una simulazione di un sistema che presenta elementi stocastici è necessario specificare le distribuzioni di probabilità che regolano i processi che caratterizzano il sistema stesso. Se è possibile raccogliere dati reali (osservazioni) sulle variabili aleatorie di interesse, essi possono essere utilizzati per determinare queste distribuzioni facendo uso di tecniche di inferenza statistica (analisi dell input). Una volta stabilite tali distribuzioni, la simulazione procede generando valori casuali da queste distribuzioni, ovvero, durante ogni esecuzione, la simulazione genera osservazioni casuali di variabili aleatorie distribuite secondo particolari distribuzioni di probabilità. Oltre che per progettare una simulazione, è necessario l uso di tecniche statistiche anche per interpretare i risultati ottenuti

12 182 ELEMENTI DI STATISTICA da una simulazione (analisi dell output). La trattazione degli argomenti riportati in questo paragrafo sarà sintetica e considera esclusivamente quegli elementi che risulteranno utili all interno dello studio della simulazione. Per ogni trattamento più esteso e approfondito si rimanda ai testi specifici come, ad esempio [Ross, 2003b]. 3.2 STATISTICHE CAMPIONARIE E LORO DISTRIBUZIONE In generale, nello studio di un fenomeno riguardante un insieme di elementi (popolazione) che presenta caratteristiche aleatorie, molto spesso si dispone solo di informazioni su una parte di essi (campione) e si vogliono dedurre proprietà generali riguardanti l intera popolazione. L inferenza statistica si occupa di questa problematica e riveste un importante strumento di analisi. Solitamente viene fatta l assunzione che esiste una distribuzione di probabilità della popolazione nel senso che se da essa vengono estratti casualmente alcuni elementi, ad essi sono associate variabili aleatorie indipendenti identicamente distribuite secondo tale distribuzione. In questo senso, un insieme di variabili aleatorie X 1,..., X n di variabili aleatorie indipendenti tutte con la stessa distribuzione si dice campione di questa distribuzione. L interesse principale risiede nella possibilità di dedurre caratteristiche della distribuzione non nota sulla base dei dati a disposizione. Naturalmente ci sono casi in cui della distribuzione della popolazione non si conosce nulla (se non il fatto che essa è discreta o continua), mentre in altri casi la distribuzione è nota ma non sono noti alcuni suoi parametri. Esamineremo entrambi i casi, introducendo, innanzitutto alcuni elementi che riguardano le statistiche campionarie e la loro distribuzione. Dato un campione X 1,..., X n estratto da una popolazione, ogni funzione delle osservazioni campionarie è chiamata statistica campionaria e i valori ottenuti da una qualsiasi funzione dei soli valori osservati sono chiamati statistiche. I due principali esempi di statistiche sono la media campionaria e la varianza campionaria Media campionaria e varianza campionaria Sia dato un campione X 1,..., X n estratto da una popolazione, ovvero le X i sono variabili aleatorie indipendenti identicamente distribuite, e sia µ e σ 2 rispettivamente la loro media e la loro varianza (ovvero la media e la varianza della popolazione). Media campionaria La media campionaria è data da X n = 1 n n X i. i=1

13 STATISTICHE CAMPIONARIE E LORO DISTRIBUZIONE 183 X n è una variabile aleatoria funzione delle X i e si verifica facilmente che risulta E( X n ) = µ e V ar( X n ) = σ2 n. La varianza campionaria è data da s 2 n = 1 n 1 n ( Xi X ) 2 n i=1 e si verifica facilmente che risulta E(s 2 n) = σ 2. Varianza campionaria Distribuzione (approssimata) della media campionaria La distribuzione della media campionaria può essere determinata grazie al Teorema del limite centrale. Siano date le osservazioni X 1,..., X n estratte da una distribuzione di probabilità. Le X i sono variabili aleatorie indipendenti identicamente distribuite e sia µ e σ 2 rispettivamente la loro media e la loro varianza. Definendo la variabile aleatoria X X n µ Z n = n σ, n e la sua funzione di distribuzione F n (z) = P (Z n z), il Teorema del Limite Centrale afferma che lim F n(z) = 1 z e y2 2 dy, (3.2.1) n 2π ovvero F n (z) converge alla funzione di distribuzione della distribuzione Normale standard. Questo risultato permette di ottenere l importante proprietà riportata nel seguente teorema riguardante la media campionaria X n. Proposizione Sia X 1,..., X n un campione estratto da una distribuzione di probabilità a media µ e varianza σ 2. Allora, per n sufficientemente grande, X n µ σ (3.2.2) n è una variabile aleatoria distribuita approssimativamente secondo la distribuzione Normale standard. Questo risultato si ricava immediatamente dal Teorema del Limite Centrale, osservando che la (3.2.1) può essere interpretata nel seguente modo: per n sufficientemente grande, la variabile aleatoria Z n è distribuita approssimativamente come una variabile Normale standard, indipendentemente dalla distribuzione delle X i.

14 184 ELEMENTI DI STATISTICA Ricordando che il valore atteso di Xn è µ e che la sua deviazione standard è pari a σ/ n, la Proposizione afferma che se si normalizza X n sottraendo la sua media e dividendo per la sua deviazione standard, si ottiene una variabile aleatoria che è approssimativamente distribuita secondo una Normale standard purché n sia sufficientemente grande. La problematica che nasce nell utilizzare questo risultato sta nel fatto che non è noto quanto deve essere grande n affinché l approssimazione sia buona; naturalmente questo dipende dalla distribuzione in questione. Osservazioni sperimentali hanno portato a formulare la regola empirica comunemente adottata secondo la quale quando n > 30, si ha in genere una buona approssimazione, qualsiasi sia la distribuzione della popolazione considerata Distribuzioni delle statistiche di popolazioni normali Assumiamo ora che la distribuzione della popolazione sia Normale a media µ e varianza σ 2 e sia X 1,..., X n un campione estratto da tale popolazione. In questo caso ovviamente si ha che la variabile aleatoria (3.2.2) è una variabile Normale standard per qualsiasi valore di n, ovvero vale il seguente risultato. Proposizione Sia X 1,..., X n un campione estratto da una distribuzione di probabilità Normale a media µ e varianza σ 2. Allora X n µ σ n (3.2.3) è una variabile aleatoria distribuita secondo la distribuzione Normale standard. Si osservi che avendo assunto che le X i sono variabili aleatorie normali, il risultato ora enunciato non vale più in senso approssimato, come nel caso della Proposizionea 3.2.1, ma è un risultato esatto che vale per qualsiasi valore di n (non necessariamente grande). Si può inoltre dimostrare che vale il seguente importante risultato: Teorema Sia X 1,..., X n un campione estratto da una distribuzione Normale a media µ e varianza σ 2. Allora i) X n e s 2 n sono variabili aleatorie indipendenti; ii) X n è una variabile aleatoria normale con media µ e varianza σ 2 /n;

15 STIMA DI PARAMETRI 185 iii) (n 1) s2 n σ 2 è una variabile aleatoria distribuita secondo la distribuzione Chi-quadro a n 1 gradi di libertà (χ 2 n 1 ). Questo teorema ha un importante conseguenza che enunciamo nella seguente proposizione. Proposizione Sia X 1,..., X n un campione estratto da una distribuzione di probabilità Normale a media µ. Allora X n µ s n n (3.2.4) è una variabile aleatoria distribuita secondo la distribuzione t di Student con n 1 gradi di libertà (t n 1 ). Confrontando la (3.2.3) e la (3.2.4) si nota che nella Proposizione la variabile aleatoria considerata differisce da quella considerata nella Proposizione per la presenza di s n al posto di σ. Quindi possiamo riepilogare i risultati fino ad ora ottenuti dicendo che, data una popolazione Normale, se si normalizza la media campionaria X n sottraendo la sua media µ e dividendo per la sua deviazione standard σ/ n, si ottiene una variabile aleatoria Normale standard; se invece si divide per s n / n, si ottiene una variabile aleatoria con distribuzione t di Student con n 1 gradi di libertà. 3.3 STIMA DI PARAMETRI Supponiamo ora che la popolazione sia distribuita secondo una distribuzione di probabilità nota, ma caratterizzata da uno o più parametri incogniti. Siamo in questo caso interessati a determinare tali parametri incogniti sulla base di un campione X 1,..., X n. Si tratta di un problema di stima di parametri che consiste nel determinare, sulla base del campione X 1,..., X n, un valore per ciascuno dei parametri in modo che essi costituiscano la migliore approssimazione dei parametri incogniti. Esistono diversi metodi di stima che non sono altro che tecniche per ricavare statistiche e che sono detti stimatori. Uno stimatore è quindi una Stimatori e funzione h(x 1,..., X n ) delle osservazioni campionarie e il valore che tale funzione stime assume in corrispondenza di una particolare realizzazione del campione è detto stima. Se θ è un parametro incognito, si indicherà con θ la stima di θ.

16 186 ELEMENTI DI STATISTICA In alcuni casi si determina un unico valore θ come migliore approssimazione possibile del parametro θ e tale valore viene detto stima puntuale. In altri casi, può Stima puntuale essere preferibile calcolare due valori dello stimatore ovvero θ 1 = h 1 (X 1,..., X n ) e θ 2 = h 2 (X 1,..., X n ) che definiscono un intervallo [θ 1, θ 2 ] tale che, in un campionamento ripetuto, il valore incognito θ apparterrà all intervallo in una determinata percentuale di casi che è detta confidenza dell intervallo. In questo caso Stima per intervalli si parla di stima per intevalli Proprietà degli stimatori Continuando ad indicare con θ un parametro incognito, con θ una sua stima e con h = h(x 1,..., X n ) uno stimatore, riportiamo in questo paragrafo alcune definizioni standard. Definizione Si definisce valore dell errore di campionamento la differenza θ θ. Si chiama distorsione di uno stimatore h la differenza E(h) θ. L errore quadratico medio dello stimatore h è dato da EQM(h) = E(h θ) 2. Definizione Uno stimatore h = h(x 1,..., X n ) si dice stimatore corretto del parametro θ se risulta E(h) = θ. Se invece si ha E(h) θ si dice che h è uno stimatore distorto per θ. Uno stimatore h = h(x 1,..., X n ) si dice stimatore efficiente del parametro θ se i) E(h) = θ ii) V ar(h) V ar(h 1 ) per ogni h 1 stimatore corretto di θ Stima di media e varianza Supponiamo di avere un campione casuale X 1,..., X n e di voler stimare stimare la media µ e la varianza σ 2 della popolazione mediante questo campione, ovvero supponiamo che X 1,..., X n siano variabili aleatorie indipendenti identicamente distribuite con E(X i ) = µ e V ar(x i ) = σ 2, i = 1,..., n con µ e σ 2 non note. Uno stimatore corretto per la media µ è dato dalla media campionaria µ = X n = 1 n n X i, i=1

17 STIMA DI PARAMETRI 187 in quanto risulta E( X n ) = µ. Uno stimatore corretto per la varianza σ 2 è dato dalla varianza campionaria in quanto risulta E(s 2 n) = σ 2. σ 2 = s 2 n = 1 n 1 n ( Xi X ) 2 n, i= Metodi di stima Esistono diversi metodi per stimare i parametri incogniti di una distribuzione. Riporteremo brevemente nel seguito lo stimatore di massima verosimiglianza Stimatore (Maximum Likelihood Estimator MLE) che è molto utilizzato e per il quale di massima rimandiamo alla letteratura specifica per una trattazione completa. Riportiamo verosimiglianza di seguito una breve descrizione. Date n osservazioni X 1,..., X n, assumiamo che esse siano ottenute da una distribuzione di probabilità continua avente densità f θ (x), dove θ è un parametro che caratterizza la distribuzione. Nell ipotesi che le osservazioni X i sono indipendenti, una misura della probabilità di aver ottenuto quelle osservazioni proprio da quella distribuzione (se θ è il valore del parametro incognito) è data dalla funzione di verosimiglianza L(θ) = f θ (X 1 )f θ (X 2 ) f θ (X n ). Nel caso di distribuzioni di probabilità discrete con funzione di probabilità data da p θ (x), la funzione di verosimiglianza è definita da L(θ) = p θ (X 1 )p θ (X 2 ) p θ (X n ). Il metodo della massima verosimiglianza consiste nello scegliere come stimatore del parametro incognito θ il valore θ che massimizza L(θ). In generale, può non essere facile massimizzare la funzione di verosimiglianza e naturalmente la difficoltà aumenta se la distribuzione ha più di un parametro e quindi la funzione L sarà una funzione di più variabili. Nell effettuare questa operazione di massimizzazione invece di considerare la funzione L(θ) si può considerare la funzione l(θ) = ln L(θ) ovvero il logaritmo della funzione di verosimiglianza (log-likelihood function) che Loglikelihood potrebbe essere più facile da massimizzare. Infatti, poichè la funzione logaritmo è una funzione strettamente crescente, un valore θ massimizza L(θ) se e solo se θ function massimizza l(θ). Si osservi, comunque, che l operazione di massimizzazione non è sempre facile e che potrebbe anche essere necessario ricorrere a metodi numerici per risolvere l equazione che si ottiene dall annullamento della derivata.

18 188 ELEMENTI DI STATISTICA Esempio Date n osservazioni X 1,..., X n dalla distribuzione esponenziale, determinare con il metodo della massima verosimiglianza il parametro λ della distribuzione. La funzione di verosimiglianza è data da L(λ) = (λe λx1 )(λe λx1 ) (λe λxn ) = λ n e λ n i=1 Xi = λ n e λn X n. Uguagliando a zero la derivata (rispetto a λ) si ha dl(λ) dλ = nλn 1 e λn X n ( 1 λ Xn ) = 0, da cui si ha ˆλ = 1 Xn. Poiché si ha d2 L(ˆλ) dλ 2 < 0, ˆλ è un punto di massimo per la funzione L(λ). Il valore ottenuto per ˆλ non ci sorprende perché la media campionaria è uno stimatore corretto della media della distribuzione che è 1/λ. Allo stesso risultato si può arrivare considerando la funzione log-likelihood, ovvero Infatti si ha per ˆλ = l(λ) = ln L(λ) = n ln λ λ 1 Xn ed inoltre d2 l(ˆλ) dλ 2 = ṋ λ 2 < 0. dl dλ = n n λ X i = 0 i=1 n X i. i=1 Esempio Date n osservazioni X 1,..., X n dalla distribuzione geometrica, determinare con il metodo della massima verosimiglianza il parametro p (0, 1) della distribuzione. La distribuzione geometrica è una distribuzione di probabilità discreta caratterizzata da { p(1 p) x se x = 1, 2,... p p (x) = 0 altrimenti. La funzione di verosimiglianza è data da L(p) = p p (X 1 )p p (X 2 ) p p (X n ) = p(1 p) X1 p(1 p) X2 p(1 p) Xn Si ha l(p) = ln L(p) = n ln p + n X i ln(1 p). i=1 Annulliamo quindi la derivata della l(p), ottenendo Risolvendo l equazione si ottiene dl(p) dp = n p n i=1 1 ˆp = 1 + X n X i 1 p = 0. = p n (1 p) n i=1 Xi.

19 STIMA DI PARAMETRI 189 e poiché risulta d 2 l(ˆp) dp 2 < 0, allora ˆp è un massimo per la l(p) e quindi anche per la funzione di massima verosimiglianza L(p). Esercizio Siano date n osservazioni indipendenti X 1,..., X n estratte dalla distribuzione di Poisson di parametro λ. Determinare lo stimatore di massima verosimiglianza del parametro λ Stime per intervalli Nei metodi di stima puntuale è sempre presente un errore θ θ dovuto al fatto che la stima θ in genere non coincide con il parametro θ. Sorge quindi l esigenza di determinare una misura dell errore commesso. Inoltre, dato il campione X 1,..., X n estratto da una distribuzione di probabilità caratterizzata da un parametro incognito θ, qualunque sia lo stimatore h(x 1,..., X n ) scelto per stimare θ, esso dipende dal campione, ovvero lo stimatore fornirà stime diverse in corrispondenza di campioni diversi. Queste due osservazioni fanno nascere l esigenza di considerare stime per intervalli. Infatti, sulla base dei valori di θ ottenuti considerando un campione casuale X 1,..., X n, si può definire un intervallo in cui sono compresi i valori più probabili per il parametro θ, secondo un livello di confidenza fissato. Per fare ciò si può procedere indirettamente utilizzando una statistica campionaria g(x 1,..., X n ) la cui distribuzione sia nota e non dipendente da θ. Naturalmente, visto che la g è nota, fissato un livello di confidenza (1 α), è possibile determinare due valori g 1 e g 2, indipendenti da θ tali che, comunque scelto α (0, 1), P (g 1 g g 2 ) = 1 α. Lo scopo è quello di tradurre una probabilità su un intervallo per g in una probabilità su intervallo per θ in modo da poter avere P (h 1 θ h 2 ) = 1 α, ovvero in modo tale che h 1 e h 2 rappresentino gli estremi dell intervallo per θ. Le distribuzioni note alle quali si fa di solito riferimento sono la distribuzione Normale, la distribuzione t di Student e la distribuzione Chi quadro. Lo scopo sarà quello di avere un valore ben superiore a 0.5 in modo che la probabilità che il parametro θ appartenga all intervallo [h 1, h 2 ] sia tale da assicurare all evento h 1 θ h 2 (evento che si verifica nel 100(1 α)% dei casi) una caratteristica di sistematicità, mentre all evento complementare (che si verifica nel 100α% dei casi) una caratteristica di accidentalità.

20 190 ELEMENTI DI STATISTICA Formalmente si può fornire la seguente definizione. Definizione Intervallo di confidenza. Dato un campione X 1,..., X n, dato α (0, 1) e date le statistiche h 1 = h 1 (X 1,..., X n ) e h 2 = h 2 (X 1,..., X n ) con h 1 < h 2, per le quali P (h 1 θ h 2 ) = 1 α, l intervallo [h 1, h 2 ] si dice intervallo di confidenza per θ con livello di confidenza pari ad (1 α). Naturalmente tanto più è piccolo α, tanto più è ampio l intervallo di confidenza ad esso associato Stima per intervalli di una media Caso varianza nota Siano date le osservazioni X 1,..., X n estratte da una distribuzione di probabilità a media µ e varianza σ 2. Assumiamo inizialmente che la media µ sia incognita mentre la varianza sia nota. Dalla Proposizione sappiamo che per n sufficientemente grande, la variabile aleatoria Z n = X n µ σ n (3.3.1) è distribuita approssimativamente secondo la distribuzione Normale standard, indipendentemente dalla distribuzione delle X i. Quindi per n sufficientemente grande risulta P ( z 1 α Z n z 2 1 α 2 ) ( = P z 1 α X n µ 2 σ n z 1 α 2 ) 1 α, dove z 1 α è il punto critico (1 α 2 2 ) per una distribuzione Normale standard e può essere immediatamente determinato dai valori tabulati 1 Segue che ( ) σ P X n z 1 α µ X σ 2 n + z 1 α 1 α. n 2 n Quindi, per n sufficientemente grande, il valore incognito di µ si trova nell intervallo [ ] σ σ X n z 1 α, Xn + z 2 1 α n 2 n 1 Sono ampiamente disponibili tabelle che, per una variabile Normale standard Z, riportano il valore di P (Z z) = 1 2π z e y2 2 dy.

21 STIMA DI PARAMETRI 191 con un livello di confidenza pari a 1 α. Si parla di intervallo di confidenza del 100(1 α)%. Ad esempio, per determinare un intervallo di confidenza al 95% per una media, dato un campione X 1,..., X n, si trova il punto critico z 1 α = z = 1.96 dalle 2 tabelle della distribuzione Normale standard e facilmente si ricava tale intervallo [ X n 1.96 σ, Xn σ ]. n n Si noti che l intervallo di confidenza può contenere o meno il valore della media µ. Questo implica che un singolo intervallo di confidenza, da un punto di vista probabilistico, fornisce informazioni non complete. La corretta interpretazione dell intervallo di confidenza è la seguente: se si costruisce un numero molto elevato di intervalli di confidenza al 100(1 α)%, indipendenti e ciascuno basato su n osservazioni, con n sufficientemente grande, una frazione di questi intervalli pari ad 1 α conterrà µ. Questa frazione si chiama copertura per l intervallo di confidenza. Quindi solamente una proporzione α di casi darà luogo ad intervalli che non contengono µ. Osservazione Affermare che l intervallo di confidenza, ad esempio per una media µ è al 100(1 α)% non significa che la probabilità che µ appartenga a questo intervallo è pari a (1 α)%; questo perché prima di osservare i dati si può parlare di probabilità che l intervallo che si otterrà contenga µ in quanto gli estremi dell intervallo sono variabili aleatorie. Dopo l osservazione dei dati, ovvero dopo aver determinato gli estremi dell intervallo, si può solamente affermare che l intervallo trovato contiene µ con il 100(1 α)% di confidenza in quanto non si ha a che fare con nessuna variabile aletoria (µ è incognita, ma costante e gli estremi dell intervallo, una volta determinati sono valori numerici). Quanto esposto fino ad ora assume che la varianza σ 2 sia nota. Se invece σ 2 non si conosce sono necessarie altre considerazioni. Infatti, anche se la varianza σ 2 non è nota, considerando la varianza campionaria s 2 n, poiché si ha lim n s2 n = σ 2, il Teorema del Limite Centrale continua a valere se nell espressione (3.3.1) della Z n sostituiamo σ 2 con la sua stima s 2 n. Questo significa che, per n sufficientemente grande la variabile Z n = X n µ s n, n è approssimativamente distribuita secondo la distribuzione Normale standard. Quindi di ha ( ) s n P X n z 1 α µ X s 2 n + z 1 α n 1 α, n 2 n Caso varianza non nota

22 192 ELEMENTI DI STATISTICA dove z 1 α è il punto critico (1 α 2 2 ) per una distribuzione normale standard. Quindi, per n sufficientemente grande, con livello di confidenza 1 α il valore incognito di µ si trova nell intervallo [ X n z 1 α 2 s n n, Xn + z 1 α 2 ] s n. n Esempio Siano dati i seguenti valori di dieci osservazioni 1.20, 1.50, 1.68, 1.89, 0.95, 1.49, 1.58, 1.55, 0.50, 1.09, da una distribuzione Normale a media e varianza non note. Si ricava facilmente che X 10 = 1.34 e s 2 10 = Volendo costruire un intervallo di confidenza al 90% per la media si ha 1 α = 0.90, ovvero 1 α = Dalla tavola dei 2 valori di P (Z z) per Z variabile Normale standard si ricava che risulta P (Z c) = 0.95 per c = 1.65, ovvero z 1 α/2 = z 0.95 = Quindi gli estremi dell intervallo richiesto sono dati da X n ± z 1 α 2 s 2 n n = X s 2 10 ± z = 1.34 ± Pertanto l intervallo di confidenza richiesto è dato da [1.12, 1.55]. La difficoltà nell utilizzare questo tipo di intervallo di confidenza per µ sta nel fatto che esso ha valore asintotico, ovvero per n sufficientemente grande e quindi risulta approssimato. Inoltre il valore di n per cui la F n (z) approssima bene la funzione di distribuzione di una variabile Normale standard dipende dalla distribuzione delle osservazioni X i. Se si scelgono valori di n troppo piccoli si ottiene una copertura di un intervallo di confidenza al 100(1 α)% inferiore a 1 α. In questo caso, ovvero per valori piccoli di n si può utilizzare una definizione alternativa dell intervallo di confidenza che fa riferimento non più alla distribuzione Normale standard, ma alla distribuzione t di Student a n 1 gradi di libertà. Dalla Proposizione si ha che se le X i sono variabili Normali, la variabile Z n = X n µ s n n ha distribuzione t di Student con n 1 gradi di libertà per ogni n > 1. Quindi, per ogni n > 1 un intervallo di confidenza esatto al 100(1 α)% è dato da [ X n t n 1,1 α 2 s n n, Xn + t n 1,1 α 2 ] s n, n t intervallo di confidenza dove t n 1,1 α è il punto critico 1 α per una distribuzione t di Student ad n gradi di libertà 2. Questo intervallo si chiama t intervallo di confidenza. 2 Anche in questo caso sono disponibili tavole che riportano valori tabulati di tali punti critici

23 STIMA DI PARAMETRI 193 Poichè risulta t n 1,1 α > z 1 α l intervallo di confidenza definito in riferimento 2 2 alla distribuzione t di Student è più ampio di quello definito in riferimento alla distribuzione Normale standard. Esempio Volendo determinare il t intervallo di confidenza nel caso delle osservazioni dell Esempio è sufficiente ricavare dai valori tabulati il valore di t 9,0.95 che è pari a Quindi l intervallo di confidenza richiesto è dato da [1.10, 1.58]. Tuttavia anche questo secondo tipo di intervallo di confidenza presenta aspetti problematici; infatti, nella sua definizione si assume che le osservazioni X i sono estratte da una distribuzione Normale e poiché questa assuzione, in generale, non è verificata, anche questo tipo di intervallo di confidenza è, di fatto, approssimato. In conclusione, possiamo dire che l intervallo di confidenza definito in riferimento alla distribuzione Normale standard è basato sul Teorema del Limite Centrale e la copertura dipende dalla scelta di n. L intervallo di confidenza definito in riferimento alla distribuzione t di Student è approssimato perché influenzato dalla distribuzione delle X i che in generale non sono Normali; tuttavia questo secondo tipo di intervallo di confidenza ha maggiore copertura dell altro.

24 194 ELEMENTI DI STATISTICA 3.4 TEST DELLE IPOTESI Nel cercare di costruire un legame tra dati osservati e ipotesi teoriche sulle caratteristiche dell intera popolazione si deve, in genere, prendere una decisione per il raggiungimento di tale conclusione generale e nasce il problema di esprimere un giudizio di plausibilità di un ipotesi che si è specificata per la popolazione. Per verificare la coerenza tra osservazioni e ipotesi fatta si fa uso di test statistici che prendono nome di test delle ipotesi. In sintesi, possiamo dire che tali test devono confrontare i valori osservati e i corrispondenti valori teorici attesi condizionatamente all ipotesi fatta. Le differenze che vengono riscontrate possono essere ovviamente ricondotte a due possibilità: l ipotesi specificata è corretta e la differenza riscontrata è puramente casuale; l ipotesi specificata è errata e quindi non ci si può aspettare che i due valori siano vicini. Il procedimento consiste nel confrontare due ipotesi: l ipotesi da sottoporre a verifica e il suo complemento. Si indica con H 0 il sottoinsieme dei valori individuati dall ipotesi da sottoporre a verifica che viene detta ipotesi nulla, mentre il suo complemento si indica con H 1 e viene detto ipotesi alternativa. Si osservi che se un test di ipotesi non scarta l ipotesi H 0, questo non vuol dire che H 0 è accettata come vera, ma solamente che essa non deve essere scartata, ovvero che può essere considerata possibile. Si parla di errore di I specie se il test porta a rifiutare un ipotesi H 0 quando questa è corretta e di errore di II specie se il test porta ad accettare H 0 quando questa è falsa. Si noti che l obiettivo non è quello di dire se l ipotesi fatta è vera o falsa, ma piuttosto di verificare se l ipotesi fatta sia compatibile con i dati. In genere, c è un ampio margine di tolleranza nell accettare H 0, mentre per rifiutarla occorre che i dati siano veramente poco probabili quando H 0 dovesse essere corretta. Per ottenere questo, si specifica un valore α, detto livello di significatività e si impone che il test sia tale che, quando l ipotesi H 0 è corretta, la probabilità che essa venga scartata è non superiore ad α. Quindi un test con livello di significatività pari ad α deve essere tale che una probabilità di commettere un errore di I specie è minore o uguale ad α. Rimandiamo alla letteratura specifica per una trattazione generale dei test d ipotesi; nel seguito faremo esclusivamente riferimento al problema di decidere se le osservazioni sono un campione indipendente di una particolare distribuzione di probabilità con funzione di distribuzione F. Ovvero, si vuole utilizzare un test delle ipotesi per avvalorare o smentire un ipotesi fatta sulla distribuzione di probabilità che meglio rappresenta tali dati. Quindi, date le osservazioni X 1,..., X n,

) V ar(x 1 ) + V ar(x 2 ) + 2Cov(X 1, X 2 ).

) V ar(x 1 ) + V ar(x 2 ) + 2Cov(X 1, X 2 ). TECNICHE PER LA RIDUZIONE DELLA VARIANZA 163 2.5 TECNICHE PER LA RIDUZIONE DELLA VARIANZA Come abbiamo avuto modo più volte di osservare, l output di una simulazione necessita di un analisi statistica

Dettagli

ELEMENTI DI STATISTICA INFERENZIALE ELEMENTI DI STATISTICA INFERENZIALE

ELEMENTI DI STATISTICA INFERENZIALE ELEMENTI DI STATISTICA INFERENZIALE ELEMENTI DI STATISTICA INFERENZIALE 129 2.2 ELEMENTI DI STATISTICA INFERENZIALE In questo paragrafo verranno illustrati alcuni elementi di Statistica che sono essenziali per procedere alla costruzione

Dettagli

Simulazione. rappresentare sistemi reali anche complessi tenendo conto anche delle sorgenti di incertezza;

Simulazione. rappresentare sistemi reali anche complessi tenendo conto anche delle sorgenti di incertezza; 3 Simulazione Con il termine simulazione si intende la riproduzione del comportamento di un sistema. In generale, si parla di simulazione sia nel caso in cui viene utilizzato un modello concreto, sia nel

Dettagli

Gli studenti posso scaricare dai rispettivi siti le versioni trial/studente delle release

Gli studenti posso scaricare dai rispettivi siti le versioni trial/studente delle release SOFTWARE DI SIMULAZIONE (SIMULATORI) 167 2.6 SOFTWARE DI SIMULAZIONE (SIMULATORI) Nel paragrafo 2.1.4 abbiamo fatto cenno ad alcuni pacchetti software di simulazionei. L uso di tali simulatori è oggi diventato

Dettagli

V ar(x 1 ) + V ar(x 2 ) + 2Cov(X 1, X 2 ).

V ar(x 1 ) + V ar(x 2 ) + 2Cov(X 1, X 2 ). 174 SIMULAZIONE 2.6 TECNICHE PER LA RIDUZIONE DELLA VARIANZA Come abbiamo avuto modo più volte di osservare, l output di una simulazione necessita di un analisi statistica approfondita per ottenere una

Dettagli

Statistica 2. Esercitazioni. Dott. Luigi Augugliaro 1. Università di Palermo

Statistica 2. Esercitazioni. Dott. Luigi Augugliaro 1. Università di Palermo Statistica 2 Esercitazioni Dott. L 1 1 Dipartimento di Scienze Statistiche e Matematiche S. Vianelli, Università di Palermo ricevimento: lunedì ore 15-17 mercoledì ore 15-17 e-mail: luigi.augugliaro@unipa.it

Dettagli

Statistica Applicata all edilizia: Stime e stimatori

Statistica Applicata all edilizia: Stime e stimatori Statistica Applicata all edilizia E-mail: orietta.nicolis@unibg.it 15 marzo 2011 Statistica Applicata all edilizia: Indice 1 2 Statistica Applicata all edilizia: Uno dei problemi principali della statistica

Dettagli

Analisi e scelta dei dati di input

Analisi e scelta dei dati di input Analisi e scelta dei dati di input Corso di Tecniche di Simulazione, a.a. 2005/2006 Francesca Mazzia Dipartimento di Matematica Università di Bari 24 Aprile 2006 Francesca Mazzia (Univ. Bari) Analisi e

Dettagli

Esercitazioni di Statistica

Esercitazioni di Statistica Esercitazioni di Statistica Stima Puntuale Prof. Livia De Giovanni statistica@dis.uniroma.it Esercizio In ciascuno dei casi seguenti determinare quale tra i due stimatori S e T per il parametro θ è distorto

Dettagli

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza Test 1: Concetti base di inferenza 1. Se uno stimatore T n è non distorto per il parametro θ, allora A T n è anche consistente B lim Var[T n] = 0 n C E[T n ] = θ, per ogni θ 2. Se T n è uno stimatore con

Dettagli

Statistica. Capitolo 10. Verifica di Ipotesi su una Singola Popolazione. Cap. 10-1

Statistica. Capitolo 10. Verifica di Ipotesi su una Singola Popolazione. Cap. 10-1 Statistica Capitolo 1 Verifica di Ipotesi su una Singola Popolazione Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Formulare ipotesi nulla ed ipotesi alternativa

Dettagli

UNIVERSITÀ DEGLI STUDI DI PERUGIA

UNIVERSITÀ DEGLI STUDI DI PERUGIA SIGI, Statistica II, esercitazione n. 3 1 UNIVERSITÀ DEGLI STUDI DI PERUGIA FACOLTÀ DI ECONOMIA CORSO DI LAUREA S.I.G.I. STATISTICA II Esercitazione n. 3 Esercizio 1 Una v.c. X si dice v.c. esponenziale

Dettagli

Università di Pavia Econometria. Richiami di Statistica. Eduardo Rossi

Università di Pavia Econometria. Richiami di Statistica. Eduardo Rossi Università di Pavia Econometria Richiami di Statistica Eduardo Rossi Università di Pavia Campione casuale Siano (Y 1, Y 2,..., Y N ) variabili casuali tali che le y i siano realizzazioni mutuamente indipendenti

Dettagli

Contenuto del capitolo

Contenuto del capitolo Capitolo 8 Stima 1 Contenuto del capitolo Proprietà degli stimatori Correttezza: E(Stimatore) = parametro da stimare Efficienza Consistenza Intervalli di confidenza Per la media - per una proporzione Come

Dettagli

Richiami di inferenza statistica Strumenti quantitativi per la gestione

Richiami di inferenza statistica Strumenti quantitativi per la gestione Richiami di inferenza statistica Strumenti quantitativi per la gestione Emanuele Taufer Inferenza statistica Parametri e statistiche Esempi Tecniche di inferenza Stima Precisione delle stime Intervalli

Dettagli

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer

Richiami di inferenza statistica. Strumenti quantitativi per la gestione. Emanuele Taufer Richiami di inferenza statistica Strumenti quantitativi per la gestione Emanuele Taufer Inferenza statistica Inferenza statistica: insieme di tecniche che si utilizzano per ottenere informazioni su una

Dettagli

TECNICHE DI SIMULAZIONE

TECNICHE DI SIMULAZIONE TECNICHE DI SIMULAZIONE Analisi e scelta dei dati di input Francesca Mazzia Dipartimento di Matematica Università di Bari a.a. 2004/2005 TECNICHE DI SIMULAZIONE p. 1 Dati di input Per l esecuzione di una

Dettagli

2.3.1 Generazione di numeri pseudocasuali con distribuzione uniforme

2.3.1 Generazione di numeri pseudocasuali con distribuzione uniforme GENERAZIONE DI OSSERVAZIONI CASUALI 145 2.3 GENERAZIONE DI OSSERVAZIONI CASUALI Una volta determinate le distribuzioni di input, la simulazione dovrà generare durante ogni esecuzione osservazioni casuali

Dettagli

Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari"

Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in Scienze e Tecnologie Alimentari Levine, Krehbiel, Berenson Statistica Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari" Unità Integrata Organizzativa

Dettagli

E n 1 n. n i. n 2. n 2 ( n

E n 1 n. n i. n 2. n 2 ( n Lezione n. 7 7.1 Ancora sulle proprietà degli stimatori Esempio 7.1 [continua dall Esempio 6.1] Studiare varianza e MSE dei due stimatori e verificare se T n raggiunge il limite di Cramer- Rao. Soluzione.

Dettagli

Parametri e statistiche. Parametri e statistiche. Distribuzioni campionarie. Popolazione Parametri Valori fissi, Statistiche o Stimatori.

Parametri e statistiche. Parametri e statistiche. Distribuzioni campionarie. Popolazione Parametri Valori fissi, Statistiche o Stimatori. Parametri e statistiche Popolazione Parametri Valori fissi, spesso non noti Campione Statistiche o Stimatori Variabili casuali, le cui determinazioni dipendono dalle particolari osservazioni scelte Parametri

Dettagli

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 8 Intervalli di confidenza Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università

Dettagli

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2014/2015 Appello B - 5 Febbraio 2015

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2014/2015 Appello B - 5 Febbraio 2015 UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2014/2015 Appello B - 5 Febbraio 2015 1 2 3 4 5 6 7 Tot. Avvertenza: Svolgere ogni esercizio nello spazio assegnato,

Dettagli

2.4 PROGETTAZIONE DI UNA SIMULAZIONE E ANALISI DELL OUTPUT

2.4 PROGETTAZIONE DI UNA SIMULAZIONE E ANALISI DELL OUTPUT 156 SIMULAZIONE 2.4 PROGETTAZIONE DI UNA SIMULAZIONE E ANALISI DELL OUTPUT In questo paragrafo analizziamo uno degli aspetti fondamentali di una simulazione, ovvero la progettazione della simulazione stessa

Dettagli

Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1

Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1 Università degli Studi Roma Tre Anno Accademico 2017/2018 ST410 Statistica 1 Lezione 1 - Mercoledì 27 Settembre 2017 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,

Dettagli

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2014/2015 II Esonero - 15 Gennaio 2015

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 2014/2015 II Esonero - 15 Gennaio 2015 UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica ST410 - Statistica 1 - A.A. 014/015 II Esonero - 15 Gennaio 015 1 3 4 5 6 Tot. Avvertenza: Svolgere ogni esercizio nello spazio assegnato,

Dettagli

Stima puntuale di parametri

Stima puntuale di parametri Probabilità e Statistica Esercitazioni a.a. 2009/2010 C.d.L.: Ingegneria Elettronica e delle Telecomunicazioni, Ingegneria Informatica Stima puntuale di parametri Ines Campa Probabilità e Statistica -

Dettagli

Statistica Metodologica

Statistica Metodologica Statistica Metodologica Esercizi di Probabilita e Inferenza Silvia Figini e-mail: silvia.figini@unipv.it Problema 1 Sia X una variabile aleatoria Bernoulliana con parametro p = 0.7. 1. Determinare la media

Dettagli

STATISTICA APPLICATA Prof.ssa Julia Mortera. INTRODUZIONE al STATISTICA

STATISTICA APPLICATA Prof.ssa Julia Mortera. INTRODUZIONE al STATISTICA STATISTICA APPLICATA Prof.ssa Julia Mortera INTRODUZIONE al CAMPIONAMENTO e all INFERENZA STATISTICA Inferenza Statistica Nell inferenza statistica si usano le statistiche campionarie per fare previsioni

Dettagli

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale

Dettagli

STATISTICA ESERCITAZIONE

STATISTICA ESERCITAZIONE STATISTICA ESERCITAZIONE Dott. Giuseppe Pandolfo 1 Giugno 2015 Esercizio 1 Una fabbrica di scatole di cartone evade il 96% degli ordini entro un mese. Estraendo 300 campioni casuali di 300 consegne, in

Dettagli

Ulteriori Conoscenze di Informatica e Statistica. Popolazione. Campione. I risultati di un esperimento sono variabili aleatorie.

Ulteriori Conoscenze di Informatica e Statistica. Popolazione. Campione. I risultati di un esperimento sono variabili aleatorie. Ulteriori Conoscenze di Informatica e Statistica Carlo Meneghini Dip. di fisica via della Vasca Navale 84, st. 83 (I piano) tel.: 06 55 17 72 17 meneghini@fis.uniroma3.it I risultati di un esperimento

Dettagli

Variabili casuali. - di Massimo Cristallo -

Variabili casuali. - di Massimo Cristallo - Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013 lezioni di statistica del 16 e 27 maggio 2013 - di Massimo Cristallo - Variabili casuali

Dettagli

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 23 Outline 1 2 3 4 5 6 () Statistica 2 / 23 La verifica delle ipotesi Definizione Un ipotesi statistica

Dettagli

I appello di calcolo delle probabilità e statistica

I appello di calcolo delle probabilità e statistica I appello di calcolo delle probabilità e statistica A.Barchielli, L. Ladelli, G. Posta 8 Febbraio 13 Nome: Cognome: Matricola: Docente: I diritti d autore sono riservati. Ogni sfruttamento commerciale

Dettagli

Stima puntuale di parametri

Stima puntuale di parametri Probabilità e Statistica Esercitazioni a.a. 006/007 C.d.L.: Ingegneria per l Ambiente ed il Territorio, Ingegneria Civile, Ingegneria Gestionale, Ingegneria dell Informazione C.d.L.S.: Ingegneria Civile

Dettagli

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 5

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 5 CORSO DI STATISTICA (parte 2) - ESERCITAZIONE Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Approssimazione normale della Poisson (TLC) In un determinato tratto di strada il numero di incidenti

Dettagli

4. Stime & Test. Corso di Simulazione. Anno accademico 2008/09

4. Stime & Test. Corso di Simulazione. Anno accademico 2008/09 Anno accademico 2008/09 Media campionaria X 1, X 2,..., X n v.c. indipendenti con distribuzione F, e: E[X i ] = µ Var[X i ] = σ 2, i = 1,..., n Media campionaria: X n è uno stimatore di µ. È uno stimatore

Dettagli

STATISTICA INDUTTIVA: STIMA DI PARAMETRI STIMA PUNTUALE

STATISTICA INDUTTIVA: STIMA DI PARAMETRI STIMA PUNTUALE S.S.I.S TOSCANA F.I.M. -II anno STATISTICA INDUTTIVA: STIMA DI PARAMETRI STIMA PUNTUALE PROBLEMA 1 Vogliamo valutare la percentuale p di donne fumatrici tra le donne in età fertile. Procediamo all estrazione

Dettagli

Verifica delle ipotesi

Verifica delle ipotesi Statistica inferenziale Stima dei parametri Verifica delle ipotesi Concetti fondamentali POPOLAZIONE o UNIVERSO Insieme degli elementi cui si rivolge il ricercatore per la sua indagine CAMPIONE Un sottoinsieme

Dettagli

Tutorato di Complementi di Analisi Matematica e Statistica 30 maggio 2016

Tutorato di Complementi di Analisi Matematica e Statistica 30 maggio 2016 Tutorato di Complementi di Analisi Matematica e Statistica 30 maggio 2016 Esercizi possibili di probabilità e statistica Notazioni: U(a, b) è la distribuzione di probabilità uniforma nell intervallo (a,

Dettagli

Corso in Statistica Medica

Corso in Statistica Medica Corso in Statistica Medica Introduzione alle tecniche statistiche di elaborazione dati Intervalli di confidenza Dott. Angelo Menna Università degli Studi di Chieti G. d Annunziod Annunzio Anno Accademico

Dettagli

Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017

Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017 Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 3/5/017 Contents 1 Intervalli di confidenza 1 Intervalli su un campione 1.1 Intervallo di confidenza per la media................................

Dettagli

Esercizi di Probabilità e Statistica

Esercizi di Probabilità e Statistica Esercizi di Probabilità e Statistica Samuel Rota Bulò 6 giugno 26 Statistica Esercizio Sia {X n } n una famiglia di v.a. di media µ e varianza σ 2. Verificare che X = n n X i σ 2 = n (X i µ) 2 S 2 = n

Dettagli

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA Metodi statistici e probabilistici per l ingegneria Corso di Laurea in Ingegneria Civile A.A. 2009-10 Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain 1 STATISTICHE, DISTRIBUZIONI CAMPIONARIE

Dettagli

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità B

Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità B Statistica inferenziale, Varese, 18 novembre 2009 Prima parte - Modalità B Cognome Nome: Part time: Numero di matricola: Diurno: ISTRUZIONI: Il punteggio relativo alla prima parte dell esame viene calcolato

Dettagli

SOLUZIONI ESERCITAZIONE NR. 8 Test statistici

SOLUZIONI ESERCITAZIONE NR. 8 Test statistici SOLUZIONI ESERCITAZIONE NR. 8 Test statistici ESERCIZIO nr. 1 Un campione casuale di dieci pazienti di sesso maschile in cura per comportamenti aggressivi nell ambito del contesto familiare è stato classificato

Dettagli

Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2017/2018. Giovanni Lafratta

Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2017/2018. Giovanni Lafratta Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2017/2018 Giovanni Lafratta ii Indice 1 Spazi, Disegni e Strategie Campionarie 1 2 Campionamento casuale

Dettagli

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3 CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. La v.c. Uniforme Continua Secondo alcuni sondaggi sul sito della Apple (technical support site,

Dettagli

LEZIONI DI STATISTICA MEDICA

LEZIONI DI STATISTICA MEDICA LEZIONI DI STATISTICA MEDICA Lezione n.11 - Principi dell inferenza statistica - Campionamento - Distribuzione campionaria di una media e di una proporzione - Intervallo di confidenza di una media e di

Dettagli

Teorema del Limite Centrale

Teorema del Limite Centrale Teorema del Limite Centrale Teorema. Sia data una popolazione numerica infinita di media µ e deviazione standard σ da cui vengono estratti dei campioni casuali formati ciascuno da n individui, con n abbastanza

Dettagli

Stima puntuale. Stimare: attribuire un valore plausibile ad una grandezza. (parametro) non misurabile esattamente.

Stima puntuale. Stimare: attribuire un valore plausibile ad una grandezza. (parametro) non misurabile esattamente. Stima puntuale Stimare: attribuire un valore plausibile ad una grandezza (parametro) non misurabile esattamente. Stimatore del parametro θ: ogni statistica T = t(x 1, X 2,..., X n ) utilizzata per stimare

Dettagli

Test delle ipotesi. Le differenze che vengono riscontrate possono essere ovviamente ricondotte a due possibilità:

Test delle ipotesi. Le differenze che vengono riscontrate possono essere ovviamente ricondotte a due possibilità: Test delle ipotesi Test delle ipotesi Nel cercare di costruire un legame tra dati osservati e ipotesi teoriche sulle caratteristiche dell intera popolazione si deve, in genere, prendere una decisione per

Dettagli

Elaborazione statistica di dati

Elaborazione statistica di dati Elaborazione statistica di dati CONCETTI DI BASE DI STATISTICA ELEMENTARE Taratura strumenti di misura IPOTESI: grandezza da misurare identica da misura a misura Collaudo sistemi di produzione IPOTESI:

Dettagli

Distribuzioni campionarie. Antonello Maruotti

Distribuzioni campionarie. Antonello Maruotti Distribuzioni campionarie Antonello Maruotti Outline 1 Introduzione 2 Concetti base Si riprendano le considerazioni fatte nella parte di statistica descrittiva. Si vuole studiare una popolazione con riferimento

Dettagli

Dispensa di Statistica

Dispensa di Statistica Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza

Dettagli

Analisi della varianza: I contrasti e il metodo di Bonferroni

Analisi della varianza: I contrasti e il metodo di Bonferroni Analisi della varianza: I contrasti e il metodo di Bonferroni 1 Contrasti In molti problemi risulta importante stabilire, nel caso venga rifiutata l ipotesi nulla, di uguaglianza delle medie µ j delle

Dettagli

3.1 ESERCIZI DI RIEPILOGO

3.1 ESERCIZI DI RIEPILOGO 3 3.1 ESERCIZI DI RIEPILOGO Esercizio 3.1.1 Dato un sistema M/M/2 con frequenza media di arrivo pari a λ e velocità di servizio pari a µ, con λ < 2µ Scrivere le equazioni di Kolmogorov relative al processo

Dettagli

Corso di Statistica Esercitazione 1.8

Corso di Statistica Esercitazione 1.8 Corso di Statistica Esercitazione.8 Test su medie e proporzioni Prof.ssa T. Laureti a.a. 202-203 Esercizio Un produttore vuole monitorare i valori dei livelli di impurità contenute nella merce che gli

Dettagli

Capitolo 9 Verifica di ipotesi: test basati su un campione

Capitolo 9 Verifica di ipotesi: test basati su un campione Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 9 Verifica di ipotesi: test basati su un campione Insegnamento: Statistica Corsi di Laurea Triennale in Economia Facoltà di Economia, Università

Dettagli

Tecniche di sondaggio

Tecniche di sondaggio SMID a.a. 2005/2006 Corso di Statistica per la Ricerca Sperimentale Tecniche di sondaggio 24/1/2006 Nomenclatura Indicheremo con P una popolazione, con N la sua numerosità, con k la sua etichetta e con

Dettagli

Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1

Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1 Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1 Lezione 1 - Martedì 23 Settembre 2014 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,

Dettagli

4. Si supponga che il tempo impiegato da una lettera spedita dall Italia per arrivare a destinazione segua una distribuzione normale con media

4. Si supponga che il tempo impiegato da una lettera spedita dall Italia per arrivare a destinazione segua una distribuzione normale con media Esercizi sulle distribuzioni, il teorema limite centrale e la stima puntuale Corso di Probabilità e Inferenza Statistica, anno 007-008, Prof. Mortera 1. Sia X la durata in mesi di una valvola per radio.

Dettagli

Capitolo 6. La distribuzione normale

Capitolo 6. La distribuzione normale Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 6 La distribuzione normale Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università

Dettagli

Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo

Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo 1. Gli studi di simulazione possono permetterci di apprezzare alcune delle proprietà di distribuzioni campionarie ricavate

Dettagli

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza XIII Presentazione del volume XV L Editore ringrazia 3 1. Introduzione alla Statistica 5 1.1 Definizione di Statistica 6 1.2 I Rami della Statistica Statistica Descrittiva, 6 Statistica Inferenziale, 6

Dettagli

INTRODUZIONE ALLA STATISTICA PER LA RICERCA IN SANITA

INTRODUZIONE ALLA STATISTICA PER LA RICERCA IN SANITA INTRODUZIONE ALLA STATISTICA PER LA RICERCA IN SANITA IRCBG 19027 Modulo Dal campione alla popolazione: l'inferenza e l'intervallo di confidenza IRCCS Burlo Garofolo Formazione, Aula A via dell Istria

Dettagli

Gli intervalli di confidenza. Intervallo di confidenza per la media (σ 2 nota) nel caso di popolazione Gaussiana

Gli intervalli di confidenza. Intervallo di confidenza per la media (σ 2 nota) nel caso di popolazione Gaussiana Statistica Lez. 1 Gli intervalli di confidenza Intervallo di confidenza per la media (σ nota) nel caso di popolazione Gaussiana Sia X una v.c Gaussiana di media µ e varianza σ. Se X 1, X,..., X n è un

Dettagli

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1 Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1 Lezione 1 - Mercoledì 28 Settembre 2016 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,

Dettagli

Analisi multivariata per osservazioni appaiate. Analisi multivariata per osservazioni appaiate

Analisi multivariata per osservazioni appaiate. Analisi multivariata per osservazioni appaiate Introduzione Notazione Modello additivo Verifica d ipotesi Sia X una variabile q-dimensionale, a valori reali, non degenere, osservata in k tempi diversi (τ 1, τ 2,..., τ k ), sulle stesse n unità statistiche

Dettagli

Il campionamento e l inferenza. Il campionamento e l inferenza

Il campionamento e l inferenza. Il campionamento e l inferenza Il campionamento e l inferenza Popolazione Campione Dai dati osservati mediante scelta campionaria si giunge ad affermazioni che riguardano la popolazione da cui essi sono stati prescelti Il campionamento

Dettagli

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 4

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 4 CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 4 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Stimatore media campionaria Il tempo in minuti necessario a un certo impiegato dell anagrafe

Dettagli

VERIFICA DELLE IPOTESI

VERIFICA DELLE IPOTESI VERIFICA DELLE IPOTESI Ipotesi statistica parametrica non parametrica una qualunque affermazione che specifica completamente o parzialmente la distribuzione di probabilità di una v.c. X. semplice: se la

Dettagli

PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 2006/07

PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 2006/07 PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 006/07 Esercizio 1 Prova scritta del 16/1/006 In un ufficio postale lavorano due impiegati che svolgono lo stesso compito in maniera indipendente, sbrigando

Dettagli

Capitolo 6 La distribuzione normale

Capitolo 6 La distribuzione normale Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 6 La distribuzione normale Insegnamento: Statistica Corso di Laurea Triennale in Economia Dipartimento di Economia e Management, Università

Dettagli

x ;x Soluzione Gli intervalli di confidenza possono essere ottenuti a partire dalla seguente identità: da cui si ricava: IC x ;x = +

x ;x Soluzione Gli intervalli di confidenza possono essere ottenuti a partire dalla seguente identità: da cui si ricava: IC x ;x = + ESERCIZIO 6.1 Si considerino i 0 campioni di ampiezza n = estratti da una popolazione X di N = 5 elementi distribuiti normalmente, con media µ = 13,6 e σ = 8,33. A partire dalle 0 determinazioni della

Dettagli

Esercizi di statistica

Esercizi di statistica Esercizi di statistica Test a scelta multipla (la risposta corretta è la prima) [1] Il seguente campione è stato estratto da una popolazione distribuita normalmente: -.4, 5.5,, -.5, 1.1, 7.4, -1.8, -..

Dettagli

Elaborazione statistica di dati

Elaborazione statistica di dati Elaborazione statistica di dati 1 CONCETTI DI BASE DI STATISTICA ELEMENTARE 2 Taratura strumenti di misura IPOTESI: grandezza da misurare identica da misura a misura Per la presenza di errori casuali,

Dettagli

05. Errore campionario e numerosità campionaria

05. Errore campionario e numerosità campionaria Statistica per le ricerche di mercato A.A. 01/13 05. Errore campionario e numerosità campionaria Gli schemi di campionamento condividono lo stesso principio di fondo: rappresentare il più fedelmente possibile,

Dettagli

Costruzione di macchine. Modulo di: Progettazione probabilistica e affidabilità. Marco Beghini. Lezione 7: Basi di statistica

Costruzione di macchine. Modulo di: Progettazione probabilistica e affidabilità. Marco Beghini. Lezione 7: Basi di statistica Costruzione di macchine Modulo di: Progettazione probabilistica e affidabilità Marco Beghini Lezione 7: Basi di statistica Campione e Popolazione Estrazione da una popolazione (virtualmente infinita) di

Dettagli

Università di Siena. Corso di STATISTICA. Parte seconda: Teoria della stima. Andrea Garulli, Antonello Giannitrapani, Simone Paoletti

Università di Siena. Corso di STATISTICA. Parte seconda: Teoria della stima. Andrea Garulli, Antonello Giannitrapani, Simone Paoletti Università di Siena Corso di STATISTICA Parte seconda: Teoria della stima Andrea Garulli, Antonello Giannitrapani, Simone Paoletti Master E 2 C Centro per lo Studio dei Sistemi Complessi Università di

Dettagli

Elementi di base su modello binomiale e modello normale

Elementi di base su modello binomiale e modello normale Elementi di base su modello binomiale e modello normale (alcune note) Parte 1: il modello binomiale Di fondamentale importanza nell analisi della qualità sono i modelli. I due principali modelli statistico-probablistici

Dettagli

Statistica (parte II) Esercitazione 4

Statistica (parte II) Esercitazione 4 Statistica (parte II) Esercitazione 4 Davide Passaretti 03/03/016 Test sulla differenza tra medie (varianze note) Un negozio di scarpe è interessato a capire se le misure delle scarpe acquistate da adulti

Dettagli

λ è detto intensità e rappresenta il numero di eventi che si

λ è detto intensità e rappresenta il numero di eventi che si ESERCITAZIONE N 1 STUDIO DI UN SISTEMA DI CODA M/M/1 1. Introduzione Per poter studiare un sistema di coda occorre necessariamente simulare gli arrivi, le partenze e i tempi di ingresso nel sistema e di

Dettagli

Schema lezione 5 Intervalli di confidenza

Schema lezione 5 Intervalli di confidenza Schema lezione 5 Intervalli di confidenza Non centrerò quella barca, ne sono convinto al 95% COMPRENDERE: Significato di intervallo di confidenza Uso degli stimatori come quantità di pivot per stime intervallari

Dettagli

Test d Ipotesi Introduzione

Test d Ipotesi Introduzione Test d Ipotesi Introduzione Uno degli scopi più importanti di un analisi statistica è quello di utilizzare i dati provenienti da un campione per fare inferenza sulla popolazione da cui è stato estratto

Dettagli

LE DISTRIBUZIONI CAMPIONARIE

LE DISTRIBUZIONI CAMPIONARIE LE DISTRIBUZIONI CAMPIONARIE Argomenti Principi e metodi dell inferenza statistica Metodi di campionamento Campioni casuali Le distribuzioni campionarie notevoli: La distribuzione della media campionaria

Dettagli

Metodi statistici per lo studio dei fenomeni biologici

Metodi statistici per lo studio dei fenomeni biologici Metodi statistici per lo studio dei fenomeni biologici Alla fine di questa lezione dovreste essere in grado di: descrivere la distribuzione di campionamento della differenza di due medie costruire gli

Dettagli

Università di Siena. Teoria della Stima. Lucidi del corso di. Identificazione e Analisi dei Dati A.A

Università di Siena. Teoria della Stima. Lucidi del corso di. Identificazione e Analisi dei Dati A.A Università di Siena Teoria della Stima Lucidi del corso di A.A. 2002-2003 Università di Siena 1 Indice Approcci al problema della stima Stima parametrica Stima bayesiana Proprietà degli stimatori Stime

Dettagli

Corso Integrato di Statistica Informatica e Analisi dei Dati Sperimentali. Esercitazione E

Corso Integrato di Statistica Informatica e Analisi dei Dati Sperimentali. Esercitazione E Corso Integrato di Statistica Informatica e Analisi dei Dati Sperimentali A.A 2009-2010 Esercitazione E Scopo dell esercitazione Applicazioni del teorema del limite centrale. Rappresentazione delle incertezze

Dettagli

STATISTICA MULTIVARIATA SSD MAT/06

STATISTICA MULTIVARIATA SSD MAT/06 Università degli studi di Ferrara Dipartimento di Matematica A.A. 2018/2019 I semestre STATISTICA MULTIVARIATA SSD MAT/06 LEZIONE 4 - Questioni di analisi e applicazione della regressione lineare Pratica

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

Statistica Elementare

Statistica Elementare Statistica Elementare 1. Frequenza assoluta Per popolazione si intende l insieme degli elementi che sono oggetto di una indagine statistica, ovvero l insieme delle unità, dette unità statistiche o individui

Dettagli

Capitolo 9 Verifica di ipotesi: test basati su un campione

Capitolo 9 Verifica di ipotesi: test basati su un campione Levine, Krehbiel, Berenson Statistica Casa editrice: Pearson Capitolo 9 Verifica di ipotesi: test basati su un campione Insegnamento: Statistica Corsi di Laurea Triennale in Economia Dipartimento di Economia

Dettagli

RICHIAMI DI CALCOLO DELLE PROBABILITÀ

RICHIAMI DI CALCOLO DELLE PROBABILITÀ UNIVERSITA DEL SALENTO INGEGNERIA CIVILE RICHIAMI DI CALCOLO DELLE PROBABILITÀ ing. Marianovella LEONE INTRODUZIONE Per misurare la sicurezza di una struttura, ovvero la sua affidabilità, esistono due

Dettagli