Inferenza esatta sui parametri (I e II)

Documenti analoghi
Calcolo delle Probabilità 2

Statistica Metodologica

IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA

Note introduttive alla probabilitá e alla statistica

Distribuzioni di due variabili aleatorie

Localizzazione di una esplosione

Esercizi su variabili aleatorie discrete

Esercizi di Calcolo delle Probabilità

Calcolo delle Probabilità e Statistica, Ingegneria Civile e A&T e Informatica I prova finale a.a. 2016/17

PROVE SCRITTE DI MATEMATICA APPLICATA, ANNO 2006/07

Modelli probabilistici variabili casuali

Statistica Metodologica Avanzato Test 1: Concetti base di inferenza

Cenni di probabilità

Esercitazioni di Statistica

UNIVERSITÀ di ROMA TOR VERGATA

Alcune v.a. discrete notevoli

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Università di Siena. Corso di STATISTICA. Parte seconda: Teoria della stima. Andrea Garulli, Antonello Giannitrapani, Simone Paoletti

Variabili aleatorie: parte 1. 1 Definizione di variabile aleatoria e misurabilitá

) la sua densità discreta sarà della forma. p X (0) = 1 2, p X(1) = 1 2,

Ψ PSICOMETRIA. Corso di laurea triennale (classe 34) STATISTICA INFERENZIALE

Scrivere su ogni foglio NOME e COGNOME. Le risposte devono essere giustificate sui fogli protocollo e riportate nel foglio RISPOSTE.

Presentazione dell edizione italiana

I appello di calcolo delle probabilità e statistica

ESERCIZI HLAFO ALFIE MIMUN

Approccio statistico alla classificazione

Calcolo della probabilità

Capitolo 5. Variabili casuali discrete

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

Corso di Laurea Triennale in Matematica Calcolo delle Probabilità I (docenti G. Nappo, F. Spizzichino)

Metodi quantitativi per i mercati finanziari

Esercizi settimana 5. Esercizi applicati. Esercizio 1. Si considerino tre monete truccate, ognuna con probabilità 2 3

Statistica 2. Esercitazioni. Dott. Luigi Augugliaro 1. Università di Palermo

Statistica Inferenziale

PROBABILITA E STATISTICA

Variabili aleatorie. Variabili aleatorie e variabili statistiche

STATISTICA: esercizi svolti sulle VARIABILI CASUALI

Computazione per l interazione naturale: fondamenti probabilistici

Esercitazione del

Ulteriori applicazioni del test del Chi-quadrato (χ 2 )

P(X > 0) = P(X 1 = 1) + P(X 1 = 1, X 2 = 1, X 3 = 1) =

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Probabilità Condizionale - 1

VARIABILI ALEATORIE Una moneta equilibrata viene lanciata più volte. Qual è la probabilità che al 6 lancio:

Esercizi svolti di statistica. Gianpaolo Gabutti

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione

Modelli Grafici Probabilistici (1): concetti generali

Misure Meccaniche e Termiche. punti massa. Valore atteso: Varianza:

Statistica Inferenziale

Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017

Lezione 1. La Statistica Inferenziale

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 2

Variabile casuale E 6 E 5 E 4. R S x1 E 2

P ( X n X > ɛ) = 0. ovvero (se come distanza consideriamo quella euclidea)

Esercizi di riepilogo

SOLUZIONI DEL 1 0 TEST DI PREPARAZIONE ALLA 1 a PROVA INTERMEDIA

L indagine campionaria Lezione 3

Correzione primo compitino, testo B

Esercitazione 4 Distribuzioni campionarie e introduzione ai metodi Monte Carlo

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

Matematica II: Calcolo delle Probabilità e Statistica Matematica

Concetti di teoria dei campioni ad uso degli studenti di Statistica Economica e Finanziaria, A.A. 2016/2017. Giovanni Lafratta

Distribuzioni di probabilità. Un po' di teoria

LE DISTRIBUZIONI CAMPIONARIE

STATISTICA ESERCITAZIONE 9

Esercizi di riepilogo Lezioni

II Appello di Calcolo delle Probabilità Laurea Triennale in Matematica 2016/17

PROBABILITA. DEFINIZIONE: Ogni singolo risultato di un esperimento casuale si chiama evento elementare

Variabili aleatorie discrete. Giovanni M. Marchetti Statistica Capitolo 5 Corso di Laurea in Economia

Esercizi di statistica

Densità di probabilità del prodotto di due variabili casuali distribuite uniformemente

Lezione 12. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 12. A. Iodice.

Cenni di apprendimento in Reti Bayesiane

Analisi della regressione multipla

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

(a) Determinare lo stimatore di massima verosimiglianza θ di θ. (b) Calcolare la funzione di score e l informazione di Fisher.

STIMA DELLA VARIANZA CAMPIONARIA

Esercizi di Calcolo delle Probabilità e Statistica

Esercitazioni di Statistica Matematica A Esercitatori: Dott. Fabio Zucca - Dott. Maurizio U. Dini Lezioni del 7/1/2003 e del 14/1/2003

Esercitazioni di Statistica Metodologica

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

Variabili aleatorie. 13 aprile Definizione di variabile aleatoria e misurabilitá. (R, B) é una funzione aleatoria se

Dispensa di Statistica

Statistica Matematica A - Ing. Meccanica, Aerospaziale II prova in itinere - 2 febbraio 2005

Teorema del limite centrale TCL

Note sulla probabilità

Trasformazioni Logaritmiche

X (o equivalentemente rispetto a X n ) è la

Precorso di Matematica

LEZIONE N. 11 ( a cura di MADDALENA BEI)

Stima puntuale di parametri

Corsi di Laurea in Ingegneria Civile e Edile Analisi Matematica II e Probabilita Lezioni A.A. 2000/01, prof. G. Stefani 9 Ottobre Gennaio 2001

Equazioni differenziali

Il Gioco dell'evasione Fiscale

Richiami di probabilità. Decision Theory e Utilità. Richiami di probabilità. assumere certi valori in un insieme x 1, x 2, x n (dominio)

Lezione n. 1 (a cura di Irene Tibidò)

Verifica delle ipotesi: Binomiale

Test delle Ipotesi Parte I

Transcript:

Modelli di computazione affettiva e comportamentale Data: 19 e 21 Maggio 2010 Inferenza esatta sui parametri (I e II) Docente: Prof. Giuseppe Boccignone Scriba: Lorenzo Genta 1 Introduzione ai diversi approcci Abbiamo fino ad ora esplorato il primo livello dell inferenza su variabili (1) dando per scontato di conoscere e H. P (x y,, H) P (y x, H, ) P (y x, H, ) (1) Prendendo in considerazione i parametri possiamo considerarli come fossero costanti (come mostrato in figura 1 A): questo si rappresenta disegnando un puntino sotto ai parametri costanti. Un altro modo per rappresentare una situazione di questo tipo è rappresentato in figura 1 B, dove rappresentiamo anche il valore del parametro. Figura 1: Graphical Model dove il parametro é rappresentato come una costante Possiamo altresì considerare come fosse una variabile osservata (fig. 2 A): in questo caso abbiamo che le X 1...X n sono indipendenti in quanto il nodo osservato (in configurazione tail-to-tail), per le proprietá di indipendenza condizionale; divide il grafo; possiamo quindi scrivere P ( N X ) P (X i ). Si noti come il caso (A) rappresenta la tibica situazione contemplata in un setting frequentistico, dove i campioni X i sono considerati indipendenti e identicamente distribuiti (i.i.d). Utilizzando un approccio bayesiano è invece possibile, piú in generale considerare come una variabile aleatoria anch essa, come mostrato in figura 2 B ed espresso nella formula 2. Notare che la soluzione a questo problema è classificata come problema di learning (il nostro obiettivo diventa apprendere i parametri), ma i1 1

2 Inferenza esatta sui parametri (I e II) in un setting Bayesiano tale problema é ricondotto ad un problema di inferenza. Figura 2: Graphical Model dove il parametro é rappresentato come una variabile aleatoria, osservata (A) o non osservata (B) P ( x) P (x )P () P (x )P () (2) 2 L approccio classico: stima di massima verosimiglianza (Maximum Likelihood) Analizziamo un caso semplice, basandoci sulla distribuzione di Bernoulli, per tentare di inferire i parametri : consideriamo il lancio di una moneta. In questo caso già conosciamo la distribuzione di probabilità P (x ) Bern(x; ). Lo spazio degli eventi è Ω SUCCESSO, INSUCCESSO e la funzione di probabilità su tale spazio è data dalla 3. P (ω) { 1 se ω SUCCESSO 0 se ω INSUCCESSO x (1 ) 1 x (3) dove ω Ω e è la probabilità che la variabile aleatoria X sia un successo. Quindi sappiamo che: [0, 1] E[X] x [0,1] x P (x ) E[X] 0 P (x 0 ) + 1 P (x 1 ) var[x] E[X 2 ] (E[X]) 2 (4) Una volta stimata la variabile la considero come fosse osservata. Quindi X 1...X n (che chiameremo D per Dati) diventano indipendenti. Da questo procedo con i calcoli:

Inferenza esatta sui parametri (I e II) 3 P (D ) N P (x i ) i1 N xi (1 ) 1 xi (5) i1 questa viene chiamata funzione di verosimiglianza (rispetto al parametro ) che rappresenteremo con L(, x). Ora cerco quel tale che mi massimizzi la funzione di verosimiglianza (nei calcoli seguenti considereremo N X x i ) i1 N N N x i (1 x i ) xi (1 ) 1 xi i1 (1 ) i1 i1 X (1 ) N X L(; x) (6) Ora definisco l(; x) log L(; x) x log + (N X) log(1 ) come log-verosimiglianza. Se cerchiamo il che massimizza questa funzione otteniamo uno stimatore ottimo. l x 1 (N X) 1 1 x 1 X N 0 0 (N X) N i1 N x i 1 1 (7) Al termine del calcolo troviamo che lo stimatore di massima verosimiglianza risulta proprio essere la media campionaria. Il problema fondamentale di questo approccio può essere spiegato con il paradosso classico dell induzione: ipotizzando tre lanci di una moneta nei quali si ottenga come risultato T, T, T la stima del parametro sarebbe ˆ 3 3 1. In pratica deduco da un campione troppo ridotto un valore statisticamente ingiustificato della certezza di ottenere testa in un lancio della moneta. Questo è spiegabile anche mediante il paradosso del cigno nero: se osservo 3 cigni bianchi, posso assumere che tutti i cigni siano bianchi? (esiste una particolare razza di cigni neri in Africa...) 3 L approccio Bayesiano Mediante un approccio di tipo Bayesiano trattiamo il parametro come se fosse una variabile aleatoria:

4 Inferenza esatta sui parametri (I e II) P ( x) P (x ) p() P (x ) P ()d (8) Ora non stiamo più stimando il parametro ma stiamo cercando la distribuzione di probabilità che lo rappresenta. La P ( x) rappresenta la probabilità a posteriori su. Infine, nell ambito della teoria delle decisioni, cercheremo un criterio di scelta della basandoci sulla sua distribuzione di probabilità(valore a massima probabilità, media...). Ora procediamo esplicitando le distribuzioni conosciute: P ( x) P (x ) p() P (x ) P ()d ( N ) x x (1 ) N x P () ( ) N x (1 ) N x P ()d x x (1 ) N x 1 x (1 ) N x 1 d (9) Il problema si riscontra nel passaggio segnato dal simbolo *: come definire P ()? Abbiamo tre possibili approcci: 1. Non sapendo nulla considero la possibilità che ogni valore sia equiprobabile associando quindi la probabilità di ad una distribuzione uniforme. 2. Posso considerare la distribuzione coniugata alla distribuzione P (x ) 3. Nel caso in cui si abbiano informazioni precise in merito alla distribuzione di P (), (per esempio dovute alla natura dello specifico problema modellato) posso applicarla direttamente all interno della formula. In questo svolgimento abbiamo scelto l approccio descritto al punto 1 (come evidenziato nei valori contrassegnati da **) ed abbiamo infatti rappresentato la P () come distribuzione uniforme: questo approccio è noto anche come Let the data speak : non avendo informazioni sufficienti ipotizzo un valore neutro. 3.1 La distribuzione Beta Presentiamo ora brevemente una distribuzione di probabilità molto utilizzata specialmente in ambito bayesiano. La distribuzione Beta nasce dalla funzione omonima B(a, b) 1 a 1 (1 ) b 1 d ed ha la seguente forma: Beta(; a, b) Γ(a + b) Γ(a) + Γ(b) a 1 (1 ) b 1 (10)

Inferenza esatta sui parametri (I e II) 5 Eguagliando ora i parametri a b con la distribuzione da noi trovata otteniamo x a 1 N x b 1 a x + 1 b N x + 1 (11) La distribuzione del nostro parametro risulta quindi essere una distribuzione di Beta. A questo punto dovremmo trovare i valori per gli iperparametri a e b: questi due iperparametri riflettono le condizioni empiriche sui dati. Vi sono alcune tecniche empiriche per stimarli anche su pochi dati quindi nel nostro modello grafico (figura 3) saranno considerati come parametri e non come variabili aleatorie. Figura 3: Modello grafico Bayesiano della distribuzione Beta-Binomiale 3.2 Analisi dei risultati ottenuti Utilizzando la distribuzione 10 per calcolare la P ( D) otteniamo:

6 Inferenza esatta sui parametri (I e II) P ( D) 1 0 1 0 ( N ) x x (1 ) N x ( ) N x (1 ) N x x x (1 ) N x a 1 (1 ) b 1 x (1 ) N x a 1 (1 ) b 1 d Γ(a+b) Γ(a)+Γ(b) a 1 (1 ) b 1 Γ(a + b) Γ(a) + Γ(b) a 1 (1 ) b 1 d a+x 1 (1 ) N x+b 1 1 a + x 1 N x + b 1 }{{}}{{} α β (1 ) d 0 } {{ } Integrale noto: funzione Beta Γ(α + β) Γ(α) Γ(β) α 1 (1 ) β 1 Γ(a + x + N x + b) Γ(a + x) Γ(N x + b) a+x 1 (1 ) N x+b 1 Γ(a + N + b) Γ(a + x) Γ(N x + b) a+x 1 (1 ) N x+b 1 (12) Mentre la distribuzione 10 era il nostro modello di probabilità a priori, la distribuzione 12 è la nostra probabilità a posteriori, nuovamente una beta con parametri modificati: più precisamente si può notare che si sta andando ad incrementare ad a i successi ed a b gli insuccessi. Questo mostra chiaramente la situazione sulle mie credenze a priori (10) e quelle a posteriori(12): se su 10 lanci di una moneta ottengo 5 croci si incrementano allo stesso modo a e b non variando la forma della distribuzione. Se invece ottenessi dei dati contraddittori la forma della mia distribuzione Beta cambierebbe adattando il mio modello iniziale ai risultati empirici. Un altro fatto interessante da notare è che tutto questo processo può essere eseguito interamente ONLINE, ovvero passo dopo passo durante l osservazione dei dati: P ( D) t+1 1 0 P (D ) P ()t P (D ) P ()d (13) Le tecniche utilizzabili online hanno una grande importanza per via della possibilità di utilizzarle in real time: le tecniche bayesiane sono il modo migliore per avere un approccio online. 3.3 Scelta di un valore per Vi sono diversi approcci per la scelta del valore migliore da utilizzare per il parametro. Il punto di partenza é la teoria generale delle decisioni: Funzione di costo(massimizzo) {}}{ R(x) }{{} α, L(, α(x)) P (, α) Funzione di rischio (minimizzo)

Inferenza esatta sui parametri (I e II) 7 Si puó mostrare che per casi specifici della funzione di costo ottengo le seguenti regole di decisione, tipicamente utilizzate: Regole MAP (Maximum A Posteriori): ˆ argmax (P ( D)) Medie a posteriori: E[ D] P ( D)d 3.3.1 Approccio tramite MAP Procediamo cercando il massimo della nostra distribuzione: Beta(; α, β) ˆ 1 {}}{ k [(α 1) α 2 (1 ) β 1 α 1 (β 2)(1 ) β 1 ] 0 α 1 α + β 2 a + x 1 a + x + N x + b 2 a + x 1 a + N + b 2 (14) Notiamo che nel caso in cui a 1 e b 1 abbiamo ˆ MAP x N ˆ ML quindi ˆ argmax(p ( D)) argmax P (D ) ˆ ML. Il metodo di massima verosimiglianza risulta quindi essere un caso particolare dell approccio bayesiano. 3.3.2 Approccio tramite media Proviamo ora ad utilizzare la media come nuovo valore di. E[ D] ˆ MEAN P ( D)d α α + β a + x a + x + N x + b a + x a + N + b (15) Nell ipotesi fatta precedentemente (a 1, b 1), ipotizzando che il risultato di tipo TESTA sia un successo, abbiamo ˆ MEAN x + 1 N + 2 N teste + 1 N teste + N croci + 2 (16) Questo è (in questo caso specifico) uguale alla regola di successione di Laplace: supponendo di ottenere 3 teste in 3 lanci consecutivi avremmo: 1 Fattore di normalizzazione

8 Inferenza esatta sui parametri (I e II) P (T esta) 4 4/5 (17) 5 Appare chiaramente che in questo caso è stato tenuto conto nei calcoli dell insufficienza dei dati: non diamo più un valore di probabilità 1 all evento osservato bensì gli associamo una probabilità molto alta (più corretto). 4 Valutazione delle ipotesi - inferenza sui modelli L ultimo punto da analizzare, per quanto riguarda l approccio bayesiano, è l inferenza sui modelli: P (H 0 x) P (x H 0) P (H 0 ) P (x) P (H 1 x) P (x H 1) P (H 1 ) P (x) (18) (19) Valuto la probabilità di un modello dato un campione analizzato. Successivamente posso scommettere su di un modello piuttosto che su di un altro P (H 0 x) P (H 1 x) P (x H 0) P (H 0) P (x) P (x H 1) P (H 1) P (x) P (x H 0 ) P (x H 1 ) P (x, H0 ) P ( H 0 )d P (x, H1 ) P ( H 1 )d (20) Nel passaggio contrassegnato da * abbiamo dato la stessa probabilità a priori al modello H 0 ed al modello H 1. La funzione 20 in alcuni casi può essere calcolata in forma chiusa, quando questo non è possibile è necessario adottare tecniche più complesse. Se il rapporto dato dalla 20 risultasse > 1 avremmo che il modello H 0 è più preciso per rappresentare i nostri dati, altrimenti sarebbe preferibile il modello H 1.