Tecniche di simulazione

SMID a.a. 2005/2006 Corso di Statistica per la Ricerca Sperimentale Tecniche di simulazione 8/3/2006

Metodo di Monte Carlo Risoluzione di problemi numerici determinazione parametro F di una popolazione di cui una sequenza di numeri a caso è utilizzata per costruirne un campione significativo Perché utilizzare il metodo MC? Esistono sequenze di numeri casuali? Cosa si può ottenere mediante questa tecnica? - Verifica aspettazioni teoriche - Controllo risultati sperimentali -.

Problemi risolubili Tipo A: problemi statistico-probabilistici fluttuazioni casuali esempio: probabilità del decadimento di Λ 0 dopo due vite medie (conoscendo la legge di decadimento) Tipo B: problemi analitici, esatti, classici risolvibili col calcolo esempio: determinazione dell area di un cerchio di raggio R (A = π R 2 )

Soluzioni problemi statistico-probabilistici probabilità decadimento Λ 0 calcolo area del cerchio simulazione diretta Statistica classica Monte Carlo geometria Tipo A Tipo B problemi analitici, esatti, classici numeri casuali espansione in serie calcolo analitico approssimata (convergenza lenta numerica convergenza rapida analitica calcolo esatto

Decadimento Λ 0 Soluzione analitica per vita media per λ > 2 fluttuazioni di una distribuzione binomiale Piccoli intervalli dt numero di particelle che decadono occorre scegliere λndt << 1 probabilità numero a caso sia minore di λndt èproprio λndt Con MC si ottiene la probabilità e la fluttuazione

Area cerchio Soluzione analitica numero considerato esatto area di un cerchio unitario vale esattamente π Determinato con desiderato grado di accuratezza data le serie a segni alterni Rapporto tra l area del cerchio e quella del quadrato vale proprio π/4 M.C.: punti a caso nel quadrato

Simulazione diretta N 0 particelle Λ 0 nel primo intervallo di tempo Estrazione numero a caso N tra 0 ed 1 Se N > λn 0 dt: nessun decadimento è avvenuto Se N < λn 0 dt, decadimento: N attuale = N 0-1 Ripetiamo il procedimento per ciascun intervallo fino a quando abbiamo esaurito tutte le N 0 particelle Λ 0 iniziali Due chiari svantaggi compromesso accuratezza e velocità calcolo fluttuazioni statistiche intrinseche ~ 1/ N

Vantaggi Fluttuazioni statistiche simili a quelle sperimentali si vogliono studiare proprio queste fluttuazioni Simulando direttamente il processo fisico studiare assieme differenti aspetti del fenomeno trattazione di tipo analitico richiederebbe calcolo separato per ciascun risultato richiesto Possibile introdurre dopo effetti più complicati partire da una simulazione più rozza rendendola via via sempre più sofisticata per meglio rispecchiare la realtà da descrivere

Calcolo integrali Denominatore comune dei due problemi proposti soluzione di un problema di integrazione Metodo Monte Carlo: procedimento integrazione si vuole determinare un numero F utilizzando numeri casuali r 1, r 2, r 3,..., r N (per semplicità distribuiti tra 0 e 1) determinazione di F dal valore dell integrale

Numeri casuali Sequenze assai lunghe di numeri a caso veri numeri casuali (truly random number) processo fisico (radiattività, ) numeri casuali generati artificialmente - numeri pseudo-casuali (pseudo-random number) numeri generati con τ lungo - numeri quasi-casuali (quasi-random number) numeri generati con τ corto ma con migliori proprietà asintotiche Ricerca di algoritmi di analisi numerica

Numeri pseudo casuali Costruire un generatore di numeri aleatori utilizzando elaboratori elettronici algoritmi con formule matematiche riproducibili e matematicamente non casuali ripetute dopo un certo periodo (pseudo-casuali) Von Neumann: metodo della metà quadrata numero di partenza di r cifre primo numero casuale sono gli r/2 bit centrali numero elevato al quadrato: numero di r cifre r/2 bit centrali formano il secondo numero

Nuovi algoritmi Calcolatore con t bit (numeri da 0 a 2 t -1) r i è ricavato tramite la formula ricorsiva m = 2 t b scelto dall utilizzatore distribuzione di numeri pseudo-random periodo di generazione pari a 2 t-2 Elaboratore a 32 bit periodo di generazione pari a 2 30 ~10 9 Uniformità (equiprobabilità)? sequenze brevi ma uniformi.

Richiami matematici Distribuzione di densità di probabilità funzione di distribuzione integrata G(u) Due variabili u e v statisticamente indipendenti Aspettazione matematica

Legge uniforme Legge dei grandi numeri Per N sufficientemente grande stima Monte Carlo valore intergrale Metodo Monte Carlo converge al valore corretto quando sequenza numeri a caso diviene grande

Limite centrale Il teorema del limite centrale afferma che la somma di un numero N di variabili casuali indipendenti, non importa come distribuite è sempre distribuita in modo normale con valore medio μ, varianza σ 2 finita (N >>1) Convergenza alla distribuzione gaussiana rapida! Ottenere un generatore gaussiano di numeri a caso prendendo la somma di numeri casuali qualsiasi

Lancio di un dado R 1 distribuzione di un numero a caso tra 0 e 1 dado onesto (p = 1/6) R 2 distribuzione triangolare somma delle facce di due dadi: 2 p 12, p max = 7

Per N che aumenta R3: due flessi in ±1 e ±2 forma a campana R 12 : buona approssimazione della gaussiana

Gaussiana Per ottenere una gaussiana normalizzata con media μ = 0 e varianza σ 2 = 1 occorre che proprio nel caso di N = 12 da varianza 1 t = R N -6

Conclusione Determinazione del valore di una funzione F dal calcolo di un integrale I Se varianza finita, la stima ottenuta con MC è: congruente ossia converge, all aumentare di N corretta ( anche se imprecisa) per ogni N normale, asintoticamente, distribuita, Deviazione standard metodo MC L errore diminuisce ~ 1/ N

Efficienza L efficienza di una simulazione dipende dagli algoritmi utilizzati Calcolo di un integrale bidimensionale su una regione triangolare y Il calcolo analitico è quello di integrare una funzione g(x, y) su una regione specificata bidimensionale 1 0 y = x 1 x

Metodo banale (a) scegliere un numero a caso 0 < x i < 1 (b) scegliere un altro numero a caso 0 < y i < x i (c) calcolare il valore g(x i,y i ) (d) ricavare l integrale sommando i vari g(x i,y i ) ripetendo i passi (a), (b) e (c) Valutazione scorretta punti solo nella regione permessa più addensati nella parte di sinistra (x bassi) piuttosto che nella parte destra (x alti)

Metodo del rigetto (a) scegliere un numero a caso 0 < x i < 1 (b) scegliere un altro numero a caso 0 < y i < 1 (c) se y i > x i rigettare il punto e ritornare ad (a) (d) calcolare il valore g(x i,y i ) (e) sommare i vari g(x i,y i ) iterando Punti equidistribuiti utilizza solo la metà dei punti generati integra sul quadrato ma non considera l area del triangolo superiore Non cambia se da (c) si va in (b) invece che in (a)

Metodo del ripiegamento (a) scegliere un numero a caso 0 < r i < 1 (b) scegliere un altro numero a caso 0 < r j < 1 (c) porre x i = max(r i,r j ) (d) porre y i = min(r i,r j ) (e) calcolare il valore g(x i,y i ) (f) sommare i vari g(x i,y i ) iterando Prende i punti sull intero quadrato ripiega il quadrato lungo la diagonale tutti i punti cadono nel triangolo inferiore punti uniformemente distribuiti senza rigetto

Metodo pesato (a) scegliere un numero a caso 0 < x i < 1 (b) scegliere un altro numero a caso 0 < y i < x i (c) calcolare il valore g(x i,y i ) pesandolo con 2x i (d) sommare i vari g(x i,y i ) iterando Punti scelti in modo scorretto pesati tramite una funzione opportuna nel caso in esame, proporzionale ad x più o meno efficiente, comparato con quello del ripiegamento, a seconda del valore della funzione g

Metodi alternativi Formula della quadratura approssima il valore dell integrale combinazione lineare di differenti valori Metodo di Monte Carlo formula di quadratura con pesi unitari punti scelti uniformemente ma casualmente!

Trapezioidale Dividere l intervallo totale in N sottointervalli approssimare l integrale in ciascun sottointervallo tramite l area del trapezoide iscritto sopra o sotto la curva da integrare media di N+1 valori di funzione moltiplicati per la larghezza d intervallo due valori estremi che partecipano solo con un termine 1/2

Espansioni in serie Per grandi valori di N funzione può essere espressa con espansioni in serie di Taylor intorno a ciascuno degli N punti termine costante e il primo termine (lineare) correttamente integrati dalla regola trapezoidale errore = termini di ordine superiore via via sempre meno importanti N punti egualmente spaziati errore sull integrale risulta ~ 1/N 2 convergenza del metodo è molto rapida

Polinomiali Possibilità integrare polinomi di grado superiore maggiore rapidità di convergenza Regola di Simpson tre punti per ogni intervallo integra tutti i polinomi di terzo grado. Formula di quadratura di Gauss utilizza m punti (ed m pesi associati) integra i polinomi di grado 2m - 1

dimensionalità d integrazione MC più veloce Gauss non applicabile Gauss più veloce Convergenza numero di punti (regola di Gauss) Ma allora perché utilizzare il metodo di Monte Carlo? indipendente dalla dimensionalità dello spazio di integrazione dimensionalità D per cui converge più velocemente di un metodo di quadratura