Statistica e Modelli Stocastici Modulo n.1 - Statistica Prof. Alessandro Fassò alessandro.fasso@unibg.it CdL: Ing.Informatica aa 2011/12 Parte 1a - Probabilità generale p.1
Introduzione Decisioni in condizioni di incertezza Dati empirici Teoria specifica Modello Statistico Conclusioni operative Conoscenza e consapevolezza dell errore Identificazione e Quantificazione dell incertezza Modelli statistici Parte 1a - Probabilità generale p.2
Articolazione della Materia - Statistica Descrittiva - Calcolo delle Probabilità - Inferenza Statistica Parte 1a - Probabilità generale p.3
Costruzione di modelli Sintesi di teoria, dati empirici e conclusioni operative di interesse. Tecniche di costruzione del modello (identificazione e stima) Capacità (auto)-critica: validazione del modello Parte 1a - Probabilità generale p.4
Applicazioni 1. Code e Reti a. ES: Dimensionamento buffer di un server b. Tempi di attesa, probabilità di overflow,... c. (Modelli Stocastici) 2. Sicurezza e Difesa da Intrusioni (demo) a. Anti spamming b. Numero eventi e EWMA (Statistica Industriale) c. Sequenze Markoviane di eventi (Modelli Stocastici) 3. Data Mining, text mining, Business intelligence 4. Codifica e riduzione errore (Viterbi) Parte 1a - Probabilità generale p.5
5. Problemi Sperimentali DOE 6. Simulazione (SA-demo) e Computer experiments 7. Affidabilità Problemi di Previsione 1. Economico-Finanziario 2. Ambientale 3. Automazione - Controllo predittivo Problemi di Monitoraggio e controllo 1. Qualità, Produzione, Sicurezza 2. Servizi, Salute, Ambiente 3. Portafoglio (finanza) Parte 1a - Probabilità generale p.6
4. Controllo della qualità e della produzione (monitoraggio) a. Miglioramento della qualità e sperimentazione 5. Analisi del rischio 6. Monitoraggio strutturale 7. Qualità Misure (accuratezza e precisione) 8. Calibrazione strumenti e sistemi di monitoraggio Parte 1a - Probabilità generale p.7
Lezioni ed Esami orario: Lunedì 16.30-18.30, Martedì 10.30-13.30 Ricevimento: Martedì 15-17,oppure su appuntamento alessandro.fasso@unibg.it E-learning: www.unibg.it oppure elearning2.unibg.it/ilias3 Propedeuticità: C.I. Analisi I. Parte 1a - Probabilità generale p.8
Modalità d esame: Il I modulo può essere superato con una prova intermedia che consta di una parte scritta ed una orale. La parte scritta può essere superata con un singolo scritto negli appelli ordinari. La parte orale consta di una o più domande riguardanti la teoria e gli esercizi. La preparazione per l orale è obbligatoria per tutti. L esecuzione dell orale è a giudizio del docente e viene comunicata insieme agli esiti degli scritti. Parte 1a - Probabilità generale p.9
Preparazione dell Esame e Bibliografia 1. Frequenza 2. Elearning su ilias. 3. Guida alle lezioni e materiale su internet (elearning/ilias) 4. S. Ross 2003 Probabilità e Statistica per l Ingegneria e le Scienze, Apogeo 5. W. Navidi, 2006 Probabilità e Statistica per l Ingegneria e le Scienze, McGraw-Hill, a cura di I Negri. 6. D.C. Montgomery, G.C. Runger & N.F. Hubele 2004: Statistica per Ingegneria, Egea. 7. Ilia Negri (2001): Lezioni di calcolo delle probabilità ed esercizi svolti, editrice CUSL, Milano. Parte 1a - Probabilità generale p.10
Calcolo delle Probabilità argomenti trattati nella parte 1a del corso Richiami di Insiemistica Esperimenti casuali Definizione di probabilità Proprietà e regole di calcolo Probabilità condizionata Indipendenza stocastica Richiami di calcolo combinatorio Teorema di Bayes Parte 1a - Probabilità generale p.11
Richiami di Insiemistica Insiemi A, B,.. contenuti nell universo Elementi a,b,x,y,... appartenenti all universo Relazioni fra Insiemi Appartenenza a A oppure a A Uguaglianza A B Inclusione A B oppure B A Esempi 1. B 2,4,6,8,10 2 B, 3 B 2. numeri naturali 3. B. Parte 1a - Probabilità generale p.12
Spazio e Insieme vuoto Spazio ambiente o Spazio Campionario: A Insieme vuoto: Insieme di tutti i sottoinsiemi o Insieme delle parti: A A Parte 1a - Probabilità generale p.13
Operazioni Unione A BC x x B oppure x C Intersezione A BC x x B e x C AB AB AB Differenza Complemento o Negazione A BC x x B e x C A nonb B B x x B Parte 1a - Probabilità generale p.14
Definizione di Insiemi disgiunti: A B Partizione di : B 1,B 2,...,B k disgiunti tali che k B 1 B 2...B k j1 B j Scomposizione di A A B 1 AB 2 A...B k A Regole di De Morgan AB nonāb AB nonāb Parte 1a - Probabilità generale p.15
Esperimenti Casuali Esperimento deterministico e risultati incerti insieme dei possibili risultati sperimentali Esempio 1: lancio di un dado f 1,f 2,...,f 6 Eventi elementari Eventi A Eventi ed Insiemi Parte 1a - Probabilità generale p.16
Esempio 2: siamo interessati al rischio sismico. In conseguenza di un sisma di una certa intensità ed un certo epicentro siamo interessati all evento: B "una casa estratta a caso dal catasto della zona è danneggiata" B,B Se A indica una costruzione antisismica abbiamo B BABĀ cioè, ovviamente: la casa estratta può essere danneggiata essendo di struttura ordinaria o antisismica. Parte 1a - Probabilità generale p.17
Definizione della Probabilità Secondo l approccio assiomatico si definisce la probabilità come la misura (dell incertezza) di un evento. Consideriamo finito e l insieme delle parti di. Allora la funzione P : è una probabilità se e solo se per ogni A,B valgono le segg. 3 proprietà: 1. Nonnegatività: PA 0 2. Normalizzazione: P 1 3. Additività: Se A, B sono disgiunti allora PA B PA PB. Parte 1a - Probabilità generale p.18
Interpretazione della probabilità 1. Approccio soggettivista PA misura la fiducia (soggettiva) del verificarsi di A Paradigma della scommessa nei giochi equi posta PA vincita netta posta (vincita netta attesa nulla) 2. Approccio classico a priori (campionamento - eventi equiprobabili) PA # casi favorevoli # casi possibili Parte 1a - Probabilità generale p.19
3. Approccio modellistico a priori PA è conseguenza di una legge nota (fisica...) 4. Approccio frequentista a posteriori ha un forte significato intuitivo ed "empirico" in assenza di dati non è costruttivo (può ancira essere usato a livello interpretativo) es: sismica o altri eventi rari. Parte 1a - Probabilità generale p.20
La "scommessa equa" Si gioca la posta b sul verificarsi di A che ha probabilità PA di verificarsi. Se A si verifica, il banco paga la vincita lorda vb dove V v è la vincita netta. Se A non si verifica il banco intasca b e la vincita netta è V b. La vincita netta media è allora Posto EV 0 si ottiene Naturalmente se PA b vb EV vpab1pa PA b vb si ha che EV 0 che rappresenta il ricavo atteso del banco. Parte 1a - Probabilità generale p.21
Esempio sulla "scommessa equa" All ippodromo scommetto 100/1 sulla vincita di Tornado. Questo significa che 1. la vittoria di Tornado è alquanto inverosimile ma 2. se Tornado vince la posta viene ripagata 100 volte. Vediamo formalmente il punto 1. Secondo lo schema della scomessa equa, la propabilità è PA in pratica però la vincita netta media posta vincita netta posta 1 100 EV 99PA11PA 100p1 non può essere nulla ma deve essere negativa perché EV è proprio il margine del broker. Perciò ha senso pensare che la probabilità che Tornado vinca sia inferiore a 1 100 Parte 1a - Probabilità generale p.22
Probabilità e additività Se è numerabile o continuo allora il 3 assioma si estende come segue. Consideriamo gli eventi disgiunti a coppie, cioè allora A 1,A 2,...,A n,... A i A j per ogni i j PA 1 A 2... j1 PA j. Parte 1a - Probabilità generale p.23
Proprietà e regole di Calcolo Finitezza e normalizzazione, A 0 PA 1 Monotonicità, A B, Evento quasi impossibile: Evento impossibile: PA PB PA 0 P 0 Parte 1a - Probabilità generale p.24
Evento quasi certo: Evento certo: Negazione A : Differenza, A B, PA 1 P 1 PĀ 1PA PBA PBPA. Unione di eventi qualsiasi, A,B PAB PAPBPAB Parte 1a - Probabilità generale p.25
Assegnazione della Probabilità 1,..., N 0 P i 1 P 1...P n 1 1. Esempio (approccio classico): a. esperimento casuale: estrazione di 1 pallina da un urna contenente 10 palline numerate 1,...,10 b. 1,..., 10 1,...,10 c. P i Pi 1 10 Parte 1a - Probabilità generale p.26
2. Esempio: lancio ordinato di due monete "distinguibili" m 1 ed m 2 a. 1,..., 4 t 1 t 2,t 1 c 2,c 1 t 2,c 1 c 2 b. P i 1 4 4 c. NB: j1 P j 1 3. Esempio: lancio di due monete "indistinguibili" (senza ordine) a. 1,..., 3 tt,tc,cc b. Ptt Pcc 1 4 c. Ptc 1 2 3 d. NB: j1 P j 1 Parte 1a - Probabilità generale p.27
Probabilità Condizionata NB: PB 0 PA B PAB PB Aggiornamento delle informazioni: B Formula moltiplicativa: PAB PA BPB PB APA Parte 1a - Probabilità generale p.28
Formula delle PROBABILITA TOTALI Insegna ad "aggregare" le probablità condizionate ad una serie di eventi che forma una partizione. Teorema: Se B 1,...,B k è una partizione di k (cioè se B i B j e j1 B j allora PA PA B 1 PB 1...PA B k PB k Parte 1a - Probabilità generale p.29
Esempio di "Controllo della Qualità" D pezzo difettoso L i pezzo dalla Linea i Linea produttiva Produzione oraria Difettosità 1 500 15% 2 1000 1% PD PD L 1 PL 1 PD L 2 PL 2 0.15 1 3 0.01 2 3 0.057 Parte 1a - Probabilità generale p.30
Indipendenza stocastica Due eventi si dicono indipendenti se PAB PAPB CONSEGUENZE: PA B PA e PB A PB Esempio: Lancio di n 2 monete 1 t 1,c 1 e 2 t 2,c 2 1 2 t 1 t 2,t 1 c 2,c 1 t 2,c 1 c 2 Pt 2 t 1 Pt 2 Parte 1a - Probabilità generale p.31
Esempio: n 2 estrazioni senza reinserimento da urna 3 rosse, 2 verdi 1 r 1,v 1 e 2 r 2,v 2 1 2 r 1 r 2,r 1 v 2,v 1 r 2,v 1 v 2 Pr 1 3 5 e Pv 1 2 5 Pr 2 v 1 3 4 e Pr 2 r 1 2 4 perciò non c è indipendenza. Tuttavia usando le probabilità totali abbiamo: Pr 2 Pr 2 v 1 Pv 1 Pr 2 r 1 Pr 1 3 5 Pr 1!!! Parte 1a - Probabilità generale p.32
Esercizio per casa Si consideri il caso delle n 2 estrazioni di cui sopra 1. considerando le estrazioni senza rimessa, costruire a. la tabella a doppia entrata delle probabilità congiunte b. la tabella a doppia entrata delle probabilità condizionate 2. Svolgere l esercizio 1 nel caso di estrazioni con rimessa Parte 1a - Probabilità generale p.33
Richiami di Calcolo Combinatorio Campionamento in blocco Trattiamo dapprima gli elementi di calcolo combinatorio relativi al "campionamento in blocco" che possiamo definire tramite la seguente analogia formale ed interpretativa: Estrazioni senza rimessa da un urna Campionamento in blocco Caratteristica è che ogni elemento degli n oggetti dell urna appare, al più una sola volta nella sequenza dei risultati. Vediamo ora le formule principali per tale schema di campionamento. Parte 1a - Probabilità generale p.34
Fattoriale di n In quanti modi diversi si possono ordinare n oggetti distinguibili? Il numero di Permutazioni di n oggetti distinguibili è dato dal fattoriale di n, cioè: Proprietà: n! nn1...21 con 0! 1 e 1! 1 n! nn1! con 0! 1 Parte 1a - Probabilità generale p.35
Esempi - Il caso di n piccolo I simboli A,B,C possono essere ordinati in modi diversi: - Il caso di n medio 3! 321 6 ABC,BAC,BCA,CBA,ACB,CAB Se le n 12 pratiche giacenti nel catasto edilizio urbano cadano a terra e vengono raccolte a caso possono essere riordinate in modi diversi. 12! 1211...21 479 001 600 Parte 1a - Probabilità generale p.36
- Il caso di n grande formule di Stirling Matlab: 171! maxint (inf) 100! 910 157 n! 2n n e n Parte 1a - Probabilità generale p.37
Domande 1. Se i simboli distinguibili sono n 7 in quanti modi si possono permutare? 2. Se le pratiche dell esempio precedente sono n 50 in quanti modi si possono ordinare? 3. Come si calcola n! con xls? Parte 1a - Probabilità generale p.38
Disposizioni Semplici n, r Quanti gruppi di r oggetti si possono costruire partendo da n oggetti distinguibili, quando si considerano due gruppi diversi se almeno un elemento è diverso o l ordine è diverso, essendo gli r oggetti tutti diversi? Il numero di Disposizioni Semplici n,r di n oggetti a gruppi di r con ordinamento è dato da: D n,r nn1...nr1 n! nr! Parte 1a - Probabilità generale p.39
Combinazioni Semplici n, r Quanti gruppi di r oggetti si possono costruire partendo da n oggetti distinguibili, quando si considerano due gruppi diversi solo se almeno un elemento è diverso a prescindere dall ordine? Il numero di Combinazioni Semplici n,r di n oggetti a gruppi di r senza ordinamento C n,r D n,r r! n r n! r!nr! nn1...nr1 r! NB: C n,r C n,nr Parte 1a - Probabilità generale p.40
Esempio Di n 10 tifosi, r 3 sono supporter della squadra A ed hanno la maglia rossa i restanti nr 7 tengono per la squadra B ed hanno la maglia blu ma sono per il resto indistinguibili. In quanti modi diverso si possono disporre nella fila alle casse dello stadio.? C 10,3 n r 10! 7!3! 120 C 10,7 Domande Se n 100 e r 30 in quanti modi si possono disporre? Come si calcola il combinatorio con excel/matlab/r? Esempio: combinazione(10;3) Usando il PC, verificare numericamente le regole C n,r C r,n per n 10, r 0,...,10. Parte 1a - Probabilità generale p.41
Campionamento con Reinserimento Trattiamo ora gli elementi di calcolo combinatorio relativi al "campionamento con reinserimento" che possiamo definire tramite l analogia formale ed interpretativa con le corrispondenti estrazioni da un urna. Caratteristica è che ogni elemento degli n oggetti dell urna può apparire anche più volte.nella sequenza dei risultati. Vediamo ora le formule principali per tale schema di campionamento. Parte 1a - Probabilità generale p.42
Disposizioni con Ripetizione n, r Quanti gruppi di r oggetti si possono costruire partendo da n oggetti distinguibili, quando si considerano due gruppi diversi se almeno un elemento è diverso o l ordine è diverso, essendo gli r oggetti uguali o diversi? Il numero di Disposizioni con Ripetizione n,r di n oggetti a gruppi di r con ordinamento è dato da: D n,r nn...n n r Parte 1a - Probabilità generale p.43
Esempio Prodotto cartesiano. Se il capitolato di una casa prevede n 1 3 colori per le pareti, n 2 5 tipi di piastrelle ed n 3 2 colori di infissi, quanti appartamenti diversi si possono fare? NB: estende il concetto di D n,r. Domanda d 352 30 Come si calcola la potenza n r con xls? Parte 1a - Probabilità generale p.44
Teorema di Bayes Problematica delle probabilità inverse : o "a posteriori". Osservato l evento A siamo interessati alle probabilità delle cause di A Torniamo all Esempio di "Controllo della Qualità" Linea produttiva Produzione oraria Difettosità 1 500 15% 2 1000 1% ci chiediamo se la probabilità che un pezzo provenga dalla linea 1 è diversa quando questo è risultato difettoso o meno PL 1 D PL 1 D PL 1? Parte 1a - Probabilità generale p.45
Teorema di Bayes B j partizione di Insieme delle possibili cause di A PB j Probabilità a priori delle cause B j PA B j Probabilità condizionate o verosimiglianze PB j A Probabilità a posteriori della causa B j noto l effetto A. PB j A PA B j PB j i PA B i PB i Parte 1a - Probabilità generale p.46
Esempio di "Controllo della Qualità" (segue) Osservato un difettoso D, la probabilità a posteriori che questo venga dalla linea 1 è: PL 1 D PD L 1 PL 1 PD L 1 PL 1 PD L 2 PL 2 0.15 1 3 0.15 1 3 0.01 2 3 0.88 che risulta ssai maggiore della corrispondente probabilità marginale o a priori PL 1 1 3. per casa: Calcolare PL 2 D con la formula di Bayes e con la regola del complementare. Parte 1a - Probabilità generale p.47
Esempio: Algoritmi anti-spamming (versione semplificata di popfile: www.paulgraham.com/spam.html, www.paulgraham.com/better.html, getpopfile.org/docs/faq:paulgraham) mail parola 1,...,parola k con k che dipende dalla mail Aggiornamento delle informazioni ad ogni nuova mail ricevuta e ri-classificata Probabilità di spamming di ciascuna mail via Bayes B "la mail è buona" B "la mail è spamming" Classificazione automatica A W 1,...,W k "email osservata composta dalle parole W 1,...,W k " W j "jma parola presente nella mail A" Parte 1a - Probabilità generale p.48
Si applica il Teorema di Bayes Probabilità a posteriori di spamming: PB A PA B PB PA BPB PA B PB Si classifica come spamming se è più probabile: PB A PB A Parte 1a - Probabilità generale p.49
In pratica 1. Apprendimento (stima): si classifica le mail classificazione manuale P B i e P W j B i Cioè si calcolano le probabilità come frequenze relative per B 1 B e B 2 B nella casella postale dell interessato: P B i # parole B i # tutte le parole usate nella casella P W j /B i # parole W j delle mail classificate B i # tutte le parole B i Parte 1a - Probabilità generale p.50
2. Si usa l ipotesi semplificativa (molto forte ma funziona in pratica) di indipendenza fra le parole P k A B i j1 P W j B i 3. Ulteriori dettagli: www.paulgraham.com/spam.html, 4. Estensioni possibili con uso del contesto linguistico e modelli HMM Parte 1a - Probabilità generale p.51