Calcolo delle probabilità Il problema di Monty Hill nel film 21 Elementare!! Statistiche, cambio di variabili. 1
Il coefficiente di correlazione tra Indicee Stipendio vale 0,94. E possibile asserire che la relazione tra X e Y è lineare, ad esempio, al 100%? Oppure c è un margine di errore del 5%? X 1,6 2 3,5 3 3,2 4 Y 1000 1500 2000 2100 2400 3000 La probabilità è il grado di fiducia che si ripone in un evento che può accadere nel futuro. Definizioni di probabilità: Probabilità Classica: la probabilità di un evento è il rapporto tra il numero di casi favorevoli e il numero di casi possibili (equiprobabili tautologia). Soggettiva: la probabilità è il grado di fiducia che una persona ripone in un certo evento. Empirica: la probabilità di un evento è il rapporto tra il numero di volte in cui l evento si è verificato, nelle prove effettuate, e il numero delle prove effettuate. Sostenitori della definizione frequentista Buffon (1707-1788) Pearson(1857-1936) Lanciò una moneta 4040 volte=2.048 C e 1.992 T Lanciò una moneta 24000 volte= 12.012 T e 11.998C Perci Diaconis (1945) 2
Sulla definizione frequentista % di volte in cui si verifica testa nel lancio nvolte di una moneta equa (frequenza relativa). TCTTCCTTTC n=10 n=100 n=1000 Simulazione al computer del lancio di una moneta Esperimento casuale Ogni singola esecuzione dell esperimento dà luogo ad un risultato non prevedibile. Selezionare una persona da un collettivo per misurare una sua caratteristica Effettuare la misurazione di una grandezza fisica Esito: un particolare risultato dell esperimento Lancio del dado Estrazioni del lotto Lancio moneta Evento: un insieme di risultati dell esperimento. «Numeri pari estrazioni del lotto» «Persone di altezza tra 1,5 e 2,0 metri» «Reddito tra 10.000 e 20.000 euro» «Almeno due teste nel lancio di una moneta tre volte» 3
Come si calcola la probabilità di un evento? Esperimento casuale: lancio di un dado. Evento: uscita di un numero pari Casi possibili: 1,2,3,4,5,6 Casi favorevoli: 2,4,6 3 6 Esperimento casuale: selezione di una persona con peso tra (50;60] da un collettivo così suddiviso: Peso Freq. 15 15 Ass. 68 68 [40;50] 10 Esperimento casuale: all indagine effettuata presso il Liceo Galilei, hanno partecipato 163 studenti di cui 91 Maschi. Scelto a caso un questionario, qual è la probabilità che sia stato compilato da un maschio? (50;60] 15 (60;70] 23 (70;80] 12 (80;90] 8 91 163 91 163 Regole del calcolo delle probabilità Unione di eventi disgiunti: Complementare di eventi: A B A Esempio: Una macchina per la produzione di buste di vegetali contiene un mix di fagioli, broccoli e altri vegetali. La maggior parte dei prodotti è imbustata correttamente, ma a causa della variazione della taglia dei vegetali la busta può essere sovrappeso o sottopeso. Un controllo su 4000 buste ha riportato le seguenti valutazioni: Peso No. Di pacchi Sottopeso 100 Soddisfacente 3.600 Sovrappeso 300 Qual è la probabilità che una busta scelta a caso tra le 4000 non soddisfi le specifiche richieste? 100300 4000 Peso A B C Qual è la probabilità che la busta selezionata non sia sottopeso? 1 1 100 4000 4
Il problema di Monty Hill nel film 21 Se e quanto l acquisizione di informazioni sull esperimento modifica le nostre valutazioni probabilistiche? Il testardo: : Vuoi cambiare? nodo decisionale Il problema di Monty Hill nel film 21 Se e quanto l acquisizione di informazioni sull esperimento modifica le nostre valutazioni probabilistiche? Il testardo: : 1 33%=perdi nodo decisionale Primo scenario 5
Il problema di Monty Hill nel film 21 Se e quanto l acquisizione di informazioni sull esperimento modifica le nostre valutazioni probabilistiche? Il testardo: : nodo decisionale 1 33%=perdi 33%=perdi 3 Secondo scenario Il problema di Monty Hill nel film 21 Se e quanto l acquisizione di informazioni sull esperimento modifica le nostre valutazioni probabilistiche? Il testardo: : nodo decisionale 1 33%=perdi 33%=perdi 3 33%=vinci Terzo scenario 6
Il problema di Monty Hill nel film 21 Se e quanto l acquisizione di informazioni sull esperimento modifica le nostre valutazioni probabilistiche? Non sei testardo: : 1! 2 33%=Vinci nodo decisionale Primo scenario Il problema di Monty Hill nel film 21 Se e quanto l acquisizione di informazioni sull esperimento modifica le nostre valutazioni probabilistiche? Non sei testardo: : 1! 2 33%=Vinci 3! 2 33%=Vinci nodo decisionale Secondo scenario 7
Il problema di Monty Hill nel film 21 Se e quanto l acquisizione di informazioni sull esperimento modifica le nostre valutazioni probabilistiche? Non sei testardo: : 1! 2 33%=Vinci 3! 2 33%=Vinci nodo decisionale 2! 1 1! 2 33%=Perdi Terzo scenario Unione di eventi: Regole del calcolo delle probabilità A B Probabilità congiunta Esempio:Riprendendo l esempio del questionario degli studenti del liceo Galilei, scelto un questionario a caso determinare la probabilità che lo studente che ha risposto sia maschio oppure porta gli occhiali. Occhiali Genere Occhiali NO Occhiali SI Maschi 62 29 Femmine 31 41 "#$%& %& è &!( $ &)" * "#$%& %& è &!( $!%& )%! +( )(" 91 163 * 70 163 * 29 163 8
Probabilità condizionata Si lancino due dadi distinguibili. Casi possibili:!!% Evento:«uscita di una coppia di risultati la cui somma è 8» Casi favorevoli: A= 2,6 ; 3,5 ; 4,4 ; 5,3 ; 6,2 5 36 Se un dado, ad esempio quello bianco, si ferma prima di quello rosso e mostra la faccia 5, qual è ora la probabilità di totalizzare 8? L insieme dei casi possibili è ora cambiato. 6 Anche l insieme dei casi favorevoli è cambiato. =1 1 6 L evento «il dado bianco mostra la faccia 5» condiziona l evento «uscita di una coppia di risultati la cui somma è 8». Si definisce probabilità condizionata di un evento A dato l evento B il seguente rapporto: * * Regola della moltiplicazione: /*0 * * /*0 Quando si verifica l evento B, l insieme dei casi possibili si riduce * * * * L evento Asi riduce * * * /*0 1 36 6 36 A B * = nuovo spazio campione 9
Esempio: Una azienda decide di effettuare un sondaggio circa la fedeltà dei propri dipendenti. Ad un campione casuale viene chiesto cosa sceglierebbe se un altra compagnia proponesse un impiego di pari guadagno o leggermente superiore. L intento della azienda è capire se la risposta dipende dal numero di anni di servizio maturati. < 1 anno Da 1 a 5 anni Da 6 a 10 anni > 10 anni Totale Rimangono 10 30 5 75 120 Vanno via 25 15 10 30 80 Totale 35 45 15 105 200 Rimangono Vanno via 1202 200 802 200 Meno di 1 anno Da 1 a 5 anni Da 6 a 10 anni Più di 10 anni Meno di 1 anno Da 1 a 5 anni Da 6 a 10 anni Più di 10 anni 302 120 102 120 52 120 752 120 152 80 252 80 302 80 102 80 =P(«< 1anno» «Rimangono») =P(«1 a 5 anni» «Rimangono») =P(«6 a 10 anni» «Rimangono») =P(«>10 anni» «Rimangono») Regola della moltiplicazione * * /*0 P(«Rimangono») P(«Vanno via») Meno di 1 anno P(«< 1anno» «Rimangono») Da 1 a 5 anni P(«1 a 5 anni» «Rimangono») Da 6 a 10 anni P(«6 a 10 anni» «Rimangono») Più di 10 anni P(«>10 anni» «Rimangono») Meno di 1 anno Da 1 a 5 anni Da 6 a 10 anni Più di 10 anni P(«>10 anni» «Rimangono») 3 P(«Rimangono») = P(«> 10 anni» «Rimangono») P(«Rimangono» «>10 anni») 3 P(«> 10 anni») = P(«Rimangono» «> 10 anni») Verifica: 10
Regola della moltiplicazione * * /*0 < 1 anno Da 1 a 5 anni Da 6 a 10 anni > 10 anni Totale Rimangono 10 30 5 75 120 Vanno via 25 15 10 30 80 Totale 35 45 15 105 200 P(«>10 anni» «Rimangono») 3 P(«Rimangono») = P(«> 10 anni» «Rimangono») P(«Rimangono» «>10 anni») 3P(«> 10 anni») = P(«Rimangono» «> 10 anni») Verifica: P(«>10 anni» «Rimangono») P(«Rimangono») = 4 75 120 P(«> 10 anni») = 45 44 44 P(«Rimangono» «>10 anni») = 65 45 Rimangono 1202 200 Vanno via 802 200 <1 anno Da 1 a 5 anni Da 6 a 10 anni > 10 anni Fedeltà all'azienda Restano < 1 anno Da 1 a 5 anni Da 6 a 10 anni > 10 anni Vanno via 102 120 302 120 752 120 252 80 302 80 0,375 52 120 152 80 102 80 4 4 3 4 44 = /"rimangono" ">1anno"0?4 3 4 = /"rimangono" "da 1 a 5"0 4 44 5 3 4 = /"rimangono" "da 6 a 10 "0 4 44 65 3 4 = /"rimangono" "A10 anni"0 4 44 0,05 0,15 0,03 0,125 0,15 0,075 0,15 0,05 0,05 0,025 < 1 anno 1-5 anni 6-10 anni > 10 anni 0,6 0,38 0,4 11
Il problema inverso Se si conoscono le probabilità sui singoli rami <1 anno Rimangono 0,286 Vanno via 0,714 0,175 Rimangono 0,667 0,225 Da 1 a 5 anni Vanno via 0,333 0,075 Rimangono 0,333 Da 6 a 10 anni Vanno via 0,667 0,525 Rimangono 0,71 > 10 anni 0,05 Vanno via 0,29 0,15 calcolare la probabilità che un impiegato scelto a caso, abbia risposto che rimane nell azienda. 0,333 <1 anno Da 6 a 10 anni 0,286 Prob. che avrebbre questo evento se 0,71 lo spazio campione 0,667 Da 1 a 5 anni > 10 anni fosse l insieme rosso Il problema inverso Se si conoscono le probabilità sui singoli rami <1 anno Rimangono 0,286 Vanno via 0,714 0,175 Rimangono 0,667 0,225 Da 1 a 5 anni Vanno via 0,333 0,075 Rimangono 0,333 Da 6 a 10 anni Vanno via 0,667 0,525 Rimangono 0,71 > 10 anni 0,05 Vanno via 0,29 0,15 calcolare la probabilità che un impiegato scelto a caso, abbia risposto che rimane nell azienda. "rimangono" "rimangono" >"1 anno" 3/">1 anno"0+ "rimangono" >" 1 5 " 3/" 1 5 "0 + "rimangono" >" 6 10 " 3/" 6 10 "0+ "rimangono" >" A 10 anni " 3/"A10 "0 0,28630,1750,667 30,2250,333 30,0750,71 30,525 = 0,59 12
Teorema delle alternative Assegnati n eventi *,*,,* C tali che E * E e* E * F risulta H * E * E E Media pesata delle 0,15 probabilità condizionate * * *? * E * E * E * I "rimangono" "rimangono" >"1 anno" 3/">1 anno"0+ "rimangono" >" 1 5 " 3/" 1 5 "0 + "rimangono" >" 6 10 " 3/" 6 10 "0+ "rimangono" >" A 10 anni " 3/"A10 "0 0,28630,1750,667 30,2250,333 30,0750,71 30,525 = 0,59 Eventi indipendenti Due eventi A e B si dicono indipendenti se * Esempio: Da una scatola di 10 pellicole fotografiche vengono estratte 2 pellicole a caso. Qual è la probabilità che entrambe siano difettose, sapendo che nella scatola ci sono 3 pellicole difettose? J "!!%((( %& L%&" J "&%!%((( %& L%&" J J J J J = K? 4 Esempio: Da una scatola di 100 pellicole fotografiche vengono estratte 2 pellicole a caso. Qual è la probabilità che entrambe siano difettose, sapendo che nella scatola ci sono 3 pellicole difettose? Cosa cambia nella risposta rispetto al caso precedente? J J J J J 0,0330,03 Indipendenza stocastica: lancio di due monete, lancio di due dadi, etc Indipendenza statistica: quando si effettuano estrazioni da un collettivo molto numeroso 13
Se ad ogni estrazione, la pallina viene rimessa nell urna la composizione dell urna non cambia Popolazione infinita Eventi indipendenti Se ad ogni estrazione, la pallina non viene rimessa nell urna la composizione dell urna cambia e dopo 90 estrazioni, il procedimento termina. Popolazione finita L esito di ogni estrazione dipende da quelli precedenti. Eventi dipendenti M M1 M +( %((!!(N% +( %(!% Fattore di correzione da una popolazione finita. Se il fattore di correzione è circa 1, allora le due estrazioni possono ritenersi equivalenti e l indipendenza è spesso usata per calcolare probabilità congiunte. Esempio: Da un urna contenente 10 palline rosse e 5 blue, si estraggono tre palline. Qual è la probabilità che tutte e tre le palline estratte siano rosse? Estrazione con reimmissione =/J )/J ) J? =0,5 0,5 0,5 /J J J? ) Estrazione senza reimmissione J J J? J? J J J J (J ) 3 8 34 9 3 5 10 32 13 52 15 102 15 42 14 * J 102 14 52 14 * J * *? *? J? 42 13 9 13 J? 2 *? J? 102 13 92 13 42 13 Qual è la probabilità che alla terza estrazione, la pallina sia rossa? 92 14 J *? 52 13 J? 82 13 14
Teorema di Bayes «A partire da una serie di dati già in nostro possesso possiamo formulare un ipotesi; collezionando sempre nuovi dati possiamo continuamente aumentare (o rivedere) il grado di bontà delle nostre ipotesi» Reverendo Thomas Bayes(1750) Logico e teologo Teorema di Bayes La percentuale di studenti iscritti al secondo anno di economia che frequenta il corso di statistica è 90%. Tra questi, il 90% supera l esame. Supponendo inoltre che la percentuale di studenti che non supera l esame tra quelli che non frequentano è del 12% si calcoli: a) qual è la % di studenti che non supera l esame tra quelli che frequentano il corso; b) qual è la % di studenti che non frequentano, tra quelli che si ipotizza non superanno l esame. 90% Supera l esame 0 * 0,10 90% 10% Non supera l esame Frequenta *? 88% Supera l esame 10% Non frequenta * &$%% &%( & &$!% ( O %&% &$%% &%( & L%#$% ( & * * * 12% Non supera l esame * = * /*0 = P Q R P/R0 P/Q0 * /0 * * 4,434,K4 4,434,K4S4, 34,4 15
Un po di terminologia Il teorema di Bayes noto l effetto B, valuta la probabilità che la causa sia stata A. /0 * /*0 probabilità a priori (o verosimiglianza) La probabilità dell evento A senza conoscere l effetto B probabilità aposteriori La probabilità dell evento A avendo riconosciuto l effetto B Costante di normalizzazione Applicazioni di metodi bayesiani: filtri anti-spamming medicina e biologia ingegneria finanza scienza forense intelligenza artificiale: reti bayesiane(presenti in Windows dalla versione 98) motori di ricerca: Google «We can t hire smart people fast enough» Il punto di vista frequentista La probabilità si calcola sul lungo periodo C è un modello vero che genera i dati e i dati ne sono una rappresentazione E possibile calcolarela probabilità che i dati si verifichino in base al modello che si ritiene vero Ogni esperimento va fatto in condizioni di non conoscenza del modello vero Il punto di vista bayesiano La probabilità è un grado di fiducia I dati sono veri/fissati. I modelli hanno delle probabilità. E possibile calcolarela probabilità di un modello (ipotesi) in base ai dati osservati Le probabilità possono essere aggiornate via via che si acquisiscono i dati 16
0,667 Da 1 a 5 anni Teorema di Bayes Si assuma di aver selezionato un impiegato a caso, e che questo impiegato ha risposto che rimarrebbe comunque in azienda. Qual è la probabilità che lavori in quella azienda da 6 a 10 anni? 0,286 0,175 0,333 <1 anno Da 6 a 10 anni 0,075 0,71 Bisogna calcolare 0,225 "da 6 a 10 anni" "rimangono" > 10 anni Si conosce "rimangono" "da 6 a 10 anni" = 0,333 "da 6 a 10 anni" 0,286 0,525 P "TU V U 4 UCCE" "WEXUCYZCZ" "da 6 a 10 anni" "rimangono" = P/"WEXUCYZCZ"0 Calcolata P "rimangono" "da 6 a 10 anni" P("da 6 a 10 anni") 4,???34, [V precedentemente = = P/"rimangono"0 4,5K? Si ha la seguente situazione: - l'1% della popolazione ha una certa malattia rara; - un test diagnostico rivela la presenza della malattia all'80% (sensibilità); - il test diagnostico ha il 90,4% di specificità (negativo su pazienti sani). Supponiamo di essere risultati positivi al test. Qual è la probabilità che siamo malati? M S 0,01 0,99 Teorema di Bayes Test positivo Test negativo Test positivo Test negativo 0,80 0,20 0,096 0,904 ( %&!&\0 %&!&\ ( /(0 /%&!&\0 %&!&\ %&!&\ (0 ( %&!&\ &0 & = 0,80 0,01+ 0,096 0,99 = 0,008 + 0,09504 ( %&!&\0 4,[434,4 4,4?4I =0,07764 17
Più in generale, indicata con! la percentuale di malati (prevalenza), si ottiene: ( %&!&\0 0,803! 0,803!0,0963/1!0 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,1 0,11 0,12 0,13 0,14 0,15 0,16 0,17 0,18 0,19 0,2 0,21 0,22 0,23 0,24 0,25! ( %&!&\0 A volte è sufficiente stabilire delle semplici disuguaglianze. Per quale livello di prevalenza della malattia la probabilità finale ( %&!&\0 risulterà maggioredi una certasoglia? 0,803! 0,803!0,0963/1!0 A0,5!A0,048 0,448 0,11 Porta 1 = Non vinci M Porta 2 = Vinci Porta 3 = Non vinci nodo decisionale ] Il problema di Monty Hill nel film 21 Porta 1 = Vinci Porta 2 = Non vinci Porta 3 = Vinci Cambi Non Cambi Totale Vinci 2 1 3 Non Vinci 1 2 3 Totale 3 3 6 ^ \ ^ \ C ] Distribuzione congiunta Cambi Non cambi Totale Cambi Non cambi Totale Vinci 33% 17% 50% Vinci ^ ] ^ ] ^ Non Vinci 17% 33% 50% Non Vinci ^ ] ^ ] ^ Totale 50% 50% 100% Totale ] ] ^ ^ ] ] ^ ] /] 0 Distribuzione condizionata Cambi Non cambi Cambi Non Cambi Vinci ^ ] ^ ] Non Vinci ^ ] ^ ] Vinci 0,33/0,5 100=66% 0,17/0,5 100=34% Non Vinci 0,17/0,5 100=34% 0,33/0,5 100=66% Totale 100% 100% 18
^ ^ ] ] ^ ] /] 0 Se decidi di cambiare lanciando una moneta (onesta) Posto! /]0 e ` /^0 si ha Distribuzione condizionata Cambi Non cambi Vinci 0,33/0,5 100=66% 0,17/0,5 100=34% Non Vinci 0,17/0,5 100=34% 0,33/0,5 100=66% Totale 100% 100% ` 0,663!0,343 1! 0,323!0,34 0,7 ` /^0 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1! /]0 Il problema di Monty Hill(Altro punto di vista) M1= ) %! 1 M2= ) %! 2 M3= ) %! 3 a1 a2 a3 1/3 * &%+( (! 1 % (!%&%%!%! 3 * a1 0,5 * a2 1 * a3 0 * 0,5 Può aprire una delle due porte non scelte da te /a1 *0 * a1 /a10 /*0 4,534,??? 0,34 4,5 /a2 *0 P Q c P/c 0 = 34,??? 0,66 P/Q0 4,5 Conviene cambiare. 19