Punto a) Determinare la distribuzione congiunta della tabella. Colesterolo Disturbi cardiaci totale A lato è riportata la distribuzione congiunta <219 20 553 573 delle frequenze assolute. Rapportando 220-259 31 439 470 le frequenze assolute alla taglia, ho ottenuto >259 41 245 286 la distribuzione congiunta delle frequenze totale 92 1237 1329 relative. Dist. Cong. Freq. Relative: Colesterolo Disturbi cardiaci totale <219 0,015 0,416 0,4311551 220-259 0,02 0,33 0,353649 >259 0,03 0,18 0,215199 totale 0,069224 0,930775 1,00 Punto b) Distribuzione condizionata ("disturbi cardiaci" "colesterolo"): Per calcolare la distribuzione condizionata sotto riportata, ho rapportato le marginali di riga del carattere "colesterolo" per il totale delle marginali di riga: Colesterolo Disturbi cardiaci totale <219 0,0348 0,967 1,00 Ad esempio: 0,0348= 0,015/0,43 220-259 0,056 0,933 1,00 >259 0,139 0,8558 1,00 Punto c) costruzione del mosaic plot. Per la costruzione del mosaic plot, (che mi fornisce informazioni in merito all'indipendenza dei caratteri esaminati e mi consente di rappresentare graficamente la distribuzione condizionata), prima di tutto ho costruito un quadrato di lato 1; al passo successivo l'ho suddiviso in 3 parti in base alla marginale "colesterolo" e infine ho ulteriormente suddiviso le 3 partizioni in base alle frequenze della distribuzione condizionata. 0,0348 0,056 0,139 0,967 0,933 0,8558 < 219 220-259 >259 0,43 0,35 0,215 Punto d) Per stabilire se tra i due caratteri esiste un legame associativo, ho calcolato l'indice di connessione di
Cramer. Risoluzione esercizio 4 Distribuzione frequenze relative se indipendenti: verifico che le frequenze relative congiunte siano il prodotto delle frequenze relative marginali, per riconoscere se le due variabili sono indipendenti. Colesterolo Disturbi cardiaci totale Colesterolo Disturbi cardiaci <219 0,431151*0,06922 4=0,029845996 0,431151*0,9307 75= 0,401304572 0,43115 <219 0,029845996* 1329=39,67 533,33 220-259 0,353649*0,06922 4=0,024480998 0,353649*0,9307 75 =0,329167648 0,35 220-259 32,535 437,46 0,215199*0,06922 4 =0,014896935 >259 totale 0,069 0,93 0,215199*0,9307 75=0,200301849 0,21 >259 19,8 266,2 I valori ottenuti nella tabella a sinistra, vanno moltiplicati per la taglia (1329), al fine di ottenere le frequenze assolute se indipendenti (nij) Al passo successivo è necessario innanzitutto fare la differenza tra la tabella delle frequenze assolute e quella delle frequenze assolute se indipendenti, al fine di poter studiare la connessione tra i due caratteri: Distrib. Congiunta freq. Assolute Dist. Congiunta freq. Assolute se indipendenti Colesterolo Disturbi cardiaci totale Colesterolo Disturbi cardiaci 0,029845996* 1329=39,67 533,33 <219 20 553 573 <219 220-259 31 439 470 220-259 32,535 437,46 >259 41 245 286 >259 19,8 266,2 totale 92 1237 1329 Colesterolo Disturbi cardiaci <219-19,67 19,67 220-259 -1,54 1,54 >259 21,2-21,2 E'importante che la somma dei valori sulle righe e sulle colonne faccia zero La tabella ottenuta deve essere normalizzata dividendo ciascun valore per le frequenze assolute se indipendenti (ottenendo così: Cij). Colesterolo Disturbi cardiaci Ultimo passaggio prima di calcolare l'indice di <219-0,4958 0,03688 connessione è quello di elevare al quadrato e 220-259 -0,047 0,0035 moltiplicare per le frequenze assolute se indipendenti i >259 1,07-0,0796 valori ottenuti. (Ottenendo così: Cij^2 * nij)
Colesterolo Disturbi cardiaci <219 9,75 0,7254 220-259 0,0718 0,0053 >259 22,669 1,6866 Cr*= [ cij * nij]/[n*min(r-1,s-1)] Dall'indice calcolato si evince un moderato livello di connessione tra i due caratteri. Cr*= (34,91/1329*1)=0,16 Punto e) Per il calcolo delle probabilità richieste dalla traccia, ho costruito il diagramma ad albero: 0,43 "<219" "DIST. SI" 0,0348 P("DIST SI" "<219") "DIST. NO" 0,967 P("DIST NO" "<219") 0,35 "DIST. SI" 0,056 P("DIST SI" "220-259") "220-259" "DIST NO" 0,933 P("DIST NO" "220-259") 0,215 ">259" "DIST. SI" 0,139 P("DIST SI" ">259") "DIST. NO" 0,8558 P("DIST NO" ">259") Considerando normali valori del colesterolo compresi tra [220;259], ho calcolato la probabilità che scelto a caso un paziente, questo abbia un valore del colesterolo non-normale: P("<219"U">259")= P("<219")+P(">259")= 0,43+0,215= 0,645 Punto f) Probabilità che scelto a caso un soggetto, questo, sia sano; ossia non soffra di disturbi cardiaci né di valori anomali del colesterolo. P("DIST. NO" П "220-259") = P("DIST. NO" "220-259")*P("220-259")= 0,933*0,35 = 0,32655 Punto g) Probabilità che un soggetto scelto a caso soffra di colesterolo alto e non soffra di disturbi cardiaci: P("DIST. NO" П ">259") = P("DIST. NO" ">259")*P(">259")= 0,8558*0,215=0,1839 Punto h) Probabilità che un soggetto scelto a caso soffra di colesterolo alto se non soffre di disturbi cardiaci.
P(">259 "DIST. NO")= P(">259"П "DIST.NO") P("DIST.NO") Al numeratore ho utilizzato la probabilità dell'intersezione, mentre al denominatore ho applicato il teorema delle alternative: P(A B)= P(A Bi)*P(Bi). Teorema delle alternative P("DIST. NO")= P("DIST.NO" "<219")*P("<219")+P("DIST.NO" "220-259")*P("220-259")+ P("DIST.NO" ">259")*P(">259")= 0,43 "<219" "DIST. SI" 0,0348 P("DIST SI" "<219") "DIST. NO" 0,967 P("DIST NO" "<219") 0,35 "DIST. SI" 0,056 P("DIST SI" "220-259") "220-259" "DIST NO" 0,933 P("DIST NO" "220-259") 0,215 ">259" "DIST. SI" 0,139 P("DIST SI" ">259") "DIST. NO" 0,8558 P("DIST NO" ">259") P("DIST. NO")= (0,967*0,43)+(0,933*0,35)+(0,8558*0,215)= 0,93 In definitiva: 0,1839 P(">259 "DIST. NO")= 0,1978 0,93 Punto i) Probabilità che un soggetto non soffra di disturbi cardiaci se soffre di colesterolo alto. P("DIST. NO" ">259")= [P("DIST. NO"П ">259")/P(">259")] = 0,1839/0,215 = 0,855 Punto j) Tra i livelli di colesterolo, qual è la causa più probabile di disturbi cardiaci? Per rispondere a tale quesito, ho deciso di applicare il Teorema di Bayes secondo cui: individuato l'effetto "B", si valuta la probabilità che la causa sia stata "A". Secondo l'approccio bayesiano: P(A B)=] P(B A)*P(A)] / P(B) 0,43 "<219" "DIST. SI" 0,0348 P("DIST SI" "<219") "DIST. NO" 0,967 P("DIST NO" "<219") 0,35 "DIST. SI" 0,056 P("DIST SI" "220-259") "220-259" "DIST NO" 0,933 P("DIST NO" "220-259") 0,215 ">259" "DIST. SI" 0,139 P("DIST SI" ">259") "DIST. NO" 0,8558 P("DIST NO" ">259")
Qual è la probabilità che la causa dei disturbi cardiaci sia il colesterolo "<219"? P("<219" "DIST. SI")= P("DIST.SI" "<219")*P("<219") P("DIST.SI") Teorema delle alternative P("<219" "DIST. SI")= 0,0348*0,43 (0,0348*0,43)+(0,056*0,35)+(0,139*0,215) P("<219" "DIST. SI")= 0,23 Nel 23% dei casi il colesterolo basso, causa disturbi cardiaci. Qual è la probabilità che la causa dei disturbi cardiaci sia il colesterolo per valori compresi tra: 220 e 259? P("220-259" "DIST.SI")= P("220-259" "DIST.SI")= P("DIST.SI" "220-259")*P("220-259") P("DIST.SI") 0,056*0,35 cardiaci. P("220-259" "DIST.SI")= 0,3 0,064449 Nel 30% dei casi, il colesterolo compreso tra 220 e 259, causa disturbi Qual è la probabilità che la causa dei disturbi cardiaci sia il colesterolo per valori superiori a 259? P(">259" "DIST.SI")= P(">259" "DIST.SI")= P("DIST.SI" ">259")*P(">259") P("DIST.SI") 0,139*0,215 0,064449 P(">259" "DIST.SI")= 0,46 Nel 46% dei casi il colest. Alto causa disturbi cardiaci. In definitiva osservando le tre diverse probabilità ottenute possiamo dedurre che: è il colesterolo alto, (ossia ">259"), la causa più probabile dei disturbi cardiaci.
o ottenuto Risoluzione esercizio 4