Risoluzione esercizio 4 Esercitazione 3



Documenti analoghi
Analisi dell associazione tra due caratteri

Metodi statistici per le ricerche di mercato

Dipartimento di Matematica, Informatica ed Economia (DiMIE) Statistica. Antonio Azzollini

Fonti e strumenti statistici per la comunicazione

Analisi bivariata. Il caso di caratteri qualitativi

Dispense Associazione PRELIMINARY DRAFT

Dipartimento di Sociologia e Ricerca Sociale. Corso di Laurea in Sociologia. Insegnamento di Statistica (a.a ) dott.ssa Gaia Bertarelli

Risoluzione esercizio n 8. Distribuzione comuni Valle D'Aosta.

STATISTICA. Esonero 8 novembre 2014 Soluzione. Quesito 1.

Analisi congiunta di più fenomeni

Lezione 8. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 8. A. Iodice. Relazioni tra variabili

Y M F Calcolare X e darne un adeguata interpretazione;

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

STATISTICA. Esonero 8 novembre 2014 Soluzione. Quesito 1.

Esercizio 1. Si rilevano le variabili età, altezza e peso di 18 pazienti:

Relazioni Statistiche

Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010.

Statistica. Alfonso Iodice D Enza

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

2 + 4 x 4 ) Soluzione Occorre calcolare l integrale della somma di più funzioni. Applichiamo il teorema di linearità, in base al quale si ha: dx =

Esercitazioni di Statistica

Stesso valore medio per distribuzioni diverse

Statistica Corso Base (Serale) Dott.ssa Cristina Mollica

Modelli descrittivi, statistica e simulazione

Statistica Compito A

Analisi bivariata Il caso di caratteri qualitativi

normopeso <=25 sovrappeso obesità I obesità II obesità III >=40

Disequazioni - ulteriori esercizi proposti 1

Lezione 2 Corso di Statistica. Domenico Cucina

Facoltà di ECONOMIA Università di Pavia 26 Aprile 2006 Prova scritta di Analisi dei dati

Anno 4 Matrice inversa

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

CORSO DI LAUREA IN MATEMATICA ESERCIZI SUI LIMITI 2

Istituzioni di Statistica 1 Esercizi su tabelle di contingenza

Prova scritta di STATISTICA. CDL Biotecnologie. (Programma di Massimo Cristallo - A)

Esercitazioni del corso: RELAZIONI TRA VARIABILI

Statistica bivariata Relazione tra variabili

Lezione 5 Corso di Statistica. Francesco Lagona

Fonti e strumenti statistici per la Comunicazione

Esercitazioni di statistica

Dipartimento di Matematica, Informatica ed Economia (DiMIE) Statistica. Antonio Azzollini

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Nuovi scenari per la matematica Salerno 29/08/2012.

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione

Stesso valore medio per distribuzioni diverse

Metodi statistici per le ricerche di mercato

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

Statistica. Esercitazione 3 9 maggio 2012 Coefficiente di variazione. Serie storiche. Connessione e indipendenza statistica

Statistica. Alfonso Iodice D Enza

Generazione di Numeri Casuali- Parte 2

Argomento 13 Sistemi lineari

Esercitazione III Soluzione

Analisi economica NUTS (regioni) Europee

STATISTICA AZIENDALE Modulo Controllo di Qualità

ANALISI STATISTICHE BIVARIATE. Tabelle di contingenza

La statistica descrittiva seconda parte. a cura della prof.ssa Anna Rita Valente

Esercizio 2 Si consideri l esperimento avente come risultati possibili i numeri 1, 2, 3, 4, 5 di probabilità rispettivamente 0.2, 0.4, 0.1, 0.1, 0.2.

STATISTICA 1 ESERCITAZIONE 6

Lezione 5 Corso di Statistica. Domenico Cucina

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Statistica Corso di laurea in Biotecnologie I esonero - 19 aprile 2010

Distribuzioni Doppie e Relazioni tra Variabili Esercitazione n 03

Casa dello Studente. Casa dello Studente

REGRESSIONE E CORRELAZIONE

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

Distribuzioni Statistiche e Medie Esercitazione n 01

Statistica. Alfonso Iodice D Enza

La domanda che ci si deve porre innanzitutto per iniziare a risolvere questa disequazione è la seguente:

Insiemistica. Capitolo 1. Prerequisiti. Obiettivi. Gli insiemi numerici di base Divisibilità e fattorizzazione nei numeri interi

Classificazione Bayesiana

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Ragionamento numerico, critico-numerico e numerico-deduttivo

Correlazione e regressione per problemi di Luciano Corso

UNITÀ DIDATTICA 5 LA RETTA

Range interquartile. Calcolare e interpretare Range interquartile

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

SOLUZIONI PROVA SCRITTA DI STATISTICA (cod. 4038, 5047, 371, 377) 8 settembre 2005

INTRODUZIONE. TaleproceduravasottoilnomediteoremadiBayes.

Università degli Studi di Padova Facoltà di Scienze Statistiche, CL. in Astronomia

materiale didattico II incontro

Statistica dei consumi alimentari e delle tendenze nutrizionali Lezione 6-16/10/2015

Istituzioni di Statistica 1 Esercizi su strumenti grafici e funzione di frequenza relativa cumulata

Anno scolastico 2015/2016 PROGRAMMA SVOLTO. Docente: Catini Romina. Materie: Matematica. Classe : 4 L Indirizzo Scientifico Scienze Applicate

2x 5y +4z = 3 x 2y + z =5 x 4y +6z = A =

Facoltà di Scienze Politiche Corso di laurea in Servizio sociale. Compito di Statistica del 7/1/2003

Inferenza statistica

Premessa. retta orientata diseguaglianze diverso intervallo di estremi a e b 1) a < x < b aperto N.B.: 2) a x b chiuso N.B.: 3) a x < b semichiuso

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Argomento 13 Sistemi lineari

Dati relativi a 25 clienti di un azienda che vende Fondi di investimento

1.1 Obiettivi della statistica Struttura del testo 2

Esercizi di statistica

Statistica Descrittiva Soluzioni 8. Dipendenza

8a. Teorema di Bayes, rapporto di verosimiglianza (likelihood ratio, LR) e odds

La Dipendenza. Monia Ranalli. Ranalli M. Dipendenza Settimana # 3 1 / 19

ˆp(1 ˆp) n 1 +n 2 totale di successi considerando i due gruppi come fossero uno solo e si costruisce z come segue ˆp 1 ˆp 2. n 1

Corso di Laurea in MQEGA

ESERCITAZIONI N. 2 corso di statistica

Transcript:

Punto a) Determinare la distribuzione congiunta della tabella. Colesterolo Disturbi cardiaci totale A lato è riportata la distribuzione congiunta <219 20 553 573 delle frequenze assolute. Rapportando 220-259 31 439 470 le frequenze assolute alla taglia, ho ottenuto >259 41 245 286 la distribuzione congiunta delle frequenze totale 92 1237 1329 relative. Dist. Cong. Freq. Relative: Colesterolo Disturbi cardiaci totale <219 0,015 0,416 0,4311551 220-259 0,02 0,33 0,353649 >259 0,03 0,18 0,215199 totale 0,069224 0,930775 1,00 Punto b) Distribuzione condizionata ("disturbi cardiaci" "colesterolo"): Per calcolare la distribuzione condizionata sotto riportata, ho rapportato le marginali di riga del carattere "colesterolo" per il totale delle marginali di riga: Colesterolo Disturbi cardiaci totale <219 0,0348 0,967 1,00 Ad esempio: 0,0348= 0,015/0,43 220-259 0,056 0,933 1,00 >259 0,139 0,8558 1,00 Punto c) costruzione del mosaic plot. Per la costruzione del mosaic plot, (che mi fornisce informazioni in merito all'indipendenza dei caratteri esaminati e mi consente di rappresentare graficamente la distribuzione condizionata), prima di tutto ho costruito un quadrato di lato 1; al passo successivo l'ho suddiviso in 3 parti in base alla marginale "colesterolo" e infine ho ulteriormente suddiviso le 3 partizioni in base alle frequenze della distribuzione condizionata. 0,0348 0,056 0,139 0,967 0,933 0,8558 < 219 220-259 >259 0,43 0,35 0,215 Punto d) Per stabilire se tra i due caratteri esiste un legame associativo, ho calcolato l'indice di connessione di

Cramer. Risoluzione esercizio 4 Distribuzione frequenze relative se indipendenti: verifico che le frequenze relative congiunte siano il prodotto delle frequenze relative marginali, per riconoscere se le due variabili sono indipendenti. Colesterolo Disturbi cardiaci totale Colesterolo Disturbi cardiaci <219 0,431151*0,06922 4=0,029845996 0,431151*0,9307 75= 0,401304572 0,43115 <219 0,029845996* 1329=39,67 533,33 220-259 0,353649*0,06922 4=0,024480998 0,353649*0,9307 75 =0,329167648 0,35 220-259 32,535 437,46 0,215199*0,06922 4 =0,014896935 >259 totale 0,069 0,93 0,215199*0,9307 75=0,200301849 0,21 >259 19,8 266,2 I valori ottenuti nella tabella a sinistra, vanno moltiplicati per la taglia (1329), al fine di ottenere le frequenze assolute se indipendenti (nij) Al passo successivo è necessario innanzitutto fare la differenza tra la tabella delle frequenze assolute e quella delle frequenze assolute se indipendenti, al fine di poter studiare la connessione tra i due caratteri: Distrib. Congiunta freq. Assolute Dist. Congiunta freq. Assolute se indipendenti Colesterolo Disturbi cardiaci totale Colesterolo Disturbi cardiaci 0,029845996* 1329=39,67 533,33 <219 20 553 573 <219 220-259 31 439 470 220-259 32,535 437,46 >259 41 245 286 >259 19,8 266,2 totale 92 1237 1329 Colesterolo Disturbi cardiaci <219-19,67 19,67 220-259 -1,54 1,54 >259 21,2-21,2 E'importante che la somma dei valori sulle righe e sulle colonne faccia zero La tabella ottenuta deve essere normalizzata dividendo ciascun valore per le frequenze assolute se indipendenti (ottenendo così: Cij). Colesterolo Disturbi cardiaci Ultimo passaggio prima di calcolare l'indice di <219-0,4958 0,03688 connessione è quello di elevare al quadrato e 220-259 -0,047 0,0035 moltiplicare per le frequenze assolute se indipendenti i >259 1,07-0,0796 valori ottenuti. (Ottenendo così: Cij^2 * nij)

Colesterolo Disturbi cardiaci <219 9,75 0,7254 220-259 0,0718 0,0053 >259 22,669 1,6866 Cr*= [ cij * nij]/[n*min(r-1,s-1)] Dall'indice calcolato si evince un moderato livello di connessione tra i due caratteri. Cr*= (34,91/1329*1)=0,16 Punto e) Per il calcolo delle probabilità richieste dalla traccia, ho costruito il diagramma ad albero: 0,43 "<219" "DIST. SI" 0,0348 P("DIST SI" "<219") "DIST. NO" 0,967 P("DIST NO" "<219") 0,35 "DIST. SI" 0,056 P("DIST SI" "220-259") "220-259" "DIST NO" 0,933 P("DIST NO" "220-259") 0,215 ">259" "DIST. SI" 0,139 P("DIST SI" ">259") "DIST. NO" 0,8558 P("DIST NO" ">259") Considerando normali valori del colesterolo compresi tra [220;259], ho calcolato la probabilità che scelto a caso un paziente, questo abbia un valore del colesterolo non-normale: P("<219"U">259")= P("<219")+P(">259")= 0,43+0,215= 0,645 Punto f) Probabilità che scelto a caso un soggetto, questo, sia sano; ossia non soffra di disturbi cardiaci né di valori anomali del colesterolo. P("DIST. NO" П "220-259") = P("DIST. NO" "220-259")*P("220-259")= 0,933*0,35 = 0,32655 Punto g) Probabilità che un soggetto scelto a caso soffra di colesterolo alto e non soffra di disturbi cardiaci: P("DIST. NO" П ">259") = P("DIST. NO" ">259")*P(">259")= 0,8558*0,215=0,1839 Punto h) Probabilità che un soggetto scelto a caso soffra di colesterolo alto se non soffre di disturbi cardiaci.

P(">259 "DIST. NO")= P(">259"П "DIST.NO") P("DIST.NO") Al numeratore ho utilizzato la probabilità dell'intersezione, mentre al denominatore ho applicato il teorema delle alternative: P(A B)= P(A Bi)*P(Bi). Teorema delle alternative P("DIST. NO")= P("DIST.NO" "<219")*P("<219")+P("DIST.NO" "220-259")*P("220-259")+ P("DIST.NO" ">259")*P(">259")= 0,43 "<219" "DIST. SI" 0,0348 P("DIST SI" "<219") "DIST. NO" 0,967 P("DIST NO" "<219") 0,35 "DIST. SI" 0,056 P("DIST SI" "220-259") "220-259" "DIST NO" 0,933 P("DIST NO" "220-259") 0,215 ">259" "DIST. SI" 0,139 P("DIST SI" ">259") "DIST. NO" 0,8558 P("DIST NO" ">259") P("DIST. NO")= (0,967*0,43)+(0,933*0,35)+(0,8558*0,215)= 0,93 In definitiva: 0,1839 P(">259 "DIST. NO")= 0,1978 0,93 Punto i) Probabilità che un soggetto non soffra di disturbi cardiaci se soffre di colesterolo alto. P("DIST. NO" ">259")= [P("DIST. NO"П ">259")/P(">259")] = 0,1839/0,215 = 0,855 Punto j) Tra i livelli di colesterolo, qual è la causa più probabile di disturbi cardiaci? Per rispondere a tale quesito, ho deciso di applicare il Teorema di Bayes secondo cui: individuato l'effetto "B", si valuta la probabilità che la causa sia stata "A". Secondo l'approccio bayesiano: P(A B)=] P(B A)*P(A)] / P(B) 0,43 "<219" "DIST. SI" 0,0348 P("DIST SI" "<219") "DIST. NO" 0,967 P("DIST NO" "<219") 0,35 "DIST. SI" 0,056 P("DIST SI" "220-259") "220-259" "DIST NO" 0,933 P("DIST NO" "220-259") 0,215 ">259" "DIST. SI" 0,139 P("DIST SI" ">259") "DIST. NO" 0,8558 P("DIST NO" ">259")

Qual è la probabilità che la causa dei disturbi cardiaci sia il colesterolo "<219"? P("<219" "DIST. SI")= P("DIST.SI" "<219")*P("<219") P("DIST.SI") Teorema delle alternative P("<219" "DIST. SI")= 0,0348*0,43 (0,0348*0,43)+(0,056*0,35)+(0,139*0,215) P("<219" "DIST. SI")= 0,23 Nel 23% dei casi il colesterolo basso, causa disturbi cardiaci. Qual è la probabilità che la causa dei disturbi cardiaci sia il colesterolo per valori compresi tra: 220 e 259? P("220-259" "DIST.SI")= P("220-259" "DIST.SI")= P("DIST.SI" "220-259")*P("220-259") P("DIST.SI") 0,056*0,35 cardiaci. P("220-259" "DIST.SI")= 0,3 0,064449 Nel 30% dei casi, il colesterolo compreso tra 220 e 259, causa disturbi Qual è la probabilità che la causa dei disturbi cardiaci sia il colesterolo per valori superiori a 259? P(">259" "DIST.SI")= P(">259" "DIST.SI")= P("DIST.SI" ">259")*P(">259") P("DIST.SI") 0,139*0,215 0,064449 P(">259" "DIST.SI")= 0,46 Nel 46% dei casi il colest. Alto causa disturbi cardiaci. In definitiva osservando le tre diverse probabilità ottenute possiamo dedurre che: è il colesterolo alto, (ossia ">259"), la causa più probabile dei disturbi cardiaci.

o ottenuto Risoluzione esercizio 4