ESERCIZI DI STATISTICA RISOLTI Federico Emauele Pozzi Risolverò solo u compito itegralmete. Se avete domade sulla risoluzioe di specifici esercizi postate el forum, e le aggiugerò qui. Qui preseto solo i procedimeti, seza addetrarmi troppo ella teoria (che potete trovare elle dispese). 26 Febbraio 2014 A) Data la distribuzioe di frequeze della variabile durata della gestazioe i settimae sotto riportata: X f fx fx 2 1 37 11 407 15059 2 38 34 1292 49096 3 39 129 5031 196209 4 40 103 4120 164800 5 41 70 2870 117670 6 42 3 126 5292 TOTALI 350 13846 548126 Calcolare: Media Ds Mediaa 10 cetile rage IQ Soluzioe: f Media: i X i = 13846 350 =39.56 Deviazioe stadard: ci soo due modi per calcolarla (assolutamete equivaleti, dato che la formula del secodo modo è ricavabile dalla formula del primo) ( X i μ) 2 = 378,23 350 =1,04 X 2 i ( X i ) 2 = 13846 2 f 548126 i 350 =1,04 350 Perché è stato usato e o -1 ei deomiatori? Perché i questo caso abbiamo ua popolazioe e o u campioe; i dati ricavati soo oggetto di descrizioe, o base per fare ifereza. Mediaa: la mediaa è quel valore che divide la popolazioe i due metà el ostro caso ci sarao quidi 175 valori prima della mediaa e 175 dopo. Osserviamo che per creare ua tabella del geere, suppoedo che la variabile i esame sia cotiua (è u tempo ifatti, o è che tutte le madri partoriscoo a 37, 38, 39 ecc settimae ESATTE) abbiamo diviso i valori i CLASSI, utilizzado come riferimeto il valore cetrale della classe.
Le ostre classi sarao ovviamete della forma [36,5:37,5] [37,5:38,5] e così via. Il metodo da seguire è già stato spiegato ella parte teorica delle dispese ( 4.1), qui lo riporterò brevemete: Si crea la tabella delle frequeze cumulative di ciascua classe: Classe Frequeza cumulativa 36,5 37,5 0,031 37,5 38,5 0,129 38,5 39,5 0,497 39,5 40,5 0,791 40,5 41,5 0,991 41,5 42,5 1,000 Ricerchiamo la classe che cotiee il 50 cetile (cioè la mediaa). È la classe 39,5-40,5. Quidi applichiamo il metodo dei triagoli simili: Come possiamo vedere dal disego, i triagoli blu e rosso soo simili, pertato vale la relazioe scritta, che coduce alla formula C=LS +(LS + LS ) (0,500 F ) (F + F =39,5+(40,5 39,5)(0,500 0,497) ) (0,791 0,497) =39,51. Abbiamo usato l'approssimazioe lieare per la distribuzioe dei valori all'itero della classe (che tuttavia potevao ache seguire la curva verde tratteggiata tato per fare u esempio). Sostituedo 0,500 co qualsiasi valore di cetile possiamo ricavare il valore corrispodete, e così faremo per determiare i cetili quado abbiamo esercizi di STATISTICA DESCRITTIVA (quado cioè dobbiamo ricavare i cetili a partire dai dati e o dai modelli). 10 cetile: applichiamo il procedimeto appea usato: La classe di iterese è 37,5-38,5. La formula sarà C=37,5+(38,5 37,5) (0,100 0,031) (0,129 0,031) =38,2 Rage IQ: applichiamo il procedimeto appea usato per ricavare 25 e 75 cetile.
25 C=38,5+(39,5 38,5) (0,250 0,129) (0,497 0,129) =38,82 75 C =39,5+(40,5 39,5) (0,750 0,497) (0,791 0,497) =40,36 Per trovare il rage basta ora fare la differeza: 40,36-38,82=1,54 B) Per ua gaussiaa i cui ¼ dei valori cetrali soo compresi tra 170 e 180, calcolare: 1) μ, σ, 10 cetile, rage IQ, 95 cetile 2) Probabilità che: a) solo 1 di 8 valori estratti a caso sia compreso fra 170 e 180 b) più di 24 di 100 valori estratti a caso siao compresi tra 170 e 180 c) la media di 5 valori estratti a caso sia compresa tra 170 e 180 d) la differeza di 2 valori estratti a caso sia maggiore di 10 e) almeo 2 di 8 valori estratti a caso siao compresi tra 170 e 180 f) se il primo estratto o è compreso fra 170 e 180, lo sia il secodo 3) Numero miimo di valori da estrarre per avere probabilità almeo del 95% di osservare: g) almeo u valore compreso tra 170 e 180 h) che il miimo valore estratto sia iferiore e il massimo superiore a 180 Soluzioe: 1) La media è 175 (170 e 180 soo gli estremi di u itervallo di valori CENTRALI, quidi cetrato sulla media, che deve essere a metà strada tra i due estremi). La deviazioe stadard si calcola a partire dalla guassiaa stadard. Tra 175 e 180 ho il 12,5% di valori (ifatti è la metà dell'itervallo che cotiee ¼, cioè il 25%, dei valori); duque da 180 i poi ho il 37,5%. Ricavo lo z corrispodete dalla tabella vale circa 0,32. A questo puto sostituedo ella relazioe z= ( x μ) i σ ottego σ=(180 175)/0,32=15,62. Per calcolare il 10 cetile utilizziamo lo stesso procedimeto. Ricaviamo lo z corrispodete a 10 (1,282) dalla tabella dell'itegrale ormale degli errori. Poiché il 10 cetile è miore della media, la formula sarà 1,282= (x 175) 10 15,62 x 10 = 1,282 15,62+175=154,97. Per calcolare il rage iterquartile dovrò calcolare il 25 e il 75 cetile co il metodo appa visto (ricavado lo z corrispodete e osservado che ua volta lo dovrò predere positivo ed ua volta egativo); x 25 = 0,6745 15,62+175=164,46 x 75 =0,6745 15,62+175=185,53 Quidi, faccio la differeza tra i due valori: rage IQ=185,53-164,46=21,07 Per calcolare il 95 cetile farò la stessa cosa, trovado ovviamete lo z corrispodete a 5 (ifatti la tabella dell'itegrale ormale degli errori vi dà la probabilità SOPRA u certo valore). Ottego x 95 =1,645 15,62+175=200,69. 2) Divido la soluzioe per puti: a) I questo caso utilizzo la biomiale. La probabilità di successo è 0.25, i tetativi soo 8! 8 e i successi 1; di cosegueza P (1;8 ;0.25)= (8 1)! 1! 0,251 0,75 7 =0,27 b) I questo caso utilizzo l'approssimazioe gaussiaa della biomiale, co media π e deviazioe stadard π(1 π). Osservo che la media è 0,25x100=25 e la deviazioe stadard 4,33. Devo ricordarmi ora di utilizzare la correzioe per il cotiuo (siccome la variabile della
gaussiaa è cotiua, ma i successi soo discreti, devo utilizzare le classi); pertato, più di 24 successi sigifica da 24,5 i poi. Calcolo quidi lo z corrispodete a 24,5 come (24,5 25)/4,33= 0,115, cui corrispode ua probabilità dello 0,0438. Osserviamo che questa è la probabilità di osservare 24,5 o meo successi, pertato la probabilità che cercavamo è 1-0,4522=0,5478. c) Vedere il paragrafo sulla distribuzioe di campioameto di m per la teoria. Poiché la distribuzioe delle medie campioarie è gaussiaa itoro alla media della popolazioe (175), co deviazioe stadard pari all'errore stadard della media (calcolato come σ ), calcolo il valore di z corrispodete al rage idicato (170-180). Come potete vedere facilmete dal disego, il calcolo è z= 180 175 15,62 5 =0,71. Dalla tabella dell'itegrale ormale degli errori ricavo la probabilità corrispodete: 0,238. Questa è la probabilità a DESTRA di z=0,71. Quidi quella compresa tra la media e z=0,71 sarà 0,5-0,238=0,262; siccome la gaussiaa è simmetrica, l'area compresa tra due scarti di 0,71σ dalla media è 0,262x2=0,524. d) Il procedimeto è u po' laborioso. Teete presete che egli esami della sessioe 2014-2015 questo tipo di esercizi o ci sarà. Possiamo cosiderare il tipo di problema presetato come l'estrazioe di u campioe di due elemeti. Questo campioe avrà ua sua media m e ua sua variaza s 2. Ragioadoci u po' su, vi rederete coto che la differeza tra i due valori può essere riscritta come (maggiore-media)+(media-miore), come (maggiore-media)=-(mediamiore) per le proprietà della media. Pertato, dire che i valori estratti devoo avere ua differeza maggiore di 10 equivale a dire che (maggiore-media)+(media-miore)=10. Ciò comporta che maggiore-media=5, e media-miore=-5. Se la differeza tra i due valori fosse esattamete 10, la deviaza del campioe sarebbe 5 2 +5 2 =50 ; pertato, è chiaro che a oi iteressa trovare quato è probabile estrarre u campioe co ua deviaza MAGGIORE di 50 (o ua variaza s 2 maggiore di 50, dato che i questo caso si divide per -1=2-1=1). Cofrotate col paragrafo della teoria sulla distribuzioe di campioameto della variaza; ciò equivale a trovare la probabilità di osservare u chi quadro pari o maggiore di s 2 ( 1) σ 2 co -1 gradi di libertà. 1 Sostituedo i ostri valori il valore di chi quadro è 50 =0,204. Se ora 2 15,62 guardiamo la tabella del chi quadro osserviamo che a questo valore, per u grado di libertà, corrispode ua probabilità del 65%. e) Per calcolare questa probabilità basta fare riferimeto al puto a). Ifatti possiamo
vederla come 1-(probabilità 1 successo)-(probabilità 0 successi). La probabilità di 1 successo già la coosciamo, e vale 0,27; quella di 0 successi la calcoliamo i modo aalogo, e vale 0,10. Quidi la probabilità di otteere 2 o più successi è 1-0,37=0,63. f) I questo caso si applica la probabilità codizioata P(A B), co P(A)=0,25 e P(B)=0,75. Poiché i due eveti soo idipedeti, la loro itersezioe è vuota e la probabilità codizioata si riduce a P(A). Quidi P(A B)=0,25. 3) Divido per puti: g) Trovare il umero di tetativi per cui la probabilità di otteere almeo u successo el 95% dei casi equivale al trovare il umero di tetativi per cui la probabilità di o otteere emmeo u successo è del 5%. Poiché la probabilità di successo è dello 0.25, la probabilità di isuccesso è dello 0.75. Quidi vale la relazioe 0,75 <0,05, e per ricavare passiamo ai logaritmi: log 0,75<log 0,05, che dà >10,4. Pertato per osservare almeo u successo co ua probabilità del 95% dovremmo fare al miimo 11 estrazioi. h) 180 è il 62,5 cetile. Quidi u valore estratto a caso ha il 37,5% di probabilità di essere superiore e il 62,5% di probabilità di essere miore di 180. Se devo avere almeo il 95% di probabilità di osservare almeo u valore iferiore e almeo u valore superiore a 180 sigifica che la probabilità di osservare SOLO valori superiori a 180 sommata alla probabilità di osservare SOLO valori iferiori a 180 deve essere miore o uguale al 5%. Quidi potrò scrivere 0,625 +0,375 <0,05. I questo caso o posso applicare i logaritmi, perché compaioo somme tra espoeziali. Applicare il metodo di risoluzioe per sostituzioe o è efficace. Pertato, possiamo procedere i due modi: Per tetativi: provado co =2, =3, =4 ecc fiché la disequazioe o è soddisfatta (metodo triste). Per =7 otteiamo 0,038. Vediamo che 0,375 è piccolo, e già elevato alla secoda dà 0,14. Quidi questo termie tederà velocemete a 0 e possiamo trascurarlo. La disequazioe APPROSSIMATA diveta 0,625 <0,05, e possiamo usare i logaritmi; co log 0,625<log 0,05 otteiamo >6,37, quidi =7 come trovato col metodo precedete. C) L'efficacia di due trattameti A e B fu cofrotata radomizzado 250 paziti (A=127, B=123). Avedo osservato rispettivamete 77 e 99 guarigioi: Stimare differeza di efficacia Calcolare NNT Soluzioe: N.B.: i realtà l'esercizio C era più lugo, ma il programma svolto ell'ao 2014-2015 o permetteva di affrotare più argometi. Per stimare la differeza di efficacia bisoga iazitutto calcolare l'efficacia dei due trattameti. È buoa orma costruire la tabella di cotigeza: A B Totali Guariti 77 99 176 No guariti 50 24 74 Totali 127 123 250 guariti L'efficacia del farmaco A è data da totalecurati co A = 77 =0,606, metre B 127 99 aalogamete è =0,804. La differeza di efficacia è pertato 0,804-0,606=0,198. 123
NNT è il umber eeded to treat, ovvero il miimo umero di pazieti da trattare col farmaco B per osservare u migliorameto sigificativo rispetto al farmaco A (è evidete che tato più questo umero è basso, tato più il farmaco B è efficace rispetto al farmaco A). 1 Si calcola come il reciproco della differeza di efficacia: i questo caso 0,198 =5,05. Poiché o possiamo curare 5,05 pazieti, ma solo u umero aturale di pazieti, NNT=6 (si arrotoda sempre per eccesso). D) I uo studio di accuratezza diagostica, di 95 malati 88 soo risultati VP, metre di 295 o malati 35 furoo i FP. Stimare SE, SP (co i rispettivi itervalli di cofideza al 95%), LR+ e LR-. Applicado questo test ad u paziete cui si assegi probabilità di malattia pre-test del 10%, qual è la stima di probabilità post test i caso di test positivo e i caso di test egativo? Soluzioe: Ache i questo caso ricaviamo la tabella di cotigeza: Positivi Negativi Totali Malati 88 7 95 Sai 35 260 295 Totali 123 267 390 La sesibilità è VP VP+FN = 88 95 =0,926. La specificità è VN VN + FP = 260 295 =0,881. Per calcolare gli itervalli di cofideza al 95% di proporzioi si utilizza come errore stadard π (1 π), pertato l'itervallo di cofideza sarà [π 1,96 π(1 π) :π+1,96 π(1 π) ]. Per la sesibilità [0,926 1,96 1 0,926 :0,926+1,96 1 0,926 ]=[87,3:98,0]. 95 95 Per la specificità [0,844: 0,918]. SE Il LR+ (likelihood ratio positivo) è uguale a 1 SP =7,78. 1 SE Il LR- è SP =0,08. Per calcolare la probabilità post test per il test positivo si calcola l'odds pre-test e lo si moltiplica per LR+, ricavado l'odds post test; quidi si ri-ricava la probabilità dall'odds. Aalogamete per la probabilità post test per il test egativo usado LR-. Odds pre test= 0,1 0,9 =1 9. Odds post test+ = 1 Odds 7,78=0,86 Probabilità post test+ = 9 Odds+1 = 0,86 1,86 =0,46. Odds post test = 1 9 0,08=0,008 Probabilità post test =0,008 1,008 =0,008. E) I u campioe di 30 volotari è stata rilevata età (x) e pressioe sistolica (y), otteedo: x =1354 x 2 =67894 y=3935 y 2 =518576 xy=179230. Stimare:
Valore medio della pressioe arteriosa ella popolazioe campioata Coefficiete di correlazioe lieare Coefficiete di regressioe lieare Pressioe sistolica attesa i u soggetto di 37 ai di età Soluzioe: y Il valor medio della pressioe è dato da 30 = 3935 30 =131,16. Il coefficiete di correlazioe lieare r è dato da D xy D xx D yy = r= (67894 ( x 2 ( 2 x) xy x y 179230 1354 3935 30 )( y 2 ( y) 2 13542 39352 )(518576 30 30 ) ) =0,40. Il coefficiete di regressioe lieare β è calcolato come ostro caso β= 178230 1354 3935 30 67894 13542 30 =0,24., e sostituedo coi valori dati otteiamo D xy x y xy = D xx x 2 ( x) 2, e el Per calcolare la pressioe sistolica attesa i u soggetto di 37 ai di età dobbiamo determiare la relazioe tra età e pressioe, per la quale ci maca acora il coefficiete α, calcolabile come x 2 y x xy x 2 ( x) 2, che el ostro caso dà 67894 3935 1354 179230 α= =120,31. 30 67894 1354 2 La retta che descrive il variare delle pressioi i base all'età è quidi y=0,24x+120,31. Per calcolare la pressioe attesa i u soggetto di 37 ai basta sostituire x=37, otteedo quidi y=0,24 37+120,31=129,19.