ESERCIZI DI STATISTICA RISOLTI Federico Emanuele Pozzi

Documenti analoghi
Campionamento casuale da popolazione finita (caso senza reinserimento )

Titolo della lezione. Campionamento e Distribuzioni Campionarie

Quesito 1. I seguenti dati si riferiscono ai tempi di reazione motori a uno stimolo luminoso, espressi in decimi di secondo, di un gruppo di piloti:

Esercizi di Calcolo delle Probabilità e Statistica Matematica

1.6 Serie di potenze - Esercizi risolti

Probabilità 1, laurea triennale in Matematica II prova scritta sessione estiva a.a. 2008/09

Alcuni concetti di statistica: medie, varianze, covarianze e regressioni

Esercitazioni di Statistica Dott.ssa Cristina Mollica

Algoritmi e Strutture Dati (Elementi)

STUDIO DEL LANCIO DI 3 DADI

Esercitazioni del corso: ANALISI MULTIVARIATA

Università di Milano Bicocca Esercitazione 4 di Matematica per la Finanza 24 Aprile 2015

INFERENZA o STATISTICA INFERENTE

IPSAA U. Patrizi Città di Castello (PG) Classe 5A Tecnico Agrario. Lezione di martedì 10 novembre 2015 (4 e 5 ora) Disciplina: MATEMATICA

Intervalli di confidenza

UNIVERSITÀ DEGLI STUDI DI MILANO - BICOCCA

La correlazione e la regressione. Antonello Maruotti

Prof.ssa Paola Vicard

Calcolo delle Probabilità: esercitazione 3

Libri T ablet

Richiami sulle potenze

Cosa vogliamo imparare?

= Pertanto. Per la formula di Navier ( σ = ), gli sforzi normali σ più elevati nella sezione varranno: di compressione);

Esercizi sulle successioni

Inferenza statistica. Popolazione. Camp. Statistiche campionarie basate sulle osservazioni del campione. Estrazione casuale. Parametro e statistica

Soluzioni. Se l interallo avesse livello di confidenza 99%, al posto di 1,96 avremmo

Regressione e correlazione

( 4) ( ) ( ) ( ) ( ) LE DERIVATE ( ) ( ) (3) D ( x ) = 1 derivata di un monomio con a 0 1. GENERALITÀ

Intervalli di confidenza

Esercizi svolti. 1. Calcolare i seguenti limiti: log(1 + 3x) x 2 + 2x. x sin 2x. l) lim. b) lim. x 0 sin x. 1 e x2 d) lim. c) lim.

Domande di teoria. Esercizi

IL CALCOLO COMBINATORIO

Prova scritta di Statistica per Biotecnologie. 29 Aprile Programma Cristallo 1

CONCETTI BASE DI STATISTICA

CORSO DI STATISTICA I (Prof.ssa S. Terzi)

Qual è il numero delle bandiere tricolori a righe verticali che si possono formare con i 7 colori dell iride?

La base naturale dell esponenziale

converge in probabilità alla v.a. X e si scrive: converge in media quadratica alla v.a. X e si scrive: m n

Scheda n.6: legame tra due variabili; correlazione e regressione

Esercitazione parte 1 Medie e medie per dati raggruppati. Esercitazione parte 2 - Medie per dati raggruppati

Un problema! La letteratura riporta che i pazienti affetti da cancro. = mesi

Statistica I, Laurea triennale in Ing. Gestionale, a.a. 2011/12 Registro delle lezioni

STATISTICA INFERENZIALE SCHEDA N. 2 INTERVALLI DI CONFIDENZA PER IL VALORE ATTESO E LA FREQUENZA

a) la funzione costante k. Sia k un numero reale e consideriamo la funzione che ad ogni numero reale x associa k: x R k

DEFINIZIONE PROCESSO LOGICO E OPERATIVO MEDIANTE IL QUALE, SULLA BASE

Laboratorio di onde II anno CdL in Fisica

Esercitazione 5 del corso di Statistica (parte 2)

Test non parametrici. sono uguali a quelle teoriche. (probabilità attesa), si calcola la. , cioè che le frequenze empiriche

ESEMPIO 1. Immaginiamo come si distribuirebbero le stime campionarie se l operazione di campionamento venisse ripetuta più volte.

1. Suddivisione di triangoli

Solidi e volumi Percorso: Il problema della misura

STATISTICA DESCRITTIVA

Distribuzioni per unità

Mole e Numero di Avogadro

ESERCIZI DI INFERENZA STATISTICA E STUDIO DELLE ASSOCIAZIONI

Matematica II: Calcolo delle Probabilità e Statistica Matematica

Strumenti di indagine per la valutazione psicologica

1. Distribuzioni campionarie legate alla distribuzione normale. 3. Intervallo bilatero di confidenza bilatero per la frazione p di una popolazione

Tecnica delle misurazioni applicate Esame del 4 dicembre 2007

15 - Successioni Numeriche e di Funzioni

LE MISURE DI VARIABILITÀ DI CARATTERI QUANTITATIVI

Le carte di controllo

1. LEGGE DI SNELL. β<α FIBRE OTTICHE. se n 2 >n 1. sin. quindi 1 se n 1 >n 2 β>α. Pag

Statistica descrittiva

Elementi di Calcolo Combinatorio

L'ALGORITMO DI STURM Michele Impedovo, Simone Pavanelli

STATISTICA 1 parte 2/2 STATISTICA INFERENZIALE

INTEGRAZIONE NUMERICA

C a p i t o l o s e t t i m o. Trasmissione del calore per radiazione

Percorsi di matematica per il ripasso e il recupero

Corso di Informatica

ELEMENTI STATISTICA METODOLOGICA DISTRIBUZIONI DI PROBABILITA STATISTICA INFERENZIALE

Sintassi dello studio di funzione

Corso di Laurea Magistrale in Ingegneria Informatica A.A. 2014/15. Complementi di Probabilità e Statistica. Prova scritta del del

LA VERIFICA DELLE IPOTESI SUI PARAMETRI

Successioni ricorsive di numeri

Parte V La descrizione dei fenomeni attraverso la statistica

PROBABILITÀ SCHEDA N. 6 LE VARIABILI ALEATORIE DI BERNOULLI E BINOMIALE

Teoremi limite classici

LA RADICE QUADRATA NELLA SCUOLA MEDIA E.BARONE

Analisi statistica dell Output

Il test parametrico si costruisce in tre passi:

Alcuni parametri statistici di base

IL CALCOLO COMBINATORIO

Metodi statistici per l analisi dei dati

LE PROPRIETA COLLIGATIVE sono proprietà fisiche delle soluzioni che dipendono dalla concentrazione del soluto ma non dalla tipologia del soluto

PREMESSA. = η valore medio della popolazione = σ deviazione standard della popolazione. Descrizione parametrica di una popolazione

INVENTORY CONTROL. Ing. Lorenzo Tiacci

Esercitazioni di Statistica

CAPITOLO SETTIMO GLI INDICI DI FORMA 1. INTRODUZIONE

Metodi statistici per l'analisi dei dati

Il campionamento e la distribuzione di Poisson

Proprietà della varianza

Corso di Elementi di Impianti e macchine elettriche Anno Accademico

Soluzioni esercizi Capitolo 7

Esercitazione su grafici di funzioni elementari

CALCOLO COMBINATORIO

I appello - 29 Giugno 2007

Formula per la determinazione della Successione generalizzata di Fibonacci.

Campionamento stratificato. Esempio

Transcript:

ESERCIZI DI STATISTICA RISOLTI Federico Emauele Pozzi Risolverò solo u compito itegralmete. Se avete domade sulla risoluzioe di specifici esercizi postate el forum, e le aggiugerò qui. Qui preseto solo i procedimeti, seza addetrarmi troppo ella teoria (che potete trovare elle dispese). 26 Febbraio 2014 A) Data la distribuzioe di frequeze della variabile durata della gestazioe i settimae sotto riportata: X f fx fx 2 1 37 11 407 15059 2 38 34 1292 49096 3 39 129 5031 196209 4 40 103 4120 164800 5 41 70 2870 117670 6 42 3 126 5292 TOTALI 350 13846 548126 Calcolare: Media Ds Mediaa 10 cetile rage IQ Soluzioe: f Media: i X i = 13846 350 =39.56 Deviazioe stadard: ci soo due modi per calcolarla (assolutamete equivaleti, dato che la formula del secodo modo è ricavabile dalla formula del primo) ( X i μ) 2 = 378,23 350 =1,04 X 2 i ( X i ) 2 = 13846 2 f 548126 i 350 =1,04 350 Perché è stato usato e o -1 ei deomiatori? Perché i questo caso abbiamo ua popolazioe e o u campioe; i dati ricavati soo oggetto di descrizioe, o base per fare ifereza. Mediaa: la mediaa è quel valore che divide la popolazioe i due metà el ostro caso ci sarao quidi 175 valori prima della mediaa e 175 dopo. Osserviamo che per creare ua tabella del geere, suppoedo che la variabile i esame sia cotiua (è u tempo ifatti, o è che tutte le madri partoriscoo a 37, 38, 39 ecc settimae ESATTE) abbiamo diviso i valori i CLASSI, utilizzado come riferimeto il valore cetrale della classe.

Le ostre classi sarao ovviamete della forma [36,5:37,5] [37,5:38,5] e così via. Il metodo da seguire è già stato spiegato ella parte teorica delle dispese ( 4.1), qui lo riporterò brevemete: Si crea la tabella delle frequeze cumulative di ciascua classe: Classe Frequeza cumulativa 36,5 37,5 0,031 37,5 38,5 0,129 38,5 39,5 0,497 39,5 40,5 0,791 40,5 41,5 0,991 41,5 42,5 1,000 Ricerchiamo la classe che cotiee il 50 cetile (cioè la mediaa). È la classe 39,5-40,5. Quidi applichiamo il metodo dei triagoli simili: Come possiamo vedere dal disego, i triagoli blu e rosso soo simili, pertato vale la relazioe scritta, che coduce alla formula C=LS +(LS + LS ) (0,500 F ) (F + F =39,5+(40,5 39,5)(0,500 0,497) ) (0,791 0,497) =39,51. Abbiamo usato l'approssimazioe lieare per la distribuzioe dei valori all'itero della classe (che tuttavia potevao ache seguire la curva verde tratteggiata tato per fare u esempio). Sostituedo 0,500 co qualsiasi valore di cetile possiamo ricavare il valore corrispodete, e così faremo per determiare i cetili quado abbiamo esercizi di STATISTICA DESCRITTIVA (quado cioè dobbiamo ricavare i cetili a partire dai dati e o dai modelli). 10 cetile: applichiamo il procedimeto appea usato: La classe di iterese è 37,5-38,5. La formula sarà C=37,5+(38,5 37,5) (0,100 0,031) (0,129 0,031) =38,2 Rage IQ: applichiamo il procedimeto appea usato per ricavare 25 e 75 cetile.

25 C=38,5+(39,5 38,5) (0,250 0,129) (0,497 0,129) =38,82 75 C =39,5+(40,5 39,5) (0,750 0,497) (0,791 0,497) =40,36 Per trovare il rage basta ora fare la differeza: 40,36-38,82=1,54 B) Per ua gaussiaa i cui ¼ dei valori cetrali soo compresi tra 170 e 180, calcolare: 1) μ, σ, 10 cetile, rage IQ, 95 cetile 2) Probabilità che: a) solo 1 di 8 valori estratti a caso sia compreso fra 170 e 180 b) più di 24 di 100 valori estratti a caso siao compresi tra 170 e 180 c) la media di 5 valori estratti a caso sia compresa tra 170 e 180 d) la differeza di 2 valori estratti a caso sia maggiore di 10 e) almeo 2 di 8 valori estratti a caso siao compresi tra 170 e 180 f) se il primo estratto o è compreso fra 170 e 180, lo sia il secodo 3) Numero miimo di valori da estrarre per avere probabilità almeo del 95% di osservare: g) almeo u valore compreso tra 170 e 180 h) che il miimo valore estratto sia iferiore e il massimo superiore a 180 Soluzioe: 1) La media è 175 (170 e 180 soo gli estremi di u itervallo di valori CENTRALI, quidi cetrato sulla media, che deve essere a metà strada tra i due estremi). La deviazioe stadard si calcola a partire dalla guassiaa stadard. Tra 175 e 180 ho il 12,5% di valori (ifatti è la metà dell'itervallo che cotiee ¼, cioè il 25%, dei valori); duque da 180 i poi ho il 37,5%. Ricavo lo z corrispodete dalla tabella vale circa 0,32. A questo puto sostituedo ella relazioe z= ( x μ) i σ ottego σ=(180 175)/0,32=15,62. Per calcolare il 10 cetile utilizziamo lo stesso procedimeto. Ricaviamo lo z corrispodete a 10 (1,282) dalla tabella dell'itegrale ormale degli errori. Poiché il 10 cetile è miore della media, la formula sarà 1,282= (x 175) 10 15,62 x 10 = 1,282 15,62+175=154,97. Per calcolare il rage iterquartile dovrò calcolare il 25 e il 75 cetile co il metodo appa visto (ricavado lo z corrispodete e osservado che ua volta lo dovrò predere positivo ed ua volta egativo); x 25 = 0,6745 15,62+175=164,46 x 75 =0,6745 15,62+175=185,53 Quidi, faccio la differeza tra i due valori: rage IQ=185,53-164,46=21,07 Per calcolare il 95 cetile farò la stessa cosa, trovado ovviamete lo z corrispodete a 5 (ifatti la tabella dell'itegrale ormale degli errori vi dà la probabilità SOPRA u certo valore). Ottego x 95 =1,645 15,62+175=200,69. 2) Divido la soluzioe per puti: a) I questo caso utilizzo la biomiale. La probabilità di successo è 0.25, i tetativi soo 8! 8 e i successi 1; di cosegueza P (1;8 ;0.25)= (8 1)! 1! 0,251 0,75 7 =0,27 b) I questo caso utilizzo l'approssimazioe gaussiaa della biomiale, co media π e deviazioe stadard π(1 π). Osservo che la media è 0,25x100=25 e la deviazioe stadard 4,33. Devo ricordarmi ora di utilizzare la correzioe per il cotiuo (siccome la variabile della

gaussiaa è cotiua, ma i successi soo discreti, devo utilizzare le classi); pertato, più di 24 successi sigifica da 24,5 i poi. Calcolo quidi lo z corrispodete a 24,5 come (24,5 25)/4,33= 0,115, cui corrispode ua probabilità dello 0,0438. Osserviamo che questa è la probabilità di osservare 24,5 o meo successi, pertato la probabilità che cercavamo è 1-0,4522=0,5478. c) Vedere il paragrafo sulla distribuzioe di campioameto di m per la teoria. Poiché la distribuzioe delle medie campioarie è gaussiaa itoro alla media della popolazioe (175), co deviazioe stadard pari all'errore stadard della media (calcolato come σ ), calcolo il valore di z corrispodete al rage idicato (170-180). Come potete vedere facilmete dal disego, il calcolo è z= 180 175 15,62 5 =0,71. Dalla tabella dell'itegrale ormale degli errori ricavo la probabilità corrispodete: 0,238. Questa è la probabilità a DESTRA di z=0,71. Quidi quella compresa tra la media e z=0,71 sarà 0,5-0,238=0,262; siccome la gaussiaa è simmetrica, l'area compresa tra due scarti di 0,71σ dalla media è 0,262x2=0,524. d) Il procedimeto è u po' laborioso. Teete presete che egli esami della sessioe 2014-2015 questo tipo di esercizi o ci sarà. Possiamo cosiderare il tipo di problema presetato come l'estrazioe di u campioe di due elemeti. Questo campioe avrà ua sua media m e ua sua variaza s 2. Ragioadoci u po' su, vi rederete coto che la differeza tra i due valori può essere riscritta come (maggiore-media)+(media-miore), come (maggiore-media)=-(mediamiore) per le proprietà della media. Pertato, dire che i valori estratti devoo avere ua differeza maggiore di 10 equivale a dire che (maggiore-media)+(media-miore)=10. Ciò comporta che maggiore-media=5, e media-miore=-5. Se la differeza tra i due valori fosse esattamete 10, la deviaza del campioe sarebbe 5 2 +5 2 =50 ; pertato, è chiaro che a oi iteressa trovare quato è probabile estrarre u campioe co ua deviaza MAGGIORE di 50 (o ua variaza s 2 maggiore di 50, dato che i questo caso si divide per -1=2-1=1). Cofrotate col paragrafo della teoria sulla distribuzioe di campioameto della variaza; ciò equivale a trovare la probabilità di osservare u chi quadro pari o maggiore di s 2 ( 1) σ 2 co -1 gradi di libertà. 1 Sostituedo i ostri valori il valore di chi quadro è 50 =0,204. Se ora 2 15,62 guardiamo la tabella del chi quadro osserviamo che a questo valore, per u grado di libertà, corrispode ua probabilità del 65%. e) Per calcolare questa probabilità basta fare riferimeto al puto a). Ifatti possiamo

vederla come 1-(probabilità 1 successo)-(probabilità 0 successi). La probabilità di 1 successo già la coosciamo, e vale 0,27; quella di 0 successi la calcoliamo i modo aalogo, e vale 0,10. Quidi la probabilità di otteere 2 o più successi è 1-0,37=0,63. f) I questo caso si applica la probabilità codizioata P(A B), co P(A)=0,25 e P(B)=0,75. Poiché i due eveti soo idipedeti, la loro itersezioe è vuota e la probabilità codizioata si riduce a P(A). Quidi P(A B)=0,25. 3) Divido per puti: g) Trovare il umero di tetativi per cui la probabilità di otteere almeo u successo el 95% dei casi equivale al trovare il umero di tetativi per cui la probabilità di o otteere emmeo u successo è del 5%. Poiché la probabilità di successo è dello 0.25, la probabilità di isuccesso è dello 0.75. Quidi vale la relazioe 0,75 <0,05, e per ricavare passiamo ai logaritmi: log 0,75<log 0,05, che dà >10,4. Pertato per osservare almeo u successo co ua probabilità del 95% dovremmo fare al miimo 11 estrazioi. h) 180 è il 62,5 cetile. Quidi u valore estratto a caso ha il 37,5% di probabilità di essere superiore e il 62,5% di probabilità di essere miore di 180. Se devo avere almeo il 95% di probabilità di osservare almeo u valore iferiore e almeo u valore superiore a 180 sigifica che la probabilità di osservare SOLO valori superiori a 180 sommata alla probabilità di osservare SOLO valori iferiori a 180 deve essere miore o uguale al 5%. Quidi potrò scrivere 0,625 +0,375 <0,05. I questo caso o posso applicare i logaritmi, perché compaioo somme tra espoeziali. Applicare il metodo di risoluzioe per sostituzioe o è efficace. Pertato, possiamo procedere i due modi: Per tetativi: provado co =2, =3, =4 ecc fiché la disequazioe o è soddisfatta (metodo triste). Per =7 otteiamo 0,038. Vediamo che 0,375 è piccolo, e già elevato alla secoda dà 0,14. Quidi questo termie tederà velocemete a 0 e possiamo trascurarlo. La disequazioe APPROSSIMATA diveta 0,625 <0,05, e possiamo usare i logaritmi; co log 0,625<log 0,05 otteiamo >6,37, quidi =7 come trovato col metodo precedete. C) L'efficacia di due trattameti A e B fu cofrotata radomizzado 250 paziti (A=127, B=123). Avedo osservato rispettivamete 77 e 99 guarigioi: Stimare differeza di efficacia Calcolare NNT Soluzioe: N.B.: i realtà l'esercizio C era più lugo, ma il programma svolto ell'ao 2014-2015 o permetteva di affrotare più argometi. Per stimare la differeza di efficacia bisoga iazitutto calcolare l'efficacia dei due trattameti. È buoa orma costruire la tabella di cotigeza: A B Totali Guariti 77 99 176 No guariti 50 24 74 Totali 127 123 250 guariti L'efficacia del farmaco A è data da totalecurati co A = 77 =0,606, metre B 127 99 aalogamete è =0,804. La differeza di efficacia è pertato 0,804-0,606=0,198. 123

NNT è il umber eeded to treat, ovvero il miimo umero di pazieti da trattare col farmaco B per osservare u migliorameto sigificativo rispetto al farmaco A (è evidete che tato più questo umero è basso, tato più il farmaco B è efficace rispetto al farmaco A). 1 Si calcola come il reciproco della differeza di efficacia: i questo caso 0,198 =5,05. Poiché o possiamo curare 5,05 pazieti, ma solo u umero aturale di pazieti, NNT=6 (si arrotoda sempre per eccesso). D) I uo studio di accuratezza diagostica, di 95 malati 88 soo risultati VP, metre di 295 o malati 35 furoo i FP. Stimare SE, SP (co i rispettivi itervalli di cofideza al 95%), LR+ e LR-. Applicado questo test ad u paziete cui si assegi probabilità di malattia pre-test del 10%, qual è la stima di probabilità post test i caso di test positivo e i caso di test egativo? Soluzioe: Ache i questo caso ricaviamo la tabella di cotigeza: Positivi Negativi Totali Malati 88 7 95 Sai 35 260 295 Totali 123 267 390 La sesibilità è VP VP+FN = 88 95 =0,926. La specificità è VN VN + FP = 260 295 =0,881. Per calcolare gli itervalli di cofideza al 95% di proporzioi si utilizza come errore stadard π (1 π), pertato l'itervallo di cofideza sarà [π 1,96 π(1 π) :π+1,96 π(1 π) ]. Per la sesibilità [0,926 1,96 1 0,926 :0,926+1,96 1 0,926 ]=[87,3:98,0]. 95 95 Per la specificità [0,844: 0,918]. SE Il LR+ (likelihood ratio positivo) è uguale a 1 SP =7,78. 1 SE Il LR- è SP =0,08. Per calcolare la probabilità post test per il test positivo si calcola l'odds pre-test e lo si moltiplica per LR+, ricavado l'odds post test; quidi si ri-ricava la probabilità dall'odds. Aalogamete per la probabilità post test per il test egativo usado LR-. Odds pre test= 0,1 0,9 =1 9. Odds post test+ = 1 Odds 7,78=0,86 Probabilità post test+ = 9 Odds+1 = 0,86 1,86 =0,46. Odds post test = 1 9 0,08=0,008 Probabilità post test =0,008 1,008 =0,008. E) I u campioe di 30 volotari è stata rilevata età (x) e pressioe sistolica (y), otteedo: x =1354 x 2 =67894 y=3935 y 2 =518576 xy=179230. Stimare:

Valore medio della pressioe arteriosa ella popolazioe campioata Coefficiete di correlazioe lieare Coefficiete di regressioe lieare Pressioe sistolica attesa i u soggetto di 37 ai di età Soluzioe: y Il valor medio della pressioe è dato da 30 = 3935 30 =131,16. Il coefficiete di correlazioe lieare r è dato da D xy D xx D yy = r= (67894 ( x 2 ( 2 x) xy x y 179230 1354 3935 30 )( y 2 ( y) 2 13542 39352 )(518576 30 30 ) ) =0,40. Il coefficiete di regressioe lieare β è calcolato come ostro caso β= 178230 1354 3935 30 67894 13542 30 =0,24., e sostituedo coi valori dati otteiamo D xy x y xy = D xx x 2 ( x) 2, e el Per calcolare la pressioe sistolica attesa i u soggetto di 37 ai di età dobbiamo determiare la relazioe tra età e pressioe, per la quale ci maca acora il coefficiete α, calcolabile come x 2 y x xy x 2 ( x) 2, che el ostro caso dà 67894 3935 1354 179230 α= =120,31. 30 67894 1354 2 La retta che descrive il variare delle pressioi i base all'età è quidi y=0,24x+120,31. Per calcolare la pressioe attesa i u soggetto di 37 ai basta sostituire x=37, otteedo quidi y=0,24 37+120,31=129,19.