STATISTICA ED EPIDEMIOLOGIA

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "STATISTICA ED EPIDEMIOLOGIA"

Transcript

1 STATISTICA ED EPIDEMIOLOGIA Non tutto ciò che è pubblicato è affidabile: spesso ci sono grandi sponsor, come le case farmaceutiche, che incidono e le riviste scientifiche sono più propense a pubblicare anche articoli non del tutto corretti o veritieri. Per questo è importante imparare a valutare da soli i dati che vengono proposti dagli studi, per poter tirare delle conclusioni indipendenti da quelle degli autori. SCALE DI MISURA scala nominale = rileva solo differenze o uguaglianze, per variabili che non hanno nessuna relazione matematica, ad es. sesso, gruppo sanguigno, ecc. scala ordinale = rappresenta differenze o uguaglianze, ma anche rapporti di inferiorità/superiorità, ad es. grado di gravità di una certa malattia scala numerica discreta = differenze, uguaglianze e rapporti di inferiorità/superiorità, sono variabili con enumerazione che non consentono decimali, es. numero di figli per donna (non è corretto dire che in Italia le donne hanno in media 1,5 figli) Queste tre scale di misura non consentono di fare la media. scala numerica continua = si tratta di valori con unità di misura, rappresentati da numeri che possono avere infiniti decimali, sono il risultato di misure, è possibile fare la media eccezione: le misure di intervallo non consentono di fare calcoli come rapporti ad es. la temperatura in C o F non è un valore assoluto, ma relativo ad un intervallo (i K sono assoluti) => non si può dire che 20 C sia una temperatura doppia di 10 C! misure di rapporto: quando si usano più unità di misura diverse e serve un fattore di conversione scala di intervallo di classe = è simile alla ordinale, si considera il numero di valori entro un determinato intervallo (es. n di persone con altezza fra 160 e 165 cm). Apparentemente simile alla scala ordinale, ma più attendibile perché basata su misure per ogni intervallo di classe si può calcolare una media, ma non è corretto fare una media delle medie MISURE DI SINTESI indicatori di tendenza centrale = rappresentano l'andamento generale (centrale) delle misure o delle modalità rilevate, utilizzabili solo con misure in scala numerica omogenea media (μ) = somma dei valori divisa per l'effettivo mediana = si ottiene ordinando in maniera crescente i valori, è quello che sta a metà e che divide il campione in due gruppi di egual numero (la metà saranno inferiori, la metà superiori) corrisponde al 2 quartile, al 50 percentile, ecc. se i valori sono pari la mediana è stimata in genere con la media aritmetica dei due valori centrali moda = il valore più rappresentato nel campione indicatori di variabilità = misura della dispersione di una distribuzione di misure e determina il grado in cui una singola misura è rappresentativa della popolazione, utilizzabile per misure in scala numerica continua deviazione standard (σ) = scostamento medio delle singole misure dalla media scarto = deviazione del singolo valore dalla media (positivo o negativo) = x - μ devianza = somma del quadrato degli scarti varianza = devianza / effettivo (così non dipende più dal numero dei valori) deviazione standard = radice quadrata varianza (per riportarlo all'unità di misura iniziale) intervallo interquartile = quell'intervallo che sta tra il primo e il terzo quartile: rappresenta il 50% dei valori più vicini alla mediana quantili = valori che dividono il campione in n parti contenenti lo stesso numero di valori quartile = il campione è diviso in 4 parti contenenti lo stesso numero di valori (ordinati in maniera crescente), quindi avremo il 1 quartile che dividerà il primo 25% dei valori dal secondo 25%; il 2 quartile dividerà il primo 50% di valori dal secondo 50% (è la mediana); il 3 quartile dividerà il primo 75% dei valori dall'ultimo 25% => l'ampiezza degli intervalli non è costante si usano anche terzili, decili, percentili (questi ultimi soprattutto in pediatria per valutare la crescita dei bambini, considerata nella norma quando sta tra il 10 e il 90 percentile) range o campo di variazione = differenza tra campione massimo e campione minimo un lavoro che fornisce solo la media dei valori e il range è poco significativo in quanto potrebbe avere una grande dispersione indicatori di numerosità = conteggio delle misure effettuate (totale, detto effettivo)

2 frequenze assoluta = numero di casi che rappresentano una certa caratteristica (non è indicativa) relativa = assoluta/effettivo percentuale = rapportata a 100 => utile per confronti con altri studi relativa modale = quando le categorie sono molto numerose si individua una categoria modale, che è la modalità o il rango che si presenta con la massima frequenza (è una ulteriore sintesi). Serve per sottolineare i risultati positivi. E' necessario fornire sempre l'effettivo. indici di eterogeneità = ci dicono quanto eterogeneo è il campione rilevato, ne esistono tanti indice di Gini [0-1] 0 = totalmente omogeneo (quando ognuna delle categorie è egualmente rappresentata, non c'è variabilità) in un campione statistico si cerca l'omogeneità 1 = totalmente eterogeneo (frequenza relativa diversa per ogni categoria) è il rapporto tra eterogeneità rilevata e eterogeneità massima possibile (es. per 2 classi ognuna può avere al massimo il 50% dei valori, per 3 classi il 33,3%, ecc.) La scelta degli indicatori più idonei al caso è essenziale per una sintesi veramente completa e corretta dei fenomeni misurabili, ogni volta vanno utilizzati almeno un indicatore di tendenza centrale, uno di variabilità, uno di numerosità tenendo presente lo scopo per cui la sintesi viene fatta e il tipo di distribuzione che hanno i dati. Coefficiente di variazione = rapporto tra deviazione standard e media = se supera il 30% indica che la distribuzione delle misure non è normale. Rappresentazione grafica carattere in scala nominale => grafico a torta carattere in scala ordinale => grafico a barre separate carattere quantitativo discreto => grafico a bastoni carattere quantitativo continuo => grafico a barre unite o istogramma

3 PROCEDIMENTI DI STIMA In medicina si è soliti valutare i parametri normali in base a stime, ovvero ad una stima approssimata della tendenza centrale (es. del BMI) nella popolazione normale. Questo si fa attraverso campioni (ovviamente non è possibile misurare tutta la popolazione!). Stima = conoscenza approssimativa o parziale di un fenomeno Misura = conoscenza esatta e riproducibile (il più possibile) di un fenomeno, ottenuta rapportandolo alla sua unità di misura Conoscere per campionamento è come valutare lo stato di un tessuto osseo da una biopsia. Resta sempre l'incertezza di aver utilizzato un campione non rappresentativo, anche se più è numeroso e più probabilmente sarà rappresentativo. Statistica inferenziale = quella che dallo studio di un campione riporta i dati ottenuti a tutta la popolazione CENNI DI CALCOLO COMBINATORIO Probabilità = la probabilità di un evento è data dal rapporto fra il numero di casi favorevoli al suo verificarsi e il numero di casi possibili supposti tutti ugualmente possibili probabilità di fare 6 con un dado = 1/6 = 0, = 16,67% Probabilità complementare = negli eventi di tipo si/no (o si fa 6 o non lo si fa, quindi si fa 1, 2, 3, 4 o 5) la probabilità che accada l'evento deve essere il complemento di 1 della probabilità che non accada probabilità di non fare 6 con un dado = 1-1/6 = 1-0, = 0, Intersezione di probabilità = la probabilità che accadano contemporaneamente due eventi tra loro indipendenti è data dal prodotto delle probabilità dei due eventi separatamente considerati probabilità di fare 12 con due dadi = 1/6 * 1/6 = 0, = 2,78% Unione di probabilità = la probabilità che accadano o l'uno o l'altro di più eventi tra loro indipendenti è data dalla somma delle probabilità degli eventi separatamente considerati probabilità di fare 8 con due dadi = somma delle probabilità di farlo con le varie combinazioni (sono 6 combinazioni, es. 6+2) = (1/6*1/6)*6 = 0, = 16,67% In medicina non possiamo mai supporre i casi possibili tutti ugualmente possibili! Quindi in medicina e epidemiologia si utilizza la probabilità empirica, che si basa sulla raccolta di una precedente casistica, nella quale la frequenza relativa di un evento si avvicina alla sua probabilità tanto più quanto più numerosi sono i casi raccolti. Frequenza relativa = rapporto tra il numero degli eventi avvenuti nei casi osservati e il totale dei casi osservati In medicina questi eventi possono essere ad esempio: la guarigione, la morte, il contagio, ecc.. Quindi utilizziamo come probabilità empirica la frequenza relativa e le due si avvicineranno di più quanto più grande è il numero di casi osservati. [vedi esempi pag ] LA CURVA DI GAUSS E LA NORMALE STANDARDIZZATA La curva di Gauss è una funzione matematica che, nella sua parte centrale, ben si adatta a descrivere fenomeni quantitativi di tipo biologico (es. grafico dell'altezza della popolazione). Nella formula [vedi libro], dalla quale si ottiene la frequenza (e quindi la probabilità) del verificarsi di una determinata misura, si vede come le variabili sono la media, la deviazione standard e la misura stessa. Sostanzialmente la probabilità di avere una certa misura dipende da quanto quella misura è lontana dalla media, in rapporto alla variabilità del fenomeno misurato. Nella distibuzione normale moda, media e mediana coincidono. Standardizzazione della curva di Gauss 1) si pone μ (media) = 0 se poniamo la misura della media come origine degli assi (quindi equivalente allo zero) saranno gli scarti (x-μ) ad essere visualizzati nel grafico 2) si pone σ (deviazione standard) = 1 si rapportano gli scarti alla deviazione standard (σ) => la deviazione standard diventa l'unità di misura e quindi tutto sarà riferito a questa Scarto standardizzato = Z i = (x i - μ) / σ in questo modo riusciamo a capire quanto uno scarto è grande rispetto alla deviazione standard (la media degli scarti) Z = 0 se il valore corrisponde a μ Z = 1 se il valore corrisponde a μ + 1 σ Z = - 1 se il valore corrisponde a μ - 1 σ Z = 2 se il valore corrisponde a μ + 2 σ ecc.

4 Per ogni misura standardizzata esistono apposite tavole che ci consentono di conoscere la probabilità che ha quella certa misura (convertita in scarto standardizzato) di verificarsi nella popolazione. Prodotti notevoli della normale standardizzata il valore medio (μ) ha una probabilità minore del 40% di verificarsi (0,3989%) nell'intervallo tra μ +/- 1σ si hanno più del 68% di probabilità che si verifichi una misura (68,27%) nell'intervallo tra μ +/- 2σ si hanno più del 95% di probabilità che si verifichi una misura (95,45%) nell'intervallo tra μ +/- 3σ si hanno più del 99% di probabilità che si verifichi una misura (99,73%) * * * * * IL CAMPIONAMENTO Universo dei dati = insieme di tutte le informazioni possibili in una data popolazione Campione = sottoinsieme dell'universo Il campione statisticamente significativo inoltre deve avere la seguenti caratteristiche: deve rappresentare l'universo e quindi deve essere possibile inferire dal campione all'universo con errore inferiore al 5%, ciò significa che è raccolto in modo unbiased (senza pregiudizio ne inclinazione) portando il campione dentro o fuori dall'universo la media dei valori dell'universo non deve cambiare (inferire deriva da in-fero = porto dentro, in latino) i "valori normali" degli esami di laboratorio sono intesi come valori medi stimati su campioni di popolazione sana al livello di confidenza del 95% (salvo diversa indicazione) Il campione è significativo per un dato parametro per cui è stato scelto, non è corretto utilizzarlo per qualsiasi altro parametro che potremmo avere a disposizione. Per questo non è facile trovare un campione statisticamente significativo, che deve essere scelto secondo le seguenti indicazioni: 1) scelto in modo random => tutti i soggetti hanno la stessa probabilità di essere estratti 2) omogeneo 3) sufficientemente numeroso 1. Scelta di un campione randomizzato Un campione randomizzato sarebbe quello composto da individui di una popolazione scelti a caso che hanno la stessa probabilità di essere scelti. In realtà in medicina questo è impossibile perché il numero di casi in genere è ridotto, quindi quando si è estratto un caso il numero di persone che possono essere scelte si è abbassato di 1 e le probabilità di scelta successive diventano sempre maggiori. Possibilità di campionamento in medicina: Campionamento probabilistico = estrazione random da un gruppo con determinate caratteristiche Campionamento per immissione successiva = ogni volta che si verifica un caso lo si aggiunge al campione Campionamento con randomizzazione ristretta Campionamento a blocchi permutati Randomizzazione asimmetrica Campionamenti a cluster o a grappolo = campionamento all'interno di più gruppi (es. tra operai di diverse fabbriche) Campionamento sistematico 2. Scelta di un campione omogeneo Un campione sarebbe perfettamente omogeneo se le uniche differenze tra gli individui fossero date dal parametro studiato. Gli esseri umani sono molto disomogenei (molto variabili sotto tanti aspetti) => bisogna tener conto delle varie stratificazioni dell'universo e cercare di rappresentarle proporzionalmente tutte (più sono e più è difficile farlo). Bisogna scegliere quali categorie tener presenti: tutte quelle influenti e nessuna di quelle superflue (per non avere strati troppo numerosi). 3. Scelta di un campione sufficientemente numeroso E' necessario scegliere un campione sufficientemente numeroso, il che non significa il più numeroso possibile (determinerebbe una spesa enorme per la ricerca).

5 Viene calcolato sulla base di: cosa si vuole dimostrare che livello di errore alfa si accetta (considerata l'importanza della ricerca) che livello di errore beta si accetta (considerata l'importanza della ricerca e i costi) se si vogliono paragonare tra loro due o più trattamenti bisogna valutare quale sia la minima differenza clinicamente rilevabile in funzione della variabilità del fenomeno Errori che riguardano la scelta di un campione possono essere relativi a: validità interna = misura di quanto i risultati di uno studio sono corretti per il campione di individui che sono stati studiati la scelta errata del gruppo di confronto compromette la validità interna (non deve essere scelto in maniera "comoda") una stratificazione non corretta compromette la validità interna (si potrebbe non tener conto di caratteristiche che influenzano i risultati) una numerosità troppo diversa nei gruppi allo studio può alterare l'efficacia delle formule statistiche validità esterna = gradi di generalizzabilità delle conclusioni tratte da uno studio può essere compromessa da molti fattori, ad es. dal fatto che i pazienti entrati a far parte di un trial clinico hanno accettato di farlo perché sono probabilmente più colti di altri, più attenti alla propria salute, ecc. => è meno generalizzabile => spesso i trial clinici sono più ottimistici di quanto non dovrebbero L'analisi per sottogruppi e la ricerca di end-point secondari sono gli errori più gravi e meno controllabili, spesso sono utilizzati per poter produrre uno studio anche se l'end-point primario della ricerca non è andato a buon fine. * * * * * STIMA DELLA TENDENZA CENTRALE DI UN UNIVERSO DI MISURE Dobbiamo stimare la media aritmetica di un universo di misure da un campione. La media calcolata su un campione ha un errore rispetto a quella dell'universo, che deve essere il più piccolo possibile. Se prendiamo tutte le medie possibili fatte dai campioni possibili otteniamo un andamento simil-gaussiano, secondo una curva a campana che tende ad essere più alta e stretta (leptocurtica) di quella gaussiana. Ora l'indice della dispersione da utilizzare è: errore standard = σ / radice di n (n = effettivo) deviazione standard della distribuzione delle medie dei campioni Intervalli di confidenza (I.C.) nell'intervallo tra μ +/- 1,96 e.s. (detto stima intervallare) si ha il 95% di probabilità che in tale intervallo cada la media universale quindi significa che abbiamo una fiducia (o confidenza) al 95% che quell'intervallo sia giusto e il 5% che sia sbagliato nell'intervallo tra μ +/- 2,58 e.s. (detto stima intervallare) si ha il 99% di probabilità che in tale intervallo cada la media universale Esempio: Abbiamo un campione di 100 neonati con una media di peso alla nascita di 3,1 kg, errore standard = +/- 0,023kg Si può ritenere questa media come rappresentativa per la popolazione di tutti i neonati? Calcolando l'intervallo di confidenza al 95% ottengo: IC = 3,1 +/- (1,96*0,023) => significa che ho una fiducia al 95% che il peso dei neonati alla nascita stia tra 3,145kg e 3,055 kg => pertanto posso ritenere che questa media sia rappresentativa. Stima intervallare = quella basata su un intervallo => si utilizza con intervallo di confidenza al 95% o al 99% in medicina => può risultare sbagliata nel 5% o nel 1% dei casi per errore alfa Stima puntuale = quella basata su un solo punto nell'asse cartesiano (dai valori notevoli della gaussiana si evince che avrebbe fiducia al 40% => potrebbe essere sbagliata al 60% => non viene utilizzata in medicina Più l'errore standard è piccolo più il campione si avvicina ad una stima puntuale, viceversa più è grande più parleremo di stima intervallare. Gradi di libertà = numero di variazioni indipendenti di un insieme di misure per l'universo è dato dall'effettivo (n) = ogni soggetto rappresenta una variazione indipendente per un campione utilizzato per stimare la media dell'universo è: n-1 in caso di variabili in scala continua, perché la media diventa un dato fisso e quindi sono sufficienti n- 1 misure per conoscerle tutte numero di categorie 1 in caso di variabili nominali Ha senso calcolarli quando la numerosità del campione o del numero di categorie è piccola, perché in questi casi la curva da utilizzare non è più la normale standardizzata.

6 Campioni poco numerosi Se n < 30 si deve utilizzare la curva di Student, che è diversa dalla normale standardizzata: più platicurtica (bassa e larga) più influenzata dalla numerosità campionaria (più è grande l'effettivo più assomiglia alla gaussiana) i valori moltiplicativi dell'errore standard per ottenere intervalli di confidenza al 95% e 99% non sono fattori fissi: sono più grandi per gradi di libertà piccoli (n-1) => l'intervallo è più largo es. per 5 gradi di libertà, ovvero con 6 elementi *2,571 => 95% * 4,032 => 99% es. per 30 gradi di libertà, ovvero con 31 elementi *2,0423 => 95% *2,7500 => 99% con numero di gradi di libertà che tende all'infinito i valori sono quelli della curva di Gauss * * * * * STIMA DELLA FREQUENZA MEDIA PER EVENTI MUTUAMENTE ESCLUSIVI (normalmente frequenti e per campioni molto numerosi) Fenomeni mutuamente esclusivi = quando ci sono più possibilità, ma non possono verificarsi contemporaneamente: quando si verifica una le altre non possono verificarsi. Es. lancio di una moneta: può dare testa o croce (una delle due possibilità esclude l'altra). Fenomeno mutamente esclusivo = che può verificarsi o meno, senza altre possibilità (es. la mortalità). La frequenza relativa dell'evento può essere considerata come stima puntuale della probabilità di verificarsi (p) purché: la frequenza relativa di uno dei due eventi (si/no) sia compresa tra 0,1 e 0,9 la numerosità campionaria tenda a infinito o comunque sia >30 (>100 per altri autori) Quindi errore standard = radice di (p*(1-p)/n) e se ci sono le suddette condizioni si possono usare i valori della curva di Gauss per calcolare gli intervalli di confidenza. Per campioni poco numerosi Se ci sono le seguenti condizioni: la frequenza relativa è < 0,1 o > 0,9 n non è molto elevato (<30 o <100 secondo altri autori) l'errore standard non si distribuisce come la gaussiana, ma seguendo un altro tipo di curva: la binomiale. E' ovvio che con campioni poco numerosi e frequenze così estreme la possibilità che un campione sia rappresentativo è bassissima.

7 AFFIDABILITÀ DEI TEST DIAGNOSTICI Affidabilità = la misura del test deve essere contemporaneamente: valida = la misura deve essere vicina al valore reale riproducibile = più misure sullo stesso campione devono dare valori simili tra loro INFERENZA STATISTICA Si basa sempre su: stime verifica delle ipotesi Quindi dopo aver effettuato nel modo più corretto possibile una stima campionaria da un universo di misure occorre rendersi conto che esistono due ipotesi possibili: H 0 = ipotesi nulla = la stima intervallare non comprende la media universale o la frequenza media universale è l'ipotesi che nega l'ipotesi della ricerca => se la rifiutiamo significa che la nostra ipotesi di partenza era giusta (con una certa percentuale di errore possibile, vedi sotto) se non la rifiutiamo non è detto che l'ipotesi di partenza era sbagliata (potremmo trovarci nell'intervallo di errore accettato, vedi sotto) può verificarsi per: campione selezionato male campione poco numeroso il numero di soggetti da campionare va stabilito a priori sulla base di formule estrema variabilità del fenomeno ecc. è formulata con probabilità di esser nel giusto generalmente del 90% quindi può essere sbagliata con probabilità del 10% => è detto errore beta (o di II tipo) H 1 = ipotesi alternativa = la stima intervallare comprende la media universale o la frequenza media universale è lo scopo del lavoro di medico, quella formulata dal ricercatore con fiducia di solito del 95% quindi questa ipotesi può essere sbagliata al 5% => è detto errore alfa (o di I tipo) Se H0 è vera e la rifiuto commetto un errore alfa Se H0 è falsa e non la rifiuto commetto un errore beta (meno grave dell'alfa) Per ridurre errori alfa e beta bisogna effettuare campionamenti corretti e sufficientemente numerosi: tanto più numerosi quanto più piccolo è l'errore di stima che si accetta tanto più numerosi quanto più variabile è il fenomeno e, per conseguenza, quanto più grande sarà l'errore standard Livello di significatività (α) = possibilità di rifiutare un'ipotesi nulla quando questa è vera di solito 0,05 o 0,01, ma a volte 0,10 (quest'ultimo quando si deve dimostrare qualcosa di ovvio, mentre i più bassi per studi importanti) più è basso più sono sicuro di non rifiutare H0 quando questa è vera Confidenza = la probabilità che si attribuisce alla correttezza, precisione e riproducibilità della stima (è complementare all'errore alfa) errore alfa = probabilità con la quale si ammette che tale stima non sia né corretta né precisa né riproducibile prende per valide differenze che in realtà nell'universo non esistono => attraverso la significatività si riduce l'errore alfa Potenza = probabilità che si attribuisce al fatto che lo studio consenta una stima corretta, precisa e riproducibile (complementare all'errore beta) errore beta = probabilità con la quale si sbaglia ammettendo che lo studio possa non portare a tanto non si accorge di differenze che realmente sono presenti nell'universo => attraverso la potenza si riduce l'errore beta Errori alfa e beta si riducono all'aumentare delle osservazioni. Colui che è convinto di fare una scoperta può commettere l'errore alfa, mentre colui che è convinto di aver fallito lo scopo della sua ricerca può commettere l'errore beta => nessuno può esser certo al 100% di non sbagliare. Non esiste ancora nessun test diagnostico sicuro al 100% sia nel rilevare uno stato patologico che nell'escludere una malattia. Se mi pongo come soglia di significatività 0,05 e ottengo come risultato, ad es., 0,06 => l'ipotesi nulla è vera e quindi non la rifiuto. Per abbassare l'errore alfa si abbassa il livello di significatività (negli studi importanti anche a 0,001).

8 Potenza di un test Dipende da: rischio di errore alfa che si vuole accettare nel rifiutare l'ipotesi (in genere 0,05) la dimensione del più piccolo effetto che, dal punto di vista medico, ha senso rilevare (relativamente alla variabilità della popolazione) numerosità del campione => più è alta e più il test è potente Indicatori di affidabilità (validità e riproducibilità) dei test clinici: validità con sensibilità, specificità, rapporto di verosimiglianza positivo e negativo, valore predittivo positivo e negativo riproducibilità con il test di Bland e Altman e/o con test di concordanza * * * * * GLI ERRORI IN MEDICINA VALIDITÀ DEI TEST DIAGNOSTICI Negli obiettivi, raccolta e analisi dei dati servono accuratezza e precisione, bisogna cercare di abbassare gli errori differenziali e non differenziali, abbassare la variabilità intra e extra-osservazionale => tutto questo è la base, da fare all'inizio (e non in itinere). Accuratezza = quando una certa misura rappresenta (è vicina) la media della popolazione. Precisione = riproducibilità o attendibilità, capacità di una certa misurazione di fornire sempre lo stesso risultato con ripetute misurazioni. Per esempio si può avere grande precisione nella misura con scarsa accuratezza se si è sbagliato l'obiettivo (quindi la media desunta non sarà rappresentativa della popolazione, anche se è stata calcolata molto precisamente). Gli errori differenziali sono i bias (o distorsione) cioè non casuali, quindi i valori tendono ad essere non accurati in una precisa direzione. Si può risolvere se si conosce l'entità del bias (per es. misurazione dell'altezza ad alcuni senza far togliere le scarpe, ad altri facendole togliere). Purtroppo i bias sono molto frequenti. Gli errori non-differenziali sono casuali, possono produrre risultati distorti, non sono perciò risolvibili, però nei campioni numerosi l'entità si bassa di molto (perché il singolo errore casuale alla fine pesa poco). La variabilità deve essere ridotta al massimo: intraosservazionale = quella dell'operatore stesso, cioè su misure ripetute di alcuni parametri da parte dello stesso operatore extraosservazionale = rilevamento di un parametro sullo stesso paziente da parte di due operatori diversi Cosa intendiamo per accuratezza e utilità dei test di screening e diagnostici: grande problema dei risultati falsi positivi e negativi sensibilità specificità => quali sono i valori predittivi? curva Roc => identifica la sensibilità e la specificità I risultati falsi positivi o falsi negativi possono per esempio dipendere dallo stadio della malattia (per antonomasia l'aids: è diagnosticabile solo dopo 5 anni, quindi in quel momento do per sano il soggetto anche se infetto) o per esempio in condizione di fase talmente avanzata della malattia da non riuscire più ad evidenziare quale sia il problema (anergia) => in quella fase non è più rilevabile il risultato. Es. in popolazione ipoparatiroidea i livelli di calcio sono altalenanti => rilevati in certi momenti possono far risultare il soggetto sano. Errori tipo I (falso positivo, errore α) Esempi: Errore da camice bianco (perché di fronte al medico si è più agitati, soprattutto per pazienti molto emotivi => risultano ipertesi). Quando esiste il dubbio che l'emotività incida sul risultato è possibile risolvere la situazione prima di dare un falso positivo ripetendo la misurazione dopo aver fatto calmare il paziente. Se c'è emolisi: visto che il campione di sangue è molto ridotto si ha un valore molto alto di potassiemia => l'iperpotassiemia è una situazione in cui si deve intervenire subito, ma in questo caso è un falso positivo. CPK = è un indice legato all'attività muscolare, ma indica anche problemi cardiaci => bisogna chiedere se la persona fa sport, perché i valori di riferimento sono diversi. Errori tipo II (falso negativo, errore β) Esempi: TAC = per ictus ischemico e ictus emorragico si vedono immagini molto diverse nella TAC, ma nel caso di ictus ischemico entro le prime 4-24 ore la TAC non mostra l'avvenuto ictus => in questo caso un falso negativo è molto pericoloso. Malattie infettive con incubazione lunga quindi non subito evidenziabili

9 Sensibilità e specificità Un test è selettivo quando è in grado di identificare individui sani e malati, commettendo poche misclassificazioni. La selettività si misura in modo quantitativo, oltre ai due parametri sensibilità e specificità. la sensibilità numericamente vale VP/(VP+FN)*100 = VP/malati * 100 VP = veri positivi; FN = falsi negativi se alta dà la possibilità di individuare i veri malati (mai 100%), però può dare falsi positivi = errore alfa (o tipo I) se bassa provoca errore di falso negativo la specificità numericamente vale VN/(VN+FP)*100 = VN/sani * 100 VN = veri negativi; FP = falsi positivi se alta dà la possibilità di individuare i veri sani (mai 100%), però può dare falsi negativi = errore beta (o tipo II) se bassa provoca errore di falso positivo Di fronte ad una patologia grave è importante conoscere i tassi di falso positivo e falso negativo. Cutoff = il punto di separazione tra positivo e negativo per quel dato test (quindi tra condizione di malato e di sano secondo quel valore), è deciso dalla comunità scientifica sulla base di considerazioni di opportunità, ovvero si cerca di scegliere il male minore: spostando il valore del cutoff verso valori patologici aumenta la specificità e diminuisce la sensibilità => si hanno risultati positivi più sicuri e si evitano di più falsi positivi, ma aumentano i falsi negativi spostando il valore del cutoff verso valori di normalità aumenta la sensibilità e diminuisce la specificità => si hanno più risultati positivi e si evitano di più i falsi negativi, ma aumentano i falsi positivi Ovviamente l'ipotesi migliore è quella di avere sensibilità e specificità più alte possibile, ma in base al tipo di malattia favoriamo la sensibilità o la specificità, anche perché non è detto che si possa sempre rifare il test: davanti ad una malattia incurabile dobbiamo usare una grandissima specificità, perché è meglio non dire ad un sano che è malato, che avrebbe una reazione psicologica molto forte per "effetto etichetta", inoltre si dovrebbero eseguire test più pericolosi, dolorosi, ecc. per confermare la diagnosi (in realtà per evidenziare l'errore) è bene avere un'alta specificità anche per malattie ad alta prevalenza, in modo da contenere i falsi positivi ed evitare di finire le risorse per le richieste diagnostiche invece di fronte ad una malattia che in base alla velocità con cui si interviene è curabile si deve usare una grandissima sensibilità, perché così si è sicuri di trovare il maggior numero di persone malate è bene avere alta sensibilità anche per malattie rare, in quanto altrimenti si rischierebbe di non individuare i pochi casi presenti Se non ci si trova in queste condizioni estreme (quindi in generale), allora si deve combinare la specificità con la sensibilità, in modo che si ottenga il massimo prodotto delle due => combinazione perfetta fra sensibilità e specificità di quel test. E' praticamente impossibile una sensibilità o una specificità del 100%, per ogni test vi sarà sempre una quota di falsi negativi o di falsi positivi. Le diagnosi di un solo esame vanno quindi sempre confermate da altri esami e la probabilità di falso positivo o falso negativo totale di tutti i test eseguiti sarà data dal prodotto delle varie probabilità, che essendo numeri inferiori a 1 (es. probabilità del 5% = 0,05) moltiplicandosi a vicenda danno un risultato sempre più basso (quindi minor percentuale di errore).

10 La curva ROC (Receiver Operating Characteristic = curva della caratteristica operativa del ricevitore) Grafico che consente di evidenziare l'effetto che si ha modificando il cutoff o utilizzando un test invece che un altro. E' fornita dall'azienda che ha prodotto lo strumento diagnostico. Sensibilità (asse Y) e specificità (asse X) sono riportate per ogni valore di cutoff. NB: l'asse X riporta un valore complementare alla specificità (1 specificità) => spostandosi dall'origine fino all'estremo alto/dx della curva la sensibilità cresce e la specificità decresce. Quanto più la curva ROC si avvicina al punto di coordinate (0,1) tanto più elevata è l'accuratezza globale del test, perché in questo modo si ha il massimo di veri positivi e il minimo di falsi negativi => la massima possibilità di evitare errori diagnostici. Quindi è migliore lo strumento che tende a (0,0.75) => vedi Test A nella figura in alto, rispetto ad uno che tende a (0,0.50) => vedi Test B. Maggiore è l'area sottesa dalla curva ROC e maggiore è il prodotto tra sensibilità e specificità => maggiore è l'affidabilità dello strumento diagnostico. Una curva che corrisponde alla diagonale (che congiunge 0,0 a 1,1) è quella che identifica un ugual numero di FN e VP => un test perfettamente inutile in campo diagnostico! Nel grafico centrale si può vedere un esempio di curva ROC relativa ad un test per il tumore alla prostata: sono riportati i vari cutoff relativi al PSA ed i rispettivi valori di sensibilità e specificità. I test "gold" tendono esattamente a (0,1) => vedi grafico in basso, ma sono test rari, quelli che fanno contemporaneamente test e esami, quindi hanno una conferma continua degli esami, ma sono molto costosi. PROBABILITÀ CONDIZIONATA La probabilità che una persona sia effettivamente malata quando un test è risultato positivo. Valore predittivo positivo (VPP) di un test VPP = VP / VP+FP = probabilità che una persona sia veramente malata quando un test è risultato positivo (deve essere alta) Valore predittivo negativo (VPN) di un test VPN = VN / VN+FN = probabilità che una persona sia veramente sana quando un test è risultato negativo (deve essere alta) Il valore predittivo è influenzato da sensibilità e specificità del test. Il VPP (ma anche il VPN) è condizionato dalla prevalenza della malattia (cioè dei VP+FN) nella popolazione che effettua il test, perché il numero di FP diminuisce all'aumentare della prevalenza (occorre una corretta selezione da parte del medico dei pazienti che vanno a fare il test). * * * * * CONCORDANZA DEI TEST CLINICI Se ci sono due operatori (osservatori) che non forniscono lo stesso risultato per un paziente c'è discordanza (in 22 casi su 100 c'è discordanza). Prima di tutto bisogna verificare la variabilità intraoperatore (stesso soggetto visto più volte) => test di McNemar per la concordanza funziona come il test del chi-quadro, ma è migliorato: sottopone l'osservatore a ripetute analisi sullo stesso soggetto, senza però che lo sappia. Se questo test è significativo vuol dire che c'è la massima concordanza (perché l'ipotesi nulla era che non ci fosse la concordanza e posso rifiutarla). Test interoperatore = prima di farlo bisogna verificare che ci sia la massima concordanza in ciascuno dei due operatori, poi si procede al test di McNemar a due vie (per due operatori) in cui l'ipotesi nulla è dimostrare che non c'è concordanza fra i due. Se il test è significativo allora specifica che c'è concordanza tra i due. Qualunque medico che faccia ecografia deve confrontare la propria concordanza con quella della equipe in cui lavora. In realtà il grado di accordo, soprattutto interoperatore, può essere valutato meglio con il chi-quadro di McNemar: <0 => disaccordo =0 => accordo casuale 0-0,2 => accordo debole 0,2-0,4 => accordo buono 0,4-0,6 => accordo discreto

11 0,6-0,8 => accordo considerevole 0,8-1 => accordo ottimo, tendente al perfetto Fino a 0,2 si considera che non c'è concordanza: i due operatori non possono lavorare assieme. Anche un accordo buono può non essere sufficiente in una patologia grave, dove è necessario avere risultati (più) sicuri. Per esempio si può applicare in bias di selezione per la creazione di campioni.

12 EPIDEMIOLOGIA Si intende lo studio dei fenomeni emergenti in una popolazione. L'epidemiologia, studiando la frequenza di determinati eventi e di determinate caratteristiche delle popolazioni allo studio, si propone di evidenziare i fattori che portano a malattia o che proteggono dalle malattie, cercando di distinguere: fattori determinanti: quelli che inducono aumento di rischio di malattia (o diminuzione se sono fattori protettivi) fattori confondenti: si associano al determinante e influiscono sul rischio (o protezione). Sono presenti sia fra gli esposti al rischio che fra i non esposti fattori modificatori di effetto: modificano la forza di associazione tra fattore determinante e evento. Sono presenti soltanto fra gli esposti al rischio INDICATORI EPIDEMIOLOGICI Definito il campione e il tipo di studio da utilizzare devo decidere quali indicatori sono indicativi. Indicatori in epidemiologia: Misure di insorgenza (stima della prevalenza, dell'incidenza, del rischio di eventi nocivi, dell'odds di eventi nocivi o protettivi, dei tassi di occorrenza di detti eventi) Misure di associazione (rapporti fra rischi, odd e tassi) Modelli di rischio (costruiti valutando il metodo più idoneo a misurare un rischio e distinguendo tra il rischio assoluto, il rischio relativo e il rischio attribuibile) Applicazioni dei rischi = dove, come, quando calcoliamo questi rischi Misure di insorgenza 1) Stima della prevalenza e dell'incidenza Prevalenza = rapporto tra numero di "casi" e complessivo della popolazione (in un determinato momento => è un dato istantaneo) misura l'esistenza della malattia casi = oggetti che presentano la caratteristica oggetto di studio (in genere una malattia) nel tempo aumenta sempre più in una popolazione, tutt'al più diventa costante può essere calcolata in studi trasversali o all'inizio di studi prospettici Incidenza = rapporto tra numero di "casi nuovi" verificatisi in un definito periodo e complessivo di persone appartenenti alla popolazione che potrebbero divenire "casi nuovi" nello stesso periodo di tempo misura l'apparire della malattia può variare nel tempo, anche riducendosi (per es. grazie alla medicina preventiva) si può parlare di incidenza solo se si parla sempre della stessa popolazione => studio che richiama sempre la stessa coorte (prospettico osservazionale) 2) Rischi e odd Rischio = probabilità che avvenga un determinato evento in una popolazione suscettibile a tale evento (quindi non già colpita dall'evento e neppure non suscettibile) in un determinato intervallo di tempo => nuovi casi tra quelli che riteniamo esposti incidenza invece sono i nuovi casi nella popolazione sana (quindi non è un rischio), ma l'incidenza in una popolazione a rischio non è altro che il rischio stesso, perché la popolazione è già selezionata! quindi per "rischio" non si intende un comportamento sbagliato che provoca la malattia, ma semplicemente la frequenza di quella malattia in un determinato gruppo/categoria di soggetti R = C / N C = numero di nuovi casi nell'intervallo t1-t0 N = numero di soggetti candidati al tempo t0 quindi il denominatore è fisso e dato dal numero di candidati iniziale totale, che comprende sia coloro che si sono ammalati (nuovi casi), che quelli che sono rimasti sani nel periodo di tempo considerato Modelli di rischio Si divide la popolazione in "esposti" e "non esposti", poi si possono calcolare i rischi: Assoluto = quello che abbiamo tutti, anche se può essere molto basso si calcola l'assoluto negli esposti e nei non esposti separatamente Relativo (RR) = rapporto tra rischio assoluto degli esposti/rischio assoluto dei non esposti ha un intervallo ben definito, non è mai zero (perché non è possibile che gli esposti non abbiano il rischio e gli esposti si!) è sempre positivo e può diventare un rischio relativo favorente o protettivo

13 si calcola solo in studi prospettici caso-controllo (o in studi di coorte dopo un certo periodo, quando si possono dividere i soggetti in esposti e non esposti => in questo senso il caso-controllo è figlio dello studio di coorte) individua, o conferma, o lega il fattore di rischio => una volta definito bisogna capire quanto pesi questo rischio => vedi rischio attribuibile Attribuibile = differenza tra rischio assoluto degli esposti e rischio assoluto dei non esposti diviso per il rischio assoluto nella popolazione esposta è bene calcolarlo in % Riduzione del rischio relativo = complemento di RR = (1 - RR) Esempio: Fumo = si ritiene un fattore di rischio per tumore al polmone Esposti = soggetti fumatori Non esposti = soggetti non fumatori Se si rilevano i casi di tumore al polmone in un determinato periodo di tempo (condizione prospettica) nelle due popolazioni, si vede entrambi hanno un rischio: Rischio assoluto nei fumatori = 0.05 (5%) Rischio assoluto nei non fumatori = 0.01 (1%) Questi dati possono essere interpretati in diversi modi: a prima vista sembra solo che il fumo aumenti del 4% il rischio di tumore al polmone il rischio relativo è = 5 => i fumatori hanno 5 volte in più il rischio di tumore al polmone il rischio attribuibile (al fumo) è /0.05 = 0.8 = 80% => l'80% dei tumori al polmone è attribuibile al fumo => questo dato visualizza meglio l'effetto del fattore di rischio fumo Quindi è importante scegliere il modello più indicativo per il nostro studio. Odd = rapporto tra rischio e non rischio: Odd = R / (1-R) più è alto il rischio più è piccolo il denominatore => anche l'odd è più alto in realtà questo non è molto utile da solo => si calcola l'odds ratio si può esprimere anche: Odd = soggetti malati/soggetti non malati [dimostrazione sul libro] il rischio invece è = malati/(malati+non malati) in questo caso al denominatore vengono tolti i candidati che nel periodo di tempo considerato sono diventati "casi", senza però pesare il tempo per cui sono rimasti candidati (cosa che invece si fa nel tasso di incidenza, vedi oltre) Odds ratio = rapporto tra odd esposti e odd non esposti (corrispondente del rischio relativo) si calcola in studi caso-controllo retrospettivi => si dividono i soggetti in affetti da una certa patologia e non affetti => si cerca se c'è stato qualcosa che nel gruppo di affetti ha causato la patologia (che era già presente prima di ammalarsi) non si utilizza in studi prospettici longitudinali, in cui si adotta il rischio relativo è una probabilità e va usata come tale Il rischio relativo può essere sempre quantificato da un rischio attribuibile, l'odds ratio no. Esempio 1: Studio prospettico sul rischio di parto prematuro dato dall'attività fisica intensa in gravidanza. Donne gravide esposte = quelle che fanno attività fisica intensa 238 donne, 22 hanno avuto un parto prematuro => R assoluto = 9,24% Donne gravide non esposte = quelle che fanno poca attività fisica 217 donne, 18 hanno avuto un parto prematuro => R assoluto = 8,29% RR = 1,1 => l'attività fisica intensa in gravidanza è un rischio per il parto prematuro R attribuibile = (9,24-8,29)/9,24 = = 10,28% Esempio 2: Dei pediatri hanno voluto verificare se bambini di circa 5-6 anni obesi lo fossero perché le loro madri in gravidanza avevano fumato. La patologia quindi era già evidente => è uno studio retrospettivo => possiamo calcolare l'odds ratio (e non il rischio) = 9,62 => il fumo è valutabile come rischio. Si è scelto, in questo caso, di verificare il fumo, ma lo si poteva fare con altri fattori (es. obesità della madre) => questo è un limite degli studi retrospettivi. Come si interpretano i risultati quando RR o OR < 1 => si tratta di un fattore protettivo

14 quando RR o OR = 1 => il fattore è ininfluente quando RR o OR > 1 => si tratta di un fattore di rischio Tutto questo fa riferimento, però, ai risultati di un campione e siamo obbligati a valutare gli intervalli di confidenza per poterlo confermare sulla popolazione target. Quindi un RR o un OR non associato al proprio intervallo di confidenza non ha nessun significato clinico. 1) se l'intervallo di confidenza comprende 1 (qualunque sia il risultato di RR o OR) => il risultato è ininfluente perché significa che nella popolazione può scendere sotto 1, essere uguale a 1 e salire sopra 1 => per un gruppo è un fattore di rischio, per un altro è ininfluente, per un altro ancora è un fattore protettivo!!! Quindi quel campione non ha dimostrato nulla: può essere sia un fattore di rischio che un fattore protettivo. nel precedente esempio 1: RR = 1,1 con I.C. 0,64-1,90 => RR dice che si tratta di un fattore di rischio, ma il suo I.C. comprende 1 => non è un risultato valido => l'attività fisica in gravidanza potrebbe essere un fattore di rischio o anche un fattore protettivo, perché in popolazione questo RR può scendere fino a 0,64 e salire fino a 1,90 2) se RR o OR > 1 e I.C. è tutto > 1 => è un fattore di rischio nel precedente esempio 2: OR = 9,62 con I.C. 7,12-13,5 => il fumo in gravidanza è un fattore di rischio per l'obesità del figlio attorno ai 5-6 anni 3) se RR o OR < 1 e I.C. è tutto < 1 => è un fattore protettivo E' l'i.c. che mi conferma o mi nega un risultato, sempre. Un I.C. è considerato in genere ammissibile se comprende un intervallo di +/- 5% del valore della media. RR e OR sono detti misure di associazione, perché sono utilizzate quando si vogliono fare confronti fra due gruppi diversi (esposti/non esposti). 3) Tassi e rapporti Tasso = in generale è il rapporto tra un valore e un denominatore che contiene il valore stesso. T = [a / (a+b)] * K K varia a seconda della frequenza della patologia patologie molto rare = K molto grande = 1000, , , ecc. patologie comuni = K piccolo = 10, 100, ecc. Rapporto = quando il rapporto è tra due valori che non hanno nessuna relazione vera tra loro: una proporzione che mi dà in genere una informazione sullo stato di salute della popolazione R = (c / d ) * K es. tra numero di posti letto e numero di abitanti di una certa zona Tassi di mortalità Tasso grezzo di mortalità annuale = numero totale di deceduti in un anno intero in una popolazione/numero di residenti in quella popolazione al 1 luglio di quell'anno è una misura burocratica Tassi specifici di mortalità annuale = prendono in considerazione sottogruppi (per patologie, sesso, età, ecc.), sempre in rapporto ai residenti al 1 luglio di quell'anno K = 1000 bisogna avere lo stesso K per poter confrontare dati di mortalità di regioni diverse Tassi di mortalità corretti o standardizzati = il grezzo non tiene conto dell'età, quindi ad esempio una popolazione che invecchia può avere un tasso di mortalità più elevato di un'altra più giovane, ma non è un'indicazione corretta ne per l'uno ne per l'altro => il tasso va standardizzato per età, sesso, etnia. es. si rapporta il numero di morti per influenza a 2 anni di età con il numero di morti totali di quell'anno alla stessa età In Italia ci sono leggi per la privacy che limitano molto questo tipo di studi, perché per calcolare i tassi devo avere una popolazione di confronto. Es. per calcolare il tasso di mortalità in Georgia è stata utilizzata come popolazione di confronto quella di tutti gli USA Es. posso calcolare facilmente il tasso di mortalità per tutte le cause di Bologna, ma non riesco ad averlo per i tassi specifici (sono questi quelli utili) per poterlo confrontare a quello regionale o nazionale. In Italia è difficile avere dati, talvolta anche riguardo alle cause di morte, oppure anche conoscendo queste non sono disponibili altri dati importanti (ad es. in un ospedale di Bologna possono essere ovviamente ricoverate anche persone provenienti da altre regioni, ma alla fine dell'anno abbiamo solamente il numero di decessi per patologia, senza poter conoscere la provenienza dei pazienti)

15 Rapporto di mortalità proporzionato (o tasso proporzionale di mortalità) = numero di morti di un certo sottogruppo / numero totale di morti (espresso sempre in percentuale) ci dà il peso della causa di morte in quel momento [importante!] Altri tassi Fertilità = attitudine alla procreazione => lo hanno tutte le donne in età fertile Fecondità = manifestazione concreta della capacità di procreare => espressa dalle donne gravide Importante: non confondere questi due tassi! Misure di morbosità Tasso di incidenza = (numero di nuovi casi di una malattia specifica durante un anno /popolazione che potenzialmente può diventare caso, al 1 luglio di quell'anno) * K NB: al denominatore non c'è tutta la popolazione, ma solo quella che può diventare "caso": es. per il carcinoma ovarico = le donne che non abbiano agenesia ovarica, che non abbiano subito ovariectomia, che non fossero già malate al tempo t0 In realtà è calcolato come segue: Tasso di incidenza = (nuovi casi nel tempo t1-t0) / [Σ (Δt candidato )] (Δt candidato ) = periodo di tempo per cui ogni candidato è rimasto tale => quando diventa "caso" non è più un candidato => in questo modo il tempo di permanenza è ponderato (per i candidati che rimangono tali per tutto il periodo di tempo il (Δt candidato ) è uguale a t1-t0) Σ (Δt candidato ) = Σ (n candidati * Δt candidati ) => numero di candidati che sono rimasti tali per un certo Δt quindi il tasso di incidenza è un rapporto tra casi e tempo-persone (il rischio invece è una semplice proporzione) Tasso di prevalenza = (numero totale di casi di una malattia specifica/popolazione che potenzialmente può diventare caso, in quell'istante) * K è un dato istantaneo e non riferito ad un intervallo di tempo Rapporto di letalità = (numero totale di morti dovute ad una malattia/numero totale di persone affette da tale malattia in un intervallo di tempo) * 100 l'intervallo di tempo considerato in genere è di mesi o di giorni Rapporto di immaturità = numero di nati vivi con peso alla nascita < g in un anno / numero totale di nati vivi in quell'anno è una misura che si prende ancora in considerazione in questo modo, sebbene oggi il limite di g per considerare un feto immaturo si sia abbassato notevolmente (sopravvivono feti al di sotto del kg) NB: La prevalenza e l'incidenza sono relative ad un campione, i relativi tassi invece sono in rapporto all'intera popolazione. * * * * * STATISTICA DI MANTEL-HAENSZEL (MH) Questa statistica va usata quando c'è coscienza della presenza di variabili confondenti, che vanno sempre identificate. La relazione che c'è tra una malattia e un fattore di rischio dobbiamo sempre valutarla tenendo conto di un quadro generale. Applicando questa tecnica l'ipotesi nulla è che non ci sia relazione tra la malattia e il fattore di rischio. Es. se osservo risultati indipendentemente dall'età, non tengo conto di quella variabile (per altro non modificabile) che pesa moltissimo in genere sull'insorgenza delle malattie. Qualsiasi studio, soprattutto retrospettivo, richiede l'uso di questa tecnica. Questo perché nel retrospettivo valuto una variabile che ho deciso io, non che ho osservato, per cui devo intervenire in assoluto con la certezza che vengano pesati i risultati. Se si calcola un OR tenendo conto di una variabile sola (e quindi non anche di quelle confondenti) si tende a sovrastimarne il peso. Es. diabete in gravidanza: oltre alla dieta devo valutare anche l'eventuale familiarità, altrimenti la dieta sarà sovrastimata come fattore di rischio nelle gravide che hanno familiarità. Nel retrospettivo è obbligatorio utilizzare questa statistica, in uno prospettico è comunque bene applicarla. La variabili confondenti più comuni sono senz'altro l'età e il genere, quindi ogni qualvolta abbiamo campioni eterogenei sotto questi aspetti dobbiamo tenerne conto. Si effettua una stratificazione (creazione di sottogruppi) ad es. per età e sesso. In questo modo però calcolando degli RR o OR si rischia di incorrere in errore beta dovuto a numerosità troppo basse. Attraverso la statistica di MH è possibile invece calcolare un OR generale (coi suoi limiti di confidenza) "depurato" delle variabili confondenti (vedi pag. 134 del libro per le formule). Esempio:

16 Studio su donne che hanno avuto il cancro alla cervice, sopravvivenza ad un anno dalla diagnosi: Donne come meno di 50 anni: 371 soggetti, 16 non sopravvissute Donne con più di 50 anni: 376 soggetti, 219 non sopravvissute Da questi dati si vede immediatamente che le donne più anziane con ca. alla cervice abbiano una mortalità più elevata. Cosa devo fare per ottenere un reale risultato? Qual è il fattore esposizione? Per la domanda che mi sono posto è necessario applicare la statistica di MH? Il fattore di esposizione è l'età. Già dai dati sopra esposti si evince che l'età è un fattore talmente forte che non servono ulteriori elaborazioni, ma essendo due gruppi diversi sarebbe necessario applicare la statistica di MH. Se le pazienti non fossero state suddivise in due gruppi per età non avrebbe avuto senso la valutazione della mortalità in un campione così eterogeneo! Il limite di questi dati è che non si sanno le età medie dei due gruppi: conoscendole si potrebbe eventualmente criticare lo studio. * * * * * STUDI EPIDEMIOLOGICI L'epidemiologia ci permette di studiare la frequenza della malattia nella popolazione, cioè ci permette di monitorare la popolazione e la sua condizione sanitaria. Si fanno studi osservazionali: non si fa nessuna manipolazione, è una popolazione che si arruola spontaneamente (free living). Permette di trovare i fattori di rischio, quelle variabili che determinano la variazione di altre (es. insorgenza di malattie). Ci sono tre tipi di studi epidemiologici: 1) trasversali Fotografia sanitaria della popolazione in quel momento: frequenza delle malattie, altezza media, peso, ecc. quindi di tutte le caratteristiche che arruolo. Può dare solamente la prevalenza. Ha il grande vantaggio di essere veloce e costare poco. Permette di formulare ipotesi che non posso dimostrare con quello studio, ma con altri più specifici, mi può far osservare qualcosa che non avevo visto prima. Svantaggi: non dà nessuna correlazione causa-effetto, perché è l'immagine di un momento i dati possono essere condizionati dal periodo in cui vengono rilevati (ad es. l'influenza è molto frequente in gennaio, quasi assente in agosto) le malattie a decorso brevissimo possono non essere "prese" (bias di Neymann) non posso verificare nessuna ipotesi con questo studio, ma posso utilizzarlo per ottenere nuove ipotesi questo tipo di studi non è adatto a valutare con certezza rapporti causa-effetto a causa della "fallacia ecologica" = essendo la fotografia di un momento facilmente non tiene conto di fattori momentanei, di inquinamento, ecc. (se aumentano due variabili contemporaneamente si potrebbe dedurre che una è la causa della variazione dell'altra, ma questo non è assolutamente detto). Es. si fanno sempre i rilevamenti la domenica => quel giorno le fabbriche sono chiuse e l'inquinamento è molto inferiore. Se si fanno sempre i rilevamenti tra lunedì e venerdì invece si trova un inquinamento costante (in entrambi i casi non è corretto). 2) prospettici Longitudinale = individua una popolazione esposta ad un certo fattore di rischio o protettivo (chiamata coorte), definisce un tempo di richiamo per controlli successivi (follow up) in modo da poter individuare i soggetti che divengono "casi". Vantaggi: numerosità elevata mi consente di studiare più effetti contemporaneamente permettono di valutare il trend spontaneo dei fattori di rischio unici che permettono di verificare esposizioni rare Svantaggi: molto costosi, perché richiedono molto personale per seguire la popolazione numericamente molto elevata problemi etici = se osservo modificazioni nei fattori di rischio non devo intervenire perché sono un osservatore drop out = arruolo una coorte storica dopo un follow up per es. di 3 anni, non tutti parteciperanno, dopo 6 anni non tutti parteciperanno (alcuni che non si erano presentati prima potrebbero presentarsi e viceversa) => la coorte va riducendosi col tempo (bisogna partire da coorti molto numerose) non sono adatti a patologie rare (dovrebbe aver prevalenza almeno del 10%) = il campione pur essendo molto numeroso non include con certezza tutte le patologie rare presenti nella popolazione effetto screening = le persone sanno di essere controllate regolarmente ed hanno la tendenza ad avere uno stile di vita che fa ammalare meno effetto coorte = ai controlli tendono a presentarsi solo le persone più disciplinate, con la conseguenza che si autoseleziona una popolazione potenzialmente molto diversa dalla popolazione generale (che comprende anche homeless, soggetti antisociali, eremiti, ecc.)

17 Caso-controllo = si parla di un gruppo che ritengo esposto al fattore di rischio rispetto ad un secondo gruppo e controllo nel tempo entrambi i gruppi => deriva dal longitudinale, ma vuole verificare cosa succede nei soggetti esposti a certi fattori di rischio, quindi va a selezionare i soggetti e diventa adatto anche a patologie rare. Svantaggi: si può studiare solo una patologia alla volta (si lavora sui fattori di rischio specifici) problemi etici ancora maggiori per la consapevolezza dei rischi che corrono i soggetti studiati alti costi drop out = nonostante abbiamo sensibilizzato chi consideravamo a rischio, ma non abbiamo fatto nulla, ma soprattutto se il soggetto è asintomatico non torna sempre al controllo Vantaggi: veloci = perché si parte già da una conoscenza dei fattori di rischio, non li si va a cercare adatti per patologie rare (prevalenza < 10%) L'UE definisce malattie rare quelle con prevalenza < 0,05% (<1 caso su abitanti) - 3) retrospettivi Quando si raccolgono dati di reparto, parte quindi da una popolazione selezionata (ha già la patologia) e va indietro a vedere cosa è successo. Dipende spesso da quanti soggetti ho nel reparto con quelle caratteristiche, quello longitudinale è uno studio al quale si può fare poco affidamento => in pratica ha solo svantaggi e non è affidabile. Il caso-controllo è un po' più affidabile, parte da casi affetti e considera un controllo di casi non affetti => dà la possibilità di calcolare delle probabilità (attraverso l'odds ratio), niente di più. Vantaggi: possiamo studiare patologie rare sono veloci si studiano più esposizioni contemporaneamente Svantaggi: studia una patologia per volta problemi etici problemi di bias di selezione validità generalizzata (non generalizzata) Per poter dimostrare qualcosa si deve essere sempre in grado di fornire i dati del controllo, altrimenti non so se quella modificazione sarebbe avvenuta lo stesso oppure se è avvenuta per quella condizione particolare. * * * * * STUDI OSSERVAZIONALI-EPIDEMIOLOGICI Gli studi più importanti sono nati per le malattie cardiovascolari, non abbiamo studi altrettanto importanti per l'oncologia. Questo ha fatto si che nel campo cardiovascolare la prevenzione sia molto avanti, ma non è successo altrettanto in oncologia. 1) Framingham heart study (città del Massachussets) Primo studio in assoluto, molto utilizzato. Obiettivo primario = ci si proponeva di valutare il peso dello stress sulle malattie coronariche. Nei primi 10 anni si era focalizzata tutta l'attenzione sul dato stress, in seguito invece anche sugli altri fattori di rischio. inizio = 1948 popolazione arruolata = 6500 (uomini e donne) età all'ingresso = anni follow up = ogni 2 anni (quindi è uno studio prospettico longitudinale) obiettivo = verifica dei fattori di rischio per coronaropatie lo studio va avanti da 3 generazioni anche su figli (anche mariti e mogli degli stessi) e figli dei figli Il SSN in Italia ha stabilito che se il paziente ha il fattore di rischio calcolato nel Framingham superiore ad una certa percentuale (20%) ha diritto al farmaco gratuito. Il Framingham in realtà ha sovrastimato il problema italiano, perché ha caratteristiche più simili alla popolazione del Nord europeo. 2) Seven Country Study Ne fa parte anche l'italia (con Crevalcore e S. Giorgio (Padova)). inizio = 1960 popolazione arruolata = uomini età all'ingresso = anni obiettivo = verifica della relazione tra colesterolo e sviluppo di coronaropatie

18 Risultato: all'aumentare del colesterolo aumenta la mortalità a prescindere dal valore iniziale. Anche in Giappone, che ha il livello di colesterolo più basso in assoluto, l'incidenza è massima per i valori più alti. Limite: confermabile solo su uomini di quell'età 3) Studio MRFIT (Multiple Risk Factor Intervention) 18 città degli USA inizio = popolazione arruolata = uomini età all'ingresso = anni obiettivo = la modificazione dei fattori di rischio per le coronaropatie ne riduce l'incidenza? l'intervento è stato definito "soft", cioè assumendo una corretta alimentazione => riduzione dei grassi saturi i risultati di questo studio hanno influenzato la popolazione con una modificazione della dieta in quegli anni e un abbassamento della mortalità per coronaropatie negli USA, ma in seguito tutto questo si è perso ed oggi c'è una situazione allarmante data dal fatto che la popolazione USA non segue più queste indicazioni e l'obesità addirittura è considerata una epidemia 4) Studio PROCAM (Prospective Cardiovascular Munster) fatto a Munster (Germania) inizio = 1979 popolazione arruolata = uomini età all'ingresso = anni follow up = 10 anni (molto lungo! La popolazione target "sfugge") obiettivo = valutazione degli effetti del colesterolo su infarto del miocardio fatale e non fatale (tenendo conto di livello di HDL e LDL) si è riscontrata una correlazione lineare tra livelli di colesterolo totale e eventi coronarici Insieme al Framingham è il più utilizzato dal SNN italiano per calcolare rischi e definire linee guida e terapie in diversi campi. 5) Brisighella study Studio prospettico longitudinale osservazionale per verificare il trend temporale dei principali fattori di rischio per aterosclerosi e malattie coronariche (obiettivo primario) Brisighella (Ravenna) inizio = 1972 popolazione arruolata = circa (uomini e donne) età all'ingresso = superiore ai 14 anni follow up = 4 anni, continuano a tutt'oggi Registrati mortalità e morbosità per tutte le cause (con riferimento a incidenza e prevalenza). Dal 3 controllo (1984) si può osservare un confronto generazionale => cioè nonostante lo studio sia longitudinale (si richiama sempre la stessa coorte) metto a confronto le persone che avevano 30 anni (o 40 anni, ecc.) nel 72 e quelle che ne hanno 30 oggi => che differenze ci sono? quali osservazioni cliniche posso rilevare? pressione arteriosa sistolica = è rimasta stabile in entrambi i sessi livello di colesterolo totale = nel 1972 i livelli erano molto più bassi rispetto all'1984 (sia in uomini che donne) => uno dei più importanti fattori di rischio per malattie cardiovascolari è aumentato => la differenza è significativa? E' una media, non rappresenta la popolazione in assoluto se non è accompagnata dalla sua deviazione standard. Sono due campioni indipendenti (i soggetti sono diversi) => si applica il T di Student per campioni indipendenti => verifico se la differenza che vedo è statisticamente significativa o no Altri risultati prevalenza di ipercolesterolemia (soggetti che hanno livello superiore a quello considerato come soglia di rischio) = in oltre il 50% delle donne dell'ultimo controllo => questo dato così forte è del tutto attendibile? L'età non è considerata (non è riportata) => non si riesce a valutare correttamente questo dato. eventi coronarici fatali calcolati per per anno e interazione con i fattori di rischio (sulla base di livelli di pressione arteriosa sistolica e di colesterolo) => se entrambi i fattori di rischio sono bassi la mortalità è bassa e viceversa (quindi conferma i fattori di rischio) In questo caso le linee (i trend) sono quasi sovrapposti, però nel confronto generazionale i fattori di rischio sono più o meno sempre gli stessi. * * * * *

19 LA PREVENZIONE Primaria = lavora sempre sul sano, interveniamo prima ancora che il fattore sia alterato Secondaria = si fa attraverso programmi di screening e lavora in fase preclinica della malattia, interveniamo quando il fattore è già alterato Terziaria = quando la malattia è già manifesta, interveniamo per non farla progredire Il test diagnostico (prevenzione secondaria) nello screening ci dà la massima informazione senza essere estremamente invasivi, se poi il test non è sufficiente devo fare l'esame diagnostico che invece è invasivo (es. biopsia). Il rischio di errore dei test diagnostici è di avere falsi positivi e falsi negativi. Nello screening si deve normalmente puntare ad una grande anticipazione diagnostica => attraverso test altamente sensibili che individuano cioè molti veri positivi. La durata e la frequenza del programma di screening si fondano sulla conoscenza della estensione della fase preclinica della malattia e sulla conoscenza della anticipazione diagnostica: se il test è molto raffinato e riesce a raggiungere con precisione anche piccole masse tumorali => possiamo anche avere un tempo di re-screening lungo se il test dà una buona sensibilità, ma una precisione non molto alta il tempo di re-screening deve essere molto serrato * * * * * TRIAL CLINICI Per confrontare terapie, metodiche nuove. I soggetti sono sempre divisi in due o più gruppi a seconda di quante sono le metodiche da confrontare. Quando esamino i risultati, la differenza è solo legata al trattamento, o alla metodica, alla quale i soggetti sono sottoposti => bisogna fare una randomizzazione rigida per evitare che ci siano bias di selezione = inesattezze nel rilevare il dato. Es. trattamento per la crescita = arruolo dei bambini e li divido in due gruppi con altezze medie sovrapponibili. Se ad un gruppo misuro l'altezza con le scarpe e all'altro senza => creo un bias. Bisogna quindi suddividere i gruppi randomizzandoli in modo che non ci sia nessuna differenza statisticamente significativa. Obiettivo primario (o end-point) = da decidere all'inizio, tutto si baserà su questo, tutto va disegnato a priori, dando anche termini di inclusione e esclusione dallo studio, devo cercare di prevedere il massimo per cercare di non incorrere in errori che mi portino a risultati falsati. Quando si fa un'ipotesi bisogna specificare cosa si vuole ottenere dal confronto, per es. tra due o più farmaci, es. dimostrare che uno è meglio dell'altro, devo avere conoscenze molto precise su quello che andrò a studiare. Più si vuole rilevare una differenza grande, più la numerosità del campione deve essere alta. Studio randomizzato = quando si somministrano due interventi diversi su due gruppi di un campione e i gruppi sono stati formati casualmente dal campione. Questo garantisce che non ci siano bias nella formazione dei gruppi (per es. favorendo, anche inconsciamente, certi soggetti rispetto ad altri, assegnando loro il gruppo che si ritiene riceverà il farmaco migliore). Studio in doppio cieco = quando ne il ricercatore ne il paziente sanno qual è il farmaco somministrato. I clinical trial possono essere di tre tipi: 1) studi controllati la rappresentatività della casistica (randomizzazione) deve essere molto rigida ci deve essere una confrontabilità della terapia cecità del paziente e del ricercatore (nessuno deve sapere quale terapia viene somministrata) e anche di chi elaborerà i risultati => doppio cieco i risultati e le conclusioni sono basati solo sull'end-point primario se raggiungo l'obiettivo primario lo studio controllato è valido (solo questo lo valida) posso prendere in considerazione anche quelli secondari se non raggiungo l'obiettivo primario non ha senso prendere in considerazione obiettivi secondari anche se appaiono significativi, perché ho basato tutto sul primario questo è il clinical trial più usato, in generale serve un numero di pazienti alto Caratteristiche di uno studio controllato randomizzato (randomized controlled trial, RCT) - (da: 1. sperimentale (trial): le modalità di assegnazione dei soggetti alla popolazione da studiare vengono stabilite dallo sperimentatore. Una volta reclutata la popolazione, sulla base di tutte le variabili di significato prognostico noto considerate dal ricercatore (natura e gravità della malattia, età, parità...), si verifica l'effetto di un trattamento (ad esempio, la somministrazione di un farmaco) confrontandolo con l'effetto di un altro diverso trattamento (ad esempio, un altro farmaco, nessun farmaco o un placebo). 2. controllato (controlled): i soggetti coinvolti nello studio sono suddivisi in due gruppi: il gruppo o braccio sperimentale che riceve il trattamento, e il gruppo o braccio di controllo che riceve un diverso o

20 nessun trattamento. Se la sperimentazione è eseguita correttamente (punto 1), i due gruppi risultano il più possibile omogenei, almeno per tutte le variabili considerate, e quindi comparabili. 3. randomizzato (randomized): l'assegnazione del trattamento ai soggetti deve avvenire con un metodo casuale (random). La randomizzazione aumenta la probabilità che altre variabili, non considerate nel disegno dello studio, si distribuiscano in maniera uniforme nel gruppo sperimentale e in quello di controllo. In questo modo, le differenze eventualmente osservate tra i due gruppi possono essere attribuite al trattamento. La randomizzazione da sola non garantisce però che i gruppi così generati siano perfettamente identici e che le differenze osservate non siano dovute a sbilanciamenti casuali tra i gruppi. L'analisi statistica tiene conto di questa possibilità e la quantifica nella presentazione dei risultati 2) studi cross over solo ed esclusivamente per confrontare due trattamenti lavora in modo tale per cui i soggetti del gruppo A e quelli del B prenderanno entrambi i trattamenti: il gruppo A prende il farmaco 1 per un certo periodo, mentre il gruppo B prende il farmaco 2 dopo un periodo di follow up ci sarà inversione dei due trattamenti il gruppo A prende il farmaco 2 e il gruppo B il farmaco 1 vantaggio è che in questo modo si raddoppia il campione lo svantaggio è che per fare una buona applicazione bisogna fare un periodo di washout in cui non si prendono farmaci (corrisponde al follow up) e si torna allo stato iniziale questo tipo di studio va applicato su patologie croniche, un grosso limite è il fatto di far sospendere la terapia al paziente. Per questo i comitati etici hanno interrotto questi studi per malattie croniche gravi, dove cioè il farmaco è salvavita non si può mai applicare a patologie che non siano croniche (se sono guariti dopo il primo trattamento non ha senso fare il cross over) 3) sequenziali si possono confrontare 2 o più trattamenti (somministrati casualmente ai vari pazienti => randomizzazione) i risultati vengono analizzati a intervalli definiti a priori lo studio termina quando si è raggiunto l'obiettivo primario si è raggiunta la dimensione del campione che mi ero proposto => da quel momento analizzo i dati che ho ottenuto si usa molto raramente contro: la durata dei trattamenti è diversa a seconda del momento dell'arruolamento, non si sa quanto dura lo studio Esempio: Terapia Di Bella: si basava sulla ricerca di aumentare la risposta immunitaria verso il tumore come alternativa alla chemioterapia. Quando si è fatta la sperimentazione si è proceduto così: affrontavano chemioterapia i soggetti che avevano appena avuto l'intervento la terapia Di Bella è stata invece somministrata ai soggetti terminali La chemioterapia è risultata più efficacie, ma in realtà le condizioni di base erano molto diverse e in pratica lo studio non ha provato nulla. In questo caso si trattava di un trial controllato, anche se le condizioni non erano adeguate. Esempio: Trial clinico controllato randomizzato (doppio cieco) => confronta più trattamenti. Obiettivo primario: i ricercatori si proponevano di dimostrare che c'era un'incidenza più bassa di eventi coronarici nei soggetti che assumevano un certo farmaco (ipotensivo e ipolipidemizzante) rispetto a quelli che assumevano altri farmaci. Dal 1994 al 2002 => 8 anni di arruolamento => soggetti con età maggiore di 55 anni, ipertesi e con almeno un altro fattore di rischio per malattia coronarica (dati raccolti in oltre 600 centri del Nord-America) I canoni del trial clinico controllato sono osservati correttamente? la casistica è rappresentativa? Non è dato il sesso dei partecipanti periodo di arruolamento: in questi 8 anni le linee guida per la definizione dello stato di ipertensione sono cambiate 3 volte confrontabilità della terapia: i dosaggi dei tre farmaci sono molto variabili; i tre farmaci sono utilizzati in gruppi di soggetti di numero molto diverso

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: Esempi di domande risposta multipla (Modulo II) 1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: 1) ha un numero di elementi pari a 5; 2) ha un numero di elementi

Dettagli

Inferenza statistica. Statistica medica 1

Inferenza statistica. Statistica medica 1 Inferenza statistica L inferenza statistica è un insieme di metodi con cui si cerca di trarre una conclusione sulla popolazione sulla base di alcune informazioni ricavate da un campione estratto da quella

Dettagli

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a) Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B Eventi indipendenti: un evento non influenza l altro Eventi disgiunti: il verificarsi di un evento esclude l altro Evento prodotto:

Dettagli

Corso di. Dott.ssa Donatella Cocca

Corso di. Dott.ssa Donatella Cocca Corso di Statistica medica e applicata Dott.ssa Donatella Cocca 1 a Lezione Cos'è la statistica? Come in tutta la ricerca scientifica sperimentale, anche nelle scienze mediche e biologiche è indispensabile

Dettagli

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010 LEZIONE 3 "Educare significa aiutare l'animo dell'uomo ad entrare nella totalità della realtà. Non si può però educare se non rivolgendosi alla libertà, la quale definisce il singolo, l'io. Quando uno

Dettagli

Il concetto di valore medio in generale

Il concetto di valore medio in generale Il concetto di valore medio in generale Nella statistica descrittiva si distinguono solitamente due tipi di medie: - le medie analitiche, che soddisfano ad una condizione di invarianza e si calcolano tenendo

Dettagli

Statistiche campionarie

Statistiche campionarie Statistiche campionarie Sul campione si possono calcolare le statistiche campionarie (come media campionaria, mediana campionaria, varianza campionaria,.) Le statistiche campionarie sono stimatori delle

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2014-2015 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

Misure della dispersione o della variabilità

Misure della dispersione o della variabilità QUARTA UNITA Misure della dispersione o della variabilità Abbiamo visto che un punteggio di per sé non ha alcun significato e lo acquista solo quando è posto a confronto con altri punteggi o con una statistica.

Dettagli

Indici di dispersione

Indici di dispersione Indici di dispersione 1 Supponiamo di disporre di un insieme di misure e di cercare un solo valore che, meglio di ciascun altro, sia in grado di catturare le caratteristiche della distribuzione nel suo

Dettagli

VERIFICA DELLE IPOTESI

VERIFICA DELLE IPOTESI VERIFICA DELLE IPOTESI Nella verifica delle ipotesi è necessario fissare alcune fasi prima di iniziare ad analizzare i dati. a) Si deve stabilire quale deve essere l'ipotesi nulla (H0) e quale l'ipotesi

Dettagli

Principi generali. Vercelli 9-10 dicembre 2005. G. Bartolozzi - Firenze. Il Pediatra di famiglia e gli esami di laboratorio ASL Vercelli

Principi generali. Vercelli 9-10 dicembre 2005. G. Bartolozzi - Firenze. Il Pediatra di famiglia e gli esami di laboratorio ASL Vercelli Il Pediatra di famiglia e gli esami di laboratorio ASL Vercelli Principi generali Carlo Federico Gauss Matematico tedesco 1777-1855 G. Bartolozzi - Firenze Vercelli 9-10 dicembre 2005 Oggi il nostro lavoro

Dettagli

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Un po di statistica. Christian Ferrari. Laboratorio di Matematica Un po di statistica Christian Ferrari Laboratorio di Matematica 1 Introduzione La statistica è una parte della matematica applicata che si occupa della raccolta, dell analisi e dell interpretazione di

Dettagli

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica Università del Piemonte Orientale Corsi di Laurea Triennale di area tecnica Corso di Statistica Medica Campionamento e distribuzione campionaria della media Corsi di laurea triennale di area tecnica -

Dettagli

Indici (Statistiche) che esprimono le caratteristiche di simmetria e

Indici (Statistiche) che esprimono le caratteristiche di simmetria e Indici di sintesi Indici (Statistiche) Gran parte della analisi statistica consiste nel condensare complessi pattern di osservazioni in un indicatore che sia capace di riassumere una specifica caratteristica

Dettagli

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo. DALLE PESATE ALL ARITMETICA FINITA IN BASE 2 Si è trovato, partendo da un problema concreto, che con la base 2, utilizzando alcune potenze della base, operando con solo addizioni, posso ottenere tutti

Dettagli

LA CORRELAZIONE LINEARE

LA CORRELAZIONE LINEARE LA CORRELAZIONE LINEARE La correlazione indica la tendenza che hanno due variabili (X e Y) a variare insieme, ovvero, a covariare. Ad esempio, si può supporre che vi sia una relazione tra l insoddisfazione

Dettagli

Calcolo delle probabilità

Calcolo delle probabilità Calcolo delle probabilità Laboratorio di Bioinformatica Corso A aa 2005-2006 Statistica Dai risultati di un esperimento si determinano alcune caratteristiche della popolazione Calcolo delle probabilità

Dettagli

Concetto di potenza statistica

Concetto di potenza statistica Calcolo della numerosità campionaria Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Concetto di potenza statistica 1 Accetto H 0 Rifiuto H 0 Ipotesi Nulla (H

Dettagli

Stima per intervalli Nei metodi di stima puntuale è sempre presente un ^ errore θ θ dovuto al fatto che la stima di θ in genere non coincide con il parametro θ. Sorge quindi l esigenza di determinare una

Dettagli

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo Metodi statistici per l economia (Prof. Capitanio) Slide n. 9 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 TEST D IPOTESI Partiamo da un esempio presente sul libro di testo.

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 10-Il test t per un campione e la stima intervallare (vers. 1.1, 25 ottobre 2015) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia,

Dettagli

SPC e distribuzione normale con Access

SPC e distribuzione normale con Access SPC e distribuzione normale con Access In questo articolo esamineremo una applicazione Access per il calcolo e la rappresentazione grafica della distribuzione normale, collegata con tabelle di Clienti,

Dettagli

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Elementi di Epidemiologia

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Elementi di Epidemiologia Università del Piemonte Orientale Corsi di Laurea Triennale Corso di Statistica e Biometria Elementi di Epidemiologia Corsi di Laurea Triennale Corso di Statistica e Biometria: Elementi di epidemiologia

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 29-Analisi della potenza statistica vers. 1.0 (12 dicembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

ANALISI DELLE FREQUENZE: IL TEST CHI 2

ANALISI DELLE FREQUENZE: IL TEST CHI 2 ANALISI DELLE FREQUENZE: IL TEST CHI 2 Quando si hanno scale nominali o ordinali, non è possibile calcolare il t, poiché non abbiamo medie, ma solo frequenze. In questi casi, per verificare se un evento

Dettagli

LE CARTE DI CONTROLLO (4)

LE CARTE DI CONTROLLO (4) LE CARTE DI CONTROLLO (4) Tipo di carta di controllo Frazione difettosa Carta p Numero di difettosi Carta np Dimensione campione Variabile, solitamente >= 50 costante, solitamente >= 50 Linea centrale

Dettagli

La distribuzione Normale. La distribuzione Normale

La distribuzione Normale. La distribuzione Normale La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una

Dettagli

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione) Esercitazione #5 di Statistica Test ed Intervalli di Confidenza (per una popolazione) Dicembre 00 1 Esercizi 1.1 Test su media (con varianza nota) Esercizio n. 1 Il calore (in calorie per grammo) emesso

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 12-Il t-test per campioni appaiati vers. 1.2 (7 novembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

E naturale chiedersi alcune cose sulla media campionaria x n

E naturale chiedersi alcune cose sulla media campionaria x n Supponiamo che un fabbricante stia introducendo un nuovo tipo di batteria per un automobile elettrica. La durata osservata x i delle i-esima batteria è la realizzazione (valore assunto) di una variabile

Dettagli

4 3 4 = 4 x 10 2 + 3 x 10 1 + 4 x 10 0 aaa 10 2 10 1 10 0

4 3 4 = 4 x 10 2 + 3 x 10 1 + 4 x 10 0 aaa 10 2 10 1 10 0 Rappresentazione dei numeri I numeri che siamo abituati ad utilizzare sono espressi utilizzando il sistema di numerazione decimale, che si chiama così perché utilizza 0 cifre (0,,2,3,4,5,6,7,8,9). Si dice

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 5-Indici di variabilità (vers. 1.0c, 20 ottobre 2015) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Igiene. Dott. Pamela Di Giovanni. Definizione

Igiene. Dott. Pamela Di Giovanni. Definizione Igiene Dott. Pamela Di Giovanni Definizione Disciplina medica che ha come obiettivo la tutela e la promozione della salute umana, intendendo per salute umana un completo stato di benessere psichico, fisico

Dettagli

ESERCITAZIONE. CdL Fisioterapia e Podologia. 25 novembre 2015

ESERCITAZIONE. CdL Fisioterapia e Podologia. 25 novembre 2015 ESERCITAZIONE CdL Fisioterapia e Podologia 25 novembre 2015 Epidemiologia Domanda 1 Le neoplasie gastriche sono: a. diminuite in tutta Europa b. diminuite fino agli anni 80, poi stabili c. aumentate in

Dettagli

Probabilità discreta

Probabilità discreta Probabilità discreta Daniele A. Gewurz 1 Che probabilità c è che succeda...? Una delle applicazioni della combinatoria è nel calcolo di probabilità discrete. Quando abbiamo a che fare con un fenomeno che

Dettagli

1. Distribuzioni campionarie

1. Distribuzioni campionarie Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013 lezioni di statistica del 3 e 6 giugno 2013 - di Massimo Cristallo - 1. Distribuzioni campionarie

Dettagli

Analisi di dati di frequenza

Analisi di dati di frequenza Analisi di dati di frequenza Fase di raccolta dei dati Fase di memorizzazione dei dati in un foglio elettronico 0 1 1 1 Frequenze attese uguali Si assuma che dalle risposte al questionario sullo stato

Dettagli

Test statistici di verifica di ipotesi

Test statistici di verifica di ipotesi Test e verifica di ipotesi Test e verifica di ipotesi Il test delle ipotesi consente di verificare se, e quanto, una determinata ipotesi (di carattere biologico, medico, economico,...) è supportata dall

Dettagli

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva Brugnaro Luca Progetto formativo complessivo Obiettivo: incrementare le competenze degli operatori sanitari nelle metodiche

Dettagli

Esercizi test ipotesi. Prof. Raffaella Folgieri Email: folgieri@mtcube.com aa 2009/2010

Esercizi test ipotesi. Prof. Raffaella Folgieri Email: folgieri@mtcube.com aa 2009/2010 Esercizi test ipotesi Prof. Raffaella Folgieri Email: folgieri@mtcube.com aa 2009/2010 Verifica delle ipotesi - Esempio quelli di Striscia la Notizia" effettuano controlli casuali per vedere se le pompe

Dettagli

Tasso di interesse e capitalizzazione

Tasso di interesse e capitalizzazione Tasso di interesse e capitalizzazione Tasso di interesse = i = somma che devo restituire dopo un anno per aver preso a prestito un euro, in aggiunta alla restituzione dell euro iniziale Quindi: prendo

Dettagli

Igiene nelle Scienze motorie

Igiene nelle Scienze motorie Igiene nelle Scienze motorie Epidemiologia generale Epidemiologia Da un punto di vista etimologico, epidemiologia è una parola di origine greca, che letteralmente significa «discorso riguardo alla popolazione»

Dettagli

A.A. 2014-2015. Obiettivi formativi del CI di Metodologia epidemiologica OBIETTIVO GENERALE

A.A. 2014-2015. Obiettivi formativi del CI di Metodologia epidemiologica OBIETTIVO GENERALE A.A. 2014-2015 Obiettivi formativi del CI di Metodologia epidemiologica OBIETTIVO GENERALE Utilizzare gli strumenti epidemiologici e statistici appropriati per ridurre l'area dell'incertezza nella rilevazione

Dettagli

Statistica. Lezione 6

Statistica. Lezione 6 Università degli Studi del Piemonte Orientale Corso di Laurea in Infermieristica Corso integrato in Scienze della Prevenzione e dei Servizi sanitari Statistica Lezione 6 a.a 011-01 Dott.ssa Daniela Ferrante

Dettagli

Facoltà di Psicologia Università di Padova Anno Accademico 2010-2011

Facoltà di Psicologia Università di Padova Anno Accademico 2010-2011 Facoltà di Psicologia Università di Padova Anno Accademico 010-011 Corso di Psicometria - Modulo B Dott. Marco Vicentini marco.vicentini@unipd.it Rev. 10/01/011 La distribuzione F di Fisher - Snedecor

Dettagli

STATISTICA IX lezione

STATISTICA IX lezione Anno Accademico 013-014 STATISTICA IX lezione 1 Il problema della verifica di un ipotesi statistica In termini generali, si studia la distribuzione T(X) di un opportuna grandezza X legata ai parametri

Dettagli

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Intervalli di confidenza Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica

Dettagli

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale BIOSTATISTICA 2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk

Dettagli

La significatività PROVE DI SIGNIFICATIVITA PROVE DI SIGNIFICATIVITA PROVE DI SIGNIFICATIVITA

La significatività PROVE DI SIGNIFICATIVITA PROVE DI SIGNIFICATIVITA PROVE DI SIGNIFICATIVITA PROVE DI SIGNIFICATIVITA Tutti i test statistici di significatività assumono inizialmente la cosiddetta ipotesi zero (o ipotesi nulla) Quando si effettua il confronto fra due o più gruppi di dati, l'ipotesi

Dettagli

ESERCIZI DI STATISTICA DESCRITTIVA

ESERCIZI DI STATISTICA DESCRITTIVA ESERCIZI DI STATISTICA DESCRITTIVA ES1 Data la seguente serie di dati su Sesso e Altezza di 8 pazienti, riempire opportunamente due tabelle per rappresentare le distribuzioni di frequenze dei due caratteri,

Dettagli

La logica statistica della verifica (test) delle ipotesi

La logica statistica della verifica (test) delle ipotesi La logica statistica della verifica (test) delle ipotesi Come posso confrontare diverse ipotesi? Nella statistica inferenziale classica vengono sempre confrontate due ipotesi: l ipotesi nulla e l ipotesi

Dettagli

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da Data una funzione reale f di variabile reale x, definita su un sottoinsieme proprio D f di R (con questo voglio dire che il dominio di f è un sottoinsieme di R che non coincide con tutto R), ci si chiede

Dettagli

IL RISCHIO D IMPRESA ED IL RISCHIO FINANZIARIO. LA RELAZIONE RISCHIO-RENDIMENTO ED IL COSTO DEL CAPITALE.

IL RISCHIO D IMPRESA ED IL RISCHIO FINANZIARIO. LA RELAZIONE RISCHIO-RENDIMENTO ED IL COSTO DEL CAPITALE. IL RISCHIO D IMPRESA ED IL RISCHIO FINANZIARIO. LA RELAZIONE RISCHIO-RENDIMENTO ED IL COSTO DEL CAPITALE. Lezione 5 Castellanza, 17 Ottobre 2007 2 Summary Il costo del capitale La relazione rischio/rendimento

Dettagli

PROBABILITÀ E DECISIONI IN MEDICINA: I TEST DIAGNOSTICI

PROBABILITÀ E DECISIONI IN MEDICINA: I TEST DIAGNOSTICI Università degli Studi di Padova CICLO DI LEZIONI SCIENZE DI BASE PER I DOTTORATI DI RICERCA DELL AREA MEDICA Anno accademico 2005-06 Temi di Statistica ed Epidemiologia PROBABILITÀ E DECISIONI IN MEDICINA:

Dettagli

DATI NORMATIVI PER LA SOMMINISTRAZIONE DELLE PROVE PAC-SI A BAMBINI DI INIZIO SCUOLA PRIMARIA 1

DATI NORMATIVI PER LA SOMMINISTRAZIONE DELLE PROVE PAC-SI A BAMBINI DI INIZIO SCUOLA PRIMARIA 1 DATI NORMATIVI PER LA SOMMINISTRAZIONE DELLE PROVE PAC-SI A BAMBINI DI INIZIO SCUOLA PRIMARIA 1 Marta Desimoni**, Daniela Pelagaggi**, Simona Fanini**, Loredana Romano**,Teresa Gloria Scalisi* * Dipartimento

Dettagli

SISTEMI DI NUMERAZIONE E CODICI

SISTEMI DI NUMERAZIONE E CODICI SISTEMI DI NUMERAZIONE E CODICI Il Sistema di Numerazione Decimale Il sistema decimale o sistema di numerazione a base dieci usa dieci cifre, dette cifre decimali, da O a 9. Il sistema decimale è un sistema

Dettagli

Tabella iniziale con i dati. Malattia Malati Non malati Totale Test Positivo 183 Negativo 280 Totale 199 512. Calcolo i valori mancanti per differenza

Tabella iniziale con i dati. Malattia Malati Non malati Totale Test Positivo 183 Negativo 280 Totale 199 512. Calcolo i valori mancanti per differenza ESERCIZIO DI STATISTICA D.U. / simulazione di esame Esercizio 1: Per una malattia particolarmente grave viene sperimentato l utilizzo di una nuova tecnica radiologica allo scopo di identificare correttamente

Dettagli

I punteggi zeta e la distribuzione normale

I punteggi zeta e la distribuzione normale QUINTA UNITA I punteggi zeta e la distribuzione normale I punteggi ottenuti attraverso una misurazione risultano di difficile interpretazione se presi in stessi. Affinché acquistino significato è necessario

Dettagli

l'insieme di tutti i casi esistenti in un determinato momento ed in una

l'insieme di tutti i casi esistenti in un determinato momento ed in una Le misure di frequenza delle malattie possono descrivere: l'insieme di tutti i casi esistenti in un determinato momento ed in una determinata popolazione il verificarsi di nuovi casi A questo scopo si

Dettagli

OSSERVAZIONI TEORICHE Lezione n. 4

OSSERVAZIONI TEORICHE Lezione n. 4 OSSERVAZIONI TEORICHE Lezione n. 4 Finalità: Sistematizzare concetti e definizioni. Verificare l apprendimento. Metodo: Lettura delle OSSERVAZIONI e risoluzione della scheda di verifica delle conoscenze

Dettagli

Corso di Psicometria Progredito

Corso di Psicometria Progredito Corso di Psicometria Progredito 3.1 Introduzione all inferenza statistica Prima Parte Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014

Dettagli

LA VALIDITÀ DEGLI STUDI E IL CONTROLLO DEL CONFONDIMENTO

LA VALIDITÀ DEGLI STUDI E IL CONTROLLO DEL CONFONDIMENTO LA VALIDITÀ DEGLI STUDI E IL CONTROLLO DEL CONFONDIMENTO Accuratezza degli studi Miettinen, nel 1985, afferma che : la accuratezza di uno studio epidemiologico consiste nel grado di - assenza di errori

Dettagli

Facciamo qualche precisazione

Facciamo qualche precisazione Abbiamo introdotto alcuni indici statistici (di posizione, di variabilità e di forma) ottenibili da Excel con la funzione Riepilogo Statistiche Facciamo qualche precisazione Al fine della partecipazione

Dettagli

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995).

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995). ANALISI DI UNA SERIE TEMPORALE Analisi statistica elementare Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995). Si puo' osservare una media di circa 26 C e una deviazione

Dettagli

Capitolo 13: L offerta dell impresa e il surplus del produttore

Capitolo 13: L offerta dell impresa e il surplus del produttore Capitolo 13: L offerta dell impresa e il surplus del produttore 13.1: Introduzione L analisi dei due capitoli precedenti ha fornito tutti i concetti necessari per affrontare l argomento di questo capitolo:

Dettagli

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi. Iniziamo con definizione (capiremo fra poco la sua utilità): DEFINIZIONE DI VARIABILE ALEATORIA Una variabile aleatoria (in breve v.a.) X è funzione che ha come dominio Ω e come codominio R. In formule:

Dettagli

PROGETTO INDAGINE DI OPINIONE SUL PROCESSO DI FUSIONE DEI COMUNI NEL PRIMIERO

PROGETTO INDAGINE DI OPINIONE SUL PROCESSO DI FUSIONE DEI COMUNI NEL PRIMIERO PROGETTO INDAGINE DI OPINIONE SUL PROCESSO DI FUSIONE DEI COMUNI NEL PRIMIERO L indagine si è svolta nel periodo dal 26 agosto al 16 settembre 2014 con l obiettivo di conoscere l opinione dei residenti

Dettagli

Gli studi caso. controlli. Obiettivi. Stime del rischio. Ne deriva la Tabella 2x2

Gli studi caso. controlli. Obiettivi. Stime del rischio. Ne deriva la Tabella 2x2 Gli studi caso controllo Obiettivi Negli ultimi decenni questo modello di indagine è stato applicato soprattutto per lo studio delle malattie cronicodegenerative (le più frequenti cause di morte in tutti

Dettagli

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI VERO FALSO CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI 1. V F Un ipotesi statistica è un assunzione sulle caratteristiche di una o più variabili in una o più popolazioni 2. V F L ipotesi nulla unita

Dettagli

LE FUNZIONI A DUE VARIABILI

LE FUNZIONI A DUE VARIABILI Capitolo I LE FUNZIONI A DUE VARIABILI In questo primo capitolo introduciamo alcune definizioni di base delle funzioni reali a due variabili reali. Nel seguito R denoterà l insieme dei numeri reali mentre

Dettagli

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi In molte situazioni una raccolta di dati (=esiti di esperimenti aleatori) viene fatta per prendere delle decisioni sulla base di quei dati. Ad esempio sperimentazioni su un nuovo farmaco per decidere se

Dettagli

La distribuzione Gaussiana

La distribuzione Gaussiana Università del Piemonte Orientale Corso di Laurea in Biotecnologie Corso di Statistica Medica La distribuzione Normale (o di Gauss) Corso di laurea in biotecnologie - Corso di Statistica Medica La distribuzione

Dettagli

Corso: Statistica e Metodologia Epidemiologica 1

Corso: Statistica e Metodologia Epidemiologica 1 Università degli Studi di Padova Scuola di Medicina e Chirurgia Corso di Laurea in Medicina e Chirurgia - A.A. 2014-15 Corso: Statistica e Metodologia Epidemiologica 1 Docenti: prof.ssa Anna Chiara Frigo

Dettagli

Il ragionamento diagnostico TEST DIAGNOSTICO. Dott.ssa Marta Di Nicola. L accertamento della condizione patologica viene eseguito TEST DIAGNOSTICO

Il ragionamento diagnostico TEST DIAGNOSTICO. Dott.ssa Marta Di Nicola. L accertamento della condizione patologica viene eseguito TEST DIAGNOSTICO Il ragionamento diagnostico http://www.biostatistica biostatistica.unich unich.itit 2 L accertamento della condizione patologica viene eseguito All'inizio del decorso clinico, per una prima diagnosi In

Dettagli

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di STATISTICA LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di oggetti; cerca, attraverso l uso della matematica

Dettagli

11. Analisi statistica degli eventi idrologici estremi

11. Analisi statistica degli eventi idrologici estremi . Analisi statistica degli eventi idrologici estremi I processi idrologici evolvono, nello spazio e nel tempo, secondo modalità che sono in parte predicibili (deterministiche) ed in parte casuali (stocastiche

Dettagli

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della RELAZIONE TRA VARIABILI QUANTITATIVE Lezione 7 a Accade spesso nella ricerca in campo biomedico, così come in altri campi della scienza, di voler studiare come il variare di una o più variabili (variabili

Dettagli

Slide Cerbara parte1 5. Le distribuzioni teoriche

Slide Cerbara parte1 5. Le distribuzioni teoriche Slide Cerbara parte1 5 Le distribuzioni teoriche I fenomeni biologici, demografici, sociali ed economici, che sono il principale oggetto della statistica, non sono retti da leggi matematiche. Però dalle

Dettagli

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R Studio di funzione Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R : allo scopo di determinarne le caratteristiche principali.

Dettagli

Il confronto fra proporzioni

Il confronto fra proporzioni L. Boni Il rapporto Un rapporto (ratio), attribuendo un ampio significato al termine, è il risultato della divisione di una certa quantità a per un altra quantità b Il rapporto Spesso, in maniera più specifica,

Dettagli

Analisi e diagramma di Pareto

Analisi e diagramma di Pareto Analisi e diagramma di Pareto L'analisi di Pareto è una metodologia statistica utilizzata per individuare i problemi più rilevanti nella situazione in esame e quindi le priorità di intervento. L'obiettivo

Dettagli

Servizi di consulenza specialistica per IGRUE 2009 2012

Servizi di consulenza specialistica per IGRUE 2009 2012 Allegato 9A Metodo della stima delle differenze Descrizione della procedura Il metodo della stima delle differenze è indicato qualora il controllore ritenga che la popolazione sia affetta da un tasso di

Dettagli

Statistica inferenziale

Statistica inferenziale Statistica inferenziale Popolazione e campione Molto spesso siamo interessati a trarre delle conclusioni su persone che hanno determinate caratteristiche (pazienti, atleti, bambini, gestanti, ) Osserveremo

Dettagli

3. Confronto tra medie di due campioni indipendenti o appaiati

3. Confronto tra medie di due campioni indipendenti o appaiati BIOSTATISTICA 3. Confronto tra medie di due campioni indipendenti o appaiati Marta Blangiardo, Imperial College, London Department of Epidemiology and Public Health m.blangiardo@imperial.ac.uk MARTA BLANGIARDO

Dettagli

Seconda Parte Specifica di scuola - Statistica sanitaria e Biometria - 31/07/2015

Seconda Parte Specifica di scuola - Statistica sanitaria e Biometria - 31/07/2015 Domande relative alla specializzazione in: Statistica sanitaria e Biometria Domanda #1 (codice domanda: n.641) : In epidemiologia, una variabile di confondimento è una variabile: A: associata sia alla

Dettagli

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1 Potenza dello studio e dimensione campionaria Laurea in Medicina e Chirurgia - Statistica medica 1 Introduzione Nella pianificazione di uno studio clinico randomizzato è fondamentale determinare in modo

Dettagli

Un gioco con tre dadi

Un gioco con tre dadi Un gioco con tre dadi Livello scolare: biennio Abilità interessate Costruire lo spazio degli eventi in casi semplici e determinarne la cardinalità. Valutare la probabilità in diversi contesti problematici.

Dettagli

Alessandro Pellegrini

Alessandro Pellegrini Esercitazione sulle Rappresentazioni Numeriche Esistono 1 tipi di persone al mondo: quelli che conoscono il codice binario e quelli che non lo conoscono Alessandro Pellegrini Cosa studiare prima Conversione

Dettagli

Basi di matematica per il corso di micro

Basi di matematica per il corso di micro Basi di matematica per il corso di micro Microeconomia (anno accademico 2006-2007) Lezione del 21 Marzo 2007 Marianna Belloc 1 Le funzioni 1.1 Definizione Una funzione è una regola che descrive una relazione

Dettagli

Carte di controllo per attributi

Carte di controllo per attributi Carte di controllo per attributi Il controllo per variabili non sempre è effettuabile misurazioni troppo difficili o costose troppe variabili che definiscono qualità di un prodotto le caratteristiche dei

Dettagli

Ufficio Scolastico Regionale per l Abruzzo. Rapporto dal Questionari Studenti

Ufficio Scolastico Regionale per l Abruzzo. Rapporto dal Questionari Studenti Rapporto dal Questionari Studenti SCUOLA xxxxxxxxx Anno Scolastico 2014/15 Le Aree Indagate Il questionario studenti ha lo scopo di indagare alcuni aspetti considerati rilevanti per assicurare il benessere

Dettagli

APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE

APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE 1. Proporzionalità diretta e proporzionalità inversa Analizziamo le seguenti formule Peso Lordo = Peso Netto + Tara Ricavo = Utile + Costo Rata = Importo + Interesse

Dettagli

8 Elementi di Statistica

8 Elementi di Statistica 8 Elementi di Statistica La conoscenza di alcuni elementi di statistica e di analisi degli errori è importante quando si vogliano realizzare delle osservazioni sperimentali significative, ed anche per

Dettagli

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale I ESERCITAZIONE ESERCIZIO 1 Si vuole testare un nuovo farmaco contro il raffreddore. Allo studio partecipano 200 soggetti sani della stessa età e dello stesso sesso e con caratteristiche simili. i) Che

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2013-2014 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica e Biometria. Statistica descrittiva

Università del Piemonte Orientale. Corsi di Laurea Triennale di Area Tecnica. Corso di Statistica e Biometria. Statistica descrittiva Università del Piemonte Orientale Corsi di Laurea Triennale di Area Tecnica Corso di Statistica e Biometria Statistica descrittiva 1 Statistica Funzioni Descrittiva Induttiva (inferenziale) Statistica

Dettagli

Capitolo 12 La regressione lineare semplice

Capitolo 12 La regressione lineare semplice Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara

Dettagli

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE Matematica e statistica: dai dati ai modelli alle scelte www.dima.unige/pls_statistica Responsabili scientifici M.P. Rogantin e E. Sasso (Dipartimento di Matematica Università di Genova) LABORATORIO EXCEL

Dettagli

Prova di autovalutazione Prof. Roberta Siciliano

Prova di autovalutazione Prof. Roberta Siciliano Prova di autovalutazione Prof. Roberta Siciliano Esercizio 1 Nella seguente tabella è riportata la distribuzione di frequenza dei prezzi per camera di alcuni agriturismi, situati nella regione Basilicata.

Dettagli