Brugnaro Luca Boscaro Gianni (2009) 1



Documenti analoghi
Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca

Lezione n. 2 (a cura di Chiara Rossi)

Indici di dispersione

Corso di. Dott.ssa Donatella Cocca

Il concetto di valore medio in generale

Relazioni statistiche: regressione e correlazione

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Indici (Statistiche) che esprimono le caratteristiche di simmetria e

Statistica descrittiva

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

La distribuzione Normale. La distribuzione Normale

Prova di autovalutazione Prof. Roberta Siciliano

E naturale chiedersi alcune cose sulla media campionaria x n

Lezione 6: Forma di distribuzione Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

STATISTICA DESCRITTIVA. Le misure di tendenza centrale

SPC e distribuzione normale con Access

Grafici delle distribuzioni di frequenza

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

ESERCIZI DI STATISTICA DESCRITTIVA

Analisi Statistica per le Imprese (6 CFU) - a.a Prof. L. Neri RICHIAMI DI STATISTICA DESCRITTIVA UNIVARIATA

UNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

Correzione dell Esame di Statistica Descrittiva (Mod. B) 1 Appello - 28 Marzo 2007 Facoltà di Astronomia

Analisi e diagramma di Pareto

Elementi di Psicometria

Misure della dispersione o della variabilità

Statistica Applicata all edilizia Lezione 2: Analisi descrittiva dei dati

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

Dott.ssa Caterina Gurrieri

Modelli descrittivi, statistica e simulazione

Slide Cerbara parte1 5. Le distribuzioni teoriche

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

STATISTICA DESCRITTIVA UNIVARIATA

METODOLOGIA STATISTICA E CLASSIFICAZIONE DEI DATI

CLASSIFICAZIONE DEI CARATTERI

STATISTICA IX lezione

Lezione 1. Concetti Fondamentali

Statistica descrittiva: prime informazioni dai dati sperimentali

Metodi statistici per le ricerche di mercato

La Distribuzione Normale (Curva di Gauss)

Elementi di Psicometria con Laboratorio di SPSS 1

Inferenza statistica. Statistica medica 1

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

Basi di matematica per il corso di micro

LA STATISTICA NEI TEST INVALSI

LA CORRELAZIONE LINEARE

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

Analisi della performance temporale della rete

ELEMENTI DI STATISTICA

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

Corso di Psicometria Progredito

Matematica generale CTF

Dimensione di uno Spazio vettoriale

Teoria in sintesi 10. Attività di sportello 1, 24 - Attività di sportello 2, 24 - Verifica conclusiva, 25. Teoria in sintesi 26

PIL : produzione e reddito

Anno 1. Le relazioni fondamentali (equivalenza, d'ordine, inverse, fra insiemi)

Esempi di funzione. Scheda Tre

VARIABILI ALEATORIE MULTIPLE E TEOREMI ASSOCIATI. Dopo aver trattato delle distribuzioni di probabilità di una variabile aleatoria, che

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

Regressione Mario Guarracino Data Mining a.a. 2010/2011

PROBABILITA CONDIZIONALE

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

Termodinamica: legge zero e temperatura

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

1. Distribuzioni campionarie

Capitolo 2 Distribuzioni di frequenza

Capitolo 13: L offerta dell impresa e il surplus del produttore

Statistica. Lezione 6

LE FUNZIONI E LE LORO PROPRIETÀ

risulta (x) = 1 se x < 0.

Facciamo qualche precisazione

Prof. Silvio Reato Valcavasia Ricerche. Il piano cartesiano

Capitolo 4 Probabilità

Appunti di complementi di matematica

Statistica Descrittiva (lucidi a.a. 2001/2002)

Esame di Statistica del 17 luglio 2006 (Corso di Laurea Triennale in Biotecnologie, Università degli Studi di Padova).

LA STATISTICA E IL CALCOLO DELLE PROBABILITÀ

Statistica. Alfonso Iodice D Enza iodicede@unina.it

MINIMI QUADRATI. REGRESSIONE LINEARE

1. L analisi statistica

Analisi di dati di frequenza

Probabilità II Variabili casuali discrete

Transitori del primo ordine

2. Leggi finanziarie di capitalizzazione

Riassunto 24 Parole chiave 24 Commenti e curiosità 25 Esercizi 27 Appendice

La propagazione delle onde luminose può essere studiata per mezzo delle equazioni di Maxwell. Tuttavia, nella maggior parte dei casi è possibile

4 3 4 = 4 x x x 10 0 aaa

Corso di Laurea triennale TIPI DI VARIABILI. Torna alla pri ma pagina

Esercizi sulle variabili aleatorie Corso di Probabilità e Inferenza Statistica, anno , Prof. Mortera

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

Anno 3. Funzioni: dominio, codominio e campo di esistenza

Transcript:

STATISTICA PER LE PROFESSIONI SANITARIE - LIVELLO BASE Brugnaro Luca Boscaro Gianni (2009) 1

Perché la statistica Prendere decisioni Bibliografia non soddisfacente Richieste nuove conoscenze Raccolta delle informazioni Osservazione del fenomeno Sperimentazione Dai dati alle informazioni elementari Nuove conoscenze Ipotesi di decisione 2

Istruzioni per l uso Non cercate da questo corso o dalle vostre ricerche delle ricette pronte all uso. Ricordate questo corso e leggete gli articoli scientifici come ad esempi di quello che si può fare. Chiediamoci sempre: Sono convinto? Cosa farei di diverso?.. 3

La statistica ed un po' di terminologia Un insieme di elementi ove si vuole produrre nuove conoscenze viene chiamato convenzionalmente popolazione di riferimento. Gli elementi della popolazione sono chiamati genericamente unità statistiche. Alcune caratteristiche di tutte o di una parte delle unità statistiche (campione) vengono rilevate/misurate. Il risultato di questo rilevare/misurare costituiscono i dati. L'obiettivo è quello di giungere dai dati a nuove conoscenze od ipotesi di decisione. Ovvero, di: trasformare i dati in affermazioni sulla popolazione di riferimento. 4

La statistica e ulteriore terminologia Le caratteristiche rilevate sulle unita statistiche vengono chiamate variabili. I valori distinti assunti da una variabile sono chiamate le modalità della variabile stessa. Se le variabili di interesse non sono rilevate su tutte le unita statistiche, il sottoinsieme della popolazione oggetto della rilevazione e chiamato il campione. 5

La statistica e sue suddivisioni Descrittiva: i dati a disposizione sono riferiti a tutta la popolazione di riferimento. Inferenziale: i dati sono stati rilevati solamente su una parte delle unita statistiche (campione) e utilizzando le informazioni ricavate dal campione si vogliono fare delle affermazioni sulle caratteristiche di tutta la popolazione. 6

I dati In statistica si parla di dati: Qualitativi o categoriali quando le modalità utilizzate per descrivere il fenomeno analizzato prendono la forma di aggettivi o di altre espressioni verbali. A loro volta i dati qualitativi possono essere: sconnessi se non esiste nessun ordinamento naturale tra le modalità; esempi di dati sconnessi sono: (i) la religione, (ii) la modalità di somministrazione di un farmaco (ad es., per via orale, parenterale o sottocutanea); ordinali nel caso in cui un ordinamento naturale esiste; esempi di dati qualitativi ordinali sono: (i) il titolo di studio, (ii) la risposta ad un trattamento (ad es. classificata come assente, parziale, ottima.). Quando le modalità sono solamente due (esempi (i) maschio vs. femmina, (ii) vivo vs. morto; (iii) buono vs. difettoso) si parla di dati dicotomici o binari. 7

I dati In statistica si parla di dati: Quantitativi o numerici quando le modalità sono espresse da numeri. Dal punto di vista dei modelli e delle tecniche utilizzate i dati numerici si suddividono a loro volta in dati: interi/discreti quando le modalità sono esprimibili da numeri interi; esempi sono: il numero di figli, il numero di metastasi polmonari, il numero di interventi chirurgici realizzati; continui o reali quando le modalità sono esprimibili da numeri reali; esempi sono: la circonferenza addominale, la temperatura corporea, la concentrazione di emoglobina nel sangue. Notare che: il tipo di variabile rilevata dipende molto dallo strumento utilizzato il tipo di variabile implicherà le analisi successive 8

I dati Sempre per quanto riguarda i dati numerici si dice che si è utilizzata: una scala intervallo quando l'origine della scala stessa e arbitraria, ovvero, quando lo zero ha un'interpretazione convenzionale (esempio: la temperatura); una scala rapporto nel caso contrario ovvero quando l'origine non è arbitraria (esempio: la lunghezza di una ferita chirurgica). Per comprendere quest'ultima suddivisione, trasversale alla precedente è importante più nella fase di interpretazione dei risultati che nel momento dell'analisi. Mentre possiamo dire che una ferita di 30mm è lunga il doppio di una ferita di 15mm non possiamo, viceversa, dire che quando ci sono 30 gradi Celsius la temperatura è doppia rispetto a quando ce ne sono 15. Si pensi all affermazione se si utilizzasse un differente scala (Fahrenheit o Kelvin). 9

Frequenze assolute e relative Freq.assolute: nr. di volte con cui si presenta una certa modalità della variabile rilevata Freq.relative: freq.assolute/nr tot.delle osservate Quest ultime hanno il vantaggio, rispetto alle frequenze assolute, di permettere di confrontare distribuzioni di frequenza basate su numeri differenti di unità statistiche. Rappresentazioni grafiche: istogrammi, diagrammi circolari 10

Misure di posizione La media aritmetica La mediana: valore/modalità assunto dalle unità statistiche che si trovano nel mezzo della distribuzione. Un numero che sia più grande di un 50% delle osservazioni e più piccolo del restante 50%. Se le modalità sono raggruppate in classi non si definisce un valore univoco, ma una classe mediana. Minimi e massimi 11

Misure di posizione Un quantile-q dove q ϵ [0; 1] rappresenta un numero che sia più grande del 100*q% dei dati osservati e più piccolo del restante 100*(1-q)%. Ad esempio, un quantile 0,1 deve essere un valore che lascia a sinistra il 10% delle osservazioni ed a destra il restante 90%. I quantili con p uguale a 0,25; 0,50 e 0,75 vengono chiamati rispettivamente il primo, il secondo e il terzo quartile. Dividono la popolazione in quattro parti uguali. N.B.: 2 quartile = mediana. I quantili con q = 0,01; ; 0,99 si chiamano percentili. Il quantile può essere calcolato per funzioni di variabili continue o discrete, purché espresse su scale ordinali o cardinali. Non può essere calcolato su distribuzioni basate su variabili nominali. 12

Misure di posizione e rappresentazioni grafiche: i diagrammi a scatola e baffi (boxplot) Forniscono una rappresentazione grafica schematica della distribuzione di un insieme di dati basata sui quantili. Sono costituiti, come dice il nome, da una scatola e usualmente da due baffi (vedi disegno a lato). I baffi non sono disegnati più lunghi di 1,5 volte la differenza tra il 3 e il 1 quartile (scarto interquartile). 13

Un difetto della media aritmetica A volte si possono trovare degli insiemi di dati contenenti una frazione di osservazioni anomale o atipiche, ovvero, osservazioni che assumono valori lontani (outliers) da quelli assunti dalla maggior parte delle altre osservazioni e che, quindi, sembrano provenire da una popolazione diversa o essere state generate da un meccanismo differente (ad es. bias di misurazione). In questo caso, bisogna tenere presente che la media aritmetica è molto sensibile alla presenza delle osservazioni anomale potendo anche, a volte, fornire risultati non molto sensati. 14

Si ottiene cumulando (sommando) progressivamente le frequenze relative). 15

Indici di variabilità La varianza: è una misura di quanto i dati siano distanti dalla media aritmetica. La distanza è valutata usando i quadrati delle differenze tra i singoli dati rilevati e la loro media aritmetica. Definita la media aritmetica dei dati (y) come: allora la varianza sarà definita come: Oppure come: 16

Lo scarto quadratico medio La radice quadrata della varianza è usualmente definita come scarto quadratico medio o deviazione standard. Si noti che mentre l'unità di misura della varianza è il quadrato dell'unita di misura dei dati originali, l'unita di misura dello scarto quadratico medio coincide con l'unita di misura dei dati. 17

Altre misure di variabilità Campo di variazione Veloce da calcolare ma attenzione perchè molto sensibile a possibili valori anomali. Scarto interquartile È usato soprattutto nelle situazioni in cui si sospetta la possibile presenza di osservazioni anomale (ad esse molto resistente). 18

Coefficiente di variazione è un indice di dispersione che consente di confrontare misure di fenomeni riferite a unità di misura differenti, in quanto si tratta di un numero puro (ovvero non riferito ad alcuna unità di misura). Viene definito, per un dato campione, come il rapporto tra la sua deviazione standard (σ) e il valore assoluto della sua media aritmetica (µ): Chiaramente ha senso solo per campioni aventi la media aritmetica diversa da zero. 19

Simmetria I due seguenti istogrammi costruiti a partire da due insiemi di dati sono almeno approssimativamente omogenei per quanto riguarda posizione e variabilità. Nonostante questo le due distribuzioni sono diverse. La prima si definisce simmetrica. Viceversa, la coda verso i valori alti della seconda e molto più lunga della coda verso i valori bassi. Si parla in questo caso di distribuzione con asimmetria positiva. Ovviamente, nel caso opposto (coda sinistra più lunga di quella destra) si parla di asimmetria negativa. 20

Dati sperimentali verso dati osservazionali Nell'analizzare dei dati è bene poi tenere presente il tipo di studio in cui sono stati rilevati. In particolare, è importante la distinzione tra studi sperimentali ovvero situazioni in cui i dati sono stati raccolti in situazioni replicabili e controllate (esempio classico sono gli esperimenti di laboratorio, ad esempio, lo studio su due metodiche per la valutazione dell'emoglobina), e studi osservazionali ovvero situazioni in cui il ricercatore semplicemente rileva dei dati già esistenti (esempio: ricoverati del 2007 per scompenso cardiaco dell'azienda Ospedaliera di Padova). Il problema principale degli studi osservazionali è che non controllando i fattori che possono influenzare il fenomeno sotto indagine risulta difficile essere ragionevolmente certi di averli individuati appropriatamente. 21

Mutabilità Analogo della variabilità per dati qualitativi. Non possiamo guardare alle differenze tra i valori osservati. Possiamo però guardare alle differenze tra le frequenze. Si definisce come situazione di minima mutabilità una situazione in cui tutte le unità statistiche si concentrano nella stessa modalità. In questo caso le unita statistiche sono perfettamente omogenee rispetto al fenomeno considerato. Si osservi che in questo caso la distribuzione delle frequenze relative si presenta come: dove abbiamo supposte che le modalità siano k e che la i-sima sia quella in cui le unita statistiche si sono concentrate. La situazione opposta (massima mutabilità) la troviamo invece quando le unita statistiche si ripartiscono in maniera uguale tra le varie modalità. In questo caso la distribuzione delle frequenze relative diventa 22

Si annulla in corrispondenza di una tabella di minima mutabilità Assume valore massimo nelle situazioni di massima mutabilità 23

Covarianza e indice di correlazione di Pearson La covarianza è un indice che misura la "contemporaneità" della variazione (in termini lineari) di due variabili quantitative. La covarianza può assumere sia valori positivi che negativi. Nella statistica inferenziale, quando due variabili sono tra di loro indipendenti, allora la loro covarianza è nulla. 24

Indice di correlazione di Pearson Il coefficiente di correlazione (lineare) di Pearson (detto anche di Bravais-Pearson) tra due variabili quantitative è definito come la loro covarianza divisa per il prodotto delle rispettive deviazioni standard Il coefficiente assume valori compresi tra -1 e +1. >0, le variabili x e y si dicono direttamente correlate =0 le variabili x e y si dicono incorrelate; <0 le variabili x e y si dicono inversamente correlate

Distanza e tempi spostamento Covarianza = 32.68351 Correlazione = 0.7403708 26

Tabelle di contingenza Una tabella come quella qui sotto riportata a destra viene usualmente chiamata di contingenza. In generale, una tabella di contingenza mostra la distribuzione delle unita statistiche classificate sulla base di due o più variabili. Si osservi che una tabella di contingenza contiene varie distribuzioni di frequenza. Se consideriamo la tabella sottostante a destra, ci mostra il numero di individui che presentano una lesione da pressione (si/no) congiuntamente ad una particolare modalità della variabile Rischio LDP. 27

Tabelle di contingenza (definizioni) Distribuzione congiunta / frequenze congiunte Distribuzione di Esito condizionata a Rischio LDP : Basso Distribuzione di Rischio LDP condizionata a Esito: Si Distribuzione marginale di Rischio LDP Distribuzione marginale di Esito 28