Corso di Statistica medica e applicata Dott.ssa Donatella Cocca 1 a Lezione
Cos'è la statistica? Come in tutta la ricerca scientifica sperimentale, anche nelle scienze mediche e biologiche è indispensabile la conoscenza dei concetti e dei metodi statistici, sia per i problemi di gestione, sia per quelli di indagine. Per esempio, per pubblicare i risultati di una ricerca tutte le riviste scientifiche richiedono che la presentazione dei dati e la loro elaborazione seguano criteri ritenuti validi universalmente. La statistica è, dunque, la disciplina che, attraverso il trattamento matematico di dati provenienti da uno o più gruppi di osservazione, si occupa della raccolta,
Cos'è la statistica? organizzazione, ed interpretazione dei dati numerici che esprimono aspetti di fenomeni collettivi scelti come oggetto di studio. Essa abbraccia tutte le fasi di una ricerca, dalla pianificazione dello studio fino alla presentazione dei risultati finali.
Cos'è la statistica? Per condurre in modo corretto una ricerca scientifica occorre seguire alcuni passaggi metodologici, riassumibili in 4 fasi: - il disegno sperimentale, - il campionamento, - la descrizione statistica, In questo corso ci occuperemo soprattutto di queste due fase - la scelta dei test per l inferenza
Cos'è la statistica? La statistica moderna può essere distinta in tre parti: La statistica descrittiva spiega come i dati raccolti devono essere riportati in tabella, rappresentati in grafici e sintetizzati in indici matematici, allo scopo di individuare le caratteristiche fondamentali del campione. La statistica matematica presenta le distribuzioni teoriche sia per misure discrete sia per misure continue, allo scopo di illustrarne le caratteristiche fondamentali, le relazioni che esistono tra esse, gli usi possibili. L inferenza statistica si occupa di estendere le osservazioni fatte sul campione a tutta la popolazione. Dunque, la Statistica inferenziale si può definire come il complesso di metodi che consentono di stimare una caratteristica di una popolazione sulla base dei soli risultati campionari.
Statistica La statistica è quindi un insieme di tecniche e formalizzazioni matematiche volte allo studio di dati ottenuti da: o OSSERVAZIONE: nella quale lo statistico osserva cosa accade, raccoglie informazioni, studia i fatti rilevanti per il problema. In questa fase la statistica suggerisce cosa può essere osservato vantaggiosamente e come possono essere raccolti i dati. o SPERIMENTAZIONE: nella quale lo statistico, basandosi sulla teoria, propone delle spiegazioni o modelli per i risultati osservati o da ancora da osservare. In questa fase la statistica aiuta a dare alle spiegazioni una veste formale di tipo matematico, trasformandole in ipotesi adatte all esame statistico.
Variabili Dati Campionamento Gli oggetti della statistica sono: FENOMENO COLLETTIVO: fenomeno che si conosce tramite la sintesi di osservazioni di fatti semplici UNITA STATISTICHE (u.s.): ogni elementi su cui si osserva il fenomeno in esame COLLETTIVO STATISTICO: è l insieme delle u.s. oggetto dell osservazione POPOLAZIONE: l insieme del collettivo statistico CAMPIONE: è un sottoinsieme della popolazione di riferimento, opportunamente definito in funzione degli obiettivi dell indagine. Il fenomeno collettivo viene studiato mediante l osservazione
o la misurazione di una o più caratteristiche delle u.s. CARATTERE o VARIABILE STATISTICA: è ogni singola caratteristica oggetto di studio (es. colore degli occhi ). MODALITA : è il modo in cui il carattere si manifesta. Il carattere può essere distinto in: Caratteri qualitativi: i quali sono descritti da attributi (es. sesso, colore, gruppo sanguigno) Nominali: per i quali possiamo affermare solo se sono uguali o no Ordinali: per i quali esiste un sistema predeterminato per ordinare le modalità del carattere Caratteri quantitativi: i quali sono descritti da numeri (es. età, peso) Discreti: che possono assumere solo valori specifici (es. numero di parti per una donna) Continui: che non si limitano ad assumere solo determinati valori (es. altezza).
Classificazione dei caratteri Lo schema seguente mostra la classificazione del carattere:
VARIABILI QUALITATIVE QUANTITATIVE NOMINALI ORDINALI INTERVALLO RAPPORTO DISCRETO CONTINUO DISCRETO CONTINUO
Esempio A. Statistica Descrittiva: Si vuole studiare il livello di glicemia in un gruppo di soggetti diabetici: Fenomeno collettivo X: livello di glicemia in soggetti diabetici Unità statistica: ogni paziente affetto da tale malattia Popolazione (o collettivo statistico): insieme di tutti i diabetici Carattere (o variabile statistica): glicemia Modalità: valori diversi che assume la glicemia da soggetto a soggetto
Indagine Statistica (1) E quell insieme di operazioni che portano alla raccolta e sintesi dei dati riguardanti il fenomeno che si intende studiare. Essa richiede: L esatta definizione del fenomeno La durata (data d inizio e data di fine) La definizione del grado di precisione La definizione dell unità di misura da utilizzare.
Indagine Statistica (2) Può essere articolata in cinque fasi fondamentali: Astrazione: fase in cui viene configura esattamente l ipotesi statistica del fenomeno da studiare Rilevazione: insieme di operazioni che permettono l acquisizione delle caratteristiche (o caratteri) di interesse per ciascuna unità statistica. Da questa fase si ottengono i dati statistici elementari o dati grezzi
Indagine Statistica (3) Presentazione: consiste nell esporre i dati sotto forma di tabelle, grafici, indici, funzioni Elaborazione: insieme di operazioni grazie alle quali i dati grezzi vengono opportunamente classificati e sintetizzati per ottenere dati derivati di facile interpretazione Interpretazione: consiste nella spiegazione dei risultati dell indagine.
Frequenza Distribuzioni di frequenza Frequenza (1) L analisi statistica inizia con il riassumere i dati sotto forma di tabelle di frequenza dove per frequenza si intende il numero di volte in cui si è manifestata una data modalità di un carattere. Nel caso in cui tale numero è rappresentato da una misura (es. peso, volume, velocità, lunghezza) si parlerà di intensità di modalità.
Frequenza Distribuzioni di frequenza Frequenza (2) DEFINIZIONE (per le variabili numeriche o quantitative) Frequenza: conteggio del numero di unità statistiche che cadano in un certo intervallo di valori, detto classe. DEFINIZIONE (per le variabili categoriali o qualitative) Frequenza: conteggio del numero di unità statistiche che assumono una data modalità.
Frequenza (3) A. Statistica Descrittiva: Le tabelle di frequenza possono includere quattro diversi tipi di frequenze : o La frequenza assoluta, il numero di volte che un valore è incontrato. Dunque la Frequenza assoluta n i della generica modalità x i : numerosità corrispondente alla i-esima modalità o La frequenze cumulata assoluta, la frequenza assoluta sommata fino al valore considerato. Cioè: N i =n 1 +n 2 + +n i
Frequenza (4) A. Statistica Descrittiva: o La frequenza relativa, è il rapporto tra la numerosità corrispondente alla i-esima modalità presa in considerazione ed il totale dei casi osservati: f i = o La frequenze cumulata relativa, la frequenza relativa sommata fino al valore considerato. Cioè: n i N i =f 1 +f 2 + +f i Proprietà della frequenza relativa: La somma delle frequenze relative è uguale ad 1 Moltiplicando ciascuna frequenza relativa, anche la cumulata relativa, per 100 si ottiene la percentuale N
Esempio di frequenze: MODALITA A. Statistica Descrittiva: FREQUENZA ASSOLUTA FREQ. ASSOL. CUMULATA FREQUENZA RELATIVA FREQ. RELAT. CUMULATA x 1 n 1 n 1 n1 f1 = N f 1 x 2 n 2 n 1 +n 2 n2 f 2 = N f 1 +f 2 x j n j n 1 +n 2 + +n j n j f j = N f 1 +f 2 + +f j x J n J N nj f J = N 1 TOTALE N 1
Esempio: Livello dei trigliceridi in 250 uomini Trigliceridi (mg/100ml) Frequenze assolute n i Frequenze cumulate N i Frequenze relative f i Frequenze relative cumulata f i 130 134 2 2 0,008=0,8% 0,008=0,8% 135 139 14 16 0,056=5,6% 0,064=6,4% 140 144 32 48 0,128=12,8% 0,192=19,2% 145 149 39 87 0,156=15,6% 0,348=34,8% 150 154 52 139 0,208=20,8% 0,556=55,6% 155 159 45 184 0,180=18% 0,736=73,6% 160 164 35 219 0,140=14% 0,876=87,6% 165 169 13 232 0,052=5,2% 0,928=92,8% 170 174 11 243 0,044=4,4% 0,972=97,2% 175 179 3 246 0,012=1,2% 0,984=98,4% 180 184 1 247 0,004=0,4% 0,988=98,8% 185 189 3 250 0,012=1,2% 1=100% TOTALE 250 1=100%
Distribuzione di Frequenza (1) Quando ci troviamo di fronte ad una successione di dati in cui alle modalità di un carattere sono associate le rispettive frequenze con cui tali modalità si presentano parliamo di distribuzione di frequenza. Lo studio delle frequenze ci fornisce una fondamentale informazione sulla distribuzione della variabile di interesse: il modo in cui (ossia dove e come) i valori della variabile si distribuiscono nell intervallo di variazione (variabili numeriche) o tra le diverse modalità (variabili categoriali).
Distribuzione di Frequenza (2) Possiamo distinguerle in: Distribuzioni reali: ottenute da dati reali Distribuzioni teoriche: ottenute tramite calcoli matematici Possiamo classificare in: Qualitative: ottenute da variabili qualitativi Quantitative: ottenute da variabili quantitativi
Distribuzione di Frequenza (3) Strumenti fondamentali dell analisi statistica sono gli istogrammi, i diagrammi cartesiani, i diagrammi a barre ecc. La rappresentazione grafica deve essere in grado di non alterare od interrompere la regolarità della distribuzione (come può avvenire in particolare quando il numero di classi è troppo alto rispetto al numero di dati). Gli istogrammi rappresentano le distribuzioni di frequenza di variabili quantitative raggruppate in classi, con rettangoli adiacenti. L altezza dei rettangoli è proporzionale alla densità di frequenza assoluta o relativa delle classi della variabile studiata. (La densità di frequenza di una classe è ottenuta, dividendo la frequenza della classe per la sua ampiezza).
Distribuzione di Frequenza (4) Esempio: 140 120 100 80 60 40 Medici x J n J 26 30 40 30 34 72 34 42 120 42 52 61 52 57 15 57 65 10 Serie1 20 0 A B C D E F Età
Distribuzione di Frequenza (5) I diagrammi cartesiani si utilizzano per rappresentare sia distribuzioni discrete (diagrammi cartesiani ad aste) che distribuzioni continue (diagrammi a scala naturale) dei fenomeni.
Distribuzione di Frequenza (6) Esempio: Diagramma cartesiano ad aste 120 100 80 pazienti x J n J 0 100 A 60 B 20 AB 40 60 40 Serie1 20 0 O A B AB gruppo sanguigno
Distribuzione di Frequenza (7) Esempio: Diagramma a scala naturale 142 140 138 136 134 Valori pressori x J n J 8.00 140 12.00 135 16.00 130 20.00 135 24.00 130 132 130 Serie1 128 126 124 8 12 16 20 24 Tempo in ore
Distribuzione di Frequenza (8) Esempio: Curva del livello dei trigliceridi (in 250 uomini)
Distribuzione di Frequenza (9) Esempio: Distribuzione dei trigliceridi (in 250 uomini)
Distribuzione di Frequenza (10) I diagrammi a barre rappresentano le distribuzioni di frequenza di variabili qualitative, con rettangoli separati. L altezza dei rettangoli è proporzionale alla frequenza assoluta o relativa dei valori della variabile studiata.
Distribuzione di Frequenza (11) Esempio:
Distribuzione di Frequenza (12) Gli areogrammi sono grafici in cui le frequenze o le quantità di una variabile qualitativa sono rappresentate da superfici di figure piane, come quadrati, rettangoli o, più frequentemente, cerchi oppure loro parti. Nel caso dei diagrammi circolari o a torta, si divide un cerchio in parti proporzionali alle classi di frequenza. Gli areogrammi vengono usati soprattutto per rappresentare frequenze percentuali. Hanno il vantaggio di fare capire con immediatezza che la somma di tutte le classi è uguale all unità (1 o100%).
Distribuzione di Frequenza (13) Esempio:
Concetti principale della lezione I concetti principali che sono stati presentati sono: Definizione ed obiettivi della statistica Statistica Descrittiva e Statistica Inferenziale I tipi di variabile, raccolta dei dati e il campionamento La Frequenza, la Distribuzione di Frequenza La Rappresentazione Grafica dei dati