Università del Piemonte Orientale Corso di laurea in medicina e chirurgia aa 3 Corso di Statistica Medica Statistica Descrittiva 1
La statistica opera su variabili Il valore delle variabili è conosciuto attraverso un processo di misurazione a livello di ciascun individuo (unità statistica) Livello di misurazione (categorie di variabili) Discrete o categoriche Nominale Solo classificazione, senza ordinamento Es sesso, specie, area geografica, scuola, tipo istologico, tipo di neoplasia, codice di malattia, immunofenotipo di leucemia Ordinale Classificazione con ordinamento, ma distanza tra i valori non misurabile o ignota Es Punteggio scolastico, valutazioni cliniche, codice TNM, codici di classificazione della gravità di malattie, APGAR
Continue o numeriche Intervallo Distanza tra i valori nota, su una scala arbitraria Es temperatura in gradi centigradi Rapporto Distanza tra i valori nota, su una scala naturale Es temperatura in gradi Kelvin, età, tempo, pressione 3
Quali statistiche possiamo applicare in relazione a ciascun tipo di variabili? Tipo di variabile Discrete Numeriche Nominale Ordinale Intervallo Rapporto 1 sola variabile Frequenza SI SI SI SI (previa (previa categorizzazione) categorizzazione) Frequenza cumulativa NO SI SI SI Istogrammi SI (no cum) SI SI SI Media NO NO SI SI Mediana NO NO SI SI 4
Quali statistiche possiamo applicare in relazione a ciascun tipo di variabili? Tipo di variabile Discrete Numeriche Nominale Ordinale Intervallo Rapporto variabili insieme Frequenza SI SI SI SI previa previa categorizzazione categorizzazione Frequenza cumulativa NO SI SI SI Istogrammi SI(no cum) SI SI SI Correlazione NO NO SI SI Regressione NO NO SI SI
Distribuzione di frequenza Table Frequency distribution (absolute and percent) of ALL cases diagnosed in 199-98 in Piedmont, according to gender, immunophenotype, WBC count and age at diagnosis N (%) Total 498 (1) Immunophenotype Not specified T B B precursor 3 () 4 (18) 1 (4) 39 (9) WBC COUNT missing <=99991 3 /l 1-49 9991 3 /l >= 1 3 /l (1) 3 (4) 16 (33) 91 (183) Age less than 1 year 1-4 y - 9 y 1-14 y 13 (6) 43 (488) 16 (313) 86 (13) 6
Distribuzione di frequenza: procedure Variabili categoriche: 1 definire i possibili valori della variabile predisporre l elenco dei possibili valori (se ordinali in ordine crescente) 3 contare quante osservazioni per ciascun valore (frequenza) 4 calcolare le corrispondenti proporzioni (eventualmente come percentuali) calcolare le frequenze cumulative (somma della frequenza delle osservazioni con valore della variabile inferiore od uguale al valore considerato) e le relative proporzioni o percentuali
1 e Risultato scolastico Insufficiente Sufficiente Buono Distinto Ottimo Totale 8
3 e 4 Risultato n Proporzione % scolastico Insufficiente 4 14 14 % Sufficiente 8 8 8 % Buono % Distinto 4 14 14 % Ottimo 19 19 % Totale 8 1 1 9
Risultato scolastico frequenza Frequenza cumulativa Frequenza cumulativa % Ottimo 19% Distinto 4 9 33 % Buono 16 8 % Sufficiente 8 4 86 % Insufficiente 4 8 1 % Totale 8 8 1 % 1
Distribuzione di frequenza cumulativa La frequenza cumulativa è somma della frequenza delle osservazioni con valore della variabile inferiore od uguale al valore considerato Calcolata la frequenza cumulativa si può calcolare la corrispondente percentuale 11
Distribuzione di frequenza: Variabili su scala continua / numerica Esempio con variabili numeriche (interi) non riunite in classi ETA Valori possibili (intervallo definito arbitrariamente da 3 a 99) 3 9 31 1 1 91 3 9 33 3 3 93 34 4 4 94 3 9 36 6 6 96 3 9 38 8 8 98 39 9 9 99 4 6 8 41 61 81 4 6 8 43 63 83 44 64 84 4 6 8 46 66 86 4 6 8 48 68 88 49 69 89 1
Segue (sono conteggiati solo i valori con almeno una osservazione ETA Frequency Percent 3 63 1 41 64 38 88 4 6 14 6 4 44 6 14 66 3 4 4 4 9 6 18 4 46 8 19 68 8 19 4 4 9 69 1 49 8 19 1 4 9 1 8 19 1 6 14 18 4 4 9 3 4 6 4 1 8 4 14 33 6 14 4 9 6 8 19 6 6 14 8 19 4 9 8 8 19 9 4 9 9 14 33 83 6 1 8 9 61 4 6 4 Totale 43 1 13
Se le variabili sono numeriche occorre definire gli intervalli dei valori della variabile (classi) 1 gli intervalli debbono essere definiti in modo che tutte le possibili osservazioni cadano in una ed una sola classe è opportuno che gli intervalli siano di uguale ampiezza (se possibile) Esempio: ETA (variabile indicata con il simbolo x ) ƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 3<= x <4 4<= x < <= x <6 6<= x < <= x <8 8<= x <9 9<= x <1 14
I segni: = es x=1! include solo i soggetti con variabile X di valore 1 >= x>=1! include i soggetti con variabile X di valore 1 (incluso) o superiore ad 1 > x>1! include solo i soggetti con variabile X di valore superiore ad 1 < <= 1
3 calcolare le corrispondenti distribuzioni di frequenza e proporzioni semplici e cumulative Cumulative Cumulative ETA Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 3<= x <4 4<= x < 38 88 4 93 <= x <6 163 11 6 6<= x < 1 493 3 49 <= x <8 14 4 46 991 8<= x <9 48 99 9<= x <1 43 1 16
Esempio Cumulative Cumulative ETA Frequency Percent Frequency Percent 3 63 1 184 48 41 4 9 64 38 88 16 4 6 14 1 3 6 4 4 63 44 6 14 16 3 66 3 4 4 63 4 4 9 4 6 18 4 9 69 46 8 19 8 6 68 8 19 3 698 4 4 9 3 4 69 1 3 49 49 8 19 4 93 1 344 8 4 9 44 1 1 8 19 3 819 1 6 14 116 18 4 3 86 4 9 4 16 3 4 6 394 916 4 1 8 66 13 4 14 33 48 949 6 14 16 4 9 41 98 6 8 19 8 186 6 6 14 418 9 8 19 88 4 9 4 981 8 8 19 96 3 9 4 9 46 991 9 14 33 11 6 83 48 99 6 1 8 1 84 9 43 1 61 4 14 33 6 4 16 3 totale 43 1 43 1 1
Istogrammi : rappresentazione grafica di distribuzioni di frequenza Vengono disegnati su un grafico dei rettangoli, uno per ciascun valore o intervallo di valori della variabile L area dei rettangoli è proporzionale alla frequenza di osservazioni, E opportuno quindi che i rettangoli abbiano tutti base uguale: semplifica sia la preparazione sia la lettura Variabili categoriche: i rettangoli possono essere distanziati tra loro Variabili numeriche: i rettangoli devono essere contigui Come disporre i valori Ascisse: valori della variabile Ordinate: Frequenza (assoluta o percentuale, semplice o cumulativa, a scelta) 18
Distribuzione di frequenza Sulle ascisse l intervallo di valori della variabile, sulle ordinate il numero di osservazioni Attenzione: alcuni istogrammi sono stati prodotti con un programma statistico che etichetta in modo automatico gli intervalli di valori sulle ascisse seguendo una convenzione diversa da quella presentata a lezione 19
Distribuzione di frequenza Sulle ascisse l intervallo di valori della variabile, sulle ordinate la frequenza relativa (percentuale)
Distribuzione di frequenza cumulativa Sulle ascisse l intervallo di valori della variabile, sulle ordinate la frequenza relativa (percentuale) 1
3
Rappresentazioni alternative di distribuzioni di frequenza: Diagrammi a punti (vedi esempio seguente) Diagrammi a torta (pie chart, vedi esempio seguente) Istogrammi a barre orizzontali Figure con area proporzionale alla frequenza (attenzione, la lettura può essere molto complessa) 4
Diagramma a punti Distribuzione di frequenza di una variabile continua (Concentrazione di Emoglobina), separatamente per i due sottogruppi definiti dalla variabile Menopausa (= no, 1= si) 16 Hb 14 Singola osservazione 1 1 1 Tabella 8 di Machin e Campbell menopausa
Esempio di diagramma a torta o Pie chart Distribuzione di frequenza del numero di globuli bianchi tra i casi di leucemia linfoblastica acuta (LLA) rilevati dal RTI Piemonte, 199-98 missing <=999913/l 1-49 99913/l >= 13/l 6
Distribuzione di frequenza di variabili Il procedimento è analogo a quanto descritto per una sola variabile ma più complesso per la necessità di classificare ciascun soggetto per due variabili contemporaneamente 1 definire i possibili valori di ciascuna delle due variabili scrivere una tabella con le due variabili a definire le righe e le colonne 3 scrivere i valori delle variabili in ordine crescente 4 contare quante osservazioni per ciascuna combinazione di valori calcolare i totali di riga, colonna e tabella 6 calcolare le corrispondenti proporzioni (eventualmente come percentuali) riferite a: totale generale, totale di riga, tot di colonna
Problema: descrivere l associazione tra arteriopatia ed abitudine al fumo (due variabili categoriche) in uno studio su pazienti: 1 identifico le variabili ed i valori possibili Var A (arteriopatia), nominale, valori possibili = (es malato, sano) Var B (fumo), nominale, valori possibili = 3 (es non fumatore, ex fumatore, attuale fumatore) preparo una tabella con le due variabili a definire le righe e le colonne 8
Fumo Mai Ex Malato Arteriopatia Sano Totale Attuale Totale 9
Fumo Arteriopatia Totale Malato Sano Mai 8 43 1 Ex 6 4 1 Attuale 3 48 8 Totale 64 136 3
Percentuali sul totale delle osservazioni Arteriopatia % totale Malati Sani Totale Malati Sani % % F Mai 8 43 4, 1, U Ex 6 4 13,, M attuale 3 48 1, 4, O Totale 1, 31
Istogrammi da tabella con variabili Percentuali sul totale delle osservazioni 3,,, % 1, Malati Sani 1,,, Mai Ex attuale Malati 4, 13, 1, Sani 1,, 4, Fumo 3
Istogrammi da tabella con variabili Percentuali sul totale delle osservazioni,, 1, % 1,, Malati Sani, Sani Mai Fumo Ex attuale Malati Mai Ex attuale Malati 4, 13, 1, Sani 1,, 4, 33
Percentuali sul totale di riga F U M O Arteriopatia %riga Malati Sani Totale Malati Sani % % % Mai 8 43 1 1, 84,3 1, Ex 6 4 1 36,6 63,4 1, attuale 3 48 8 38, 61, 1, Totale 34
Istogrammi da tabella con variabili Percentuali di malati per ciascuna categoria di fumo 9, 8,, 6,, % Malati 4, Sani 3,, 1,, Mai Ex attuale Totale Malati 1, 36,6 38, 3, Sani 84,3 63,4 61, 68, Fumo 3
Istogrammi da tabella con variabili Percentuali di malati per ciascuna categoria di fumo 9, 8,, 6, %, 4, 3,, Malati Sani 1,, Sani Mai Ex Fumo attuale Totale Malati Mai Ex attuale Totale Malati 1, 36,6 38, 3, Sani 84,3 63,4 61, 68, 36
Percentuali sul totale di colonna Arteriopatia %colonna Malati Sani Totale Malati Sani F Mai 8 43 1, 31,6 U Ex 6 4 4,6 33,1 M Attuale 3 48 46,9 3,3 O Totale 64 136 1, 1, 3
Istogrammi da tabella con variabili Percentuali di fumatori tra malati e sani, 4, 4, 3, % 3,,, Malati Sani 1, 1,,, Mai Ex attuale Malati 1, 4,6 46,9 Sani 31,6 33,1 3,3 Fumo 38
Istogrammi da tabella con variabili Percentuali di fumatori tra malati e sani, 4, 4, 3, 3, %,, 1, 1, Malati Sani,, Sani Mai Fumo Ex attuale Malati Mai Ex attuale Malati 1, 4,6 46,9 Sani 31,6 33,1 3,3 39
Misure di tendenza centrale e di variabilità Media Deviazione Standard Coefficiente di variazione Mediana Media e deviazione standard geometriche (trasformazione logaritmica) Queste statistiche richiedono variabili su scala continua! 4
Media: è la più comune misura di tendenza centrale Può essere calcolata per variabili numeriche Il valore medio di una variabile in un gruppo di osservazioni si calcola sommando il valore della variabile per ciascuna osservazione e dividendo il risultato per il numero di osservazioni Media = Χ = Σx i / n = (x 1 + x + x 3 + x 4 + x + + x n-1 + x n ) / n 41
Simboli: Σ = sommatoria = (x 1 + x + x 3 + x 4 + x + + x n-1 + x n ) x i n = i-esima osservazione = numero totale di osservazioni n Σ i =1 Indica la sommatoria di tutte le osservazioni, dalla prima (i=1) all ultima (i=n) 4
Quanti decimali? Quando presentate il risultato di una statistica usate un decimale in più di quanti ne sono stati usati per i dati Nei calcoli e nei risultati intermedi mantenete una precisione maggiore ( o 3 decimali in più di quanti ne sono stati usati per i dati) Se utilizzate un calcolatore arrotondate solo il risultato finale 43
Deviazione Standard: misura la variabilità delle osservazioni intorno alla Media Per spiegare la deviazione standard è utile esaminare prima le statistiche Devianza e Varianza La Devianza è la somma dei quadrati delle differenze (scarti) tra il valore della variabile e la media Dev = Σ(x i Χ) La Varianza è la devianza divisa per (numero di osservazioni 1) (si può definire anche come la media degli scarti quadratici) Var = Dev / (n-1) = Σ(x i Χ) / (n-1) 44
La Deviazione Standard è la radice quadrata della varianza DS= [Var] 1/ = [Dev / (n-1)] 1/ = [Σ(x i Χ) / (n-1)] 1/ Deviazione standard calcolata su un campione -> il denominatore è (n-1) Deviazione standard calcolata sulla popolazione -> il denominatore è (n) 4
y 4 38 36 34 3 3 8 6 4 18 16 14 1 1 8 6 4 DS=1 DS= -9-8 - -6 - -4-3 - -1 1 3 4 6 8 9 1 x 46
Coefficiente di Variazione CV% = ( DS / Χ ) * 1 4
Esempio = Calcolo di media e deviazione standard Variabile = altezza - Campione = soggetti x i x i - Χ (x i Χ) 1,64 -,8,34 1,4,41,1 1,6 -,48,3 1,8,11,13 1,8 -,118,144 1,6,61,38 1, -,148, 1,,1,46 1,6 -,98,9 1,69 -,8, 1,,1,6 1,81,111,143 1,8 -,118,144 1,6,61,38 1, -,18,161 1,,1,46 1,,1, 1,,1,11 1,1,11,13 1,8,11,941 Media= 1,699 Varianza=,8 DS=,9 CV%,% 49
Mediana Dato un insieme di osservazioni ordinate per valori crescenti della variabile, la mediana corrisponde al valore dell osservazione che occupa la posizione centrale della distribuzione Se il numero di osservazioni è pari abbiamo due osservazioni centrali: la mediana sarà ottenuta calcolando la media del valore di tali (due) osservazioni centrali La media e la mediana coincidono nel caso di distribuzioni simmetriche Se la distribuzione è asimmetrica la media è maggiormente influenzata dall asimmetria e dai valori estremi
Esempio = Calcolo di media e deviazione standard Variabile = altezza - Campione = soggetti 1 1, 1, 3 1,8 4 1,8 1,6 6 1,64 1,6 8 1,69 9 1, 1 1,1 11 1, 1 1, 13 1,4 14 1, 1 1,6 16 1,6 1 1, 18 1,8 19 1,81 1,8 Mediana= (1,1 + 1,) / = 1,1 1
Percentili: valori della variabile che delimitano specificate frazioni della distribuzione cumulativa dei dati ordinati in senso crescente Alcuni sinonimi 1 quartile = percentile mediana = percentile 3 quartile = percentile Range interquartili = percentile - percentile
Riferendoci ai dati dell esempio a pag1: Numero osservazioni 43 Mean 634381 Std Deviation 899914 Variance 4394969 Coeff Variation 138968 Median 64 Variance 439 Quantile (percentile) 99% 9 9% 9% 3 % % Mediana 64 % 9 1% % 46 1% 4 Interquartile Range 11 3
percentile percentile 4
Box plot *** Summary Statistics for data in: tabella1machincampbell *** Hb Min: 96 1st Qu: 14 Mean: 141 Median: 139 3rd Qu: 163 Max: 11 Total N: NA's : Std Dev: 4188
n Hb PCV% Età_anni menopausa 1 111 3 1 4 3 14 4 4 14 8 131 31 8 6 1 3 31 96 3 8 1 33 3 9 13 3 38 1 139 4 4 11 11 4 4 1 1 139 4 49 13 16 49 4 1 14 163 4 1 1 168 4 1 16 11 6 1 1 166 46 6 1 18 169 63 1 19 1 4 6 1 16 46 6 1 Tabella 1 da Machin et al 6
16 14 H b 1 1
16 14 Quartili Mediana H b 1 Range 1 8
9 Distribuzione di frequenza della concentrazione di corpuscoli dell amianto in 3 casi di tumore polmonare positivi per tale indicatore La distribuzione è marcatamente asimmetrica FREQUENCY 1 3 4 6 8 9 1 11 1 13 14 1 CORPUSCO MIDPOINT 1 1 1 1 3 3 3 3 4 4 4 4 6 6 6 6 8 8 8 8 9 9 9 9 1
6 Distribuzione di frequenza del logaritmo della concentrazione di corpuscoli dell amianto in 3 casi di tumore polmonare positivi per tale indicatore La distribuzione è simmetrica FREQUENCY 1 3 4 L_c MIDPOINT 1 1 1 1 3 3 3 3 4 4 4 4 6 6 6 6 8 8 8 8 9 9 9 9 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 3 1 3 1 3 1 3 1 4
Media geometrica e trasformazione logaritmica Mg = (Πx i ) 1/n Log(Mg)= Σ(logx i )/ n 61
Moda Valore o classe di valori (in questo secondo caso si parla più correttamente di Classe Modale) che ricorrono con maggior frequenza in una distribuzione Possono essere presenti più mode 6