Laurea triennale in EDUCATORE PROFESSIONALE a.a. 2010-2011 STATISTICA MEDICA (I) Flavia Carle Centro di Epidemiologia, Biostatistica e Informatica Medica Università Politecnica delle Marche Facoltà di Medicina e Chirurgia via Tronto 10/a, 60020 Torrette di Ancona Tel. 071.2206020, fax 071.2206018 e-mail: f.carle@univpm.it Una precisazione importante. Tutti gli argomenti trattati in questa prima parte (I) sono oggetto dei capitoli 3,4,5 del testo consigliato: «STATISTICA MEDICA» di Martin Bland, edizioni APOGEO Per la preparazione, gli studenti devono utilizzare soprattutto il testo consigliato (o un testo di statistica medica di base analogo, di loro scelta): le diapositive devono rappresentare solo una guida agli argomenti svolti durante le lezioni F. Carle 2011 1
Dall idea..e emersa quindi la necessità di individuare i comportamenti a rischio di tossicodipendenza nella popolazione giovanile dei comuni della AUSL7 di Ancona compresa tra i 16 e i 19 anni al progetto di studio..e emersa quindi la necessità di individuare i comportamenti a rischio di tossicodipendenza nella popolazione giovanile dei comuni della AUSL7 di Ancona compresa tra i 16 e i 19 anni OBIETTIVO delineare un quadro attendibile della costellazione dei rischi a cui si espongono gli adolescenti indagando i comportamenti ritenuti più diffusi e a più elevata pericolosità condotte sessuali non protette propensione ad usare e ad eccedere con sostanze voluttuarie a valenza psicoattiva (alcol, tabacco, droghe e farmaci) F. Carle 2011 2
come raggiungere l obiettivo acquisizione delle informazioni processo tecniche RICERCA metodo quantitativo riusciremo noi a sviluppare e a sottoporre a controllo empirico un modello teorico in grado di spiegare crimine e devianza nell infanzia, nell adolescenza e nell età adulta? Sampson-Laub, 1993 impostazione rilevazione analisi risultati metodo qualitativo Noi nelle scienze sociali,, non abbiamo mai completamente compreso le gang poi il fatto che le gang non siano state comprese come organizzazioni ha impedito la nostra comprensione del loro comportamento Sànchez-Jankowsky, 1991 come raggiungere l obiettivo: metodo quantitativo 1 Comportamenti a rischio per la salute adolescenti INDAGINE AD HOC spazio comuni del territorio dell Ausl 7 di Ancona tempo 1998-1999 A CHI CHIEDERE COSA CHIEDERE COME CHIEDERE F. Carle 2011 3
tipi di indagine: a chi chiedere INDAGINE ESAUSTIVA CENSIMENTO GENERALE DELLA POPOLAZIONE INDAGINE CAMPIONARIA tipi di indagine: a chi chiedere perché indagine campionaria: razionalizzazione delle risorse tempo costi unica possibile: a popolazione non è direttamente osservabile F. Carle 2011 4
tipi di indagine: a chi chiedere Adolescenti con età compresa fra i 16 e 19 anni di età residenti nei comuni dell Asl 7 di Ancona 1998-1999 4223 adolescenti INDAGINE CAMPIONARIA tipi di indagine: a chi chiedere CAMPIONE STUDENTI Triennio delle scuole superiori dei comuni dell AUSL 7 di Ancona NON STUDENTI Abbandoni scolastici Liste circoscrizionali di impiego 1441 467 F. Carle 2011 5
tipi di indagine: a chi chiedere statistica descrittiva Raccolta ed elaborazione delle informazioni gli errori nel reclutamento dei soggetti (unità di osservazione) Popolazione in studio N=100 adolescenti reclutati nei luoghi di ritrovo informali ERRORE CASUALE % fumatori = 20% F. Carle 2011 6
gli errori nel reclutamento dei soggetti (unità di osservazione) ERRORE CASUALE Popolazione in studio N=100 adolescenti reclutati nei luoghi di ritrovo informali Campione n=25 n 1 n 2 n 3 n 4 % fumatori 24 16 8 32 % fumatori = 20% n=50 20 gli errori nel reclutamento dei soggetti (unità di osservazione) ERRORE SISTEMATICO Popolazione in studio N=100 adolescenti reclutati in discoteca Campione % fumatori n=25 32 n=38 34 % fumatori = 20% % fumatori = 30% F. Carle 2011 7
cosa chiedere: la rilevazione delle informazioni (dati) INFORMAZIONI RILEVATE Dati personali genere, tipo di scuola frequentato, percorso scolastico, cambiamento nell indirizzo scolastico Famiglia stato civile, titolo di studio, condizione lavorativa dei genitori, componenti della famiglia, tipologia e ubicazione dell abitazione, tipologia di rapporti con e fra i genitori Rapporti con l esterno tipologia di rapporti con i compagni/colleghi, gli insegnanti/fatori di lavoro, aspettative sulla scuola/lavoro cosa chiedere: la rilevazione delle informazioni (dati) INFORMAZIONI RILEVATE Tempo libero posti in cui si trascorre il tempo libero, orario serale massimo di rientro a casa, impiego del denaro, tipologie e soddisfazione delle amicizie Disagio psichico stati di ansia, esaurimento nervoso, insonnia, paure, mancanza di fiducia, irritazione, sottostima, F. Carle 2011 8
cosa chiedere: la rilevazione delle informazioni (dati) INFORMAZIONI RILEVATE Alcol Fumo Psicofarmaci presenza di familiari, frequenza, tipologia, circostanze favorenti, Droga situazioni capitate, cause sociali, principali motivazioni personali, grado di pericolosità, principali effetti, esperienza personale, presenza di familiari, Sessualità rapporto di coppia fisso, fonti di informazioni, tipologia del partner ideale, esperienze personali, metodi contraccettivi usati e conosciuti, malattie a trasmissione sessuale cosa chiedere: la rilevazione delle informazioni (dati) INFORMAZIONI RILEVATE questionario Strumento di indagine Organizzazione di quesiti in forma standardizzata Schema di intervista altamente strutturata Strumento di misura AFFIDABILE F. Carle 2011 9
gli errori nella rilevazione delle informazioni PRECISIONE / RIPRODUCIBILITA buona scarsa buona + + + + + + + + + + + + VALIDITA scarsa + + + + + + + + + + + + + + + + Raccolta dati correzione si errori? no codifica controllo manuale Inserimento su PC correzione si errori? stampa e controllo no Archivio definitivo copia rapporto correzione si errori? no stampa e controllo Analisi dei dati F. Carle 2011 10
La bontà dei risultati di uno studio non sarà mai migliore della qualità dei dati di partenza F. Carle 2011 11
codifica e archiviazione delle informazioni Genere Maschio Femmina Sesso1 1 2 Titolo di studio conseguito Licenza elementare Licenza media inferiore Scuola professionale Diploma di maturità Altro (specifica) TITSTUD4 1 2 3 4 5 F. Carle 2011 12
Maschio Femmina Licenza elementare Licenza media inferiore Scuola professionale Diploma di maturità Altro (specifica) I numeri rappresentano meglio e più sinteticamente le osservazioni Popolazione bersaglio Universo Popolazione accessibile Campione Unità di osservazione Adolescenti (età 16-19 anni) Adolescenti (età 16-19 anni) residenti nei comuni dell Asl 7 di Ancona 1998-1999 Adolescenti (età 16-19 anni) studenti Adolescenti (età 16-19 anni) non studenti Individuo Carattere Variabile età genere Modalità Tutti i valori in anni (mesi, giorni, ore) Maschio; Femmina F. Carle 2011 13
Percorso scolastico: numero bocciature 0 1 2 3 quantitativa, discreta risultato di una enumerazione 0, 1, 2 espresso dai numeri naturali procede per salti di unità Età dello studente nell anno dell intervista Tutti i valori fra i 16 e i 19 anni risultato di una misurazione 16.3, 17.4,.19.9,..18.1. espresso dai numeri reali varia per infinitesimi quantitativa, continua Area dell'istituto scolastico di appartenenza Area classica (licei, magistrali) Area tecnica (istituti tecnici) Area professionale (istituti professionali) Area artistica (istituti qualitativa e licei artistici) nominale risultato di una valutazione Tipo di rapporto con il padre / la madre Insopportabile In parte insopportabile Né insopportabile né buono In parte buono Buono qualitativa ordinale Ottimo risultato di una valutazione tradotta in una graduatoria DA SCALA CONTINUA A SCALA NOMINALE VARIABILE Indice di massa corporea: Peso/altezza 2 (kg) (m2) SCALA DI CARATTERISTICHE ESEMPI MISURA qualunque stato di CONTINUA grandezza entro il proprio 23.75 Kg/m 2 intervallo di esistenza DISCRETA ORDINALE NOMINALE valori espressi come numeri interi formulazione di categorie di riferimento graduate valutazione della presenza di una determinata condizione 24 Kg/m 2 Sottopeso <18.5 Normopeso 18.5-24.9 Sovrappeso 25.0-29.9 Obeso >=30.0 Obesità NO: <30.0 SI: >=30 Maggior sintesi Perdita delle informazioni individuali F. Carle 2011 14
PERCHÉ È NECESSARIO DISTINGUERE? quantitativa continua quantitativa discreta qualitativa ordinale qualitativa nominale è possibile effettuare qualsiasi operazione matematica è possibile effettuare confronti è possibile effettuare un ordinamento DIVERSO TRATTAMENTO NELL ANALISI STATISTICA ANALISI STATISTICA DESCRIVERE Distribuzioni di frequenza delle variabili Controllare la qualità dei dati Caratterizzare i soggetti in studio Orientare la scelta dei modelli di analisi F. Carle 2011 15
ANALISI STATISTICA DESCRIVERE Distribuzioni di frequenza delle variabili TABELLE GRAFICI N DRP mesi 1 7 2 12 3 20 4 6 5 15 6 9 7 15 8 13 9 12 10 24 11 24 12 3 13 15 14 2 15 18 16 5 17 18 TABELLA DI FREQUENZA PER UNA VARIABILE QUANTITATIVA durata del rapporto con il partner DRP (mesi) 1. Individuare il valore minimo e massimo 2. Definire delle classi di valori F. Carle 2011 16
TABELLA DI FREQUENZA PER UNA VARIABILE QUANTITATIVA N DRP mesi 1 7 2 12 3 20 4 6 5 15 6 9 7 15 8 13 9 12 10 24 11 24 12 3 13 15 14 2 15 18 16 5 17 18 Distribuzione di frequenza della durata del rapporto con il partner dei soggetti reclutati Classi di durata (mesi) 0-2 3-5 6-8 9-11 12-14 15-17 18-20 21-23 24-26 SOGGETTI 1 2 2 1 3 3 3 0 2 TABELLA DI FREQUENZA PER UNA VARIABILE QUANTITATIVA N DRP mesi 1 7 2 12 3 20 4 6 5 15 6 9 7 15 8 13 9 12 10 24 11 24 12 3 13 15 14 2 15 18 16 5 17 18 Distribuzione di frequenza della durata del rapporto con il partner dei soggetti reclutati Classi di durata (mesi) 0-2 3-5 6-8 9-11 12-14 15-17 18-20 > 20 SOGGETTI 1 2 2 1 3 3 3 2 F. Carle 2011 17
TABELLA DI FREQUENZA PER UNA VARIABILE QUANTITATIVA N DRP mesi 1 7 2 12 3 20 4 6 5 15 6 9 7 15 8 13 9 12 10 24 11 24 12 3 13 15 14 2 15 18 16 5 17 18 Distribuzione di frequenza della durata del rapporto con il partner dei soggetti reclutati Classi di durata (mesi) 0-6 7-12 13-18 > 18 SOGGETTI 4 4 6 3 TABELLA DI FREQUENZA PER UNA VARIABILE QUANTITATIVA Distribuzione di frequenza della durata del rapporto con il partner dei soggetti reclutati Classi di durata (mesi) Frequenza assoluta Frequenza relativa Frequenza percentuale <= 6 4 0.235 23.5 7-12 4 0.235 23.5 12-18 6 0.353 35.3 > 18 3 0.177 17.7 TOTALE 17 1.000 100.0 F. Carle 2011 18
TABELLA DI FREQUENZA PER UNA VARIABILE QUANTITATIVA Distribuzione di frequenza della durata del rapporto con il partner dei soggetti reclutati Classi di durata (mesi) F. assoluta F. cumulata F. % F. % cumulata <= 6 4 4 23.5 23.5 7-12 4 8 23.5 47.0 12-18 6 14 35.3 82.3 > 18 3 17 17.7 100.0 TOTALE 17 100.0 TABELLA DI FREQUENZA PER UNA VARIABILE QUALITATIVA Distribuzione assoluta e percentuale del tipo di rapporto con i genitori Tipo di rapporto con i genitori n Pessimo 60 Cattivo 30 In parte cattivo 40 Né cattivo né buono 151 In parte buono 257 Buono 879 Ottimo 423 % 3.3 1.6 2.2 8.2 14.0 47.8 23.0 % cumulata 3.3 4.9 7.1 15.3 29.2 77.0 100 n cumulata 60 90 130 281 538 1417 1840 Totale 1840 100 F. Carle 2011 19
DATI MANCANTI TABELLA DI FREQUENZA PER UNA VARIABILE QUALITATIVA Distribuzione assoluta e percentuale del tipo di rapporto con i genitori Tipo di rapporto con i genitori n Pessimo 60 Cattivo 30 In parte cattivo 40 Né cattivo né buono 151 In parte buono 257 Buono 879 Ottimo 423 Totale rispondenti: 1840 % 3.3 1.6 2.2 8.2 14.0 47.8 23.0 100 % cumulata 3.3 4.9 7.1 15.3 29.2 77.0 100 n cumulata 60 90 130 281 538 1417 1840 Non rispondenti: 68 (3.6%) F. Carle 2011 20
DATI MANCANTI Risposta non di competenza del soggetto Il soggetto non sa rispondere Il soggetto non vuole rispondere Dato errato L informazione non è stata rilevata TABELLA autoesplicativa semplice e breve non ridondante F. Carle 2011 21
VARIABILE QUALITATIVA NOMINALE GRAFICI AEROGRAMMA Fonti delle prime informazioni sulla sessualità (n=1908) α = 360*25/100 = 90 360 : α = 100 : f% VARIABILE QUALITATIVA ORDINALE GRAFICI DIAGRAMMA A BARRE Frequenza di litigi protratti con i genitori (n = 1908). Distribuzione % % frequenza = altezza Frequenza di litigi protratti Non risponde F. Carle 2011 22
VARIABILE QUANTITATIVA CONTINUA GRAFICI ISTOGRAMMA Durata del rapporto con il partner (n = 17). Distribuzione percentuale frequenza = area % altezza = = frequenza/ampiezza = = densità di frequenza <=6 mesi 7-12 mesi 13-18 mesi >18 mesi VARIABILE QUANTITATIVA CONTINUA ISTOGRAMMA densità di frequenza % Durata del rapporto con il partner (n = 449). Distribuzione percentuale 10% 4% 9% 22% 55% 12-3 4-6 7-12 >12 durata (mesi) 55% frequenza % 4% 10% 9% 22% 1 2-3 4-6 7-12 >12 durata (mesi) F. Carle 2011 23
GRAFICI Fonti delle prime informazioni sulla sessualità Frequenza di litigi protratti con i genitori GRAFICI Frequenza di litigi protratti con i genitori. Distribuzione percentuale Frequenza di litigi protratti con i genitori. Distribuzione percentuale F. Carle 2011 24
TABELLA DI FREQUENZA A DOPPIA ENTRATA Distribuzione assoluta del tipo di rapporto fra i genitori per condizione dell intervistato Tipo di rapporto Studenti Non Studenti Totale n n n Pessimo 44 16 60 Cattivo 14 16 30 In parte cattivo 33 7 40 Né cattivo né buono 111 40 151 In parte buono 195 62 257 Buono 681 198 879 Ottimo 319 104 421 Non risponde 44 24 68 Totale 1441 467 1908 TABELLA DI FREQUENZA A DOPPIA ENTRATA Distribuzione percentuale del tipo di rapporto fra i genitori per condizione dell intervistato Tipo di rapporto Studenti Non Studenti Totale n % n % n % Pessimo 44 3.1 16 3.4 60 3.1 Cattivo 14 1.0 16 3.4 30 1.6 In parte cattivo 33 2.3 7 1.5 40 2.1 Né cattivo né buono 111 7.7 40 8.6 151 7.9 In parte buono 195 13.5 62 13.3 257 13.5 Buono 681 47.3 198 42.4 879 46.1 Ottimo 319 22.1 104 22.3 421 22.1 Non risponde 44 3.1 24 5.1 68 3.6 Totale 1441 100 467 100 1908 100 F. Carle 2011 25
TABELLA DI FREQUENZA A DOPPIA ENTRATA Distribuzione assoluta del tipo di rapporto fra i genitori per condizione dell intervistato Tipo di rapporto Studenti Non Studenti Totale n n n Pessimo 44 16 60 Cattivo 14 16 30 In parte cattivo 33 7 40 Né cattivo né buono 111 40 151 In parte buono 195 62 257 Buono 681 198 879 Ottimo 319 104 421 Non risponde 44 24 68 Totale 1441 467 1908 TABELLA DI FREQUENZA A DOPPIA ENTRATA Distribuzione percentuale della condizione dell intervistato per tipo di rapporto fra i genitori Tipo di rapporto Studenti Non Studenti Totale n n n Pessimo 44 73.3 16 26.7 60 100 Cattivo 14 46.7 16 53.3 30 100 In parte cattivo 33 82.5 7 17.5 40 100 Né cattivo né buono 111 73.5 40 26.5 151 100 In parte buono 195 75.9 62 24.1 257 100 Buono 681 77.5 198 22.5 879 100 Ottimo 319 75.3 104 24.7 421 100 Non risponde 44 64.7 24 35.3 68 100 Totale 1441 75.5 467 24.5 1908 100 F. Carle 2011 26
Distribuzione dei casi di spinalioma in funzione del genere e dell età (in anni) Marche 1990-1994 maschi femmine - ADATTO ISTOGRAMMA POLIGONO DI FREQUENZA maschi femmine + ADATTO Distribuzione dei casi di spinalioma in funzione del Distribuzione genere dei casi e di dell età spinalioma (in anni) in funzione Marche del sesso 1990-1994 e dell età (in anni) Marche 1990-1994 maschi femmine SI NO maschi femmine F. Carle 2011 27
Relazione tra età e glicemia valutata su 17 soggetti reclutati DIAGRAMMA DI DISPERSIONE Glicemia (mg/dl) Età (anni) COMPONENTI FONDAMENTALI Titolo Didascalie Scala Legenda Grafica Sempre: presenti chiare esplicative F. Carle 2011 28
ANALISI STATISTICA DESCRIVERE Distribuzioni di frequenza delle variabili TABELLE GRAFICI MISURE DI SINTESI NUMERICA ID Età 1 42 2 51 3 50 4 68 5 55 6 50 7 42 8 60 9 59 10 42 11 44 12 57 13 76 14 40 15 72 16 42 17 60 MEDIA ARITMETICA somma di tutti i valori numerici della variabile rapportata al numero totale di osservazioni i = 1,,N osservazioni si applica a variabili quantitative è influenzata da tutti i valori F. Carle 2011 29
ID Età 1 42 2 51 3 50 4 68 5 55 6 50 7 42 8 60 9 59 10 42 11 44 12 57 13 76 14 40 15 72 16 42 17 60 Età f 40 1 42 4 44 1 50 2 51 1 55 1 57 1 59 1 60 2 68 1 72 1 76 1 MEDIA ARITMETICA PONDERATA j = 1,,K modalità MEDIA ARITMETICA PER DATI RAGGRUPPATI IN CLASSI Somma di denaro a disposizione nell'arco di una settimana (SDS) Studenti Non Studenti < 5 73 9 5-11 407 38 12-25 594 98 26-49 300 150 50-99 35 104 >= 100 18 60 y i 2.5 8 18.5 37.5 74.5 150 Sudenti y i *f i 182.5 3256 10989 11250 2607.5 2700 Non Studenti y i *f i 22.5 304 1813 5625 7748 9000 Totale 1427 459 30982 24513 Non risponde 14 8 1427 459 SDS media ( ) 22 53 F. Carle 2011 30
Valori di glicemia misurata in 5 soggetti glicemia soggetti (mg/dl) 1 90 2 100 3 110 4 120 5 250 Glicemia media = 134 mg/dl LA MEDIA E INFLUENZATA DAI VALORI ESTREMI ID Età 14 40 1 42 7 42 10 42 16 42 11 44 3 50 6 50 2 51 5 55 12 57 9 59 8 60 17 60 4 68 15 72 13 76 Età f f% f% cum 40 1 5.9 5.9 42 4 23.5 29.4 44 1 5.9 35.3 50 2 11.8 47.1 51 1 5.9 52.9 55 1 5.9 58.8 57 1 5.9 64.7 59 1 5.9 70.6 60 2 11.8 82.4 68 1 5.9 88.2 72 1 5.9 94.1 76 1 5.9 100 MEDIANA è la modalità dell osservazione che occupa la posizione centrale di una distribuzione ordinata di dati in modo tale che il numero di osservazioni con una modalità inferiore o uguale a quella della mediana sia pari al numero con un valore superiore si applica alle variabili ordinali, discrete e continue non è influenzata dai valori estremi F. Carle 2011 31
Valori di glicemia misurata in 5 soggetti glicemia soggetti (mg/dl) 1 90 2 100 3 110 4 120 5 250 Glicemia media = 134 mg/dl Glicemia mediana = 110 mg/dl LA MEDIANA NON E INFLUENZATA DAI VALORI ESTREMI MEDIANA PER DATI RAGGRUPPATI IN CLASSI Somma di denaro a disposizione nell'arco di una settimana Studenti Non Studenti < 5 73 9 5-11 407 38 12-25 594 98 26-49 300 150 50-99 35 104 > 100 18 60 Totale 1427 459 Studenti % 5.1 28.5 41.6 21.0 2.5 1.3 % cum 5.1 33.6 75.3 96.3 98.7 100 Non Studenti % % cum 2.0 2.0 8.3 10.2 21.4 31.6 32.7 64.3 22.7 86.9 13.1 100 Non risponde 14 8 classe mediana F. Carle 2011 32
QUANTILI è il valore dell osservazione sotto cui cade una certa quota di una distribuzione ordinata di dati, suddivisa in Q parti Se la distribuzione è divisa in 4 parti: QUARTILI Se la distribuzione è divisa in 10 parti: DECILI Se la distribuzione è divisa in 100 parti: PERCENTILI MEDIANA = 2 QUARTILE = 5 DECILE = 50 PERCENTILE n Età 14 40 1 42 7 42 10 42 16 42 11 44 3 50 6 50 2 51 5 55 12 57 9 59 8 60 17 60 4 68 15 72 13 76 Età f f% f% cum 40 1 5.9 5.9 42 4 23.5 29.4 44 1 5.9 35.3 50 2 11.8 47.1 51 1 5.9 52.9 55 1 5.9 58.8 57 1 5.9 64.7 59 1 5.9 70.6 60 2 11.8 82.4 68 1 5.9 88.2 72 1 5.9 94.1 76 1 5.9 100 QUANTILI QUARTILI DECILI PERCENTILI F. Carle 2011 33
QUANTILI DATI RAGGRUPPATI IN CLASSI Somma di denaro a disposizione nell'arco di una settimana Studenti Non Studenti < 5 73 9 5-11 407 38 12-25 594 98 26-49 300 150 50-99 35 104 > 100 18 60 Totale 1427 459 Studenti % % cum 5.1 5.1 28.5 33.6 41.6 75.3 21.0 96.3 2.5 98.7 1.3 100 Non Studenti % % cum 2.0 2.0 8.3 10.2 21.4 31.6 32.7 64.3 22.7 86.9 13.1 100 Non risponde 14 8 n età 1 42 2 51 3 50 4 68 5 55 6 50 7 42 8 60 9 59 10 42 11 44 12 57 13 76 14 40 15 72 16 42 17 60 Età f 40 1 42 4 44 1 50 2 51 1 55 1 57 1 59 1 60 2 68 1 72 1 76 1 MODA è la modalità dell osservazione che si verifica con maggior frequenza in una distribuzione di dati non sono necessari calcoli si applica a tutti i tipi di variabili F. Carle 2011 34
MODA PER DATI RAGGRUPPATI IN CLASSI Somma di denaro a disposizione nell'arco di una settimana classe modale Sudenti Non Studenti < 5 73 9 5-11 407 38 12-25 594 98 26-49 300 150 50-99 35 104 > 100 18 60 Totale 1427 459 Non risponde 14 8 MISURE DI CENTRALITA sono espresse nella stessa unità di misura della variabile il valore medio di una variabile è sempre interno alla distribuzione, ma non necessariamente coincide con un termine della distribuzione stessa il valore modale di una variabile è sempre un termine della distribuzione e può assumere una posizione centrale così come può coincidere con gli estremi della distribuzione stessa quando media, moda e mediana coincidono in un solo termine la variabile si distribuisce in maniera perfettamente simmetrica rispetto a quel termine F. Carle 2011 35
Età alla diagnosi di diabete rilevata in due gruppi di soggetti distinti in base al sesso maschi soggetti età (anni) 1 20 2 30 3 40 4 50 5 60 femmine soggetti età (anni) 1 10 2 25 3 40 4 55 5 70 Età media = 40 anni Età mediana = 40 anni Età media = 40 anni Età mediana = 40 anni Età alla diagnosi di diabete rilevata in due gruppi di soggetti distinti in base al sesso maschi Età media = 40 anni Età mediana = 40 anni femmine Età media = 40 anni Età mediana = 40 anni L età alla diagnosi di diabete non pare essere diversa nei due sessi F. Carle 2011 36
Età alla diagnosi di diabete rilevata in due gruppi di soggetti distinti in base al sesso maschi soggetti età (anni) 1 20 2 30 3 40 4 50 5 60 femmine soggetti età (anni) 1 10 2 25 3 40 4 55 5 70 Età media = 40 anni Età mediana = 40 anni Età media = 40 anni Età mediana = 40 anni Età alla diagnosi di diabete rilevata in due gruppi di soggetti distinti in base al sesso maschi soggetti età (anni) 1 20 2 30 3 40 4 50 5 60 femmine soggetti età (anni) 1 10 2 25 3 40 4 55 5 70 Età media = 40 anni Età mediana = 40 anni Campo di variazione 20-60 anni Età media = 40 anni Età mediana = 40 anni Campo di variazione 10-70 anni F. Carle 2011 37
ID Età 14 40 1 42 7 42 10 42 16 42 11 44 3 50 6 50 2 51 5 55 12 57 9 59 8 60 17 60 4 68 15 72 13 76 Età MISURE DI VARIABILITA f 40 1 42 4 44 1 50 2 51 1 55 1 57 1 59 1 60 2 68 1 72 1 76 1 campo di variazione differenza fra il valore massimo e quello minimo della variabile: evidenzia quanto lontani risultano fra loro i due estremi della distribuzione VARIABILI QUANTITATIVE DISCRETE CONTINUE ID Età 14 40 1 42 7 42 10 42 16 42 11 44 3 50 6 50 2 51 5 55 12 57 9 59 8 60 17 60 4 68 15 72 13 76 MISURE DI VARIABILITA Età f f% f% cum 40 1 5.9 5.9 42 4 23.5 29.4 44 1 5.9 35.3 50 2 11.8 47.1 51 1 5.9 52.9 55 1 5.9 58.8 57 1 5.9 64.7 59 1 5.9 70.6 60 2 11.8 82.4 68 1 5.9 88.2 72 1 5.9 94.1 76 1 5.9 100 Intervallo interquartile individuato dal terzo e dal primo quartile : intervallo in cui è compreso il 50% delle osservazioni VARIABILI QUANTITATIVE DISCRETE CONTINUE VARIABILI QUALITATIVE ORDINALI F. Carle 2011 38
INTERVALLO INTERQUARTILE Somma di denaro a disposizione nell'arco di una settimana Studenti Non Studenti < 5 73 9 5-11 407 38 12-25 594 98 26-49 300 150 50-99 35 104 > 100 18 60 Totale 1427 459 Studenti % 5.1 28.5 41.6 21.0 2.5 1.3 % cum 5.1 33.6 75.3 96.3 98.7 100 Non Studenti % % cum 2.0 2.0 8.3 10.2 21.4 31.6 32.7 64.3 22.7 86.9 13.1 100 Non risponde 14 8 ID Età 1 42 2 51 3 50 4 68 5 55 6 50 7 42 8 60 9 59 10 42 11 44 12 57 13 76 14 40 15 72 16 42 MISURE DI VARIABILITA Scarto quadratico medio indica di quanto i valori della variabile si discostano mediamente dalla media aritmetica della distribuzione VARIABILI QUANTITATIVE DISCRETE CONTINUE SQM= Σ(x i -x) 2 i=1,,n N (42-53.5) 17 60 2 +(51-53.5) 2 + +(60-53.5) 2 SQM= = 10.9 17 anni F. Carle 2011 39
ID Età 1 42 2 51 3 50 4 68 5 55 6 50 7 42 8 60 9 59 10 42 11 44 12 57 13 76 14 40 15 72 16 42 SQM= MISURE DI VARIABILITA Scarto quadratico medio indica di quanto i valori della variabile si discostano mediamente dalla media aritmetica della distribuzione VARIABILI QUANTITATIVE DISCRETE CONTINUE i=1,,n 17 60 (42-53.5) 2 +(51-53.5) 2 + +(60-53.5) 2 SQM= = 10.9 17 anni ID Età 1 42 2 51 3 50 4 68 5 55 6 50 7 42 8 60 9 59 10 42 11 44 12 57 13 76 14 40 15 72 16 42 17 60 Età MISURE DI VARIABILITA f 40 1 42 4 44 1 50 2 51 1 55 1 57 1 59 1 60 2 68 1 72 1 76 1 SQM= Scarto quadratico medio ponderato = j=1,,k = (40-53.5)2 +(42-53.5) 2 *4+ +(76-53.5) 2 = 10.9 17 anni F. Carle 2011 40
SQM PER DATI RAGGRUPPATI IN CLASSI Somma di denaro a disposizione nell'arco di una settimana Studenti Non Studenti < 5 73 9 5-11 407 38 12-25 594 98 26-49 300 150 50-99 35 104 >= 100 18 60 Totale 1427 459 Non risponde 14 8 y j 2.5 8 18.5 37.5 74.5 150 somma media ( ) 22 53 SQM= = = = Studenti (y j -x) 2 *f j 27758.3 79772 7276.5 72075 96468.8 294912 578263 1426 Non Studenti (y j -x) 2 *f j 22952.25 76950 116644.5 36037.5 48074 564540 865198 458 405.5 1889.1 20.10 43.5 una precisazione studenti non studenti DEVIANZA 578263 2 865198 2 VARIANZA 405.50 2 1889.10 2 SQM 20.10 43.50 F. Carle 2011 41
MISURE DI VARIABILITA assumono sempre il valore zero se i valori della variabile sono fra loro uguali assumono valori crescenti positivi per livelli progressivamente crescenti di variabilità: quanto più i termini della distribuzione sono fra loro diversi, tanto più l'indice assume valori elevati sono espressi nella stessa unità di misura della variabile Somma di denaro a disposizione nell'arco di una settimana Studenti Non Studenti < 5 73 9 5-11 407 38 12-25 594 98 26-49 300 150 50-99 35 104 >= 100 18 60 Totale 1427 459 Non risponde 14 8 media ( ) 22 53 SQM ( ) 20.10 43.5 NO Quale delle due distribuzioni risulta essere caratterizzata da maggiore variabilità? diversa unità di misura diverso ordine di grandezza F. Carle 2011 42
COEFFICIENTE DI VARIAZIONE Somma di denaro a disposizione nell'arco di una settimana studenti non studenti media ( ) 22 53 SQM ( ) 20.10 43.5 diversa unità di misura diverso ordine di grandezza numero indice corretto per la media CV = SQM media COEFFICIENTE DI VARIAZIONE Somma di denaro a disposizione nell'arco di una settimana studenti non studenti media ( ) 22 53 SQM ( ) 20.10 43.5 CV = SQM media 0.92 0.82 F. Carle 2011 43
MISURE DI SINTESI NUMERICA MISURE DI CENTRALITA evidenziano il valore caratteristico di una distribuzione MISURE DI VARIABILITA evidenziano il grado di dispersione di una distribuzione rispetto a un riferimento F. Carle 2011 44