Università degli Studi di Cassino Facoltà di Scienze Motorie Corso di Laurea in Scienze Motorie Anno accademico 2009/2010 Biostatistica (L22) Principi di Statistica Descrittiva (L33) Bruno Federico b.federico@unicas.it
Organizzazione del corso Il corso è articolato in lezioni frontali ed esercitazioni Alcune esercitazioni saranno svolte con carta e penna È consigliabile portare con sé una calcolatrice Altre esercitazioni saranno svolte in aula computer Il materiale delle lezioni è scaricabile da Internet http://docenti.unicas.it Facoltà di Scienze Motorie Federico Bruno Consultazione materiale didattico La verifica finale consisterà in un test scritto Per qualsiasi necessità/problema/approfondimento potete scrivere un e-mail a b.federico@unicas.it
Programma del corso Introduzione alla statistica Obiettivi Statistica descrittiva Lo studio della frequenza Tabelle di frequenza La rappresentazione grafica dei dati Grafici Le misure di sintesi numerica Indici di tendenza centrale, indici di variabilità L analisi della performance sportiva Per lo studio Materiale didattico del docente Fowler, Jarvis, Chevannes. STATISTICA PER LE PROFESSIONI SANITARIE. EdiSES Napoli 2006 Pagano, Gavreau, BIOSTATISTICA, Idelson-Gnocchi, Napoli, 2003
Concetti di base e nomenclatura in statistica
A cosa serve la Statistica? La Statistica è uno strumento essenziale per la scoperta di leggi e relazioni tra fenomeni Svolge un ruolo fondamentale nella ricerca scientifica La Statistica riguarda la raccolta, l organizzazione, la presentazione, l analisi e l interpretazione dei dati numerici allo scopo di fornire un supporto per la realizzazione di decisioni più efficaci quando l interesse è rivolto alle scienze biologiche e mediche, si usa il termine biostatistica
Origini della disciplina Il termine statistica deriva dalla parola Stato Originariamente con questo termine si indicava la raccolta dei dati demografici ed economici di interesse per gli stati La disciplina si è poi sviluppata in un metodo scientifico di analisi applicato alle scienze sociali, naturali, biomediche
Origini della disciplina Con la nascita dei grandi Stati europei, l interesse ad approfondire i fenomeni legati alle popolazioni diventa sempre più forte Gli Stati si dotano di Istituti centrali di statistica deputati per legge alla raccolta, organizzazione e diffusione dei dati sulla popolazione, sulle abitazioni, sulle risorse economiche e su tutti gli aspetti rilevanti della vita di una Nazione In Italia, l ente centrale è l ISTAT (Istituto nazionale di statistica)
La Statistica nello Sport Una delle caratteristiche peculiari dello sport moderno è la misurazione Punteggi, graduatorie, prestazioni degli atleti La valutazione della performance di un atleta o di una squadra può essere: Descrittiva Utile, ad esempio, nell elaborazione di graduatorie Predittiva Utile per valutare la probabilità di vittoria della squadra o dell atleta
La Statistica nello Sport Il baseball ed il basket sono esempi di discipline sportive in cui la statistica gioca un ruolo importante A partire dal 1993, la FIFA ha sviluppato un sistema di ranking delle squadre nazionali che si basa su diversi parametri Risultato finale Numero di goal Se la partita è giocata in casa o fuori L'importanza del match La forza della squadra avversaria Le differenze geografiche tra i continenti
La Statistica nelle scienze bio-mediche Metodi statistici sono largamente utilizzati in campo bio-medico per: Valutare l efficacia di un trattamento valutare la relazione di causalità di un fenomeno (es. una malattia) La statistica è anche utilizzata per valutare la qualità dell assistenza sanitaria Prestazioni fornite da ospedali Prestazioni fornite da Regioni e Aziende Sanitarie Locali
Che cos è la Statistica? È una metodologia generale per lo studio dei fenomeni collettivi e della variabilità di tali fenomeni attraverso L osservazione dei fenomeni La traduzione in simboli L evidenza di irregolarità La verifica di ipotesi È l insieme di principi, procedure logiche e metodi utili a comprendere, controllare e prevedere determinati fenomeni
Descrivere i dati Obiettivi della statistica condensare anche un gran numero di dati rilevati in pochi valori riassuntivi, capaci di indicare importanti proprietà della popolazione o del campione oggetto di indagine Esplorare le relazioni Valutare l esistenza e la grandezza delle relazioni tra le variabili rilevate Fare previsioni utilizzare i dati raccolti per prevedere i valori che ci si aspetta di trovare nella popolazione oggetto di indagine in particolari condizioni
Obiettivi della statistica - esempi Descrivere i dati Qual è il numero di vittorie della squadra? Qual è la performance dell atleta? Esplorare le relazioni Che relazione c è tra adiposità in eccesso, forza e velocità? Fare previsioni Qual è la probabilità di vittoria dell atleta o della squadra note le seguenti condizioni (stato di forma, morale, forza dell avversario, )
Obiettivi della statistica - esempi Descrivere i dati Quanti sono i pazienti ricoverati? Quanti sono maschi? Quanti femmine? Esplorare le relazioni Che relazione c è tra obesità e mal di schiena? Fare previsioni Qual è la probabilità di ripristino della funzionalità motoria dopo un ictus?
Popolazione Concetti di base Insieme o collezione di oggetti, numeri, misure o osservazioni. Le popolazioni possono essere: Finite Gli iscritti ad una palestra in un determinato anno Infinite Campione Tutte le possibili uscite di testa o croce in successivi lanci di una moneta Un sottoinsieme della popolazione su cui vengono raccolti i dati
Concetti di base Unità statistica Minima unità da cui si raccolgono i dati in una indagine Individuo Famiglia Regione Gara Variabile Caratteristica che può assumere valori diversi nelle diverse unità statistiche Altezza dei bambini di una classe Peso degli atleti Età dei pazienti di una clinica
Concetti di base Modalità Valore assunto da una variabile in una determinata unità statistica Individuo Peso Giorgio 80 kg Mario 75 kg Modalità Roberto 77 kg
Natura della Statistica Statistica descrittiva ha a che fare con la presentazione, organizzazione e sintesi dei dati Tabelle, grafici, indici di sintesi Statistica Inferenziale ci permette di generalizzare i risultati ottenuti dai dati raccolti in un piccolo campione ad una popolazione più ampia Stima di parametri Test di ipotesi
Statistica descrittiva ed inferenziale Popolazione Campione Media, dev. standard, Stat. descrittiva Stat. inferenziale
Perché studiare un campione? I motivi per cui spesso viene esaminato un campione, e non l intera popolazione sono: Risorse limitate Pochi dati disponibili Impossibilità a compiere determinati test
La frequenza
Frequenza Il concetto di frequenza è uno dei più importanti nella statistica Frequenza: conta quanto spesso si presenta un determinato valore o intervallo di valori? Frequenza relativa: proporzione quanto spesso si presenta un determinato valore o intervallo di valori, rispetto al totale delle osservazioni? Frequenza percentuale quanto spesso si presenta un determinato valore o intervallo di valori rispetto a 100 osservazioni?
Frequenza Frequenza assoluta Numero di volta che si osserva ciascuna modalità di una variabile Frequenza relativa freq. assoluta/n totale di unità statistiche Frequenza percentuale freq. Relativa X 100
obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 distanza 15 16 18 19 20 20 22 22 22 23 24 24 25 25 25 25 25 26 26 26 27 27 27 28 28 28 28 28 28 29 29 29 31 31 31 32 33 34 35 football In 2 calci, la distanza percorsa dal pallone riempito di aria è stata uguale a 24 yds f(24)=2 p(24)=2/39=0.051 %(24)=0.051*100=5.1%
Frequenza cumulativa Frequenza cumulativa assoluta Somma delle frequenze corrispondenti alle osservazioni più piccole rispetto all osservazione data più la frequenza dell osservazione stessa Frequenza cumulativa relativa Proporzione delle frequenze corrispondenti alle osservazioni più piccole rispetto all osservazione data più la frequenza dell osservazione stessa Freq. cum ass/n totale di unità statistiche Frequenza cumulativa percentuale Proporzione delle frequenze corrispondenti alle osservazioni più piccole rispetto all osservazione data più la frequenza dell osservazione stessa Freq cum rel X 100
obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 distanza 15 16 18 19 20 20 22 22 22 23 24 24 25 25 25 25 25 26 26 26 27 27 27 28 28 28 28 28 28 29 29 29 31 31 31 32 33 34 35 football In 12 calci, la distanza percorsa dal pallone riempito di aria è inferiore o uguale a 24 yds fc(24)=12 pc(24)=12/39=0.307 %c(24)=0.307*100=30.7%
Tabelle di frequenza
Elaborazione di tabelle di frequenza L elaborazione di tabelle di frequenza è il primo passo per comprendere come si presentano le variabili prese in esame
Le Tabelle di sintesi dei dati Generalità presentano i dati in forma sintetica, organizzati secondo righe e colonne Tabelle a singola entrata è presentata la distribuzione di frequenza di UN SOLO carattere statistico Tabelle a doppia entrata è presentata la distribuzione di frequenza di DUE caratteri statistici A seconda dei tipi di dati Dati nominali ed ordinali Rappresentazione di tutte le modalità possibili Dato numerici discreti e continui Dati aggregati per classi
Tabelle: Singola entrata, Variabile Dicotomica Partendo da questi dati grezzi: Id Sesso Età Classe di esposizione Nazionalità 0001 M 35 lieve fumatore italiana 0002 F 40 non fumatore francese 0003 M 60 forte fumatore italiana 0004 M 29 lieve fumatore italiana 0005 M 27 medio fumatore belga 0006 F 26 non fumatore francese 0007 F 35 non fumatore tedesca 0008 F 32 forte fumatore belga 0009 M 45 non fumatore tedesca 0010 M 19 lieve fumatore tedesca 0011 F 24 non fumatore francese 0012 F 28 forte fumatore italiana 0013 M 36 non fumatore italiana Carattere Modalità Sesso Indice rappresentato M F Tot. Freq. assoluta 7 6 13 Freq. relativa 7/13 6/13 Conta dei soggetti che nel campione presentano quella specifica modalità
Raggruppare in classi Nel caso di variabili numeriche, invece di riportare tutte le differenti modalità della variabile, i dati vengono raggruppati in classi o intervalli di valori Come sono costituite le classi? Valori predefiniti (logica, letteratura) Liberi es. classi età (0-14, 15-30, 30-65, >65) classi tempo (<7gg, 7-14, 15-30, 30-60, >60) A larghezza costante es classi quinquennali di età Suddivisioni statistiche (quantili) quartili, quintili, decili (a numerosità costante) Classi dicotomiche si usa quando non ci sono valori di cut-off noti aumenta la potenza statistica Si costruiscono utilizzando 1 solo valore di cut-off (valore soglia) Classi ordinali Si costruiscono utilizzando più di un cut-off
Tabelle: Singola entrata, Variabile Numerica Partendo da questi dati grezzi: In questo caso, ha senso la frequenza cumulativa! Id Sesso Età Classe di esposizione Nazionalità 0001 M 35 lieve fumatore italiana 0002 F 40 non fumatore francese 0003 M 60 forte fumatore italiana 0004 M 29 lieve fumatore italiana 0005 M 27 medio fumatore belga 0006 F 26 non fumatore francese 0007 F 35 non fumatore tedesca 0008 F 32 forte fumatore belga 0009 M 45 non fumatore tedesca 0010 M 19 lieve fumatore tedesca 0011 F 24 non fumatore francese 0012 F 28 forte fumatore italiana 0013 M 36 non fumatore italiana Carattere Classi di Modalità Età Indice rappresentato 10-29 30-39 >39 Tot. Freq. assoluta 6 3 13 Freq. relativa 6/13 4 4/13 3/13 Freq. cumulativa 6/13 10/13 13/13 Conta dei soggetti che nel campione presentano quella specifica modalità
Tabelle: Doppia entrata, Variabile Ordinale Partendo da questi dati grezzi: Id Sesso Età Classe di esposizione Nazionalità 0001 M 35 lieve fumatore italiana 0002 F 40 non fumatore francese 0003 M 60 forte fumatore italiana 0004 M 29 lieve fumatore italiana 0005 M 27 medio fumatore belga 0006 F 26 non fumatore francese 0007 F 35 non fumatore tedesca 0008 F 32 forte fumatore belga 0009 M 45 non fumatore tedesca 0010 M 19 lieve fumatore tedesca 0011 F 24 non fumatore francese 0012 F 28 forte fumatore italiana 0013 M 36 non fumatore italiana Carattere 1 Modalità del carattere 1 Esposizione non lieve medio forte Tot. Carattere 2 Sesso Modalità del carattere 2 M F Tot. 2 1 7 4 3 0 0 1 2 6 6 3 1 3 13 Conta dei soggetti nel campione che presentano la combinazione di entrambe le modalità
Tabelle a doppia entrata Nel caso delle tabelle a doppia entrata, è possibile riportare per ogni casella, oltre alla frequenza assoluta, la frequenza relativa Di riga utilizzando come denominatore il totale di riga Di colonna utilizzando come denominatore il totale di colonna Di cella utilizzando come denominatore il totale generale
Tabelle: Doppia entrata, Variabile Ordinale Come calcolare la %? Id Sesso Età Classe di esposizione Nazionalità % di colonna 0001 M 35 lieve fumatore italiana 0002 F 40 non fumatore francese Sesso 0003 M 60 forte fumatore italiana 0004 M 29 lieve fumatore italiana M F Tot. 0005 M 27 medio fumatore belga 0006 F 26 non fumatore francese 0007 F 35 non fumatore tedesca 0008 F 32 forte fumatore belga 0009 M 45 non fumatore tedesca 0010 M 19 lieve fumatore tedesca 0011 F 24 non fumatore francese 0012 F 28 forte fumatore italiana Esposizione non lieve medio forte 2 4 3 0 1 0 1 2 6 3 1 3 0013 M 36 non fumatore italiana Tot. 7 6 13
Tabelle: Doppia entrata, Variabile Ordinale Id Sesso Età Classe di esposizione Nazionalità % di colonna 0001 M 35 lieve fumatore italiana 0002 F 40 non fumatore francese Sesso 0003 M 60 forte fumatore italiana 0004 M 29 lieve fumatore italiana M F Tot. 0005 M 27 medio fumatore belga 0006 F 26 non fumatore francese 0007 F 35 non fumatore tedesca 0008 F 32 forte fumatore belga 0009 M 45 non fumatore tedesca 0010 M 19 lieve fumatore tedesca 0011 F 24 non fumatore francese 0012 F 28 forte fumatore italiana Esposizione non lieve medio forte 28.6% 42.9% 66.7% 0.0% 14.3% 0.0% 14.3% 33.3% 0013 M 36 non fumatore italiana Tot. 100.0% 100.0%
Tabelle: Doppia entrata, Variabile Ordinale Id Sesso Età Classe di esposizione Nazionalità % di riga 0001 M 35 lieve fumatore italiana 0002 F 40 non fumatore francese Sesso 0003 M 60 forte fumatore italiana 0004 M 29 lieve fumatore italiana M F Tot. 0005 M 27 medio fumatore belga 0006 F 26 non fumatore francese 0007 F 35 non fumatore tedesca 0008 F 32 forte fumatore belga 0009 M 45 non fumatore tedesca 0010 M 19 lieve fumatore tedesca 0011 F 24 non fumatore francese 0012 F 28 forte fumatore italiana Esposizione non lieve medio forte 33.3% 100.0% 66.7% 0.0% 100.0% 0.0% 66.7% 33.3% 0013 M 36 non fumatore italiana Tot. 100.0% 100.0%
football 26 28 39 30 28 38 29 31 37 29 25 36 30 28 35 29 32 34 30 28 33 32 26 32 26 27 31 11 20 30 33 25 29 27 31 28 30 22 27 28 29 26 14 28 25 32 29 24 39 22 23 34 27 22 31 31 21 24 29 20 35 33 19 26 22 18 23 20 17 29 26 16 22 34 15 31 25 14 28 27 13 28 19 12 12 25 11 26 28 10 22 24 9 26 24 8 25 26 7 29 15 6 23 35 5 14 16 4 25 18 3 16 23 2 25 25 1 helium air trial
Football - air classi_air Freq. Percent Cum. ------------+----------------------------------- 10-14 y 0 0.00 0.00 15-19 y 4 10.26 10.26 20-24 y 8 20.51 30.77 25-29 y 20 51.28 82.05 30-34 y 6 15.38 97.44 35-39 y 1 2.56 100.00 ------------+----------------------------------- Total 39 100.00
Football - helium classi_hel Freq. Percent Cum. ------------+----------------------------------- 10-14 y 4 10.26 10.26 15-19 y 1 2.56 12.82 20-24 y 5 12.82 25.64 25-29 y 17 43.59 69.23 30-34 y 10 25.64 94.87 35-39 y 2 5.13 100.00 ------------+----------------------------------- Total 39 100.00
Football air and helium 10-14 y 15-19 y 20-24 y 25-29 y 30-34 y 35-39 y air 0 4 8 20 6 1 helium 4 1 5 17 10 2 tot 39 39
Football air and helium air % colonna helium % colonna n % n % 10-14 y 0 0.0 4 10.3 15-19 y 4 10.3 1 2.6 20-24 y 8 20.5 5 12.8 25-29 y 20 51.3 17 43.6 30-34 y 6 15.4 10 25.6 35-39 y 1 2.6 2 5.1 tot 39 100.0 39 100.0
Problema Un esempio Valutare in un campione di soggetti la frequenza di eventi coronarici acuti ed i fattori ad essi associati Ipotesi di ricerca L abitudine al fumo, la pressione arteriosa ed il tipo di personalità sono associati ad una maggiore probabilità di manifestare un evento coronarico acuto
Tabelle a singola entrata Descrivono la distribuzione di frequenza di una sola variabile alla volta Sono utilizzate per variabili binomiali, nominali, ordinali e numeriche (raggruppando, in quest ultimo caso, i dati in classi) La personalità Tipo A si riferisce a persone che tendono ad essere competitive e aggressive La personalità Tipo B sono praticamente l opposto I Tipo A tendono a manifestare lo stress con chi li circonda, i Tipo B interiorizzano lo stress. Type A or B personality Freq. Percent ------------+----------------------- A 18 51.43 B 17 48.57 ------------+----------------------- Total 35 100.00
Tabelle a singola entrata Nel caso di variabili numeriche discrete, se le modalità sono un numero ridotto, si riporta la frequenza di tutti i valori Cigarettes smoked per day Freq. Percent Cum. ------------+----------------------------------- 0 11 31.43 31.43 15 3 8.57 40.00 20 8 22.86 62.86 25 3 8.57 71.43 30 7 20.00 91.43 35 2 5.71 97.14 40 1 2.86 100.00 ------------+----------------------------------- Total 35 100.00
Tabelle a singola entrata Nel caso di variabili numeriche continue, si aggregano i dati in classi P. Arter. Sistolica Freq. Percent Cum. ------------+----------------------------------- <110 3 8.57 8.57 110-119 4 11.43 20.00 120-129 11 31.43 51.43 130-139 3 8.57 60.00 >=140 14 40.00 100.00 ------------+----------------------------------- Total 35 100.00
Tabelle a doppia entrata Descrivono la distribuzione di frequenza di due variabili contemporaneamente Sono utili per valutare l eventuale presenza di associazione (e la forza dell associazione) tra due variabili ev. coronarico acuto Type no si Total -----------+----------------------+---------- A 12 6 18 B 15 2 17 -----------+----------------------+---------- Total 27 8 35
Tabelle a doppia entrata Per valutare l eventuale presenza di associazione (e la forza dell associazione) tra due variabili, si riporta oltre alla frequenza assoluta, una misura di frequenza relativa (i.e. percentuale) Nell esempio, viene riportata la percentuale di riga ev. coronarico acuto Type no si Total -----------+----------------------+---------- A 12 6 18 66.67 33.33 100.00 -----------+----------------------+---------- B 15 2 17 88.24 11.76 100.00 -----------+----------------------+---------- Total 27 8 35 77.14 22.86 100.00
Tabelle a doppia entrata In quest altro esempio di tabella di frequenza a doppia entrata, sono riportate la frequenza assoluta e la frequenza relativa (% di riga) ev. coronarico acuto ab. fumo no si Total ---------------+----------------------+---------- non fumatore 10 1 11 90.91 9.09 100.00 ---------------+----------------------+---------- fumatore 9 2 11 81.82 18.18 100.00 ---------------+----------------------+---------- forte fumatore 8 5 13 61.54 38.46 100.00 ---------------+----------------------+---------- Total 27 8 35 77.14 22.86 100.00
Tabelle a n entrate In questo esempio è stata riportata una tabella a tre entrate, per le variabili Abitudine al fumo Tipo di personalità Presenza dell evento coronarico acuto ev. coronarico acuto and Type --- no --- --- si --- ab. fumo A B A B ---------------+------------------------- non fumatore 5 5 1 fumatore 4 5 1 1 forte fumatore 3 5 4 1
Esercitazione La tabella seguente riporta la distribuzione di frequenza del numero di figli in un campione di famiglie Qual è l unità statistica? Quante sono le unità statistiche? Qual è la variabile in esame? Che tipo di variabile è? N figli frequenza 0 10 1 3 2 6 3 8 4 31 5 15 6 2 Tot 75
Esercitazione La tabella seguente riporta la distribuzione di frequenza del numero di figli in un campione di famiglie Quante sono le famiglie che hanno 5 figli? Quante sono in percentuale le famiglie che hanno 5 figli? Quante sono le famiglie che hanno al massimo 5 figli? Quante sono in percentuale le famiglie che hanno al massimo 5 figli? N figli frequenza 0 10 1 3 2 6 3 8 4 31 5 15 6 2 Tot 75
Esercitazione I dati seguenti rappresentano le età di 48 soggetti che frequentano un centro di riabilitazione fisica. Utilizza una tabella di frequenza per rappresentare in modo sintetico i dati 32 63 33 57 35 54 38 53 42 51 42 48 43 46 61 53 12 13 16 31 30 28 28 25 23 23 22 21 17 13 30 14 29 16 28 17 27 21 24 22 23 61 55 34 42 13 26 22
Un esempio Di un gruppo di atleti raccogliamo delle informazioni relative al tipo di sport praticato, al peso, all'altezza ed al numero di infortuni subiti Vorremmo conoscere la frequenza degli infortuni e se questo valore differisce nei diversi sport
Il dataset
Sport praticati Sport Freq. Percent ------------+------------------------- Atletica 4 22.22 Basket 7 38.89 Nuoto 3 16.67 Pallavolo 4 22.22 ------------+-------------------------- Total 18 100.00
Numero di infortuni N di infortuni Freq. Percent Cum. ------------+----------------------------------- 0 6 33.33 33.33 1 4 22.22 55.56 2 5 27.78 83.33 3 3 16.67 100.00 ------------+----------------------------------- Total 18 100.00
Esercitazione La frequenza di infortuni è diversa a seconda dello sport praticato? Costruisci una tabella a doppia entrata
Sport e numero di infortuni N infortuni Sport meno di 2 2 o più Total -----------+----------------------+---------- Atletica 3 1 4 Basket 4 3 7 Nuoto 2 1 3 Pallavolo 1 3 4 -----------+----------------------+---------- Total 10 8 18
Sport e numero di infortuni N infortuni Sport meno di 2 2 o più Total -----------+----------------------+---------- Atletica 3 1 4 75.00 25.00 100.00 -----------+----------------------+---------- Basket 4 3 7 57.14 42.86 100.00 -----------+----------------------+---------- Nuoto 2 1 3 66.67 33.33 100.00 -----------+----------------------+---------- Pallavolo 1 3 4 25.00 75.00 100.00 -----------+----------------------+---------- Total 10 8 18 55.56 44.44 100.00 % di riga