Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 1. Slide 1 Elementi di Statistica



Documenti analoghi
Corso di. Dott.ssa Donatella Cocca

Slide Cerbara parte1 5. Le distribuzioni teoriche

Il concetto di valore medio in generale

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Lezione 1. Concetti Fondamentali

Analisi e diagramma di Pareto

SPC e distribuzione normale con Access

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

La distribuzione Normale. La distribuzione Normale

Indici di dispersione

Indici (Statistiche) che esprimono le caratteristiche di simmetria e

METODOLOGIA STATISTICA E CLASSIFICAZIONE DEI DATI

VARIABILI E DISTRIBUZIONI DI FREQUENZA A.A. 2010/2011

Matematica generale CTF

TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA PRIMARIA

OCCUPATI SETTORE DI ATTIVITA' ECONOMICA

Capitolo 13: L offerta dell impresa e il surplus del produttore

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

CORSO DI STATISTICA La Misurazione, Scale di Misura, Errori di Misura

~ Copyright Ripetizionando - All rights reserved ~ STUDIO DI FUNZIONE

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

Lezione Introduzione

Capitolo 2 Distribuzioni di frequenza

Modelli descrittivi, statistica e simulazione

Misure della dispersione o della variabilità

Lezione 1. Concetti Fondamentali

Raccomandazione del Parlamento europeo 18/12/2006 CLASSE PRIMA COMPETENZE ABILITÀ CONOSCENZE. Operare con i numeri

INDICI DI TENDENZA CENTRALE

ISTITUTO COMPRENSIVO MONTEGROTTO TERME SCUOLA PRIMARIA DISCIPLINA: MATEMATICA - CLASSE PRIMA OBIETTIVI DI APPRENDIMENTO

Analisi di dati di frequenza

LE FUNZIONI A DUE VARIABILI

Elementi di Psicometria con Laboratorio di SPSS 1

Relazioni statistiche: regressione e correlazione

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca

STATISTICA DESCRITTIVA. Le misure di tendenza centrale

A.S CLASSE PRIMA SCUOLA PRIMARIA D ISTITUTO COMPETENZA CHIAVE EUROPEA DISCIPLINA

CLASSIFICAZIONE DEI CARATTERI

Metodi statistici per le ricerche di mercato

STATISTICA IX lezione

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

Automazione Industriale (scheduling+mms) scheduling+mms.

CURRICOLO DI MATEMATICA SCUOLA PRIMARIA MATEMATICA SEZIONE A : Traguardi formativi

Premesse alla statistica

1. PRIME PROPRIETÀ 2

Per studio di funzione intendiamo un insieme di procedure che hanno lo scopo di analizzare le proprietà di una funzione f ( x) R R

Appunti sulla Macchina di Turing. Macchina di Turing

1. Distribuzioni campionarie

Prova di autovalutazione Prof. Roberta Siciliano

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 1

risulta (x) = 1 se x < 0.

Indirizzo odontotecnico a.s. 2015/2016

RAPPRESENTAZIONE DEI DATI

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

Uso di base delle funzioni in Microsoft Excel

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile

Capitolo 2. Operazione di limite

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di

1. L analisi statistica

Statistica. Lezione 6

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Elementi di statistica. Giulia Simi (Università di Siena) Istituzione di matematica e fondamenti di Biostatistica Siena / 1

Vademecum studio funzione

8 Elementi di Statistica

ESERCIZI DI STATISTICA DESCRITTIVA

LA CONOSCENZA DEL MONDO SCUOLA DELL INFANZIA. OBIETTIVI DI APPRENDIMENTO 3 anni 4 anni 5 anni

Probabilità discreta

Statistiche campionarie

Calcolo delle probabilità

Le funzioni continue. A. Pisani Liceo Classico Dante Alighieri A.S A. Pisani, appunti di Matematica 1

Chi non risolve esercizi non impara la matematica.

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Facciamo qualche precisazione

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

Capitolo 4 Probabilità

Test statistici di verifica di ipotesi

1 Serie di Taylor di una funzione

Statistica descrittiva: prime informazioni dai dati sperimentali

QUANTIZZAZIONE diverse fasi del processo di conversione da analogico a digitale quantizzazione

APPUNTI DI MATEMATICA ALGEBRA \ INSIEMISTICA \ TEORIA DEGLI INSIEMI (1)

A.A. 2015/2016. Statistica Medica. Corso di. CdL in Fisioterapia CdL in Podologia

Teoria in sintesi 10. Attività di sportello 1, 24 - Attività di sportello 2, 24 - Verifica conclusiva, 25. Teoria in sintesi 26

L analisi dei dati. Capitolo Il foglio elettronico

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

Ai fini economici i costi di un impresa sono distinti principalmente in due gruppi: costi fissi e costi variabili. Vale ovviamente la relazione:

PROGETTO INDAGINE DI OPINIONE SUL PROCESSO DI FUSIONE DEI COMUNI NEL PRIMIERO

INTEGRALI DEFINITI. Tale superficie viene detta trapezoide e la misura della sua area si ottiene utilizzando il calcolo di un integrale definito.

Elementi di Statistica descrittiva Parte I

LA STATISTICA E IL CALCOLO DELLE PROBABILITÀ

Indice Statistiche Univariate Statistiche Bivariate

2. Leggi finanziarie di capitalizzazione

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

CURRICOLO MATEMATICA - CLASSE QUINTA -

Grafici delle distribuzioni di frequenza

LA MOLTIPLICAZIONE IN CLASSE SECONDA

INDICATORI OBIETTIVI DI APPRENDIMENTO classe prima

Il significato della MEDIA e della MEDIANA in una raccolta di dati numerici

Transcript:

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 1 Slide 1 Elementi di Statistica

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 2 Introduzione La statistica è la scienza che studia i fenomeni collettivi o di massa. Slide 2 Un fenomeno è detto collettivo o di massa quando la sua determinazione è possibile solo attraverso una molteplicitá di osservazioni. Esempio - L occupazione in Italia negli ultimi 10 anni è un esempio di fenomeno collettivo in quanto è possibile conoscerlo soltanto attraverso le osservazioni circa il lavoro di una molteplicitá di persone. Sono fenomeni collettivi: il numero dei componenti delle famiglie di una data regione, la statura delle persone di un etá fissata, la temperatura in un determinato mese, Slide 3 l etá dei cittadini di una certa nazione, la lunghezza delle foglie di una determinata pianta, la durata delle lampadine prodotte da una fabbrica, il reddito delle famiglie di una nazione, la pressione arteriosa degli individui sani di una popolazione, gli effetti di un farmaco su un insieme di pazienti, etc.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 3 Per studiare questi fenomeni occorre innanzitutto osservare le molteplici modalitá in cui il fenomeno in questione si manifesta nei singoli componenti delle collettivitá prese in esame. Slide 4 Dato un fenomeno collettivo, la statistica insegna a individuare le modalitá in cui si manifesta, a descriverlo sinteticamente, e a trarre da esso conclusioni piú generali riguardanti fenomeni piú ampi. La Statistica come approccio metodologico ha origini antiche. Essa, come lo stesso nome ancora testimonia, è nata dall esigenza della collettivitá Stato di avere un quadro generale della propria popolazione. La conoscenza scientifica è basata sulla conoscenza del rapporto causa - effetto. Slide 5 Acquisire questa conoscenza talvolta è semplice se i fenomeni naturali in esame sono semplici. In questi casi le entitá e le relazioni tra esse che caratterizzano il fenomeno sono evidenti alla osservazione naturale. Questo è vero, in particolare, quando si possono analizzare fenomeni che coinvolgono due entitá e la loro reciproca relazione. Nella maggior parte dei casi tuttavia questo non è vero. Se nell osservazione del fenomeno sono presenti molte entitá tra loro collegate, e le relazioni tra queste non sono note, allora il fenomeno risulta complesso da esaminare e decifrare. In questi casi la Statistica e l utilizzo del Metodo Statistico aiuta per comprendere il fenomeni.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 4 Scopi della Statistica La statistica ha due scopi principali: Slide 6 1. ricavare da una molteplicitá di dati ordinati in tabelle e grafici (troppo numerosi per poter essere presi in considerazione singolarmente) alcune informazioni significative per il problema studiato. Il ramo della Statistica che si occupa di questo aspetto viene chiamato Statistica Descrittiva. 2. fornire metodi che servono ad imparare dall esperienza, cioè a costruire modelli per passare da casi particolari al caso generale. Il ramo della Statistica che si occupa di questo aspetto viene chiamato Statistica Induttiva o Inferenziale. In questo secondo caso si usa anche il Calcolo delle Probabilitá. La Statistica Descrittiva si occupa quindi della raccolta, organizzazione, sintesi e analisi di DATI (cioè misure o risultati di processi di conteggio) Slide 7 La Statistica Inferenziale si occupa del passaggio da un gruppo parziale di informazioni (CAMPIONE) a quello relativo alla popolazione dalla quale il campione viene prelevato o puø provenire. Rientrano nel campo della Statisitca Inferenziale la teoria della Stima, i test di ipotesi ed il disegno degli esperimenti.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 5 La Variabilitá dei fenomeni Ció che caratterizza un fenomeno collettivo è la grande variabilitá degli elementi che costituiscono il fenomeno. La variabilitá ha origini che dipendono dal sistema in esame. Per il tipo di sistemi che ci interessano possiamo raggruppare le origini della variabilitá in tre grandi classi: Slide 8 a) Variabilitá Biologica. Questa è si caratterizza come l insieme di differenze fisiche e funzionali fra individui dello stesso tipo oppure come misure diverse di una stessa caratteristica in individui diversi o nello stesso individuo in momenti diversi (ad. es. l altezza di un gruppo di bambini in un certo momento o quella di uno stesso bambino nel tempo). b) Variabilitá Sistemica. Questa è caratterizzata dall insieme di differenze dovute a fattori che agiscono sulla grandezza in esame e dei quali è possibile accertare l effetto. (Se consideraimo, ad esempio, un gruppo di bambini i piú grandi saranno, in generale piú alti; è notorio infatti che l etá ha effetto sull altezza dei bambini). Slide 9 c) Variabilitá Casuale. In questo caso si fa riferimento all insieme di differenze che sono dovute a fattori incontrollabili che agiscono sull evento. (Nell esempio precedente è ovvio che vi saranno bambini che per motivi i piú svariati saranno piú alti dei loro coetanei e di quelli piú grandicelli. I motivi di ció non sono in generale non identificabili in modo univoco: motivi familiari, tipo di alimentazione, etnia, etc. ). In questi casi si dirá che la variabilitá è originata dal caso. L effetto del caso sull evento sará tanto maggiore quanti piú fattori incontrollabili agiscono sull evento.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 6 Definizioni Slide 10 Popolazione Statistica. Con questo termine si individua la collettivitá (o l insieme P ) entro cui si studia il fenomeno. Si noti che il termine viene è utilizzato indipendentemente dal fatto che l insieme in esame sia costituito da persone. La popolazione statistica relativa all occupazione in Italia negli ultimi 10 anni è costituita dai cittadini italiani in etá lavorativa negli ultimi 10 anni; la popolazione statistica relativa al numero di stanze delle abitazioni di una data regione è, invece, costituita da tutte le abitazioni di quella regione; e ancora, la popolazione statistica relativa alla durata delle lampadine di una fabbrica è costituita da tutte le lampadine prodotte da quella fabbrica. Unitá Statistica. Con questo termine si individua ogni elemento della popolazione statistica, cioè ogni individuo o cosa su cui si osserva il fenomeno. In termini insiemistici una unitá statistica è un elemento x P. Quindi, ogni cittadino italiano in etá lavorativa negli ultimi 10 anni, ogni abitazione di quella regione, oppure ogni lampadina prodotta da quella fabbrica sono le unitá statistiche dei rispettivi fenomeni collettivi presi precedentemente come esempio. Slide 11 Campione Statistico. Con questo termine si individua un qualsiasi insieme C di unitá statistiche appartenenti alla popolazione P. Un campione è dunque un sottoinsieme della popolazione statistica, C P. Cosí, sempre riferendoci agli esempi giá visti, potremo dire che i soli cittadini residenti a Roma e in etá lavorativa negli ultimi IO anni, o le abitazioni di una sola provincia di quella regione, oppure 50 delle lampadine prodotte da quella fabbrica costituiscono campioni statistici delle rispettive popolazioni.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 7 Carattere Statistico. Con questo termine si individua la caratteristica mediante la quale è possibile descrivere l insieme delle unitá statistiche, ovvero della popolazione. Sono ad esempio: l altezza, il sesso, lo stato civile o l etá degli individui, il numero di stanze delle abitazioni, etc. a seconda del fenomeno che si intende studiare. Slide 12 Modalitá Si definiscono modalitá i modi diversi nei quali puó presentarsi il carattere (ad es. 20 anni, maschio, 50 Kg, etc). qualora le modalitá vengano espresse con i termini che le individuano, come ad es. maschio/femmina; sano/malato, etc.) allora il carattere verrá detto mutabile. Le modalitá son dette modalitá qualitative. Se invece le modalitá vengono distinte da misure numeriche allora il carattere verrá chiamato Variabile. Le modalitá sono dette modalitá quantitative. Slide 13 Osservazione. Con il termine variabile si individua il valore assunto dal carattere (o dalla variabile statistica) in una unitá statistica. Quindi la durata di vita della singola lampadina, il numero di stanze di una abitazione, lo stato di occupazione (occupato/disoccupato) di un cittadino. Ne consegue che i caratteri con modalitá variabile (o brevemente le variabili) potranno assumere sia un numero finito di valori discreti (ad es. i numeri sulle facce di un dado) o un numero infinito di valori continui o numerabili (ad es. il tempo di vita di una lampadina).

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 8 Slide 14 Scale Con questo termine si intendono i modi in cui sono organizzati i caratteri. Si distinguono diversi tipi di scale: a) Scala Nominale: è rappresentata da quei caratteri con modalitá qualitative. Queste modalitá non presentano alcun ordine di successione (esempio: nazionalitá, sesso). b) Ordinale: è rappresentata da quei caratteri con modalitá qualitative che presentano un ordinamento semplice ma senza una stima numerica (esempi: bambini, giovani, adolescenti, adulti) c) Scala a intervalli: si parla di dati organizzati ad intervalli quando esiste una unitá di misura costante e, quindi, una misura di distanza tra le modalitá quantitative (esempio: altezza della popolazione ad intervalli di 5 cm). d) Scala di rapporti o cardinale: Si usa questo termine quando il carattere è rappresentato in modalitá quantitativa mediante una grandezza assoluta ( tipicamente numerica). Slide 15 Come vederemo piú avanti per poter meglio elaborare i dati con sistemi elettronici le scale nominale ed ordinale sono spesso riferite a quantitá numeriche (es maschi=0, femmine=1). Dati Statistici. Con questo termine si intende il numero che esprime quantitativamente il numero delle volte in cui una modalitá si è presentata nell indagine.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 9 Esempi Esempio 0.1 Supponiamo che l indagine statistica in esame sia quella di rilevare il numero di stanza delle abitazioni italiane. In questo caso: il numero di stanze delle abitazioni italiane è una variabile statistica che nelle singole unitá si presenta nella modalitá 1 quando l abitazione ha una sola stanza, nella modalitá 2 quando ha due stanze, nella modalitá 3 quando ha tre stanze, e cosí via. Sempre come esempio, l altezza di un insieme di persone dai 15 ai 18 anni è una variabile statistica che nelle singole unitá ha assunto valore 1, 56 se la persona presa in esame è alta 1,56 m; ha assunto valore 1, 71 se la persona misurata è alta 1,71 m, ecc. Esempio 0.2 Riassumiamo quanto esposto fin qui illustrando i concetti statistici che caratterizzano il seguente fenomeno: titolo di studio dei cittadini italiani che hanno compiuto 25 anni. Il fenomeno è collettivo in quanto è possibile conoscerlo soltanto attraverso una molteplicitá di osservazioni sul titolo dl studio dei singoli cittadini. - il titolo di studio è una variabile statistica qualitativa infatti si presenta sotto diverse modalitá non numeriche corrispondenti a: nessun titolo, licenza elementare, licenza media, diploma di scuola superiore, laurea. - La popolazione statistica è l insieme costituito da tutti i cittadini italiani in etá superiore ai 25 anni. - Una unitá statistica è ogni cittadino italiano con piú di 25 anni. - Le modalitá nessun titolo, licenza elementare,..., laurea sono le diverse osservazioni, cioè i diversi valori che la variabile ha assunto quando l unitá presa in esame si è rivelata in possesso del rispettivo titolo di studio. Se i laureati sono risultati 1423550, questo numero è un dato statistico. - Qualsiasi insieme di cittadini italiani di etá superiore a 25 anni, come quelli che in una determinata ora si trovano a passare in una strada di Milano, o i primi 200 in ordine alfabetico dell anagrafe di Palermo, è un campione della popolazione del nostro fenomeno.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 10 Il Metodo Statistico Il Metodo Statistico aiuta nell analisi si situazioni complesse quando, cioè, la estensione dei dati o la complicazione del problema impediscono di rendersi conto immediatamente dell andamento di un fenomeno, e si rende necessario sottoporre i dati medesimi a qualche genere di elaborazione. Il metodo statistico puó essere applicato quando le modalitá del carattere abbiano i seguenti requisiti: a) Esaustive: le modalitá devono includere tutte le diverse presentazioni del carattere; b) Non sovrapposte: ad una stessa unitá statistica deve corrispondere una ed una sola modalitá. Come abbiamo accennato, le piú semplici applicazioni del metodo statistico, e storicamente le prime, sono quelle che perseguono scopi esclusivamente descrittivi. La branca della Statistica che le studia prende il nome di Statistica Descrittiva. Una media, puó tuttavia indicarci solo la modalitá tipica di un carattere, ma non puó dirci quanto diversi siano fra loro i valori individuali da cui essa è calcolata. Per descrivere queste differenze occorre definire opportune misure di variabilitá del carattere in esame. Un tipo piú generale di problemi è quello in cui studiamo due o piú fenomeni o caratteri, che sono in rapporto reciproco di causa ed effetto (come dose di un farmaco ed effetto biologico), o che dipendono ambedue da cause comuni (come torace e statura). Potrebbe infatti interessarci misurare quanto un carattere o fenomeno possa variare in funzione di un altro. I problemi di questo tipo prendono il nome di Problemi di Regressione. Se interessa il grado di connessione fra i due fenomeni dobbiamo affrontare quelli che vengono indicati con il nome di Problemi di Correlazione. Questi sono alcuni dei metodi elementari che la statistica ci offre per lo studio descrittivo dei fenomeni.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 11 I Problemi di Decisione La metodologia statistica si rivela utile anche nei problemi decisionali. Infatti, ogni decisione, sia essa d importanza scientifica, tecnica o commerciale, possa essere razionalizzata in grado piú o meno notevole mediante l applicazione del calcolo delle probabilitá. Gli esempi di problemi decisionali sono molteplici: decidere quale tra due medicine sia la migliore; scegliere se convenga o meno comprare una certa partita di lampade; accettare o respingere una teoria fisica o biologica, etc. Qualunque sia la decisione da assumere è auspicabile minimizzare il rischio di errore cui si va incontro adottando la scelta basata su un modo di pensare o di agire. Ovviamente sarebbe meglio essere perfettamente sicuri di non sbagliare, ma ogni decisione comporta un rischio di errore. Se prima di decidere in merito al problema che ci interessa riuschiamo a valutare, volta per volta, sulla scorta dei dati di osservazione o di esperimento che abbiamo raccolto, il rischio relativo (cioè la probabilitá di sbagliare) è chiaro che ci troviamo in vantaggio rispetto al prendere una decisione senza valutazione o sulla base del solo apprezzamento soggettivo. Notiamo che, applicando il metodo statistico a problemi di decisione, non si fa altro che ricorrere in modo esplicito, obiettivo ed esatto a quegli stessi procedimenti che seguiamo inconsciamente e in modo approssimato quando non ricorriamo al metodo statistico ma giudichiamo col semplice aiuto del buonsenso. Si tratta soltanto, in parole semplici, di porre su basi esatte e quantitative il giudizio individuale, perchè è evidente il vantaggio di togliere al buonsenso i dubbi della soggettivitá e dell approssimazione. A chi non vi è abituato, il ricorso al calcolo delle probabilitá puó sembrare difficile e involuto. Occorre tuttavia riconoscere che è l approccio più razionale al problema e che le resistenze sono spesso dettate dal fatto che per poter applicare tali metodi occorre uno sforzo iniziale non banale per studiare il metodo statistico. Questo approccio è di fondamentale importanza in tutte le problematiche legate allo studio della efficacia e non nocività delle sostanze farmcaeutiche.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 12 Fasi di una indagine Statistica In questo paragrafo descriviamo i momenti essenziali che scandiscono il lavoro necessario per rilevare, descrivere e interpretare un fenomeno collettivo. Tale lavoro è detto brevemente indagine statistica. 1. Innanzitutto occorre individuare con precisione l obiettivo che l indagine si propone di raggiungere, definendo con accuratezza i termini del problema a cui bisogna dare risposta. 1a) Per prima cosa occorre definire lo scopo dell indagine, cioè se l indagine vuole solamente descrivere il fenomeno (approccio della Statisstica Descrittiva) o affrontare problematiche più generali quali correlazioni, problemi di scelta, etc. (approccio della Statistica induttiva). 1b) occorre poi individuare gli aspetti del fenomeno cui siamo interessati, cioè le variabili statistiche da rilevare. Cosí, per esempio, se si vuole studiare il fenomeno dell occupazione in Italia è necessario stabilire quali aspetti di questo fenomeno sono quelli che ci interessano, cioè quali variabili statistiche intendiamo osservare. Infatti possiamo voler conoscere il numero degli occupati e quello dei disoccupati, oppure le percentuali di lavoratori occupati nei vari settori, oppure il flusso migratorio dei lavoratori da una regione all altra, o il grado di istruzione dei lavoratori, o tutte insieme queste cose, o altre ancora. È inoltre necessario definire cosa si intende per occupazione: se cioè si ritiene occupato un individuo che al momento dell indagine ha un qualunque lavoro, sia fisso che precario, oppure soltanto un individuo che abbia un contratto di lavoro registrato non inferiore a una durata stabilita. 1c) Occorre definire l intervallo di tempo cui si fa riferimento. Cosí, nell esempio precedente, si potrebbe dire che risulta occupato chiunque, il 10 gennaio di quest anno, fosse in possesso di un contratto di lavoro di durata non inferiore a un anno. In sostanza occorre definire con accuratezza lo scopo, la variabile o le variabili che ci interessano ed i limiti temporali, al fine di poter individuare, senza possibilitá di equivoco, i valori che essa o esse assumono nelle singole unitá.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 13 2. Il passo successivo dell indagine è fissare i metodi, i mezzi e i tempi da utilizzare per la raccolta dei dati. 3. 2.1 Medodi I metodi dell indagine sono una conseguenza dello scopo dell indagine. a) Una indagine descrittiva userà i metodi standard della statistica descrittiva: tabelle, grafici, misure di sintesi numerica e di dispersione, etc. b) Una indagine induttiva userà i metodi più idonei allo scopo (alcuni dei quali vedremo nel seguito) avvalendosi, ma non necessariamente, anche dei metodi tipici della statistica descrittiva. Questo tipo di indagini avranno inoltre il problema di identificare uno o più campioni significativi con le tecniche che vedremo nel seguito. 2.2 Mezzi Sono le modalitá con le quali verranno raccolti i dati dell indagine statistica. Queste dipendono dal tipo di indagine. Ad es. una indagine su risultati sperimentali raccoglierà i dati degli esperimenti effettuati in proprio o da altri; una indagine sociologica si servirà di moduli, questionari, intervistatori, etc.. 2.3 Tempi Per una completa programmazione del lavoro occorre poi stabilire i tempi entro i quali effettuare il rilevamento e l elaborazione dei dati. Le indagine statistiche servono infetti a dare una visione del fenomeno ad un certo momento al fine, tipicamente, di programmare le azioni future. Sarebbe, ad esempio, inutile conoscere solamente oggi l andamento del consumo di medicinali nel 1990 perchè in questo lasso di tempo il fenomeno si è modificato. È ovvio che il passo successivo alla programmazione dell indagine sia la effettiva rilevazione dei dati. Questa operazione deve essere fatta molto accuratamente secondo quanto precedentemente stabilito nel piano di lavoro.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 14 4. Si passa quindi alla fase dello spoglio dei dati e della loro sistemazione in forme di facile lettura quali le tabelle. I dati allo stato grezzo ci dicono molto su ciascuna unitá statistica, ma molto poco sugli aspetti globali del fenomeno. Se infatti il gruppo sanguigno di 20 persone è risultato essere A - AB - B - 0-0 - 0 - B - AB - 0 - A B - 0 - A - AB - B - 0-0 - 0-0 - B siamo a conoscenza del fatto che la prima persona ha gruppo A, la quinta ha gruppo 0, l ultima ha gruppo B, ecc., ma ci appare meno evidente che il gruppo piú frequente si è rivelato essere il gruppo O, oppure che il numero di persone aventi gruppo A è uguale a quello delle persone aventi gruppo B. Questa difficoltá a cogliere dai dati grezzi gli aspetti complessivi del fenomeno cresce con il crescere del numero delle osservazioni. Occorre quindi esaminare e ordinare i dati secondo le loro caratteristiche comuni per poter trarre da essi informazioni sintetiche e globali, anche se questo significa perdere le informazioni individuali. Si costruiranno perció schemi o tabelle riassuntive che presenteranno i dati in forme di piú agevole lettura. Per quanto riguarda l esempio dei gruppi sanguigni risulterá piú espressiva una tabella come la seguente che indica la frequenza con cui i diversi gruppi sanguigni sono presenti nel campione in esame: Gruppi sanguigni N. di persone 0 9 A 3 AB 3 B 5

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 15 5. Il passo successivo nella direzione di una maggiore immediatezza e sinteticitá della rappresentazione dei dati è quello che porta a elaborare in grafici i valori giá in parte sgrossati e sistemati nelle tabelle. Un grafico puó infatti rendere piú facilmente percepibili gli aspetti generali che sottostanno a un insieme di dati. Oggi sono a disposizione sui Personal Computer (PC) strumenti che permettono di rappresentare graficamente tabelle di dati in modo semplice. Il piú noto è probabilmente il programma Excel della Microsoft o l equivalente OpenOffice. Provate, per esercizio, a rappresentare i dati della tabella in un grafico a torta utilizzando uno di questi programmi. 6. Come abbiamo giá ampiamente ripetuto, in statistica si procede per sintesi. La maggior sintesi si ottiene quando tutti i dati del fenomeno vengono riassunti da un solo valore di sintesi numerica, tipicamente la media statistica. L esempio classico di media statistica è la media aritmetica che, alla fine dell anno scolastico, ogni studente calcola per sapere il proprio voto medio. Cosí se, per esempio, uno studente ha riportato tre 6, quattro 7 e tre 8, dice di essere stato promosso con la media del 7. Oltre alla media aritmetica esistono altri tipi di media statistica, ciascuno dei quali con caratteristiche e proprietá specifiche che lo rendono di volta in volta piú o meno idoneo a rappresentare la sintesi di un fenomeno collettivo. Di queste parleremo piú avanti. Come abbiamo giá accennato è opportuno calcolare anche misure di dispersione dei dati che permettano di stimare con un solo parametro numerico quanto i dati raccolti siano vicini o lontani dal valore medio calcolato. La fallacia dei valori medi nella rappresentazione del dato è ben rappresentata dal simpatico sonetto di Trilussa che dice:... da li conti che se fanno seconno le statistiche d adesso risurta che te tocca un pollo all anno: e, se nun entra ne le spese tue, t entra ne la statistica lo stesso perchè c è un antro che ne magna due. 8. L ultima analisi che è opportuno compiere per la rappresentazione sintetica dei dati è la costruzione di rapporti statistici o numeri indici. La comprensione del fenomeno infatti migliora se invece del dato assoluto si analizzano dati relativi. Ad esempio per valutare lo sfruttamento del territorio in una regione è piú significativo conoscere il rapporto tra il numero di mq edificati e il numero di abitanti piuttosto che i valori assoluti di mq edificati.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 16 Slide 16 Statistica Descrittiva 1 Statistica Descrittiva Per statistica descrittiva si intende l insieme delle tecniche per la raccolta, l organizzazione e la descrizione delle osservazioni. Il suo scopo è ricavare dalle osservazioni, spesso numerose e in forma disordinata, elementi di sintesi. Slide 17 Strumenti della statistica descrittiva sono tabelle, grafici per punti, spezzate, diagrammi a righe, istogrammi, ideogrammi ( unitá di riferimento la dimensione di un immagine ed i valori dei dati vengono espressi mediante copie della stessa immagine, rimpicciolite o ingrandite in modo proporzionale al valore del dato o della frequenza), diagrammi a torta, eccetera. Se si é raccolta una serie di osservazioni di un qualche carattere di interesse biologico si ricorre a qualche tipo di media per rappresentare sinteticamente le osservazioni.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 17 La Presentazione dei dati Tipi di dati numerici I dati numerici possono differenziarsi in diversi tipi: Slide 18 1. Dati Nominali. Si tratta di dati numerici che non hanno una relazione d ordine e vengono usati per rappresentare le modalitá (differenziate in categorie) di caratteri (qualitativi). Se le categorie sono due (es. maschio/femmina) si assegna, ad esempio, ai maschi il valore 1,ed alle femmine il valore 0. Si parla in questo caso di dati nominali dicotomici o binari. In altri casi si utilizzano cifre diverse (ad esempio per indicare i gruppi sanguigni) le cifre 1, 2, 3, 4. Occorre tener ben presente che operazioni aritmetiche, tipo la media, su questi dati non hanno alcun significato. 2. Dati Ordinali. Quando l ordine delle categorie é importante i dati, talvolta espressi con numeri, vengono scelti in modo ordinato. Ad es. le ferite possono essere classificate in relazione alla loro gravitá in 1 = ferita mortale, 2 = ferita grave, 3 = ferita di modesta entitá, 4 = ferita lieve; analogamente le ustioni si classificano in gradi di gravitá. Slide 19 3. Dati ordinati in ranghi. In alcune situazioni i dati vengono raggruppati in classi e queste vengono poi ordinate in ranghi in funzione di una specifica caratteristica. Esempio: Se si studiano le cause di morte allora si raggruppano i morti in funzione della causa del decesso, poi si ordinano in funzione del numero di decessi che ha provocato e si assegna alla classe corrispondente (es malattie cardiovascolari, cancro, sars, hiv, influenza, etc.) un rango (cioún numero progressivo) corrispondente all ordinamento.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 18 Slide 20 4. Dati Discreti. I dati discreti sono dati numerici fissati (spesso numeri interi) dei quali é importante sia l ordine che la grandezza. Il termine discreti sta a significare che la modalitá puó essere espressa solo da un numero x X dove X é un insieme numerico prefissato. Esempio il numero di posti letto in un ospedale, di gravidanze portate a termine da una donna, etc. Risulta evidente che in questi casi non é possibile utilizzare numeri non interi, né, nel secondo caso, numeri maggiori di, ad es., 60. 5. Dati Continui Sono i dati, che rappresentano variabili statistiche, espressi con valori numerici che possono assumere valori continui. Ad esempio la profonditá della costa, l altezza degli individui, etc.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 19 Tabelle Slide 21 Una tabella é forse il modo piú semplice per sintetizzare una serie di osservazioni e puó essere utilizzata per tutti i tipi di dati numerici. Nel seguito descriveremo brevemente le piú utilizzate. 1. Distribuzioni di frequenza assoluta. Per dati nominali ed ordinali una distribuzione di frequenza consiste in una serie di classi o categorie e nell conte numeriche che corrispondono a ciascuna di esse. Esempio il consumo di sigarette in USA viene espresso con una distribuzione di frequenza del tipo: Anno Numero di sigarette 1900 54 1910 151 1920 665...... 2. Distribuzioni di frequenza relativa. In alcuni casi alla frequenza assoluta, cioé il numero di volte in cui il carattere in esame si é presentato nella classe, si associa la frequenza relativa cioé il rapporto percentuale rispetto al numero di unitá statistiche esaminate nel campione. Esempio: livelo di colesterolo in soggetti maschi in USA nel periodo 1976-1980 Slide 22 Livello colesterolo Nro soggetti frequenza relativa (%) 80-119 13 1,2 120-159 150 14,1......... Totale 1067 100,0 La Frequenza relativa cumulativa per un dato intervallo é la percentuale del numero di osservazioni che hanno un valore inferiore o eguale al limite superiore dell intervallo stesso. Ovviamente la frequenza relativa cumulativa dell ultimo intervallo é pari a 100.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 20 Slide 23 3. Tabelle a doppia entrata. Quando si volessero esaminare due caratteri della stessa popolazione, al fine di individuare eventuali legami tra queste, vengono utilizzate le tabelle a doppia entrata. Si parla, in questi casi di distribuzioni statistiche doppie o multiple. Tali tabelle verrano esaminate in un paragrafo successivo.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 21 Grafici I grafici sono la rappresentazione figurate dei dati numerici. Obiettivo dei grafici é dare una immediata percezione dell andamento del dato numerico. Tuttavia nel grafico spesso si perde il valore di dettaglio presente nel dato numerico. Slide 24 1. Diagrammi a barre. Il diagramma a barre é un tipo comune di grafico per mostrare una distribuzione di frequenza per dati nominali o ordinali. In questo tipo di diagramma (fig. 1) le diverse categorie sono presentate lungo un asse orizzontale. Un barra verticale é tracciata al di sopra di ogni categoria e l altezza della barra rappresenta la frequenza assoluta o relativa delle osservazioni di quella classe. Le barre devono avere eguale ampiezza ed essere separate le une dalle altre per non implicare alcuna continuitá. Lo strumento tipoco per questo, come per altri tipi di diagrammi é un foglio elettronico. Slide 25 Figura 1: Diagramma a barre: consumo di sigarette pro capite in soggetti di etá maggiore o uguale a 18 anni, Austrlia 1900-1980.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 22 Slide 26 2. Diagrammi a barre sovrapposte. Se si vuole rappresentare la stessa variabile rappresentata in categorie ma per campioni statistici diversi (es giovani/adulti/anziani) é possibile utilizzare un diagramma a barre sovrapposte. In questo tipo di diagramma le frequenze sono disposte le une sulle altre con colori diversi. La frequenza per ogni campione é pari all altezza della relativa barra. Slide 27 3. Istogrammi. É probabilmente il tipo di diagramma piú usato per rappresentare dati discreti o continui. A differenza del diagramma a barre nell asse orizzontale sono indicati i limiti reali dei diversi intervalli. L asse verticale rappresenta la frequenza o la frequenza relativa. Il primo passo per costruire un istrogramma é tracciare le scale degli assi. La scala verticale deve iniziare da zero per non falsare i confronti tra i diversi intervalli. La scala orizzontale puó iniziare dal valore minimo dellintervallo numerico in cui sono contenuti i dati discreti o continui. Sopra gli intervalli, possibilmente eguali, é posta una barra verticale (centrata sul punto medio, la cui altezza é proporzionale alla frequenza associata a quell intervallo. La frequenza associata all intervallo é pari all area della barra verticale. Solo nel caso di intervalli orizzontali eguali il confronto delle altezze equivale a quello delle frequenze (fig. 2 e 3).

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 23 Slide 28 Figura 2: Istogramma: frequenze assolute dei livelli di colesterolo sierico in 1100 soggetti della popolazione maschile in UK di etá compresa tra i 25 e 38 anni, 1970-1980. Slide 29 Figura 3: Istogramma: frequenze relative dei livelli di colesterolo sierico in 1100 soggetti della popolazione maschile del Canadá di etá compresa tra i 20 e 40 anni, 1970-1980.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 24 Slide 30 4. Poligoni di frequenze. É un grafico molto simile all istogramma. Utilizza gli stessi assi dell istogramma ma aggiunge, al centro di ogni intervallo, un punto la cui altezza é pari alla frequenza o alla frequenza relativa di quell intervallo. Unendo tali punti con segmenti di retta si ottiene una linea spezzata (poligono) che puó anche essere graficata sovrapposta all istogramma (fig. 4 e 5). I poligoni di frequenza sono spesso usati per le frequenze cumulative (fig. 6). Slide 31 Figura 4: Poligono di frequenza: frequenze assolute dei livelli di colesterolo sierico in 1100 soggetti della popolazione maschile del Canadá di etá compresa tra i 20 e 40 anni, 1970-1980.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 25 Slide 32 Figura 5: Poligono di frequenza: frequenze assolute dei livelli di colesterolo sierico in 2300 soggetti della popolazione maschile della Gran Bretagna di etá compresa tra i 20 e 40 anni, 1970-1980. Slide 33 Figura 6: Poligono di frequenza: frequenze relative cumulative dei livelli di colesterolo sierico in 2300 soggetti della popolazione maschile della Gran Bretagna di etá compresa tra i 20 e 40 anni, 1970-1980.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 26 Slide 34 5. Diagrammi di dispersione a una dimensione. É uno dei grafici spesso utilizzati per dati discreti o continui. Utilizza un singolo asse orizzontale per mostrare la posizione relativa di ciascuna osservazione. Il vantaggio é che nessuna informazione viene persa in quanto tutte sono rappresentate singolarmente. Lo svantaggio é che la lettura puó risultare difficile se numeroso osservazioni sono molto vicine (fig. 7). Figura 7: Diagramma di dispersione ad una dimensione: tassi grezzi di mortalitá, Italia 1995. Slide 35 6. Diagrammi a scatola. Analogamente al caso precedente richiede un singolo asse. Tuttavia invece di tracciare ogni singola osservazione mostra solo una sintesi dei dati. La scatola centrale (rappresentata verticalmente o orizzontalmente, si estende dal 25 al 75 quartile(vedi appresso). L asse centrale della scatola rappresenta il 50 percentile (vedi appresso) (fig. 8 e 9). Se questo é equidistante dagli estremi allora la serie di dati é simmetrica. Le linee al della scatola si estendono ai valori adiacenti, che sono definiti come i valori delle osservazioni piú estreme ma che comunque non superano piú di 1,5 volte l altezza (larghezza se orizzontale) della scatola.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 27 Slide 36 Figura 8: Diagramma a scatola: Tassi grezzi di mortalitá, Italia 1990. Slide 37 Figura 9: Diagramma di dispersione e diagramma a scatola: Tassi grezzi di mortalitá, Italia 1990.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 28 Slide 38 7. Diagrammi di dispersione a due dimensioni. A differenza degl ialtri tipi di grafici il diagramma di dispersione a due dimensioni o diagramma a punti viene utilizzato per illustrare la relazione tra due diverse misure espresse da quantitá discrete. Ogni punto rappresenta una coppia di valori misurati. Le scale sono ovviamente decise dalle quantitá e sono generalmente diverse sui due assi (fig. 10). Slide 39 Figura 10: Diagramma a punti: capacitá vitale forzata in funzione del volume espiratorio forzato in 19 soggetti.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 29 Slide 40 8. Diagrammi lineari. Anche questi vengono utilizzati per illustrare la relazione tra due diverse misure ma espresse da quatitá continue o discrete ma con un grande numero di punti e per i quali a ciascun valore della variabile rappresentata sull asse orizzontale corrisponde un solo valore della variabile rappresentata sull asse verticale. Per gli assi valgono le stesse osservazioni fatte per i diagrammi a punti. Si usano molto anche per analizzare le variazioni temporali di una variabile. L asse dei tempi é tipicamente orizzontale (fig. 11 e 12). Slide 41 Figura 11: Diagramma lineare: tassi di malaria.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 30 Slide 42 Figura 12: Diagramma lineare: spese per l assistenza sanitaria.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 31 Curve di frequenza Slide 43 I dati raccolti possono in genere venire considerati come appartenenti ad una grande popolazione, idealmente infinita. In questo caso, per dati continui, è possibile scegliere classi molto piccole (teoricamente infinitesime) pur avendo, per ciascuna classe un numero finito di osservazioni che cadono al suo interno. In tal modo un poligono di frequenze, assolute o relative, tende ad essere approssimato da una curva continua. Tali curve prendono il nome di curve di frequenza o curve di frequenza relative. [Nota: Nella teoria della probabilitá queste curve corrispondono al grafico della funzione densitá di probabilitá]. Allo stesso modo le curve di frequenza cumulative (chiamate anche ogive) si trasformano in curve. Tipi di curve di frequenza Sebbene teoricamente si possa pensare a curve di frequenza di qualunque forma, nella pratica vi sono alcune forme caratteristiche (figura 13): Slide 44 Curve di frequenza simmetriche o a forma campanulare, caratterizzate da un asse di simmetria sul quale è collocato il massimo assoluto che e anche relativo. La simmetria implica che le osservazioni equidistanti dal massimo hanno la stessa frequenza. L esempio più noto è la curva normale. Curve di frequenza oblique. In queste curve la simmetria è persa; il massimo assoluto (e relativo) si trova spostato verso sinistra (obliqua sinistra - o con inclinazione positiva) o verso destra (obliqua destra - o con inclinazione negativa); Curve di frequenza ascendenti o discendenti in cui il massimo cade rispettivamente a sinistra o a destra;

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 32 Curve di frequenza ad U nelle quali il massimo assoluto (ma non relativo) è ai due estremi; Slide 45 Curve di frequenza bimodali caratterizzate da due massimi relativi; Curve di frequenza plurimodali caratterizzate da più massimi relativi. Slide 46 Figura 13: Diagramma lineare: spese per l assistenza sanitaria.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 33 Misure di Sintesi Numerica 2 Misure di distribuzione La misure di distribuzione dei dati utilizzate in statistica prendono il nome di Quantili. Slide 47 Supponiamo di avere un insieme S di N osservazioni statistiche (i nostri dati originali) e di ordinarlo in modo crescente. Questa operazione è lecita in quanto la sequenza dei dati originali non è una caratteristica del fenomeno ma solo del modo, eventualmente casuale, in cui sono state raccolte le osservazioni. L insieme delle misure dell altezza degli alunni in una scuola potrebbe, ad esempio, dipendere da come si è decido di procedere al rilevamento: dalle prime alle ultime classi, o viceversa, o a caso. DEF. 2.1 - Quantile Dicesi Quantile quel valore x q, x q S, per il quale la somma di tutte le frequenze (o l integrale della funzione di densità) è uguale al valore q (0 q 1), cioè F (x q ) = q (1) Slide 48 dove F è la funzione delle frequenze cumulative dell insieme S delle osservazioni (funzione di ripartizione). In altre parole, fissato ad esempio q = 0.2 diremo che y S è il quantile 0.2 dell insieme S se il numero di elementi di x S tali che x y q, q = 0.2 è il 20% del numero totale di dati N. Qualora il quantile venga espresso in termini percentuali, allora si indicherà con il nome di percentile.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 34 Alcuni quantili vengono indicati in modo proprio: quartile, quando q assume valori pari a 0, 25 (primo quartile) o 0, 5 (secondo quartile) o 0, 75 (terzo quartile) mediana, quando q = 0, 5 (pari al secondo quartile) Slide 49 Il quantile puó essere calcolato per funzioni di variabili continue o discrete, purchè espresse su scale ordinali o cardinali. Non puó essere calcolato su distribuzioni basate su variabili nominali. Esempio 2.1 Sia S = {3, 96, 100, 101, 4000, 4001, 4002, 4003, 4004, 4005} e sia q = 0.2. Allora, essendo N = 10 la cardinalità di S e poichè ogni osservazione ha frequenza unitaria ne segue che x 0.2 = 96. 3 Misure di tendenza centrale La caratteristica più studiata di una serie di dati è il suo centro, cioè il punto in cui i dati tendono a raccogliersi. Slide 50 Gli indici di posizione (o anche indicatori di posizione, o indici di tendenza centrale o misure di tendenza centrale), danno un idea approssimata, l ordine di grandezza (cioè la posizione sulla scala dei numeri) dei valori esistenti. 3.1 Media Aritmetica La media più comune è la media aritmetica, che si ottiene dividendo la somma dei valori delle osservazioni individuali per il numero delle osservazioni.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 35 DEF. 3.1 Detti x i, i = 1, n una serie di dati, utilizzando il linguaggio matematico, la media aritmetica x m o x si scrive: x m = 1 n x i. (2) n i=1 Slide 51 Supponiamo ora una serie di dati S in cui ogni valore x i S sia ripetuto f i volte. La media aritmetica della serie di dati S è allora data da: n f i x i x m = i=1 (3) n f i i=1 Slide 52 Media Aritmetica Ponderata - Talvolta vengono associati ai valori x i dei pesi w i che riflettono criteri di importanza della misura stessa. In questo caso la quantità x p m = n w i x i i=1 (4) n w i prende il nome di media aritmetica ponderata Si noti che la (3) può considerarsi una media ponderata con peso f i. Esistono metodi per il calcolo manuale della media qualora i dati individuali siano abbastanza numerosi (in pratica più di 30 o 40). L avvento degli strumenti di calcolo elettronici e di software statistici rendono la conoscenza di questi metodi ormai superflua. i=1

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 36 La differenza tra il valore della singola misura x i e la media x m prende il nome di scarto e si indica normalmente con ɛ i. La media aritmetica gode di alcune proprietà notevoli. Slide 53 - Proprietà 1: la somma degli scarti è nulla: n ɛ i = i=1 n (x i x m ) = 0 (5) i=1 - Proprietà 2 - La somma dei quadrati degli scarti dalla media è minore della somma dei quadrati degli scarti da un qualsiasi altro numero reale α: n n (x i x m ) 2 < (x i α) 2 (6) i=1 i=1 - Proprietà 3 - Se l insieme di dati S è suddiviso in k sottoinsiemi S j, tutti disgiunti, ciascuno dei quali contenente f j elementi la cui media è m j allora la media x m di S è data da: Slide 54 x m = k f j x j j=1 (7) k f j j=1 - Proprietà 4 - Se A è una costante reale qualsiasi e se d j = x j A sono gli scarti delle misure da A, allora le (2) e (3)

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 37 Slide 55 possono scriversi come: x m = A + x m = A + n i=1 d i n n f i d i i=1 (8) (9) n f i Le relazioni (2) e (3) vengono dette formule per il calcolo diretto della media, mentre le formule (8) e (9) vengono anche dette metodo indiretto per il calcolo della media. Si osservi che per A = 0 i due metodi coincidono. i=1 3.2 Mediana Slide 56 Soprattutto in applicazioni speciali si usa la determinazione della mediana o valore centrale, M, di una distribuzione. DEF. 3.2 La mediana è il valore assunto dal valore centrale della serie di dati quando queste sono ordinate in modo crescente. Essa corrisponde al 50 mo percentile. Se il numero di osservazioni è dispari allora la mediana è il valore centrale, se invece il numero di osservazioni è pari allora la mediana corrisponde alla media aritmetica dei due valori centrali. In formule, detto {x j, j = 1,... n} l insieme ordinato dei dati si ha: a) per n dispari, b) per n pari, M = x k, k = n+1 2 M = x k+x k+1 2, k = n 2

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 38 il significato della Mediana sarà reso chiaro dall esempio che segue. Esempio 3.1 Si abbiano due campioni, o serie di dati di osservazione, di ognuno dei quali si vuoi cercare la mediana. Campione A: Peso di 5 topini in grammi: 19, 17, 25, 18, 15. Campione B: Statura di 6 uomini in centimetri: 170, 152, 191, 184, 169, 172. Slide 57 Si dispone ogni serie di dati in ordine crescente (o decrescente): A) 15, 17, 18, 19, 25 B) 162, 169, 170, 172, 184, 191. e quindi se ne prende il valore centrale. Quando il numero di osservazioni è dispari è chiaro quale sia il valore centrale: nella serie A esso è il terzo termine da sinistra; pertanto, la mediana della serie A è 18 grammi. In una serie di numero pari di osservazioni vi sono due valori centrali: nella serie B sono il terzo e il quarto, e di questi si fa la media aritmetica; pertanto nella serie B la mediana è 170+172 2 = 171 cm. 3.3 Moda Slide 58 DEF. 3.3 La moda è il valore più frequente di una distribuzione, ed è calcolabile solo in serie di dati così numerosi da essere utilmente raggruppabili in una distribuzione di frequenze (vedi par. 85). Nel caso in cui i dati provengono da un campione estratto dalla popolazione è da tener presente che questa quantità è affetta da un largo errore di campionamento. Essa è usata di rado, solitamente in casi in cui una grossolana approssimazione non desta preoccupazioni.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 39 3.4 Media Geometrica DEF. 3.4 La Media Geometrica M g è la radice n-esima del prodotto delle n osservazioni che formano una serie in esame. Si calcola prendendo i logaritmi dei valori osservati; la loro media aritmetica è il logaritmo della media geometrica. Slide 59 M g = n x 1 x 2 x 3... x n (10) log M g = log x 1 + log x 2 + log x 3 +... log x n n La media geometrica trova applicazione, ad esempio, in immunologia, per calcolare la media dei titoli di anticorpi, e in generale quando i valori individuali non sono distribuiti normalmente mentre lo sono i loro logaritmi. Esempio 3.2 Si vuole calcolare la media geometrica dei titoli agglutinanti anti-o dei sieri di quattro conigli immunizzati con vaccino (11) Slide 60 antitifico, che sono: 1 200 1 1600 1 800 1 400 Si devono calcolare i logaritmi di questi valori. Per semplicità conviene prendere al posto delle frazioni (che esprimono le concentrazioni dei sieri) i denominatori corrispondenti, che esprimono titoli dei sieri. Poichè log 1 = log(x), avremo in tal modo cambiato soltanto di segno i x logaritmi. Si avrà così: titoli 200 1600 800 400 logaritmi dei titoli 2.3 3.2 2.9 2.6 e di questi ultimi valori si calcola la media aritmetica; 2.3 + 3.2 + 2.9 + 2.6 4 = 11.0 4 = 2.75 L antilogaritmo di 2.75, che è 562, è la media geometrica dei titoli. Se preferiamo indicare il titolo in forma di concentrazione, diremo che la media geometrica è 1/562.

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 40 3.5 Media Armonica Slide 61 DEF. 3.5 La Media Armonica M a è il rapporto tra il numero di osservazioni n e la somma dei reciproci dei singoli valori x 1, x 2,..., x n, costituenti la serie in esame. n M a = 1 x 1 + 1 x 2 +... + 1 (12) x n Trova uso pratico in particolare quando si considerano tempi di osservazione. Esempio 3.3 Se con una data tossina si è avuta la morte di cinque topini in rispettivamente 12, 20, 50, 43, 25 ore, si calcolano i reciproci di tali valori (esempio: il reciproco di 12 è 1/12 = 0, 0833). 0.0833, 0.0500, 0.0200, 0.0233, 0.0400 ; somma 0, 2166. Slide 62 Si divide ora il numero delle osservazioni per la somma dei reciproci: M a = 5 0.2166 = 23.1 ore La media armonica dei tempi di morte dei topi è di 23, 1 ore. Un vantaggio dell impiego della media armonica è che esso permette l inclusione di valori infiniti, poichè il reciproco di un valore che tende ad infinito è zero (nota: questa operazione può essere intesa solo nel senso di un limite). Così se di quattro topi, due muoiono in tempi di 20, 25 ore rispettivamente, e gli altri due sopravvivono (e ammettiamo che abbiano tempo di sopravvivenza infinito), il tempo medio di morte è: 4 = 44.4 ore 0.05 + 0.04 + 0 + 0

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 41 3.6 Relazione Empirica tra Media, Mediana e Moda Slide 63 Per curve di frequenza unimodali che siano moderatamente oblique (asimmetriche), abbiamo la relazione empirica Media Moda = 3 ( Media Mediana ) (13) Nella figura (14) le posizioni relative di media, moda e mediana sono indicate per curve di frequenza asimmetriche rispettivamente obliqua sinistra ed obliqua destra. Se la curva di frequenza è simmetrica allora media, moda e mediana coincidono. Slide 64 Figura 14: Relazione-empirica

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 42 3.7 Dati organizzati in ranghi o discreti Slide 65 Se i dati sono roganizzati in ranghi allora nel calcolo delle misure di sintesi occorre pesare il numero di volte in cui un valore cade all interno di un rango. Si parla quindi di medie pesate intendendo con questo che il valore centrale del rango è moltiplicato per la frequenza del rango. Si osservi che, nel caso di modalità numeriche espresse mediante valori discreti la aggregazione delle misure eguali è tipica anche se non si rappresentano i dati in ranghi. In questo caso, ad esempio, dette rispettivamente x i ed f i le misure e le rispettive frequenze allora la media aritmetica viene calcolata con la formula Slide 66 equivalente: m f i x i i=1 (14) m f i i=1 dove il numero di osservazioni è dato da m n = f i (15) ed m rappresenta il numero di differenti modalità che si sono presentate nell osservazione. i=1

Fac. di Farmacia, Univ.Catania - Lezioni di Statistica e Probabilitá 43 Variabilità dei dati Slide 67 La Variabilità La variabilità è la tendenza del fenomeno ad avere diverse modalità quantitative. Questa tendenza, chiamata pure dispersione o variazione dei dati è misurabile mediante opportuni indici di variabilità o indici di dispersione. Se il fenomeno ha caratteri qualitativi allora potremmo parlare di mutabilità. La mutabilità non è, ovviamente misurabile con indici numerici. Slide 68 Sulla base dei dati specifici è tuttavia possibile trovare, partendo dalle tabelle o dai grafici delle distribuzioni statistiche, indicatori della mutabilità. Ad esempio, un diagramma a torta della distribuzione del colore degli occhi degli alunni di una scuola, permette di apprezzare subito se esiste un colore dominante o no.