Metodi matematici e statistici

Documenti analoghi
Statistica. per Tossicologia dell Ambiente AA2007/08 F.-L. Navarria. FLN - Imola 14/11/07 1

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Teoria e tecniche dei test. Concetti di base

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

MISURE DI SINTESI 54

Prefazione Ringraziamenti dell'editore Il sito web dedicato al libro Test online: la piattaforma McGraw-Hill Education Guida alla lettura

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Scheda Corso di STATISTICA (D.M. 270 per 9 CFU) Anno Accademico 2014/2015 (versione in Italiano)

Statistica Un Esempio

Elementi di Statistica

Statistica descrittiva II

Ulteriori Conoscenze di Informatica e Statistica

1/55. Statistica descrittiva

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Statistica Inferenziale

Presentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii

ELEMENTI DI STATISTICA

Statistica di base per l analisi socio-economica

Esplorazione dei dati

Università di Cassino Corso di Laurea in Scienze Motorie Biostatistica Anno accademico 2011/2012

Distribuzioni e inferenza statistica

dati e la loro significatività statistica con l utilizzo della calcolatrice per l analisi statistica dei dati.

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

Ringraziamenti dell Editore

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

INDICATORI DI TENDENZA CENTRALE

Statistica. Alfonso Iodice D Enza

Esercitazioni di statistica

CORSO INTENSIVO ESTIVO DI ALBA DI CANAZEI STATISTICA. A. A. 2013/2014 (Prof. Marco Minozzo;

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

Statistica Compito A

DISTRIBUZIONI DI PROBABILITA

DISTRIBUZIONI DI PROBABILITA

Distribuzione Normale

Indice Premessa Cenni storici delle misure

Statistica. Lezione 4

INDICATORI DI TENDENZA CENTRALE


Capitolo 3 Sintesi e descrizione dei dati quantitativi

DISTRIBUZIONE NORMALE (1)

Obiettivi Strumenti Cosa ci faremo? Probabilità, distribuzioni campionarie. Stimatori. Indici: media, varianza,

RELAZIONE FINALE DEL DOCENTE. Materia: MATEMATICA E COMPLEMENTI DI MATEMATICA Classe 4BPT A. S. 2015/2016

UNIVERSITÀ DEGLI STUDI DI ROMA LA SAPIENZA

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl

Note sulla probabilità

Università del Piemonte Orientale. Corso di Laurea in Biotecnologie. Corso di Statistica Medica. Statistica Descrittiva: Variabili numeriche

Il Corso di Fisica per Scienze Biologiche

Principi di Statistica Descrittiva (3)

Statistica. Lezione 1

Lezione 4 a - Misure di dispersione o di variabilità

Università del Piemonte Orientale. Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Statistica Descrittiva Variabili numeriche

Il campionamento e l inferenza. Il campionamento e l inferenza

Istituzioni di Statistica e Statistica Economica

Statistica. Esplicazione integrato con Appunti. Marco D Epifano

Capitolo 6 La distribuzione normale

STATISTICA DESCRITTIVA (variabili quantitative)

Esercizi in preparazione all esame di. Laboratorio del corso di Principi di Informatica. Prof.sse M. Anselmo e R. Zizza. a.a.

Esercitazioni di Metodi Statistici per la Biologia

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

Modulo di Statistica e Tecnologia (Dott. Giorgio Poletti

LE MISURE DI TENDENZA CENTRALE. Dott. Giuseppe Di Martino Scuola di Specializzazione in Igiene e Medicina Preventiva

Capitolo 6. La distribuzione normale

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.

a.a Esercitazioni di Statistica Medica e Biometria Corsi di Laurea triennali Ostetricia / Infermieristica Pediatrica I anno

Esercitazioni di Statistica per Biotecnologie. Francesca Pizzorni Ferrarese

Corso di Statistica Industriale

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. La distribuzione t - student

Esercitazioni di Statistica

Probabilita' mediante l'analisi combinatoria D n,k =Disposizioni di n oggetti a k a k (o di classe k)

Variabile casuale Normale

Valori Medi. Docente Dott.ssa Domenica Matranga

STATISTICA DESCRITTIVA. Elementi di statistica medica GLI INDICI INDICI DI DISPERSIONE STATISTICA DESCRITTIVA

standardizzazione dei punteggi di un test

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

Challenge test: metodologia e strumenti pratici per una corretta valutazione

Variabili aleatorie gaussiane

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Corso di Laurea in Farmacia, cognomi M-Z Modulo di Matematica, 1 dicembre 2011, TEMA 1. Giustificare adeguatamente le soluzioni dei seguenti esercizi:

Statistica. Campione

Elementi di base su modello binomiale e modello normale

Questionario 1. Sono assegnati i seguenti dati

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

PROBABILITÀ SCHEDA N. 7 LA VARIABILE ALEATORIA NORMALE

Esame di Statistica (10 o 12 CFU) CLEF 11 febbraio 2016

Statistica e Misurazione

Vedi: Probabilità e cenni di statistica

Una statistica è una quantità numerica il cui valore è determinato dai dati.

Misure Meccaniche e Termiche. punti massa. Valore atteso: Varianza:

Indice. Capitolo 1 Richiami di calcolo numerico 1. Capitolo 2 Rappresentazioni di dati 13

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

Andrea Bonanomi Università Cattolica del Sacro Cuore. Principi di Statistica Descrittiva. Milano, 9 gennaio 2015 Camera di Commercio

I 5 principi dell estimo

STATISTICA AZIENDALE Modulo Controllo di Qualità

Le lezioni si terranno dal 23 febbraio 2009 al 23 maggio 2009 secondo il seguente calendario:

Indicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica

LAUREA SPECIALISTICA IN FARMACIA - Prova scritta di MATEMATICA - 24/01/03 ANNI PRECEDENTI. 1. (Punti 10) Si consideri la funzione

DOCENTE ESERCITAZIONI: Giovanna Caramia

Transcript:

Metodi matematici e statistici per Farmacia Ospedaliera AA2008/09 F.-L. Navarria FLN - 5 Novembre 09 1

Obiettivi, crediti Il corso si propone di fornire i principali elementi di statistica descrittiva, calcolo delle probabilità, stima campionaria, teoria delle decisioni ed analisi di tendenza, essenziali per le applicazioni pratiche in campo medico, ambientale ed analitico-strumentale. 2CFU 16h lezione, 5 lezioni (5/11 4h, 12/11 2h, 19/11 4h, 26/11 4h, 3/12 2h) FLN - 5 Novembre 09 2

Programma Introduzione. Analisi dei dati, campionamento, classificazioni, distribuzioni di frequenza, istogrammi. Misure di tendenza, media, mediana. Misure di dispersione, scarto quadratico medio,quantili. Probabilità: assiomatica, oggettiva, empirica. Regole di calcolo delle probabilita`. Probabilità soggettiva, teorema di Bayes. Inferenza statistica, uso della probabilità.variabile stocastica discreta e continua. Valore di aspettazione. Analisi combinatoria, disposizioni, permutazioni, combinazioni. Distribuzione binomiale. Distribuzione normale o di Gauss. Variabile casuale normalizzata. Approssimazione gaussiana della binomiale. Integrali della gaussiana. Statistica di Poisson. Conteggi, errore statistico. Approssimazione gaussiana. Teoria statistica della stima. Tests di ipotesi statistiche. Test sulla media (test t di Student), test sulla varianza (test F), test sulla frequenza (test del chi-quadrato). Livelli di confidenza. Errori di I e II specie. Fit di dati con leggi note. Metodo dei minimi quadrati con dipendenza lineare o linearizzabile. Regressione lineare, coefficiente di correlazione, stima dei parametri. FLN - 5 Novembre 09 3

Citazioni There are three kinds of lies: lies, bloody (oppure, in altre versioni, damned ) lies, and statistics. [frase attribuita a Benjamin Disraeli da Mark Twain] La statistica addolcisce la vita. [Universum Science Center, Bremen] FLN - 5 Novembre 09 4

Citazioni/2 Dio non può non giocare a dadi. [anti Albert Einstein] Il metodo che vi ho mostrato e di cui mi sono servito universalmente è applicabile a tutte le condizioni in ogni sorta di partita... [Lettera di Blaise Pascal a Pierre de Fermat, lunedì 24 agosto 1654] FLN - 5 Novembre 09 5

Bibliografia Copie dei lucidi delle lezioni (+ qualche esercizio di probabilità e statistica): pagina Web http://www.bo.infn.it/ctf/eser F.R. Cavallo e F.-L. Navarria, Appunti di probabilità e statistica per un corso di Fisica, CLUEB, 2000 (H.T. Hayslett, Statistics made simple, Heinemann, 1981) Web FLN - 5 Novembre 09 6

Modalità didattiche/esame Metodi didattici: Lezioni con qualche esercizio utile ai fini della valutazione dell'apprendimento Esercitazioni al computer Modalità di verifica dell'apprendimento: Esame scritto/prova pratica Verifica alla fine del corso FLN - 5 Novembre 09 7

Dove mi trovo Dipartimento di Fisica, V.le Berti-Pichat 6/2, p. II, 40127 Bologna Ricevimento, vedi http://www.bo.infn.it/ctf/eser - Lun 16-17, Mar 14-15, Mer 13-14 (possono cambiare in funzione degli orari di lezione) e-mail: navarria@bo.infn.it (funziona dovunque, o quasi, mi trovi) FLN - 5 Novembre 09 8

Introduzione Il secolo XVII è stato un secolo rivoluzionario 1609-1610 prime osservazioni astronomiche col telescopio di (Harriot)-Galileo: l uomo non è più al centro dell universo (anticipato da Giordano Bruno), leggi di Keplero IYA 2009 24 agosto 1654, nella lettera a P. de Fermat, B. Pascal fonda il calcolo delle probabilità (la parola sarà usata solo un secolo dopo) degli eventi futuri, la possibilità di prevedere il futuro la nozione di rischio: per es. nella moderna medicina, i metodi di predizione statistica sono impiegati ogni giorno per comparare rischi e benefici di farmaci e trattamenti; la capacità di quantificare il rischio non è estranea alla nascita di compagnie globali come Google, Yahoo!, DuPont, Merck...; ed è alla base delle assicurazioni... etc. FLN - 5 Novembre 09 9

Introduzione Statistica: due significati numeri scelti per fornire indicazioni su un campione (età media degli studenti, valutazione ottenuta in un test d ìngresso, tempo di incubazione di una malattia ); la mediana, la moda etc. sono una statistica tecniche e metodi usati per raccogliere, analizzare, interpretare e presentare I dati La statistica è usata per prendere decisioni sulla base di dati/informazioni incompleti (ossia sempre). 1) Raccolta dati. Misura o campionamento di una popolazione. Esperimento ripetibile o meno. 2) Statistica descrittiva. Descrizione pittorica/grafica dei dati, istogrammi. Classificazione numerica, tabelle, stime di tendenza, dispersione, asimmetria del campione. 3) Statistica inferenziale la scienza di prendere decisioni (test di ipotesi, stime probabilistiche in conseguenza di misura o campionamento). FLN - 5 Novembre 09 10

Popolazione e campione Popolazione: gli abitanti di Bologna Campioni: le donne di B. di età superiore a 18 anni biased gli abitanti di B. biondi gli abitanti di B. con gli occhi verdi un campione casuale di abitanti di Bologna unbiased, random popolazione campione campionamento FLN - 5 Novembre 09 11

Esito di un TAS. Insieme di dati: studenti e punteggio elementi osservazioni Raccolta dati/campionamento Campione casuale di 100 TAS 591 550 568 566 624 557 629 579 585 569 603 555 618 611 618 592 605 491 549 553 612 608 557 603 618 507 604 695 606 576 573 633 502 554 597 575 590 592 511 607 589 580 561 591 579 579 556 521 514 565 504 524 554 616 512 515 621 605 593 594 534 601 533 589 549 630 542 646 638 639 558 636 569 550 535 558 624 511 528 581 571 541 553 580 573 553 569 560 600 634 580 620 556 639 563 570 577 599 587 541 classificazione ordinati 20 a 20 in ordine crescente Dati TAS - ordinati su 5 colonne 504 524 491 511 512 507 541 502 514 535 515 542 511 528 541 534 550 521 549 549 553 555 533 550 553 557 556 553 554 563 558 569 554 566 565 558 577 556 580 569 570 580 557 585 573 571 590 560 587 576 573 601 561 589 579 575 604 568 591 581 579 605 569 593 594 580 608 579 600 597 589 620 592 603 607 591 621 599 606 618 592 624 605 611 618 603 629 618 616 624 612 633 646 638 634 630 636 695 639 639 Ad esempio estremi Campione di una popolazione 100 studenti - Test Attitudine Scolastica FLN - 5 Novembre 09 12

Raccolta dati/campionamento-2 I dati sperimentali grezzi, ad es. i 100 valori del TAS, contengono tutta l informazione possibile sul campione e di conseguenza sulla popolazione. Sono però spesso scomodi da visualizzare e da utilizzare. Si passa ad una classificazione (istogramma, tabella etc.) che renda i dati più intellegibili e immediati ed alla riduzione ad un piccolo numero di parametri che caratterizzano il campione. In questo passaggio si perde l informazione sul singolo dato. Bisogna usare indicatori rappresentativi. Occorre anche evitare tutti quei raggruppamenti che falsano i dati (ad es. istogrammi con canali di ampiezza diversa etc.) FLN - 5 Novembre 09 13

Tabelle & istogrammi [per es.(*)] (raggruppamento dei dati) Distribuzioni di frequenza Tabella 1 Classe Limiti Frequenza 1 475-499 1 2 500-524 9 3 525-549 10 4 550-574 27 5 575-599 23 6 600-624 20 7 625-649 9 8 650-674 0 9 675-699 1 Fig. 1 30 25 20 15 10 5 0 475-499 500-524 525-549 550-574 575-599 600-624 625-649 650-674 675-699 Tabella 2 Classe Limiti Frequenza Frequenza cumulata cumulata precentuale 1 meno di 500 1 1% 2 meno di 525 10 10% 3 meno di 550 20 20% 4 meno di 575 47 47% 5 meno di 600 70 70% 6 meno di 625 90 90% 7 meno di 650 99 99% 8 meno di 675 99 99% 9 meno di 700 100 100% Fig. 2 120 100 80 60 40 20 0 meno di 500 meno di 525 meno di 550 meno di 575 meno di 600 meno di 625 meno di 650 meno di 675 meno di 700 Distribuzione cumulativa FLN - 5 Novembre 09 14 (*) http://www.itl.nist.gov/div898/handbook/eda/section3/histogra.htm

Poligono della frequenza Altre rappresentazioni grafiche dei dati raggruppati 30 25 20 15 100% Poligono della frequenza cumulata 10 120 5 100 0 475-499 500-524 525-549 550-574 575-599 600-624 625-649 650-674 675-699 80 60 40 20 0 (Tabelle e grafici sono stati prodotti con Excel) meno di 500 meno di 525 meno di 550 meno di 575 meno di 600 meno di 625 meno di 650 tipicamente a forma di S meno di 675 meno di 700 FLN - 5 Novembre 09 15

Altre rappresentazioni (torte) Economia Altri 40% Economia 20% Altri 40% Medico Sanitario 16% Ingegneria 17% Scienze di base 7% Ingegneria 17% Scienze di base 7% Medico Sanitario 16% Indirizzo di studio Frequenza Freq. relat. Angolo in gradi Economia 2234 0.197 71 Medico Sanitario 1829 0.161 58 Scienze di base 807 0.071 26 Ingegneria 1912 0.169 61 Altri 4563 0.402 145 Medico Sanitario 16% Scienze di base 7% Ingegneria + Altri 57% Ingegneria 17% Totale 11345 1.000 360 Altri Economia 20% 40% FLN - 5 Novembre 09 16

Note Campione di una popolazione (finita, ad es. nel caso degli studenti infinita, ad es. tutte le possibili uscite T/C nei successivi lanci di una moneta). Campionamento casuale (random): ogni elemento ha la stessa possibilità di essere scelto e la scelta di un dato el. non influenza la scelta di un successivo el. [pop. infinita o pop. finita con rimpiazzamento; se non si rimpiazza, tutti i campioni della stessa dimensione devono avere uguale possibilità] Variabile aleatoria (discreta, ad es. il risultato del TAS continua, ad es. l altezza h o la massa m di una persona [il numero di cifre significative dipende dalla precisione della misura]) Distribuzioni di frequenza riga 1: tabella 1, figura 1 Distribuzioni cumulative di frequenza riga 2: tabella 2, figura 2 FLN - 5 Novembre 09 17

Statistica non parametrica Non tutti i risultati di un campionamento sono numerici e quindi suscettibili di essere ordinati numericamente (la probabilità, vedi più avanti, di fare ad es. X è comunque definita, se si ammette di giocare sempre le stesse partite). Altre osservazioni ad es. il colore dei capelli, degli occhi di una persona, cavalli in una corsa &tc. Istogramma del lunedì o dello scommettitore! Classe Segno Frequenza 1 1 6 2 X 4 3 2 3 7 6 5 4 3 2 1 0 1 2 3 1 X 2 FLN - 5 Novembre 09 18

Indicatori di tendenza del campione Media aritmetica: x m = x = Σ i=1,n x i /n (per una popolazione µ = Σ i=1,n x i /N) 30 Mediana: il valore che corrispondere a dividere a metà i dati (nell es. 50 prima e 50 dopo la mediana) 25 20 15 10 5 0 Moda: Il dato/la classe/il canale dell istogramma con la massima frequenza 475-499 500-524 525-549 550-574 575-599 600-624 625-649 650-674 675-700 Centro dell intervallo: (dato più piccolo + dato più grande)/2 moda media FLN - 5 Novembre 09 19

Media, Mediana, Moda Moda Mediana Moda=mediana=media Media Unimodale obliqua sinistra Series1 Series1 Mediana Moda Media Distribuzione simmetrica (a campana) Unimodale obliqua destra Series1 FLN - 5 Novembre 09 20

Media aritmetica Σ i nxi x n dati (con lo stesso peso) m = x = =1, n Media ponderata Σi= 1, nwi xi xm = x = Σ pesata con w i diversi i= 1, nwi Ad es. media di un istogramma con frequenze f i, prendo f i = w i media pesata pesata con pesi f i (le probabilità sono proporzionali a f j nel j-esimo canale) dati raggruppati: n è in questo caso il numero di classi Se facciamo un cambiamento di origine si ha x i -> y i = x i + A => x -> y = x + A x i -> y i = x i x => x -> y = x x = 0 (def.: scarti dalla media) ( la media degli scarti è nulla) FLN - 5 Novembre 09 21

Indici di dispersione del campione Campo di variazione: massimo valore minimo valore = = x max x min scarto medio assoluto (rispetto alla media) s. m. a. = Σi = 1, n xi x n scarto quadratico medio dalla media semi-differenza interquartile 30 25 20 15 10 5 0 475-499 500-524 525-549 550-574 FLN - 5 Novembre 09 22 575-599 ± sqm 600-624 625-649 Campo di variazione 650-674 675-700 Series1

Scarto quadratico medio (deviazione standard) s = (Σ i=1,n (x i x) 2 /(n-1)) [campione] [N.B. per la popolazione => σ, n] s 2 - varianza lo s.q.m. risulta minimo rispetto alla media aritmetica: supponiamo infatti di calcolarlo rispetto ad a = x + b Σ i=1,n (x i a) 2 = Σ i=1,n (x i x b) 2 = = Σ i=1,n (x i x) 2 2bΣ i=1,n (x i x) + nb 2 = min se b = 0 ---------------------------- = 0 FLN - 5 Novembre 09 23

Stessa media/mediana, stesso range, diversa dispersione unimodale 40 Frequenza 35 Range = x max -x min 30 25 Frequenza 20 15 Frequenza 12 10 8 10 5 0 1 2 3 4 5 6 7 8 9 6 4 Frequenza Frequenza 2 25 0 1 2 3 4 5 6 7 8 9 20 15 10 Frequenza Media = (x min +x max )/2 5 non ha moda bimodale 0 1 2 3 4 5 6 7 8 9 FLN - 5 Novembre 09 24

Dispersione dei dati raggruppati, dispersione relativa, variabile standardizzata etc. Campione, dati raggruppati, N classi con frequenza f i s 2 = (Σf i x i2 - nx 2 )/(n - 1) n numero di dati dispersione-relativa = dispersione-assoluta/media (numero puro, adimensionale) s/x variabile standardizzata z = (x x)/s (adimensionale) [ z = 0, s z = 1 ] { Momenti di ordine r dalla media m r = Σ j=1,n (x j x) r /n } { Asimmetria a 3 = m 3 /s 3 che, essendo dispari, può essere +va/-va} { &tc. (la distribuzione di Gauss o normale ha a 3 = 0, a 4 = 3 (*) ) } (*) NB in Excel a 4 ~ 0 FLN - 5 Novembre 09 25

Quantili Con dati ordinati in modo progressivo, il valore centrale è la mediana, che divide la serie di dati in due parti uguali. Analogamente si possono dividere I dati in 4 parti => quartili (I, II, III, IV quartile) Idem in 10 parti => decili Idem in 100 parti => percentili Semi-differenza interquartile: (Q 3 -Q 1 )/2 120 100 80 60 40 20 0 m eno di 500 m eno di 525 m eno di 550 m eno di 575 m eno di 600 m eno di 625 m eno di 650 m eno di 675 m eno di 700 I quartile Mediana I quartile FLN - 5 Novembre 09 26

Box-and-Wiskers plot Rappresentazione dei dati B&W (scatola e baffi): si costruisce una scatola con indicata la mediana e con estremi Q 1 e Q 3 sopra un intervallo graduato che contiene tutte le osservazioni sul campione, i baffi si ottengono con due segmenti lunghi 1.5xIQR=1.5x(Q 3 -Q 1 ) a partire da Q 1 e Q 3 i dati fuori dall intervallo sono outlier Q 1 Mediana Q 3 outlier 500 550 600 FLN - 5 Novembre 09 27 *

Note Media e deviazione standard per la popolazione sono indicate spesso con µ,σ rispettivamente, mentre x,s sono le quantità campionarie - in Excel: StDevp/Varp e StDev/Var, rispettivamente Nel caso di variabili continue sarà necessario sostituire le sommatorie (Σ) con integrali ( ) ad es. la media di x su una distribuzione di frequenze continua f(x) sarà x = xf ( x) dx f ( x) dx variazione della x integr. estesi a tutto il campo di FLN - 5 Novembre 09 28