8 Elementi di Statistica



Documenti analoghi
E naturale chiedersi alcune cose sulla media campionaria x n

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Inferenza statistica. Statistica medica 1

SPC e distribuzione normale con Access

Statistica. Lezione 6

1. Distribuzioni campionarie

Matematica generale CTF

VERIFICA DELLE IPOTESI

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

La distribuzione Normale. La distribuzione Normale

Test statistici di verifica di ipotesi

risulta (x) = 1 se x < 0.

Statistiche campionarie

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

OSSERVAZIONI TEORICHE Lezione n. 4

Slide Cerbara parte1 5. Le distribuzioni teoriche

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Metodi statistici per le ricerche di mercato

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Principi generali. Vercelli 9-10 dicembre G. Bartolozzi - Firenze. Il Pediatra di famiglia e gli esami di laboratorio ASL Vercelli

Elementi di Psicometria con Laboratorio di SPSS 1

Corso di Laurea in Scienze e Tecnologie Biomolecolari. NOME COGNOME N. Matr.

I ricavi ed i costi di produzione

Elementi di Psicometria con Laboratorio di SPSS 1

Verifica di ipotesi

Misure di base su una carta. Calcoli di distanze

Dimensione di uno Spazio vettoriale

4 3 4 = 4 x x x 10 0 aaa

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

PROBABILITA CONDIZIONALE

LA STATISTICA NEI TEST INVALSI

1 Serie di Taylor di una funzione

L analisi dei rischi: l aspetto statistico Ing. Pier Giorgio DELLA ROLE Six Sigma Master Black Belt

Le funzioni continue. A. Pisani Liceo Classico Dante Alighieri A.S A. Pisani, appunti di Matematica 1

Logica Numerica Approfondimento 1. Minimo Comune Multiplo e Massimo Comun Divisore. Il concetto di multiplo e di divisore. Il Minimo Comune Multiplo

Edited by Foxit PDF Editor Copyright (c) by Foxit Software Company, 2004 For Evaluation Only.

Iniziamo con un esercizio sul massimo comun divisore: Esercizio 1. Sia d = G.C.D.(a, b), allora:

Quando troncare uno sviluppo in serie di Taylor

IL METODO PER IMPOSTARE E RISOLVERE I PROBLEMI DI FISICA (NB non ha nulla a che vedere con il metodo scientifico)

APPUNTI SU PROBLEMI CON CALCOLO PERCENTUALE

Capitolo 12 La regressione lineare semplice

Il Controllo Interno di Qualità dalla teoria alla pratica: guida passo per passo IL MODELLO TEORICO. Pasquale Iandolo


Più processori uguale più velocità?

Modulo didattico sulla misura di grandezze fisiche: la lunghezza

LA DISTRIBUZIONE DI PROBABILITÀ DEI RITORNI AZIONARI FUTURI SARÀ LA MEDESIMA DEL PASSATO?

T DI STUDENT Quando si vogliono confrontare solo due medie, si può utilizzare il test t di Student La formula per calcolare il t è la seguente:

I punteggi zeta e la distribuzione normale

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile

TNT IV. Il Diavolo è meno brutto di come ce lo dipingono!!! (Guarda il video)

Vincere a testa o croce

1. PRIME PROPRIETÀ 2

I SISTEMI DI NUMERAZIONE

CRITERI DI CONVERGENZA PER LE SERIE. lim a n = 0. (1) s n+1 = s n + a n+1. (2) CRITERI PER LE SERIE A TERMINI NON NEGATIVI

Errori di una misura e sua rappresentazione

Limiti e continuità delle funzioni reali a variabile reale

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Complementi di Termologia. I parte

Corrispondenze e funzioni

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

Analisi di dati di frequenza

La variabile casuale Binomiale

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di

Il riduttore di focale utilizzato è il riduttore-correttore Celestron f/ 6.3.

~ Copyright Ripetizionando - All rights reserved ~ STUDIO DI FUNZIONE

Istituzioni di Statistica e Statistica Economica

ELEMENTI DI STATISTICA

Lo spessimetro ( a cura di Elena Pizzinini)

Esercitazione 23 maggio 2016

Analisi dei Dati 12/13 Esercizi proposti 3 soluzioni

FONDAMENTI DI PSICOMETRIA - 8 CFU

Capitolo 25: Lo scambio nel mercato delle assicurazioni

Misure della dispersione o della variabilità

Codici Numerici. Modifica dell'informazione. Rappresentazione dei numeri.

Capitolo 13: L offerta dell impresa e il surplus del produttore

LE FUNZIONI A DUE VARIABILI

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Da dove nasce l idea dei video

LA MASSIMIZZAZIONE DEL PROFITTO ATTRAVERSO LA FISSAZIONE DEL PREZZO IN FUNZIONE DELLE QUANTITÀ

FISICA. Le forze. Le forze. il testo: 2011/2012 La Semplificazione dei Testi Scolastici per gli Alunni Stranieri IPSIA A.

INTEGRATORE E DERIVATORE REALI

Lezione 5. Argomenti. Premessa Vincolo di bilancio La scelta ottima del consumatore

Il mercato di monopolio

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

a b c Figura 1 Generatori ideali di tensione

= variazione diviso valore iniziale, il tutto moltiplicato per 100. \ Esempio: PIL del 2000 = 500; PIL del 2001 = 520:

Tabella 7. Dado truccato

Politecnico di Milano. Facoltà di Ingegneria Industriale. Corso di Analisi e Geometria 2. Sezione D-G. (Docente: Federico Lastaria).

Statistical Process Control

PROBABILITA. Sono esempi di fenomeni la cui realizzazione non è certa a priori e vengono per questo detti eventi aleatori (dal latino alea, dado)

La misura degli angoli

Equilibrio bayesiano perfetto. Giochi di segnalazione

Energia potenziale elettrica e potenziale. In queste pagine R indicherà una regione in cui è presente un campo elettrostatico.

1 Giochi a due, con informazione perfetta e somma zero

CAPITOLO 16 SUCCESSIONI E SERIE DI FUNZIONI

Transcript:

8 Elementi di Statistica La conoscenza di alcuni elementi di statistica e di analisi degli errori è importante quando si vogliano realizzare delle osservazioni sperimentali significative, ed anche per poter leggere articoli di optometria pubblicati su riviste italiane e internazionali. Nessuna misura può essere completamente priva di errore sperimentale. È importante conoscere l entità di una tale incertezza e saperla ridurre al minimo. Occorre precisare che con la parola errore non si intende uno sbaglio nelle procedure effettuate, ma l inevitabile incertezza connessa con l uso di determinati strumenti e con la ripetizione della misura. Se ad esempio ripetiamo molte volte l esperimento di misurare il tempo della caduta di una pallina lungo un piano inclinato con un orologio in grado di calcolare i millesimi, pur con tutte le attenzioni volte ad effettuare le misure nelle condizioni più simili possibili, molto difficilmente otterremo due volte lo stesso identico risultato. Il risultato del nostro esperimento sarà quindi dato dalla media di tutte le misure, che definiremo in seguito, e avrà un incertezza, che intuitivamente diminuirà al crescere delle prove effettuate. Vediamo ora una formulazione più rigorosa dei concetti appena presentati. 8.1 La media e la deviazione standard Immaginiamo di voler misurare una certa grandezza x. Non ci preoccupiamo in questa fase di quale grandezza si tratti, e con quale unità di misura debba essere calcolata. Immaginiamo di aver svolto la misura cinque volte e di avere ottenuto i seguenti risultati 51, 52, 52, 53, 51 È lecito chiedersi quale sia la migliore stima per la grandezza x. Si può dimostrare che tale valore x sti coincide con la media dei valori misurati, cioè x sti = x = 51 + 52 + 52 + 53 + 51 5 = 51.8 Ovviamente tale procedimento può essere effettuato indipendentemente dal numero di prove effettuate. Se facciamo N misure della grandezza x e troviamo N valori x 1,x 2,..., x N la migliore stima per x è ancora la media dei valori trovati che può essere definita come x = x 1 + x 2 +... + x N xi = N N La sigma maiuscola Σ è una notazione matematica che corrisponde appunto alla somma dei vari fattori. Una volta trovato il valore più attendibile per una certa grandezza, è importante capire quanto un tale valore sia affidabile. Una certa informazione ci viene fornita dalla differenza tra il valore di x e ognuno dei valori x i trovati sperimentalmente. Se la differenza è piccola rispetto al valore x la misura risulta abbastanza attendibile. Se chiamiamo d i la differenza x i x, la somma di tutti i valori d i fornisce sempre il valore 0. Per dare una stima dell incertezza di una 42

data misura si ricorre a sommare il quadrato delle differenze d i per poi farne la radice quadrata dopo aver diviso per il numero di prove effettuate meno uno. La corretta definizione per l incertezza della misura è quindi 1 σ x = (xi x) N 1 2 che per l esempio precedente viene a valere 0.8. Molte prove hanno mostrato che tale valore σ, detto standard deviation è una buona stima per l errore sperimentale. Nel dare il valore finale della misura si tende quindi a scrivere che x = x ± σ x Ad esempio nel caso visto prima scriveremmo x = 51.8 ± 0.8 Considerazioni matematiche ci permettono di affermare che se andassimo a ripetere la nostra misura di x, abbiamo circa il sessantotto per cento di probabilità che essa venga a cadere nell intervallo indicato dalle espressioni precedenti. 8.2 Alcune definizioni Popolazione: è il gruppo di individui di interesse in un particolare studio. Esempio: tutti i portatori di lenti a contatto miopi Campione: è un gruppo di individui, selezionato all interno della popolazione e che puó rappresentare la popolazione all interno del nostro studio Esempio: 100 portatori di lenti a contatto miopi 8.3 La distribuzione gaussiana Immaginiamo di dover misurare una determinata grandezza (che potrebbe anche essere ad esempio lo spessore di una lente oftalmica, o il suo peso). Per i motivi precedentemente accennati se ripetiamo molte volte la misura otterremo sempre valori diversi, a causa dell incertezza della misura stessa. Immaginiamo di aver svolto la misura 30 volte e di rappresentare i valori ottenuti in un istogramma che riporta sull asse delle ascisse i valori ottenuti suddivisi in intervalli e sull asse delle ordinate quante volte stato ottenuto un valore all interno di quell intervallo. L istogramma è riportato in Fig.36. Se poi ripetiamo la misura 100 volte il risultato potrebbe essere quello riportato in Fig.37. Già dopo 100 misure ci si può accorgere che la dstribuzione dei risultati assume una forma interessante, con un picco centrale e le misure che si diradano via via che ci allontaniamo dal centro. Questo tipo di distribuzione risulta ancora più evidente dopo 1000 misure (Fig.38). Se poi decidiamo di svolgere centomila misure e di creare intervalli molto più piccoli ecco che l istogramma assume una forma estremamente nota in statistica (Fig.39) e che si definisce una gaussiana. Si può dimostrare che il valore di picco della gaussiana coincide proprio con la media della misura. La gaussiana è una curva che non ha limiti sull asse x, anche se la probabilit di ottenre una misura via via che ci allontaniamo dal valor medio scende sempre pi. Si può dimostrare che circa il 68 % circa delle misure stanno tra x σ x e x + σ x, mentre il 95 % 43

Figura 36: Istogramma di una misura ripetuta 30 volte (si tratta di una misura ipotetica generata al calcolatore con valore atteso zero) Figura 37: Istogramma di una misura ripetuta 100 volte 44

Figura 38: Istogramma di una misura ripetuta 1000 volte circa stanno tra x 2σ x e x +2σ x, e il 99.7% stanno tra x 3σ x e x +3σ x. La standard deviation rappresenta in un certo modo la larghezza della gaussiana, quindi una gaussiana larga e bassa indicherà una misura poco precisa, mentre una gaussiana molto stretta indica generalmente una misura precisa. 8.4 Il Valore P In molti casi statistici ci si può trovare di fronte a un problema di questo tipo: immaginiamo che un ricercatore stia esaminando un farmaco che deve influire sulla pressione oculare. Il metodo da utilizzare è quello di prendere due gruppi di pazienti con la stessa pressione oculare (anche questo concetto di stessa pressione andrebbe chiarito), dando a un gruppo un placebo e a un altro gruppo il farmaco da testare. Dopo l assunzione del farmaco si va ad esaminare la pressione oculare media dei due gruppi. Si otterranno due risultati che saranno certamente diversi, per motivi statistici, ma questa differenza sarà dovuta al farmaco o ad un semplice caso statistico? In pratica ci troviamo di fronte a due distribuzioni, che daranno luogo a due medie e due standard deviation diverse. Le possibilità che ci interessano sono dunque due 1. Le due popolazioni hanno in realtà la stessa media cioè le due distribuzioni derivano dalla stessa situazione e la differenza è dovuta esclusivamente al caso statistico: questo significa che il farmaco in realtà non ha avuto alcun effetto. È la cosiddetta ipotesi nulla 2. Le due popolazioni hanno medie differenti, cioè le due distribuzioni nascono da un effettiva differenza tra i due campioni: questo significa che il farmaco ha avuto effetto. È la cosiddetta ipotesi alternativa. Ovviamente rigetteremo l ipotesi nulla solo quando ci troveremo di fronte ad un evidenza che il secondo campione non coincide con il primo. Per esemplificare 45

Figura 39: Istogramma di una misura ripetuta 1000 volte chiamiamo D 1 (D 2 ) la distribuzione corrispondente al gruppo che ha ricevuto il placebo (farmaco). La loro pressione media oculare sarà P 1 (P 2 ) con un errore P 1 ( P 2 ). Se la probabilità di ottenere il risultato P 2 nel caso della distribuzione D 1 è sufficientemente piccola, allora potremo rigettare l ipotesi nulla e accettare l ipotesi alternativa. Resta da chiedersi che cosa si intenda con probabilità sufficientemente piccola; nella maggior parte dei casi si sceglie lo 0,05. Per essere ancora più certi della falsità dell ipotesi nulla si può scegliere lo 0,01. Se si è scelto il valore 0,05 questo significa che rigetteremo l ipotesi nulla se, essendo vera la distribuzione D 1, avremo meno del 5% di probabilità di ottenere il valore P 2. In pratica il valore P è la risposta alla domanda: se le due popolazioni hanno in realtà la stessa media, quale è la probabilità che il caso statistico abbia condotto ad una differenza tra le medie quale quella che abbiamo ottenuto o addirittura più grande? Per questo motivo se otteniamo un valore P di 0,35 questo significa che nel 35% dei casi noi avremmo potuto ottenere una differenza tra i risultati di tale entità o anche maggiore, nonostante che in realtà le due popolazioni abbiano lo stessa media. In questo caso il farmaco non ha fatto effetto. Se invece il valore P è 0,001 allora una tale differenza di risultati sarebbe stata possibile solo nello 0,1% dei casi se non ci fosse differenza tra le popolazioni. Questo significa che le due popolazioni sono diverse: il farmaco ha fatto effetto. Vediamo ora alcuni esempi 1. Un ricercatore misura lo spessore del film lacrimale degli abitanti di Sovigliana e poi lo spessore del film lacrimale degli abitanti di Vinci, e confronta poi le due distribuzioni così ottenute. Egli ottiene un valore p=0,02. Che conseguenza può trarre da questo risultato? Risposta: se egli ha posto il livello di significatività della sua misura a 0,05, il valore P è risultato minore. Questo significa che l ipotesi nulla è falsa. 46

In pratica, questo significa che abitare a Vinci o a Sovigliana influisce sullo spessore del film lacrimale dei soggetti. Se il valore P fosse risultato essere 0,58 allora egli avrebbe tratto la conseguenza che non vi è differenza tra il vivere nei due paesi per ciò che riguarda lo spessore del film lacrimale. 2. Lo spessore del film lacrimale della popolazione italiana è 211 micron con una standard deviation di 46 micron. Prendiamo un campione di 12 persone e gli somministriamo un farmaco che pensiamo abbia l effetto di cambiare lo spessore del film lacrimale. In questo campione otteniamo una media di 217 micron. Ci chiediamo se questo dato sperimentale ci autorizza a pensare che il farmaco ha avuto effetto. Risposta: Per prima cosa è necessario sapere a quante standard deviation si trova il risultato trovato sul campione dalla media generale. Per questo motivo ci calcoliamo la standard deviation della media. σ x = σ x N = 46 12 13.3 A questo punto possiamo calcolarci quante standard deviation ci sono tra le due medie 217 211 z = =0.45 13.3 Ora possiamo andare a vedere sulle apposite tabelle quale la probabilità di ottenere un tale risultato (le tabelle sono rintracciabili in vari siti web, come ad esempio [?] o sui testi specifici, come [?]. Grazie a tali tabelle si può vedere che la probabilità che la media caschi all interno di 0.45 standard deviation è 34.73%. Questo significa che la probabilità che il risultato fosse a una distanza maggiore è di 65.27%, cioè un valore P di circa 0.65. Si noti che così facendo noi abbiamo considerato sia il caso di uno spessore più alto della media che quello di uno spessore più basso della media, dato che non indicavamo l effetto del farmaco: si parla di test di ipotesi bilaterali. Dato l elevato valore P non possiamo escludere l ipotesi nulla, e dobbiamo concludere che il farmaco non ha avuto effetto. 3. Vediamo un esempio preso da un articolo di una rivista di optometria [?]. Nell articolo sono esaminati 239 soggetti, 184 portanti lenti a contatto e 55 no. Si è chiesto ai soggetti se hanno mai avuto sintomi tipici dell occhio secco. 151 hanno risposto no (63%) e 88 si (37%). Se però esaminiamo i soli non portatori il risultato è 48 no (87%) 7 si (13%), mentre tra i portatori 103 no (56%) e 81 si (44%). Questa differenza tra portatori e non portatori è un caso statistico, o corrisponde a un effettiva differenza? Guillon calcola il valore P ottenendo p =0.001 il che conferma che siamo di fronte a una differenza reale, cioè ad un effetto reale delle lenti a contatto. 47