LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATI



Documenti analoghi
Statistica. Lezione 6

Metodi statistici per le ricerche di mercato

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Corso di. Dott.ssa Donatella Cocca

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

Inferenza statistica. Statistica medica 1

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

Laboratorio di Pedagogia Sperimentale. Indice

Statistiche campionarie

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

PROGETTO INDAGINE DI OPINIONE SUL PROCESSO DI FUSIONE DEI COMUNI NEL PRIMIERO

Statistica inferenziale

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Intervalli di confidenza

3. Confronto tra medie di due campioni indipendenti o appaiati

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

come nasce una ricerca

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

VERIFICA DELLE IPOTESI

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

STATISTICA IX lezione

OSSERVAZIONI TEORICHE Lezione n. 4

LA STATISTICA NEI TEST INVALSI

La logica statistica della verifica (test) delle ipotesi

Test statistici di verifica di ipotesi

Capitolo 12 La regressione lineare semplice

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Il confronto fra proporzioni

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Tema A Se due eventi A e B sono indipendenti e tali che P (A) = 1/2 e P (B) = 2/3, si può certamente concludere che

LEZIONE n. 5 (a cura di Antonio Di Marco)

Una sperimentazione. Probabilità. Una previsione. Calcolo delle probabilità. Nonostante ciò, è possibile dire qualcosa.


SPC e distribuzione normale con Access

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Il concetto di valore medio in generale

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

STUDI SU MATERIALE GENETICO

Analisi e diagramma di Pareto

LE ASSUNZIONI DELL'ANOVA

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

5. IL PC E INTERNET NELLE DIVERSE TIPOLOGIE FAMILIARI

E naturale chiedersi alcune cose sulla media campionaria x n

Da dove nasce l idea dei video

Corso di Psicometria Progredito

Il fumo in Italia. Sintesi dei risultati

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

CONSUMI DI SOSTANZE PSICOATTIVE E ALTRI COMPORTAMENTI A RISCHIO NELLA POPOLAZIONE STUDENTESCA

PROGETTO EM.MA PRESIDIO

Corso di laurea in Economia e Gestione delle Arti e delle Attività Culturali a.a INTRODUZIONE ALLA STATISTICA DESCRITTIVA

Capitolo 4 Probabilità

La significatività PROVE DI SIGNIFICATIVITA PROVE DI SIGNIFICATIVITA PROVE DI SIGNIFICATIVITA

A.A. 2015/2016. Statistica Medica. Corso di. CdL in Fisioterapia CdL in Podologia

Calcolo delle probabilità

Igiene nelle Scienze motorie

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Elementi di Epidemiologia

f(x) = 1 x. Il dominio di questa funzione è il sottoinsieme proprio di R dato da

Osservazioni sulla continuità per le funzioni reali di variabile reale

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

Pro e contro delle RNA

Corso di Matematica. Corso di Laurea in Farmacia, Facoltà di Farmacia. Università degli Studi di Pisa. Maria Luisa Chiofalo.

I processi decisionali all interno delle coppie

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

LA CONDIZIONE DEL DOTTORATO DI RICERCA A BOLOGNA NEL 2000

Fisica Medica x OPD. Angelo Scribano (ottobre 2006) Le scienze e il metodo scientifico Fisica Medica. A. Scribano pag.1

(liberamente interpretato da SCHEDA ALUNNI. Descrizione dell attività:

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

Concetto di potenza statistica

Corso di Statistica. Corso di Laurea in Ingegneria Edile. Ingegneria Tessile. Docente: Orietta Nicolis

Facciamo qualche precisazione

L intelligenza numerica

Rapporto dal Questionari Insegnanti

METODOLOGIA STATISTICA E CLASSIFICAZIONE DEI DATI

La dispersione dei prezzi al consumo. I risultati di un indagine empirica sui prodotti alimentari.

Elementi di Psicometria con Laboratorio di SPSS 1

IL VALORE ECONOMICO DELLA SCELTA UNIVERSITARIA Massimo Anelli e Giovanni Peri UC Davis e FRDB. 11 Dicembre 2013

8 Elementi di Statistica

Il rischio cancerogeno e mutageno

Tratto dal libro Come vivere 150 anni Dr. Dimitris Tsoukalas

Tasso di interesse e capitalizzazione

Strategie alternative ai metodi sperimentali

= variazione diviso valore iniziale, il tutto moltiplicato per 100. \ Esempio: PIL del 2000 = 500; PIL del 2001 = 520:

CONFLITTO D INTERESSI TRA MEDICI E INDUSTRIA FARMACEUTICA

Statistica descrittiva: prime informazioni dai dati sperimentali

Antonella Martinucci, Rossana Nencini, 2013 IL PESO. classe quarta

Qui cade sua altezza

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

GESTIONE INDUSTRIALE DELLA QUALITÀ A

ISTITUTO COMPRENSIVO BARBERINO MUGELLO

Capitolo 13: L offerta dell impresa e il surplus del produttore

Comparazione dei Risultati dell Indagine

Principi generali. Vercelli 9-10 dicembre G. Bartolozzi - Firenze. Il Pediatra di famiglia e gli esami di laboratorio ASL Vercelli

1. Scopo dell esperienza.

Che cosa è EDUSCOPIO?

Cosa dobbiamo già conoscere?

1. PRIME PROPRIETÀ 2

Transcript:

LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATI Tre punti importanti o Dati e ipotesi In tutte le discipline scientifiche che studiano gli organismi viventi, molto raramente i dati ottenuti attraverso un esperimento oppure raccolti in natura ci permettono di giungere ad una conclusione con una certezza del 100%. La statistica ci aiuta in maniera oggettiva, numericamente, ad analizzare le diverse ipotesi: lo studio e l'interpretazione dei fenomeni biologici dipende quindi strettamente dal metodo statistico. o Statistica e computer Il personal computer non ha reso inutile l'insegnamento della statistica. Nelle analisi statistiche il personal computer svolge solo le funzioni più noiose e meno importanti: ricordare le formule e applicarle velocemente ai dati riducendo il rischio di fare errori. Bisogna però capire il principio di un analisi, decidere se tale analisi è adatta ai dati disponibili, e saperne interpretare il risultato. o Formule, test, concetti, ed esempi Alla fine di un corso universitario di statistica destinato alle lauree nelle scienze della vita, uno studente non dovrebbe ricordarsi solo gli aspetti tecnici o matematici di questa disciplina. Risulterà invece fondamentale aver capito a cosa serve la statistica, quando serve, e perché funziona in quel modo. A tale scopo aiuta molto avere sempre in mente uno o più esempi specifici per ogni tipo di analisi.

Cos è la statistica? 2 Lo studio scientifico dei dati. Quando l applicazione dei metodi statistici ha lo scopo di descrivere e comprendere i fenomeni di tipo biologico, si preferisce a volte utilizzare il termine biometria. La statistica descrittiva viene utilizzata per riassumere e rappresentare i dati o 100 persone scelte a caso: quanti figli hanno? (se avesse intervistato altre 100 persone, sempre scelte a caso, avrebbe ottenuto una media diversa) o dove preferite fare le vacanze? o Percentuale guarigioni in 50 pazienti controllo e 50 pazienti trattati (il risultato implica che il farmaco sia efficace?) o La statistica descrittiva può essere anche molto complessa, ed è sempre molto utile come indagine preliminare dei risultati ottenuti, ma alla fine ci fornisce solo una sintesi dei dati e/o ci facilita la loro lettura attraverso un grafico.

La statistica inferenziale (la vera statistica) ci permette di generalizzare, con un certo grado di sicurezza, le conclusioni suggerite dall analisi dei dati raccolti. o Per esempio, se dall analisi di un campione di 100 individui calcolo il valore medio del numero medio di figli, la statistica inferenziale mi permette di dire qualcosa sulla media del numero di figli nella popolazione dalla quale proviene il campione. o In questo caso, attraverso il calcolo di una statistica (la media nel campione) possiamo dire qualcosa riguardo ad un parametro (la media nella popolazione): Stima di parametri o Test (o verifica) delle ipotesi: una volta definite delle ipotesi e analizzato un campione, di definire oggettivamente, assegnando un livello di probabilità (ossia di certezza), quale ipotesi è maggiormente compatibile con i dati. Nell esempio precedente del farmaco, definite le due ipotesi il farmaco funziona e il farmaco non funziona, la statistica inferenziale ci permette di dire qualcosa in generale, nella popolazione cioè, sull efficacia del farmaco, e non solo sulla differenza osservata in un campione di 100 pazienti. 3

Il processo inferenziale. Tutta la statistica inferenziale, e cioè tutta la statistica vera, è basata su questo processo, che permette, con un certo grado di certezza, di estendere alla popolazione (il fenomeno in senso lato) le conclusioni ottenute osservando un campione (una parte del fenomeno). 4

Il campione: è semplicemente l'insieme degli elementi (detti anche unità campionarie o sperimentali) sui quali effettuiamo misure o osservazioni (per esempio, 20 marmotte catturate con trappole). o Costituisce una frazione della popolazione statistica, un gruppo più grande di elementi che potenzialmente potremmo osservare e misurare. La popolazione: può corrispondere ad un insieme finito di individui che hanno alcune caratteristiche in comune (per esempio, tutte le marmotte che vivono nelle Alpi) o In generale, comunque, si preferisce definire la popolazione statistica come un insieme infinito di elementi La statistica: definisce generalmente una disciplina scientifica, le scienze statistiche, ma una statistica è anche una qualsiasi misura ottenuta elaborando i dati raccolti nel campione. o Numero medio di parassiti osservati in 10 trote o Numero di pettirossi catturati con una rete in una giornata è una statistica. Una parte del processo inferenziale consiste nell'utilizzo delle statistiche per stimare alcune caratteristiche della popolazione, dette parametri. Numero medio di parassiti nella popolazione (e non solo nel campione) Numero di pettirossi in una certa area, stimato partire dal numero di individui rimasti imprigionati nella rete in un giorno. I parametri si riferiscono alle popolazioni, sono generalmente ignoti, e si indicano quasi sempre con lettere greche. Le statistiche si riferiscono al campione, sono calcolabili, si indicano con lettere latine, e si utilizzano per stimare i parametri. 5

6 Popolazioni e campioni Tutti i gatti caduti dagli edifici di New York Tutti i geni del genoma umano Tutti gli individui maggiorenni in Australia Tutto i serpenti volanti del paradiso nel Borneo o http://homepage.mac.com/j.socha/video/video.html Tutti i bambini asmatici di Milano I gatti caduti portati in un singolo ambulatorio in un certo intervallo di tempo 20 geni umani Un pub in Australia frequentato da maggiorenni Otto serpenti volanti del Borneo 50 bambini asmatici a Milano

Un esempio sull inferenza statistica 7 I maschi di trota fario sono più grandi delle femmine? o Un biologo evoluzionista e un allevatore sono interessati alla domanda Pesano 40 individui adulti, 20 maschi e 20 femmine o Media dei maschi = 1,05 kg o Media delle femmine = 0,92 o Cosa concludere?? Nulla o la trota nella popolazione non è costituita solamente da 40 individui o la semplice intuizione dei fenomeni biologici e degli organismi viventi suggerisce che un secondo campione di 20 maschi e 20 femmine avrebbe potuto dare un risultato diverso E possibile fidarsi di risultati ottenuti in un campione se un ipotetico secondo campione potrebbe fornire risultati opposti? NO!

La variabilità sperimentale può portare per puro effetto del caso a risultati diversi in diversi campionamenti: 8

9 Il peso degli individui è influenzato da un numero elevatissimo di fattori, molti dei quali incontrollabili dallo sperimentatore o sconosciuti, e non solo, eventualmente, dall'appartenenza al sesso maschile o a quello femminile. Questa situazione è molto frequente nell'analisi dei fenomeni biologici perché esiste un'alta variabilità da individuo a individuo, ed è proprio per questo motivo che abbiamo bisogno del metodo statistico. A partire dall'osservazione parziale di un fenomeno (il campione di 40 trote), la statistica ci permette di trarre delle conclusioni valide in generale, quasi come se avessimo osservato interamente il fenomeno stesso (in questo caso la popolazione di tutte le trote). Quindi, prima di applicare il test statistico appropriato ai 40 pesi misurati, potremmo solamente dire: o nel nostro campione, i maschi do trota sono mediamente più grandi delle femmine. Dopo aver applicato il test statistico, invece, potremmo, per esempio, giungere ad una conclusione di questo genere: o l'analisi statistica indica che in generale i maschi di trota pesano di più delle femmine, e tale affermazione ha una probabilità di essere errata inferiore al 5%.

10 Quando si può fare a meno del metodo statistico? Assenza di variabilità: se tutti i 20 maschi avessero esattamente lo stesso peso, per esempio 1,10 chilogrammi, e tutte le 20 femmine pesassero invece per esempio 0.97 chilogrammi se il biologo evoluzionista e l'allevatore avessero pesato un numero enorme di trote Riuscite a immaginare molte variabili biologiche che si comportino come al punto 1 qui sopra? Oppure,ad un esperimento in campo biomedico nel quale tutti gli individui ai quali è stato somministrato un farmaco reagiscono nello stesso modo? E riuscite altresì a pensare ad una raccolta di dati estesa come quella al punto 2?

Un esperimento: i rospi sono destrimani? Un altro esempio sull importanza della statistica inferenziale 11

La raccolta dei dati: campioni buoni e campioni meno buoni 12 Le osservazioni che vogliamo analizzare possono provenire da un campionamento (per esempio, i pesi delle trote, ma anche le concentrazioni di un certo composto chimico in diversi terreni) oppure da un esperimento (per esempio, lo stato di salute dei pazienti trattati o meno con un farmaco). In entrambi i casi, il campione dei dati, deve essere rappresentativo della popolazione. Campioni casuali e campioni distorti Stime corrette e stime distorte Stime precise e stime imprecise

Un campione distorto: perché? 13

14 Un campione non è casuale, ma distorto, quando, 1) gli individui non hanno tutti la stessa probabilità di essere campionati, e/o 2) la probabilità di un individuo di essere campionato dipende dal fatto che sia stato campionato un altro individuo Esempi: - un botanico raccoglie solo piante più alte, o più vicine alla strada - si fanno sondaggi telefonici - si usano trappole o reti che selezionano gli animali - campiono più individui in una stessa famiglia

15

16 Il campione di convenienza e il campione di volontari sono spesso distorti (non rappresentativi) Esempi di campioni di convenienza - Lesioni dei gatti che cadono dai cornicioni stimati sulla base dei gatti ospedalizzati - Merluzzi stimati sulla base della pesca - Inchieste telefoniche Esempi di campione di volontari (uomo) - Campioni provenienti da individui pagati - Campioni di individui che si offrono di rispondere a domande imbarazzanti Come si ottiene un campione casuale? E sempre possibile ottenerlo? Vediamo un esempio con i 5699 alberi nella foresta di Harvard

17

Studi sperimentali e studi osservazionali 18 Nei primi, lo sperimentatore assegna casualmente diversi trattamenti agli individui Per esempio, topi scelti a caso riceveranno un trattamento oppure no. Nei secondi, è la natura che assegna i trattamenti Per esempio, analizzo la relazione tra colorazione e predazione: non scelgo io il colore da assegnare a ciascun individuo. Oppure, studio la relazione tra fumo e tumore: non scelgo io i soggetti a cui somministrare il trattamento fumo Negli studi osservazionali, una relazione può essere dovuta ad una causa comune, non ad una relazione di causa ed effetto tra le due variabili analizzate. Per esempio, i pesci rossi sono meno predati di quelli rosa, ma in realtà potrebbe esserci una terza variabile (salute media) che determina colore e livello di predazione. Oppure, potrebbero essere gli individui più depressi che fumano, e il rischio di tumore potrebbe dipendere dalla depressione e non dal fumo. Se da uno studio osservazionale passo ad uno studio sperimentale (per esempio, in un campione pesci, metà scelti a caso li coloro di rosso e metà di rosa; oppure, scelgo a caso un certo numero di topi e li metto in gabbie con fumo, un altro numero in gabbie senza fumo), posso capire molto di più riguardo le relazioni di causa ed effetto.