Fondamenti di statistica per il miglioramento genetico delle piante. Antonio Di Matteo Università Federico II

Documenti analoghi
Esercizi di statistica

Distribuzioni e inferenza statistica

Statistica Inferenziale

Il Test di Ipotesi Lezione 5

DISTRIBUZIONI DI CAMPIONAMENTO

Probabilità classica. Distribuzioni e leggi di probabilità. Probabilità frequentista. Probabilità soggettiva

Analisi della varianza

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Analisi della varianza

Il campionamento e l inferenza. Il campionamento e l inferenza

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

Statistica inferenziale. La statistica inferenziale consente di verificare le ipotesi sulla popolazione a partire dai dati osservati sul campione.

distribuzione normale

Corso di Psicometria Progredito

LEZIONI DI STATISTICA MEDICA

UNIVERSITA DEGLI STUDI DI BRESCIA-FACOLTA DI MEDICINA E CHIRURGIA CORSO DI LAUREA IN INFERMIERISTICA SEDE DI DESENZANO dg STATISTICA MEDICA.

Approssimazione normale alla distribuzione binomiale

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

SOLUZIONI ESERCITAZIONE NR. 8 Test statistici

Esercitazione 8 del corso di Statistica 2

Argomenti della lezione:

Teoria e tecniche dei test

Questo calcolo richiede che si conoscano media e deviazione standard della popolazione.

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Università del Piemonte Orientale. Corso di laurea in medicina e chirurgia. Corso di Statistica Medica. La distribuzione t - student

UNIVERSITÀ DEGLI STUDI DI PERUGIA

Il confronto fra medie

Intervalli di confidenza

Analisi della varianza

Note sulla probabilità

ESAME. 9 Gennaio 2017 COMPITO B

COMUNE DI CONSIGLIO DI RUMO

Regressione lineare semplice

Confronto tra due popolazioni Lezione 6

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson. Casa editrice: Pearson

SCHEDA DIDATTICA N 7

Esercitazione: La distribuzione NORMALE

Test d ipotesi: confronto fra medie

La verifica delle ipotesi

Intervallo di confidenza

Test delle Ipotesi Parte I

Casa dello Studente. Casa dello Studente

Università del Piemonte Orientale. Corsi di laurea di area tecnica. Corso di Statistica Medica. Analisi dei dati quantitativi :

Capitolo 10. Test basati su due campioni e ANOVA a una via. Statistica II ed. Levine, Krehbiel, Berenson Apogeo

LA DISTRIBUZIONE NORMALE. La distribuzione Gaussiana. Dott.ssa Marta Di Nicola

standardizzazione dei punteggi di un test

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 4

Fondamenti di Psicometria. La statistica è facile!!! VERIFICA DELLE IPOTESI

Statistica. Lezione 4

Ipotesi statistiche (caso uno-dimensionale) Ipotesi poste sulla (distribuzione di) popolazione per raggiungere una decisione sulla popolazione stessa

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Ulteriori Conoscenze di Informatica e Statistica

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI.

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Prova Scritta di METODI STATISTICI PER L AMMINISTRAZIONE DELLE IMPRESE (Milano, )

LE DISTRIBUZIONI CAMPIONARIE

Elementi di Psicometria con Laboratorio di SPSS 1

IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI

SOLUZIONE. a) Calcoliamo il valore medio delle 10 misure effettuate (media campionaria):

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Test d Ipotesi Introduzione

CORSO DI LAUREA IN INFERMIERISTICA. LEZIONI DI STATISTICA Parte II Elaborazione dei dati Variabilità

Tipi di variabili. Indici di tendenza centrale e di dispersione

05. Errore campionario e numerosità campionaria

Test di ipotesi. Test

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

DISTRIBUZIONI DI PROBABILITA

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Inferenza statistica Donata Rodi 04/10/2016

Premessa: la dipendenza in media

Gli errori nella verifica delle ipotesi

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Test per una media - varianza nota

UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI INGEGNERIA AEROSPAZIALE D.I.A.S. STATISTICA PER L INNOVAZIONE. a.a.

Distribuzioni di probabilità

Lezione 16. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 16. A. Iodice. Ipotesi statistiche

ANOVA: ANALISI DELLA VARIANZA Prof. Antonio Lanzotti

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Grafici e tabelle permettono di fare valutazioni qualitative, non quantitative. E necessario poter sintetizzare i dati attraverso due importanti

Capitolo 6 La distribuzione normale

Analisi della varianza: I contrasti e il metodo di Bonferroni

Indici di Dispersione

Metodi statistici per la ricerca sociale Capitolo 7. Confronto tra Due Gruppi Esercitazione

QUINCUNX: IL TUBO DI GALTON Prof. Antonio Lanzotti

MISURE DI SINTESI 54

Esercitazione 8 maggio 2014

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Contenuti: Capitolo 14 del libro di testo

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Corso di Statistica Esercitazione 1.8

Esercitazione 3 - Statistica II - Economia Aziendale Davide Passaretti 23/5/2017

Test per l omogeneità delle varianze

Capitolo 8. Probabilità: concetti di base

STATISTICA A K (60 ore)

Statistica Inferenziale

Università degli Studi di Padova. Corso di Laurea in Medicina e Chirurgia - A.A

Campionamento La statistica media campionaria e la sua distribuzione. Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1

Test di ipotesi su due campioni

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

Transcript:

Fondamenti di statistica per il miglioramento genetico delle piante Antonio Di Matteo Università Federico II

Modulo 2 Variabili continue e Metodi parametrici

Distribuzione Un insieme di misure è detto serie statistica o serie dei dati. Quando la serie non è ordinata, si ha un insieme disordinato di numeri che non evidenzia le caratteristiche fondamentali del fenomeno. Una sua prima ed elementare elaborazione può essere una distribuzione ordinata di tutti i valori, in modo crescente o decrescente, detta seriazione. Il valore minimo e il valore massimo insieme permettono di individuare immediatamente il campo (od intervallo) di variazione. Successivamente, la serie può essere raggruppata in classi, contando quanti valori od unità statistiche appartengono ad ogni gruppo o categoria. Si ottiene una distribuzione di frequenza o di intensità, detta anche semplicemente distribuzione.

Distribuzione Come prima applicazione, è utile considerare un caso semplice: una variabile discreta ottenuta da un conteggio del numero di foglie, germogliate su 45 giovani rami di lunghezza uguale. Il primo passaggio, quasi intuitivo in una distribuzione discreta, consiste nel definire le classi: - è sufficiente identificare il valore minimo (0, nei dati della tabella) e quello massimo (9); - contando quante volte compare ogni modalità di espressione (cioè quanti sono i rami con un numero di foglie uguali). La distribuzione di frequenza offre una lettura rapida delle caratteristiche più importanti della serie di dati. Le distribuzioni di frequenza tendono a mostrare la distribuzione reale del fenomeno solo quando è possibile utilizzare un numero sufficientemente elevato di osservazioni.

Distribuzioni campionarie per l inferenza 1) chi-quadro di Pearson; 2) t di Student; 3) F di Fisher.

La distribuzione χ 2 di Pearson La distribuzione Chi-quadrato (χ 2 ), il cui uso è stato introdotto dallo statistico inglese Karl Pearson (1857 1936), può essere fatta derivare dalla distribuzione normale. Date n variabili casuali indipendenti x1, x2,, xn, normalmente distribuite con μ = 0 e σ = 1, χ 2 è una variabile casuale data dalla somma dei loro quadrati. La funzione di densità del χ 2 è determinata solo dal parametro ν, il numero di gradi di libertà, pertanto viene scritta come χ 2 (ν). Cosa sono i gradi di libertà?? La distribuzione χ 2 parte da ν uguale a 1 e al suo aumentare assume forme sempre diverse, fino ad una forma approssimativamente normale per ν =30. Con ν molto grande è possibile dimostrare che si ottiene una nuova variabile casuale - normalmente distribuita, -con media μ uguale a 0 e -deviazione standard σ uguale a 1. Per cui, nell ipotesi di una popolazione di valori X, la sua standardizzazione genera Si dimostra che per ogni singolo valore x, e

La distribuzione χ 2 di Pearson per n osservazioni

La distribuzione χ 2 di Pearson Il χ 2 può servire per valutare se la varianza σ 2 di una popolazione, dalla quale sia stato estratto un campione con varianza s 2, sia uguale o diversa da un valore predeterminato σ 2 0. Questi concetti sono espressi nell ipotesi nulla H 0 Per decidere alla probabilità a tra le due ipotesi, si stima un valore del chi quadrato e questo valore, alla probabilità desiderata viene confrontato con il valore della distribuzione χ 2.

La distribuzione t di Student La distribuzione t di Student (pseudonimo del chimico inglese Gosset che ne propose l applicazione al confronto tra medie campionarie) considera le relazioni tra media e varianza, in campioni di piccole dimensioni, quando si utilizza la varianza del campione (quando quella della popolazione sia ignota). Se una serie di medie campionarie (x) è tratta da una distribuzione normale ridotta (μ = 0, σ = 1) e la varianza del campione è s 2, con distribuzione χ 2 e ν gdl, è possibile derivare la v.c. t di Student, tramite la relazione e t=(x- μ)/(s ) dove i gdl ν corrispondono a N 1, con N uguale al numero totale di dati. La curva corrispondente è simmetrica, leggermente più bassa della normale e con frequenze maggiori agli estremi, quando il numero di gdl (ν) è molto piccolo.

La distribuzione F di Fisher Un altra distribuzione di notevole interesse pratico, sulla quale è fondata l inferenza di molta parte della statistica parametrica, è la distribuzione F. Essa corrisponde alla distribuzione del rapporto di 2 variabili casuali chi-quadrato indipendenti (A e B), divise per i rispettivi gradi di libertà (m e n). La curva dipende sia dal valore di ν1 e ν2, tenendo conto delle probabilità α; di conseguenza, in quanto definita da tre parametri, la distribuzione dei valori di F ha tre dimensioni. Il valore di F in teoria può quindi variare da 1 a +. In realtà sono molto rari i casi in cui supera 10; avviene solo quando i gradi di libertà sono pochi. Storicamente, la distribuzione F è stata proposta dopo la distribuzione t e ne rappresenta una generalizzazione. Tra esse esistono rapporti precisi. Il quadrato di una v.c. t di Student con ν gradi di libertà è uguale ad una distribuzione F di Fisher con gradi di libertà 1 e ν.

Il test t di Student Quando la media della popolazione (μ) non è nota, di norma anche la sua varianza (s 2 ) è ignota; di conseguenza, occorre utilizzare un sostituto della varianza della popolazione e la varianza del campione (s 2 ) ne rappresenta la stima più logica ed attendibile. Con σ ignota ed il ricorso all uso di s in sua sostituzione, la distribuzione delle probabilità non è più fornita dalla distribuzione normale z ma da quella del t, detta t di Student. La distribuzione t può essere ottenuta, con un campione costante di dati (n), dalle variazioni determinate dal rapporto Rispetto alla normale, la distribuzione t di Student tiene conto anche della variazione di campionamento della deviazione standard (s) ed i metodi che utilizzano il test t di Student (basato sulla distribuzione t) si riferiscono esclusivamente a piccoli campioni. Non vi è una sola curva t a differenza di quanto osservato per la gaussiana ma esiste una intera famiglia di distribuzioni t, una per ogni grado di libertà. Come per il chi quadrato, anche per la distribuzione t abitualmente si utilizza una sola tavola sinottica, una pagina ordinata di sintesi, che riporta i valori critici più importanti.

Valori critici del t di Student

Il test t di Student Nella statistica applicata, il test t è utilizzato in quattro casi: per il confronto tra 1 - la media di un campione e la media dell universo o una generica media attesa; 2 un singolo dato e la media di un campione, per verificare se possono appartenere alla stessa popolazione; 3 - la media delle differenze di due campioni dipendenti con una differenza attesa; 4 - le medie di due campioni indipendenti. Un test è unilaterale o a una coda, quando il ricercatore si chiede se una media è maggiore dell'altra, escludendo a priori che essa possa essere minore. Un test è bilaterale o a due code, quando il ricercatore si chiede se tra le due medie esista una differenza significativa, senza che egli abbia indicazioni su quali sia la maggiore o la minore.

Confronto tra una media osservata ed una attesa La distribuzione t con n-1 gdl (indicata con t n-1 ) è data dal rapporto Per verificare l ipotesi relativa alla media x di un campione rispetto ad una media attesa, l ipotesi nulla H 0 generalmente è scritta come Dalla formula in alto si può derivare quella dell'intervallo di confidenza, entro il quale alla probabilità α è compresa la media reale μ della popolazione dalla quale è estratto il campione. La formula per il calcolo dell intervallo fiduciale diventa

Test t di Student: esempio 1 In un appezzamento di terreno adibito a vivaio, sono coltivate pianticelle della specie A; una lunga serie di misure ha dimostrato che dopo due mesi dalla semina raggiungono un altezza media di 25 centimetri. A causa di un incidente, su quel terreno sono state disperse sostanze tossiche; si ritiene che esse incidano negativamente sulla crescita di alcune specie, tra le quali la specie A. Per una verifica di tale ipotesi, vengono seminate sul terreno inquinato 7 pianticelle che, controllate dopo 2 mesi, raggiungono le seguenti altezze in cm.: 22, 25, 21, 23, 24, 25, 21. Si intende rispondere a due quesiti. 1 - Si può sostenere che le sostanze tossiche disperse inibiscano la crescita della specie A? 2 - Quale è la media reale dell altezza delle piante dell età di due mesi, nella nuova condizione del terreno? E un test ad una coda in cui l ipotesi nulla è Scegliendo una probabilità a uguale a 0.05 e applicando la formula

Test t di Student: esempio 1 Il segno negativo indica solamente che la differenza è negativa rispetto al valore atteso; ai fini della significatività, il valore di t viene preso in modulo. Per un test ad una coda, il valore critico del t alla probabilità (0.05/2)=0.025 con 6 gdl è uguale a 2,447. Il valore calcolato in modulo è superiore a quello riportato nella tabella sinottica della distribuzione t. Pertanto, con probabilità inferiore a 0.05 (di commettere un errore) si rifiuta l ipotesi nulla e si accetta l ipotesi alternativa: le sostanze tossiche disperse inibiscono la crescita delle piante della specie A in modo significativo. 2 - L altezza media reale m della popolazione dalla quale sono stati estratti i 7 dati può essere stimata mediante l intervallo fiduciale

Test t di Student a 2 campioni indipendenti Nel caso di 2 campioni indipendenti, i gradi di libertà del t sono uguali a (na 1) + (nb-1), che possono anche essere scritti come (na + nb - 2) oppure (N-2). Il valore del t è ottenuto mediante

Condizioni del test t di Student Il t di Student è un test di statistica parametrica. Affinché possa essere ritenuto valido, come nel caso di un campione, devono essere rispettate le condizioni essenziali che - i dati (o gli scarti rispetto alla media) siano distribuiti normalmente, - le osservazioni siano raccolte in modo indipendente. Con due campioni indipendenti, per calcolare la s2 pooled si ha l ulteriore condizione essenziale, più importante delle precedenti, perché rispetto ad essa il test t è meno robusto, di - omoschedasticità o omoscedasticità, cioè che le due varianze siano statisticamente uguali.

Il test di Levene

Analisi della varianza (ANOVA) Nella ricerca sperimentale è frequente il confronto simultaneo tra le medie di più di due gruppi, formati da soggetti sottoposti a trattamenti differenti o con dati raccolti in condizioni diverse. Nell analisi della varianza, con apparente paradosso dei termini, il confronto è tra due o più medie. Essa permette il confronto simultaneo tra esse, mantenendo invariata la probabilità a complessiva prefissata. L'ipotesi nulla H0 afferma che le medie delle popolazioni dalle quali sono estratti casualmente i vari campioni sono tra loro tutte uguali oppure che tutti i campioni a confronto sono stati estratti dalla medesima popolazione. La metodologia sviluppata per verificare la significatività delle differenze tra le medie aritmetiche di vari gruppi, chiamata analisi della varianza e sintetizzata in ANOVA dall acronimo dell'inglese ANalysis Of VAriance, utilizza la distribuzione F. Il modello più semplice di analisi della varianza, è detto ad un criterio di classificazione: ogni dato è classificato solo sulla base del trattamento o del gruppo al quale appartiene.

Analisi della Varianza (ANOVA)

Analisi della Varianza (ANOVA) Le assunzioni di validità del test F dipendono dagli errori eij, che - devono essere tra loro indipendenti, - devono essere distribuiti normalmente; inoltre - le varianze dei vari gruppi devono essere omogenee.

Analisi della Varianza (ANOVA)

Analisi della Varianza (ANOVA)

Analisi della Varianza (ANOVA)

Analisi della Varianza (ANOVA)

Analisi della Varianza (ANOVA)

Analisi della Varianza (ANOVA)

Analisi della Varianza (ANOVA)

Esempio ANOVA

Esempio ANOVA

Esempio ANOVA

Esempio ANOVA

Esempio ANOVA

Esempio ANOVA

Esempio ANOVA

Esempio ANOVA

Esempio ANOVA

Nel modulo 2 abbiamo imparato - La distribuzione chi quadrato - La distribuzione t di Student - La distribuzione F di Fisher - Il t test di Student - Il test ANOVA