Test per la correlazione lineare

Похожие документы
3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

Esercitazione del

SCOPO DELL ANALISI DI CORRELAZIONE

REGRESSIONE lineare e CORRELAZIONE. Con variabili quantitative che si possono esprimere in un ampio ampio intervallo di valori

Associazione tra caratteri quantitativi: gli indici di correlazione

REGRESSIONE E CORRELAZIONE

Statistica. Alfonso Iodice D Enza

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

Statistica. Alfonso Iodice D Enza

Corso di Psicometria Progredito

Z-test, T-test, χ 2 -test

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

Statistica di base per l analisi socio-economica

Test di ipotesi su due campioni

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

Approssimazione normale alla distribuzione binomiale

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Esercitazioni di statistica

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Esercizi di Probabilità e Statistica

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

METODO DEI MINIMI QUADRATI

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

STATISTICA AZIENDALE Modulo Controllo di Qualità

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

Esame di Statistica A-Di Prof. M. Romanazzi

Esercitazione di Statistica Indici di associazione

Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni

Covarianza, correlazione e retta di regressione. Paola Lecca, CIBIO UNITN Corso di Matematica e Statistica 2

Esercizio 1 GRAFICO 1. X e Y sono indipendenti. X e Y non sono correlate. La correlazione tra X e Y è <1. X e Y sono perfettamente correlate

Capitolo 8. Intervalli di confidenza. Statistica. Levine, Krehbiel, Berenson. Casa editrice: Pearson. Insegnamento: Statistica

Esercitazione 8 maggio 2014

LA RAPPRESENTAZIONE E LA SINTESI DEI DATI

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

Statistica. Alfonso Iodice D Enza

DISTRIBUZIONE CAMPIONARIA CONGIUNTA

Dati campionari:media, varianza, bruchi

UNIVERSITÀ di ROMA TOR VERGATA

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Capitolo 3 Sintesi e descrizione dei dati quantitativi

N.B. Per la risoluzione dei seguenti esercizi, si fa riferimento alle Tabelle riportate alla fine del documento.

STATISTICHE DESCRITTIVE Parte II

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011

Distribuzioni campionarie

Teorema del limite centrale TCL

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

UNIVERSITÀ DEGLI STUDI DI PERUGIA

Matematica II: Calcolo delle Probabilità e Statistica Matematica

Proprietà della varianza

Gli errori nella verifica delle ipotesi

Distribuzione Normale

ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo

si tratta del test del chi-quadro di adattamento e di quello di indipendenza. 1 l ipotesi che la popolazione segua una legge fissata;

Statistica. Esercitazione 14. Alfonso Iodice D Enza Università degli studi di Cassino. Statistica. A. Iodice. Verifica di ipotesi

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Laboratorio di Didattica di elaborazione dati 5 STIMA PUNTUALE DEI PARAMETRI. x i. SE = n.

Statistica Inferenziale

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Statistica descrittiva: misure di associazione

Il campionamento e l inferenza. Il campionamento e l inferenza

DISTRIBUZIONE NORMALE (1)

Capitolo 6 La distribuzione normale

Distribuzioni e inferenza statistica

DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Esercitazione 8 del corso di Statistica 2

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Esercitazioni di Statistica Matematica A Esercitatori: Dott. Fabio Zucca - Dott. Maurizio U. Dini Lezioni del 7/1/2003 e del 14/1/2003

CAPITOLO 11 ANALISI DI REGRESSIONE

Intervalli di confidenza

Giorno n. clienti di attesa

ESERCITAZIONE IV - Soluzioni

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

GENETICA QUANTITATIVA

Транскрипт:

10 Test per la correlazione lineare Istituzioni di Matematica e Statistica 2015/16 E. Priola 1

Introduzione alla correlazione lineare Problema: In base ai dati che abbiamo possiamo dire che c è una qualche relazione tra una variabile (per esempio i valori pressori) e un altra (per esempio il consumo di frutta e verdura) Il quesito riguarda due variabili quantitative (o numeriche). Evidenziamo solo due aspetti della domanda: (i) C è un grado di associazione lineare o una correlazione lineare tra il consumo di verdura e i valori pressori (correlazione lineare) (ii) All aumentare del consumo di verdura, è possibile dire come variano i livelli pressori (regressione lineare) In (i) non esiste una priorità di una variabile rispetto all altra. Invece in (ii) si dà a priori un valore di dipendenza: i livelli pressori y dipendono dal consumo di frutta e verdura x (e non viceversa). Analizziamo quindi la dipendenza di una variabile (dipendente, y) da un altra (indipendente, x). Nel seguito ci concentriamo su (i). 2

Campioni bivariati di dati (statistica descrittiva) Spesso ci si aspetta che due variabili numeriche abbiano una qualche correlazione lineare una con l altra. Ad esempio, ci si può aspettare (almeno approssimativamente) che il peso di un individuo abbia una correlazione lineare con la sua altezza. I dati delle due variabili che consideriamo sono sotto forma di coppie di numeri (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) (campione bivariato di dimensione n). Ogni coppia di numeri è relativa ad un individuo. Un indice della forza dell associazione o correlazione lineare fra le due variabili è dato dal coefficiente (indice) di correlazione di Pearson: r = r XY = 1 n 1 = n xi x yi y i=1 s X s Y = cov(x, Y ) s X s Y n i=1 (x i x)(y i y) n i=1 (x n, i x) 2 i=1 (y i y) 2 3

Coefficiente di correlazione r (statistica descrittiva) n i=1 cov(x, Y ) = s XY = (x i x)(y i y) n 1 è detta covarianza campionaria; s X e s Y sono le dev. stand. campionarie dei campioni (x i ) e (y i ) rispettivamente, s X = n i=1 (x i x) 2, s Y = n 1 n i=1 (y i y) 2. n 1 Inoltre Quindi n i=1 x = x n i i=1, y = y i. n n n i=1 r = (x i x)(y i y) n i=1 (x n. i x) 2 i=1 (y i y) 2 Il quadrato di r si dice coefficiente di determinazione. 4

Coefficiente di correlazione e retta di regressione lineare Si verifica che vale sempre 1 r 1 Vale r = ±1 quando tutti i dati osservati (x i, y i ) sono allineati su una retta (perfetta correlazione lineare). Se r = ±1 i dati stanno esattamente sulla retta y = a + bx detta retta di regressione lineare. Accenniamo che risulta n i=1 b = i x)(y i y) n i=1 (x i x) 2 e a = y bx. (in particolare, r = 1 se b > 0, mentre r = 1 se b < 0). Se r è vicino a 0 i dati sono dispersi e non tendono a disporsi vicino alla retta di regressione (i dati sono approssimativamente scorrelati). Se r = 0 i dati sono scorrelati. 5

Osservazioni importanti su r ( 1 r 1) SCHEMA 1 0 r 0.25: debole o nessuna correlazione lineare (positiva) 2 0.25 < r < 0.75: correlazione lineare (positiva) discreta o moderata 3 r 0.75: correlazione lineare (positiva) tra molto buono ed eccellente Stesso schema per valori di r negativi. 1 Se r > 0 si ha correlazione lineare positiva; in media al crescere del valore x i (rispetto a x) cresce anche y i (rispetto a y) 2 Se r < 0 si ha correlazione lineare negativa; in media al crescere del valore x i (rispetto a x) decresce anche y i (rispetto a y). Si noti che se r = 0 allora al crescere del valore x i (rispetto a x) può corrispondere y i che decresce (rispetto a y) oppure y i che cresce (rispetto a y). 6

Diagrammi per la correlazione (statistica descrittiva) Possiamo visualizzare la possibile correlazione tra 2 variabili usando i grafici o diagrammi di dispersione (detti di scatterplot) I dati sotto forma di coppie (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) sono rappresentati con punti sul piano xy; la prima coordinata rappresenta il primo dato x i e la seconda coordinata il secondo dato y i. Possono esserci più coppie coincidenti. Si disegnano sul piano tutti i punti (x i, y i ) per vedere se essi tendono a disporsi secondo un andamento regolare. 7

Diagrammi I 8

Diagrammi II Consideriamo il consumo medio di frutta e verdura (grammi per giorno) e i valori di pressione diastolica; r = 0.01 il campione mostra che esiste una debolissima correlazione lineare positiva tra la pressione diastolica e il consumo medio di frutta e verdura. 9

Diagrammi III Consideriamo i valori di pressione arteriosa sistolica e diastolica; r = 0.75 il campione mostra che esiste una correlazione lineare positiva molto buona tra le variabili pressione sistolica e diastolica. 10

Coefficiente di correlazione in statistica inferenziale Il coefficiente di correlazione di Pearson nel caso di variabili casuali X e Y che intervengono in statistica inferenziale è indicato con ρ. Stiamo considerando due caratteri di una popolazione: un carattere della popolazione è rappresentato dalla variabile casuale X e l altro dalla variabile casuale Y. X µx ρ = ρ XY = E σ X Y µ Y σ Y dove E indica l attesa, µ X e µ Y sono le medie e σ X e σ Y sono le deviazioni standard (risp. di X e Y ). Vogliamo analizzare la relazione fra le due variabili. Non ci chiediamo se X influenzi Y o se Y influenzi X (relazione causa/effetto) ma se esiste una correlazione lineare tra le due variabili. Utilizzeremo un test di ipotesi opportuno. 11

Test di ipotesi Osserviamo che se X e Y sono indipendenti allora non vi e correlazione lineare tra di loro; in generale però non vale il viceversa. Il test statistico che faremo su ρ incognito (partendo da un r calcolato sul nostro campione (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n )) ci permetterà di verificare se vi è una correlazione lineare fra le variabili. L ipotesi nulla H 0 è che non ci sia alcuna correlazione lineare fra X e Y (osserviamo che ciò non esclude la possibilità che ci sia una relazione di altro tipo). Quindi H 0 : ρ = 0 mentre H A : ρ = 0 (test bilaterale). Sotto la condizione di normalità per (X,Y ) (o se n è sufficientemente grande) si prova che l ipotesi nulla H 0 implica che la variabile casuale n 2 r 1 r 2. è una variabile t n 2 di Student con n 2 gradi di libertà. 12

Regione di accettazione Quindi se vale H 0 si ha: t n 2 = r n 2 1 r 2. dove n i=1 r = (X i X )(Y i Y ) n i=1 (X n, i X ) 2 i=1 (Y i Y ) 2 indica la variabile aleatoria che assume valori n i=1 r = (x i x)(y i y) n i=1 (x n i x) 2 i=1 (y i y) 2 x = c ( x1, x2, x3, x4, x5 ) y = c ( y1, y2, y3, y4, y5 ) r = cor ( x, y) al variare del campione casuale estratto (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Fissato il livello di significatività α la regione di accettazione RA del test è RA = ( t n 2, α, t 2 n 2, α ). 2 dove P(t T n 2 > t n 2, α ) = α/2. 2 13

Intervallo di confidenza Se dal nostro campione risulta che ( ) t c = r 1 r 2 n 2 = r n 2 1 r 2 ( t n 2, α 2, t n 2, α 2 ) diciamo che non possiamo rifiutare H 0 al livello di significatività α ovvero che NON c è una correlazione lineare tra X e Y. n 2 Se r 1 r ( t 2 n 2, α, t 2 n 2, α ) rifiutiamo H 2 0. Non è difficile verificare che ( ) vale se e solo se 0 IC(ρ) = 1 r r t n 2, α ES(r), r+t 2 n 2,, α ES(r) 2 ES(r) = 2 n 2. ovvero se e solo se 0 appartiene all intervallo di confidenza del coefficiente ρ. 14

p-value (t n 2 è variabile di Student) Possiamo anche introdurre il p-value (usando la variabile di Student t n 2 ): n 2 P Tt n 2 r 1 r 2 = p 2, r > 0, n 2 mentre P Tt n 2 r 1 r 2 = p 2, r 0. se p α rifiutiamo H 0 se p > α non rifiutiamo H 0 Se p è molto piccolo (ovvero r n 2 1 r 2 è grande in valore assoluto, ovvero r 2 è vicino a 1) abbiamo una forte evidenza contro l ipotesi H 0 ovvero una forte evidenza a favore di una correlazione lineare tra X e Y. Un p-value vicino a 1 (che comporta un r vicino a 0) indica una forte evidenza a favore del fatto che X e Y NON sono correlate (ρ = 0). 15

Osservazioni finali sul coefficiente di correlazione Il coefficiente di correlazione quantifica solo la relazione lineare tra X e Y ; se X e Y hanno una relazione non lineare esso non fornisce una misura valida di questa relazione. Un alta correlazione tra due variabili non implica una relazione causa-effetto. Una variabile può influenzare o essere causa delle variazioni dell altra, ma è anche possibile che qualche altra variabile o un intera moltitudine di altre variabili possa influenzare le due che sono tra loro correlate. Pertanto X e Y possono essere correlate, ma semplicemente perchè ciascuna di esse è fortemente influenzata da una terza variabile Z. 16

Esempio (trigliceridi e colesterolo) Esempio I E stata calcolata un alta correlazione positiva tra il numero di nidi di cicogna ed il numero di nascite nell Europa nord occidentale. Le osservazioni sono state rilevate al variare del tempo (1800-1900). L interpretazione più sensata che si può dare è che gli aumenti di popolazione comportano un aumento nel numero delle costruzioni che quindi forniscono più spazio per la nidificazione delle cicogne. Esempio II In uno studio condotto in Italia, 10 pazienti affetti da ipertrigliceridemia sono stati sottoposti ad una dieta povera di grassi e ricca di carboidrati. Prima della dieta, sono state registrate per ciascun soggetto le misurazioni di colesterolo e di trigliceridi. 17

Esempio (cont.) x = c ( 5.12, 6.18, 6.77, 6.65, 6.36, 5.90, 5.48, 6.02, 10.34, 8.51 ) y = c ( 2.30, 2.54, 2.95, 3.77, 4.18, 5.31, 5.53, 8.83, 9.48, 14.20 ) Calcolare il coefficiente di correlazione di Pearson r del campione ed effettuare un test per la correlazione lineare con α = 0.05. 18

SOLUZIONE (I parte) Sia X la variabile casuale relativa al livello di colesterolo e Y la variabile casuale relativa al livello di trigliceridi, le medie campionarie sono: 5.12 + 6.18 + 6.77 + 6.65 + 6.36 + 5.90 + 5.48 + 6.02 + 10.34 + 8.51 x = = 10 = 6.73 2.30 + 2.54 + 2.95 + 3.77 + 4.18 + 5.31 + 5.53 + 8.83 + 9.48 + 14.20 y = = 10 = 5.91. Allora: x i x y i y -1.61-3.61-0.55-3.37 0.04-2.96-0.08-2.14-0.37-1.73-0.83-0.60-1.25-0.38-0.71 2.92 3.61 3.57 1.78 8.29 19

SOLUZIONE (II parte) 10 i=1 10 i=1 10 i=1 (x i x) 2 = 21.99 (y i y) 2 = 131.44 (x i x)(y i y) = 34.90. Possiamo calcolare il coefficiente di correlazione del campione: r = 10 10 i=1 (x i x) 2 i=1 (x i x)(y i y) 10 i=1 (y i y) 2 = 34.90 21.99 131.44 = 0.65. r = cor ( x, y ) 20

SOLUZIONE (III parte) L ipotesi nulla è H 0 : ρ = 0 ovvvero non esiste una correlazione lineare tra le due variabili (livello di colesterolo e livello di trigliceridi). Mentre l ipotesi alternativa è H A : ρ = 0. Usiamo un t-test con 10 2 = 8 gradi di libertà. Prima calcoliamo t c = r t = r * sqrt ( 8 / (1 - r^2) ) n 2 1 r 2 = 0.65 8 1 0.65 2 = 3.49. Analizzando la tabella della distribuzione di Student osserviamo che il valore critico di t per un test bilaterale con α = 0.05 e 8 gradi di libertà è t 8,0.025 = 2.306. 21

SOLUZIONE (IV parte) p-val = 2 * ( 1 - pt (t, df = 8 ) ) = 0.0420443 α/2 α/2 p/2 p/2 t t α t α =2.306 t=3.49 Conclusione. Osserviamo che t c = 3.49 RA = ( 2.306, 2.306) dunque possiamo rifiutare H 0. In modo equivalente, il valore del p-value è inferiore ad α = 0.05: p < α. Rifiutiamo l ipotesi nulla e concludiamo che esiste una correlazione lineare tra le due variabili (livello di colesterolo e livello di trigliceridi). 22

Scorciatoia x = c ( 5.12, 6.18, 6.77, 6.65, 6.36, 5.90, 5.48, 6.02, 10.34, 8.51 ) y = c ( 2.30, 2.54, 2.95, 3.77, 4.18, 5.31, 5.53, 8.83, 9.48, 14.20 ) cor.test( x, y ) Out[1] Pearson's product-moment correlation data: x and y t = 2.417, df = 8, p-value = 0.04204 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.03389066 0.90790974 sample estimates: cor 0.6496543

I Esempio di prova d esame Il coefficiente di correlazione di Pearson risultante dall analisi delle variabili Età e Pulsazioni del cuore al minuto per un campione di riferimento è pari a r = 0.16 con un p-value corrispondente pari a 0.13. Come si interpreta questo risultato Nell analisi statistica si utilizza un t-test oppure uno z-test SOLUZIONE In base al nostro schema il coefficiente r = 0.16 indica una debole correlazione lineare positiva tra le variabili. L ipotesi nulla H 0 del test è che la variabile Età e la variabile Pulsazioni al minuto non siano correlate. Se fissiamo il livello di significatività α = 0.05 essendo il p-value (pari a 0.13) maggiore di α NON possiamo rifiutare l ipotesi nulla; quindi in base al test non esiste una correlazione lineare tra le due variabili. Nell analisi si utilizza il t-test (precisamente, se abbiamo un campione di n individui utilizziamo la variabile di Student t n 2 con n 2 gradi di libertà). 23

II Esempio di prova d esame Il coefficiente di correlazione di Pearson risultante dall analisi statistica di un campione per le variabili Età in cui il soggetto ha iniziato a fumare e Durata media di una sigaretta è pari a r = 0.76, con un p-value corrispondente pari a 0.03. Come si interpreta questo risultato SOLUZIONE Il coefficiente r = 0.76 indica una correlazione lineare negativa molto buona tra le variabili. L ipotesi nulla H 0 è che la variabile Età in cui il soggetto ha iniziato a fumare e la variabile Durata media di una sigaretta non siano correlate. Se fissiamo il livello di significatività α = 0.05 essendo il p-value pari a 0.03 minore di 0.05 possiamo rifiutare l ipotesi nulla e dire che esiste una correlazione lineare tra le due variabili. 24