ANALISI DI CORRELAZIONE



Documenti analoghi
Statistica. Lezione 6

STATISTICA IX lezione

Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 14: Analisi della varianza (ANOVA)

Statistiche campionarie

VERIFICA DELLE IPOTESI

STATISTICA GIUSEPPE DE NICOLAO. Dipartimento di Informatica e Sistemistica Università di Pavia

LA CORRELAZIONE LINEARE

E naturale chiedersi alcune cose sulla media campionaria x n

Analisi di dati di frequenza

3. Confronto tra medie di due campioni indipendenti o appaiati

Elementi di Psicometria con Laboratorio di SPSS 1

Relazioni statistiche: regressione e correlazione

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

Tasso di interesse e capitalizzazione

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Lezione n. 2 (a cura di Chiara Rossi)

Prova di autovalutazione Prof. Roberta Siciliano


1 Associazione tra variabili quantitative COVARIANZA E CORRELAZIONE

Metodi Matematici e Informatici per la Biologia Maggio 2010

Corso di Psicometria Progredito

Capitolo 12 La regressione lineare semplice

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Calcolo delle probabilità

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

1a) Calcolare gli estremi dell intervallo di confidenza per µ al 90% in corrispondenza del campione osservato.

4. Confronto tra medie di tre o più campioni indipendenti

Esercitazione #5 di Statistica. Test ed Intervalli di Confidenza (per una popolazione)

Facoltà di Psicologia Università di Padova Anno Accademico

Esercizi test ipotesi. Prof. Raffaella Folgieri aa 2009/2010

1. Distribuzioni campionarie

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Facciamo qualche precisazione

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

I ESERCITAZIONE. Gruppo I 100 individui. Trattamento I Nuovo Farmaco. Osservazione degli effetti sul raffreddore. Assegnazione casuale

L EFFICACIA DELLE MISURE DI POLITICA ATTIVA DEL LAVORO REALIZZATE IN PROVINCIA DI TORINO NEL

Indici di dispersione

Corso di Psicometria Progredito

PROBABILITA CONDIZIONALE

La variabile casuale Binomiale

Il concetto di valore medio in generale

Analisi dei residui. Test Esatto di Fisher. Differenza fra proporzioni

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

LEZIONE n. 5 (a cura di Antonio Di Marco)

Test statistici di verifica di ipotesi

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 7

PROBABILITA. Sono esempi di fenomeni la cui realizzazione non è certa a priori e vengono per questo detti eventi aleatori (dal latino alea, dado)

Il confronto fra proporzioni

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

Un gioco con tre dadi

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Relazioni tra variabili

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

Introduzione alle relazioni multivariate. Introduzione alle relazioni multivariate

Introduzione all Inferenza Statistica

Prof.ssa Paola Vicard

ANALISI DELLE FREQUENZE: IL TEST CHI 2

6. Modelli statistici: analisi della regressione lineare

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Elementi di Psicometria con Laboratorio di SPSS 1

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

LA STATISTICA NEI TEST INVALSI

Inferenza statistica. Statistica medica 1

Temi di Esame a.a Statistica - CLEF

LA DISTRIBUZIONE DI PROBABILITÀ DEI RITORNI AZIONARI FUTURI SARÀ LA MEDESIMA DEL PASSATO?

Statistica inferenziale

età sesso luogo-abitazione scuola superiore esperienza insegnamento

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

Strumenti informatici 13.1

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

Statistica. Esercitazione 3 5 maggio 2010 Serie storiche. Connessione e indipendenza statistica

R - Esercitazione 5. Lorenzo Di Biagio dibiagio@mat.uniroma3.it. Lunedì 2 Dicembre Università Roma Tre

Verifica di ipotesi e intervalli di confidenza nella regressione multipla

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 6

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi :

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

ESAME DI STATISTICA Nome: Cognome: Matricola:

Disegni di Ricerca e Analisi dei Dati in Psicologia Clinica. Indici di Affidabilità

5. IL PC E INTERNET NELLE DIVERSE TIPOLOGIE FAMILIARI

IL SOFTWARE EXCEL 4 I GRAFICI

Tema A Se due eventi A e B sono indipendenti e tali che P (A) = 1/2 e P (B) = 2/3, si può certamente concludere che

Università del Piemonte Orientale. Corsi di Laurea Triennale di area tecnica. Corso di Statistica Medica

Corso di Laurea in Ingegneria Informatica e Automatica (A-O) Università di Roma La Sapienza

ANALISI DELLA VARIANZA A PIU CRITERI DI CLASSIFICAZIONE

Elementi di Psicometria con Laboratorio di SPSS 1

Misure finanziarie del rendimento: il Van

STATISTICA INFERENZIALE PER VARIABILI QUALITATIVE

11. Analisi statistica degli eventi idrologici estremi

STATISTICA DESCRITTIVA UNIVARIATA

Excel Terza parte. Excel 2003

Metodologia per l analisi dei dati sperimentali L analisi di studi con variabili di risposta multiple: Regressione multipla

Soluzioni degli Esercizi del Parziale del 30/06/201 (Ippoliti-Fontanella-Valentini)

Misure finanziarie del rendimento: il Van

INTRODUZIONE AL DESIGN OF EXPERIMENTS (Parte 1)

Transcript:

ANALISI DI CORRELAZIONE Esempio: Dati raccolti da n = 129 studenti di Pavia (A.A. 21/2) Altezza (cm) Peso (Kg) Voto Algebra e Geometria Voto Fisica I Valutare la correlazione delle seguenti coppie: Peso - Altezza Algebra e Geometria - Fisica I Peso - Algebra e Geometria

Innanzi tutto, esaminiamo gli scatter plot: 1 129 Pavia students 9 8 weight 7 6 5 4 16 17 18 19 2 height 32 3 28 fisica 1 26 24 22 2 18 15 2 25 3 35 algebra & geometria algebra & geometria 32 3 28 26 24 22 2 18 4 6 8 1 weight Correlazione 2

A prima vista si nota che: Chiara correlazione positiva tra peso e altezza Leggera correlazione positiva tra Algebra e Fisica Dubbia correlazione negativa (incorrelazione?) tra peso e Geometria. Indice quantitativo di correlazione: Coefficiente di correlazione r XY := Cov[X,Y ] Var[X ] Var[Y ] = σ XY σ X σ Y Per stimarlo, facciamo ricorso alla Correlazione campionaria: R XY := S xy S x S y S xy := n i=1 (x i - X )(y i - Ȳ) n - 1 Nota: Se V = ax+b, W = cy+d: r VW = r XY R VW = R XY Correlazione 3

Tabella: Medie, varianze, SD variabile media varianza SD altezza 176.3 6. 7.8 peso 67.7 111.7 1.6 algebra 24. 17.2 4.1 fisica I 22.6 16. 4. Tabella: Correlazioni stimate variabili correlazione campionaria altezza-peso.67 algebra-fisica.38 peso-algebra -.25 Correlazione 4

Commenti: Come previsto, c'è una buona correlazione tra altezza e peso. La correlazione non molto alta tra algebra e fisica significa che gli esami sono una "lotteria"? La correlazione negativa tra peso e algebra significa che perdere peso aiuta ad alzare la media? Problema: come decidere se la correlazione è "significativamente diversa da zero"? Approccio: Prendere le parti dell'avvocato del diavolo, fare l'ipotesi nulla che la coppia di variabili sia incorrelata (r XY = ) e verificare se è sufficientemente screditata dai dati. Per verificare se l'ipotesi nulla è screditata, ho bisogno di una "distribuzione di riferimento". Correlazione 5

Esperimento: (che mostra in che modo la distribuzione di riferimento di R xy dipende dalla numerosità n del campione) 1) Usando un generatore di numeri casuali estraggo n coppie di variabili casuali indipendenti ( r XY = ), distribuite entrambe come normali standard 2) Calcolo la correlazione campionaria R xy. 3) Ripeto l'estrazione ed il calcolo di R xy altre 999 volte. 4) Costruisco l'istogramma delle 1 correlazioni campionarie R xy così ottenute L'istogramma approssima la distribuzione di riferimento per R xy sotto l'ipotesi nulla che le variabili siano incorrelate Correlazione 6

Distribuzioni di riferimento approssimate per diverse numerosità n del campione: 3 n =5 3 n =1 25 25 2 2 15 15 1 1 5 5-1 -.5.5 1-1 -.5.5 1 3 n =2 3 n =3 25 25 2 2 15 15 1 1 5 5-1 -.5.5 1-1 -.5.5 1 3 n =6 3 n =12 25 25 2 2 15 15 1 1 5 5-1 -.5.5 1 correlation coeff. -1 -.5.5 1 correlation coeff. Correlazione 7

Osservazione: Se n non è abbastanza grande risulta relativamente facile ottenere valori di R xy molto maggiori di zero anche se le variabili sono incorrelate. Esempio: Se n 2, un valore R xy =.4 non è una buona garanzia che esista correlazione (a differenza di quanto accade per n 6). Diamo ora una valutazione quantitativa della significatività di R xy. Proprietà: Si considerino n coppie (x,y) dove x ed y sono congiuntamente gaussiane e indipendenti. Allora: t = R xy 2 n - 2 = t n-2 1 - R xy (t n-2 : t di Student a n-2 gradi di libertà) Test di correlazione (significatività α): Avendo calcolato t t > t α/2 respingo l'ipotesi nulla R xy è significativamente t t α/2 non respingo l'ipotesi nulla R xy non è significativamente Correlazione 8

Tabella: Valori di t α/2 P(t n-1 t α/2 ) = α/2 ovvero P( t n-1 t α/2 ) = α n α =.2 α =.1 α=.5 1 3.78 6.314 12.76 2 1.886 2.92 4.33 3 1.638 2.353 3.182 4 1.533 2.132 2.776 5 1.476 2.15 2.571 6 1.44 1.943 2.447 7 1.415 1.895 2.365 8 1.397 1.86 2.36 9 1.383 1.833 2.262 1 1.372 1.812 2.228 11 1.363 1.796 2.21 12 1.356 1.782 2.179 13 1.35 1.771 2.16 14 1.345 1.761 2.145 15 1.341 1.753 2.131 16 1.337 1.746 2.12 17 1.333 1.74 2.11 18 1.33 1.734 2.11 19 1.328 1.729 2.93 2 1.325 1.725 2.86 21 1.323 1.721 2.8 22 1.321 1.717 2.74 23 1.319 1.714 2.69 24 1.318 1.711 2.64 25 1.316 1.78 2.6 26 1.315 1.76 2.56 27 1.314 1.73 2.52 28 1.313 1.71 2.48 29 1.311 1.699 2.45 3 1.31 1.697 2.42 4 1.33 1.684 2.21 6 1.296 1.671 2. 12 1.289 1.658 1.98 1.282 1.645 1.96 Correlazione 9

Metodo più comodo: Se fisso α = 5% posso calcolare i valori critici di R xy per diversi valori di n. Tabella: Valori di r 2.5% R xy è significativamente se R xy > r 2.5% n r 2.5% 3.997 4.95 5.88 6.81 7.75 8.71 9.67 1.63 11.6 12.58 13.55 14.53 15.51 16.5 17.48 18.47 19.46 2.44 21.43 22.42 23.41 24.4 25.4 26.39 27.38 28.37 29.37 3.36 6.25 12.18 Correlazione 1

Torniamo all'esempio: Tabella: Correlazioni stimate (n = 129) variabili correlaz. camp. altezza-peso.67 significativamente algebra-fisica.38 significativamente peso-algebra -.25 significativamente! Domanda: Cosa c'entra il peso con il voto di Algebra e Geometria?? Correlazione 11

"BEWARE THE LURKING VARIABLE!" Attenzione alla variabile nascosta ("in agguato")! Il fatto che due variabili siano correlate non implica l'esistenza di una relazione causale: Esempio #1: numero di scarpe - capacità di lettura. Esempio #2: titolo di studio - durata disoccupazione negli USA durante la Grande Depressione In molti casi la correlazione può essere spiegata perché entrambe la variabili sono correlate con una terza variable (the lurking variable). Esempio #1: l'età. Esempio #2: ancora l'età perché i giovani erano più istruiti. Bisogna stare molto attenti, specialmente quando la popolazione è composta di sottopopolazioni. Nel nostro caso gli studenti si suddividono in maschi e femmine Correlazione 12

Rivediamo lo scatter plot distinguendo maschi e femmine: (n M = 14, n F = 25) 32 male female 3 28 algebra & geometria 26 24 22 2 18 4 5 6 7 8 9 1 weight Congettura: C'è correlazione tra peso e algebra perché le femmine hanno (mediamente) voti più alti e (mediamente) pesano di meno Correlazione 13

Istogrammi 3 male 25 male 25 2 2 15 1 15 1 5 5 4 6 8 1 weight 1 2 3 4 algebra & geometria 8 female 8 female 6 6 4 4 2 2 4 6 8 1 weight 1 2 3 4 algebra & geometria Correlazione 14

Tabella: Medie, varianze, SD variabile media varianza SD peso 53.9 38.2 6.2 (femmine) peso 71.1 72.3 8.5 (maschi) algebra 26.1 17.7 4.2 (femmine) algebra 23.5 15.9 4. (maschi) Tabella: Correlazioni stimate variabili correlazione campionaria peso-algebra -.17 (femmine) peso-algebra -.11 (maschi) Correlazione 15

Commenti: Analizzando separatamente le due sottopopolazioni (maschi e femmine) la correlazione peso-algebra torna in entrambi i casi sotto il limite di significatività. E' ragionevole pensare che il sesso funga da variabile nascosta. Per qualche ragione, le femmine sembrano ottenere (mediamente) voti più alti in algebra rispetto ai maschi. Come valutare la significatività della superiorità femminile? 1) Tecniche per testare le differenze tra due gruppi. 2) Vedi più avanti ("Valutare l'influenza di una variabile"). Correlazione 16

Considerazioni finali sull'analisi di correlazione Attenzione! Gli outlier possono falsare le correlazioni. 5 4 3 2 1 2 4 6 R xy =.8 Attenzione! Ci sono legami tra le variabili che non sono rivelati dal coefficiente di correlazione. 25 2 15 1 5 5 1 R xy = 3.774e-17 Correlazione 17

Morale: Il coefficiente di correlazione misura l'associazione lineare e non l'associazione in generale. In generale il suo uso è appropriato quando lo scatter plot è circa ovale. I migliori risultati si hanno per variabili congiuntamente gaussiane (per le quali incorrelazione indipendenza). Correlazione 18