LA CORRELAZIONE LINEARE

Похожие документы

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE

Relazioni statistiche: regressione e correlazione

Il coefficiente di correlazione di Spearman per ranghi

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Dott.ssa Caterina Gurrieri

Il concetto di valore medio in generale

Misure della dispersione o della variabilità

Il concetto di correlazione

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

Prova di autovalutazione Prof. Roberta Siciliano

Disegni di Ricerca e Analisi dei Dati in Psicologia Clinica. Indici di Affidabilità

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

LA STATISTICA NEI TEST INVALSI

Metodi statistici per le ricerche di mercato

UNIVERSITÀ DEGLI STUDI DI TERAMO

Analisi delle relazioni tra due caratteri

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

1 Appunti a cura di prof.ssa MINA Maria Letizia integrati e pubblicati in data 12/10/10

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

1. Distribuzioni campionarie

SOLUZIONI D = (-1,+ ).

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

La distribuzione Normale. La distribuzione Normale

Elementi di Psicometria con Laboratorio di SPSS 1

1 Associazione tra variabili quantitative COVARIANZA E CORRELAZIONE

Metodi Matematici e Informatici per la Biologia Maggio 2010

13. Campi vettoriali

Abbiamo costruito il grafico delle sst in funzione del tempo (dal 1880 al 1995).

Indici (Statistiche) che esprimono le caratteristiche di simmetria e

Basi di matematica per il corso di micro

Potenza dello studio e dimensione campionaria. Laurea in Medicina e Chirurgia - Statistica medica 1

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

Lezione n. 2 (a cura di Chiara Rossi)

SOLUZIONE DEL PROBLEMA 1 TEMA DI MATEMATICA ESAME DI STATO 2015

FONDAMENTI DI PSICOMETRIA - 8 CFU

Corso di. Dott.ssa Donatella Cocca

Dimensione di uno Spazio vettoriale

DEFINIZIONE La statistica è una scienza che si propone di definire con dei numeri cose che non si possono numerare ne misurare.

Il simbolo. è è = = = In simboli: Sia un numero naturale diverso da zero, il radicale. Il radicale. esiste. esiste 0 Il radicale

RISCHIO E CAPITAL BUDGETING

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

Correzione dell Esame di Statistica Descrittiva (Mod. B) 1 Appello - 28 Marzo 2007 Facoltà di Astronomia

T DI STUDENT Quando si vogliono confrontare solo due medie, si può utilizzare il test t di Student La formula per calcolare il t è la seguente:

4.1. La migliore relazione affettiva con la figura di riferimento principale

ANALISI DI CORRELAZIONE

Facciamo qualche precisazione

Misure finanziarie del rendimento: il Van

Misure finanziarie del rendimento: il Van

Capitolo 12 La regressione lineare semplice

Capitolo 2 Distribuzioni di frequenza

19txtI_BORRA_ /11/13 10:52 Pagina 449 TAVOLE STATISTICHE

SEGNO DELLA FUNZIONE. Anche in questo caso, per lo studio del segno della funzione, occorre risolvere la disequazione: y > 0 Ne segue:

VERIFICA DELLE IPOTESI

3. Confronto tra medie di due campioni indipendenti o appaiati

2 + (σ2 - ρσ 1 ) 2 > 0 [da -1 ρ 1] b = (σ ρσ1 σ 2 ) = (σ 1

2. Leggi finanziarie di capitalizzazione

La categoria «ES» presenta (di solito) gli stessi comandi

LE FUNZIONI A DUE VARIABILI

I punteggi zeta e la distribuzione normale

SPC e distribuzione normale con Access

E naturale chiedersi alcune cose sulla media campionaria x n

Funzioni inverse Simmetrie rispetto alla bisettrice dei quadranti dispari. Consideriamo la trasformazione descritta dalle equazioni : = y

Indici di dispersione

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

MINIMI QUADRATI. REGRESSIONE LINEARE

LA STATISTICA NEI TEST DI AMMISSIONE ALL UNIVERSITÀ

Slide Cerbara parte1 5. Le distribuzioni teoriche

INTEGRALI DEFINITI. Tale superficie viene detta trapezoide e la misura della sua area si ottiene utilizzando il calcolo di un integrale definito.

Domande a scelta multipla 1

Laboratorio di Didattica dell analisi: Analisi a priori sulla funzione valore assoluto

(a cura di Francesca Godioli)

Corso di Psicometria Progredito

4 3 4 = 4 x x x 10 0 aaa

Rapporto dal Questionari Insegnanti

COMPLEMENTI SULLE LEGGI FINANZIARIE

STATISTICA IX lezione

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

Calcolo del Valore Attuale Netto (VAN)

Punteggi. Punteggi grezzi, norme e percentili

Transitori del primo ordine

STUDIO DI UNA FUNZIONE

a) Il campo di esistenza di f(x) è dato da 2x 0, ovvero x 0. Il grafico di f(x) è quello di una iperbole -1 1

Studio di funzioni ( )

ESERCIZI SVOLTI Ricerca del dominio di funzioni razionali fratte e irrazionali. novembre 2009

Lezione Introduzione

Elementi di Psicometria con Laboratorio di SPSS 1

Facoltà di Psicologia Università di Padova Anno Accademico

Capitolo 13: L offerta dell impresa e il surplus del produttore

Il metodo della regressione

SCHEDA DI RECUPERO SUI NUMERI RELATIVI

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

La variabile casuale Binomiale

Metodi statistici per l economia (Prof. Capitanio) Slide n. 9. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

LEZIONE 3. Ing. Andrea Ghedi AA 2009/2010. Ing. Andrea Ghedi AA 2009/2010

FUNZIONI ELEMENTARI - ESERCIZI SVOLTI

FUNZIONI / ESERCIZI SVOLTI

Principi generali. Vercelli 9-10 dicembre G. Bartolozzi - Firenze. Il Pediatra di famiglia e gli esami di laboratorio ASL Vercelli

Транскрипт:

LA CORRELAZIONE LINEARE La correlazione indica la tendenza che hanno due variabili (X e Y) a variare insieme, ovvero, a covariare. Ad esempio, si può supporre che vi sia una relazione tra l insoddisfazione della madre e l aggressività del bambino, nel senso che all aumentare dell una aumenta anche l altra. Quando si parla di correlazione bisogna prendere in considerazione due aspetti: il tipo di relazione esistente tra due variabili e la forma della relazione.

Per quanto riguarda il tipo di relazione, essa può essere lineare o non lineare La relazione è di tipo lineare se, rappresentata su assi cartesiane, si avvicina alla forma di una retta. In questo caso, all aumentare (o al diminuire) di X aumenta (diminuisce) Y. Ad esempio, all aumentare dell altezza di una persona aumenta anche il suo peso.

La relazione è di tipo non lineare, se rappresentata su assi cartesiane, ha un andamento curvilineo (parabola o iperbole). In questo caso a livelli bassi e alti di X corrispondono livelli bassi di Y; mentre a livelli intermedi di X corrispondono livelli alti di Y. Ad esempio, il tempo impiegato per risolvere un problema è alto quando l ansia è bassa o alta, è elevato quando l ansia ha livelli medi.

Per quanto riguarda la forma della relazione, si distinguono l entità e la direzione. La direzione può essere: positiva, se all aumentare di una variabile aumenta anche l altra. 00 90 80 0 0 0 0 30 Ad esempio, all aumentare dell identificazione con l ingroup aumenta anche il pregiudizio. 0 0 0 0 0 0 30 0 0 0 0 80 90 00

La direzione è negativa se all aumentare di una variabile diminuisce l atra. 00 90 80 0 0 0 0 30 Ad esempio, all aumentare della qualità del contatto, diminuisce il pregiudizio nei confronti dell outgroup. 0 0 0 0 0 0 30 0 0 0 0 80 90 00

L entità si riferisce alla forza della relazione esistente tra due variabili. Quanto più i punteggi sono raggruppati attorno ad una retta, tanto più forte è la relazione tra due variabili. 00 90 80 0 0 0 Ad esempio, quanto più elevata è la temperatura, tanto più si suda. 0 30 0 0 0 0 0 0 30 0 0 0 0 80 90 00

Se i punteggi sono dispersi in maniera uniforme, invece, tra le due variabili non esiste alcuna relazione. Ad esempio, non esiste alcuna relazione tra la temperatura e il livello di identificazione con l ingroup.

Per esprimere la relazione esistente tra due variabili, in termini entità e direzione, si utilizza il coefficiente di correlazione. Tale coefficiente è standardizzato e può assumere valori che vanno da.00 (correlazione perfetta negativa) e.00 (correlazione perfetta positiva). Una correlazione uguale a 0 indica che tra le due variabili non vi è alcuna relazione. Nota. La correlazione non include il concetto di causa-effetto, ma solo quello di rapporto tra variabili. La correlazione ci permette di affermare che tra due variabili c è una relazione sistematica, ma non che una causa l altra.

Esistono vari tipi di coefficienti di correlazione a seconda del tipo di scala della variabile. Per le scale a intervalli o rapporti equivalenti si usa il coefficiente r di Pearson. Per le scale ordinali si usano il coefficiente r s di Spearman o il coefficiente tau di Kendall. Per le scale categoriali (dicotomiche) si usano il coefficiente r phi o il coefficiente r pbis.

Il coefficiente di correlazione r di Pearson Tale coefficiente serve a misurare la correlazione tra variabili a intervalli o a rapporti equivalenti. È dato dalla somma dei prodotti dei punteggi standardizzati delle due variabili (z x z y ) diviso il numero dei soggetti (o delle osservazioni). r = Σ z x z y Tale coefficiente può assumere valori che vanno da.00 (tra le due variabili vi è una correlazione perfetta negativa) e +.00 (tra le due variabili vi è una correlazione perfetta positiva). Una correlazione uguale a 0 indica che tra le due variabili non vi è alcuna relazione. N

Per effettuare i calcoli si utilizza la seguente formula, derivata dalla risoluzione della precedente. r = " " " N XY! X Y " " " " [ N X! ( X ) ][ N Y! ( Y ) ] Tale coefficiente può assumere valori che vanno da.00 (tra le due variabili vi è una correlazione perfetta negativa) e +.00 (tra le due variabili vi è una correlazione perfetta positiva). Una correlazione uguale a 0 indica che tra le due variabili non vi è alcuna relazione. Per stabilire se una correlazione è significativa, si fa riferimento alla distribuzione campionaria di r, tabulata in apposite tavole, in corrispondenza dei gradi di libertà (N ) del coefficiente.

Esempio. Verificare l esistenza di una relazione tra l identificazione con l ingroup e il pregiudizio, nei seguenti soggetti. Soggetto 3 Identificazione 0 3 Pregiudizio 8

Ss X Y X Y XY 0 00 9 0 0 3 8 0 3 9 3 8 8 Σ 30 8 90 3

In questo modo otteniamo: ΣX = ΣY = 30 ΣX = 8 ΣY = 90 ΣXY = 3 Applichiamo la formula: r = *3! *30 (*8! )(*90! 30 )

r = 880! 80 *0 0 r = =. 0.3 Per stabilire se la correlazione è significativa, calcoliamo il t, utilizzando la seguente formula. t = r! r n! t = 0.3! 0.3! t = 0.3 0.88 3 0.3 t = = 0. 0.

Confrontiamo il valore di t ottenuto con il valore critico relativo a n g.d.l., ovvero a 3 g.d.l. Nota. Bisogna tenere in considerazione l ipotesi bidirezionale. Il valore ottenuto (0.) non supera il valore critico (3.8), quindi, la relazione tra identificazione e pregiudizio non è significativa (r = 0.3, ns).

Il coefficiente di determinazione r Il coefficiente di determinazione misura l ammontare di variabilità di una variabile spiegato dalla sua relazione con un altra variabile. Nel caso specifico della correlazione il coefficiente r indica la percentuale di varianza che hanno in comune due variabili. Nell esempio precedente, abbiamo trovato un r pari a 0.3, da cui ricaviamo r = 0.3 = 0.. Ovvero, abbiamo che l identificazione e il pregiudizio condividono il % di variabilita. % varianza spiegata varianza non spiegata 88%

Esercizio. Verificare se esiste una relazione tra l altezza e il peso e quale è l ammontare della variabilità comune delle due variabili. Soggetto 3 Altezza 0 9 Peso 8 3 0 3

R = 0.8, p <.0 [t () = 3.9, p <.0] R = 0., % di varianza comune

Il coefficiente r s di Spearman Tale coefficiente serve per misurare la correlazione tra due variabili di tipo ordinale. Ad esempio, un ricercatore potrebbe chiedere ad un insegnante di mettere in ordine di rango gli studenti per profitto (dal più bravo al meno bravo) e per socievolezza (dal più socievole al meno socievole) e vedere, quindi, se tra le due variabili esiste una relazione.

Il coefficiente r s di Spearman è un approssimazione del coefficiente di Pearson e la formula è la seguente: r s = Σ d i N * (N ) In cui d i è la differenza tra i ranghi delle due variabili per il soggetto i-esimo. La relazione tra X e Y è espressa tenendo conto delle concordanti o differenti posizioni di ciascun soggetto nelle due graduatorie.

Esempio. I seguenti dati si riferiscono a due graduatorie, relative al profitto e alla socievolezza. Ss 3 Rango Profitto 3 Rango Voti..

Ss Rango X Rango Y d d... 3 3. 0. 0. - 9 - - Da dati calcoli, otteniamo Σd = 9.

Applicando la formula otteniamo: *9. r s =! =! =! 0.3 = 0. *(9! ) 33 Per la significatività di r s si fa riferimento alle apposite tavole di r s con N- gdl. In questo caso, r s = 0., è inferiore al valore critico (0.), quindi, non vi è alcuna relazione tra le due variabili.

Anche r s può assumere valori compresi tra.00 e.00, con gli stessi significati visti per r. È evidente che, se i soggetti occupassero esattamente le stesse posizioni nelle due graduatorie, per X e per Y, le differenze d sarebbero tutte uguali a 0 e r s sarebbe uguale a.00, massima correlazione positiva. Se, invece, si verificasse una corrispondenza perfetta tra posizioni opposte in X e Y, r s risulterebbe uguale a.00. Il coefficiente r s ha il difetto di dare una stima per eccesso della correlazione tra X e Y se, per almeno una variabile, si riscontrano molti ranghi uguali.

Esercizio. Verificare l esistenza di una relazione tra l ordine di arrivo in una gara su 00m e l ordine di arrivo in una gara su 000m. Ss 3 8 9 0 r s = 0., ns Rango 00 9 3 0 8 Rango 000 3 0 9 8

Il coefficiente tau di Kendall Anche questo coefficiente serve per misurare la correlazione tra due variabili di tipo ordinale, ma è esente dal difetto del coefficiente r s. La formula è la seguente: tau = S 0. * N * (N )

In cui S si ottiene come somma nel modo seguente. Dati i seguenti ranghi relativi a soggetti, su due variabili. Soggetto A B C D E F G Rango X 3 Rango Y..

Prima si mettono in graduatoria i valori di X e si considerano i corrispondenti valori di Y. Soggetto A B C D E F G Rango X 3 Rango Y..

Quindi, si confronta ciascun valore di Y con tutti quelli che seguono e si segna ogni volta che i due ranghi confrontati si trovano in ordine corretto rispetto alla graduatoria delle Y, si segna, invece, - ogni volta che si trovano in ordine errato. Ss X Y E A C F B G D E E / - - - A C F B G D 3.. A C F B G H 0 - - /

S è la somma algebrica dei valori e assegnati. Il denominatore è il valore massimo di S che si otterrebbe se tutti gli Y si trovassero nell ordine corretto. E A C F B G D E / - - - A C 0 F - B G - H / S = x () + x (-) = = 0

Applicando la formula per il calcolo di tau si ottiene: tau = 0 0.**(! ) 0 tau = = 0.8 Confrontando il valore ottenuto, con il valore critico di significatività, ottenuto dall incrocio tra il valore di S e la numerosità (in questo caso 0 e ), si trova che tau = 0.8, non è significativo.

Anche tau può assumere valori compresi tra.00 e.00, con gli stessi significati visti per r. Nota. È possibile utilizzare i coefficienti di correlazione per ranghi su scale a intervalli o rapporti equivalenti nei casi in cui non è possibile applicare r di Pearson. Per fare questo bisogna trasformare il livello di misura della variabile, calcolando gli ordini di rango sui punteggi originali. L ordine di rango è, comunque, meno sensibile della misura vera e propria. Inoltre, le statistiche basate sui ranghi sono meno potenti di quelle basate su misure continue.

Esercizio. Verificare se esiste una relazione tra la prestazione ottenuta ad un compito di matematica e quella ottenuta ad un compito di fisica, entrambe espresse su scala ordinale. Soggetto Matematica Fisica A 3 B C D 8 0 E 3 F G 0 9 H I L 9 8 Tau = 0.8, p <.0