Dott.ssa Caterina Gurrieri



Documenti analoghi
Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 1

Relazioni statistiche: regressione e correlazione

Prova di autovalutazione Prof. Roberta Siciliano

LA CORRELAZIONE LINEARE

Il concetto di valore medio in generale

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

Il coefficiente di correlazione di Spearman per ranghi

Analisi delle relazioni tra due caratteri

Capitolo 2 Distribuzioni di frequenza

1 Associazione tra variabili quantitative COVARIANZA E CORRELAZIONE

Titolo della lezione. Analisi dell associazione tra due caratteri: indipendenza e dipendenza

ESERCIZI SVOLTI PER LA PROVA DI STATISTICA

Statistica. Alfonso Iodice D Enza iodicede@unicas.it

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

Lezione n. 2 (a cura di Chiara Rossi)

Correzione dell Esame di Statistica Descrittiva (Mod. B) 1 Appello - 28 Marzo 2007 Facoltà di Astronomia

IL RISCHIO D IMPRESA ED IL RISCHIO FINANZIARIO. LA RELAZIONE RISCHIO-RENDIMENTO ED IL COSTO DEL CAPITALE.

VARIABILI ALEATORIE MULTIPLE E TEOREMI ASSOCIATI. Dopo aver trattato delle distribuzioni di probabilità di una variabile aleatoria, che

La distribuzione Normale. La distribuzione Normale

La categoria «ES» presenta (di solito) gli stessi comandi

STATISTICA DESCRITTIVA BIVARIATA

ANALISI DELLE FREQUENZE: IL TEST CHI 2

Lezione 6: Forma di distribuzione Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Metodi statistici per l economia (Prof. Capitanio) Slide n. 4. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

STATISTICA IX lezione

Disegni di Ricerca e Analisi dei Dati in Psicologia Clinica. Indici di Affidabilità

MINIMI QUADRATI. REGRESSIONE LINEARE

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

Corso di. Dott.ssa Donatella Cocca

2 + (σ2 - ρσ 1 ) 2 > 0 [da -1 ρ 1] b = (σ ρσ1 σ 2 ) = (σ 1

Elementi di Psicometria con Laboratorio di SPSS 1

STATISTICA DESCRITTIVA - SCHEDA N. 1 VARIABILI QUALITATIVE

1. Distribuzioni campionarie

Il concetto di correlazione

Basi di matematica per il corso di micro

Metodi statistici per le ricerche di mercato

PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE

Confronto tra media e mediana Indice di Yule-Bowley Indice di Fisher

Analisi di dati di frequenza

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

Probabilità condizionata: p(a/b) che avvenga A, una volta accaduto B. Evento prodotto: Evento in cui si verifica sia A che B ; p(a&b) = p(a) x p(b/a)

I punteggi zeta e la distribuzione normale

2. Leggi finanziarie di capitalizzazione

risulta (x) = 1 se x < 0.

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca

Statistica. Alfonso Iodice D Enza iodicede@unina.it

Statistica. Esercitazione 3 5 maggio 2010 Serie storiche. Connessione e indipendenza statistica

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Capitolo 10 Z Elasticità della domanda

SISTEMI DI NUMERAZIONE E CODICI

Anno 5 4 Funzioni reali. elementari

Capitolo 12 La regressione lineare semplice

LEZIONE n. 5 (a cura di Antonio Di Marco)

1. Richiami di Statistica. Stefano Di Colli

STATISTICA (A-K) a.a Prof.ssa Mary Fraire Test di STATISTICA DESCRITTIVA Esonero del 2007

La dispersione dei prezzi al consumo. I risultati di un indagine empirica sui prodotti alimentari.

Termodinamica: legge zero e temperatura

Appunti di complementi di matematica

RISCHIO E RENDIMENTO DEGLI STRUMENTI FINANZIARI. Docente: Prof. Massimo Mariani

STATISTICA DESCRITTIVA UNIVARIATA

Indici di dispersione

Slide Cerbara parte1 5. Le distribuzioni teoriche

4 3 4 = 4 x x x 10 0 aaa

Il rischio di un portafoglio

Grafici delle distribuzioni di frequenza

SOLUZIONI D = (-1,+ ).

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

Dimensione di uno Spazio vettoriale

Misure della dispersione o della variabilità

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

Elementi di Statistica

CONTINUITÀ E DERIVABILITÀ Esercizi risolti

LEZIONE 23. Esempio Si consideri la matrice (si veda l Esempio ) A =

Analisi dei residui. Test Esatto di Fisher. Differenza fra proporzioni

2.1 Definizione di applicazione lineare. Siano V e W due spazi vettoriali su R. Un applicazione

STATISTICHE. A CURA di Nunzio Cuozzo e Luigi Praitano

Facciamo qualche precisazione

Statistica. Esercitazione 15. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Il test del Chi-quadrato

Capitolo 13: L offerta dell impresa e il surplus del produttore

4. Operazioni elementari per righe e colonne

LE SUCCESSIONI 1. COS E UNA SUCCESSIONE

Psicometria (8 CFU) Corso di Laurea triennale STANDARDIZZAZIONE


Soluzioni Esercizi elementari

E naturale chiedersi alcune cose sulla media campionaria x n

Regressione Logistica: un Modello per Variabili Risposta Categoriali

FUNZIONI LINEARI. FUNZIONE VALORE ASSOLUTO. Si chiama funzione lineare (o funzione affine) una funzione del tipo = +

Esercitazione N. 1 Misurazione di resistenza con metodo volt-amperometrico

ESERCITAZIONE 13 : STATISTICA DESCRITTIVA E ANALISI DI REGRESSIONE

Università di Firenze - Corso di laurea in Statistica Seconda prova intermedia di Statistica. 18 dicembre 2008

postulato della valutazione tramite indicatori: La valutazione di un sistema sanitario tramite indicatori ipotizza

2. Un carattere misurato in un campione: elementi di statistica descrittiva e inferenziale

ESAME DI STATISTICA Nome: Cognome: Matricola:

Transcript:

Dott.ssa Caterina Gurrieri

Le relazioni tra caratteri

Data una tabella a doppia entrata, grande importanza riveste il misurare se e in che misura le variabili in essa riportata sono in qualche modo legate tra loro. Si parla a tal proposito di Dipendenza se tra due variabili esiste un rapporto di causa ed effetto (es. reddito percepito e spesa per il tempo libero) Interdipendenza se tra due variabili non esiste un rapporto di causa ed effetto, ovvero se non è possibile definire un antecedente e un conseguente (es. colore degli occhi e colore dei capelli) Indipendenza se si ha assenza di legame tra i due caratteri

Si distingue ancora tra Misure di correlazione per studiare i legami tra due variabili quantitative misurate su scala a intervalli o su scala a rapporti Misure di cograduazione per studiare i legami tra variabili almeno qualitative ordinali Misure di associazione per analizzare le relazioni anche tra fenomeni espressi su scala nominale

Misurare l indipendenza Data una tabella di contingenza, due variabili X e Y si dicono indipendenti se le modalità di X non influenzano il verificarsi delle modalità di Y, e viceversa l indipendenza statistica è una relazione bidirezionale: se X è indipendente da Y anche Y è indipendente da X.

In assenza di indipendenza statistica si parla di connessione: le due variabili X e Y tendono ad influenzarsi reciprocamente e tra di loro esiste una qualche relazione generica l indipendenza statistica e la connessione sono concetti che si escludono reciprocamente.

Misure di associazione

Le misure di associazione valutano il legame esistente tra due caratteri attraverso l analisi congiunta delle frequenze dei caratteri stessi. Tali misure si basano, inoltre, sulle differenze esistenti tra frequenze osservate e frequenze teoriche, ovvero le frequenze che si presenterebbero in situazione di perfetta indipendenza. Tali differenze sono dette contingenze e la loro somma è sempre nulla.

Indice chi-quadrato di Pearson Per valutare se e in che misura due variabili X e Y sono tra loro indipendenti si utilizza il c.d. indice di associazione chi-quadrato (χ ), che si basa sul confronto tra le frequenze assolute osservate f ij (contenute nella tabella di contingenza) e le frequenze teoriche f ij che si osserverebbero in caso di perfetta indipendenza tra X e Y. In formula si ha che i j c f ij ij ' Dove c ij sono le differenze (contingenze) tra le frequenze assolute osservate f ij e le frequenze teoriche f ij.

Modalità del carattere X Data una generica tabella a doppia entrata, Modalità del carattere Y 1 j c 1 f 11 f 1 f 1j f 1c f 1. i r f 1 f f j f i1 f i f ij f r1 f r f rj f c f. f ic f i. f rc f r. f. 1 f. f.j f. c f..

Da essa si otterranno le frequenze teoriche di ogni cella, tali che i marginali di riga e di colonna restino costanti, secondo la formula f ij ' f i f f j Tali valori vengono riportati in una tabella, detta di indipendenza. Le differenze tra le frequenze osservate e quelle teoriche vengono riportate in una ulteriore tabella, detta delle contingenze. ATTENZIONE: tabella di contingenza tabella delle contingenze!

Il χ assume - valore = 0 se i caratteri sono perfettamente indipendenti (dunque le contingenze sono nulle) - valore > 0 se i caratteri sono associati (il valore sarà tanto maggiore quanto più grande sarà la differenza tra le frequenze osservate e quelle teoriche).

Per stabilire se la connessione tra X e Y è alta o bassa è possibile ricorrere alla normalizzazione dell indice. A tal fine è necessario rapportare il valore di χ ottenuto al suo massimo, che è n min r 1, c 1 Dove r è il numero delle righe della tabella e c il numero delle colonne

Nella sua forma normalizzata, il χ sarà allora espresso come ~ n min r 1, c 1

ESEMPIO Ad una società di ricerche è stata commissionata un indagine per verificare l esistenza di una relazione tra la zona di residenza (X) e la marca di automobile acquistata (Y). Con un indagine campionaria su 500 individui sono stati rilevati i dati relativi a - Zona di residenza, distinguendo tra - centro urbano - periferia - area rurale - Marca di automobile acquistata, distinguendo tra - General Motors - Ford - Chrysler - marchio europeo - marchio asiatico

I risultati dell indagine sono riportati nella seguente tabella Centro urbano General motors Ford Chrysler Marchio europeo Marchio asiatico 64 40 6 8 6 00 Periferia 53 35 4 6 3 150 Area rurale 53 45 30 6 16 150 170 10 80 0 110 500

SOLUZIONE Per verificare se esiste una relazione tra le due variabili rilevate occorre in primo luogo calcolare le frequenze teoriche c ij secondo la formula f ij ' f i f f j Tali frequenze teoriche sono riportate nella successiva tabella di indipendenza

Tabella di indipendenza General motors Ford Chrysler Centro urbano =00*170/500=68 =00*10/500=48 =00*80/500=3 Periferia =150*170/500=51 =150*10/500=36 =150*80/500=4 Area rurale =150*170/500=51 =150*10/500=36 =150*80/500=4 170 10 80 Marchio europeo Marchio asiatico Centro urbano =00*0/500=8 =00*110/500=44 00 Periferia =150*0/500=6 =150*110/500=33 150 Area rurale =150*0/500=6 =150*110/500=33 150 0 110 500

A questo punto si può creare la tabella delle contingenze, in cui vengono riportate le differenze tra le frequenze osservate e quelle teoriche Tabella delle contingenze Centro urbano General motors Ford Chrysler Marchio europeo Marchio asiatico =64-68=-4 =40-48=-8 =6-3=-6 =8-8=0 =6-44=18 0 Periferia =53-51= =35-36=-1 =4-4=0 =6-6=0 =3-33=-1 0 Area rurale =53-51= =45-36=9 =30-4=6 =6-6=0 =16-33=-17 0 0 0 0 0 0 ATTENZIONE. I totali di riga e di colonna di una tabella delle contingenze sono sempre pari a 0

Sostituendo nella formula i valori ottenuti è possibile calcolare il valore di χ, che in questo caso è i j c f ij ij ' 4 68 51 51 8 48 1 36 9 36 6 3 0 4 6 4 0 8 0 6 0 6 18 44 1 33 17 33 16 68 4 51 4 51 64 48 1 36 81 36 36 3 36 4 34 44 1 33 89 33 0,35 0,078 0,078 1,333 0,08,5 1,15 1,5 7,364 0,030 8,757

Da cui,778 Volendo normalizzare l indice occorre rapportarlo al suo massimo, che si calcola come n min r 1, c 1 Poiché nella colonna sono presenti 3 righe e 5 colonne, il massimo in questo caso 5003 1 1000

Il valore dell indice normalizzato è allora ~,778 1000 0,0 Tale valore indica che esiste un basso livello di associazione tra Zona di residenza e Marca dell auto acquistata. NB. Si ricorda che essendo normalizzata, quest ultima misura assume valori compresi tra 0 e 1.

Principali misure alternative Poiché il valore massimo del χ dipende dalla numerosità della tabella e dalle dimensioni della stessa, spesso viene trasformato in altre misure. Contingenza quadratica media, che è indipendente dalla numerosità ma non dalla forma della tabella. In formula assume la forma f Tale indice assume valore 0 in caso di indipendenza. Il suo valore massimo, invece, è pari a 1 se il numero di righe o di colonne è uguale a, altrimenti è maggiore di 1.

Nel caso proposto nell esercizio precedente esso assumerebbe il valore,778 500 0,045 Anche in questo caso il valore ottenuto indica che siamo in presenza di una debole associazione tra Zona di residenza e Marca di auto acquistata.

Per avere un indice normalizzato, e dunque con un valore che vari tra 0 e 1, si può usare il seguente Indice medio di contingenza V di Cramer, che in formula assume la forma V f min( r 1, c 1) Poiché f Allora l indice V di Cramer può essere scritto anche come V min( r 1, c 1)

Poiché f Allora l indice V di Cramer può essere scritto anche come V min( r 1, c 1) Il valore di tale indice varia tra 0 (massima indipendenza) e 1 (massima associazione).

Tornando ai dati dell esempio precedente, si avrà dunque che V 0,045 0,15 Che indica, ancora una volta, bassa associazione tra i caratteri. Naturalmente, allo stesso risultato si sarebbe giunti utilizzando la formula alternativa V f min( r 1, c 1),778 500 0,0 0,15

Misure di cograduazione

Qualora si intenda approfondire l analisi della connessione esistente tra due variabili qualitative ordinali X e Y, è possibile ricorrere al concetto di cograduazione. Si parla di cograduazione (o di contrograduazione) quando i due fenomeni in esame tendono ad associare le rispettive modalità in modo che a modalità crescenti dell uno corrispondano preferibilmente modalità crescenti (o decrescenti) dell altro (in relazione alla scala ordinale che le caratterizza). In particolare, si distingue tra Concordanza se a valori elevati di X corrispondono più (o relazione diretta) frequentemente valori elevati di Y e a valori bassi di X corrispondono più frequentemente valori bassi di Y Discordanza se a valori elevati di X corrispondono più (o relazione indiretta) frequentemente valori bassi di Y e a valori bassi di X corrispondono più frequentemente valori alti di Y

Indice di cograduazione rho di Spearman Si basa sul concetto di rango (posto d ordine) e fornisce la formula per il calcolo della cograduazione tra due variabili. Per definire il rango si ordinano i caratteri in senso non decrescente (ovvero dal più piccolo al più grande) e si assegna ad ogni unità statistica il rango, ovvero quel numero che indica la posizione dell unità all interno dell ordinamento per modalità, facendo attenzione al caso in cui più unità presentino la stessa modalità. In questo ultimo caso, il rango sarà definito dalla media delle posizioni dei soggetti con la stessa modalità.

Una volta assegnati i ranghi è possibile calcolare il coefficiente rho di Spearman, che in formula assume la forma s n ( RXi RYi ) i1 1 6 n ( n 1) dove R Xi e R Yi sono, rispettivamente, il rango della variabile X e il rango della variabile Y per il medesimo soggetto i (i=1,,,n).

Il coefficiente rho di Spearman assume valori compresi tra 1 e +1 Se ρ = -1 Se ρ = +1 Se ρ = 0 contrograduazione massima: a modalità crescenti (decrescenti) di X corrispondo modalità decrescenti (crescenti) di Y e viceversa cograduazione è massima: a modalità crescenti (decrescenti) di X corrispondono modalità crescenti (decrescenti) di Y X e Y sono indipendenti statisticamente (ma non vale il viceversa).

ESEMPIO Nella tabella successiva sono riportati i dati relativi al gradimento di un servizio (X) e al titolo di studio (Y) di 0 individui. Calcolare l indice rho di Spearman. Gradimento Titolo di studio 1 Basso Licenza scuola media inf. Medio Diploma 3 Basso Diploma 4 Alto Licenza scuola media inf. 5 Alto Licenza scuola media inf. 6 Alto Licenza scuola media inf. 7 Basso Diploma 8 Basso Diploma 9 Medio Licenza scuola media inf. 10 Basso Licenza scuola media inf. 11 Alto Diploma 1 Alto Laurea I livello 13 Medio Laurea I livello 14 Medio Diploma 15 Basso Licenza scuola media inf. 16 Basso Laurea I livello 17 Medio Diploma 18 Basso Laurea I livello 19 Alto Diploma 0 Alto Diploma

SOLUZIONE Per calcolare il valore della rho di Spearman occorre innanzitutto creare le graduatorie per i due caratteri analizzati e assegnare a ciascuna modalità un rango. Dopo aver ordinato in ordine non decrescente le modalità, quindi, si assegneranno prima le posizioni e poi i ranghi. I risultati sono riportati nelle tabelle successive.

- Gradimento Gradimento Ordinamento numerico 1 Basso 1 3 Basso 7 Basso 3 8 Basso 4 10 Basso 5 15 Basso 6 16 Basso 7 18 Basso 8 Medio 9 9 Medio 10 13 Medio 11 14 Medio 1 17 Medio 13 4 Alto 14 5 Alto 15 6 Alto 16 11 Alto 17 1 Alto 18 19 Alto 19 0 Alto 0 Rango = (1++3+4+5+6+7+8)/8 = 4,5 = (9+10+11+1+13)/5 = 11 = (14+15+16+17+18+19+0)/7 = 17

-Titolo di studio Titolo di studio Ordinamento numerico Rango 1 Licenza s.m.inf. 1 4 Licenza s.m.inf. 5 Licenza s.m.inf. 3 6 Licenza s.m.inf. 4 9 Licenza s.m.inf. 5 10 Licenza s.m.inf. 6 15 Licenza s.m.inf. 7 Diploma 8 3 Diploma 9 7 Diploma 10 8 Diploma 11 11 Diploma 1 14 Diploma 13 17 Diploma 14 19 Diploma 15 0 Diploma 16 1 Laurea I livello 17 13 Laurea I livello 18 16 Laurea I livello 19 18 Laurea I livello 0 = (1++3+4+5+6+7)/7 = 4 = (8+9+10+11+1+13+14+15+16)/9 = 1 = (17+18+19+0)/4 = 18,5

R X R Y (R X -R Y ) A questo punto è possibile creare una ulteriore tabella in cui, per ogni unità statistica, è riportato il rango in ciascuna delle due graduatorie. Nell ultima colonna sono riportati i valori di (R X -R Y ), necessari per il calcolo dell indice. 1 4,5 4 = (4,5-4) = 0,5 11 1 =(11-1) = 1 3 4,5 1 =(4,5-1) = 56,5 4 17 4 =(17-4) = 169 5 17 4 =(17-4) = 169 6 17 4 =(17-4) = 169 7 4,5 1 =(4,5-1) = 56,5 8 4,5 1 =(4,5-1) = 56,5 9 11 4 =(11-4) = 49 10 4,5 4 (4,5-4) = 0,5 11 17 1 =(17-1) = 5 1 17 18,5 =(17-18,5) =,5 13 11 18,5 =(11-18,5) = 56,5 14 11 1 =(11-1) = 1 15 4,5 4 (4,5-4) = 0,5 16 4,5 18,5 =(4,5-18,5) = 196 17 11 1 =(11-1) = 1 18 4,5 18,5 =(4,5-18,5) = 196 19 17 1 =(17-1) = 5 0 17 1 =(17-1) = 5 Totale 154

E adesso possibile calcolare il valore dell indice rho di Spearman sostituendo i valori nella formula s n ( RXi RYi ) i1 1 6 n ( n 1) s 164 164 1 6 1 6 1 6 0,158 1 0,950 0 (0 1) 7980 0,05 Poiché il valore del coefficiente è prossimo allo 0, è possibile affermare che tra le due variabili esiste una bassa cograduazione.

Misure di correlazione

Nel caso in cui si intenda approfondire l analisi del legame esistente tra due variabili quantitative (continue o discrete) X e Y così da cogliere oltre all intensità anche l eventuale natura lineare (proporzionale) del legame, è possibile ricorrere al concetto di correlazione lineare. Si dice che X e Y sono correlate positivamente (o negativamente) quando i due fenomeni in esame tendono ad associare le rispettive modalità in modo che a modalità crescenti dell uno corrispondano preferibilmente modalità proporzionalmente crescenti (o decrescenti) dell altro.

Covarianza Un primo modo di misurare il legame tra due variabili quantitative X e Y è quello di analizzare la covarianza delle stesse variabili, ovvero la media aritmetica dei prodotti degli scostamenti delle variabili X e Y dalle rispettive medie. In formula si indica come COV ( X, Y) n ( xi X )( yi Y ) i 1 n

In caso di distribuzione in classi diventa COV ( X, Y) k h ( xi X )( y j Y ) n i j 1 1 n ij Dove n ij indica la frequenza assoluta nella cella ij-esima, con cui va ponderato il prodotto degli scarti di X e degli scarti di Y.

Il valore massimo che la covarianza può assumere è uguale al prodotto degli scarti quadratici medi dei due caratteri esaminati. In simboli si avrà allora che COV(X,Y) σ(x)*σ(y) In generale, la covarianza - assume valore 0 quando tra i caratteri esaminati non esiste un legame di tipo lineare (per cui se la covarianza assume valore 0 non esclude altri tipi di legame) - assume il massimo in valore assoluto positivo quando i punti sono quando i punti sono tutti allineati su una retta crescente e negativo quando i punti sono tutti allineati su una retta decrescente

ATTENZIONE La covarianza risente dell unità di misura in cui è espressa, per cui non è possibile fare confronti tra distribuzioni doppie diverse. Essa, inoltre, risente anche dell ordine di grandezza delle variabili, per cui non permette nemmeno di dire se il variabile tra le variabili stesse è stretto o meno.

Coefficiente di correlazione lineare di Bravais e Pearson Il coefficiente di correlazione lineare r misura l intensità del legame lineare (interpretabile graficamente da una retta) tra due variabili quantitative X e Y, ovvero il grado di proporzionalità esistente tra X e Y. Si calcola come rapporto tra la covarianza tra X e Y e il rapporto degli scarti quadratici medi. In formula esso è allora r XY COV ( X, Y) ( X ) ( Y)

Il coefficiente di correlazione lineare assume valori compresi tra -1 e +1 in particolare, r=-1 perfetta correlazione negativa: la relazione tra X e Y è di assoluta proporzionalità inversa e può essere perfettamente interpretata da una retta con pendenza negativa r=+1 perfetta correlazione positiva: la relazione tra X e Y è di perfetta proporzionalità diretta e può essere perfettamente interpretata da una retta con pendenza positiva r=0 i due fenomeni sono incorrelati (non esiste legame lineare tra X e Y)

ATTENZIONE Il coefficiente di correlazione lineare è fortemente influenzato dai valori anomali, per cui è opportuno calcolare il suo valore con e senza outliers, in modo da verificare l effetto che essi hanno sul risultato finale.

ESEMPIO Si considerino i caratteri X e Y riportati nella tabella successiva. Si rappresentino graficamente e si stabilisca se sono linearmente dipendenti. In caso affermativo si calcoli l entità di tale dipendenza. X Y 3 80 8 430 1 500 14 600 16 800 19 900 4 100 8 180 6 1300 33 1350

SVOLGIMENTO Rappresentiamo i dati relativi ai due caratteri X e Y attraverso un diagramma a dispersione. La disposizione dei punti nel grafico già suggerisce l esistenza di una relazione di dipendenza lineare tra X ed Y.

Per verificare puntualmente la presenza di dipendenza lineare tra i due caratteri, calcoliamo la covarianza tra X e Y applicando la formula COV ( X, Y) n ( xi X )( yi Y ) i 1 n Poiché per il calcolo della covarianza è necessario conoscere il valore degli scarti dalla media dei valori sia di X che di Y, occorre preliminarmente calcolare le medie delle due variabili. Si avrà dunque che n xi yi i1 183 i1 8640 ( X ) 18,3 ( Y) 864 n 10 n 10 n

A questo punto abbiamo tutti gli elementi per calcolare i valori necessari per calcolare la covarianza. Alla tabella originaria, quindi, si aggiungono tre colonne che riportano, rispettivamente, gli scostamenti dalla media di X, gli scostamenti dalla media di Y e i prodotti degli scostamenti. X Y x i -μ y i -μ (x i -μ)(y i -μ) 3 80-15,3-584 8935, 8 430-10,3-434 4470, 1 500-6,3-364 93, 14 600-4,3-64 1135, 16 800 -,3-64 147, 19 900 0,7 36 5, 4 100 5,7 336 1915, 8 180 9,7 416 4035, 6 1300 7,7 436 3357, 33 1350 14,7 486 7144, 0 0 33458

Sostituendo i valori ottenuti alla formula, si avrà che COV ( X, Y) n i1 ( x i )( y X n i ) Y 33458 10 3345,8 Poiché la covarianza di X ed Y è diversa da 0, si deduce che esiste dipendenza lineare tra le due variabili. Il segno positivo della covarianza informa anche del fatto che esiste una dipendenza lineare positiva: a valori crescenti della X sono associati valori crescenti della Y.

Per valutare l entità di tale dipendenza lineare, tuttavia, è necessario calcolare il coefficiente di correlazione lineare: r XY COV ( X, Y) ( X ) ( Y) Per calcolare il valore di r occorre conoscere preliminarmente il valore della varianza di X e della varianza di Y.

Conoscendo già l entità degli scarti dalla media di X e di Y, è sufficiente calcolare i quadrati e rapportarli a n. I risultati dei calcoli sono riportati nella tabella successiva X Y x i -μ y i -μ (x i -μ) (y i -μ) 3 80-15,3-584 34,09 341056 8 430-10,3-434 106,09 188356 1 500-6,3-364 39,69 13496 14 600-4,3-64 18,49 69696 16 800 -,3-64 5,9 4096 19 900 0,7 36 0,49 196 4 100 5,7 336 3,49 11896 8 180 9,7 416 94,09 173056 6 1300 7,7 436 59,9 190096 33 1350 14,7 486 16,09 36196 0 0 806,1 144940

In base ai dati della tabella precedente si ottiene che 8,98 80,61 10 806,1 ) ( 1 n x X n i i 380,69 14494 10 144940 ) ( 1 n y Y n i i

Da cui r XY COV ( X, Y) ( X ) ( Y) 3345,8 8,98380,69 3345,8 3418,6 0,98 Il coefficiente di correlazione lineare ha un valore molto prossimo ad 1, rivelando una dipendenza lineare molto forte tra i due caratteri. Il segno positivo del coefficiente di correlazione lineare, inoltre, conferma che la dipendenza lineare è positiva.

ATTENZIONE In alcuni casi è necessario ponderare r tenendo conto della diversa importanza che i vari aspetti ricoprono. Si parla in tal caso di coefficiente di correlazione lineare ponderata, definito come covarianza ponderata tra gli scostamenti standardizzati, con peso ω i delle unità statistiche. La formula diventa in questo caso r XY n i1 z( x i n i1 ) z( y i i ) i