Statistica descrittiva in due variabili

Statistica descrittiva in due variabili 1 / 65

Statistica descrittiva in due variabili 1 / 65 Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con i valori osservati. X =(x 1,...,x N ) Y =(y 1,...,y N )

1 / 65 Statistica descrittiva in due variabili Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con X =(x 1,...,x N ) Y =(y 1,...,y N ) i valori osservati. In questo caso abbiamo due possibilità Studiare le due variabili separatamente Studiare se esistono dei legami tra le due variabili

1 / 65 Statistica descrittiva in due variabili Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con X =(x 1,...,x N ) Y =(y 1,...,y N ) i valori osservati. In questo caso abbiamo due possibilità Studiare le due variabili separatamente Studiare se esistono dei legami tra le due variabili Di fatto la cosa più importante, quando si misurano due caratteri sullo stesso campione, è capire se le due variabili sono dipendenti, cioè se variazioni di una producono variazioni dell altra.

Tabella di contingenza 2 / 65 Per determinare se due variabili sono dipendenti o indipendenti si procede nel modo seguente.

Tabella di contingenza 2 / 65 Per determinare se due variabili sono dipendenti o indipendenti si procede nel modo seguente. Si costruisce per primo una tabella a doppia entrata, o di contingenza, che, per semplicità, descriveremo con un esempio.

Dati i vettori X =(4,18,10,16,1,10,1,9,11,9,18,15,8,12,17,2,10,3,18,4,19, 11,15,10,12,9,17,8,6,13) 3 / 65 Y =(27,13,23,17,19,26,23,2,25,21,3,11,14,10,3,24,11,15,7,10, 6,30,8,24,8,20,28,26,29,30) suddividiamo le ampiezze di X e Y in sotto intervalli, allo stesso modo con cui abbiamo operato per il calcolo delle frequenze assolute.

Dati i vettori X =(4,18,10,16,1,10,1,9,11,9,18,15,8,12,17,2,10,3,18,4,19, 11,15,10,12,9,17,8,6,13) 3 / 65 Y =(27,13,23,17,19,26,23,2,25,21,3,11,14,10,3,24,11,15,7,10, 6,30,8,24,8,20,28,26,29,30) suddividiamo le ampiezze di X e Y in sotto intervalli, allo stesso modo con cui abbiamo operato per il calcolo delle frequenze assolute. X ha ampiezza 18 mentre Y ha ampiezza 28

Dati i vettori X =(4,18,10,16,1,10,1,9,11,9,18,15,8,12,17,2,10,3,18,4,19, 11,15,10,12,9,17,8,6,13) 3 / 65 Y =(27,13,23,17,19,26,23,2,25,21,3,11,14,10,3,24,11,15,7,10, 6,30,8,24,8,20,28,26,29,30) suddividiamo le ampiezze di X e Y in sotto intervalli, allo stesso modo con cui abbiamo operato per il calcolo delle frequenze assolute. X ha ampiezza 18 mentre Y ha ampiezza 28 Dividiamo l ampiezza di X in due intervalli di lunghezza 10 Dividiamo l ampiezza di Y in tre intervalli di lunghezza 10.

Dati i vettori X =(4,18,10,16,1,10,1,9,11,9,18,15,8,12,17,2,10,3,18,4,19, 11,15,10,12,9,17,8,6,13) Y =(27,13,23,17,19,26,23,2,25,21,3,11,14,10,3,24,11,15,7,10, 6,30,8,24,8,20,28,26,29,30) suddividiamo le ampiezze di X e Y in sotto intervalli, allo stesso modo con cui abbiamo operato per il calcolo delle frequenze assolute. X ha ampiezza 18 mentre Y ha ampiezza 28 Dividiamo l ampiezza di X in due intervalli di lunghezza 10 Dividiamo l ampiezza di Y in tre intervalli di lunghezza 10. X # Y! J 1 =[1,11) J 2 =[11,21) J 3 =[21,31) I 1 =[1,11) I 2 =[11,21) 3 / 65

Dati i vettori X =(4,18,10,16,1,10,1,9,11,9,18,15,8,12,17,2,10,3,18,4,19, 11,15,10,12,9,17,8,6,13) Y =(27,13,23,17,19,26,23,2,25,21,3,11,14,10,3,24,11,15,7,10, 6,30,8,24,8,20,28,26,29,30) suddividiamo le ampiezze di X e Y in sotto intervalli, allo stesso modo con cui abbiamo operato per il calcolo delle frequenze assolute. X ha ampiezza 18 mentre Y ha ampiezza 28 Dividiamo l ampiezza di X in due intervalli di lunghezza 10 Dividiamo l ampiezza di Y in tre intervalli di lunghezza 10. X # Y! J 1 =[1,11) J 2 =[11,21) J 3 =[21,31) I 1 =[1,11) n 11 n 12 n 13 I 2 =[11,21) n 21 n 22 n 23 3 / 65

Dati i vettori X =(4,18,10,16,1,10,1,9,11,9,18,15,8,12,17,2,10,3,18,4,19, 11,15,10,12,9,17,8,6,13) Y =(27,13,23,17,19,26,23,2,25,21,3,11,14,10,3,24,11,15,7,10, 6,30,8,24,8,20,28,26,29,30) suddividiamo le ampiezze di X e Y in sotto intervalli, allo stesso modo con cui abbiamo operato per il calcolo delle frequenze assolute. X ha ampiezza 18 mentre Y ha ampiezza 28 Dividiamo l ampiezza di X in due intervalli di lunghezza 10 Dividiamo l ampiezza di Y in tre intervalli di lunghezza 10. X # Y! J 1 =[1,11) J 2 =[11,21) J 3 =[21,31) I 1 =[1,11) I 2 =[11,21) 3 / 65

Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le componenti con il colore dell intervallo a cui appartengono. X Y 4 27 18 13 10 23 16 17 1 19 10 26 1 23 9 2 11 25 9 21 18 3 15 11 8 14 12 10 17 3 2 24 10 11 3 15 18 7 4 10 19 6 11 30 15 8 10 24 12 8 9 20 17 28 8 26 6 29 13 30 4 / 65

Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le componenti con il colore dell intervallo a cui appartengono. X Y 4 27 18 13 10 23 16 17 1 19 10 26 1 23 9 2 11 25 9 21 18 3 15 11 8 14 12 10 17 3 2 24 10 11 3 15 18 7 4 10 19 6 11 30 15 8 10 24 12 8 9 20 17 28 8 26 6 29 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) [11, 21) 5 / 65

Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le componenti con il colore dell intervallo a cui appartengono. X Y 4 27 18 13 10 23 16 17 1 19 10 26 1 23 9 2 11 25 9 21 18 3 15 11 8 14 12 10 17 3 2 24 10 11 3 15 18 7 4 10 19 6 11 30 15 8 10 24 12 8 9 20 17 28 8 26 6 29 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 2 [11, 21) 6 / 65

Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le componenti con il colore dell intervallo a cui appartengono. X Y 4 27 18 13 10 23 16 17 1 19 10 26 1 23 9 2 11 25 9 21 18 3 15 11 8 14 12 10 17 3 2 24 10 11 3 15 18 7 4 10 19 6 11 30 15 8 10 24 12 8 9 20 17 28 8 26 6 29 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 [11, 21) 7 / 65

Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le componenti con il colore dell intervallo a cui appartengono. X Y 4 27 18 13 10 23 16 17 1 19 10 26 1 23 9 2 11 25 9 21 18 3 15 11 8 14 12 10 17 3 2 24 10 11 3 15 18 7 4 10 19 6 11 30 15 8 10 24 12 8 9 20 17 28 8 26 6 29 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 [11, 21) 8 / 65

Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le componenti con il colore dell intervallo a cui appartengono. X Y 4 27 18 13 10 23 16 17 1 19 10 26 1 23 9 2 11 25 9 21 18 3 15 11 8 14 12 10 17 3 2 24 10 11 3 15 18 7 4 10 19 6 11 30 15 8 10 24 12 8 9 20 17 28 8 26 6 29 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 [11, 21) 7 9 / 65

Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le componenti con il colore dell intervallo a cui appartengono. X Y 4 27 18 13 10 23 16 17 1 19 10 26 1 23 9 2 11 25 9 21 18 3 15 11 8 14 12 10 17 3 2 24 10 11 3 15 18 7 4 10 19 6 11 30 15 8 10 24 12 8 9 20 17 28 8 26 6 29 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 [11, 21) 7 3 10 / 65

Adesso disponiamo i valori dei vettori X e Y in verticale e coloriamo le componenti con il colore dell intervallo a cui appartengono. X Y 4 27 18 13 10 23 16 17 1 19 10 26 1 23 9 2 11 25 9 21 18 3 15 11 8 14 12 10 17 3 2 24 10 11 3 15 18 7 4 10 19 6 11 30 15 8 10 24 12 8 9 20 17 28 8 26 6 29 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 [11, 21) 7 3 4 11 / 65

X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 [11, 21) 7 3 4 Questa rappresenta la tabella di contingenza e le entrate rappresentano le frequenze osservate. 12 / 65

X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 [11, 21) 7 3 4 Questa rappresenta la tabella di contingenza e le entrate rappresentano le frequenze osservate. Completiamo la tabella inserendo le distribuzioni marginali che si ottengono sommando in verticale ed in orizzontale le frequenze osservate. X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 12 / 65

X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 [11, 21) 7 3 4 Questa rappresenta la tabella di contingenza e le entrate rappresentano le frequenze osservate. Completiamo la tabella inserendo le distribuzioni marginali che si ottengono sommando in verticale ed in orizzontale le frequenze osservate. X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 Il numero in basso a destra, corrispondente alla somma delle frequenze marginali, è pari al numero delle unità statistiche. 12 / 65

Frequenze attese 13 / 65 Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) 9 16 8 16 13 16 [1, 11) 16 30 30 30 9 14 8 14 13 14 [11, 21) 14 30 30 30 9 8 13 30

Frequenze attese 14 / 65 Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) 9 16 8 16 13 16 1 [1, 11) 30 30 30 16 9 14 8 14 13 14 1 [11, 21) 30 30 30 14 1 9 8 13 30

Frequenze attese 15 / 65 Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) 9 16 8 16 13 16 1 [1, 11) 30 30 30 16 9 14 8 14 13 14 1 [11, 21) 30 30 30 14 1 9 8 13 30

Frequenze attese 16 / 65 Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) [1,11) 4.8 4.3 6.9 1 1 16 [11,21) 4.2 3.7 6.1 1 14 1 9 8 13 30

17 / 65 Definizione Diremo che due variabili sono dipendenti se le frequenze osservate sono molto diverse da quelle attese.

17 / 65 Definizione Diremo che due variabili sono dipendenti se le frequenze osservate sono molto diverse da quelle attese. ma cosa vuol dire molto diverse?

17 / 65 Definizione Diremo che due variabili sono dipendenti se le frequenze osservate sono molto diverse da quelle attese. ma cosa vuol dire molto diverse? Per capire quanto sono diverse si può calcolare la distanza delle frequenze osservate da quelle attese. Si calcola un numero chiamato c 2 (si legge chi-quadro)

Torniamo all esempio Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 4.8 4.3 6.9 16 [11, 21) 4.2 3.7 6.1 14 9 8 13 30 18 / 65

Torniamo all esempio 18 / 65 Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 4.8 4.3 6.9 16 [11, 21) 4.2 3.7 6.1 14 9 8 13 30 c 2 = (2 4.8) 2 4.8

Torniamo all esempio 18 / 65 Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 4.8 4.3 6.9 16 [11, 21) 4.2 3.7 6.1 14 9 8 13 30 c 2 = (2 4.8) 2 + 4.8 (5 4.3)2 4.3

Torniamo all esempio 18 / 65 Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 4.8 4.3 6.9 16 [11, 21) 4.2 3.7 6.1 14 9 8 13 30 c 2 = (2 4.8) 2 + 4.8 (5 4.3)2 4.3 + (9 6.9)2 6.9

Torniamo all esempio Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 4.8 4.3 6.9 16 [11, 21) 4.2 3.7 6.1 14 9 8 13 30 c 2 = + (2 4.8) 2 + 4.8 (7 4.2)2 4.2 (5 4.3)2 4.3 + (9 6.9)2 6.9 18 / 65

Torniamo all esempio Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 4.8 4.3 6.9 16 [11, 21) 4.2 3.7 6.1 14 9 8 13 30 c 2 = + (2 4.8) 2 (5 4.3)2 + + 4.8 4.3 (7 4.2)2 (3 3.7)2 + 4.2 3.7 (9 6.9)2 6.9 18 / 65

Torniamo all esempio Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 4.8 4.3 6.9 16 [11, 21) 4.2 3.7 6.1 14 9 8 13 30 c 2 = + (2 4.8) 2 (5 4.3)2 (9 6.9)2 + + 4.8 4.3 6.9 (7 4.2)2 (3 3.7)2 (4 6.1)2 + + 4.2 3.7 6.1 18 / 65

Torniamo all esempio Frequenze osservate Frequenze attese X # Y! [1,11) [11,21) [21,31) [1, 11) 2 5 9 16 [11, 21) 7 3 4 14 9 8 13 30 X # Y! [1,11) [11,21) [21,31) [1, 11) 4.8 4.3 6.9 16 [11, 21) 4.2 3.7 6.1 14 9 8 13 30 c 2 = + (2 4.8) 2 (5 4.3)2 (9 6.9)2 + + 4.8 4.3 6.9 (7 4.2)2 (3 3.7)2 (4 6.1)2 + + 4.2 3.7 6.1 ' 5.11 18 / 65

Utilizzo del c 2 19 / 65 Se c 2 = 0 se e solo se le variabili sono matematicamente indipendenti.

19 / 65 Utilizzo del c 2 Se c 2 = 0 se e solo se le variabili sono matematicamente indipendenti. Da un punto di vista qualitativo si può dire che: per valori di c 2 grandi le variabili sono dipendenti per valori di c 2 piccoli le variabili sono indipendenti

19 / 65 Utilizzo del c 2 Se c 2 = 0 se e solo se le variabili sono matematicamente indipendenti. Da un punto di vista qualitativo si può dire che: per valori di c 2 grandi le variabili sono dipendenti per valori di c 2 piccoli le variabili sono indipendenti In statistica è stato elaborato un test per calcolare con che fiducia, noto il valore del c 2, si possa affermare che due variabili siano dipendenti.

19 / 65 Utilizzo del c 2 Se c 2 = 0 se e solo se le variabili sono matematicamente indipendenti. Da un punto di vista qualitativo si può dire che: per valori di c 2 grandi le variabili sono dipendenti per valori di c 2 piccoli le variabili sono indipendenti In statistica è stato elaborato un test per calcolare con che fiducia, noto il valore del c 2, si possa affermare che due variabili siano dipendenti. Questo test prende il nome di Test del c 2

Calcolo della fiducia 20 / 65 Per calcolare la fiducia si calcola per primo un numero, denotato con df, che misura i gradi di libertà, definito come df =(numero colonne 1)(numero righe 1)

Calcolo della fiducia 20 / 65 Per calcolare la fiducia si calcola per primo un numero, denotato con df, che misura i gradi di libertà, definito come Nell esempio df =(numero colonne 1)(numero righe 1) df =(2 1)(3 1)=2

Calcolo della fiducia Per calcolare la fiducia si calcola per primo un numero, denotato con df, che misura i gradi di libertà, definito come Nell esempio df =(numero colonne 1)(numero righe 1) df =(2 1)(3 1)=2 Calcolati il c 2 ed il df si utilizza la seguente tabella. df a = 0.2 a = 0.15 a = 0.1 a = 0.05 a = 0.025 a = 0.01 a = 0.005 a = 0.001 1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10.83 2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13.82 3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16.27 4 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18.47 5 7.289 8.115 9.236 11.07 12.83 15.09 16.75 20.52 6 8.558 9.446 10.64 12.59 14.45 16.81 18.55 22.46 7 9.803 10.75 12.02 14.07 16.01 18.48 20.28 24.32 8 11.03 12.03 13.36 15.51 17.53 20.09 21.95 26.12 9 12.24 13.29 14.68 16.92 19.02 21.67 23.59 27.88 10 13.44 14.53 15.99 18.31 20.48 23.21 25.19 29.59 11 14.63 15.77 17.28 19.68 21.92 24.72 26.76 31.26 12 15.81 16.99 18.55 21.03 23.34 26.22 28.3 32.91 13 16.98 18.2 19.81 22.36 24.74 27.69 29.82 34.53 14 18.15 19.41 21.06 23.68 26.12 29.14 31.32 36.12 15 19.31 20.6 22.31 25. 27.49 30.58 32.8 37.7 16 20.47 21.79 23.54 26.3 28.85 32. 34.27 39.25 17 21.61 22.98 24.77 27.59 30.19 33.41 35.72 40.79 20 / 65

21 / 65 Vediamo il nostro esempio c 2 = 5.11 df =(2 1)(3 1)=2

Vediamo il nostro esempio c 2 = 5.11 df =(2 1)(3 1)=2 df a = 0.2 a = 0.15 a = 0.1 a = 0.05 a = 0.025 a = 0.01 a = 0.005 a 1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 4 5.989 6.745 7.779 9.488 11.14 13.28 14.86 5 7.289 8.115 9.236 11.07 12.83 15.09 16.75 6 8.558 9.446 10.64 12.59 14.45 16.81 18.55 7 9.803 10.75 12.02 14.07 16.01 18.48 20.28 8 11.03 12.03 13.36 15.51 17.53 20.09 21.95 9 12.24 13.29 14.68 16.92 19.02 21.67 23.59 10 13.44 14.53 15.99 18.31 20.48 23.21 25.19 11 14.63 15.77 17.28 19.68 21.92 24.72 26.76 12 15.81 16.99 18.55 21.03 23.34 26.22 28.3 13 16.98 18.2 19.81 22.36 24.74 27.69 29.82 14 18.15 19.41 21.06 23.68 26.12 29.14 31.32 15 19.31 20.6 22.31 25. 27.49 30.58 32.8 16 20.47 21.79 23.54 26.3 28.85 32. 34.27 17 21.61 22.98 24.77 27.59 30.19 33.41 35.72 21 / 65

Il valore a = 0.1 rappresenta la sfiducia 24 / 65

24 / 65 Il valore a = 0.1 rappresenta la sfiducia Quindi cui la fiducia in percentuale risulta: F = 100(1 a)

24 / 65 Il valore a = 0.1 rappresenta la sfiducia Quindi cui la fiducia in percentuale risulta: F = 100(1 a) = 100(1 0.1)

24 / 65 Il valore a = 0.1 rappresenta la sfiducia Quindi cui la fiducia in percentuale risulta: F = 100(1 a) = 100(1 0.1) = 100(0.9)

24 / 65 Il valore a = 0.1 rappresenta la sfiducia Quindi cui la fiducia in percentuale risulta: F = 100(1 a) = 100(1 0.1) = 100(0.9) = 90%

24 / 65 Il valore a = 0.1 rappresenta la sfiducia Quindi cui la fiducia in percentuale risulta: F = 100(1 a) = 100(1 0.1) = 100(0.9) = 90% Possiamo affermare che le due variabili sono dipendenti con una fiducia del 90%.

Il caso 2 2 25 / 65 Se la tabella di contingenza è 2 2, cioè del tipo X # Y! J 1 J 2 I 1 a b a + b I 2 c d c + d a + c b + d N

Il caso 2 2 25 / 65 Se la tabella di contingenza è 2 2, cioè del tipo X # Y! J 1 J 2 I 1 a b a + b I 2 c d c + d a + c b + d N si può calcolare il c 2 senza calcolare le frequenze attese tramite la formula c 2 (ad bc) 2 = N (a + b)(c + d)(a + c)(b + d)

Uso del test del c 2 26 / 65 Di solito l uso del test del c 2 è riservato allo studio di due variabili qualitative rilevate su un campione statistico.

26 / 65 Uso del test del c 2 Di solito l uso del test del c 2 è riservato allo studio di due variabili qualitative rilevate su un campione statistico. Esempio In uno studio di immunologia, vengono studiate 111 cavie nel modo seguente: 57 di esse ricevono una dose di batteri patogeni seguiti da un antisiero; le restanti 54 ricevono solo i batteri ma non l antisiero.

26 / 65 Uso del test del c 2 Di solito l uso del test del c 2 è riservato allo studio di due variabili qualitative rilevate su un campione statistico. Esempio In uno studio di immunologia, vengono studiate 111 cavie nel modo seguente: 57 di esse ricevono una dose di batteri patogeni seguiti da un antisiero; le restanti 54 ricevono solo i batteri ma non l antisiero. Dopo un tempo sufficiente per il periodo di incubazione e per il decorso della malattia si contano 38 cavie morte di cui: 12 avevano ricevuto il siero 26 solo i batteri

26 / 65 Uso del test del c 2 Di solito l uso del test del c 2 è riservato allo studio di due variabili qualitative rilevate su un campione statistico. Esempio In uno studio di immunologia, vengono studiate 111 cavie nel modo seguente: 57 di esse ricevono una dose di batteri patogeni seguiti da un antisiero; le restanti 54 ricevono solo i batteri ma non l antisiero. Dopo un tempo sufficiente per il periodo di incubazione e per il decorso della malattia si contano 38 cavie morte di cui: 12 avevano ricevuto il siero 26 solo i batteri L antisiero è efficace?

Per valutare l efficacia costruiamo una tabella di contingenza indicando con: 27 / 65 BA = cavia inoculata con batteri e antisiero B = cavia inoculata con solo batteri D = cavia deceduta S = cavia sopravissuta

Per valutare l efficacia costruiamo una tabella di contingenza indicando con: 27 / 65 BA = cavia inoculata con batteri e antisiero B = cavia inoculata con solo batteri D = cavia deceduta S = cavia sopravissuta Si ottiene la seguente tabella di contingenza: 57 ricevonoi batteri patogeni e antisiero; 54 ricevono solo i batteri 12 morte avevano ricevuto il siero 26 morte solo i batteri Dalla formula per il calcolo del c 2 per una tabella 2 2 si ottiene BA B c 2 (12 28 45 26)2 = 111 w 9.042 57 54 38 73 D S

Per valutare l efficacia costruiamo una tabella di contingenza indicando con: 28 / 65 BA = cavia inoculata con batteri e antisiero B = cavia inoculata con solo batteri D = cavia deceduta S = cavia sopravissuta Si ottiene la seguente tabella di contingenza: 57 ricevonoi batteri patogeni e antisiero; D S 54 ricevono solo i batteri BA 12 57 12 morte avevano ricevuto il siero B 26 54 26 morte solo i batteri 38 111 Dalla formula per il calcolo del c 2 per una tabella 2 2 si ottiene c 2 (12 28 45 26)2 = 111 w 9.042 57 54 38 73

Per valutare l efficacia costruiamo una tabella di contingenza indicando con: BA = cavia inoculata con batteri e antisiero B = cavia inoculata con solo batteri D = cavia deceduta S = cavia sopravissuta Si ottiene la seguente tabella di contingenza: 57 ricevonoi batteri patogeni e antisiero; 54 ricevono solo i batteri 12 morte avevano ricevuto il siero 26 morte solo i batteri D S BA 12 45 57 B 26 28 54 38 73 111 29 / 65

Per valutare l efficacia costruiamo una tabella di contingenza indicando con: BA = cavia inoculata con batteri e antisiero B = cavia inoculata con solo batteri D = cavia deceduta S = cavia sopravissuta Si ottiene la seguente tabella di contingenza: 57 ricevonoi batteri patogeni e antisiero; 54 ricevono solo i batteri 12 morte avevano ricevuto il siero 26 morte solo i batteri D S BA 12 45 57 B 26 28 54 38 73 111 Dalla formula per il calcolo del c 2 per una tabella 2 2 si ottiene c 2 (12 28 45 26)2 = 111 w 9.042 57 54 38 73 29 / 65

30 / 65 Dalla tabella del c 2 df a = 0.2 a = 0.15 a = 0.1 a = 0.05 a = 0.025 a = 0.01 a = 0.005 a = 1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10 2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13 3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16 4 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18 si ottiene a = 0.005 da cui la fiducia F = 100(1 0.005)=99.5%

30 / 65 Dalla tabella del c 2 df a = 0.2 a = 0.15 a = 0.1 a = 0.05 a = 0.025 a = 0.01 a = 0.005 a = 1 1.642 2.072 2.706 3.841 5.024 6.635 7.879 10 2 3.219 3.794 4.605 5.991 7.378 9.21 10.6 13 3 4.642 5.317 6.251 7.815 9.348 11.34 12.84 16 4 5.989 6.745 7.779 9.488 11.14 13.28 14.86 18 si ottiene a = 0.005 da cui la fiducia F = 100(1 0.005)=99.5% Possiamo quindi affermare che le due variabili sono dipendenti con una fiducia del 99.5. Questo significa che il l antisiero è efficace.

Diagramma di dispersione 31 / 65 Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con X =(X 1,...,X N ) Y =(Y 1,...,Y N ) i valori osservati. Supponiamo inoltre di aver verificato che le due variabili sono statisticamente dipendenti.

Diagramma di dispersione 31 / 65 Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con X =(X 1,...,X N ) Y =(Y 1,...,Y N ) i valori osservati. Supponiamo inoltre di aver verificato che le due variabili sono statisticamente dipendenti. Il problema naturale è capire quale tipo di dipendenza matematica intercorre tra le due variabili.

Diagramma di dispersione 31 / 65 Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con X =(X 1,...,X N ) Y =(Y 1,...,Y N ) i valori osservati. Supponiamo inoltre di aver verificato che le due variabili sono statisticamente dipendenti. Il problema naturale è capire quale tipo di dipendenza matematica intercorre tra le due variabili. In altre parole ci si chiede se sia possibile determinare una funzione y = f (x) che, con una buona approssimazione, soddisfi: Y i = f (X i ) i = 1,...,N

Diagramma di dispersione 31 / 65 Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con X =(X 1,...,X N ) Y =(Y 1,...,Y N ) i valori osservati. Supponiamo inoltre di aver verificato che le due variabili sono statisticamente dipendenti. Il problema naturale è capire quale tipo di dipendenza matematica intercorre tra le due variabili. In altre parole ci si chiede se sia possibile determinare una funzione y = f (x) che, con una buona approssimazione, soddisfi: Y i = f (X i ) i = 1,...,N Un primo tentativo è osservare il diagramma di dispersione associato alle variabili X e Y e costruito nel modo seguente.

Nuvole di punti 32 / 65 Si costruisce un nuovo vettore P = X Y =((X 1,Y 1 ),...,(X N,X N )) = (P 1,...,P N ) In un sistema di riferimento cartesiano si tracciano gli N punti. Si ottiene in questo modo il diagramma di dispersione

Nuvole di punti 32 / 65 Si costruisce un nuovo vettore P = X Y =((X 1,Y 1 ),...,(X N,X N )) = (P 1,...,P N ) In un sistema di riferimento cartesiano si tracciano gli N punti. Si ottiene in questo modo il diagramma di dispersione Per esempio per i vettori X =(4,18,10,16,1,10,0,9,11,9,18,15,8,12,17,2,10,3,18,4,19, 11,15,10,12,9,17,8,6,13) Y =(27,13,23,17,19,26,23,2,25,21,3,11,14,10,3,24,11,15,7,10, 6,30,8,24,8,20,28,26,29,30) si ottiene

33 / 65 30 25 20 15 10 5 2.5 5 7.5 10 12.5 15 17.5

Tipi di diagrammi di dispersione 34 / 65 40 30 20 10 5 10 15 20 25 30 35

Tipo retta y = x + 3 35 / 65 40 30 20 10 5 10 15 20 25 30 35

Tipi di diagrammi di dispersione 36 / 65 1200 1000 800 600 400 200 5 10 15 20 25 30 35

Tipo parabola y = x 2 37 / 65 1200 1000 800 600 400 200 5 10 15 20 25 30 35

Tipi di diagrammi di dispersione 38 / 65 1 0.8 0.6 0.4 0.2 5 10 15 20 25 30 35

39 / 65 Tipo iperbole y = 1 x 1 0.8 0.6 0.4 0.2 5 10 15 20 25 30 35

Regressione lineare 40 / 65 La situazione più semplice è quando il diagramma di dispersione segue l andamento di una retta. I problemi da risolvere in questa situazione sono essenzialmente due

40 / 65 Regressione lineare La situazione più semplice è quando il diagramma di dispersione segue l andamento di una retta. I problemi da risolvere in questa situazione sono essenzialmente due esiste un modo quantitativo per decidere quanto il diagramma di dispersione sia sufficientemente vicino ad una retta?

40 / 65 Regressione lineare La situazione più semplice è quando il diagramma di dispersione segue l andamento di una retta. I problemi da risolvere in questa situazione sono essenzialmente due esiste un modo quantitativo per decidere quanto il diagramma di dispersione sia sufficientemente vicino ad una retta? nel caso fosse sufficientemente vicino come calcolo l equazione della retta?

40 / 65 Regressione lineare La situazione più semplice è quando il diagramma di dispersione segue l andamento di una retta. I problemi da risolvere in questa situazione sono essenzialmente due esiste un modo quantitativo per decidere quanto il diagramma di dispersione sia sufficientemente vicino ad una retta? nel caso fosse sufficientemente vicino come calcolo l equazione della retta? Per dare una risposta a questi quesiti dobbiamo introdurre un nuovo indice.

La covarianza 41 / 65 Siano X e Y due variabili indicate, come al solito, con X =(X 1,...,X N ) Y =(Y 1,...,Y N ) Definizione Si chiama covarianza di X e Y il numero Cov(X,Y) = 1 N N Â k=1 (X k X)(Y k Y)

La covarianza 41 / 65 Siano X e Y due variabili indicate, come al solito, con X =(X 1,...,X N ) Y =(Y 1,...,Y N ) Definizione Si chiama covarianza di X e Y il numero Cov(X,Y) = 1 N N Â k=1 (X k X)(Y k Y) = (X 1 X)(Y 1 Y)+ +(X N X)(Y N Y) N

Calcolo della covarianza 42 / 65 Calcoliamo la covarianza dei vettori X =(8,3,4,1) Y =(2,9,6,3)

Calcolo della covarianza 42 / 65 Calcoliamo la covarianza dei vettori X =(8,3,4,1) Y =(2,9,6,3) Le medie sono X = 4 Y = 5

Calcolo della covarianza 42 / 65 Calcoliamo la covarianza dei vettori X =(8,3,4,1) Y =(2,9,6,3) Le medie sono X = 4 Y = 5 Adesso costruiamo la tabella X k X Y k Y

Calcolo della covarianza Calcoliamo la covarianza dei vettori X =(8,3,4,1) Y =(2,9,6,3) Le medie sono X = 4 Y = 5 Adesso costruiamo la tabella X k X Y k Y 8 4 2 5 3 4 9 5 4 4 6 5 1 4 3 5 43 / 65

Calcolo della covarianza Calcoliamo la covarianza dei vettori X =(8,3,4,1) Y =(2,9,6,3) Le medie sono X = 4 Y = 5 Adesso costruiamo la tabella X k X Y k Y 4 3 1 4 0 1 3 2 44 / 65

Calcolo della covarianza Calcoliamo la covarianza dei vettori X =(8,3,4,1) Y =(2,9,6,3) Le medie sono X = 4 Y = 5 Adesso costruiamo la tabella X k X Y k Y prodotto 4 3 1 4 0 1 3 2 45 / 65

Calcolo della covarianza Calcoliamo la covarianza dei vettori X =(8,3,4,1) Y =(2,9,6,3) Le medie sono X = 4 Y = 5 Adesso costruiamo la tabella X k X Y k Y prodotto 4 3 12 1 4 4 0 1 0 3 2 6 46 / 65

Calcoliamo la covarianza dei vettori X =(8,3,4,1) Y =(2,9,6,3) Calcolo della covarianza Le medie sono X = 4 Y = 5 Adesso costruiamo la tabella X k X Y k Y prodotto 4 3 12 1 4 4 0 1 0 3 2 6 10 47 / 65

Calcoliamo la covarianza dei vettori X =(8,3,4,1) Y =(2,9,6,3) Calcolo della covarianza Le medie sono X = 4 Y = 5 Adesso costruiamo la tabella X k X Y k Y prodotto 4 3 12 1 4 4 0 1 0 3 2 6 10 Cov(X,Y)= 10 4 = 2.5 47 / 65

Il coefficiente di correlazione lineare 48 / 65 A partire dalla covarianza si introduce un nuovo indice chiamato coefficiente di correlazione lineare è definito come r(x,y)= Cov(X,Y) s X s Y

Il coefficiente di correlazione lineare 48 / 65 A partire dalla covarianza si introduce un nuovo indice chiamato coefficiente di correlazione lineare è definito come r(x,y)= Cov(X,Y) s X s Y Questo coefficiente indicherà, come vedremo più avanti, con che bontà una retta approssima il diagramma di dispersione di X e Y.

Retta di regressione lineare 49 / 65 In questa lezione andiamo a determinare uno strumento qualitativo che ci permetta di individuare quanto due variabili dipendano da un legge di tipo lineare. Cioè del tipo Y = mx + q

Retta di regressione lineare 49 / 65 In questa lezione andiamo a determinare uno strumento qualitativo che ci permetta di individuare quanto due variabili dipendano da un legge di tipo lineare. Cioè del tipo Y = mx + q L idea è di misurare quale errore si commette nel rappresentare il diagramma di dispersione di due variabili con una singola retta.

Retta di regressione lineare 50 / 65 Nella figura 40 30 20 10 5 10 15 20 25 30 35 la retta verde non passa per tutti i punti, ma forse tra tutte le rette è quella che meglio rappresenta il diagramma di dispersione.

Retta di regressione lineare 50 / 65 Nella figura 40 30 20 10 5 10 15 20 25 30 35 la retta verde non passa per tutti i punti, ma forse tra tutte le rette è quella che meglio rappresenta il diagramma di dispersione. Come facciamo a determinare l equazione della retta verde in modo che sia la migliore possibile?

50 / 65 Retta di regressione lineare Nella figura 40 30 20 10 5 10 15 20 25 30 35 la retta verde non passa per tutti i punti, ma forse tra tutte le rette è quella che meglio rappresenta il diagramma di dispersione. Come facciamo a determinare l equazione della retta verde in modo che sia la migliore possibile? Qual è l errore nel rappresentare il legame tra le due variabili tramite l equazione della retta verde?

Retta di regressione lineare sulla X 51 / 65 Dati i vettori X =(X 1,X 2,X 3,X 4 ) Y =(Y 1,Y 2,Y 3,Y 4 ) tracciamo assieme alla nuvola di punti una generica retta di equazione y = mx + q. 5 4 3 y = mx + q 2 1-1 1 2 3 4

-1 1 2 3 4 52 / 65 5 4 3 P k =(X k,y k ) o 2 (X k,mx k + q) 1 Per ogni punto P k =(X k,y k ) misuriamo la differenza tra l ordinata del punto P k e l ordinate del punto sulla retta di ascissa X k.

-1 1 2 3 4 53 / 65 5 4 3 2 P k =(X k,y k ) o e k (X k,mx k + q) 1 Indicando con e k l errore si ottiene un nuovo vettore e =(e 1,...,e N )

-1 1 2 3 4 53 / 65 5 4 3 2 P k =(X k,y k ) o e k (X k,mx k + q) 1 Indicando con e k l errore si ottiene un nuovo vettore Osservazione e =(e 1,...,e N ) e k > 0 se P k si trova sopra la retta e k < 0 se P k si trova sotto la retta

54 / 65 Gli errori e =(e 1,...,e N ) dipendono dalla scelta delle retta y = mx + q

54 / 65 Gli errori e =(e 1,...,e N ) dipendono dalla scelta delle retta y = mx + q Utilizziamo i seguenti criteri:

54 / 65 Gli errori e =(e 1,...,e N ) dipendono dalla scelta delle retta y = mx + q Utilizziamo i seguenti criteri: la retta dovrebbe passare il più possibile al centro del diagramma di dispersione, cioè per un punto che si trova sopra la retta dovrebbe esserci un altro punto che si trova sotto alla stessa distanza.

54 / 65 Gli errori e =(e 1,...,e N ) dipendono dalla scelta delle retta y = mx + q Utilizziamo i seguenti criteri: la retta dovrebbe passare il più possibile al centro del diagramma di dispersione, cioè per un punto che si trova sopra la retta dovrebbe esserci un altro punto che si trova sotto alla stessa distanza. il vettore degli errori dovrebbe essere il meno disperso possibile.

54 / 65 Gli errori e =(e 1,...,e N ) dipendono dalla scelta delle retta y = mx + q Utilizziamo i seguenti criteri: la retta dovrebbe passare il più possibile al centro del diagramma di dispersione, cioè per un punto che si trova sopra la retta dovrebbe esserci un altro punto che si trova sotto alla stessa distanza. il vettore degli errori dovrebbe essere il meno disperso possibile. I due criteri sono soddisfati se:

54 / 65 Gli errori e =(e 1,...,e N ) dipendono dalla scelta delle retta y = mx + q Utilizziamo i seguenti criteri: la retta dovrebbe passare il più possibile al centro del diagramma di dispersione, cioè per un punto che si trova sopra la retta dovrebbe esserci un altro punto che si trova sotto alla stessa distanza. il vettore degli errori dovrebbe essere il meno disperso possibile. I due criteri sono soddisfati se: 1 la media di e è zero;

54 / 65 Gli errori e =(e 1,...,e N ) dipendono dalla scelta delle retta y = mx + q Utilizziamo i seguenti criteri: la retta dovrebbe passare il più possibile al centro del diagramma di dispersione, cioè per un punto che si trova sopra la retta dovrebbe esserci un altro punto che si trova sotto alla stessa distanza. il vettore degli errori dovrebbe essere il meno disperso possibile. I due criteri sono soddisfati se: 1 la media di e è zero; 2 la deviazione standard di e è la minore possibile.

La condizione e = 0 55 / 65 Criterio La media degli errori è zero se e solo se il punto P =(X,Y) appartiene alla retta La retta ha quindi equazione y Y = m(x X)

La condizione e = 0 55 / 65 Criterio La media degli errori è zero se e solo se il punto P =(X,Y) appartiene alla retta La retta ha quindi equazione y Y = m(x X) 6 4 2 P =(X,Y) -1 1 2 3 4-2

La condizione s e minima 56 / 65 Per individuare univocamente la retta y Y = m(x X) dobbiamo determinare il coefficiente angolare m.

La condizione s e minima 56 / 65 Per individuare univocamente la retta y Y = m(x X) dobbiamo determinare il coefficiente angolare m. La condizione che la deviazione standard s e degli errori sia la minore possibile implica...

La condizione s e minima 56 / 65 Per individuare univocamente la retta y Y = m(x X) dobbiamo determinare il coefficiente angolare m. La condizione che la deviazione standard s e degli errori sia la minore possibile implica... m = Cov(X,Y) Var(X)

Retta di regressione lineare sulla X 57 / 65 In conclusione si ha la seguente

57 / 65 Retta di regressione lineare sulla X In conclusione si ha la seguente Proposizione Una retta soddisfa alle due condizioni la media di e è zero, la deviazione standard di e è la minore possibile, se ha equazione y Y = Cov(X,Y) (x X) Var(X) e si chiama retta di regressione lineare sulla X

Retta di regressione lineare sulla Y 58 / 65 Torniamo alla definizione degli e k. 5 4 3 2 P k =(X k,y k ) o e k (X k,mx k + q) 1-1 1 2 3 4

Retta di regressione lineare sulla Y 58 / 65 Torniamo alla definizione degli e k. 5 4 3 2 P k =(X k,y k ) o e k (X k,mx k + q) 1-1 1 2 3 4 Pensiamo adesso di definire gli e k tenendo conto degli errori orizzontali, cioè

Retta di regressione lineare sulla Y 59 / 65 5 4 e k 3 2 1-1 1 2 3 4

Retta di regressione lineare sulla Y 60 / 65 Con un ragionamento analogo a quello visto prima si ottiene la retta y Y = Var(Y) (x X) Cov(X,Y)

Retta di regressione lineare sulla Y 60 / 65 Con un ragionamento analogo a quello visto prima si ottiene la retta y Y = Var(Y) (x X) Cov(X,Y) In conclusione si ottengono due rette di regressione lineare, una sulla X ed una sulla Y le cui equazioni sono: rettasullax y Y = m X (x X) m X = Cov(X,Y) Var(X) rettasullay y Y = m Y (x X) m Y = Var(Y) Cov(X, Y)

Rette di regressione lineare 61 / 65 Le due rette di regressione lineare r X e r Y passano entrambe per lo stesso punto P =(X,Y) e formano un angolo a tra di loro. 6 r Y 4 2 a P =(X,Y) r X -1 1 2 3 4-2

Rette di regressione lineare 62 / 65 Possiamo distinguere i seguenti casi limite a w 0, in questo caso le due rette coincidono e la nuvola di punti può essere ben rappresentata dall unica retta di regressione lineare;

Rette di regressione lineare 62 / 65 Possiamo distinguere i seguenti casi limite a w 0, in questo caso le due rette coincidono e la nuvola di punti può essere ben rappresentata dall unica retta di regressione lineare; a w p 2, in questo caso le due rette sono ortogonali e la nuvola di punti non può essere rappresentata dalle rette di regressione lineare.

Rette di regressione lineare 63 / 65 10 17.5 15 a w 0 8 a grande 12.5 10 6 7.5 5 4 2.5 2 2 4 6 8 10 2 4 6 8 10 12

Analisi dell angolo a 64 / 65 se a w 0, le due rette coincidono e quindi m X w m Y ;

64 / 65 Analisi dell angolo a se a w 0, le due rette coincidono e quindi m X w m Y ; se a w p 2, in questo caso le due rette sono ortogonali ed in più quella sulla X diviene orizzontale (m X = 0) mentre quella sulla Y verticale (m Y = ).

64 / 65 Analisi dell angolo a se a w 0, le due rette coincidono e quindi m X w m Y ; se a w p 2, in questo caso le due rette sono ortogonali ed in più quella sulla X diviene orizzontale (m X = 0) mentre quella sulla Y verticale (m Y = ). Possiamo quindi considerare la quantità m X m Y

Analisi dell angolo a 64 / 65 se a w 0, le due rette coincidono e quindi m X w m Y ; se a w p 2, in questo caso le due rette sono ortogonali ed in più quella sulla X diviene orizzontale (m X = 0) mentre quella sulla Y verticale (m Y = ). Possiamo quindi considerare la quantità m X m Y Dalle formule trovate prima si ha m X m Y = Cov(X,Y) Var(X) Var(Y) Cov(X,Y) = Cov(X,Y)2 Var(X)Var(Y) = Cov(X,Y) 2 = r 2 s X s Y

Il coefficiente di correlazione lineare 65 / 65 Abbiamo quindi dimostrato che il coefficiente di correlazione lineare soddisfa m X m Y = r 2

Il coefficiente di correlazione lineare 65 / 65 Abbiamo quindi dimostrato che il coefficiente di correlazione lineare soddisfa m X m Y = r 2 da cui segue che se r 2 w 1, allora m X w m Y ed in più se r w 1 la retta è crescente se r w 1 la retta è decrescente

Il coefficiente di correlazione lineare 65 / 65 Abbiamo quindi dimostrato che il coefficiente di correlazione lineare soddisfa m X m Y = r 2 da cui segue che se r 2 w 1, allora m X w m Y ed in più se r w 1 la retta è crescente se r w 1 la retta è decrescente se r 2 w 0, le due rette sono quasi ortogonali.

Il coefficiente di correlazione lineare 65 / 65 Abbiamo quindi dimostrato che il coefficiente di correlazione lineare soddisfa m X m Y = r 2 da cui segue che se r 2 w 1, allora m X w m Y ed in più se r w 1 la retta è crescente se r w 1 la retta è decrescente se r 2 w 0, le due rette sono quasi ortogonali. In termini di dipendenza lineare delle variabili X e Y si ha

Il coefficiente di correlazione lineare 65 / 65 Abbiamo quindi dimostrato che il coefficiente di correlazione lineare soddisfa m X m Y = r 2 da cui segue che se r 2 w 1, allora m X w m Y ed in più se r w 1 la retta è crescente se r w 1 la retta è decrescente se r 2 w 0, le due rette sono quasi ortogonali. In termini di dipendenza lineare delle variabili X e Y si ha se r 2 w 1, le due variabili sono dipendenti da una legge lineare se r w 1 la nuvola di punti è crescente se r w 1 la nuvola di punti è decrescente

Il coefficiente di correlazione lineare Abbiamo quindi dimostrato che il coefficiente di correlazione lineare soddisfa m X m Y = r 2 da cui segue che se r 2 w 1, allora m X w m Y ed in più se r w 1 la retta è crescente se r w 1 la retta è decrescente se r 2 w 0, le due rette sono quasi ortogonali. In termini di dipendenza lineare delle variabili X e Y si ha se r 2 w 1, le due variabili sono dipendenti da una legge lineare se r w 1 la nuvola di punti è crescente se r w 1 la nuvola di punti è decrescente se r 2 w 0, le due variabili non sono dipendenti da una legge lineare. 65 / 65