Statistica descrittiva in due variabili

Statistica descrittiva in due variabili Dott Nicola Pintus AA 2018-2019

Indichiamo con U la popolazione statistica e con u i le unità statistiche Ad ogni unità statistica associamo i caratteri osservati x i, y i u i (x i, y i ) Otteniamo quindi due serie di n-uple ordinate X = (x 1, x 2, ) Y = (y 1, y 2, )

Fino ad ora ad ogni unità statistica associavamo un solo carattere osservato Ora consideriamo due caratteri per ogni unità statistica Primo problema Come estendere la rappresentazione tabellare a questa situazione? Secondo problema Con quale probabilità posso affermare che i due caratteri dipendono? Terzo problema Quale tipo di dipendenza sussiste fra le due variabili?

Tabelle a due entrate Esempio Abbiamo misurato altezza e peso in un gruppo di 10 bambini che frequentano un corso di arti marziali: (u 1, 91, 17) (u 2, 95, 19) (u 3, 99, 27) (u 4, 100, 29) (u 5, 94, 21) (u 6, 96, 19) (u 7, 110, 22) (u 8, 99, 25) (u 9, 127, 32) (u 10, 92, 17) Costruiamo le modalità per l altezza e le modalità per il peso M 1 = [90, 110) M 2 = [110, 130) N 1 = [15, 25) N 2 = [25, 35)

Tabelle a due entrate Distribuzioni di frequenze assolute Coloriamo i caratteri a seconda della modalità di appartenenza: (u 1, 91, 17) (u 2, 95, 19) (u 3, 99, 27) (u 4, 100, 29) (u 5, 94, 21) (u 6, 96, 19) (u 7, 110, 22) (u 8, 99, 25) (u 9, 127, 32) (u 10, 92, 17) Creiamo la tabella a due entrate, detta tabella di contingenza: P A [90, 110) [110, 130) [15, 25) 5 1 [25, 35) 3 1 Le entrate di questa tabella sono le frequenze assolute osservate Attenzione! La rappresentazione tabellare dipende dalle modalità scelte per i due caratteri

Tabelle a due entrate Distribuzioni marginali P A [90, 110) [110, 130) [15, 25) 5 1 6 [25, 35) 3 1 4 8 2 10 In rosso abbiamo indicato la distribuzione marginale orizzontale

Tabelle a due entrate Distribuzioni condizionate P A [90, 110) [110, 130) [15, 25) 5 1 6 [25, 35) 3 1 4 8 2 10 In rosso abbiamo indicato la distribuzione di A condizionata ad avere la variabile P nell intervallo [15, 25)

Variabili indipendenti Definizione Due variabili sono indipendenti se le distribuzioni orizzontali relative (eventualmente trasformate in percentuali) coincidono con la distribuzione marginale orizzontale P A [90, 110) [110, 130) [15, 25) 83% 17% [25, 35) 75% 25% 80% 20%

Variabili indipendenti Se alle variabili X e Y si associano rispettivamente le modalità {N 1, } e {M 1, } allora Definizione X Y M 1 M 2 M h N 1 f 11 f 12 f 1h f 1 N 2 f 21 f 22 f 2h f 2 N k f k1 f k2 f kh f k f 1 f 2 f h N X e Y sono indipendenti se 1 1 1 f 1 (f 11, ), f 2 (f 21, ), f k (f k1, ) e 1 N (f 1, f 2, ) coincidono

Variabili indipendenti Se X e Y sono indipendenti allora ovvero f ij = f j f i N f ij = f i f j N i, j i, j Definizione Indichiamo con ν ij = f i f j N le frequenze attese Ne discende che due variabili sono indipendenti se le frequenze osservate coincidono con quelle attese

Dipendenza fra variabili Il test χ 2 Problema: capire se le variabili X e Y dipendono Le variabili X e Y dipendono se le frequenze ottenute f ij sono molto differenti da quelle attese ν ij Una proposta per misurare quanto le frequenze osservate sono diverse dalle frequenze attese è il calcolo di χ 2 = k h i=1 j=1 (f ij ν ij ) 2 ν ij La quantità χ 2 è proporzionale allo scarto quadratico medio fra le frequenze osservate e le frequenze attese pesato rispetto alle frequenze attese

Dipendenza fra variabili Il test χ 2 : l esempio guida Esempio Dobbiamo studiare una macchina diagnostica sui tumori Consideriamo un campione di 30 persone di cui 15 sane e 15 malate Abbiamo ottenuto i seguenti risultati: Positivo Negativo Malato 12 3 15 Sano 5 10 15 17 13 30 Ricaviamo la tabella delle frequenze attese: Positivo Negativo Malato 85 65 Sano 85 65

Dipendenza fra variabili Il test χ 2 : l esempio guida Calcoliamo χ 2 : χ 2 = (12 85)2 85 + (3 65)2 65 + (5 85)2 85 + (10 65)2 65 665 Abbiamo calcolato χ 2 Come procediamo adesso? Da un punto di vista qualitativo se χ 2 è grande allora X e Y sono dipendenti Al contrario se χ 2 è vicino a 0 allora X e Y sono indipendenti Il test χ 2 ci permette di calcolare con che fiducia si può affermare che le due variabili sono dipendenti

Dipendenza fra variabili Il test χ 2 : l esempio guida Prima dobbiamo calcolare il numero dei gradi di libertà: df = (h 1)(k 1) Per l esempio che stiamo considerando abbiamo che df = 1

Dipendenza fra variabili Il test χ 2 : l esempio guida Per il calcolo di valore di fiducia dobbiamo consultare la tabella dei valori critici Concentriamoci alla riga per cui si ha df = 1 Abbiamo ottenuto χ 2 665: in tale riga consideriamo il più grande valore minore di χ 2 α df 01 005 0025 001 0005 0001 1 2706 3841 5024 6635 7879 1083 2 4605 5991 7378 9210 1060 1382 3 6251 7815 9348 1134 1284 1627 Nella tabella si ha 6635 a cui corrisponde α = 001 Il valore α% è la percentuale di errore che si commette nell affermare che due variabili sono dipendenti

Dipendenza fra variabili Il test χ 2 : l esempio guida α% è la percentuale di sfiducia, allora (1 α)% è la percentuale di fiducia di dipendenza delle due variabili Per l esempio che stiamo considerando abbiamo che F = 1 001 = 99% Dunque possiamo affermare che le due variabili sono dipendenti con una fiducia del 99%

Dipendenza fra variabili Il test χ 2 Esempio Vogliamo confrontare l efficacia di due farmaci che curano la stessa malattia I due farmaci hanno diversi prezzi Vogliamo capire se il prezzo del farmaco sia dipendente dall efficacia del farmaco Su un campione di 250 malati otteniamo i seguenti risultati: Farmaco caro Farmaco economico Guarigione 45 154 Non guarigione 5 46

Dipendenza fra variabili Il test χ 2 Determiniamo le frequenze attese: Farmaco caro Farmaco economico Guarigione 398 1592 199 Non guarigione 102 408 51 50 200 Calcoliamo χ 2 : χ 2 = (398 45)2 398 + (1592 154)2 1592 Il numero dei gradi di libertà è 1 + (102 5)2 102 + (408 46)2 406 416

Dipendenza fra variabili Il test χ 2 Per il calcolo di valore di fiducia dobbiamo consultare la tabella dei valori critici Concentriamoci alla riga per cui si ha df = 1 Abbiamo ottenuto χ 2 416: in tale riga consideriamo il più grande valore minore di χ 2 α df 01 005 0025 001 0005 0001 1 2706 3841 5024 6635 7879 1083 2 4605 5991 7378 9210 1060 1382 3 6251 7815 9348 1134 1284 1627 Il livello di fiducia è F = 1 005 = 95%

Dipendenza fra variabili Il test χ 2 Esempio Sono dati i vettori X = (3, 0, 3, 4, 9, 9, 2, 2) Y = (2, 1, 1, 4, 4, 8, 2, 2) Calcolare media, mediana e varianza Calcolare con che fiducia le variabili sono dipendenti dividendo l ampiezza di X e Y nei due sottointervalli: valori minori della media; valori maggiori o uguali della media

Dipendenza fra variabili Il test χ 2 Avremo e X = 4 mediana(x ) = 3 Var(X ) = 95 Y = 3 mediana(y ) = 2 Var(Y ) = 475 Per il calcolo della fiducia tramite il test χ 2 abbiamo le seguenti modalità: per la variabile X per la variabile Y M 1 = {X < 4}, M 2 = {X 4} N 1 = {X < 3}, N 2 = {X 3}

Dipendenza fra variabili Il test χ 2 Ricaviamo la tabella di contingenza: Y X M 1 M 2 N 1 5 0 5 N 2 0 3 3 5 3 Ricaviamo la tabella delle frequenza attese: Y X M 1 M 2 N 1 3125 1875 5 N 2 1875 1125 3 5 3 8

Dipendenza fra variabili Il test χ 2 Ricaviamo il valore di χ 2 : χ 2 = (5 3125)2 3125 + (0 1875)2 1875 + (0 1875)2 1875 + (3 1125)2 1125 = 8 Il numero dei gradi di libertà è 1 Consultiamo la tabella dei valori critici nella riga in cui si ha df = 1 α df 01 005 0025 001 0005 0001 1 2706 3841 5024 6635 7879 1083 Il valore più grande minore di χ 2 è nella colonna per cui α = 0005 Quindi il livello di fiducia è F = 1 α = 995%

Diagramma di dispersione Supponiamo di aver misurato su un campione statistico U due variabili statistiche X e Y di tipo quantitativo X = (x 1, x 2,, x N ) Y = (y 1, y 2,, y N ) Vogliamo capire se è possibile determinare una funzione y = f (x) tale che approssimi bene l associazione x i y i

Diagramma di dispersione Consideriamo l insieme delle coppie {(x i, y i )} e disegnamo questi punti in un piano cartesiano Esempio sull altezza e peso dei 10 bambini del corso di arti marziali 35 30 y 25 20 95 100 105 110 115 120 125 130 x

La regressione lineare Il diagramma di dispersione può farci intuire che tipo di funzione f i dati seguono Andremo ad analizzare una situazione particolare, cercando di capire come risolvere i due seguenti problemi: trovare un modo quantitativo per decidere quanto il diagramma di dispersione sia sufficientemente vicino a seguire un andamento di una retta; se il diagramma di dispersione è sufficientemente vicino a seguire l andamento di una retta allora trovare l equazione di questa retta Quindi il caso particolare che stiamo analizzando è quello per cui f è l equazione di una retta

La covarianza Definizione Date due serie di dati X = (x 1,, x N ) e Y = (y 1,, y N ) definiamo covarianza di X e Y Cov(X, Y ) = 1 N N (x i X )(y i Y ) = XY X Y i=1 La covarianza di X e Y è un numero che fornisce una misura di quanto le due varino assieme (ossia è una misura della loro dipendenza) Cov(X, Y ) > 0 significa che all aumentare (rispettivamente diminuire) di una variabile anche l altra aumenta (risp diminuisce) Cov(X, Y ) < 0 significa che all aumentare (rispettivamente diminuire) di una variabile anche l altra diminuisce (risp aumenta)

Diagramma di dispersione Covarianza positiva

Diagramma di dispersione Covarianza negativa

Diagramma di dispersione Covarianza nulla

Diagramma di dispersione Covarianza Esempio Calcoliamo Cov(X, Y ) in cui Le medie sono X = 4 e Y = 5 X = (8, 3, 4, 1) Y = (2, 9, 6, 3) x k y k x k X y k Y (x k X )(y k Y ) 8 2 4 3 12 3 9 1 4 4 4 6 0 1 0 1 3 3 2 6 Cov(X, Y ) = 1 4 4 i=1 (x i X )(y i Y ) = 10 4 = 25

Diagramma di dispersione Coefficiente di correlazione lineare Definizione Date due serie di dati X = (x 1,, x N ) e Y = (y 1,, y N ) definiamo il coefficiente di correlazione lineare di X e Y A volte viene indicato anche con r ρ(x, Y ) = Cov(X, Y ) σ X σ Y ρ(x, Y ) è un numero compreso fra 1 e 1 Questo coefficiente è un indice che esprime un eventuale relazione di linearità fra X e Y Se ρ 1 allora fra i caratteri sussiste un legame lineare Teorema Se X e Y sono variabili indipendenti allora ρ(x, Y ) = 0

Diagramma di dispersione Coefficiente di correlazione lineare 4 2 ρ = 1 4 2 ρ = 05 4 3 2 1 ρ = 0 2 4 ρ = 05 2 4 ρ = 1 1 2 3 4 4 2 4 2 2 4 2 4

Diagramma di dispersione La retta di regressione lineare Dobbiamo cercare di risolvere il problema di individuare quanto due variabili dipendano da una legge di tipo lineare Quale è la migliore retta y = mx + q che approssima i dati? 35 30 y 25 20 95 100 105 110 115 120 125 130 x

Diagramma di dispersione La retta di regressione lineare y (x k, mx k + q) P k = (x k, y k ) x Per ogni punto del diagramma di dispersione misuriamo la differenza fra l ordinata del punto P k = (x k, y k ) e l ordinata del punto sulla retta di ascissa x k Otteniamo il vettore ɛ in cui ɛ k = y k (mx k + q) ɛ = (ɛ 1,, ɛ N )

Diagramma di dispersione La retta di regressione lineare La migliore retta, ovvero quella che chiameremo retta di regressione, sarà quella per cui il vettore degli errori verticali ɛ è tale che ɛ = 0; Var(ɛ) è la più piccola possibile Si può dimostrare che tale retta ha equazione: y Y = Cov(X, Y ) Var(X ) ( x X )

Diagramma di dispersione La retta di regressione lineare Questione: ma se calcolassimo la retta considerando gli errori orizzontali, la retta di regressione che otteniamo è uguale? Non necessariamente Si può dimostrare che la retta che rende nulla la media degli errori orizzontali e la varianza la più piccola ha equazione y Y = Var(Y ) ( ) x X Cov(X, Y )

Diagramma di dispersione La retta di regressione lineare Dunque, otteniamo due rette di regressione, l una che utilizza gli errori verticali e l altra che utilizza gli errori orizzontali retta sulla X y Y = m X ( x X ) m X = Cov(X,Y ) Var(X ) retta sulla Y y Y = m Y ( x X ) my = Var(Y ) Cov(X,Y )

Diagramma di dispersione La retta di regressione lineare Esempio Consideriamo i due vettori X = (1, 2, 1, 3, 2, 1) Y = (1, 3, 2, 3, 2, 3) Trovare le rette di regressione Facilmente troviamo che X = 5 3 Y = 7 3

Diagramma di dispersione La retta di regressione lineare Esempio Calcoliamo Var(X ), Var(Y ) e Cov(X, Y ) Quindi abbiamo che x k x k X y k y k Y 1 1 5 3 = 2 3 1 1 7 3 = 4 3 2 2 5 3 = 1 3 3 3 7 3 = 2 3 1 1 5 3 = 2 3 2 2 7 3 = 1 3 3 3 5 3 = 4 3 3 3 7 3 = 2 3 2 2 5 3 = 1 3 2 2 7 3 = 1 3 1 1 5 3 = 2 3 3 3 7 3 = 2 3 Cov(X, Y ) = 5 18, Var(X ) = 5 9, Var(Y ) = 5 9

Diagramma di dispersione La retta di regressione lineare La retta di regressione sulla X è y 7 3 = 5 12 La retta di regressione sulla Y è y 7 3 = 12 5 ( x 5 ) 3 ( x 5 ) 3 4 3 2 1 y r Y r X x 05 1 15 2 25 3 35 4

Diagramma di dispersione La retta di regressione lineare Ritorniamo al problema che stiamo risolvendo: quando il diagramma di dispersione è sufficientemente vicino ad essere il grafico di una retta? Quando le due rette di regressione approssimativamente coincidono Come troviamo una misura di ciò? Andremo a misurare l angolo θ che le due rette formano: 4 y r Y 3 2 θ r X 1 x 1 2 3 4

Diagramma di dispersione La retta di regressione lineare Se θ 0 allora le due rette hanno i coefficienti angolari quasi uguali (m X m Y ), la nuvola dei dati può essere ben rappresentata dall unica retta di regressione Più θ è maggiore di 0 più la nuvola dei dati non può essere rappresentata dalle rette di regressione lineare θ 0 θ 0 4 4 2 2 2 4 2 4

Diagramma di dispersione La retta di regressione lineare Consideriamo la quantità: Allora m X m Y m X m Y = Cov(X, Y ) Var(X ) Var(Y ) Cov(X, Y ) = Cov(X, Y )2 Var(X )Var(Y ) = ( ) Cov(X, Y ) 2 σ X σ Y Quindi m X m Y = ( ) Cov(X, Y ) 2 = ρ(x, Y ) 2 σ X σ Y

Diagramma di dispersione La retta di regressione lineare Definizione Date due serie di dati X = (x 1,, x N ) e Y = (y 1,, y N ) definiamo l indice di determinazione o coefficiente di determinazione di X e Y la quantità ρ(x, Y ) 2 Il valore ρ(x, Y ) 2 rappresenta una percentuale di quanta parte di variazione di un carattere è spiegata dal legame lineare con l altro carattere

Diagramma di dispersione La retta di regressione lineare Esempio Sono dati i vettori X = (1, 2, 3, 4) Y = (05, 2, 27, 3) Disegnare in un diagramma di dispersione i dati Ricavare le rette di regressione di X Ricavare il coefficiente di determinazione e dire se i dati seguono una legge di tipo lineare

Diagramma di dispersione La retta di regressione lineare Il diagramma di dispersione è 4 3 2 1 y 1 2 3 4 x Abbiamo che X = 5 2 Y = 41 20 Var(X ) = 5 4 Var(Y ) = 373 40 Cov(X, Y ) = 41 40

Diagramma di dispersione La retta di regressione lineare Da cui abbiamo che y 41 20 = 41 50 (x 5 2 ) e y 41 20 = 373 410 (x 5 2 ) 4 3 2 1 y r Y r X x 1 2 3 4 Poi abbiamo che ρ(x, Y ) 2 90%

Diagramma di dispersione La retta di regressione lineare Esempio Sono dati i vettori X = (0, 1, 2) Y = (01, 09, 22) Disegnare in un diagramma di dispersione i dati Ricavare le rette di regressione Ricavare il coefficiente di determinazione e dire se i dati seguono una legge di tipo lineare

Diagramma di dispersione La retta di regressione lineare Il diagramma di dispersione è 2 y 1 1 2 x Abbiamo che X = 1 Y = 16 15 Var(X ) = 2 3 Var(Y ) = 337 300 Cov(X, Y ) = 21 20

Diagramma di dispersione La retta di regressione lineare Da cui abbiamo che y 16 15 = 21 (x 1) 20 e 16 y 15 = 337 (x 1) 315 2 y r Y r X 1 05 05 1 15 2 25 Poi abbiamo che ρ(x, Y ) 2 98% x

Esercizio Un ricercatore era interessato a studiare l effetto di diverse dosi di un farmaco sulla frequenza delle pulsazioni umane Nell esperimento sono state usate quattro dosi A ognuna delle dosi erano state abbinate in modo casuale tre persone Dopo aver registrato le pulsazioni di ogni individuo a priori, ai soggetti è stata somministrata la dose prevista Le pulsazioni furono registrate dopo un ora I cambiamenti nelle pulsazioni in battiti al minuto sono riportati nella tabella qui sotto Dose (ml/kg peso corporeo) 15 15 15 20 20 20 Cambiamento pulsazioni (bpm) 20 21 19 16 17 17 Dose (ml/kg peso corporeo) 25 25 25 30 30 30 Cambiamento pulsazioni (bpm) 15 13 14 8 10 8 Per semplicità di esposizione la tabella è stata divisa in due 1 Calcolare l equazione delle rette di regressione del cambiamento delle pulsazioni in funzione della dose assunta 2 Calcolare l indice di determinazione e commentare il risultato