DISTRIBUZIONE CAMPIONARIA CONGIUNTA Finora ci siamo occupati di medie e scarti ma dobbiamo anche affrontare il problema di studiare le relazioni tra insiemi di dati. La media e la deviazione standard possono essere usate per descrivere una singola distribuzione di frequenza ma non ci dicono nulla sulle eventuali relazioni tra due variabili.
ESEMPI studio la relazione tra indice di affollamento delle città e la mortalità infantile. Studio la relazione peso e altezza di individui di una popolazione; Studio le variabili di un censimento di una popolazione. Il tasso di mortalità infantile (morti nel primo anno di vita) su 1. nati vivi «decresce quando il numero di abitanti/stanza (indice di affollamento) decresce» In altri termini «la mortalità infantile cresce con l'indice di affollamento». Come concludo? Esiste a) relazione di causa effetto. b) associazione (generica). c) correlazione (mutua influenza).
relazione causa-effetto associazione Tra due o più variabili quantitative rilevate nel medesimo soggetto possono esistere tre tipi di relazione: 1. relazione tra causa ed effetto (criteri di Bradford Hill). 2. associazione statistica (generica) 3. correlazione (mutua influenza). (due variabili vengono dette associate quando la distribuzione dell'una influenza la distribuzione dell'altra).
nota bene: l'associazione statistica non implica l'esistenza di una relazione di causa effetto È stato osservata una forte associazione tra il numero di divorzi e la quantità di tabacco importata in Inghilterra negli anni 5'. Da questa osservazione si potrebbe indurre che: il tabacco è causa di discordia familiare ovvero che coloro che divorziano di consolano fumando. Più semplicemente si deve concludere che tra tabacco e numero di divorzi esiste una relazione in quanto entrambe dipendono dallo sviluppo economico.
Potremmo, ad esempio, essere interessati a valutare il grado di associazione tra l'altezza e il peso della stessa persona all interno di un gruppo di persone, tra il reddito medio pro-capite di un Paese e il tasso di mortalità neonatale, tra età della madre e numero di nati affetti da sindrome di Down e così via. Il primo passo da compiere quando si vuole studiare una relazione tra due variabili consiste nell'elencare le coppie di valori relative alle due variabili in studio e rappresentarle graficamente
Correlazione Misura di associazione tra 2 variabili quantitative Risponde alla domanda: esiste un associazione lineare tra le variabili?
Esempio: campione casuale di 2 donne Gruppo di donne di una determinata area geografica invitate a sottoporsi a un prelievo di sangue per la determinazione del livello di emoglobina (Hb) e dell ematocrito (PCV). Percentuale di adesione: circa il 9%.
Esempio: campione casuale di 2 donne ID Hb PCV Età (g/dl) (%) (anni) 1 11,1 35 2 2 1,7 45 22 3 12,4 47 25 4 14, 5 28 5 13,1 31 28 6 1,5 3 31 7 9,6 25 32 8 12,5 33 35 9 13,5 35 38 1 13,9 4 4 11 15,1 45 45 12 13,9 47 49 13 16,2 49 54 14 16,3 42 55 15 16,8 4 57 16 17,1 5 6 17 16,6 46 62 18 16,9 55 63 19 15,7 42 65 2 16,5 46 67 Hb (g/dl) 2 16 12 8 4 1 2 3 4 5 6 PCV (%)
Vogliamo analizzare la relazione fra Hb e PCV. Non ci chiediamo se Hb influenzi PCV o PCV influenzi Hb, o se un alto valore di PCV causi un alto valore di Hb, ma se le due variabili sono associate Il coefficiente di correlazione del campione (r= coefficiente di correlazione di Pearson) ci permette di: verificare l ipotesi che vi sia associazione fra le variabili o se l apparente associazione possa essere dovuta al caso riassumere la forza della relazione lineare fra le variabili
Hb e PCV: dall analisi del grafico, come descriveresti l associazione fra le due variabili? 2 16 Hb (g/dl) 12 8 4 1 2 3 4 5 6 PCV (%)
Dato un insieme di coppie di osservazioni (x 1,y 1 ), (x 2,y 2 ),, (x n,y n ), ) ( ) ( ) )( ( 1 1 2 2 1 n i n i i i n i i i y y x x y y x x r Calcolo di r
Esempio: Hb = x, PCV = y x 14.12 y 41. 65 n i 1 x y ( x x) ( y y) ( x x)( y y) 2 ( x x) 2 ( y y) 11.1 35-3.2-6.65 2.83 9.12 44.2225 1.7 45-3.42 3.35-11.457 11.7 11.2225 12.4 47-1.72 5.35-9.22 2.96 28.6225 14. 5 -.12 8.35-1.2.1 69.7225 13.1 31-1.2-1.65 1.863 1.4 113.4225 1.5 3-3.62-11.65 42.173 13.1 135.7225 9.6 25-4.52-16.65 75.258 2.43 277.2225 12.5 33-1.62-8.65 14.13 2.62 74.8225 13.5 35 -.62-6.65 4.123.38 44.2225 13.9 4 -.22-1.65.363.5 2.7225 15.1 45.98 3.35 3.283.96 11.2225 13.9 47 -.22 5.35-1.177.5 28.6225 16.2 49 2.8 7.35 15.288 4.33 54.225 16.3 42 2.18.35.763 4.75.1225 16.8 4 2.68-1.65-4.422 7.18 2.7225 17.1 5 2.98 8.35 24.883 8.88 69.7225 16.6 46 2.48 4.35 1.788 6.15 18.9225 16.9 55 2.78 13.35 37.113 7.73 178.2225 15.7 42 1.58.35.553 2.5.1225 16.5 46 2.38 4.35 1.353 5.66 18.9225 2 2 ( x x)( y y) 242.64 ( x) ( y y) 36. 33 i i n n 242.64 x r. 67 i 36.33 i i 1 i 1
Interpretazione di r Il coefficiente di correlazione r è una quantità a-dimensionale varia da -1 a 1 è positivo quando i valori delle variabili crescono insieme è negativo quando i valori di una variabile crescono al decrescere dei valori dell altra non è influenzato dalle unità di misura
IMPORTANTE: Un elevata correlazione fra due variabili NON implica una relazione causa-effetto
I test di correlazione sono fra le procedure statistiche peggio utilizzate. Sono in grado di dimostrare se due variabili sono correlate, tuttavia NON sono in grado di dimostrare che due variabili NON sono correlate! Se una variabile dipende da un altra, e se vi è una relazione causale, è sempre possibile trovare una qualche forma di correlazione fra le due. Ma se entrambe le variabili dipendono da una terza variabile, potremmo trovare correlazione fra le due variabili di partenza anche se fra di esse non vi fosse nessuna dipendenza causale Esempio: è stata trovata una correlazione fra il numero di ripetitori di telefoni cellulari e la diminuzione del numero dei passerotti. Domanda: sono i ripetitori a danneggiare i passerotti oppure entrambi gli effetti sono causati da qualcos altro? Oppure sono osservazioni completamente indipendenti che per caso appaiono correlate? Non lo sappiamo, i test di correlazione non rispondono a questa domanda e sono necessari altri studi
Direzione dell associazione Correlazione positiva Correlazione negativa
COME APPARE LA CORRELAZIONE: Gli esempi qui riportati si riferiscono alla correlazione tra i valori di uricemia rilevati, in differenti condizioni, con due metodi di misura (X e Y) su un campione di 1 soggetti anziani. Metodo Y (mg/dl) 14 12 1 8 6 4 2 r =.29 2 4 6 8 1 12 14 Metodo X (mg/dl) Metodo Y (mg/dl) 14 12 1 8 6 4 2 r =.861 2 4 6 8 1 12 14 Metodo X (mg/dl) Metodo Y (mg/dl) 14 12 1 8 6 4 2 r =.36 2 4 6 8 1 12 14 Metodo Y (mg/dl) 14 12 1 8 6 4 2 r =.661 2 4 6 8 1 12 14 Metodo X (mg/dl) Metodo X (mg/dl)
La FORZA e il TIPO dell'associazione Il coefficiente di correlazione lineare è indice di quanto i punti si allineano su di una retta, e non risente dell'inclinazione della retta, salvo che per due importanti eccezioni. Y r =.8 Y r =.95 Variabile Y Variabile X Variabile X X Y r =.8 Variabile Y Variabile Y X Y r =.95 Variabile Y Variabile X X Variabile X X
La FORZA e il TIPO dell'associazione Grafici di dispersione per variabili a correlazione elevata o molto elevata Y r =.6 Y r =.95 Variabile Y Variabile X Variabile X X Y r =.8 Variabile Y Variabile Y X Y r =.99 Variabile Y Variabile X X Variabile X X
La FORZA e il TIPO dell'associazione Grafici di dispersione per variabili a correlazione nulla o lieve. Y r =.4 Y r =. Variabile Y Variabile X Variabile X X Y r =.1 Variabile Y Variabile Y X Y r =.2 Variabile Y Variabile X X Variabile X X
La FORZA e il TIPO dell'associazione Il coefficiente di correlazione è positivo se la retta giace nei quadranti I e III, negativo in caso contrario. Se i punti si allineano perfettamente su una retta parallela ad uno dei due assi, il coefficiente di correlazione è indeterminato. Y Y r = -.99 r =.99 Variabile Y Variabile X X Variabile X Y r =.99 Variabile Y Variabile Y X Y r =.99 II I Variabile Y III IV Variabile X X Variabile X X
La FORZA e il TIPO dell'associazione Il coefficiente di correlazione lineare è indice di quanto i punti si allineano su di una retta: vi possono essere associazioni anche forti, ma di tipo non lineare per le quali il coefficiente di correlazione è prossimo a. Y r = -.84 Y r = -.194 Variabile Y Variabile X X Variabile X r = -.158 r = - Variabile Y Variabile Y X Y r = -.41 Variabile Y Variabile Y Variabile X Variabile X Variabile X X
Grado di correlazione Le relazioni si distinguono a secondo del grado di correlazione Elevato grado di correlazione (punti vicini alla linea di regressione ) Basso grado di correlazione (punti lontani dalla linea di regressione ) Capacità richiamo 1,2 1,8,6,4,2 1 2 3 4 5 6 Eta Elevato grado di correlazione 1,9,8,7,6,5,4,3,2,1 1 2 3 4 5 6 Basso grado di correlazione
Direzione della relazione,6 Velocità di reazione,5,4,3,2,1 Correlazione positiva 1 2 3 4 5 6 Eta (anni) Eta e velocità di reazione 1,2 Capacità richiamo 1,8,6,4 Correlazione negativa,2 1 2 3 4 5 6 Eta Età e capacità di richiamo
Forma della relazione,42,415,41,45,4,395,39,385,38,375 Forme non lineari A flessione 2 4 6 8 1 12 14 16 18 2 Errore dopo Sonno 7 6 Effetto 5 4 3 logistiche 2 1 2 4 6 8 1 12 Dose
coefficiente di correlazione -1<=r <= +1 r = +1 correlazione massima concorde r= correlazione assente r = -1 correlazione massima discorde r > correlazione presente : all aumentare di x aumenta y r < correlazione presente : all aumentare di x diminuisce y nota bene : quando {y} è costante => r = indefinito quando {x} è costante => r = indefinito
Rischi dell interpretazione /1 Un rapporto di correlazione può essere spuria : esso non implica necessariamente un rapporto di causa e effetto Esempio: correlazione fra il numero di sacerdoti e il numero di omicidi Sigarette Cancro Rapportocausaeeffetto N. sacerdoti Urbanizzazione Correlazionespuria N. omicidi
Rischi dell interpretazione /2 14 12 1 8 6 4 2 2 4 6 8 1 12 Correlazione valida solo per una gamma limitata di valori Evitare l estrapolazione dei risultati sperimentali Utilizzare risultati con una ampia gamma di valori X e Y.
REGRESSIONE LINEARE Tecnica per l individuazione di un equazione che descrive una relazione lineare fra due variabili Tale equazione è rappresentabile come retta (linea di regressione)
REGRESSIONE L analisi di regressione consente di: Visualizzare (facilitare la comprensione) della relazione fra due variabili Individuare la tendenza centrale della relazione (così come la media) individua la tendenza centrale per un insieme di osservazioni Prevedere il valore di Y per un X ignoto (interpolazione/estrapolazione) Variabile indipendente causa (ascisse) Variabile dipendente effetto (ordinate)
REGRESSIONE LINEARE La scelta di una relazione lineare semplifica enormemente i calcoli è molto rilevante scientificamente presuppone una relazione presuppone una varianza costante (omoschedasticità) Il modello matematico lineare vale molte volte come prima approssimazione di fenomeni con andamento "curvilineo
l'attesa condizionale tr t 4 3 2 1-1 -2-3 relazione lineare -3-2 -1 1 2 3 t uguale variabilità dei valori y i nei distinti valori di x i, omoschedasticità
Le equazioni lineari 7 Y = a + b X 6 5 4 Y esempio Y = 2 +.5 X 3 2 1 1 2 3 4 5 6 7 8 9 X Intercetta: Valore di Y per X= Inclinazione della linea di regressione
Individuazione dei valori di a e di b in un equazione lineare ( equazione di regressione ) Scelta della miglior retta interpolatrice Criterio di accostamento tra i valori osservati y i e i valori teorici y* i : minimi quadrati
La linea di regressione ottimale Capacità richiamo 1,2 1,8,6,4,2 1 2 3 4 5 6 Eta La linea di regressione ottimale si definisce come quella linea che minimizza le distanze verticali fra le osservazioni e la linea stessa Distanze verticali
La linea di regressione ottimale Alcune distanze sono positive Alcune sono negative L ottimizzazione minimizza la somma degli scarti quadratici Capacità richiamo 1,2 1,8,6,4,2 1 2 3 4 5 6 Eta Distanza verticali Y Y 2
Soluzione: si traccia la retta interpolatrice per la quale la somma delle distanze al quadrato dei punti osservati dalla retta è minima. Calcoli semplici mostreranno che a e b possono essere stimati da b = x y n x y x² - n x² Codevianza di x y Devianza di x a = y b x
Significato dei parametri a e b a rappresenta l intercetta della retta sull asse y b coefficiente angolare della retta, indica il verso dell inclinazione ed il suo valore assoluto indica il grado di inclinazione b positivo concordanza tra le due variabili b negativo discordanza tra le due variabili b è il coefficiente di regressione: misura la variazione media della y dovuta ad una variazione unitaria della x
Pressione arteriosa massima rispetto all età soggetto età pas soggetto età pas soggetto età pas 1 22 131 12 41 139 23 52 128 2 23 128 13 41 171 24 54 123 3 24 116 14 46 127 25 56 145 4 27 16 15 47 111 26 57 141 5 28 114 16 48 115 27 58 153 6 29 123 17 49 133 28 59 157 7 3 117 18 5 128 29 63 155 8 32 122 19 51 183 3 67 176 9 33 99 2 51 13 31 71 172 1 35 121 21 51 133 32 77 178 11 4 147 22 52 144 33 81 217
calcoli n = 33 x =1545 y =4583 xy= 223144 x²= 819 y²= 657945 xi/n = 46,82 yi/n =138,88 dev x =819 (46,82) ² * 33 = 7684,99 dev y = 657945- (138,88) 2 / 33 = 21463,52 codev xy = 224111- (46,82) (138,88) * 33= 9543,273 b y x = (9543,273) / (7684,99) = 1,24 a = yi/n - b y x xi/n = 8.82 y = 8.82 + 1.24 x (retta)
pressione arteriosa ed età 25 2 15 pas 1 5 1 2 3 4 5 6 7 8 9 età
Indice di determinazione Dopo aver calcolato i parametri della retta di regressione è importante valutare il grado di accostamento tra i valori osservati e quelli teorici Indice di determinazione R² che esprime quanta parte della devianza totale di y è spiegata dalla retta di regressione Dev(R) (y*i y)² R² = = Dev(y) (yi y) ²
Indice di determinazione R² 1 Es. R²=.74 significa che il 74% della variazione pressoria è spiegata dall età, cioè esiste una variabilità comune del 74% mentre il rimanente 26% di variabilità è legato ad altri fattori che non possiamo spiegare con la sola regressione