Indipendenza, Dipendenza e interdipendenza
In analisi bivariata la tabella di contingenza consente di esaminare congiuntamente due variabili consente di rilevare le relazioni esistenti tra le variabili
In una VARIABILIE STATISTICA DOPPIA si possono avere tre tipi di relazione tra X e Y: INDIPENDENZA, DIPENDENZA E INTERDIPENDENZA
DIPENDENZA e INTERDIPENDENZA si hanno Quando la relazione è unidirezionale e uno dei due caratteri può essere considerato antecedente e l altro come conseguente Quando i caratteri si influenzano reciprocamente e non si può stabilire quale sia antecedente e quale conseguente
Per lo studio della dipendenza utilizziamo la regressione che misura di quanto varia il carattere dipendente al variare del carattere indipendente. Lo studio della regressione consiste nella determinazione di una funzione matematica che esprima nella maniera migliore il legame tra X ed Y. Quasi sempre la funzione scelta è quella della retta per cui si utilizza y = a + bx.
y = a + bx Se calcoliamo i valori di a e b, questa equazione può essere usata per prevedere il valore della variabile dipendente Y a partire da qualsiasi valore della variabile indipendente X. PROBLEMA qual è la retta che si adatta meglio ai dati? RETTA DI REGRESSIONE
Dal punto di vista grafico si sceglie la retta che rende minima la distanza tra la retta stessa e i punti dello scatter. Per scatter intendiamo una nuvola di N punti, ciascun punto è rappresentativo di una coppia di valori Xi, Yi Lo scatter mette in luce grazie alla sua forma l esistenza di una relazione y=f (X). La retta più adatta è RETTA DI REGRESSIONE y* = a + bx
Sia Y la variabile dipendente e X la variabile indipendente. Se esiste una relazione lineare, i punti si distribuiscono vicino a una retta, come nei primi due schemi del diagramma a dispersione, quindi occorre trovare tra tutte le possibili rette quella che interpola meglio la nuvola se invece i punti sono molto dispersi, come nel terzo schema, non esiste alcuna relazione.
Peso y Scegliamo nello specifico la retta Y*=a+bX, che rende minima la distanza tra la retta stessa e i punti dello scatter. altezza peso 100 80 180 85 160 50 172 60 60 40 Y* yi e 155 40 20 165 53 0 150 155 160 165 170 175 180 185 Altezza x xi Scegliendo la retta Y*=a+bX, occorre stimare i parametri a e b. Occorre trovare i parametri a e b tali che i valori e (distanze y* e yi) siano i più piccoli possibili
y* = a + bx Il calcolo dei parametri avviene attraverso il metodo dei minimi quadrati dunque, si sceglie la retta per la quale la somma degli scarti al quadrato tra i valori teorici e quelli osservati sia minima:
Mediante il metodo dei MINIMI QUADRATI, si perviene a determinare i due parametri: a è il valore di y quando χ = 0 (graficamente è il punto in cui la retta di regressione attraversa l asse delle y): intercetta b (coefficiente angolare che misura l inclinazione della retta)
Nel caso di Y dipendente da X, b esprime di quanto varia in media il carattere y al variare di una unità del carattere χ : (varia tra - + )
b è la variazione della Y per una variazione unitaria della X Se, per esempio, b valesse 10, al crescere di una unità di X, la Y crescerebbe di 10 unità. Se b valesse 0,5, al crescere di una unità di X, la Y crescerebbe di mezza unità.
Il coefficiente di regressione b indica di quanto varia la Y al variare di una unità di X e se Y è crescente o decrescente. b > 0 (positivo) y cresce all aumentare di χ b < 0 (negativo) y diminuisce all aumentare di χ b = 0 (nullo) la retta è orizzontale ed il carattere y è indipendente in media dal carattere χ
b si può anche scrivere come: Sappiamo, infatti, che la somma dei prodotti degli scarti di due caratteri si denomina CODEVIANZA ed esprime il tipo di relazione esistente tra due variabili:
Sappiamo, inoltre, che la DEVIANZA è la somma del quadrato degli scarti ed è sempre positiva:
Abbiamo visto come varia y al variare della χ. Invertiamo la dipendenza e studiamo come varia il carattere χ al variare del carattere y. In questo caso l espressione della retta sarà: χ* = a 1 + b 1 y
b e b 1 divergono solo per il denominatore e poiché questo è sempre positivo il segno di b e b 1 dipende solo dal numeratore ed è lo stesso per entrambe. Quindi le rette di regressione sono entrambe crescenti o decrescenti
La seguente tabella riporta l età (x) e la pressione sanguigna (y) per un campione di 11 donne: Donne 1 2 3 4 5 6 7 8 9 10 11 x 36 38 42 47 49 55 56 60 63 68 72 y 118 115 140 128 145 150 147 155 149 152 160 Determinare la retta di regressione di y in funzione di x
Calcoliamo i parametri della retta di regressione Età (X) Pressione (Y) Xi - Xm Yi - Ym (Xi Xm)* (Yi Ym) (Xi Xm) 2 36 118-17,27-23,73 409,83 298,35 38 115-15,27-26,73 408,20 233,26 42 140-11,27-1,73 19,47 127,07 47 128-6,27-13,73 86,11 39,35 49 145-4,27 3,27-13,98 18,26 55 150 1,73 8,27 14,29 2,98 56 147 2,73 5,27 14,38 7,44 60 155 6,73 13,27 89,29 45,26 63 149 9,73 7,27 70,74 94,62 68 152 14,73 10,27 151,29 216,89 72 160 18,73 18,27 342,20 350,71 Media 53,27 Media 141,73 0,00 0,00 =1591,82 =1434,18 b=1,11 a=ym-bxm 82,599
Calcoliamo dei valori di Y* età pressione Xi - Xm Yi - Ym (Xi Xm)* (Yi Ym) (Xi Xm) 2 Y*=a+bX 36 118-17,27-23,73 409,83 298,35 122,56 38 115-15,27-26,73 408,20 233,26 124,78 42 140-11,27-1,73 19,47 127,07 129,22 47 128-6,27-13,73 86,11 39,35 134,77 49 145-4,27 3,27-13,98 18,26 136,98 55 150 1,73 8,27 14,29 2,98 143,64 56 147 2,73 5,27 14,38 7,44 144,75 60 155 6,73 13,27 89,29 45,26 149,19 63 149 9,73 7,27 70,74 94,62 152,52 68 152 14,73 10,27 151,29 216,89 158,07 72 160 18,73 18,27 342,20 350,71 162,51 53,27 141,73 0,00 0,00 1591,82 1434,18 b= 1,11 a=ym-bxm 82,599
pressione (Y) Retta di regressione e parametri 180 160 y = 1,1099x + 82,599 140 120 100 80 60 40 20 0 0 10 20 30 40 50 60 70 80 età (X)
La tabella mostra le stature per un gruppo di padri e figli. Presupponendo una relazione lineare tra le stature dei padri e le stature dei figli, si dica che statura ci si aspetta per un figlio di un padre alto 170.5 cm. stature dei padri 165 170 180 172 179 174 176 168 181 173 170 178 176 statura dei figli 167 169 181 171 180 176 180 171 179 174 173 176 178 padri (X) figli (Y) Xi - Xm Yi - Ym (Xi Xm)* (Yi Ym) (Xi Xm) 2 Y* 165 167-9 -8 72 81 167 170 169-4 -6 24 16 172 180 181 6 6 36 36 180 172 171-2 -4 8 4 173 179 180 5 5 25 25 179 174 176 0 1 0 0 175 176 180 2 5 10 4 177 168 171-6 -4 24 36 170 181 179 7 4 28 49 181 173 174-1 -1 1 1 174 170 173-4 -2 8 16 172 178 176 4 1 4 16 178 176 178 2 3 6 4 177 Media 174 Media 175 0 0 Σ =246 Σ =288 b= 0,8542 a= 26,375
Statura figli Y* padri (X) figli (Y) 182 y = 0,8542x + 26,375 180 178 176 174 172 170 168 166 164 166 168 170 172 174 176 178 180 182 Statura padri 167 172 180 173 179 175 177 170 181 174 172 178 177 Y=26,3750+ 0,8542*170,5 =172
-Se il grafico presenta una nuvola di punti dalla configurazione confusa, non è possibile ipotizzare una relazione tra le due variabili -Se invece ipotizziamo un legame lineare ma i punti non sono molto vicini alla retta: la retta di regressione non si adatta bene ai dati COME SI MISURA LA BONTA DI ADATTAMENTO DELLA RETTA DI REGRESSIONE?
La varianza di regressione consente di studiare la dispersione dei valori osservati intorno alla retta di regressione Una dispersione elevata dei punti intorno alla retta = comporta una limitata rappresentatività del fenomeno mediante la retta di regressione (previsioni non attendibili) Una dispersione bassa = buona rappresentatività del fenomeno mediante la retta di regressione Y i * Y i y 1 * y 1 y 2 * y 2.. y i * y i.. y N * y N Y Y i* =7,09-0,007χ 1,8 1,35 2,1 2,12 5,4 6,25 2,1 3,24...
Per misurare la BONTA DI ADATTAMENTO della retta di regressione SCOMPOSIZIONE DELLA DEVIANZA La DEVIANZA può essere scomposta in una parte che il modello di regressione riesce a spiegare e in una parte che invece il modello non riesce a cogliere, cioè la devianza dei residui di regressione (devianza dell errore)
Indicando con y* = a + bx il valore della retta di regressione avremo Dev (Y) DEVIANZA TOTALE Dev (R) DEVIANZA DI REGRESSIONE Dev (E) DEVIANZA DELL ERRORE O RESIDUA * y 2 i y i
Rapportando la devianza di regressione Dev (R) alla devianza totale Dev (Y) individueremo quanta parte della devianza totale è determinata o spiegata dalla retta di regressione supposta rappresentativa del fenomeno Tale rapporto viene definito come: INDICE DI DETERMINAZIONE
INDICE DI DETERMINAZIONE misura quanta parte della devianza totale di Y il modello di regressione riesce a spiegare Se R 2 vale 0 significa che la devianza di regressione è nulla. La devianza dei residui coincide con la devianza di Y NESSUN ADATTAMENTO Se R 2 vale 1 significa che la devianza dei residui è 0. La devianza spiegata dal modello di regressione coincide con la devianza di Y. Tutti i punti giacciono sulla retta ADATTAMENTO PERFETTO
La tabella mostra le stature per un gruppo di padri e figli. Presupponendo una relazione lineare tra le stature dei padri e le stature dei figli, verificare la bontà di adattamento della retta di regressione da costruire con Y variabile dipendente stature dei padri 165 170 180 172 179 174 176 168 181 173 170 178 176 statura dei figli 167 169 181 171 180 176 180 171 179 174 173 176 178 padri (X) figli (Y) Y* (Y*-Ym)^2 (Yi - Ym)^2 165 167 167 59 64 170 169 172 12 36 180 181 180 26 36 172 171 173 3 16 179 180 179 18 25 174 176 175 0 1 176 180 177 3 25 168 171 170 26 16 181 179 181 36 16 173 174 174 1 1 170 173 172 12 4 178 176 178 12 1 176 178 177 3 9 Media 174 Media 175 dev R =210 dev Y= 250 b= 0,8542 a= 26,375 R2= 0,8405
Misura l associazione tra due variabili, in cui è difficile stabilire qual è il carattere antecedente e quale quello conseguente. Le due variabili X e Y sono dipendenti una dall altra. Si caratterizza per 2 aspetti: Concordanza Discordanza
In termini di scarti dalla media, una misura assoluta dell INTERDIPENDENZA: Nel caso di concordanza a scarti positivi di X corrisponderanno scarti positivi di Y e a scarti negativi di X scarti negativi di Y: quindi prodotti positivi Nel caso di discordanza : situazione contraria
Essendo la CODEVIANZA espressa nell unità di misura dei due caratteri è influenzata dalla variabilità degli stessi per cui si preferisce ricorrere ad un indice relativo di concordanza: COEFFICIENTE DI CORRELAZIONE LINEARE
r = +1 : massima concordanza correlazione positiva perfetta (tutti i punti si trovano su una retta) r tra 0 e 1 : correlazione positiva imperfetta r = 0 : non c è alcuna associazione di tipo lineare tra le due variabili (quindi vi è indifferenza) r tra 0 e -1 : correlazione negativa imperfetta r = -1 : massima discordanza correlazione negativa perfetta (tutti i punti si trovano su una retta)
Il coefficiente di correlazione è anche la media geometrica dei coefficienti (angolari) di regressione