Indipendenza, Dipendenza e interdipendenza

Похожие документы
Rappresentazioni grafiche di distribuzioni doppie

REGRESSIONE E CORRELAZIONE

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Regressione lineare semplice

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

Statistica. Alfonso Iodice D Enza

Regressione lineare. Lo studio della relazione lineare tra due variabili. X e Y caratteri entrambi quantitativi. variabile dipendente

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

Statistica. Alfonso Iodice D Enza

La regressione lineare. Rappresentazione analitica delle distribuzioni

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Associazione tra caratteri quantitativi: gli indici di correlazione

Statistica. Alfonso Iodice D Enza

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

Esercitazione III Soluzione

Regressione Lineare Semplice e Correlazione

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Esercitazione del

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Capitolo 12 La regressione lineare semplice

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Statistica multivariata Donata Rodi 17/10/2016

Lezione 7 Corso di Statistica. Francesco Lagona

Statistica 1 A.A. 2015/2016

SCOPO DELL ANALISI DI CORRELAZIONE

Capitolo uno STATISTICA DESCRITTIVA BIVARIATA

Corso di Psicometria Progredito

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Distribuzioni secondo due caratteri. Rappresentazioni e prime sintesi

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

STATISTICA. Regressione-2

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:

Indice di contingenza quadratica media (phi quadro) χ n

Esercizi su Regressione e Connessione

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Esercitazioni di statistica

Interpolazione e metodo dei minimi quadrati

DISTRIBUZIONE CAMPIONARIA CONGIUNTA

Statistica. Alfonso Iodice D Enza

E la rappresentazione grafica, in questo caso, è la dispersione x,y, cioè una nuvola di punti nel piano cartesiano

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

7. STATISTICA DESCRITTIVA

RELAZIONE TRA DUE VARIABILI QUANTITATIVE

Minimi quadrati pesati per la Regressione Lineare

Il METODO DEI MINIMI QUDRATI

METODO DEI MINIMI QUADRATI

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Транскрипт:

Indipendenza, Dipendenza e interdipendenza

In analisi bivariata la tabella di contingenza consente di esaminare congiuntamente due variabili consente di rilevare le relazioni esistenti tra le variabili

In una VARIABILIE STATISTICA DOPPIA si possono avere tre tipi di relazione tra X e Y: INDIPENDENZA, DIPENDENZA E INTERDIPENDENZA

DIPENDENZA e INTERDIPENDENZA si hanno Quando la relazione è unidirezionale e uno dei due caratteri può essere considerato antecedente e l altro come conseguente Quando i caratteri si influenzano reciprocamente e non si può stabilire quale sia antecedente e quale conseguente

Per lo studio della dipendenza utilizziamo la regressione che misura di quanto varia il carattere dipendente al variare del carattere indipendente. Lo studio della regressione consiste nella determinazione di una funzione matematica che esprima nella maniera migliore il legame tra X ed Y. Quasi sempre la funzione scelta è quella della retta per cui si utilizza y = a + bx.

y = a + bx Se calcoliamo i valori di a e b, questa equazione può essere usata per prevedere il valore della variabile dipendente Y a partire da qualsiasi valore della variabile indipendente X. PROBLEMA qual è la retta che si adatta meglio ai dati? RETTA DI REGRESSIONE

Dal punto di vista grafico si sceglie la retta che rende minima la distanza tra la retta stessa e i punti dello scatter. Per scatter intendiamo una nuvola di N punti, ciascun punto è rappresentativo di una coppia di valori Xi, Yi Lo scatter mette in luce grazie alla sua forma l esistenza di una relazione y=f (X). La retta più adatta è RETTA DI REGRESSIONE y* = a + bx

Sia Y la variabile dipendente e X la variabile indipendente. Se esiste una relazione lineare, i punti si distribuiscono vicino a una retta, come nei primi due schemi del diagramma a dispersione, quindi occorre trovare tra tutte le possibili rette quella che interpola meglio la nuvola se invece i punti sono molto dispersi, come nel terzo schema, non esiste alcuna relazione.

Peso y Scegliamo nello specifico la retta Y*=a+bX, che rende minima la distanza tra la retta stessa e i punti dello scatter. altezza peso 100 80 180 85 160 50 172 60 60 40 Y* yi e 155 40 20 165 53 0 150 155 160 165 170 175 180 185 Altezza x xi Scegliendo la retta Y*=a+bX, occorre stimare i parametri a e b. Occorre trovare i parametri a e b tali che i valori e (distanze y* e yi) siano i più piccoli possibili

y* = a + bx Il calcolo dei parametri avviene attraverso il metodo dei minimi quadrati dunque, si sceglie la retta per la quale la somma degli scarti al quadrato tra i valori teorici e quelli osservati sia minima:

Mediante il metodo dei MINIMI QUADRATI, si perviene a determinare i due parametri: a è il valore di y quando χ = 0 (graficamente è il punto in cui la retta di regressione attraversa l asse delle y): intercetta b (coefficiente angolare che misura l inclinazione della retta)

Nel caso di Y dipendente da X, b esprime di quanto varia in media il carattere y al variare di una unità del carattere χ : (varia tra - + )

b è la variazione della Y per una variazione unitaria della X Se, per esempio, b valesse 10, al crescere di una unità di X, la Y crescerebbe di 10 unità. Se b valesse 0,5, al crescere di una unità di X, la Y crescerebbe di mezza unità.

Il coefficiente di regressione b indica di quanto varia la Y al variare di una unità di X e se Y è crescente o decrescente. b > 0 (positivo) y cresce all aumentare di χ b < 0 (negativo) y diminuisce all aumentare di χ b = 0 (nullo) la retta è orizzontale ed il carattere y è indipendente in media dal carattere χ

b si può anche scrivere come: Sappiamo, infatti, che la somma dei prodotti degli scarti di due caratteri si denomina CODEVIANZA ed esprime il tipo di relazione esistente tra due variabili:

Sappiamo, inoltre, che la DEVIANZA è la somma del quadrato degli scarti ed è sempre positiva:

Abbiamo visto come varia y al variare della χ. Invertiamo la dipendenza e studiamo come varia il carattere χ al variare del carattere y. In questo caso l espressione della retta sarà: χ* = a 1 + b 1 y

b e b 1 divergono solo per il denominatore e poiché questo è sempre positivo il segno di b e b 1 dipende solo dal numeratore ed è lo stesso per entrambe. Quindi le rette di regressione sono entrambe crescenti o decrescenti

La seguente tabella riporta l età (x) e la pressione sanguigna (y) per un campione di 11 donne: Donne 1 2 3 4 5 6 7 8 9 10 11 x 36 38 42 47 49 55 56 60 63 68 72 y 118 115 140 128 145 150 147 155 149 152 160 Determinare la retta di regressione di y in funzione di x

Calcoliamo i parametri della retta di regressione Età (X) Pressione (Y) Xi - Xm Yi - Ym (Xi Xm)* (Yi Ym) (Xi Xm) 2 36 118-17,27-23,73 409,83 298,35 38 115-15,27-26,73 408,20 233,26 42 140-11,27-1,73 19,47 127,07 47 128-6,27-13,73 86,11 39,35 49 145-4,27 3,27-13,98 18,26 55 150 1,73 8,27 14,29 2,98 56 147 2,73 5,27 14,38 7,44 60 155 6,73 13,27 89,29 45,26 63 149 9,73 7,27 70,74 94,62 68 152 14,73 10,27 151,29 216,89 72 160 18,73 18,27 342,20 350,71 Media 53,27 Media 141,73 0,00 0,00 =1591,82 =1434,18 b=1,11 a=ym-bxm 82,599

Calcoliamo dei valori di Y* età pressione Xi - Xm Yi - Ym (Xi Xm)* (Yi Ym) (Xi Xm) 2 Y*=a+bX 36 118-17,27-23,73 409,83 298,35 122,56 38 115-15,27-26,73 408,20 233,26 124,78 42 140-11,27-1,73 19,47 127,07 129,22 47 128-6,27-13,73 86,11 39,35 134,77 49 145-4,27 3,27-13,98 18,26 136,98 55 150 1,73 8,27 14,29 2,98 143,64 56 147 2,73 5,27 14,38 7,44 144,75 60 155 6,73 13,27 89,29 45,26 149,19 63 149 9,73 7,27 70,74 94,62 152,52 68 152 14,73 10,27 151,29 216,89 158,07 72 160 18,73 18,27 342,20 350,71 162,51 53,27 141,73 0,00 0,00 1591,82 1434,18 b= 1,11 a=ym-bxm 82,599

pressione (Y) Retta di regressione e parametri 180 160 y = 1,1099x + 82,599 140 120 100 80 60 40 20 0 0 10 20 30 40 50 60 70 80 età (X)

La tabella mostra le stature per un gruppo di padri e figli. Presupponendo una relazione lineare tra le stature dei padri e le stature dei figli, si dica che statura ci si aspetta per un figlio di un padre alto 170.5 cm. stature dei padri 165 170 180 172 179 174 176 168 181 173 170 178 176 statura dei figli 167 169 181 171 180 176 180 171 179 174 173 176 178 padri (X) figli (Y) Xi - Xm Yi - Ym (Xi Xm)* (Yi Ym) (Xi Xm) 2 Y* 165 167-9 -8 72 81 167 170 169-4 -6 24 16 172 180 181 6 6 36 36 180 172 171-2 -4 8 4 173 179 180 5 5 25 25 179 174 176 0 1 0 0 175 176 180 2 5 10 4 177 168 171-6 -4 24 36 170 181 179 7 4 28 49 181 173 174-1 -1 1 1 174 170 173-4 -2 8 16 172 178 176 4 1 4 16 178 176 178 2 3 6 4 177 Media 174 Media 175 0 0 Σ =246 Σ =288 b= 0,8542 a= 26,375

Statura figli Y* padri (X) figli (Y) 182 y = 0,8542x + 26,375 180 178 176 174 172 170 168 166 164 166 168 170 172 174 176 178 180 182 Statura padri 167 172 180 173 179 175 177 170 181 174 172 178 177 Y=26,3750+ 0,8542*170,5 =172

-Se il grafico presenta una nuvola di punti dalla configurazione confusa, non è possibile ipotizzare una relazione tra le due variabili -Se invece ipotizziamo un legame lineare ma i punti non sono molto vicini alla retta: la retta di regressione non si adatta bene ai dati COME SI MISURA LA BONTA DI ADATTAMENTO DELLA RETTA DI REGRESSIONE?

La varianza di regressione consente di studiare la dispersione dei valori osservati intorno alla retta di regressione Una dispersione elevata dei punti intorno alla retta = comporta una limitata rappresentatività del fenomeno mediante la retta di regressione (previsioni non attendibili) Una dispersione bassa = buona rappresentatività del fenomeno mediante la retta di regressione Y i * Y i y 1 * y 1 y 2 * y 2.. y i * y i.. y N * y N Y Y i* =7,09-0,007χ 1,8 1,35 2,1 2,12 5,4 6,25 2,1 3,24...

Per misurare la BONTA DI ADATTAMENTO della retta di regressione SCOMPOSIZIONE DELLA DEVIANZA La DEVIANZA può essere scomposta in una parte che il modello di regressione riesce a spiegare e in una parte che invece il modello non riesce a cogliere, cioè la devianza dei residui di regressione (devianza dell errore)

Indicando con y* = a + bx il valore della retta di regressione avremo Dev (Y) DEVIANZA TOTALE Dev (R) DEVIANZA DI REGRESSIONE Dev (E) DEVIANZA DELL ERRORE O RESIDUA * y 2 i y i

Rapportando la devianza di regressione Dev (R) alla devianza totale Dev (Y) individueremo quanta parte della devianza totale è determinata o spiegata dalla retta di regressione supposta rappresentativa del fenomeno Tale rapporto viene definito come: INDICE DI DETERMINAZIONE

INDICE DI DETERMINAZIONE misura quanta parte della devianza totale di Y il modello di regressione riesce a spiegare Se R 2 vale 0 significa che la devianza di regressione è nulla. La devianza dei residui coincide con la devianza di Y NESSUN ADATTAMENTO Se R 2 vale 1 significa che la devianza dei residui è 0. La devianza spiegata dal modello di regressione coincide con la devianza di Y. Tutti i punti giacciono sulla retta ADATTAMENTO PERFETTO

La tabella mostra le stature per un gruppo di padri e figli. Presupponendo una relazione lineare tra le stature dei padri e le stature dei figli, verificare la bontà di adattamento della retta di regressione da costruire con Y variabile dipendente stature dei padri 165 170 180 172 179 174 176 168 181 173 170 178 176 statura dei figli 167 169 181 171 180 176 180 171 179 174 173 176 178 padri (X) figli (Y) Y* (Y*-Ym)^2 (Yi - Ym)^2 165 167 167 59 64 170 169 172 12 36 180 181 180 26 36 172 171 173 3 16 179 180 179 18 25 174 176 175 0 1 176 180 177 3 25 168 171 170 26 16 181 179 181 36 16 173 174 174 1 1 170 173 172 12 4 178 176 178 12 1 176 178 177 3 9 Media 174 Media 175 dev R =210 dev Y= 250 b= 0,8542 a= 26,375 R2= 0,8405

Misura l associazione tra due variabili, in cui è difficile stabilire qual è il carattere antecedente e quale quello conseguente. Le due variabili X e Y sono dipendenti una dall altra. Si caratterizza per 2 aspetti: Concordanza Discordanza

In termini di scarti dalla media, una misura assoluta dell INTERDIPENDENZA: Nel caso di concordanza a scarti positivi di X corrisponderanno scarti positivi di Y e a scarti negativi di X scarti negativi di Y: quindi prodotti positivi Nel caso di discordanza : situazione contraria

Essendo la CODEVIANZA espressa nell unità di misura dei due caratteri è influenzata dalla variabilità degli stessi per cui si preferisce ricorrere ad un indice relativo di concordanza: COEFFICIENTE DI CORRELAZIONE LINEARE

r = +1 : massima concordanza correlazione positiva perfetta (tutti i punti si trovano su una retta) r tra 0 e 1 : correlazione positiva imperfetta r = 0 : non c è alcuna associazione di tipo lineare tra le due variabili (quindi vi è indifferenza) r tra 0 e -1 : correlazione negativa imperfetta r = -1 : massima discordanza correlazione negativa perfetta (tutti i punti si trovano su una retta)

Il coefficiente di correlazione è anche la media geometrica dei coefficienti (angolari) di regressione