DISTRIBUZIONE CAMPIONARIA CONGIUNTA

Documenti analoghi
Indipendenza, Dipendenza e interdipendenza

Regressione lineare. Lo studio della relazione lineare tra due variabili. X e Y caratteri entrambi quantitativi. variabile dipendente

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Rappresentazioni grafiche di distribuzioni doppie

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza

Regressione Lineare Semplice e Correlazione

Statistica multivariata Donata Rodi 17/10/2016

REGRESSIONE E CORRELAZIONE

Statistica. Alfonso Iodice D Enza

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

ANALISI MULTIVARIATA

Regressione lineare semplice

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Capitolo 12 La regressione lineare semplice

7. STATISTICA DESCRITTIVA

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

Test per la correlazione lineare

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

ESERCITAZIONE IV - Soluzioni

Associazione tra caratteri quantitativi: gli indici di correlazione

Esercitazione del

Statistica 1 A.A. 2015/2016

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

ESEMPI DI DOMANDE PER LA PROVA SCRITTA DI STATISTICA SOCIALE

La regressione lineare. Rappresentazione analitica delle distribuzioni

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Statistica Elementare

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

RELAZIONE TRA DUE VARIABILI QUANTITATIVE

Esercizi su Regressione e Connessione

Esercitazione II Statistica e Calcolo delle Probabilità (con soluzioni)

Statistica di base per l analisi socio-economica

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

SCOPO DELL ANALISI DI CORRELAZIONE

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Vecchie prove d esame Statistica e Calcolo delle Probabilità

STATISTICA A K (60 ore)

Indice di contingenza quadratica media (phi quadro) χ n

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

Esercitazione di Statistica Indici di associazione

Sperimentazioni di Fisica I mod. A Statistica - Lezione 2

Tra i non fumatori qual è la percentuale di non utilizzatori di sostanze stupefacenti? Scegli un'alternativa: a. 86% b. 10% c. 50% d. 25% e.

tabelle grafici misure di

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Corso di Psicometria Progredito

Esercitazione III Soluzione

STATISTICA. Regressione-2

Istituzioni di Statistica e Statistica Economica

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Analisi dei Dati Tabelle e Grafici

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Esercizi di statistica descrittiva. Giulia Simi (Università di Siena) Istituzione di matematica e fondamenti di Biostatistica Siena / 30

Teoria e tecniche dei test. Concetti di base

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

TRACCIA DI STUDIO. Test di confronto per misure qualitative. Verifica di ipotesi

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

La variabilità. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

CAPITOLO 11 ANALISI DI REGRESSIONE

Statistica. Alfonso Iodice D Enza

Transcript:

DISTRIBUZIONE CAMPIONARIA CONGIUNTA Finora ci siamo occupati di medie e scarti ma dobbiamo anche affrontare il problema di studiare le relazioni tra insiemi di dati. La media e la deviazione standard possono essere usate per descrivere una singola distribuzione di frequenza ma non ci dicono nulla sulle eventuali relazioni tra due variabili.

ESEMPI studio la relazione tra indice di affollamento delle città e la mortalità infantile. Studio la relazione peso e altezza di individui di una popolazione; Studio le variabili di un censimento di una popolazione. Il tasso di mortalità infantile (morti nel primo anno di vita) su 1. nati vivi «decresce quando il numero di abitanti/stanza (indice di affollamento) decresce» In altri termini «la mortalità infantile cresce con l'indice di affollamento». Come concludo? Esiste a) relazione di causa effetto. b) associazione (generica). c) correlazione (mutua influenza).

relazione causa-effetto associazione Tra due o più variabili quantitative rilevate nel medesimo soggetto possono esistere tre tipi di relazione: 1. relazione tra causa ed effetto (criteri di Bradford Hill). 2. associazione statistica (generica) 3. correlazione (mutua influenza). (due variabili vengono dette associate quando la distribuzione dell'una influenza la distribuzione dell'altra).

nota bene: l'associazione statistica non implica l'esistenza di una relazione di causa effetto È stato osservata una forte associazione tra il numero di divorzi e la quantità di tabacco importata in Inghilterra negli anni 5'. Da questa osservazione si potrebbe indurre che: il tabacco è causa di discordia familiare ovvero che coloro che divorziano di consolano fumando. Più semplicemente si deve concludere che tra tabacco e numero di divorzi esiste una relazione in quanto entrambe dipendono dallo sviluppo economico.

Potremmo, ad esempio, essere interessati a valutare il grado di associazione tra l'altezza e il peso della stessa persona all interno di un gruppo di persone, tra il reddito medio pro-capite di un Paese e il tasso di mortalità neonatale, tra età della madre e numero di nati affetti da sindrome di Down e così via. Il primo passo da compiere quando si vuole studiare una relazione tra due variabili consiste nell'elencare le coppie di valori relative alle due variabili in studio e rappresentarle graficamente

Correlazione Misura di associazione tra 2 variabili quantitative Risponde alla domanda: esiste un associazione lineare tra le variabili?

Esempio: campione casuale di 2 donne Gruppo di donne di una determinata area geografica invitate a sottoporsi a un prelievo di sangue per la determinazione del livello di emoglobina (Hb) e dell ematocrito (PCV). Percentuale di adesione: circa il 9%.

Esempio: campione casuale di 2 donne ID Hb PCV Età (g/dl) (%) (anni) 1 11,1 35 2 2 1,7 45 22 3 12,4 47 25 4 14, 5 28 5 13,1 31 28 6 1,5 3 31 7 9,6 25 32 8 12,5 33 35 9 13,5 35 38 1 13,9 4 4 11 15,1 45 45 12 13,9 47 49 13 16,2 49 54 14 16,3 42 55 15 16,8 4 57 16 17,1 5 6 17 16,6 46 62 18 16,9 55 63 19 15,7 42 65 2 16,5 46 67 Hb (g/dl) 2 16 12 8 4 1 2 3 4 5 6 PCV (%)

Vogliamo analizzare la relazione fra Hb e PCV. Non ci chiediamo se Hb influenzi PCV o PCV influenzi Hb, o se un alto valore di PCV causi un alto valore di Hb, ma se le due variabili sono associate Il coefficiente di correlazione del campione (r= coefficiente di correlazione di Pearson) ci permette di: verificare l ipotesi che vi sia associazione fra le variabili o se l apparente associazione possa essere dovuta al caso riassumere la forza della relazione lineare fra le variabili

Hb e PCV: dall analisi del grafico, come descriveresti l associazione fra le due variabili? 2 16 Hb (g/dl) 12 8 4 1 2 3 4 5 6 PCV (%)

Dato un insieme di coppie di osservazioni (x 1,y 1 ), (x 2,y 2 ),, (x n,y n ), ) ( ) ( ) )( ( 1 1 2 2 1 n i n i i i n i i i y y x x y y x x r Calcolo di r

Esempio: Hb = x, PCV = y x 14.12 y 41. 65 n i 1 x y ( x x) ( y y) ( x x)( y y) 2 ( x x) 2 ( y y) 11.1 35-3.2-6.65 2.83 9.12 44.2225 1.7 45-3.42 3.35-11.457 11.7 11.2225 12.4 47-1.72 5.35-9.22 2.96 28.6225 14. 5 -.12 8.35-1.2.1 69.7225 13.1 31-1.2-1.65 1.863 1.4 113.4225 1.5 3-3.62-11.65 42.173 13.1 135.7225 9.6 25-4.52-16.65 75.258 2.43 277.2225 12.5 33-1.62-8.65 14.13 2.62 74.8225 13.5 35 -.62-6.65 4.123.38 44.2225 13.9 4 -.22-1.65.363.5 2.7225 15.1 45.98 3.35 3.283.96 11.2225 13.9 47 -.22 5.35-1.177.5 28.6225 16.2 49 2.8 7.35 15.288 4.33 54.225 16.3 42 2.18.35.763 4.75.1225 16.8 4 2.68-1.65-4.422 7.18 2.7225 17.1 5 2.98 8.35 24.883 8.88 69.7225 16.6 46 2.48 4.35 1.788 6.15 18.9225 16.9 55 2.78 13.35 37.113 7.73 178.2225 15.7 42 1.58.35.553 2.5.1225 16.5 46 2.38 4.35 1.353 5.66 18.9225 2 2 ( x x)( y y) 242.64 ( x) ( y y) 36. 33 i i n n 242.64 x r. 67 i 36.33 i i 1 i 1

Interpretazione di r Il coefficiente di correlazione r è una quantità a-dimensionale varia da -1 a 1 è positivo quando i valori delle variabili crescono insieme è negativo quando i valori di una variabile crescono al decrescere dei valori dell altra non è influenzato dalle unità di misura

IMPORTANTE: Un elevata correlazione fra due variabili NON implica una relazione causa-effetto

I test di correlazione sono fra le procedure statistiche peggio utilizzate. Sono in grado di dimostrare se due variabili sono correlate, tuttavia NON sono in grado di dimostrare che due variabili NON sono correlate! Se una variabile dipende da un altra, e se vi è una relazione causale, è sempre possibile trovare una qualche forma di correlazione fra le due. Ma se entrambe le variabili dipendono da una terza variabile, potremmo trovare correlazione fra le due variabili di partenza anche se fra di esse non vi fosse nessuna dipendenza causale Esempio: è stata trovata una correlazione fra il numero di ripetitori di telefoni cellulari e la diminuzione del numero dei passerotti. Domanda: sono i ripetitori a danneggiare i passerotti oppure entrambi gli effetti sono causati da qualcos altro? Oppure sono osservazioni completamente indipendenti che per caso appaiono correlate? Non lo sappiamo, i test di correlazione non rispondono a questa domanda e sono necessari altri studi

Direzione dell associazione Correlazione positiva Correlazione negativa

COME APPARE LA CORRELAZIONE: Gli esempi qui riportati si riferiscono alla correlazione tra i valori di uricemia rilevati, in differenti condizioni, con due metodi di misura (X e Y) su un campione di 1 soggetti anziani. Metodo Y (mg/dl) 14 12 1 8 6 4 2 r =.29 2 4 6 8 1 12 14 Metodo X (mg/dl) Metodo Y (mg/dl) 14 12 1 8 6 4 2 r =.861 2 4 6 8 1 12 14 Metodo X (mg/dl) Metodo Y (mg/dl) 14 12 1 8 6 4 2 r =.36 2 4 6 8 1 12 14 Metodo Y (mg/dl) 14 12 1 8 6 4 2 r =.661 2 4 6 8 1 12 14 Metodo X (mg/dl) Metodo X (mg/dl)

La FORZA e il TIPO dell'associazione Il coefficiente di correlazione lineare è indice di quanto i punti si allineano su di una retta, e non risente dell'inclinazione della retta, salvo che per due importanti eccezioni. Y r =.8 Y r =.95 Variabile Y Variabile X Variabile X X Y r =.8 Variabile Y Variabile Y X Y r =.95 Variabile Y Variabile X X Variabile X X

La FORZA e il TIPO dell'associazione Grafici di dispersione per variabili a correlazione elevata o molto elevata Y r =.6 Y r =.95 Variabile Y Variabile X Variabile X X Y r =.8 Variabile Y Variabile Y X Y r =.99 Variabile Y Variabile X X Variabile X X

La FORZA e il TIPO dell'associazione Grafici di dispersione per variabili a correlazione nulla o lieve. Y r =.4 Y r =. Variabile Y Variabile X Variabile X X Y r =.1 Variabile Y Variabile Y X Y r =.2 Variabile Y Variabile X X Variabile X X

La FORZA e il TIPO dell'associazione Il coefficiente di correlazione è positivo se la retta giace nei quadranti I e III, negativo in caso contrario. Se i punti si allineano perfettamente su una retta parallela ad uno dei due assi, il coefficiente di correlazione è indeterminato. Y Y r = -.99 r =.99 Variabile Y Variabile X X Variabile X Y r =.99 Variabile Y Variabile Y X Y r =.99 II I Variabile Y III IV Variabile X X Variabile X X

La FORZA e il TIPO dell'associazione Il coefficiente di correlazione lineare è indice di quanto i punti si allineano su di una retta: vi possono essere associazioni anche forti, ma di tipo non lineare per le quali il coefficiente di correlazione è prossimo a. Y r = -.84 Y r = -.194 Variabile Y Variabile X X Variabile X r = -.158 r = - Variabile Y Variabile Y X Y r = -.41 Variabile Y Variabile Y Variabile X Variabile X Variabile X X

Grado di correlazione Le relazioni si distinguono a secondo del grado di correlazione Elevato grado di correlazione (punti vicini alla linea di regressione ) Basso grado di correlazione (punti lontani dalla linea di regressione ) Capacità richiamo 1,2 1,8,6,4,2 1 2 3 4 5 6 Eta Elevato grado di correlazione 1,9,8,7,6,5,4,3,2,1 1 2 3 4 5 6 Basso grado di correlazione

Direzione della relazione,6 Velocità di reazione,5,4,3,2,1 Correlazione positiva 1 2 3 4 5 6 Eta (anni) Eta e velocità di reazione 1,2 Capacità richiamo 1,8,6,4 Correlazione negativa,2 1 2 3 4 5 6 Eta Età e capacità di richiamo

Forma della relazione,42,415,41,45,4,395,39,385,38,375 Forme non lineari A flessione 2 4 6 8 1 12 14 16 18 2 Errore dopo Sonno 7 6 Effetto 5 4 3 logistiche 2 1 2 4 6 8 1 12 Dose

coefficiente di correlazione -1<=r <= +1 r = +1 correlazione massima concorde r= correlazione assente r = -1 correlazione massima discorde r > correlazione presente : all aumentare di x aumenta y r < correlazione presente : all aumentare di x diminuisce y nota bene : quando {y} è costante => r = indefinito quando {x} è costante => r = indefinito

Rischi dell interpretazione /1 Un rapporto di correlazione può essere spuria : esso non implica necessariamente un rapporto di causa e effetto Esempio: correlazione fra il numero di sacerdoti e il numero di omicidi Sigarette Cancro Rapportocausaeeffetto N. sacerdoti Urbanizzazione Correlazionespuria N. omicidi

Rischi dell interpretazione /2 14 12 1 8 6 4 2 2 4 6 8 1 12 Correlazione valida solo per una gamma limitata di valori Evitare l estrapolazione dei risultati sperimentali Utilizzare risultati con una ampia gamma di valori X e Y.

REGRESSIONE LINEARE Tecnica per l individuazione di un equazione che descrive una relazione lineare fra due variabili Tale equazione è rappresentabile come retta (linea di regressione)

REGRESSIONE L analisi di regressione consente di: Visualizzare (facilitare la comprensione) della relazione fra due variabili Individuare la tendenza centrale della relazione (così come la media) individua la tendenza centrale per un insieme di osservazioni Prevedere il valore di Y per un X ignoto (interpolazione/estrapolazione) Variabile indipendente causa (ascisse) Variabile dipendente effetto (ordinate)

REGRESSIONE LINEARE La scelta di una relazione lineare semplifica enormemente i calcoli è molto rilevante scientificamente presuppone una relazione presuppone una varianza costante (omoschedasticità) Il modello matematico lineare vale molte volte come prima approssimazione di fenomeni con andamento "curvilineo

l'attesa condizionale tr t 4 3 2 1-1 -2-3 relazione lineare -3-2 -1 1 2 3 t uguale variabilità dei valori y i nei distinti valori di x i, omoschedasticità

Le equazioni lineari 7 Y = a + b X 6 5 4 Y esempio Y = 2 +.5 X 3 2 1 1 2 3 4 5 6 7 8 9 X Intercetta: Valore di Y per X= Inclinazione della linea di regressione

Individuazione dei valori di a e di b in un equazione lineare ( equazione di regressione ) Scelta della miglior retta interpolatrice Criterio di accostamento tra i valori osservati y i e i valori teorici y* i : minimi quadrati

La linea di regressione ottimale Capacità richiamo 1,2 1,8,6,4,2 1 2 3 4 5 6 Eta La linea di regressione ottimale si definisce come quella linea che minimizza le distanze verticali fra le osservazioni e la linea stessa Distanze verticali

La linea di regressione ottimale Alcune distanze sono positive Alcune sono negative L ottimizzazione minimizza la somma degli scarti quadratici Capacità richiamo 1,2 1,8,6,4,2 1 2 3 4 5 6 Eta Distanza verticali Y Y 2

Soluzione: si traccia la retta interpolatrice per la quale la somma delle distanze al quadrato dei punti osservati dalla retta è minima. Calcoli semplici mostreranno che a e b possono essere stimati da b = x y n x y x² - n x² Codevianza di x y Devianza di x a = y b x

Significato dei parametri a e b a rappresenta l intercetta della retta sull asse y b coefficiente angolare della retta, indica il verso dell inclinazione ed il suo valore assoluto indica il grado di inclinazione b positivo concordanza tra le due variabili b negativo discordanza tra le due variabili b è il coefficiente di regressione: misura la variazione media della y dovuta ad una variazione unitaria della x

Pressione arteriosa massima rispetto all età soggetto età pas soggetto età pas soggetto età pas 1 22 131 12 41 139 23 52 128 2 23 128 13 41 171 24 54 123 3 24 116 14 46 127 25 56 145 4 27 16 15 47 111 26 57 141 5 28 114 16 48 115 27 58 153 6 29 123 17 49 133 28 59 157 7 3 117 18 5 128 29 63 155 8 32 122 19 51 183 3 67 176 9 33 99 2 51 13 31 71 172 1 35 121 21 51 133 32 77 178 11 4 147 22 52 144 33 81 217

calcoli n = 33 x =1545 y =4583 xy= 223144 x²= 819 y²= 657945 xi/n = 46,82 yi/n =138,88 dev x =819 (46,82) ² * 33 = 7684,99 dev y = 657945- (138,88) 2 / 33 = 21463,52 codev xy = 224111- (46,82) (138,88) * 33= 9543,273 b y x = (9543,273) / (7684,99) = 1,24 a = yi/n - b y x xi/n = 8.82 y = 8.82 + 1.24 x (retta)

pressione arteriosa ed età 25 2 15 pas 1 5 1 2 3 4 5 6 7 8 9 età

Indice di determinazione Dopo aver calcolato i parametri della retta di regressione è importante valutare il grado di accostamento tra i valori osservati e quelli teorici Indice di determinazione R² che esprime quanta parte della devianza totale di y è spiegata dalla retta di regressione Dev(R) (y*i y)² R² = = Dev(y) (yi y) ²

Indice di determinazione R² 1 Es. R²=.74 significa che il 74% della variazione pressoria è spiegata dall età, cioè esiste una variabilità comune del 74% mentre il rimanente 26% di variabilità è legato ad altri fattori che non possiamo spiegare con la sola regressione