IL LEGAME TRA DUE VARIABILI I METODI DELLA CORRELAZIONE

Documenti analoghi
NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 17/09/2012

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI

a) Individuare l intervallo di confidenza al 90% per la media di popolazione;

Corso di. Dott.ssa Donatella Cocca

Strada B. Classe Velocità valore frequenza Frequ. ass Frequ. % hi Freq. Cum

1) Le medie e le varianze calcolate su n osservazioni relative alle variabili quantitative X ed Y sono tali che. σ x

Misure indipendenti della stessa grandezza, ciascuna con una diversa precisione.

Esame di Statistica tema B Corso di Laurea in Economia Prof.ssa Giordano Appello del 15/07/2011

Correlazione lineare

Scienze Geologiche. Corso di Probabilità e Statistica. Prove di esame con soluzioni

Contenuti: o Specificazione del modello. o Ipotesi del modello classico. o Stima dei parametri. Regressione semplice Roberta Siciliano 2

Esame di Statistica tema A Corso di Laurea in Economia Prof.ssa Giordano Appello del 15/07/2011

La verifica delle ipotesi

Laboratorio 2B A.A. 2012/2013. Elaborazione Dati. Lab 2B CdL Fisica

Relazioni tra variabili: Correlazione e regressione lineare

La t di Student. Per piccoli campioni si definisce la variabile casuale. = s N. detta t di Student.

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI CONFRONTO DI PIU MEDIE IL METODO DI ANALISI DELLA VARIANZA

Università di Cassino. Esercitazione di Statistica 1 del 4 dicembre Dott.ssa Simona Balzano

03/03/2012. Campus di Arcavacata Università della Calabria

PREVEDONO: Capitolo 17 del libro di testo. Copyright 2005 The McGraw-Hill Companies srl

ANALISI STATISTICA DELLE INCERTEZZE CASUALI

ANALISI DI TABELLE DI CONTINGENZA

PRIMA PROVA INTERMEDIA DI STATISTICA (COD /6045/5047/4038/371/377) 26 ottobre 2015 COMPITO D

LA VARIABILITA. IV lezione di Statistica Medica

Correlazione, Regressione, Test non parametrici

Ad esempio, potremmo voler verificare la legge di caduta dei gravi che dice che un corpo cade con velocità uniformemente accellerata: v = v 0 + g t

Modelli con varabili binarie (o qualitative)

REGRESSIONE LINEARE. È caratterizzata da semplicità: i modelli utilizzati sono basati essenzialmente su funzioni lineari

Per calcolare le probabilità di Testa e Croce è possibile risolvere il seguente sistema di due equazioni in due incognite:

Oltre la regressione lineare

materiale didattico I incontro

x 0 x 50 x 20 x 100 CASO 1 CASO 2 CASO 3 CASO 4 X n X n X n X n

NOTE DALLE LEZIONI DI STATISTICA MEDICA ED ESERCIZI VERIFICA DI IPOTESI PER IL CONFRONTO TRA DUE PROPORZIONI

Esercitazione 1 del corso di Statistica 2

Regressione e correlazione

Probabilità cumulata empirica

Capitolo 3. Cap. 3-1

y. E' semplicemente la media calcolata mettendo

Relazione funzionale e statistica tra due variabili Modello di regressione lineare semplice Stima puntuale dei coefficienti di regressione

TECNICHE DI ANALISI DEI DATI MODELLI LINEARI

3 (solo esame 6 cfu) Elementi di Analisi Numerica, Probabilità e Statistica, modulo 2: Elementi di Probabilità e Statistica (3 cfu)

Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill

* PROBABILITÀ - SCHEDA N. 2 LE VARIABILI ALEATORIE *

Propagazione degli errori

Università di Cassino Corso di Statistica 1 Esercitazione del 28/01/2008 Dott. Alfonso Piscitelli. Esercizio 1

Campo di applicazione

Esercitazioni del corso di Relazioni tra variabili. Giancarlo Manzi Facoltà di Sociologia Università degli Studi di Milano-Bicocca

Propagazione delle incertezze

1) Dato un carattere X il rapporto tra devianza entro e devianza totale è 0.25 e la devianza totale è 40. La devianza tra vale: a) 10 b) 20 c) 30

TECNICHE DI ANALISI DEI DATI MODELLI LINEARI

S O L U Z I O N I. 1. Effettua uno studio qualitativo della funzione. con particolare riferimento ai seguenti aspetti:

VERIFICA IN ITINERE 9 GENNAIO 2019 CLMA

Elementi di statistica

Lezioni di Statistica (25 marzo 2013) Docente: Massimo Cristallo

Statistica Descrittiva

3 CAMPIONAMENTO DI BERNOULLI E DI POISSON

ELEMENTI DI STATISTICA

Tutorato di Complementi di Analisi Matematica e Statistica 23 e 30 marzo 2017

LA COMPATIBILITA tra due misure:

STATISTICA A K (63 ore) Marco Riani

Esercizi di econometria: serie 1

Misure Ripetute ed Indipendenti

Corsi di Laurea in Farmacia e CTF Prova di Matematica

3) Entropie condizionate, entropie congiunte ed informazione mutua

Lezione 4. Politica Economica Avanzata

Ettore Limoli. Lezioni di Matematica Prof. Ettore Limoli. Sommario. Calcoli di regressione

STATISTICA PSICOMETRICA a.a. 2004/2005 Corsi di laurea. Scienze e tecniche neuropsicologiche Modulo 3 Statistica Inferenziale

Metodi Quantitativi per Economia, Finanza e Management

RIFICA DI IPOTESI IPOTES PE

Regressione lineare con un singolo regressore

Funzione di matrice. c i λ i. i=0. i=0. m 1. γ i A i. i=0. Moltiplicando entrambi i membri di questa equazione per A si ottiene. α i 1 A i α m 1 A m

Ministero della Salute D.G. della programmazione sanitaria --- GLI ACC - L ANALISI DELLA VARIABILITÀ METODOLOGIA

IL MODELLO DI MACK. Materiale didattico a cura di Domenico Giorgio Attuario Danni di Gruppo Società Cattolica di Assicurazioni

Metodologie informatiche per la chimica

Analisi degli errori. Introduzione J. R. Taylor, Introduzione all analisi degli errori, Zanichelli, Bo 1986

Propagazione degli errori statistici. Test del χ 2 per la bontà di adattamento. Metodo dei minimi quadrati.

Principio di massima verosimiglianza

Principio di massima verosimiglianza

Esercizi di Probabilità e Statistica

REALTÀ E MODELLI SCHEDA DI LAVORO

Fisica Generale I Misure di grandezze fisiche e incertezze di misura Lezione 3 Facoltà di Ingegneria Livio Lanceri

Sommario. Obiettivo. Quando studiarla? La concentrazione. X: carattere quantitativo tra le unità statistiche. Quando studiarla?

Misure dirette utilizzate per il calcolo della misura indiretta X:

PRIMA PROVA INTERMEDIA DI STATISTICA CLEA (COD. 5047/4038/371/377) 3 Novembre 2004 COMPITO A1

Dalla sola analisi della tabella dei profili colonna, pensi ci sia un associazione tra le due variabili in tabella? (motiva brevemente la risposta)

Concetti principale della lezione precedente

Esame di Statistica Corso di Laurea in Economia

Esame di Statistica Corso di Laurea in Economia Prof.ssa Giordano

LA VARIABILITA. Nella metodologia statistica si distinguono due aspetti della variabilità:

Fisica Generale I Misure di grandezze fisiche e incertezze di misura Lezione 3 Facoltà di Ingegneria Livio Lanceri

Università di Cassino Corso di Statistica 1 Esercitazione del 17/10/2006 Dott. Alfonso Piscitelli. Esercizio 1

TIPI DI ANALISI DEI DATI ORGANIZZATI IN MATRICI CASI X VARIABILI

L analisi della correlazione lineare

ESERCIZIO 4.1 Si consideri una popolazione consistente delle quattro misurazioni 0, 3, 12 e 20 descritta dalla seguente distribuzione di probabilità:

STATISTICA DESCRITTIVA - SCHEDA N. 5 REGRESSIONE LINEARE

STATISTICA DESCRITTIVA CON EXCEL

si utilizzano per confrontare le distribuzioni

Transcript:

IL LEGAME TRA DUE VARIABILI I METODI DELLA CORRELAZIONE

CORRELAZIONE Legame - Assocazone - Accordo Relazone tra varabl valutare l grado d recproca nfluenza tra due varabl; valutare l grado d assocazone d due varabl che sono nfluenzate entrambe da una causa esterna.

La relazone esstente tra due varabl può essere analzzata grafcamente ponendo dat osservat n un dagramma a dspersone : Y X Y Y X X

IL COEFFICIENTE DI CORRELAZIONE La msura della forza della assocazone tra le due varabl è data dal coeffcente d correlazone d Pearson: r ( )( ( ) ( ) ) Con 1 r +1 La correlazone studa l assocazone lneare esstente tra due varabl.

+ r = +1 : massma correlazone con proporzonaltà dretta tra le due varabl, al crescere della X cresce anche la Y

+ r = -1 : massma correlazone con proporzonaltà nversa tra le due varabl, al crescere della X decresce la Y (e vceversa).

+ r = 0 : vuol dre che non esste correlazone tra le due varabl. Y X

+ Se s può assumere che le due varabl seguano una dstrbuzone normale bvarata allora la non correlazone sgnfca anche ndpendenza + Se non s può assumere la dstrbuzone normale bvarata allora s deve pensare ad un altra forma d legame (parabola, esponenzale, sgmode, ).

IL TEST DI VERIFICA DI IPOTESI Il valore d r è comunque una stma camponara del coeffcente d correlazone r della popolazone. E possble esegure un test d verfca relatva alla sgnfcatvtà del nostro r camponaro. Tale test verfca anche l ndpendenza delle due varabl se s assume che queste seguano una dstrbuzone normale bvarata. ASSUNZIONI + La dstrbuzone d X e Y congunte è una dstrbuzone normale bvarata.

LA DISTRIBUZIONE NORMALE BIVARIATA La funzone che descrve la dstrbuzone normale bvarata è caratterzzata da 5 parametr: 1. la meda d X. la devazone standard d X 3. la meda d Y 4. la devazone standard d Y 5. l coeffcente r f r r r 1 1 ep 1 1 ), (

Se r = 0 allora s ha: 1 ep 1 ), ( f Applcando la propretà degl esponenzal secondo la quale l esponenzale d una somma è uguale al prodotto degl esponenzal: ep (a+b) = ep (a) ep (b) posso rscrvere la formula: 1 ep 1 ep 1 ), ( f Rcordando che π =π π e raggruppando opportunamente avrò: f(,) = f() f() Conclusone: solo se s può assumere la dstrbuzone normale bvarata l rsultato r = 0 sgnfca ndpendenza delle varabl.

IPOTESI H 0 : r = 0 H 1 : r 0 STATISTICA TEST T r n 1 r

DISTRIBUZIONE DELLA STATISTICA TEST La statstca test ha una dstrbuzone t-student con n- grad d lbertà. REGOLA DI DECISIONE Conoscendo la dstrbuzone della statstca test, suo grad d lbertà e l lvello d sgnfcatvtà (a = 0,05), ndvduerò l valore tabulato con cu confrontare l valore calcolato. Se t calc > t tab allora rfuto H 0.

S vogla studare l legame esstente tra lvell d alcoolema n mg % ml stmata con l etlometro e con prelevo d sangue venoso. Etlometro (X) Prelevo (Y) 44 44 65 69 50 56 153 154 88 83 180 185 35 36 494 50 49 49 04 08

prelevo Provamo a porre dat del nostro esempo n un dagramma a dspersone : etlometro

n n n r ) ( ) ( ) )( ( Per effettuare pù faclmente calcol convene modfcare la formula come segue:

Etlometro (X) Prelevo (Y) XY X Y 44 44 1936 1936 1936 65 69 7185 705 7361 50 56 64000 6500 65536 153 154 356 3409 3716 88 83 7304 7744 6889 180 185 33300 3400 345 35 36 160 15 196 494 50 47988 44036 5004 49 49 6001 6001 6001 04 08 443 41616 4364 196 1986 555068 54709 5638

0,99 165444,48 1654148 10 1986 5638 10 196 54709 10 196 1986 555068 ) ( ) ( ) )( ( n n n r

T r n 8 0,99 19,84 1 r 1 0,99 t tab a=0,05;gl=8 =,306 t calc > t tab rfuto H 0 Decsone del rcercatore: valor d alcoolema determnat con l prelevo e con l etlometro sono correlat, qund msurano lo stesso ndcatore pur con metod e su substrat dvers.

IL COEFFICIENTE DI CORRELAZIONE DI SPEARMAN Nel caso n cu non sa possble fare assunzon sulla dstrbuzone delle varabl l coeffcente d correlazone da usare è : r s 6 1 n n d 1 Con 1 r s +1 dove d sono le dfferenze de rangh attrbut a valor delle due varabl.

L potes nulla è d non correlazone delle due varabl. La decsone verrà presa confrontando l valore d r s calcolato con l valore d r s tabulato. Il valore tabulato s cerca sulle tavole d Spearman n corrspondenza del lvello d sgnfcatvtà del test (α = 0,05) e del numero d coppe d osservazon delle due varabl Se r s calc > r s tab rfuterò l potes nulla.

S ordnano n manera crescente valor della varable Y S assegnano rangh a valor della varable Y S ordnano n manera crescente valor della varable X S assegnano rangh a valor della varable X A valor ugual s assegneranno rangh par alla meda de rangh che valor avrebbero avuto se fossero stat dvers S determnano le dfferenze d tra rangh assegnat alla varable X e rangh assegnat alla varable Y e s calcola l coeffcente d correlazone d Spearman r s r s n 6 1 n d 1 S ndvdua l valore tabulato per a fssato (0,05) e l numero d coppe d osservazon S confronta r s calcolato con l valore tabulato: se rsulta maggore s rfuta l potes nulla d ndpendenza

I dat del problema con calcol da effettuare sono rportat nella seguente tabella N sg. Peso Rangh Rangh d d fumate (X) neonato (Y) X Y 1 3864 1 10 9 81 3318 5 3 9 3 377 3 9 6 36 4 3636 4 8 4 16 5 955 5 4-1 1 6 3364 6 6 0 0 7 3591 7 7 0 0 8 818 8 3-5 5 9 545 9 1-8 64 10 773 10-8 64 96

r s 1 n 6 n d 1 1 6(96) 10(10 1) 1 1776 990 0,794 Nel nostro caso r s tab = 0,648 < 0,794 Rfuto l potes nulla, c è correlazone tra le due varabl.

VERIFICA DI IPOTESI SUL LEGAME TRA VARIABILI QUALITATIVE DATI S vuole verfcare l esstenza d un legame tra l gruppo sangugno e la gravtà d una certa patologa. S dspone del numero d ndvdu che presentano contemporaneamente la patologa ad certo grado d gravtà e un dato gruppo sangugno. Gruppo sangugno Patologa A B AB 0 Totale Assente 543 11 90 476 130 Meda 44 8 31 105 Grave 8 9 7 31 75 Totale 615 4 105 538 1500

La generalzzazone della tabella precedente è: crtero 1 crtero 1 j c Tot. 1 O 11 O 1 O 1j O 1c n 1. O 1 O O j O c n. O 1 O O j O c n. r O r1 O r O rj O rc n r. Tot. n. 1 n. n. j n. c N

ASSUNZIONI Le varabl d cu dsponamo sono qualtatve. Se consderamo una sola cella la presenza contemporanea delle due caratterstche è l successo, sugl N cas possbl: s può assumere una dstrbuzone bnomale. I dat n tabella nel loro nseme seguono una dstrbuzone multnomale. IPOTESI p j = O j / N p = n. / N p j = n. j / N H 0 : H 1 : p j = p p j p j p p j Se le due varabl sono ndpendent la probabltà d avere la caratterstca 1 e la caratterstca sarà data dal prodotto delle probabltà (legge del prodotto).

I VALORI ATTESI Vera l potes nulla e posta l assunzone d dstrbuzone bnomale n cascuna cella allora posso calcolare l valore atteso E j ( meda ) per cascuna cella: E j =N p j = N p p j = N (n. j / N) (n. / N) = (n. j n.)/ N S può qund costrure una tabella d valor attes: crtero 1 crtero 1 j c Tot. 1 E 11 E 1 E 1j E 1c n 1. E 1 E E j E c n. E 1 E E j E c n. r E r1 E r1 E rj E rc n r. Tot. n. 1 n. n. j n. c N

STATISTICA TEST C j O j E j E j DISTRIBUZIONE DELLA STATISTICA TEST La dstrbuzone della statstca test è una C ed è caratterzzata da grad d lbertà. Zona d accettazone Zona d rfuto C tab

REGOLA DI DECISIONE Fssato α accettablmente pccolo (0,05), troverò sulle tavole X un valore n corrspondenza d α prescelto e de grad d lbertà della statstca. Se l valore calcolato è maggore del valore tabulato rfuterò l potes nulla, se nvece l valore calcolato è mnore del tabulato accetterò l potes nulla.

I GRADI DI LIBERTA In questo caso grad d lbertà sono: g.l. = (r-1) (c-1) dove r = numero delle rghe c = numero delle colonne Σp.j = Σn.j / N = 1 Σp. = Σn. / N = 1 fssato N potrò cambare lberamente n., total d rga, meno 1 che m deve garantre la somma delle probabltà d rga (Σp = 1). fssato N potrò cambare lberamente n.j, total d colonna, meno 1 che m deve garantre la somma delle probabltà d colonna (Σp j = 1).

Tabella valor osservat Gruppo sangugno Patologa A B AB 0 Totale Assente 543 11 90 476 130 Meda 44 8 31 105 Grave 8 9 7 31 75 Totale 615 4 105 538 1500 Tabella valor attes Gruppo sangugno Patol. A B AB 0 Totale Assente 541, 1,96 9,40 473,44 130 Meda 43,05 16,94 7,35 37,66 105 Grave 30,75 1,10 5,5 6,90 75 Totale 615 4 105 538 1500

CALCOLO DELLA STATISTICA TEST C... 543 541, 11 1,96 90 9,40 541, 31 6,90 6,90 1,96 5,1 9,40 C a=0,05, gl 6 = 1,59 DECISIONE STATISTICA 5,1<1,59 accetto l potes nulla, le due varabl sono ndpendent DECISIONE DEL RICERCATORE Non c è una evdenza d assocazone tra un gruppo sangugno e l essere affetto dalla malatta n esame.

) ( ) ( ) ( ) ( 0,5 ) ( ) ( ) ( ) ( d b c a d c b a N bc ad N d b c a d c b a bc ad N C C IPOTESI Nella seconda formula c è la correzone per la contnutà d Yates STATISTICA TEST H 0 : p j =p 1 p H 1 : p j =p 1 p

TEST PER IL CONFRONTO DI PIU PROPORZIONI Nel caso d Tabelle d contngenza k dove k rappresentano grupp da porre a confronto e s hanno due possbl rsposte, l precedente test del può essere usato per verfcare: La statstca test H 0 : p 1 =p =.p k =p H 1 : p r p s C j O j E j E j ha una dstrbuzone con k-1 grad d lbertà