STATISTICA DESCRITTIVA BIVARIATA

Похожие документы
STATISTICA DESCRITTIVA BIVARIATA

La statistica descrittiva seconda parte. a cura della prof.ssa Anna Rita Valente

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

Distribuzioni di due variabili aleatorie

Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010.

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

La dipendenza. Antonello Maruotti

Esercitazioni di statistica

Capitolo uno STATISTICA DESCRITTIVA BIVARIATA

Statistica. Alfonso Iodice D Enza

Lezione 5 Corso di Statistica. Francesco Lagona

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

Variabili casuali multidimensionali

Statistica. Alfonso Iodice D Enza

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

Statistica. Esercitazione 3 9 maggio 2012 Coefficiente di variazione. Serie storiche. Connessione e indipendenza statistica

Lezione 8. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 8. A. Iodice. Relazioni tra variabili

Statistica descrittiva con fogli di calcolo. Stoianov, Ceccato

Variabili casuali multidimensionali

STATISTICA: esercizi svolti sulla DIPENDENZA IN MEDIA

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Esercitazioni del corso: RELAZIONI TRA VARIABILI

ANALISI STATISTICHE BIVARIATE. Tabelle di contingenza

Statistica. Alfonso Iodice D Enza

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 5 Analisi Bivariata I Parte

Analisi delle corrispondenze

E la rappresentazione grafica, in questo caso, è la dispersione x,y, cioè una nuvola di punti nel piano cartesiano

ESERCIZI STATISTICA DESCRITTIVA

Paolo Baldi Appunti di Metodi Matematici e Statistici, 1996, Ediz CLUEB. Giovanni Prodi Metodi Matematici e Statistici, 1992, Ediz.

Calcolo delle Probabilità 2

Compiti tematici dai capitoli 2,3,4

Cognome e Nome:... Corso di laurea:...

REGRESSIONE E CORRELAZIONE

I VETTORI GAUSSIANI E. DI NARDO

Statistica. Alfonso Iodice D Enza

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Corso di Psicometria Progredito

Distribuzioni secondo due caratteri. Rappresentazioni e prime sintesi

Relazioni tra variabili: le tabelle di contingenza

CALCOLO DELLE PROBABILITÀ - 9 giugno 1998 Scrivere le risposte negli appositi spazi Motivare dettagliatamente le risposte su fogli allegati

Prova scritta di Statistica

Elaborazione statistica di dati

Esercizi di Calcolo delle Probabilità

1.1 Obiettivi della statistica Struttura del testo 2

Istituzioni di Statistica

Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza

NOZIONI DI CALCOLO DELLE PROBABILITÀ

Ulteriori applicazioni del test del Chi-quadrato (χ 2 )

Транскрипт:

STATISTICA DESCRITTIVA BIVARIATA Si parla di Analisi Multivariata quando su ogni unità statistica, appartenente ad una determinata popolazione, si rileva un certo numero s di caratteri X, X 2,,X s. Si parla di Analisi Bivariata quando su ogni unità statistica, appartenente ad una determinata popolazione, si rilevano due caratteri X e Y. Può trattarsi di due caratteri qualitativi (ovvero mutabili), o di due caratteri quantitativi (ovvero variabili), oppure di un carattere qualitativo e di un carattere quantitativo. Distribuzione bivariata semplice X x x 2 x i x n Y y y 2 y i y n Distribuzione bivariata doppia o congiunta: TABELLA A DOPPIA ENTRATA ( TABELLA DI CONTINGENZA) X Y Y 2 Y j Y h Y X f f 2 f j f h f X 2 f 2 f 22 f 2j f 2h f 2 : : : : : : : :. : : : X i f i f i2 f ij f ih f i : : : : : : : : : : : : X k f k f k2 f kj f kh f k f f 2 f j f h N ij f FREQUENZA CONGIUNTA ASSOLUTA: è il numero delle volte con cui la coppia di modalità (x i, y j ) si presenta, ovvero la frequenza con la quale, su di un unità statistica, il carattere X assume la modalità x i e contemporaneamente il carattere Y assume la modalità y j.

h = j= f i f ij Frequenza assoluta MARGINALE per Riga (: riferita alla riga i-ma): esprime la frequenza della modalità i-ma del carattere X per riga, senza tener conto delle modalità dell altro carattere Y. f k j = f ij i= Frequenza assoluta MARGINALE per Colonna (: riferita alla colonna j- ma): esprime la frequenza della modalità j-ma del carattere Y per colonna, senza tener conto delle modalità dell altro carattere X. Da cui vale la seguente uguaglianza: N = h k fij = j = i= i= k h i = j= f f j Distribuzione marginale o Distribuzione univariata del carattere X: data una distribuzione doppia di frequenze relativa alla rilevazione di N unità statistiche, si definisce distribuzione marginale del carattere X la distribuzione statistica semplice delle N unità statistiche secondo il carattere X. X f(x) X f X i X k f i f k N Distribuzione marginale o Distribuzione univariata del carattere Y: data una distribuzione doppia di frequenze relativa alla rilevazione di N unità statistiche, si definisce distribuzione marginale del carattere Y la distribuzione statistica semplice delle N unità statistiche secondo il carattere Y. Y f(y) Y f Y j Y h f j f h N

R f ij FREQUENZA CONGIUNTA RELATIVA: è la proporzione dei casi in cui, su una popolazione di N unità statistiche, la coppia di modalità (x i, y j ) si presenta: f R ij = f ij N h k j= i= R f ij = NOTAZIONE Frequenza congiunta assoluta f ij (notazione Cicchitelli n ij ) Frequenza assoluta MARGINALE per Riga f i (notazione Cicchitelli i0 n ) Frequenza assoluta MARGINALE per Colonna f j (notazione Cicchitelli n 0 j ) ESEMPIO Si analizzano 000 famiglie secondo la variabile X = numero di auto possedute dalla famiglia e Y = numero di componenti della famiglia. I risultati di tale rilevazione sono raccolti nella seguente Tabella a doppia entrata: Y X 2 3 4 5 0 0 20 20 50 50 85 85 330 50 50 2 5 85 0 0 0 3 0 0 40 0 0

Y X 2 3 4 5 0 0 20 20 50 50 250 85 85 330 50 50 600 2 5 85 0 0 0 00 3 0 0 40 0 0 50 00 200 400 200 00 000 Distribuzioni univariate: X f(x) Y f(y) 0 250 00 600 2 200 2 00 3 400 3 50 4 200 000 5 00 000 Tabella a doppia entrata di Frequenze congiunte relative: Y X 2 3 4 5 0 0,0 0,02 0,02 0,5 0,05 0,25 0,085 0,085 0,33 0,05 0,05 0,6 2 0,005 0,085 0,0 0 0 0, 3 0 0,0 0,04 0 0 0,05 0, 0,2 0,4 0,2 0, Distribuzioni univariate relative: X f R (x) Y f R (y) 0 0,25 0, 0,60 2 0,2 2 0,0 3 0,4 3 0,05 4 0,2,00 5 0,,0

DISTRIBUZIONI CONDIZIONATE La Distribuzione CONDIZIONATA di X dato y j (carattere CONDIZIONATO X/Y=y j ) si ottiene fissando una modalità y j per il carattere Y ed esaminando la distribuzione di X limitatamente alle unità statistiche che possiedono quella modalità y j per il carattere Y: X/Y=y j frequenze assolute relative X f j f j /f j X i f ij f ij /f j X k f kj f kj /f j f j (per ogni j, con j=,,h) La Distribuzione CONDIZIONATA di Y dato x i (carattere CONDIZIONATO Y/X=x i ) si ottiene fissando una modalità x i per il carattere X ed esaminando la distribuzione di Y limitatamente alle unità statistiche che possiedono quella modalità x i per il carattere X: Y/X=x i frequenze assolute relative Y f i f i /f i Y j f ij f ij /f i Y h f ih f ih /f i f i (per ogni i, con i=,,k)

Esempio di distribuzione condizionata (v. esempio precedente di tabella a doppia entrata): frequenze frequenze X/Y=2 assolute relative Y/X= assolute relative 0 20 0,00 85 0,467 85 0,425 2 85 0,467 2 85 0,425 3 330 0,55000 3 0 0,050 4 50 0,08333 200,000 5 50 0,08333 600

Media aritmetica della SOMMA di 2 o più variabili statistiche Siano X, X 2,,X s delle variabili statistiche costituite ognuna da n determinazioni, di media, rispettivamente m, m 2,,m s, e sia Z= X +X 2 + +X s la loro somma. La media della SOMMA risulta uguale alla somma delle medie dei singoli addendi: M(z)=M(x )+M(x 2 )+ +M(x s )= m +m 2 + +m s ESERCIZIO Sui seguenti dati: Determinare la variabile Z=X+Y. Di essa: Y X 2 3 4 5 0 00 40 20 0 50 200 870 30 2 0 0 500 70 a) presentare la distribuzione di probabilità; b) calcolare la media di Z e verificare le relazione che lega la media della somma alle medie degli addendi; SOLUZIONI a) z f(z) p(z) z*f(z) 2 00 0,050 200 3 90 0,045 270 4 230 0,5 920 5 880 0,440 4400 6 530 0,265 380 7 70 0,085 90 2000,000 060

b) M(z)=060/2000=5,08 x f(x) x*f(x) y f(y) y*f(y) 0 60 0 2 60 320 50 50 3 250 750 2 690 380 4 390 5560 2000 2530 5 200 000 2000 7630 M(x)=2530/2000=,265 M(y)=7630/2000=3,85 M(z)=5,08=M(x)+M(y)=,265+3,85=5,08

Varianza della SOMMA di due o più variabili statistiche Siano X, X 2,,X s delle variabili statistiche costituite ognuna da n determinazioni, di media e varianza, rispettivamente m, m 2,,m s, e σ, σ,, 2 σ s, sia 2 2 2 la loro somma. Z= X +X 2 + +X s La varianza della somma risulta uguale a V ( z) = σ s s 2 2 2 + + + + σ 2... σ s 2 Cov i, i= j = i+ ( x x ) j s ( ) Dove il simbolo s Cov x i, x j i= j= i+ indica la somma di tutte le s s! = 2 2!( s 2)! Covarianze ottenibili associando fra di loro s variabili prese 2 a 2.

ESERCIZIO (Variabile SOMMA) Le famiglie di un Comune sono state classificate secondo i caratteri X n. di viaggi all estero e Y n. di viaggi in Italia. I risultati sono i seguenti: Y X 0 2 4 0 30 20 0 30 00 20 3 0 0 80 a) definire la variabile somma Z = X + Y e dare la distribuzione di frequenze di Z. b) Verificare la relazione esistente fra la media della somma e le medie delle variabili; c) Verificare la relazione esistente fra la varianza della somma e le varianze delle variabili. SOLUZIONI a) z f(z) 0 30 30 2 20 3 00 4 0 5 30 7 80 400 b) z f(z) z*f(z) 0 30 0 30 30 2 20 40 3 00 300 4 0 40 5 30 50 7 80 260 400 820 M(z)=820/400=4,55

X f(x) x*f(x) y f(y) y*f(y) 0 60 0 0 60 0 50 50 2 30 260 3 90 570 4 20 840 400 720 400 00 M(x)=720/400=,8 M(y)=00/400=2,75 M(z)= M(x)+M(y)=,8+2,75=4,55 c) z f(z) z*f(z) z 2 *f(z) 0 30 0 0 30 30 30 2 20 40 80 3 00 300 900 4 0 40 60 5 30 50 750 7 80 260 8820 400 820 0740 Var(z)=0740/400-(4,55) 2 =26,85-20,7025=6,475 Var(z)= V(x)+V(y)+2*Cov(x,y) X f(x) x*f(x) x 2 *f(x) 0 60 0 0 50 50 50 3 90 570 70 400 720 860 Var(x)=860-(,8) 2 =,4 y f(y) y*f(y) y 2 *f(y) 0 60 0 0 2 30 260 520 4 20 840 3360 400 00 3880 Var(y)=3880/400-(2,75) 2 =2,375 Cov(x,y)=M(x*y)-M(x)*M(y)

x*y fxy x*y*fxy 0 90 0 2 00 200 4 20 80 6 0 60 2 80 260 400 2500 M(x*y)=2500/400=6,25 Cov(x,y)=6,25-(,8)*(2,75)=,3 Var(z)= V(x)+V(y)+2*Cov(x,y)=,4+2,375+2*,3=6,475 (c.v.d)

Media aritmetica del PRODOTTO di 2 variabili statistiche Sia X una variabile di media M(x)=m x e Y una variabile di media M(y)=m y. Sia Z=X Y la variabile PRODOTTO delle due variabili. La media aritmetica di Z risulta: M ( Z ) = M ( X Y ) = m m Cov( x, y) x y + ESERCIZIO (Variabile PRODOTTO) Date le variabili X e Y, calcolare la media del prodotto Z=X Y. Metodo diretto di calcolo: X Y 8 2 7 3 6 4 5 5 4 M(Z)=80/5=6 X Y Z 8 8 2 7 4 3 6 8 4 5 20 5 4 20 80

Metodo indiretto di calcolo: M(x)=5/5=3 M(y)=30/5=6 M(z)=3*6+(-0/5)=8-2=6 X Y x-m x y-m y (x-m x )(y-m y ) 8-2 2-4 2 7 - - 3 6 0 0 0 4 5 - - 5 4 2-2 -4 5 30-0