STATISTICA DESCRITTIVA BIVARIATA

Documenti analoghi
STATISTICA DESCRITTIVA BIVARIATA

La statistica descrittiva seconda parte. a cura della prof.ssa Anna Rita Valente

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 3

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

Computazione per l interazione naturale: fondamenti probabilistici (2)

Distribuzioni di due variabili aleatorie

Corso di Laurea in Scienze dell Organizzazione Facoltà di Sociologia, Università degli Studi di Milano-Bicocca a.a. 2009/2010.

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

Statistica descrittiva in due variabili

La dipendenza. Antonello Maruotti

Esercitazioni di statistica

Capitolo uno STATISTICA DESCRITTIVA BIVARIATA

Fondamenti e metodi analisi empirica nelle scienze sociali

Statistica. Alfonso Iodice D Enza

Lezione 5 Corso di Statistica. Francesco Lagona

Analisi dell associazione tra due caratteri

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

Variabili casuali multidimensionali

Statistica. Alfonso Iodice D Enza

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE

con fogli di calcolo Docente del laboratorio: Maria Silvia Pini

Risultati X P(X) TTT 0 1/8 TTC 1 1/8 TCT 1 1/8 CTT 1 1/8 TCC 2 1/8 CTC 2 1/8 CCT 2 1/8 CCC 3 1/8 X P(X) F(X) 0 1/8 1/8 1 3/8 4/8 2 3/8 7/8 3 1/8 1

Materiale didattico per il corso di Statistica I Quinta esercitazione SOLUZIONI

María Eugenia Castellanos. Cagliari, Marzo 2010

Corso di Laurea in MQEGA

Corso in Statistica Medica

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

PROVA SCRITTA DI STATISTICA. CLEA/CLEFIN/CLEMIT (cod. 5047/4038/371/377) 3 Novembre 2004 MOD. A

Statistica. Esercitazione 3 9 maggio 2012 Coefficiente di variazione. Serie storiche. Connessione e indipendenza statistica

Lezione 8. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 8. A. Iodice. Relazioni tra variabili

Sequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di:

Sequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di:

Statistica descrittiva con fogli di calcolo. Stoianov, Ceccato

Variabili casuali multidimensionali

STATISTICA: esercizi svolti sulla DIPENDENZA IN MEDIA

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Esercitazioni del corso: RELAZIONI TRA VARIABILI

PROBABILITA' E STATISTICA Prova del 29/07/2016 Traccia A

ESERCITAZIONI N. 3 corso di statistica

ANALISI STATISTICHE BIVARIATE. Tabelle di contingenza

Statistica. Alfonso Iodice D Enza

Calcolare. 16. Calcolare la somma della serie. 17. Se

Calcolo delle Probabilità

L analisi dell associazione o connessione tra due caratteri statistici

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 4 Analisi Bivariata I Parte

PROBABILITA' E STATISTICA Prova del 24/06/2016 Traccia A

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 5 Analisi Bivariata I Parte

IDENTIFICAZIONE dei MODELLI e ANALISI dei DATI. Lezione 01 - Variabili aleatorie. Calcolo di densità di probabilità. Operatore di media

Indice. 1. Premessa Le relazioni tra coppie di caratteri L analisi della contingenza L analisi della correlazione...

Analisi delle corrispondenze

E la rappresentazione grafica, in questo caso, è la dispersione x,y, cioè una nuvola di punti nel piano cartesiano

ESERCIZI STATISTICA DESCRITTIVA

Dipartimento di Sociologia e Ricerca Sociale. Corso di Laurea in Sociologia. Insegnamento di Statistica (a.a ) dott.ssa Gaia Bertarelli

10. VARIABILI CASUALI MULTIPLE

Ringraziamenti dell Editore

ESERCITAZIONI N. 2 corso di statistica

Paolo Baldi Appunti di Metodi Matematici e Statistici, 1996, Ediz CLUEB. Giovanni Prodi Metodi Matematici e Statistici, 1992, Ediz.

Analisi dei dati per la comunicazione

Calcolo delle Probabilità 2

Compiti tematici dai capitoli 2,3,4

Cognome e Nome:... Corso di laurea:...

REGRESSIONE E CORRELAZIONE

Statistica descrittiva in due variabili

LE VARIABILI CASUALI A 1, A 2.,..., A k., p 2.,..., p k. generati da una specifica prova sono necessari ed incompatibili:

I VETTORI GAUSSIANI E. DI NARDO

Statistica. Alfonso Iodice D Enza

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Corso di Psicometria Progredito

Statistica. Lezioni: 3, 4. Statistica Descrittiva Univariata 2

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Distribuzioni secondo due caratteri. Rappresentazioni e prime sintesi

Relazioni tra variabili: le tabelle di contingenza

1. Siano A, E eventi incompatibili, e sia B E, con P (A) = 1 5, P (B) = 3 10, P (E) = 1 2.

IDENTIFICAZIONE dei MODELLI e ANALISI dei DATI. Lezione 20: Stima puntuale. Stimatore lineare a MEQM. Esempi. Motivazioni

Fonti e strumenti statistici per la comunicazione

Problema 1. Cognome, Nome: Facoltà di Economia Statistica Esame 5-19/11/2009: A. Matricola: Corso:

CALCOLO DELLE PROBABILITÀ - 9 giugno 1998 Scrivere le risposte negli appositi spazi Motivare dettagliatamente le risposte su fogli allegati

Prova scritta di Statistica

Tecniche di sondaggio

Elaborazione statistica di dati

Consideriamo due variabili quantitative Y e X, e supponiamo di essere interessati a comprendere come la Y

Esercizi di Calcolo delle Probabilità

Casa dello Studente. Casa dello Studente

1.1 Obiettivi della statistica Struttura del testo 2

Istituzioni di Statistica

Matematica Lezione 22

Corso di Laurea in Ingegneria Informatica e Automatica (M-Z) Università di Roma La Sapienza

PROBABILITA' E STATISTICA Prova del 17/02/2017 Traccia A

Statistiche e relazioni

Facoltà di Economia - Sede di Udine Pre-Test di Statistica - C 23 ottobre Foglio domande

Facoltà di Economia - Sede di Udine Pre-Test di Statistica - A 23 ottobre Foglio domande

Statistica Analisi bidimensionale La dipendenza in media. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Analisi statistica e matematico-finanziaria II. Alfonso Iodice D Enza Università degli studi di Cassino e del Lazio Meridionale

PROBABILITA' E STATISTICA Prova del 16/09/2016 Traccia A

NOZIONI DI CALCOLO DELLE PROBABILITÀ

Alfonso Iodice D Enza

Ulteriori applicazioni del test del Chi-quadrato (χ 2 )

Transcript:

STATISTICA DESCRITTIVA BIVARIATA Si parla di Analisi Multivariata quando su ogni unità statistica, appartenente ad una determinata popolazione, si rileva un certo numero s di caratteri X, X 2,,X s. Si parla di Analisi Bivariata quando su ogni unità statistica, appartenente ad una determinata popolazione, si rilevano due caratteri X e Y. Può trattarsi di due caratteri qualitativi (ovvero mutabili), o di due caratteri quantitativi (ovvero variabili), oppure di un carattere qualitativo e di un carattere quantitativo. Distribuzione bivariata semplice X x x 2 x i x n Y y y 2 y i y n Distribuzione bivariata doppia o congiunta: TABELLA A DOPPIA ENTRATA ( TABELLA DI CONTINGENZA) X Y Y 2 Y j Y h Y X f f 2 f j f h f X 2 f 2 f 22 f 2j f 2h f 2 : : : : : : : :. : : : X i f i f i2 f ij f ih f i : : : : : : : : : : : : X k f k f k2 f kj f kh f k f f 2 f j f h N ij f FREQUENZA CONGIUNTA ASSOLUTA: è il numero delle volte con cui la coppia di modalità (x i, y j ) si presenta, ovvero la frequenza con la quale, su di un unità statistica, il carattere X assume la modalità x i e contemporaneamente il carattere Y assume la modalità y j.

h = j= f i f ij Frequenza assoluta MARGINALE per Riga (: riferita alla riga i-ma): esprime la frequenza della modalità i-ma del carattere X per riga, senza tener conto delle modalità dell altro carattere Y. f k j = f ij i= Frequenza assoluta MARGINALE per Colonna (: riferita alla colonna j- ma): esprime la frequenza della modalità j-ma del carattere Y per colonna, senza tener conto delle modalità dell altro carattere X. Da cui vale la seguente uguaglianza: N = h k fij = j = i= i= k h i = j= f f j Distribuzione marginale o Distribuzione univariata del carattere X: data una distribuzione doppia di frequenze relativa alla rilevazione di N unità statistiche, si definisce distribuzione marginale del carattere X la distribuzione statistica semplice delle N unità statistiche secondo il carattere X. X f(x) X f X i X k f i f k N Distribuzione marginale o Distribuzione univariata del carattere Y: data una distribuzione doppia di frequenze relativa alla rilevazione di N unità statistiche, si definisce distribuzione marginale del carattere Y la distribuzione statistica semplice delle N unità statistiche secondo il carattere Y. Y f(y) Y f Y j Y h f j f h N

R f ij FREQUENZA CONGIUNTA RELATIVA: è la proporzione dei casi in cui, su una popolazione di N unità statistiche, la coppia di modalità (x i, y j ) si presenta: f R ij = f ij N h k j= i= R f ij = NOTAZIONE Frequenza congiunta assoluta f ij (notazione Cicchitelli n ij ) Frequenza assoluta MARGINALE per Riga f i (notazione Cicchitelli i0 n ) Frequenza assoluta MARGINALE per Colonna f j (notazione Cicchitelli n 0 j ) ESEMPIO Si analizzano 000 famiglie secondo la variabile X = numero di auto possedute dalla famiglia e Y = numero di componenti della famiglia. I risultati di tale rilevazione sono raccolti nella seguente Tabella a doppia entrata: Y X 2 3 4 5 0 0 20 20 50 50 85 85 330 50 50 2 5 85 0 0 0 3 0 0 40 0 0

Y X 2 3 4 5 0 0 20 20 50 50 250 85 85 330 50 50 600 2 5 85 0 0 0 00 3 0 0 40 0 0 50 00 200 400 200 00 000 Distribuzioni univariate: X f(x) Y f(y) 0 250 00 600 2 200 2 00 3 400 3 50 4 200 000 5 00 000 Tabella a doppia entrata di Frequenze congiunte relative: Y X 2 3 4 5 0 0,0 0,02 0,02 0,5 0,05 0,25 0,085 0,085 0,33 0,05 0,05 0,6 2 0,005 0,085 0,0 0 0 0, 3 0 0,0 0,04 0 0 0,05 0, 0,2 0,4 0,2 0, Distribuzioni univariate relative: X f R (x) Y f R (y) 0 0,25 0, 0,60 2 0,2 2 0,0 3 0,4 3 0,05 4 0,2,00 5 0,,0

DISTRIBUZIONI CONDIZIONATE La Distribuzione CONDIZIONATA di X dato y j (carattere CONDIZIONATO X/Y=y j ) si ottiene fissando una modalità y j per il carattere Y ed esaminando la distribuzione di X limitatamente alle unità statistiche che possiedono quella modalità y j per il carattere Y: X/Y=y j frequenze assolute relative X f j f j /f j X i f ij f ij /f j X k f kj f kj /f j f j (per ogni j, con j=,,h) La Distribuzione CONDIZIONATA di Y dato x i (carattere CONDIZIONATO Y/X=x i ) si ottiene fissando una modalità x i per il carattere X ed esaminando la distribuzione di Y limitatamente alle unità statistiche che possiedono quella modalità x i per il carattere X: Y/X=x i frequenze assolute relative Y f i f i /f i Y j f ij f ij /f i Y h f ih f ih /f i f i (per ogni i, con i=,,k)

Esempio di distribuzione condizionata (v. esempio precedente di tabella a doppia entrata): frequenze frequenze X/Y=2 assolute relative Y/X= assolute relative 0 20 0,00 85 0,467 85 0,425 2 85 0,467 2 85 0,425 3 330 0,55000 3 0 0,050 4 50 0,08333 200,000 5 50 0,08333 600

Media aritmetica della SOMMA di 2 o più variabili statistiche Siano X, X 2,,X s delle variabili statistiche costituite ognuna da n determinazioni, di media, rispettivamente m, m 2,,m s, e sia Z= X +X 2 + +X s la loro somma. La media della SOMMA risulta uguale alla somma delle medie dei singoli addendi: M(z)=M(x )+M(x 2 )+ +M(x s )= m +m 2 + +m s ESERCIZIO Sui seguenti dati: Determinare la variabile Z=X+Y. Di essa: Y X 2 3 4 5 0 00 40 20 0 50 200 870 30 2 0 0 500 70 a) presentare la distribuzione di probabilità; b) calcolare la media di Z e verificare le relazione che lega la media della somma alle medie degli addendi; SOLUZIONI a) z f(z) p(z) z*f(z) 2 00 0,050 200 3 90 0,045 270 4 230 0,5 920 5 880 0,440 4400 6 530 0,265 380 7 70 0,085 90 2000,000 060

b) M(z)=060/2000=5,08 x f(x) x*f(x) y f(y) y*f(y) 0 60 0 2 60 320 50 50 3 250 750 2 690 380 4 390 5560 2000 2530 5 200 000 2000 7630 M(x)=2530/2000=,265 M(y)=7630/2000=3,85 M(z)=5,08=M(x)+M(y)=,265+3,85=5,08

Varianza della SOMMA di due o più variabili statistiche Siano X, X 2,,X s delle variabili statistiche costituite ognuna da n determinazioni, di media e varianza, rispettivamente m, m 2,,m s, e σ, σ,, 2 σ s, sia 2 2 2 la loro somma. Z= X +X 2 + +X s La varianza della somma risulta uguale a V ( z) = σ s s 2 2 2 + + + + σ 2... σ s 2 Cov i, i= j = i+ ( x x ) j s ( ) Dove il simbolo s Cov x i, x j i= j= i+ indica la somma di tutte le s s! = 2 2!( s 2)! Covarianze ottenibili associando fra di loro s variabili prese 2 a 2.

ESERCIZIO (Variabile SOMMA) Le famiglie di un Comune sono state classificate secondo i caratteri X n. di viaggi all estero e Y n. di viaggi in Italia. I risultati sono i seguenti: Y X 0 2 4 0 30 20 0 30 00 20 3 0 0 80 a) definire la variabile somma Z = X + Y e dare la distribuzione di frequenze di Z. b) Verificare la relazione esistente fra la media della somma e le medie delle variabili; c) Verificare la relazione esistente fra la varianza della somma e le varianze delle variabili. SOLUZIONI a) z f(z) 0 30 30 2 20 3 00 4 0 5 30 7 80 400 b) z f(z) z*f(z) 0 30 0 30 30 2 20 40 3 00 300 4 0 40 5 30 50 7 80 260 400 820 M(z)=820/400=4,55

X f(x) x*f(x) y f(y) y*f(y) 0 60 0 0 60 0 50 50 2 30 260 3 90 570 4 20 840 400 720 400 00 M(x)=720/400=,8 M(y)=00/400=2,75 M(z)= M(x)+M(y)=,8+2,75=4,55 c) z f(z) z*f(z) z 2 *f(z) 0 30 0 0 30 30 30 2 20 40 80 3 00 300 900 4 0 40 60 5 30 50 750 7 80 260 8820 400 820 0740 Var(z)=0740/400-(4,55) 2 =26,85-20,7025=6,475 Var(z)= V(x)+V(y)+2*Cov(x,y) X f(x) x*f(x) x 2 *f(x) 0 60 0 0 50 50 50 3 90 570 70 400 720 860 Var(x)=860-(,8) 2 =,4 y f(y) y*f(y) y 2 *f(y) 0 60 0 0 2 30 260 520 4 20 840 3360 400 00 3880 Var(y)=3880/400-(2,75) 2 =2,375 Cov(x,y)=M(x*y)-M(x)*M(y)

x*y fxy x*y*fxy 0 90 0 2 00 200 4 20 80 6 0 60 2 80 260 400 2500 M(x*y)=2500/400=6,25 Cov(x,y)=6,25-(,8)*(2,75)=,3 Var(z)= V(x)+V(y)+2*Cov(x,y)=,4+2,375+2*,3=6,475 (c.v.d)

Media aritmetica del PRODOTTO di 2 variabili statistiche Sia X una variabile di media M(x)=m x e Y una variabile di media M(y)=m y. Sia Z=X Y la variabile PRODOTTO delle due variabili. La media aritmetica di Z risulta: M ( Z ) = M ( X Y ) = m m Cov( x, y) x y + ESERCIZIO (Variabile PRODOTTO) Date le variabili X e Y, calcolare la media del prodotto Z=X Y. Metodo diretto di calcolo: X Y 8 2 7 3 6 4 5 5 4 M(Z)=80/5=6 X Y Z 8 8 2 7 4 3 6 8 4 5 20 5 4 20 80

Metodo indiretto di calcolo: M(x)=5/5=3 M(y)=30/5=6 M(z)=3*6+(-0/5)=8-2=6 X Y x-m x y-m y (x-m x )(y-m y ) 8-2 2-4 2 7 - - 3 6 0 0 0 4 5 - - 5 4 2-2 -4 5 30-0