La media da calcolare è rappresentata da (per distribuzioni di frequenza): k

Documenti analoghi
Istituzioni di Statistica e Statistica Economica

Esercitazioni di statistica

ESERCIZI STATISTICA DESCRITTIVA

REGRESSIONE E CORRELAZIONE

Statistica. Alfonso Iodice D Enza

Esercitazione di Statistica Indici di associazione

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Lezione 8. Statistica. Alfonso Iodice D Enza Università degli studi di Cassino. Lezione 8. A. Iodice. Relazioni tra variabili

Lezione 4 a - Misure di dispersione o di variabilità

La dipendenza. Antonello Maruotti

3) In una distribuzione di frequenza si può ottenere più di una moda Vero Falso

Statistica. Esercitazione 4 15 maggio 2012 Connessione. Medie condizionate. Covarianza e correlazione

Distribuzioni secondo due caratteri. Rappresentazioni e prime sintesi

Esercitazioni. Es 1. Dato il seguente dataset

STATISTICA: esercizi svolti sulla DIPENDENZA IN MEDIA

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Esercitazioni di Statistica

Statistica. Esercitazione 4 17 febbraio 2011 Medie condizionate. Covarianza e correlazione

1/4 Capitolo 4 Statistica - Metodologie per le scienze economiche e sociali 2/ed Copyright 2008 The McGraw-Hill Companies srl

Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)

UNIVERSITÀ DEGLI STUDI DI ROMA LA SAPIENZA

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Questionario 1. Sono assegnati i seguenti dati

Esercitazioni di statistica

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

STATISTICA 1 ESERCITAZIONE 2

Esercitazione del

Esercizi Svolti. 2. Costruire la distribuzione delle frequenze cumulate del tempo di attesa

DISTRIBUZIONI DOPPIE (ANALISI DESCRITTIVE) Fulvio De Santis a.a Prerequisiti Popolazione, unità, carattere Come nascono i dati:

ESERCIZI SVOLTI Giuliano Bonollo - Michele Bonollo

Statistica Un Esempio

Gli indici di variabilità

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

Statistica Esercitazione. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Esempi di confronti grafici

Indice. 1. Premessa Le relazioni tra coppie di caratteri L analisi della contingenza L analisi della correlazione...

x i. Δ x i

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Ringraziamenti dell Editore

a.a Esercitazioni di Statistica Medica e Biometria Corsi di Laurea triennali Ostetricia / Infermieristica Pediatrica I anno

Università degli Studi di Napoli Parthenope. Facoltà di Scienze Motorie a.a. 2010/2011 STATISTICA. Docente: Paolo Mazzocchi

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

Elementi di Statistica

Indicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica

Istituzioni di Statistica 1 Esercizi su tabelle di contingenza

Statistica. Alfonso Iodice D Enza

Analisi congiunta di più fenomeni

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Statistica descrittiva II

STATISTICHE DESCRITTIVE Parte II

Esercitazioni del corso: STATISTICA

STATISTICA (I modulo - Statistica Descrittiva) Soluzione Esercitazione I

STATISTICA (modulo I - Statistica Descrittiva) Soluzione Esercitazione I

METODO DEI MINIMI QUADRATI

Stesso valore medio per distribuzioni diverse

Premessa: la dipendenza in media

PROVA SCRITTA DI STATISTICA. cod CLEA-CLAPI-CLEFIN-CLELI cod CLEA-CLAPI-CLEFIN-CLEMIT. 5 Novembre 2003 SOLUZIONI MOD.

Esercizio 1 Questa tabella esprime i tempi di durata di 200 apparecchiature elettriche:

Le misure della tendenza

= elemento che compare nella seconda riga e quinta colonna = -4 In generale una matrice A di m righe e n colonne si denota con


STATISTICA esercizi svolti sulla VARIABILITA

SCOPO DELL ANALISI DI CORRELAZIONE

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

Casa dello Studente. Casa dello Studente

Tema d esame del 15/02/12

Associazione tra caratteri quantitativi: gli indici di correlazione

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 4

FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL ORGANIZZAZIONE ESAME di STATISTICA 21/09/2011

Consideriamo un numero a e un numero naturale n positivo. Per dare una definizione corretta di radicale con indice n, o radice n-esima di a

Presentazione dell edizione italiana Prefazione xix Ringraziamenti xxii Glossario dei simboli xxiii

Statistica4-29/09/2015

Facoltà di Scienze Politiche Corso di laurea in Servizio sociale. Compito di Statistica del 7/1/2003

Elementi di statistica

Teoria e tecniche dei test. Concetti di base

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

Ulteriori applicazioni del test del Chi-quadrato (χ 2 )

INDICATORI DI TENDENZA CENTRALE

Statistiche e relazioni

Sintesi dei dati in una tabella. Misure di variabilità (cap. 4) Misure di forma (cap. 5) Statistica descrittiva (cap. 6)

ESEMPI DI DOMANDE PER TUTTE E DUE LE TIPOLOGIE DI PARTECIPANTI

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

STATISTICHE DESCRITTIVE

Applicazioni statistiche e utilizzo del package statistico Spss - 7

Indici di variabilità ed eterogeneità

LE MISURE DI TENDENZA CENTRALE. Dott. Giuseppe Di Martino Scuola di Specializzazione in Igiene e Medicina Preventiva

Esercitazioni di Statistica

Moltiplicazione. Divisione. Multipli e divisori

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Esercitazione II Statistica e Calcolo delle Probabilità (con soluzioni)

Esercitazioni di statistica

1 L estrazione di radice

La Variabilità statistica

STATISTICA: esercizi svolti su MODA, MEDIANA, QUARTILI, DECILI e CENTILI

Statistica Analisi bidimensionale La dipendenza in media. alessandro polli facoltà di scienze politiche, sociologia, comunicazione

Transcript:

bruno delle donne Esercitazioni di Statistica - modulo base - a.a.007-08 ESERCIZIO MEDIE AALITICHE Data la distribuzione del peso corporeo di un gruppo di malati adulti, appresso riportata, si calcoli la media aritmetica Classe di peso n. malati -- 50 3 50 -- 55 77 55 -- 60 8 60 -- 65 363 65 -- 75 67 75 -- 85 58 85 -- 0 Per il calcolo della media, visto che quella data è una distribuzione in classi, occorre individuare il valore centrale della classe; per poterlo fare è necessario procedere attraverso i seguenti punti: è necessario stabilire per la prima classe un ragionevole estremo inferiore, scegliamolo in 45 visto che trattasi di adulti; è necessario stabilire per l'ultima un ragionevole estremo superiore, scegliamolo in 00 vista la tendenza al soprappeso delle popolazioni occidentali; le classi sono chiuse a destra quindi includono l'estremo superiore ma non quello inferiore; pertanto le classi andrebbero lette come 46-50, 5-55, 56-60, 6-65, 66-75, 7-85, 86-00. Disponendo delle classi come indicato basterà effettuare la semisomma degli estremi per disporre del valore centrale; pertanto la distribuzione può essere così riscritta: valore centrale della classe frequenza 48 3 53 77 58 8 63 363 70,5 67 80,5 58 93 0 La media da calcolare è rappresentata da (per distribuzioni di frequenza): k M = x i n i media aritmetica (il simbolo più correttamente dovrebbe essere M ) i= Per lo sviluppo della formula si deve calcolare il prodotto delle modalità per le frequenze; pertanto viste le dimensioni dei calcoli converrà adottare una origine arbitraria (ad es. 43 = 0) e fissare un intervallo tra l origine ed i successivi valori (ad es. 5) così che i valori centrali diventeranno (=43+*5), (=43+*5), 3 (=43+3*5), 4 (=43+4*5), 5,5 (=43+5,5*5), 7,5 (=43+7,5*5), 0 (=43+0*5); pertanto la distribuzione diventa:

bruno delle donne Esercitazioni di Statistica - modulo base - a.a.007-08 valore centrale della classe frequenza 3 77 3 8 4 363 5,5 67 7,5 58 0 0 Per effettuare i conteggi sopra indicati conviene impostare i calcoli in una tabella con una serie di colonne in cui svolgiamo i calcoli delle diverse formule: x i n i x i *n i 3 3 77 54 3 8 354 4 363.45 5,5 67 3.449 7,5 58 4.358 0 0.00 totale.000.88 Con tali valori possiamo ottenere: M = 88 = 5, 909 000 La media ottenuta è tuttavia riferita all origine iniziale ed all incremento fissati arbitrariamente per comodità di calcolo; per avere il vero valore della media bisogna tener conto che la variabile effettiva è una trasformata (espressione =ax+b) di quella arbitraria secondo la seguente relazione =5x+43; conoscendo la trasformazione ed applicando la proprietà della media aritmetica avremo: media = 5*5,909+43 = 7,55. ESERCIZIO MEDIE AALITICHE Data la distribuzione appresso riportata, si calcolino le medie aritmetica, geometrica, quadratica e si verifichi la proprietà delle medie di potenza modalità frequenza 3,5 3 3 5 5,5 7 8 0

bruno delle donne Esercitazioni di Statistica - modulo base - a.a.007-08 Le medie da calcolare sono rappresentate da (per distribuzioni di frequenza): M = k i= k M g = = i M = = i x i n i k x ni i x i n i media aritmetica (il simbolo più correttamente dovrebbe essere M ) media geometrica (il simbolo più correttamente dovrebbe essere M 0 ) media quadratica Per lo sviluppo delle diverse formule si deve calcolare: il prodotto delle modalità per le frequenze; le potenze delle modalità con esponente le frequenze e le produttorie successive dei risultati; i quadrati delle modalità ed il loro prodotto per le frequenze. Per effettuare i conteggi sopra indicati conviene impostare i calcoli in una tabella con una serie di colonne in cui svolgiamo i calcoli delle diverse formule: n x i n i x i *n i n i x i x j j x i x i *n i 3 3,00,00 3,00,5 3 8 5,63 6 6,5 8,75 3 5 5 43,00 3.797 9,00 45,00 5,5 30,5 4.855 30,5 60,50 7 7 7,00 803.988 49,00 49,00 8 8 8,00 6.43.906 64,00 64,00 0 0 00,00 643.90.65 00,00 00,00 totale 7 7 ==== ======= ==== 440,5 Con tali valori possiamo ottenere: M = 7 = 4, 06 7 ; M 643. 90. 65 3, 97 7 g = = ; M = 440, 5 = 5, 089 7 Per verificare la proprietà delle medie di potenza, data da M s M s M s+, è sufficiente ricordare quanto indicato nei simboli delle medie (la media aritmetica è M e quella geometrica M 0 ) per verificare che: 3, 97( M g = M0 ) 4, 06( M = M ) 5, 089( M ) ESERCIZIO 3 MEDIE LASCHE È stata rilevata la distribuzione del numero di studenti secondo la votazione attribuita in un esame universitario, ottenendo i seguenti risultati:

bruno delle donne Esercitazioni di Statistica - modulo base - a.a.007-08 votazione giudizio voto n. studenti insufficiente 0-7 03 mediocre 8-5 discreto 3-5 7 buono 6-9 ottimo 30 7 Calcolare la moda, la mediana, il terzo quartile ed il 9 percentile, il calcolo deve essere riferito sia al giudizio che al voto. Dopo aver rilevato le frequenze cumulate pari a: 03 54 8 93 00 (ottenute dalla frequenza - n. studenti - scrivendo la prima, sommando la seconda alla prima, sommando la terza al risultato ottenuto, sommando la quarta al risultato ottenuto e sommando la quinta al risultato ottenuto) è possibile stabilire: la moda è il giudizio insufficiente (o il voto 0-7) essendo la modalità con la massima frequenza; la mediana è il giudizio insufficiente (o il voto 0-7), che presenta una frequenza cumulata tra e 03, essendo la modalità che biseca la distribuzione ordinata: visto che è pari la modalità che occupa i posti 00 (/) e 0 (/+) oppure il posto 00,5 (00+/); il terzo quartile è il giudizio discreto (o il voto 3-5), che presenta una frequenza cumulata tra 55 e 8, essendo la modalità che lascia a sinistra i ¾ delle frequenze (quindi 75=00*3/4); il 9 percentile è il giudizio buono (o il voto 6-9), che presenta una frequenza cumulata tra 8 e 93, essendo la modalità che lascia a sinistra il 9% delle frequenze (quindi 8=00*9/00). Per la mediana è possibile, limitatamente al voto, individuare il voto esatto con la formula x x x + ( Fe e ) in cui, con riferimento alla classe che individua la media lasca, x ne ed x sono gli estremi inferiore e superiore, n e è la frequenza, F e il valore esatto calcolato in precedenza ed e- è la frequenza cumulata della classe precedente. Pertanto risulterà: 7 0 mediana = 0 + ( 00, 5 0) = 6, 59 03 ESERCIZIO 4 VARIABILITÀ Si calcoli per la distribuzione appresso riportata: il campo di variazione, la differenza interquartilica, lo scarto quadratico medio, la varianza, il coefficiente di variazione e l escursione relativa; si verifichi inoltre la proprietà dello scarto semplice dalla media aritmetica (somma degli scarti uguale zero)

bruno delle donne Esercitazioni di Statistica - modulo base - a.a.007-08 età n. dipendenti 40 37 4 5 4 78 43 34 44 45 59 46 8 47 66 48 47 49 5 totale 500 I valori da calcolare sono rappresentati (per distribuzioni di frequenza) da: R = x - x campo di variazione Δ = q 3 - q k i= differenza interquartilica σ = ( xi M ) n i scarto quadratico medio ( M M ) σ = varianza C v δ σ M R σ = coefficiente di variazione = escursione relativa Per effettuare i conteggi sopra indicati conviene impostare i calcoli in una tabella con una serie di colonne in cui svolgiamo i calcoli delle diverse formule: x i n i i x i *n i x i - M (x i - M)*n i (x i - M) (x i - M) *n i x i x i *n i 40 37 37 480-4,48-65,83 0,09 743,7 600 5900 4 5 88 09-3,48-77,58, 68,34 68 8573 4 78 66 376 -,48-93,60 6,6 480,5 764 3759 43 34 00 46 -,48-50,39,0 74,68 849 6866 44 968-0,48-0,60 0,3 5, 936 459 45 59 8 655 0,5 30,56 0,7 5,83 05 9475 46 8 36 376,5,96,30 86,65 6 7396 47 66 48 30,5 66,9 6,34 48,46 09 45794 48 47 475 56 3,5 65,35,38 58,69 304 0888 49 5 500 5 4,5,95 0,4 50,3 40 6005 totale 500 === 4 === 0 === 3634,84 === 99959 Con le frequenze cumulate possiamo individuare il quartile che risulta 4 (frequenze da 89 a 66) cioè la modalità che lascia a sinistra ¼ dei casi (5=500/4) ed il 3 quartile che risulta 47 (frequenze da 363 a 48) cioè la modalità che lascia a sinistra ¾ dei casi (375=500*3/4). Il

bruno delle donne Esercitazioni di Statistica - modulo base - a.a.007-08 calcolo degli scarti ha richiesto l individuazione della media aritmetica che è 44,48 (=.4/500). Con tali valori possiamo ottenere: campo di variazione R = 49 40 = 9 differenza interquartilica Δ = 47 4 = 5 scarto quadratico medio σ = 3634, 84 =, 696 500 varianza σ = 99959/500 44,48 coefficiente di variazione C v =,696/44,48 = 0,06 escursione relativa δ = 9/,696 = 3,338 Si rammenta che gli ultimi due indici, essendo coefficienti relativi, consentono un eventuale confronto con altre distribuzioni. Per quanto attiene, infine, alla verifica della proprietà dello scarto dalla media, questa risulta già in tabella (sesta colonna) essendo la sua sommatoria uguale a zero. ESERCIZIO 5 MUTABILITÀ Data la distribuzione del n. degli abitanti di un comune per sesso e condizione professionale, appresso riportata, si calcoli l indice di Gini, distintamente per maschi e femmine, sia assoluto che relativo; si individui quale dei due sessi presenta maggiore mutabilità. sesso condizione professionale Maschi femmine studenti 0 3 disoccupati 50 4 casalinghe 4 34 dipendenti 54 49 commercianti 4 35 artigiani 64 33 Liberi professionisti 4 5 pensionati 40 30 L indice assoluto di Gini è espresso dalla formula: k n i S = = f i i = i = mentre quello relativo risulta S S k = max S k k

bruno delle donne Esercitazioni di Statistica - modulo base - a.a.007-08 Per il calcolo dell indice di Gini occorrono quindi le frequenze relative ed il loro quadrato; pertanto conviene impostare la seguente tabella: maschi femmine x i n i f i f i n i f i f i studenti 0 0,70 0,09 3 0,9 0,037 disoccupati 50 0,083 0,007 4 0,064 0,004 casalinghe 4 0,040 0,00 34 0,49 0,4 dipendenti 54 0,57 0,066 49 0,077 0,006 commercianti 4 0,040 0,00 35 0,055 0,003 artigiani 64 0,07 0,0 33 0,05 0,003 liberi professionisti 4 0,070 0,005 5 0,03 0,00 pensionati 40 0,33 0,054 30 0,047 0,00 totale 600,000 0,76 640,000 0,96 Con tali valori possiamo ottenere: indice assoluto di Gini (S): = 0,76 = 0,84 per i maschi ; = 0,96 = 0,704 per le femmine indice relativo di Gini (S/maxS): = 0,84 * 7/6 = 0,96 per i maschi ; = 0,704 * 7/6 = 0,8 per le femmine Gli indici relativi, che consentono il confronto tra distribuzioni diverse, evidenziano una maggiore mutabilità dei maschi rispetto a quella delle femmine; in effetti dall analisi della stessa distribuzione si evidenzia una maggiore distribuzione delle frequenze dei maschi nelle diverse modalità rispetto ad un notevole accentramento di quelle delle femmine intorno a poche modalità (studenti e casalinghe). ESERCIZIO 6 DEVIAZA Una popolazione è suddivisa nelle seguenti sottopopolazioni; calcolare la devianza di ciascun gruppo e dell'intera popolazione; verificare la proprietà sulla scomposizione della devianza. Popolazioni di riferimento W W W 3 x i n i x i n i x i n i 3 8 9 5 6 4 5 7 3 6 3 5 9 7 9 7 4 3 9 9 0 8 La devianza può essere ottenuta con la formula: Dev( T ) = ( M M ) = ( x ) x Per poter effettuare i calcoli predisponiamo la tabella per ciascun gruppo (singole popolazioni W) e per l intera popolazione:

bruno delle donne Esercitazioni di Statistica - modulo base - a.a.007-08 Popolazione W x i n i x i *n i x i x i *n i 4 4 48 5 6 80 5 400 6 3 8 36 08 7 9 63 49 44 9 0 90 8 80 totale 50 75 === 807 media = 75/50 = 5,50 Dev(W ) = 50*(807/50 5,5 ) = 94,50 Popolazione W x i n i x i *n i x i x i *n i 3 8 4 9 7 4 5 0 6 80 6 6 36 756 7 4 8 49 96 8 6 64 8 40 4 === 3 media = 4/40 = 5,35 Dev(W ) = 40*(3/40-5,35 ) = 87,0 Popolazione W 3 x i n i x i *n i x i x i *n i 9 38 4 76 6 3 78 36 468 9 08 44 96 3 9 47 69 3 60 47 === 505 media = 47/60 = 7,85 Dev(W ) = 60*(505/60-7,85 ) = 353,65 Popolazione totale x i n i x i *n i x i x i *n i 4 4 48 5 6 80 5 400 6 3 8 36 08 7 9 63 49 44 9 0 90 8 80 3 8 4 9 7 4 5 0 6 80 6 6 36 756 7 4 8 49 96

bruno delle donne Esercitazioni di Statistica - modulo base - a.a.007-08 8 6 64 8 9 38 4 76 6 3 78 36 468 9 08 44 96 3 9 47 69 3 totale 50 960 === 8090 media = 960/50 = 6,40 Dev(T) = 50*(8090/50-6,4 ) = 946,00 La proprietà sulla scomposizione della devianza afferma che la devianza totale (intera popolazione) è data dalla somma delle devianze dei singoli gruppi Dev(W) più la devianza delle medie Dev(B); pertanto se i gruppi fossero m (nel nostro caso 3) la proprietà sarebbe espressa dalla relazione: Dev m ( T ) = Dev( W ) + Dev( B) i = i Disponiamo già della somma delle devianze dei singoli gruppi che risulta pari a: 94,5 + 87,0 + 353,65 = 735,5; occorre ancora calcolare la devianza delle medie. Per poter effettuare quest ultimo calcolo scriviamo la distribuzione delle medie (medie dei singoli gruppi con la loro frequenza) ed effettuiamo i soliti calcoli. Popolazioni medie x i n i x i *n i x i x i *n i 5,50 50 75 30,500 5,50 5,35 40 4 8,65 44,90 7,85 60 47 6,65 3697,35 totale 50 960 === 6354,75 media = 960/50 = 6,40 Dev(B) = 50*(6354,8/50-6,4 ) = 0,75 I conteggi effettuati sulla distribuzione delle medie consentono di: affermare innanzitutto che la media della popolazione divisa in gruppi (media di tutta la pop. = 6,4) è pari alla media delle medie; verificare la proprietà della scomposizione della devianza; infatti se aggiungiamo alla somma delle devianze dei gruppi (735,5) la devianza delle medie (0,75) otteniamo 946 che è la devianza dell intera popolazione. Sia data la seguente seriazione doppia ESERCIZIO 7 RELAZIOI (REGRESSIOE e CORRELAZIOE)

bruno delle donne Esercitazioni di Statistica - modulo base - a.a.007-08 x i i 3 3 5 0 6 8 3 7 Calcolare: la regressione di Y su X e quella di X su Y; il coefficiente di correlazione tra X ed Y; verificare infine la relazione esistente tra il coefficiente di Bravais-Pearson e i due coefficienti di regressione. La regressione di Y su X stima la dipendenza della variabile dipendente Y dalla variabile indipendente X; per il calcolo della regressione dobbiamo calcolare i due parametri della retta σ x =b /x x+b 0 dati da: b = e B 0 = b x x σ x x mentre la regressione di X su Y stima la dipendenza della variabile dipendente X dalla variabile σ x indipendente Y ed è espressa dalla retta x=b x/ +B 0 i cui coefficienti risultano: b x = e σ B 0 = x b x Il coefficiente di correlazione di Bravais-Pearson, infine, stima l interdipendenza tra le due variabili X ed Y (nessuna delle quali è antecedente all altra) ed è espresso dalla formula r = σ σ x x σ Risulta quindi necessario calcolare la covarianza ed i due scarti quadratici medi; utilizzando le formule semplificate per il calcolo di entrambi valori (si rammenta che i simboli sopra segnati indicano le medie quadratiche ed aritmetiche): σ x = x x ; σ = ; σ x = xi i x Impostiamo pertanto la seguente tabella di calcolo: x i i x i i x i i 3 9 3 3 9 4 6 5 0 5 0 0 6 36 6 8 64 8 tot. 3 7 35 5 3 da cui è possibile ottenere: media aritmetica della variabile x - x = 3 5 = 4, 6 ;

bruno delle donne Esercitazioni di Statistica - modulo base - a.a.007-08 35 media quadratica al quadrato della variabile x - x = = 7 5 ; 7 media aritmetica della variabile - = =, 4 5 ; 5 media quadratica al quadrato della variabile - = = 3 5 Con le medie sopra calcolate, possiamo ottenere: 3 covarianza - σ x = 4, 6, 4 =, 84 5 x = scarto della var. x - σ = 7 4, 6, 47 = scarto della var. - σ = 3, 4, 00 Disponendo di tutti gli elementi necessari possiamo calcolare i parametri delle rette di regressione: regressione di Y su X:, 84 b = = 0, 35 ; B 0 =,4-(-0,35)*4,6 =,849 quindi =-0,35x+,849 x, 47 regressione di X su Y:, 84 b x = =, 769 ; B 0 = 4,6-(-,769)*,4 = 7,077 quindi x=-,769+7,077, 00 Inoltre è possibile calcolare anche il coefficiente di correlazione di Bravais-Pearson:, 84 r = = 0, 747, 47*, 00 Dai risultati dell esercizio è possibile dedurre: la regressione della Y sulla X è negativa e la retta è decrescente (vuol dire che la variabile dipendente Y ha un andamento inverso a quello della variabile indipendente X); stessa analisi per la regressione della X sulla Y; non è possibile quantificare l incidenza della dipendenza della Y sulla X o di quella della X sulla Y essendo i coefficiente di regressione indici che possono assumere qualsiasi valore; la correlazione tra le due variabili è negativa, risultato che era deducibile dall andamento inverso delle due variabili; la correlazione è più che significativa risultando il coefficiente r pari al 74,7% (si rammenta che il coefficiente r varia tra - e +). Infine, la relazione tra coefficiente di correlazione e quelli di regressione è rappresentata da: il coefficiente di correlazione è la media geometrica (presa con il segno della covarianza) dei due coefficienti di regressione ; pertanto la relazione stessa è data da: r = b b x = 0, 35, 769 = 0, 747 (il segno meno deriva da quello della covarianza) x

bruno delle donne Esercitazioni di Statistica - modulo base - a.a.007-08 ESERCIZIO 8 RELAZIOI (DIPEDEZA I MEDIA) La distribuzione dei contribuenti secondo i caratteri X: condizione professionale e Y: classe di età - valori in migliaia (le classi includono l'estremo superiore e non quello inferiore) è quella appresso riportata; si stimi la dipendenza in media del carattere Y dal carattere X; si commenti il risultato ottenuto. X: Condizione Y: Classi di età totale professionale 4-5 5-40 40-45 45-60 60-75 Dipendenti 7 4 44 6 9 0 Artig. e Comm. 3 5 3 7 40 Liberi profess. 4 4 40 Totale 0 30 70 50 40 00 Essendo la distribuzione del carattere Y in classi è necessario individuare i valori centrali; si deve osservare che le classi presentano estremi inferiori non inclusi quindi si dovrebbero leggere come 5-5, 6-40, 4-45, 46-60 e 6-75. Poste in quest ultimo modo le diverse classi del carattere Y, è possibile ottenere il valore centrale con il solito criterio della semisomma degli estremi di ciascuna classe; pertanto la tabella riscritta avendo sostituito alle modalità del carattere Y i i valori centrali delle classi, risulta: X: Condizione Y: età (valori centrali) totale professionale 0 33 43 53 67 Dipendenti 7 4 44 6 9 0 Artig. e Comm. 3 5 3 7 40 Liberi profess. 4 4 40 totale 0 30 70 50 40 00 Per il calcolo dell'indipendenza in media è necessario calcolare il rapporto di correlazione di Pearson, cioè: Dev( ) σ η = = Dev σ x ( ) Occorre quindi calcolare lo scarto quadratico medio della variabile Y (denominatore della formula) e quello delle medie delle varie distribuzioni parziali della stessa variabile per ciascuna modalità del carattere X (numeratore della formula). Moltiplichiamo le modalità del carattere Y (valori centrali delle classi) per le frequenze di ciascuna distribuzione del carattere Y vincolata a ciascuna modalità del carattere X (cioè le varie righe) e facciamo lo stesso per la riga dei totali (distribuzione marginale che rappresenta frequenze del carattere Y indipendentemente dal carattere X) per ottenere la media di Y; su questi ultimi due valori (modalità di Y e frequenze totali) facciamo anche i quadrati per la corrispondente media quadratica.

bruno delle donne Esercitazioni di Statistica - modulo base - a.a.007-08 X: Condizione Y: età (valori centrali) professionale 0 33 43 53 67 totale Dipendenti 40 79.89.378.73 5.475 Artig. e Comm. 60 65 56 689 469.899 Liberi profess. 0 33 60 583 938.56 j *n j 00 990 3.00.650.680 9.530 j 400.089.849.809 4.489 === j *n j 4.000 3.670 9.430 40.450 79.560 486.0 La media generale del carattere Y è 47,65 (=9530/00), il quadrato della media quadratica è 430,55 (=4860/00), mentre la devianza e lo scarto risultano: Dev σ ( Y ) = ( M M ) = 00 ( 430, 55 47, 65 ) 3006 Dev ( Y ) = 3006 00 = = =, 650 Con riferimento alle distribuzioni parziali, avendo calcolato su ciascuna riga la somma dei prodotti delle modalità per le rispettive frequenze, possiamo ottenere la media di ciascuna distribuzione dividendo il totale di riga per il corrispondente totale della tabella di partenza (totale delle frequenze di ciascuna distribuzione parziale del carattere Y vincolata a ciascuna modalità del carattere X): la media Dipendenti è pari a 45,65 (=5475/0), quella degli Artigiani e Commercianti pari a 47,475 (=899/40) e quella del Liberi professionisti è 53,9 (=56/40). Riscriviamo la distribuzione delle medie (singole medie con le loro frequenze) sui cui dobbiamo calcolare la devianza e lo scarto quadratico medio: X: Condizione professionale j n j j n j Dipendenti 45,65 0 5475 08,64 49796,88 Artig. e Comm. 47,475 40 899 53,88 9055,03 Liberi profess. 53,900 40 56 905, 608,40 totale ===== 00 9530 ===== 45660,30 La media risulta pari a 47,65 (=9530/00) come quella generale (si rammenta che la media di una popolazione divisa in gruppi è la media delle medie) ed il quadrato della media quadratica è pari a 80,80 (=45660,30/00); pertanto la devianza e lo scarto quadratico risultano: ( Y ) = 00 ( 80, 80 47, 65 ) 055, 8 Dev = σ 055, 8 00 = = 3, 06 Disponendo dei due scarti quadratici medi è possibile ottenere l'eta di Pearson che è pari a (vedi formula sopra indicata) 0,53 (=3,06/,65). j j n j

bruno delle donne Esercitazioni di Statistica - modulo base - a.a.007-08 Commento Il risultato ottenuto consente di affermare che la dipendenza in media risulta scarsamente significativa essendo lo scarto quadratico medio delle medie appena il 5,3% di quello totale; si rammenta che l'eta varia tra 0 ( indipendenza) e (perfetta concordanza) ESERCIZIO 9 RELAZIOI (ITERDIPEDEZA CO MUTABILI) La distribuzione di un collettivo secondo i caratteri X: stato civile e Y: zona di residenza,.è risultata quella appresso riportata; si stimi la dipendenza tra i due caratteri; si commenti il risultato ottenuto. (valori x.000) X: Zona di Y: stato civile residenza celibi coniugati separati divorziati vedovi totale ord 3 04 79 4 70 Centro 6 0 63 3 9 50 Sud 3 5 4 6 5 40 Isole 9 3 36 0 34 40 totale 90 480 0 0 90.000 Per il calcolo dell'indipendenza in una tabella di contingenza è necessario calcolare il Chi quadro, cioè: r s Cij χ = * in cui Cij = n ij n ij e n i = j = ij n n n * i j ij Occorre quindi calcolare n ij * (frequenza di indipendenza) e C ij (contingenza) per ogni cella della tabella a doppia entrata; si deve cioè ottenere la tabella d'indipendenza (scrivendo in ciascuna casella il totale della sua riga per il totale della sua colonna diviso per il totale generale) Tabella di indipendenza X Y = totale 4,3 9,6 59,4 3,4 4,3 70,5 0,0 55,0 30,0,5 50,6 5, 5,8 8,8,6 40,6 5, 5,8 8,8,6 40 totale 90 480 0 0 90.000 (ad es. la prima casella prima riga e prima colonna risulta dall operazione 90*70/000; la casella della terza riga e della quarta colonna risulta dall operazione 0*40/000, ecc.). Successivamente si può calcolare la tabella del Chi quadro facendo (per ogni casella) la differenza tra la tabella effettiva e quella di indipendenza (ottenere cioè le cosiddette contingenze), elevare al quadrato la differenza e dividere il risultato per la tabella di indipendenza.

bruno delle donne Esercitazioni di Statistica - modulo base - a.a.007-08 Tabella del Chi quadro X Y totale 0,070 5,057 6,467,844 0,8 4,656,878 0,000,64 0,33 0,544 3,79 5,007 0,834,09 0,7,07 0,339 0,33,67 5,345,689 7,9 7,633 totale 7,68 8,057 5,86 5,939 9,897 46,347 Il totale della tabella rappresenta il Chi quadro (l'indice di indipendenza cercato); tale indice, come noto, ha la dimensione di una frequenza assoluta. Commento L'indice ottenuto, essendo una misura assoluta legata alla frequenza assoluta, non consente di indicare se la dipendenza può ritenersi elevata o meno; per tale motivo è necessario dapprima depurare l'indice della dimensione dovuta al totale delle frequenze e successivamente rapportare il risultato al suo massimo; cioè si debbono calcolare i due indici: 46, 347 Phi quadro φ = χ = = 0, 0463 000 Cramer C φ 0, 0463 = = 0, 054 min min( 4, 5 ) = ( r,s) L'ultimo indice varia tra 0 (indipendenza) e (massima concordanza) e consente di affermare che tra i due caratteri esiste quasi indipendenza risultando la dipendenza appena,54%. ESERCIZIO 9 RELAZIOI (ITERDIPEDEZA e DIPEDEZA I MEDIA) La distribuzione del numero degli assicurati di una Compagnia di assicurazioni secondo il carattere X: zona territoriale e Y: età (valori in migliaia) è rappresentata da: X: zona Y: età (valori centrali delle classi) territoriale 0 30 40 50 60 70 totale ord-ovest 0 55 44 48 9 4 00 ord-est 8 46 54 46 4 80 Centro 9 4 30 45 37 8 80 Sud 7 7 30 64 3 60 Isole 6 8 33 80 totale 50 50 60 80 60 00 800 Si analizzi la dipendenza tra i due caratteri sia in termini di interdipendenza che di dipendenza in media e si commentino i risultati ottenuti.

bruno delle donne Esercitazioni di Statistica - modulo base - a.a.007-08 interdipendenza Per l'interdipendenza tra i due caratteri (associazione in cui almeno uno dei caratteri è una mutabile) si deve calcolare il Chi quadro, quindi: r s Cij χ = * in cui Cij = n ij n ij è la contingenza e n i = j = di indipendenza ij n ni n j = la frequenza * ij Tabella di indipendenza (n ij *=n i. n.j /) X: zona Y: età (valori centrali delle classi) territoriale 0 30 40 50 60 70 totale ord-ovest,5 37,5 40 45 40 5 00 ord-est,5 33,75 36 40,5 36,5 80 Centro,5 33,75 36 40,5 36,5 80 Sud 0 30 3 36 3 0 60 Isole 5 5 6 8 6 0 80 Totale 50 50 60 80 60 00 800 Tabella del Chi quadro: C ij /n ij * X: zona Y: età (valori centrali delle classi) territoriale 0 30 40 50 60 70 totale ord-ovest 4,500 8,67 0,400 0,00,05 4,840 9,3 ord-est 0,939 4,446 9,000 0,747 5,444 5, 35,788 Centro 0,450,557,000 0,500 0,08 0,900 4,435 Sud 0,900 7,633 3,78,000 3,000 6,050 6,365 Isole 0,00 3,067,563,7 0,50 5,900 70,70 Totale 6,989 44,870 5,744 5,69 48,747 79,90 69,355 Pertanto χ = 69,355 da cui si può ottenere φ = χ φ / = 0,087 e C = = min( r, s) 0,0. L'ultimo indice varia tra 0 ed e indica quindi una interdipendenza tra i due caratteri quasi nulla (appena,%). dipendenza in media Calcoliamo adesso la dipendenza in media di Y (il carattere quantitativo) sul carattere X; tale dipendenza è stimata dall'eta di Pearson, quindi: σ η = σ x

bruno delle donne Esercitazioni di Statistica - modulo base - a.a.007-08 Per il calcolo individuiamo le distribuzioni parziali e quella marginale del carattere Y ed effettuiamo il prodotto delle modalità per le frequenze (per comodità di calcolo dividiamo per 0 le modalità del carattere Y). distribuzione modalità del carattere Y carattere Y 3 4 5 6 7 totali parziale 40 65 76 40 4 98 833 parziale 6 38 6 30 3 8 760 3 parziale 8 3 0 5 6 834 4 parziale 4 84 50 384 7 870 5 parziale 3 44 55 08 3 453 marginale 00 450 640 900 960 700 3750 Calcoliamo anche la media quadratica del carattere Y Y 4,0 9,0 6,0 5,0 36,0 49,0 === Y *n.j 00,0 350,0 560,0 4500,0 5760,0 4900,0 970,0 E possibile quindi calcolare le singole medie delle distribuzioni parziali, quella dell intera distribuzione Y (marginale) e la media quadratica al quadrato di quest ultima: 833 760 = j n j = = 4 65 ; = j n j = = 4, 00 80 834 870 = j n3 j = = 4 633 ; 4 = j n4 j = = 5, 438 80 60 453 3750 = j n5 j = = 5 663 ; = j n j = = 4, 688 80 800 970 = j n j = = 4 088 800, 3, 5,, pertanto si potrà calcolare lo scarto quadratico medio dell intero carattere Y con l usuale formula σ = = 4, 088 4, 688 =,454 (i valori veri se fossero necessari per qualsiasi altra elaborazione dovrebbero evidentemente essere moltiplicati per 0, ovviamente il quadrato della media quadratica dovrebbe essere moltiplicato per 00). Otteniamo infine lo scarto delle medie riscrivendo la distribuzione delle medie con le rispettive frequenze

bruno delle donne Esercitazioni di Statistica - modulo base - a.a.007-08 carattere X medie ( i ) freq. (n i ) x i *n i i i *n i ord-ovest 4,65 00 833,0 7,35 3469,45 ord-est 4, 80 760,0 7,83 308,89 Centro 4,633 80 834,0,47 3864,0 Sud 5,438 60 870,0 9,57 4730,63 Isole 5,663 80 453,0 3,06 565, totale === 800 3750 === 7838,7 Possiamo pertanto calcolare la media delle medie = 4,688 (3750/800) ovviamente uguale alla media dell intera distribuzione Y (la media di una popolazione divisia in gruppi è uguale alla media delle medie dei gruppi), il quadrato della media quadratica delle medie =,98 (7838,7/800) e quindi lo scarto quadratico medio delle medie σ =, 98 4, 688 = 0,570 (anche in questo caso i valori veri delle medie se fossero necessari per qualsiasi altra elaborazione dovrebbero evidentemente essere moltiplicati per 0 e per 00). Disponendo dei due scarti quadratici possiamo calcolare l Eta di Pearson, stabilendo che 0, 570 η = = 0,39, 454 x L'ultimo indice varia tra 0 ed e indica quindi una dipendenza delle medie di Y sul carattere X non eccessivamente elevata (il 39,%), sicuramente più significativa dell'interdipendenza.