Stesso valore medio per distribuzioni diverse

Documenti analoghi
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Esercitazioni di statistica

DIPARTIMENTO AMMINISTRAZIONE PENITENZIARIA UFFICIO STAMPA E RELAZIONI ESTERNE

UTILIZZO DEI DISTRIBUTORI AUTOMATICI

VALUTAZIONE D IMPATTO DELLE POLITICHE REGIONALI PER LA PROMOZIONE DELL APPROPRIATEZZA ORGANIZZATIVA

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

Dott.ssa Caterina Gurrieri

RIEPILOGO REGIONALE PER SPECIALIZZAZIONE RIEPILOGO REGIONALE PER SPECIALIZZAZIONE

Analisi della varianza

Dossier I dati regionali. Dossier Casa I dati regionali. A cura della Direzione Affari Economici e Centro Studi

ITCS Erasmo da Rotterdam. Anno Scolastico 2014/2015. CLASSE 4^ M Costruzioni, ambiente e territorio

TOTALE DEI RISULTATI DEL CONTO ENERGIA (PRIMO, SECONDO, TERZO, QUARTO E QUINTO CONTO ENERGIA)

Calcolo a preventivo della spesa annua escluse le imposte AMBITO TARIFFARIO: CENTRALE (Toscana, Umbria e Marche) (B)

Generazione di Numeri Casuali- Parte 2

2. Variabilità mediante il confronto di valori caratteristici della

Provincia di Monza e della Brianza

COMUNICATO STAMPA. Garanzia Giovani: a cinque settimane dall avvio sono i giovani che si sono registrati

Statistiche in breve

Prospetto 4.1. Pesi per unità di volume dei principali materiali strutturali

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016

Roma, 22 luglio Ufficio Stampa. Che cosa caratterizza le sue vacanze estive?

Il ruolo dei generi: Indagine sul rapporto tra genere e professioni tra gli italiani

7. Si confronti la variabilità del carattere età nel gruppo dei maschi ed in quello delle femmine.

L indagine statistica

Le imprese condotte da stranieri: il grado di imprenditorialità degli stranieri nelle aziende

ALFID. Associazione Laica Famiglie in Difficoltà

Corso di Psicometria Progredito

CORTE SUPREMA DI CASSAZIONE UFFICIO DI STATISTICA PROGRAMMA STATISTICO NAZIONALE MODELLO MGG00129

I giovani Neet registrati

MEDIAZIONE CIVILE EX D.L. 28/2010

Titolo della lezione. Analisi dell associazione tra due caratteri: indipendenza e dipendenza

RELAZIONE TRA VARIABILI QUANTITATIVE. Lezione 7 a. Accade spesso nella ricerca in campo biomedico, così come in altri campi della

Statistica Applicata all edilizia Lezione 3: i numeri indice

L AGRICOLTURA A BENEFICIO DI TUTTI

ANALISI MULTIVARIATA

Lezione 12 Argomenti

1 SEM. X Anno di riferimento: 2013 Periodo di rilevazione dei dati: 2 SEM. ANNO Intero 1/41

RAPPORTO IMPRESAINGENERE La crisi non ha fermato le donne: 35mila imprese femminili in più tra 2010 e 2015

Matematica con il foglio di calcolo

CAPITOLATO D ONERI - ALLEGATO A DISTRIBUZIONE TERRITORIALE DEI PUNTI DI VENDITA DI GIOCO IPPICO

Focus Anticipazione sui principali dati della scuola statale A.S. 2015/2016. (Settembre 2015)

Il test di chi-quadro

Ministero dell'istruzione, dell'università e della Ricerca Dipartimento per l'istruzione Direzione Generale per il Personale Scolastico

La geotermia e le pompe di calore per applicazioni domestiche

1 SEM. Anno di riferimento: 2012 Periodo di rilevazione dei dati: 2 SEM. X ANNO Intero

VARIANZA CAMPIONARIA E DEVIAZIONE STANDARD. Si definisce scarto quadratico medio o deviazione standard la radice quadrata della varianza.

Excel Terza parte. Excel 2003

1 - caratteristiche del prodotto 2 - caratteristiche del circuito 3 - modalità di utilizzo 4 - alcuni clienti

Il coefficiente di correlazione di Spearman per ranghi

UNIVERSITA DEGLI STUDI DI PADOVA DIPARTIMENTO DI INGEGNERIA IDRAULICA, MARITTIMA E GEOTECNICA

MARZO. Quaeris srl Piazza Italia, 13/d Breda di Piave TV Tel Fax info@quaeris.

Fonti e strumenti statistici per la comunicazione (prof.ssa I.Mingo) Esercizi (soluzioni e suggerimenti )

ANALISI DEI DATI PER IL MARKETING 2014

Il settore agro-alimentare in Italia. Focus sul lattiero caseario. Direzione Studi e Ricerche

Protocollo dei saperi imprescindibili Ordine di scuola: professionale

Esercitazioni di Reti Logiche. Lezione 1 Rappresentazione dell'informazione. Zeynep KIZILTAN zkiziltan@deis.unibo.it

Grafici delle distribuzioni di frequenza

Ministero dell Istruzione, dell Università e della Ricerca DIPARTIMENTO PER L ISTRUZIONE Direzione Generale per il Personale scolastico

Le aziende agrituristiche

Indagine sul livello di conoscenza delle droghe da parte della popolazione italiana

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Elementi di Statistica

Le Segnalazioni di Sofferenze Bancarie in Italia negli anni

Un indice per la misura dell intensità della singola rapina. Matteo Mazziotta e Adriano Pareto Istat

Ministero dello Sviluppo Economico

Statistica. Alfonso Iodice D Enza iodicede@unicas.it

Appendice Statistica

Nuovi iscritti ai Corsi di laurea di base nell AA 2006/2007, residenti in Sardegna

Gli assicurati e gli infortuni sul lavoro. Adelina Brusco, Daniela Gallieri

1. LA CONGIUNTURA MONDIALE

UNA STRATEGIA PER LA CULTURA. UNA STRATEGIA PER IL PAESE

TELECOM ITALIA SPA 1 SEM. Anno di riferimento: 2014 Periodo di rilevazione dei dati: 2 SEM. X ANNO Intero 1/39

ˆp(1 ˆp) n 1 +n 2 totale di successi considerando i due gruppi come fossero uno solo e si costruisce z come segue ˆp 1 ˆp 2. n 1

Listino prezzi tubi saldati tondi, di forma e speciali, da nastro laminato a caldo, nero, decapato e zincato Sendzimir

STATISTICA (A-K) a.a Prof.ssa Mary Fraire Test di STATISTICA DESCRITTIVA Esonero del 2007

Il Dipartimento per le Comunicazioni: uno studio dell età del personale. Miriam Tagliavia Marzo 2011

Esercitazioni di Statistica Dott.ssa Cristina Mollica

kkk INDAGINE DI CUSTOMER SATISFACTION Line S.p.A. Indagine sulla soddisfazione degli utenti del trasporto pubblico locale urbano a Pavia 2010

Scuola dell'infanzia. Scuola Primaria. Posti. Regione

MISURA DELLA DISTANZA FOCALE DI UNA LENTE CONVERGENTE

LA RISCOPERTA DELLA BICICLETTA

LE BANCHE DATI DELL INAIL e un focus sugli infortuni sul lavoro con mezzo di trasporto

ANALISI DEL POTENZIALE NAZIONALE PER LA REALIZZAZIONE DELLA COGENERAZIONE AD ALTO RENDIMENTO

1 Associazione tra variabili quantitative COVARIANZA E CORRELAZIONE

Per maggiori informazioni rivolgersi: Servizio Tecnico Piazza Castello, Vicenza tel fax tecno@assind.vi.

ELENCO POSTI MESSI A CONCORSO SUDDIVISI PER REGIONE. Scuola dell'infanzia Regione

il nuovo sistema elettorale

Scheda n. 10: PCA - parte seconda

Anni Manodopera Materiali Trasporti Noli ,4 8,5 3,5 3, ,5 9,3 3,3 3, ,0 2,4 7,1 6, ,0-14,8 0,9 1, ,1 8,2 0,9 2,0

LA CORRELAZIONE LINEARE

I centri antitumore dell'oncoguida suddivi per tipo di tumore e per Regione

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

le implicazioni sul territorio

GIOCHI NUMERO CONCESSIONI/AUTORIZZAZIONI

Scheda domanda tirocinio DATA REGIONE PROV.

Regressione Mario Guarracino Data Mining a.a. 2010/2011

RELAZIONE TRA DUE VARIABILI QUANTITATIVE

Il presente report è stato realizzato da un gruppo di lavoro composto da: Sandro Pettinato, Andrea Muti (Unioncamere - Area Promozione Servizi alle

La realtà delle diseguaglianze

Elementi di Psicometria

Transcript:

Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 017-018 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per la comunicazione d'impresa» Stesso valore medio per distribuzioni diverse u i X 1 X X 3 A 1 1 B 8 1 C 0 10 1 D 3 3 1 E 19 34 1 F 0 41 1 Un uguale valore medio può sintetizzare distribuzioni molto diverse tra loro Le tre distribuzioni hanno la medesima media aritmetica, ma la tendenza di ogni unità ad assumere valori diversi dalla media è differente in ciascuna distribuzione M 1 1 1 a.a. 017-018 1

Caratteri quantitativi La variabilità La variabilità o la dispersione di una distribuzione esprime la tendenza dei caratteri o dei fenomeni ad assumere differenti valori o determinazioni. Requisiti di un indice di variabilità: assume valore minimo se tutte le unità presentano uguale modalità del carattere aumenta all aumentare della diversità tra modalità Attenzione: ogni indice di variabilità esprime un concetto diverso pertanto non è corretto confrontare la variabilità ottenuta con indici diversi a.a. 017-018 Campo di variazione Il campo di variazione o range è un indice assoluto di variabilità È dato dalla differenza tra il valore minimo e massimo assunto dal carattere R= X max- X min Non è sensibile ad altre caratteristiche della distribuzione. Dipende solo dai valori estremi ed è pertanto influenzato da casi anomali Pagina 141

Esercizio: Campo di variazione Calcolare i campi di variazione delle tre variabili della tabella seguente u i X 1 X X 3 1 1 1 8 1 3 0 10 1 4 3 3 1 5 19 34 1 6 0 41 1 R x R x R x 319 4 1 411 40 1 1 0 3 Caratteri quantitativi Scostamento semplice medio Si calcola sommando le differenze in valore assoluto, cioè non tenendo conto del segno positivo o negativo, tra ogni valore della distribuzione e il valore medio e dividendo la somma per la numerosità della distribuzione. s n 1 j x j M n A seconda della media scelta si può ottenere uno specifico scostamento medio per esempio dalla media aritmetica o dalla mediana. Per qualsiasi distribuzione di frequenze lo scostamento semplice dalla mediana è sempre minore o uguale allo scostamento dalla media aritmetica a.a. 017-018 3

Caratteri quantitativi Scostamento semplice medio: calcolo Per la prima distribuzione si avrà: S=[ -1 + 1 + 0 1 + 3 1 + 19-1 + 0 1 ]/6=1,33 Per la seconda distribuzione si avrà: S=[ 1-1 + 8 1 + 10 1 + 3 1 + 34-1 + 41 1 ]/6=14,77 M 1 1 1 Per la terza distribuzione si avrà S=[ 1-1 + 1 1 + 1 1 + 1 1 + 1-1 + 1 1 ]/6=0 a.a. 017-018 Caratteri quantitativi Varianza E la media dei quadrati degli scarti dalla media aritmetica si calcola sommando gli scarti elevati al quadrato e dividendoli per la numerosità della distribuzione. ( x j M) Osservazioni: L elevazione a quadrato trasforma tutte le differenze negative in positive e mette in maggiore risalto le differenze grandi rispetto a quelle piccole. La varianza non possiede la stessa unità di misura dei valori della distribuzione La radice quadrata della varianza è la deviazione standard o scarto quadratico medio Il numeratore della varianza è detto devianza n 1 j n 4

A proposito di deviazione La differenza di una osservazione x i dalla media è detta deviazione. La deviazione può essere positiva o negativa. La media può essere interpretata come il centro di gravità della distribuzione: infatti, per una proprietà della media aritmetica, la somma di tutte le deviazioni dalla media è pari a 0. Maggiore è la deviazione standard maggiore è la distanza tipica dalla media e dunque maggiore è la dispersione delle osservazioni. a.a. 017-018 Esercizio Nell ambito di una indagine di mercato si sono rilevati i costi giornalieri per una camera doppia standard in alcuni Hotel della zona (tab.seguente). Calcolare il costo medio e lo scarto quadratico medio. a.a. 017-018 Calcolo 5

Esempio: calcolo della varianza a partire da una distribuzione di frequenza Distribuzione dei clienti per numero di notti di permanenza in albergo Num. Corsi Notti n i Freq xi 1 15 43 3 103 4 80 5 3 6 8 7 Totale 83 x in i 15 86 309 30 160 48 14 95 (x i -M ) (x i -M ) n i 5.57 1.85 0.13 0.41.69 6.97 13.5 83.55 79.55 13.39 3.80 86.08 55.76 6.50 377.63 n 83 K 7 M k 1 i x i n n i X 7 i1 ( x M) n i n i 37763. 1. 33 83 x 1.33 1.15 Pagina 148 Indici di variabilità relativa Consentono di effettuare confronti sulla variabilità di fenomeni che presentano unità di misura differenti pur avendo la stessa unità di misura hanno valori medi differenti e quindi distribuzioni differenti In alcune situazioni è fuorviante utilizzare la deviazione standard per il confronto: della variabilità di una variabile osservata su due collettivi differenti di u.s. della variabilità di due o più variabili osservate sul medesimo collettivo di u.s. 6

Caratteri quantitativi Coefficiente di variazione Indice di variabilità percentuale, non influenzato dall unità di misura e dall ordine di grandezza dei dati. Rapporto tra lo scarto quadratico medio e la media aritmetica x100. Cv = / M *100 Consente di confrontare fenomeni che presentano diverse unità di misura e/o sono rilevati su collettivi di diversa numerosità Ci indica se una distribuzione è più variabile di un altra Caratteri quantitativi Coefficiente di variazione esercizio Confrontiamo i volumi di vendita di due prodotti. Il prodotto A nei diversi punti vendita rilevati ha avuto un volume di vendite medio di 750 euro e una deviazione standard () pari a 150 euro. Il prodotto B ha avuto un volume di vendite medio di 487 euro e una deviazione standard pari a 115 euro. Quale prodotto registra una maggiore variabilità del volume di vendite? Cv = / M *100 M CV*100 Prodotto A 150,00 750,00 0,00 Prodotto B 115,00 487,00 3,61 7

Uso del software : indici medi e di variabilità I. Mingo 017-018 Uso del software : confrontare variabili I. Mingo 017-018 8

Caratteri qualitativi Indici di eterogeneità o mutabilità Evidenziano e quantificano la presenza di eterogeneità nella distribuzione di un carattere qualitativo. Un indice di mutabilità deve soddisfare le seguenti condizioni: assumere valore 0 se e solo se il collettivo è omogeneo rispetto al carattere considerato; crescere, assumendo valori maggiori di 0, all aumentare dell eterogeneità tra le modalità del carattere. Si possono distinguere due situazioni estreme: mutabilità nulla, tutte le unità presentano la medesima modalità del carattere mutabilità massima quando tutte le unità presentano modalità differenti del carattere oppure le diverse modalità del carattere hanno le stesse frequenze. Reclami verso due gestori dì telefonia per motivo Gestore A Gestore B Gestore C Copertura nazionale 00 600 00 Costi 00 0 150 Piano tariffario 00 0 50 Totale 600 600 600 Caratteri qualitativi Indice di eterogeneità di Gini Reclami verso tre gestori dì telefonia per motivo (freq. Assolute) Gestore A Gestore B Gestore C Copertura nazionale 00 600 00 Costi 00 0 150 Piano tariffario 00 0 50 Totale 600 600 600 Reclami verso tre gestori dì telefonia per motivo (freq. Relative) Gestore A Gestore B Gestore C Copertura nazionale 0,33 1,00 0,33 Costi 0,33 0,00 0,5 Piano tariffario 0,33 0,00 0,4 Totale 1,00 1,00 1,00 9

Caratteri qualitativi Indice di eterogeneità di Gini normalizzato Assume sempre valori compresi tra 0 (caso di eterogeneità nulla) e 1 (caso di eterogeneità massima) Può essere utilizzato per operare confronti del medesimo carattere osservato su collettivi differenti, con numerosità diversa, o tra distribuzioni di caratteri differenti osservati sul medesimo collettivo K = numero di modalità Nel nostro esempio K = 3 Caratteri qualitativi Indice di eterogeneità esercizio Date le seguenti distribuzioni di frequenze riguardanti la rilevazione delle vendite degli stessi prodotti in due supermercati differenti, indicare in quale supermercato la clientela è più eterogenea rispetto all acquisto dei prodotti considerati. Numero di prodotti venduti per marca Supermercato A Supermercato B n i Barilla 100 360 Buitoni 870 30 Divella 360 0 Voiello 580 30 Totale 3010 1040 n j Calcolo 10

Analisi bivariata I. Mingo 017-018 Esistono diverse valutazioni per categorie di utenti? Operativamente, per ottenere informazioni più specifiche per sottogruppi di popolazione è necessario applicare tecniche di analisi bivariata: Tabelle a doppia entrata se le variabili sono nominali o ordinali Statistiche descrittive (ad esempio indici medi) della variabile quantitativa per ogni sottogruppo individuato dalle modalità della variabile qualitativa. I. Mingo 017-018 11

Che cosa è l analisi bivariata? E lo studio congiunto di due caratteri Esempio nel casi di caratteri qualitativi: Sesso Soddisfazione ASL Frequenza Frequenza Valido Maschio 750 Valido Per niente 176 Poco 41 750 Abbastanza 838 Totale 1500 Molto 74 Totale 1500 I valori delle celle derivano dall analisi della tabella unitaria! Distribuzione doppia di frequenze: caratteristiche Tabella che consente di sintetizzare l informazione disponibile su due caratteri osservati contemporaneamente sul medesimo collettivo di n u.s. In colonna : Lista di modalità del carattere 1 In riga : Lista di modalità del carattere Nella tabella si considerano tutte le possibili coppie di modalità (una del car. 1 ed una del car. ). I valori rappresentati sono il conteggio, ossia le frequenze assolute, del numero di u.s. del collettivo considerato che presentano una coppia di modalità dei caratteri. 1

Tabella a doppia entrata Frequenze n ij delle unità del collettivo che presentano congiuntamente la modalità i-esima di un carattere e la modalità J-esima di un secondo carattere. Ha un numero di righe maggiore o uguale al numero di modalità della variabile rappresentata in riga e un numero di colonne maggiore o uguale a quello delle modalità della variabile rappresentata in colonna. Distribuzioni condizionate Distribuzioni marginali di riga e di colonna 1 3 4 5 6 7 8 9 10 11 1 13 14 15 16 17 18 19 0 Totale Dalla distribuzione unitaria multipla alla distribuzione doppia di frequenza: esempio N Sesso Maschio Maschio Maschio Maschio Maschio Maschio Soddisfazione ASL Abbastanza Molto Molto Abbastanza Per niente Per niente Abbastanza Abbastanza Molto Molto Abbastanza Poco Abbastanza Abbastanza Molto Abbastanza Poco Poco Per niente Per niente 0 0 1- Costruiamo un tabella che ha: un numero di righe uguale al numero di modalità della variabile che vogliamo rappresentare in riga più 1 per i totali di colonna un numero di colonne uguale a quello delle modalità della variabile che vogliamo rappresentare in colonna più 1 per i totali di riga. Sesso Totale Maschio Soddisfazione ASL Per niente Poco Abbastanza Molto Totale FSSC 13

1 3 4 5 6 7 8 9 10 11 1 13 14 15 16 17 18 19 0 Totale Dalla distribuzione unitaria multipla alla distribuzione doppia di frequenza: esercizio (segue) N Sesso Maschio Maschio Maschio Maschio Maschio Maschio Soddisfazione ASL Abbastanza Molto Molto Abbastanza Per niente Per niente Abbastanza Abbastanza Molto Molto Abbastanza Poco Abbastanza Abbastanza Molto Abbastanza Poco Poco Per niente Per niente 0 0 Contiamo per ciascun carattere le unità che presentano una stessa modalità e scriviamo i totali nelle rispettive celle marginali della tabella. 3- Contiamo le unità statistiche che presentano congiuntamente le modalità a due a due e scriviamo le frequenze nelle rispettive celle condizionate 4- verifichiamo che le somme dei valori siano coerenti. Sesso Totale Maschio Per niente Poco Abbastanza Molto somma per niente soddisfatti Soddisfazione ASL somma abbastanza soddisfatti somma molto soddisfatti somma poco soddisfatti Totale somma maschi somma femmine totale Tabelle a doppia entrata : profili di riga e distribuzioni marginali percentuali Le distribuzioni marginali percentuali si ottengono dividendo le frequenze assolute marginali per il totale: f i. =n i. /n.. *100; nella tabella precedente non sono calcolate f.j =n.j /n..*100 176/1500*100=11,7% ; 41/1500*100=7,5%; 838/1500*100=55,9%; 74/1500*100=4,9% Nell esempio le distribuzioni percentuali condizionate (profili di riga) della variabile Sesso e della variabile soddisfazione si ottengono rispettivamente rapportando le distribuzioni condizionate ai corrispondenti totali di riga e moltiplicando per 100. Per i maschi: 84/750*100=11, ; 3/750*100=30,9%... Per le femmine 9/750*100=1,3%; 180/750*100=4% 14

Tabelle a doppia entrata : profili di colonna e distribuzioni marginali percentuali Tavola di contingenza Sesso * Soddisfazione ASL Sesso Totale Maschio Soddisfazione ASL Totale Per niente Poco Abbastanza Molto Conteggio 84 3 398 36 750 % entro Soddisfazione ASL 47,7% 56,3% 47,5% 48,6% 50,0% Conteggio 9 180 440 38 750 % entro Soddisfazione ASL 5,3% 43,7% 5,5% 51,4% 50,0% Conteggio 176 41 838 74 1500 % entro Soddisfazione ASL 100,0% 100,0% 100,0% 100,0% 100,0% Le distribuzioni marginali percentuali di riga f i. =n i. /n.. *100; 750/1500*100; Nell esempio le distribuzioni percentuali condizionate (profili di colonna della variabile Sesso e della variabile soddisfazione si ottengono rispettivamente rapportando le distribuzioni condizionate ai corrispondenti totali di riga e moltiplicando per 100. Per gli utenti per niente soddisfatti : 84/176*100=47,7%; 9/176*100=5,3% Per gli utenti molto soddisfatti: 36/74*100= 48,6%; 38/74*100= 51,4% Profili riga e profili colonna: formalizzazione Profili Riga Y X Tot. x 1 x x j x K y 1 n 11 /n 1. n 1 /n 1. n 1j /n 1. n 1K /n 1. 1 y n 1 /n. n /n. n j /n. n K /n. 1 : : : : : : y i n i 1 /n i. n i /n i. n ij /n i. n i K /n i. 1 : : : : : : y H n H1 /n H. n H /n H. n Hj /n H. n HK /n H. 1 n. 1 /n n. /n n. j /n n. K /n X Profili Colonna Y Tot. x 1 x x j x K y 1 n 11 /n. 1 n 1 /n. n 1j /n.j n 1K /n. K n 1./n y n 1 /n. 1 n /n. n j /n.j n K /n. K n./n : : : : : : y i n i 1 /n. 1 n i /n. n ij /n.j n i K /n. K n i./n : : : : : : y H n H1 /n. 1 n H /n. n Hj /n.j n HK /n. K n H./n 1 1 1 1 1 1 RMer 15

Tab.1 Esercizio A partire dalle frequenze assolute della tabella 1, calcolare i profili % di riga e di colonna. Commentare le due tabelle ottenute. Profili % di riga Profili % di colonna RMer Percentuali di riga, di colonna e sul totale informazioni diverse I. Mingo 017-018 16

Uso del software Tavole di contingenza I. Mingo 017-018 Approfondimento: Le relazioni Statistiche L analisi congiunta di due o più caratteri è utile per studiare le relazioni tra di essi. Analisi dell associazione Indipendenza Interdipendenza Dipendenza 17

Tipi di relazioni tra caratteri Indipendenza statistica (relazione simmetrica ): Due caratteri sono statisticamente indipendenti quando la conoscenza delle modalità di uno non consente di prevedere le modalità dell altro Dipendenza (relazione asimmetrica): Due caratteri sono dipendenti quando si può stabilire un legame unidirezionale tra le modalità di un carattere e quelle di un altro Interdipendenza (relazione simmetrica) : Due caratteri sono interdipendenti quando si può stabilire un legame bidirezionale tra le modalità di un carattere e quelle di un altro. 017-018 Indipendenza Statistica Due caratteri sono statisticamente indipendenti quando la conoscenza di uno dei due caratteri non migliora la previsione della modalità dell altro Assenza di qualsiasi legame tra i due caratteri Relazione simmetrica: se X è indipendente da Y allora Y è indipendente da X 017-018 18

Indipendenza Statistica in una tabella doppia In una tabella a doppia entrata si ha indipendenza tra i due caratteri X e Y se le distribuzioni relative condizionate di X rispetto alle modalità di Y sono uguali tra loro e alla distribuzione relativa marginale Matrice profili riga ha tutte le righe uguali Matrice profili colonna ha tutte le colonne uguali 017-018 Indipendenza statistica:esempio Profili riga % 10/30*100=33 5/30*100=17 15/30*100=50 14/4*100=33 7/4*100=17 1/4*100=50 Profili colonna % 10/4*100=4 14/4*100=58 5/1*100=4 7/1*100=58 15/36*100=4 1/36*100=58 Profili di riga % Canale Spot A Spot B Spot C Totale RAI1 33,33 16,67 50,00 30 CAN5 33,33 16,67 50,00 4 Totale 33,33 16,67 50,00 7 Profili di colonna % Canale Spot A Spot B Spot C Totale RAI1 41,67 41,67 41,67 41,67 CAN5 58,33 58,33 58,33 58,33 Totale 4,00 1,00 36,00 7 017-018 19

Dipendenza perfetta di due caratteri In una tabella doppia il carattere Y dipende perfettamente da X se ad ogni modalità di X è associata una sola modalità di Y. Se i due caratteri sono perfettamente dipendenti la tabella doppia avrà per ogni riga di X solo una colonna di Y in cui n ij 0 017-018 Interdipendenza perfetta di due caratteri In una tabella doppia sussiste perfetta interdipendenza se ad ogni modalità di X è associata una sola modalità di Y e viceversa. Interdipendenza perfetta tra X e Y X Y 1 3 totale 1 0 0 30 30 0 0 0 0 3 10 0 0 10 totale 10 0 30 60 017-018 0

Esempi di dipendenza perfetta Interdipendenza perfetta tra X e Y X dipende perfettamente da Y Y dipende perfettamente da X X = Prodotto Y = Canale acquistodivano Viaggio Pasta Totale WEB 0 3 0 3 NEGOZIO 41 0 8 49 Totale 41 3 8 7 017-018 Situazioni intermedie tra indipendenza e perfetta associazione Tavola di contingenza titolo di studio * lettura libri negli ultimi 1 mesi titolo di studio Totale laurea dipl. univ. diploma m. superior diploma m. inferiore licenza elementare nessun titolo Conteggio Conteggio attes Residui Conteggio Conteggio attes Residui Conteggio Conteggio attes Residui Conteggio Conteggio attes Residui Conteggio Conteggio attes Residui Conteggio Conteggio attes Residui Conteggio Conteggio attes lettura libri negli ultimi 1 mesi no si Totale 6 46 5 8,6 3,4 5,0 -,6,6 1 17 18 9,9 8,1 18,0-8,9 8,9 111 177 88 158, 19,8 88,0-47, 47, 149 13 81 154,3 16,7 81,0-5,3 5,3 193 6 55 140,1 114,9 55,0 5,9-5,9 81 10 91 50,0 41,0 91,0 31,0-31,0 541 444 985 541,0 444,0 985,0 Il grado di associazione (dipendenza o interdipendenza) è tanto maggiore quanto più la tabella osservata si discosta da quella di indipendenza. Vedremo in seguito come valutare la significatività di questi scostamenti. Frequenze osservate n ij Frequenze teoriche di indipendenza n* ij Differenze tra Freq. Osserv e freq. teoriche (c ij ) 1

Indipendenza o interdipendenza? Esempio Le frequenze assolute nell ipotesi di indipendenza tra i caratteri sono date da Frequenza Teorica di Indipendenza Situazione osservata Liv.Soddisfazione Sesso Totale Basso Medio Alto f 19 5 0 4 m 6 6 4 16 Totale 5 11 4 40 n n * Totale riga Totale colonna i..j nij Totale us n n* 11 = 4x5/40=15 n* 1 = 4x11/40=6.6 n* 13 = 4x4/40=.4 n* 1 =16x5/40=10 n* =16x11/40=4.4 n* 3 =16x4/40=1.6 Situazione teorica di indipendenza Liv.Soddisfazione Sesso Totale Basso Medio Alto f 15 6,6,4 4 m 10 4,4 1,6 16 Totale 5 11 4 40 Differenza tra situazione osservata e situazione teorica : le contingenze Situazione osservata Liv.Soddisfazione Sesso Totale Basso Medio Alto f 19 5 0 4 m 6 6 4 16 Totale 5 11 4 40 Situazione teorica di indipendenza Liv.Soddisfazione Sesso Totale Basso Medio Alto f 15 6,6,4 4 m 10 4,4 1,6 16 Totale 5 11 4 40 Contingenze o Residui * nij n ij c 11 = 19-15=4 c 1 = 5-6.6=-1.6 c 13 =0-.4=-.4 C 1 =6-10=-4 c =6-4.4=1.6 RMer c 3 =4-1.6=.4 Tabella delle Contingenze Liv.Soddisfazione Sesso Basso Medio Alto f 4-1,6 -,4 m -4 1,6,4 a.a 017-018

Misura di associazione: il Chi-Quadrato di Pearson * nij nij cij Proprietà χ i1 j 1 Assume valore 0 se X e Y sono perfettamente indipendenti Assume valore positivo se esiste un legame di dipendenza o interdipendenza tra X e Y Ha le dimensioni di una frequenza assoluta H K n ij n n * ij * ij Esempio di calcolo del Chi quadrato H K i1 j1 n ij n * ij * ij n Contingenze * n ij nij cij Tabella delle Contingenze Liv.Soddisfazione Sesso Basso Medio Alto f 4-1,6 -,4 m -4 1,6,4 4 ( 1.6) (.4) ( 4) (1.6) (.4) 15 6.6.4 10 4.4 1.6 1.067 0.39.4 1.6 0.58 3.6 9.64 a.a 017-018 3

Come si interpreta il Chi quadrato La differenza fra i valori corrispondenti n ij e n* ij (valori osservati e valori attesi nell ipotesi di indipendenza fra le variabili studiate) indica quanto la situazione osservata si discosta da quella di indipendenza: se la differenza è nulla, o è piccola, non c è relazione tra i caratteri se i valori sono grandi allora si può ipotizzare che c è una relazione. Ma quando questa differenza può essere considerata piccola o grande? Per rispondere a questo quesito bisogna conoscere la distribuzione del test statistico del Chi Quadrato, di cui parleremo nelle prossime lezioni sulla statistica inferenziale. Caratteristiche del Chi quadrato Nel calcolo del Chi quadrato il ruolo delle variabili è simmetrico. Il Chi quadrato non cambia se le modalità sono ordinate in modo diverso: è un test in cui le variabili sono sempre trattate come qualitative non ordinabili. Il Chi quadrato ci dice quanta evidenza c è a favore della interdipendenza, ma non misura la forza di questa relazione. Il valore del Chi quadrato dipende dal numero di unità statistiche, tende a crescere all aumentare del numero delle righe e delle colonne della tabella di contingenza. 4

Indici di associazione per tabelle doppie di frequenze Misurano l associazione tra due caratteri analizzando la distribuzione congiunta delle frequenze. I più comunemente usati sono: L indice di contingenza quadratica media L indice V di Cramer L indice P di Pearson Glossario Indice PHI (contingenza quadratica media) 5

Glossario Indice P di Pearson Glossario Indice V di Cramér 6

Esercizio Sapendo che su una tabella di contingenza in cui si riporta la distribuzione doppia di 1000 clienti, incrociando in riga il tipo di Banca utilizzata (modalità: Unicredit, Credito Cooperativo, Banca Agricola Popolare) e la condizione professionale dei clienti (modalità: Imprenditore, Artigiano, Lavoratore dipendente, Libero Professionista) si è ottenuto : = 988,07 Calcolare : - PHI e V di Cramer - L indice P di Pearson calcoli Rmer 017-018 Uso del software Tavole di contingenza Chi quadrato e indici di associazione I. Mingo 017-018 7

Calcolare le contingenze o residui z 11 = 0,7/(1-6/167)(1-786/167)=1, Residuo = Conteggio - conteggio atteso Residuo Standardizzato= Residuo/conteggio atteso Residuo Corretto= Residuo standardizzato/ (1- (ni./n.. ) (1- ( n.j./n.. )) Uso del software: interpretare l output Analizzando i residuo corretti, si può affermare che si registra un associazione statisticamente significativa, [con un livello di probabilità del 95% ], per le modalità che presentano un residuo corretto z>= 1,96 : - se z è positivo la cella presenta un numero di casi significativamente più elevato di quello che si otterrebbe nel caso di indipendenza tra le modalità. - se z è negativo, la cella presenta un numero di casi significativamente più ridotto di quello che si otterrebbe nel caso di indipendenza tra le modalità. Spiegheremo più avanti perché! I. Mingo 017-018 8

Esercizio Sulla base dei dati della tabella seguente, calcolare il Chi quadrato tra le variabili sesso e valutazione per la completezza del patrimonio librario degli utenti delle biblioteche. Quale indicazione si può trarre dai residui corretti? χ H K i1 j 1 n ij n n * ij * ij I. Mingo 017-018 calcolo Indici di associazione per caratteri ordinati Se la tabella si riferisce a caratteri ordinati è possibile costruire indici che oltre a misurare l intensità dell associazione ne misurano il verso. Tra due caratteri ordinati possono sussistere due tipi di relazioni: Relazione diretta (concordanza): a modalità di ordine elevato di un carattere corrispondono più frequentemente modalità di ordine elevato dell altro carattere. Relazione inversa (discordanza): a modalità elevate di un carattere corrispondono modalità di ordine basso dell altro carattere e viceversa. 9

Indici di concordanza e discordanza Possono assumere : valori positivi, nel caso di concordanza tra i caratteri valori negativi, nel caso di discordanza I più noti: Indice Gamma di Goodman e Kruskal Indice b di Kendall Indice d di Sommer Indice rho di Spearman Tali indici variano fra -1 e 1 zero indica assenza di associazione +1 indica che l ordinamento dei due caratteri è sempre concorde -1 indica che l ordinamento è sempre discorde. valori prossimi a 1 in valore assoluto indicano forte relazione Indice rho di Spearman E un indice di cograduazione tra graduatorie, particolarmente indicato quando i caratteri ordinati presentano un numero elevato di modalità. Per calcolare l indice è necessario ordinare gli individui in senso decrescente per ognuno dei due caratteri e attribuire il rango. L indice si definisce come: dove d indica la differenza tra i ranghi cioè i posti nelle due graduatorie ordinate. L indice assume valori tra -1 e + 1 - Il valore 0 implica indipendenza tra x e y L opposta graduatoria ( = -1) implica discordanza tra x e y. E uguale ad 1 quando le unità presentano lo stesso rango in entrambe le graduatorie cioè nel caso di perfetta cograduazione. 30

Cograduazione: esempio 1 3 4 5 6 7 8 9 10 11 1 13 14 15 16 17 18 19 0 grad. attiv. grad. Livello fem Tasso territorale m. Piemonte 5 1-7 49 Valle d'aosta 1 18-17 89 Liguria 1 9 3 9 Lombardia 4 16-1 144 Trentino Alto Adige 3 0-17 89 Friuli Venezia 9 15-6 36 Giulia Veneto 6 19-13 169 Emilia Romagna 17-15 5 Marche 7 14-7 49 Toscana 8 13-5 5 Umbria 10 11-1 1 Lazio 11 8 3 9 Campania 18 3 15 5 Abruzzo 14 10 4 16 Molise 13 7 6 36 Puglia 19 5 14 196 Basilicata 16 6 10 100 Calabria 17 1 16 56 Sicilia 0 18 34 Sardegna 15 4 11 11 568 disocc. d d = 1 [6*568)/0*(400-1)] =-0,931 Ordinale per ordinale N. di casi validi Misure simmetriche Tau-b di Kendall Gamma Correlazione di Spearman Valore -,779 -,779 -,931 0 Esercizio Calcolare il coefficiente di graduazione tra le valutazioni dei clienti riguardo all assistenza post vendita e alla consulenza alla vendita rilevate per ripartizione geografica I. Mingo 017-018 calcoli 31

Indici di concordanza e discordanza : uso del software I. Mingo 017-018 Indici di concordanza e discordanza: uso del software Anche per la correlazione di Spearman esistono dei test statistici per verificare se la correlazione calcolata è stata casualmente estratta da una popolazione con correlazione nulla. Di questi test ci occuperemo nella parte sulla statistica inferenziale. Rmer 017-018 3

Un grafico per studiare la relazione tra caratteri quantitativi: lo Scatter-Plot o Grafico di Dispersione Rappresenta la distribuzione unitaria doppia di caratteri quantitativi Sull asse delle ascisse (X) e su quello delle ordinate (Y) sono riportati rispettivamente i valori numerici delle modalità assunti dalle due variabili rilevate su ogni u.s. L insieme di punti così ottenuto si chiama nuvola di punti e consente di studiare la dispersione delle u.s. e la loro somiglianza La forma della nuvola può suggerire l esistenza e la forma della relazione tra i due caratteri Rmer 017-018 Esempio Distribuzione Unitaria Doppia Unità Vendite Statistica Spesa per pubblicità su radio e TV 1 973 0 1119 0 3 875 5 4 65 5 5 910 30 6 971 30 7 931 35 8 1177 35 9 88 40 10 98 40 11 168 45 1 1577 45 13 1044 50 14 914 50 15 139 55 16 1330 55 17 1405 60 18 1436 60 19 151 65 0 1741 65 1 1866 70 1717 70 V en d ite Scatter Plot 000 1500 1000 500 0 0 10 0 30 40 50 60 70 80 Spesa per pubblicità radio e TV U.S Rmer 017-018 33

Interdipendenza tra due caratteri quantitativi Si considera la distribuzione unitaria di caratteri quantitativi X e Y Si analizza l associazione dei due caratteri attraverso l analisi dello scatter plot o mediante indici simmetrici che valutano la presenza di Concordanza: u.s. con valori piccoli (grandi) di un carattere presentano più frequentemente valori piccoli (grandi) dell altro carattere Discordanza: u.s. con valori piccoli (grandi) di un carattere possiedono più frequentemente valori grandi (piccoli) dell altro carattere...si puo analizzare l interdipendenza graficamente 1. Concordanza: nuvola allungata verso alto a destra. Discordanza: nuvola allungata verso alto a sinistra 3. Assenza di interdipendenza lineare: punti sparsi Relazione diretta (concordanza) 40 35 30 5 0 15 10 5 0 0 4 6 8 10 1 14 Variabile Y Variabile Y 10 5-10 -15-0 Variabile X Relazione inversa (discordanza) 0 0-5 4 6 8 10 1 14 Variabile X 34

Interdipendenza tra due caratteri quantitativi Per misurare il legame che esiste tra due caratteri quantitativi si utilizza la covarianza, definita come la media dei prodotti degli scostamenti delle variabili X e Y dalle rispettive medie: xy n i1 ( x M i ) ( y M ) x n i y Questo valore sarà : Nullo nel caso di indipendenza statistica Positivo in caso di concordanza perché al crescere della X anche la Y crescerà di conseguenza le differenze avranno lo stesso segno. Negativo in caso di discordanza, perché all aumentare della X corrisponderà una diminuzione della Y e viceversa. se dividiamo la covarianza per il prodotto delle deviazioni standard delle variabili, otteniamo un valore standardizzato, che oscilla fra 1 e +1: il coefficiente di correlazione r di Pearson IL Coefficiente di correlazione lineare di Bravais e Pearson è una misura della relazione lineare esistente tra due variabili ovvero una misura della l interdipendenza che esiste tra le due distribuzioni. r misura una relazione simmetrica di tipo lineare cha varia tra -1 e +1. Convenzionalmente: 35

Esercizio Rappresentare graficamente la relazione tra vendite e spese per pubblicità. Che cosa si può dedurre? Calcolare il coefficiente di correlazione tra i due caratteri. I. Mingo 017-018 Step per calcolare il coefficiente di correlazione 1. Calcolare la media aritmetica di ciascun carattere. Calcolare per ciascuna modalità di ciascun carattere gli scarti dalla rispettiva media 3. Ottenere la covarianza Moltiplicare per ciascuna modalità gli scarti dei due caratteri ottenuti al punto. Sommare i prodotti così ottenuti. Dividere questa somma dei prodotti per il numero di unità statistiche. 4. Ottenere gli scarti quadratici medi Elevare al quadrato gli scarti dalla media di ciascuna modalità Sommare per ogni carattere i quadrati così ottenuti Dividere ciascuna di queste somme per il numero di unità statistiche per ottenere le varianze. Estrarre le radici quadrate per ottenere gli scarti quadratici medi- 5. Ottenere r 1. Dividere la covarianza (ottenuta al punto 3) per il prodotto degli FSSC scarti quadratici medi dei due caratteri (ottenuti al punto 4). 36