Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2018-2019 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per la comunicazione d'impresa» Indici di concordanza e discordanza Possono assumere : valori positivi, nel caso di concordanza tra i caratteri valori negativi, nel caso di discordanza I più noti: Indice Gamma di Goodman e Kruskal Indice b di Kendall Indice d di Sommer Indice rho di Spearman Tali indici variano fra -1 e 1 zero indica assenza di associazione +1 indica che l ordinamento dei due caratteri è sempre concorde -1 indica che l ordinamento è sempre discorde. valori prossimi a 1 in valore assoluto indicano forte relazione 1
Indice rho di Spearman E un indice di cograduazione tra graduatorie, particolarmente indicato quando i caratteri ordinati presentano un numero elevato di modalità. Per calcolare l indice è necessario ordinare gli individui in senso decrescente per ognuno dei due caratteri e attribuire il rango. L indice si definisce come: dove d indica la differenza tra i ranghi cioè i posti nelle due graduatorie ordinate. L indice assume valori tra -1 e + 1 - Il valore 0 implica indipendenza tra x e y L opposta graduatoria ( = -1) implica discordanza tra x e y. E uguale ad 1 quando le unità presentano lo stesso rango in entrambe le graduatorie cioè nel caso di perfetta cograduazione. Cograduazione: esempio 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 grad. attiv. grad. Livello fem Tasso territorale m. Piemonte 5 12-7 49 Valle d'aosta 1 18-17 289 Liguria 12 9 3 9 Lombardia 4 16-12 144 Trentino Alto Adige 3 20-17 289 Friuli Venezia 9 15-6 36 Giulia Veneto 6 19-13 169 Emilia Romagna 2 17-15 225 Marche 7 14-7 49 Toscana 8 13-5 25 Umbria 10 11-1 1 Lazio 11 8 3 9 Campania 18 3 15 225 Abruzzo 14 10 4 16 Molise 13 7 6 36 Puglia 19 5 14 196 Basilicata 16 6 10 100 Calabria 17 1 16 256 Sicilia 20 2 18 324 Sardegna 15 4 11 121 2568 disocc. d d2 = 1 [6*2568)/20*(400-1)] =-0,931 Ordinale per ordinale N. di casi validi Misure simmetriche Tau-b di Kendall Gamma Correlazione di Spearman Valore -,779 -,779 -,931 20 2
Esercizio Calcolare il coefficiente di graduazione tra le valutazioni dei clienti riguardo all assistenza post vendita e alla consulenza alla vendita rilevate per ripartizione geografica calcoli Indici di concordanza e discordanza : uso del software 3
Indici di concordanza e discordanza: uso del software Anche per la correlazione di Spearman esistono dei test statistici per verificare se la correlazione calcolata è stata casualmente estratta da una popolazione con correlazione nulla. Di questi test ci occuperemo nella parte sulla statistica inferenziale. Rmer 2018-2019 Un grafico per studiare la relazione tra caratteri quantitativi: lo Scatter-Plot o Grafico di Dispersione Rappresenta la distribuzione unitaria doppia di 2 caratteri quantitativi Sull asse delle ascisse (X) e su quello delle ordinate (Y) sono riportati rispettivamente i valori numerici delle modalità assunti dalle due variabili rilevate su ogni u.s. L insieme di punti così ottenuto si chiama nuvola di punti e consente di studiare la dispersione delle u.s. e la loro somiglianza La forma della nuvola può suggerire l esistenza e la forma della relazione tra i due caratteri Rmer 2018-2019 4
Esempio Distribuzione Unitaria Doppia Unità Vendite Statistica Spesa per pubblicità su radio e TV 1 973 0 2 1119 0 3 875 25 4 625 25 5 910 30 6 971 30 7 931 35 8 1177 35 9 882 40 10 982 40 11 1628 45 12 1577 45 13 1044 50 14 914 50 15 1329 55 16 1330 55 17 1405 60 18 1436 60 19 1521 65 20 1741 65 21 1866 70 22 1717 70 V en d ite Scatter Plot 2000 1500 1000 500 0 0 10 20 30 40 50 60 70 80 Spesa per pubblicità radio e TV U.S Rmer 2018-2019 Interdipendenza tra due caratteri quantitativi Si considera la distribuzione unitaria di 2 caratteri quantitativi X e Y Si analizza l associazione dei due caratteri attraverso l analisi dello scatter plot o mediante indici simmetrici che valutano la presenza di Concordanza: u.s. con valori piccoli (grandi) di un carattere presentano più frequentemente valori piccoli (grandi) dell altro carattere Discordanza: u.s. con valori piccoli (grandi) di un carattere possiedono più frequentemente valori grandi (piccoli) dell altro carattere 5
...si puo analizzare l interdipendenza graficamente 1. Concordanza: nuvola allungata verso alto a destra 2. Discordanza: nuvola allungata verso alto a sinistra 3. Assenza di interdipendenza lineare: punti sparsi Relazione diretta (concordanza) 40 35 30 25 20 15 10 5 0 0 2 4 6 8 10 12 14 Variabile Y Variabile Y 10 5-10 -15-20 Variabile X Relazione inversa (discordanza) 0 0-5 2 4 6 8 10 12 14 Variabile X Interdipendenza tra due caratteri quantitativi Per misurare il legame che esiste tra due caratteri quantitativi si utilizza la covarianza, definita come la media dei prodotti degli scostamenti delle variabili X e Y dalle rispettive medie: xy n i 1 ( x M i ) ( y M ) x n i y Questo valore sarà : Nullo nel caso di indipendenza statistica Positivo in caso di concordanza perché al crescere della X anche la Y crescerà di conseguenza le differenze avranno lo stesso segno. Negativo in caso di discordanza, perché all aumentare della X corrisponderà una diminuzione della Y e viceversa. se dividiamo la covarianza per il prodotto delle deviazioni standard delle 2 variabili, otteniamo un valore standardizzato, che oscilla fra 1 e +1: il coefficiente di correlazione r di Pearson 6
IL Coefficiente di correlazione lineare di Bravais e Pearson è una misura della relazione lineare esistente tra due variabili ovvero una misura della l interdipendenza che esiste tra le due distribuzioni. r misura una relazione simmetrica di tipo lineare cha varia tra -1 e +1. Convenzionalmente: Esercizio Rappresentare graficamente la relazione tra vendite e spese per pubblicità. Che cosa si può dedurre? Calcolare il coefficiente di correlazione tra i due caratteri. 7
Step per calcolare il coefficiente di correlazione 1. Calcolare la media aritmetica di ciascun carattere 2. Calcolare per ciascuna modalità di ciascun carattere gli scarti dalla rispettiva media 3. Ottenere la covarianza Moltiplicare per ciascuna modalità gli scarti dei due caratteri ottenuti al punto 2. Sommare i prodotti così ottenuti. Dividere questa somma dei prodotti per il numero di unità statistiche. 4. Ottenere gli scarti quadratici medi Elevare al quadrato gli scarti dalla media di ciascuna modalità Sommare per ogni carattere i quadrati così ottenuti Dividere ciascuna di queste somme per il numero di unità statistiche per ottenere le varianze. Estrarre le radici quadrate per ottenere gli scarti quadratici medi- 5. Ottenere r 1. Dividere la covarianza (ottenuta al punto 3) per il prodotto degli FSSC scarti quadratici medi dei due caratteri (ottenuti al punto 4). Correlazione e relazione lineare 8
Correlazione e relazione lineare r=0,976 Le caratteristiche dei punti-unità espresse dalle due variabili (le due dimensioni del piano cartesiano) possono essere riassunte da una sola la retta. r=0,002 Non è possibile individuare una retta che riassuma le due variabili poiché esse sono indipendenti. Correlazione: esempi 50 70 6 60 Tasso di attività delle donne 40 30 20 0 10 Tasso di disoccupazione 20 30 Tasso di disoccupazione giovanile 50 40 30 20 10 0 0 10 Tasso di disoccupazione 20 30 Min o r e n n i d e n u n cia ti p e r 1 0 0 m in o r e n n i 5 4 3 2 1 0 10 Tasso di disoccupazione 20 30 Correlazioni tasso di disocc. Correlazione di Pearson Somma dei quadrati e dei prodotti incrociati Covarianza N Minorenni denunciati per 100 Tasso di Tasso di minorenni attività delle disoccupazion in età 14-17 donne e giovanile anni -,897,976 -,337-682,661 2617,602-45,033-35,930 137,769-2,370 20 20 20 9
Uso del software : la correlazione Analisi della dipendenza lineare tra due variabili quantitative L analisi della dipendenza è asimmetrica: date due variabili quantitative, X e Y, si è interessati a studiare se e in che misura la variabile Y (variabile dipendente ) sia influenzata dalla X (variabile indipendente). Scelta la variabile indipendente X e quella dipendente Y, la rappresentazione grafica della distribuzione unitaria doppia di tali variabili attraverso il grafico di dispersione, consente di individuare la eventuale relazione lineare tra X ed Y. Si è visto che è possibile tracciare una retta, detta interpolante, tra i punti dello scatterplot tale che si avvicini a tutti i punti riproducendo, con una certa approssimazione, la nuvola. 10
La funzione della retta La funzione di una retta è la seguente: Y=a+bX dove: a è l intercetta della retta sull asse delle ordinate Y, cioè è il punto in cui la retta interseca l asse Y e quindi è il valore di Y che corrisponde ad un valore di X=0; b è il coefficiente angolare della retta, cioè il valore che indica la sua inclinazione. Se b>0 la retta è ascendente, ossia inclinata dal basso a sinistra verso l alto a destra; se b<0 la retta è discendente, ossia inclinata dal basso a destra verso l alto a sinistra. Nello studio empirico della relazione di dipendenza lineare tra X ed Y l obiettivo è quello di individuare per ciascun punto P i un nuovo punto che sia il più vicino possibile al punto P i pur giacendo sulla retta che passa nella nuvola di punti. La funzione della retta interpolante La differenza tra il valore y i osservato e quello teorico è definito residuo La migliore retta individuabile è quella che rende minimi tali residui 11
La relazione lineare tra X e Y e la retta di regressione Come individuare questa retta? Secondo il metodo dei minimi quadrati la migliore retta è quella che rende minima la somma dei quadrati dei residui: questa retta viene chiamata retta di regressione. Come si calcola la retta di regressione: che cosa sono i parametri a e b? 12
Il coefficiente di regressione e il coefficiente di correlazione Come si interpreta Il coefficiente di regressione 13
Esercizio Riprendendo la tabella 5 dell esercizio precedente calcolare il coefficiente di regressione tra le vendite (variabile dipendente) e le spese in pubblicità (variabile indipendente), e l intercetta della retta di regressione. Scrivere l equazione della retta di regressione. b=20,03/16,81=1,19 a = M(Y) bm(x) a=10,83-(1,19*11,17)=-2,4623 y i = 2,46 + 1,19x i Valutare la bontà di adattamento della retta di regressione 14
Criterio per valutare la bontà di adattamento: il coefficiente di determinazione R 2 Come si interpreta R 2 15
Uso del software: regressione Uso del software:output beta=b * DSx/DSy): È un coefficiente indipendente dalle unità di x e y, poiché le variabili indipendenti sono espresse in forma standardizzata (Z-score) - Nella regressione lineare bivariata corrisponde alla r di Pearson Ŷ i =-2,474 +1,192X i R 2 = 3436.96/3908=0,879 R2 corretto tiene conto dei gradi di libertà del modello, cioè del numero di unità statistiche e del numero di variabili indipendenti (k) e si utilizza nella regressione multipla. gl k n-k+1 N-1 16
Esercizio A partire dall output seguente : Disegnare la retta di regressione tra Reddito del nucleo familiare e Costo di richiesta di indennizzo Qual è la correlazione tra le due variabili? Come si può valutare l adattamento della retta di regressione ai punti empirici? Utilizzando il modello lineare, quale sarà il costo di indennizzo medio a fronte di un reddito familiare pari a 91(in migliaia)? 17