Metodi statistici per le ricerche di mercato

Documenti analoghi
Analisi bivariata. Il caso di caratteri quantitativi

Relazioni Statistiche

Rappresentazioni grafiche di distribuzioni doppie

Indice di contingenza quadratica media (phi quadro) χ n

Metodi statistici per le ricerche di mercato

Stesso valore medio per distribuzioni diverse

Consideriamo due variabili quantitative Y e X, e supponiamo di essere interessati a comprendere come la Y

Regressione & Correlazione

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Indici di variabilità relativa

Associazione tra caratteri quantitativi: gli indici di correlazione

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

Corso in Statistica Medica

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

ESERCITAZIONI N. 3 corso di statistica

autosnodato auto-treno con rimorchio totale incidenti trattore stradale o motrice auto-articolato

Indipendenza, Dipendenza e interdipendenza

La regressione lineare. Rappresentazione analitica delle distribuzioni

Anno Regione Euro AL BE BG BM EL GA IB IG ND Totale 2017 PIEMONTE EURO

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

REGRESSIONE E CORRELAZIONE

Affitti Quota Latte - Periodo 2014/2015

Statistica Economica Capitolo 2

Statistica. Alfonso Iodice D Enza

Gennaio-Febbraio 2018

Anno TOT CAPACITA' RICETTIVA FLUSSI TURISTICI 05/02/2019 TOTALE ITALIANI

ESERCITAZIONI N. 3 corso di statistica

Matematica Lezione 22

Prodotto interno lordo per ripartizione geografica, in Italia e in Sardegna: variazioni percentuali 2005 su 2004

Metodi statistici per le ricerche di mercato

Persone che hanno subito incidenti in. Regioni

Fondamenti e metodi analisi empirica nelle scienze sociali

Regressione lineare. Lo studio della relazione lineare tra due variabili. X e Y caratteri entrambi quantitativi. variabile dipendente

Gennaio-Novembre 2018

Prova d esame di Statistica - II canale - nuovo ordinamento Dott.ssa C. Conigliani 19/06/2003

Distribuzioni secondo due caratteri. Rappresentazioni e prime sintesi

Correlazione lineare e regressione

Capitolo 12 La regressione lineare semplice

Struttura Ex asl impegni prestazioni costo prestazioni Ticket Regione H , ,76 Basilicata H

8. RELAZIONE TRA CARATTERI

Statistica. Alfonso Iodice D Enza

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Teoria e tecniche dei test. Concetti di base

DIPARTIMENTO AMMINISTRAZIONE PENITENZIARIA UFFICIO STAMPA E RELAZIONI ESTERNE

Statistiche fiscali regionali. Redditi delle persone fisiche

Esercitazione III Soluzione

SCOPO DELL ANALISI DI CORRELAZIONE

Dispensa di Statistica

Copyright Esselibri S.p.A.

STATISTICA 1 ESERCITAZIONE 6

ESEMPI DI DOMANDE PER LA PROVA SCRITTA DI STATISTICA SOCIALE

Esercitazione di Statistica Indici di associazione

Analisi delle relazioni

Struttura Ex asl impegni prestazioni costo Ticket Regione

STATISTICA PER LA DIGITAL ECONOMY Marco Riani

Esercitazioni del corso di Relazioni tra variabili. Giancarlo Manzi Facoltà di Sociologia Università degli Studi di Milano-Bicocca

LM 88 SOCIOLOGIA E RICERCA SOCIALE. Metodi Statistici per la Ricerca Sociale. Regressione lineare e correlazione

Redditi Irpef e Toscana nel 2014 (anno d imposta 2013)

Fonti e strumenti statistici per la comunicazione

Università di Cassino (sede di Terracina) Esercitazione di Statistica 1 del 17 ottobre Dott.ssa Paola Costantini

SIT Sistema Informativo Trapianti

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Percentuale delle scuole che hanno avviato la rilevazione

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Corso di Psicometria Progredito

Vogliamo determinare una funzione lineare che meglio approssima i nostri dati sperimentali e poter decidere sulla bontà di questa approssimazione.

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

Argomenti della lezione:

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Statistica. Alfonso Iodice D Enza

Unità Carattere Modalità

Approfondimento 1 - Rsu per comparto e per ripartizione geografica

ESERCITAZIONE IV - Soluzioni

Statistiche fiscali regionali REDDITI DELLE PERSONE FISICHE

REGIME QUOTE LATTE AFFITTI DI QUOTA

STATISTICA (I modulo - Statistica Descrittiva) Esercitazione I 24/02/2006

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

Occupazione in Toscana e in Italia nel periodo luglio-settembre 2016

TIPI DI SPETTACOLO Rappresentazioni Biglietti venduti Presenze Spesa al botteghino (a) Spesa del pubblico (b) Volume di affari

Università del Piemonte Orientale Corso di Laurea in Medicina e Chirurgia. Corso di Statistica Medica. Correlazione. Regressione Lineare

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

docente: J. Mortera/P. Vicard Nome

BOLLETTINO SULLA DISOCCUPAZIONE Dati mensili - Dicembre 2018 Dati trimestrali - 3 trim NUMERO 3

BOLLETTINO SULLA DISOCCUPAZIONE Dati mensili - Ottobre 2018 Dati trimestrali - 2 trim NUMERO 1. Aumentiamo i traffici

Statistica di base per l analisi socio-economica

Trofeo delle Regioni Cesare Rubini" - Maschile. Calendario Incontri


STATISTICA (I modulo - Statistica Descrittiva) Soluzione Esercitazione I ( )

Grafico 1 - Enti locali Contributi erariali per ente - Anni (valori nominali in migliaia di lire)

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

BOLLETTINO SULLA DISOCCUPAZIONE Dati mensili - Novembre 2018 Dati trimestrali - 3 trim NUMERO 2

150 ANNI DI CRESCITA, 150 ANNI DI DIVARI: SVILUPPO, TRASFORMAZIONI, POLITICHE

INDICATORI DI DISAGIO ECONOMICO SOCIALE

RIEPILOGO REGIONALE PER SPECIALIZZAZIONE RIEPILOGO REGIONALE PER SPECIALIZZAZIONE

Direzione Generale del Personale e degli Affari Generali e Amministrativi SERVIZIO STATISTICO - UFFICIO SISTAN NOTIZIARIO STATISTICO

Transcript:

Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2018-2019 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per la comunicazione d'impresa» Indici di concordanza e discordanza Possono assumere : valori positivi, nel caso di concordanza tra i caratteri valori negativi, nel caso di discordanza I più noti: Indice Gamma di Goodman e Kruskal Indice b di Kendall Indice d di Sommer Indice rho di Spearman Tali indici variano fra -1 e 1 zero indica assenza di associazione +1 indica che l ordinamento dei due caratteri è sempre concorde -1 indica che l ordinamento è sempre discorde. valori prossimi a 1 in valore assoluto indicano forte relazione 1

Indice rho di Spearman E un indice di cograduazione tra graduatorie, particolarmente indicato quando i caratteri ordinati presentano un numero elevato di modalità. Per calcolare l indice è necessario ordinare gli individui in senso decrescente per ognuno dei due caratteri e attribuire il rango. L indice si definisce come: dove d indica la differenza tra i ranghi cioè i posti nelle due graduatorie ordinate. L indice assume valori tra -1 e + 1 - Il valore 0 implica indipendenza tra x e y L opposta graduatoria ( = -1) implica discordanza tra x e y. E uguale ad 1 quando le unità presentano lo stesso rango in entrambe le graduatorie cioè nel caso di perfetta cograduazione. Cograduazione: esempio 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 grad. attiv. grad. Livello fem Tasso territorale m. Piemonte 5 12-7 49 Valle d'aosta 1 18-17 289 Liguria 12 9 3 9 Lombardia 4 16-12 144 Trentino Alto Adige 3 20-17 289 Friuli Venezia 9 15-6 36 Giulia Veneto 6 19-13 169 Emilia Romagna 2 17-15 225 Marche 7 14-7 49 Toscana 8 13-5 25 Umbria 10 11-1 1 Lazio 11 8 3 9 Campania 18 3 15 225 Abruzzo 14 10 4 16 Molise 13 7 6 36 Puglia 19 5 14 196 Basilicata 16 6 10 100 Calabria 17 1 16 256 Sicilia 20 2 18 324 Sardegna 15 4 11 121 2568 disocc. d d2 = 1 [6*2568)/20*(400-1)] =-0,931 Ordinale per ordinale N. di casi validi Misure simmetriche Tau-b di Kendall Gamma Correlazione di Spearman Valore -,779 -,779 -,931 20 2

Esercizio Calcolare il coefficiente di graduazione tra le valutazioni dei clienti riguardo all assistenza post vendita e alla consulenza alla vendita rilevate per ripartizione geografica calcoli Indici di concordanza e discordanza : uso del software 3

Indici di concordanza e discordanza: uso del software Anche per la correlazione di Spearman esistono dei test statistici per verificare se la correlazione calcolata è stata casualmente estratta da una popolazione con correlazione nulla. Di questi test ci occuperemo nella parte sulla statistica inferenziale. Rmer 2018-2019 Un grafico per studiare la relazione tra caratteri quantitativi: lo Scatter-Plot o Grafico di Dispersione Rappresenta la distribuzione unitaria doppia di 2 caratteri quantitativi Sull asse delle ascisse (X) e su quello delle ordinate (Y) sono riportati rispettivamente i valori numerici delle modalità assunti dalle due variabili rilevate su ogni u.s. L insieme di punti così ottenuto si chiama nuvola di punti e consente di studiare la dispersione delle u.s. e la loro somiglianza La forma della nuvola può suggerire l esistenza e la forma della relazione tra i due caratteri Rmer 2018-2019 4

Esempio Distribuzione Unitaria Doppia Unità Vendite Statistica Spesa per pubblicità su radio e TV 1 973 0 2 1119 0 3 875 25 4 625 25 5 910 30 6 971 30 7 931 35 8 1177 35 9 882 40 10 982 40 11 1628 45 12 1577 45 13 1044 50 14 914 50 15 1329 55 16 1330 55 17 1405 60 18 1436 60 19 1521 65 20 1741 65 21 1866 70 22 1717 70 V en d ite Scatter Plot 2000 1500 1000 500 0 0 10 20 30 40 50 60 70 80 Spesa per pubblicità radio e TV U.S Rmer 2018-2019 Interdipendenza tra due caratteri quantitativi Si considera la distribuzione unitaria di 2 caratteri quantitativi X e Y Si analizza l associazione dei due caratteri attraverso l analisi dello scatter plot o mediante indici simmetrici che valutano la presenza di Concordanza: u.s. con valori piccoli (grandi) di un carattere presentano più frequentemente valori piccoli (grandi) dell altro carattere Discordanza: u.s. con valori piccoli (grandi) di un carattere possiedono più frequentemente valori grandi (piccoli) dell altro carattere 5

...si puo analizzare l interdipendenza graficamente 1. Concordanza: nuvola allungata verso alto a destra 2. Discordanza: nuvola allungata verso alto a sinistra 3. Assenza di interdipendenza lineare: punti sparsi Relazione diretta (concordanza) 40 35 30 25 20 15 10 5 0 0 2 4 6 8 10 12 14 Variabile Y Variabile Y 10 5-10 -15-20 Variabile X Relazione inversa (discordanza) 0 0-5 2 4 6 8 10 12 14 Variabile X Interdipendenza tra due caratteri quantitativi Per misurare il legame che esiste tra due caratteri quantitativi si utilizza la covarianza, definita come la media dei prodotti degli scostamenti delle variabili X e Y dalle rispettive medie: xy n i 1 ( x M i ) ( y M ) x n i y Questo valore sarà : Nullo nel caso di indipendenza statistica Positivo in caso di concordanza perché al crescere della X anche la Y crescerà di conseguenza le differenze avranno lo stesso segno. Negativo in caso di discordanza, perché all aumentare della X corrisponderà una diminuzione della Y e viceversa. se dividiamo la covarianza per il prodotto delle deviazioni standard delle 2 variabili, otteniamo un valore standardizzato, che oscilla fra 1 e +1: il coefficiente di correlazione r di Pearson 6

IL Coefficiente di correlazione lineare di Bravais e Pearson è una misura della relazione lineare esistente tra due variabili ovvero una misura della l interdipendenza che esiste tra le due distribuzioni. r misura una relazione simmetrica di tipo lineare cha varia tra -1 e +1. Convenzionalmente: Esercizio Rappresentare graficamente la relazione tra vendite e spese per pubblicità. Che cosa si può dedurre? Calcolare il coefficiente di correlazione tra i due caratteri. 7

Step per calcolare il coefficiente di correlazione 1. Calcolare la media aritmetica di ciascun carattere 2. Calcolare per ciascuna modalità di ciascun carattere gli scarti dalla rispettiva media 3. Ottenere la covarianza Moltiplicare per ciascuna modalità gli scarti dei due caratteri ottenuti al punto 2. Sommare i prodotti così ottenuti. Dividere questa somma dei prodotti per il numero di unità statistiche. 4. Ottenere gli scarti quadratici medi Elevare al quadrato gli scarti dalla media di ciascuna modalità Sommare per ogni carattere i quadrati così ottenuti Dividere ciascuna di queste somme per il numero di unità statistiche per ottenere le varianze. Estrarre le radici quadrate per ottenere gli scarti quadratici medi- 5. Ottenere r 1. Dividere la covarianza (ottenuta al punto 3) per il prodotto degli FSSC scarti quadratici medi dei due caratteri (ottenuti al punto 4). Correlazione e relazione lineare 8

Correlazione e relazione lineare r=0,976 Le caratteristiche dei punti-unità espresse dalle due variabili (le due dimensioni del piano cartesiano) possono essere riassunte da una sola la retta. r=0,002 Non è possibile individuare una retta che riassuma le due variabili poiché esse sono indipendenti. Correlazione: esempi 50 70 6 60 Tasso di attività delle donne 40 30 20 0 10 Tasso di disoccupazione 20 30 Tasso di disoccupazione giovanile 50 40 30 20 10 0 0 10 Tasso di disoccupazione 20 30 Min o r e n n i d e n u n cia ti p e r 1 0 0 m in o r e n n i 5 4 3 2 1 0 10 Tasso di disoccupazione 20 30 Correlazioni tasso di disocc. Correlazione di Pearson Somma dei quadrati e dei prodotti incrociati Covarianza N Minorenni denunciati per 100 Tasso di Tasso di minorenni attività delle disoccupazion in età 14-17 donne e giovanile anni -,897,976 -,337-682,661 2617,602-45,033-35,930 137,769-2,370 20 20 20 9

Uso del software : la correlazione Analisi della dipendenza lineare tra due variabili quantitative L analisi della dipendenza è asimmetrica: date due variabili quantitative, X e Y, si è interessati a studiare se e in che misura la variabile Y (variabile dipendente ) sia influenzata dalla X (variabile indipendente). Scelta la variabile indipendente X e quella dipendente Y, la rappresentazione grafica della distribuzione unitaria doppia di tali variabili attraverso il grafico di dispersione, consente di individuare la eventuale relazione lineare tra X ed Y. Si è visto che è possibile tracciare una retta, detta interpolante, tra i punti dello scatterplot tale che si avvicini a tutti i punti riproducendo, con una certa approssimazione, la nuvola. 10

La funzione della retta La funzione di una retta è la seguente: Y=a+bX dove: a è l intercetta della retta sull asse delle ordinate Y, cioè è il punto in cui la retta interseca l asse Y e quindi è il valore di Y che corrisponde ad un valore di X=0; b è il coefficiente angolare della retta, cioè il valore che indica la sua inclinazione. Se b>0 la retta è ascendente, ossia inclinata dal basso a sinistra verso l alto a destra; se b<0 la retta è discendente, ossia inclinata dal basso a destra verso l alto a sinistra. Nello studio empirico della relazione di dipendenza lineare tra X ed Y l obiettivo è quello di individuare per ciascun punto P i un nuovo punto che sia il più vicino possibile al punto P i pur giacendo sulla retta che passa nella nuvola di punti. La funzione della retta interpolante La differenza tra il valore y i osservato e quello teorico è definito residuo La migliore retta individuabile è quella che rende minimi tali residui 11

La relazione lineare tra X e Y e la retta di regressione Come individuare questa retta? Secondo il metodo dei minimi quadrati la migliore retta è quella che rende minima la somma dei quadrati dei residui: questa retta viene chiamata retta di regressione. Come si calcola la retta di regressione: che cosa sono i parametri a e b? 12

Il coefficiente di regressione e il coefficiente di correlazione Come si interpreta Il coefficiente di regressione 13

Esercizio Riprendendo la tabella 5 dell esercizio precedente calcolare il coefficiente di regressione tra le vendite (variabile dipendente) e le spese in pubblicità (variabile indipendente), e l intercetta della retta di regressione. Scrivere l equazione della retta di regressione. b=20,03/16,81=1,19 a = M(Y) bm(x) a=10,83-(1,19*11,17)=-2,4623 y i = 2,46 + 1,19x i Valutare la bontà di adattamento della retta di regressione 14

Criterio per valutare la bontà di adattamento: il coefficiente di determinazione R 2 Come si interpreta R 2 15

Uso del software: regressione Uso del software:output beta=b * DSx/DSy): È un coefficiente indipendente dalle unità di x e y, poiché le variabili indipendenti sono espresse in forma standardizzata (Z-score) - Nella regressione lineare bivariata corrisponde alla r di Pearson Ŷ i =-2,474 +1,192X i R 2 = 3436.96/3908=0,879 R2 corretto tiene conto dei gradi di libertà del modello, cioè del numero di unità statistiche e del numero di variabili indipendenti (k) e si utilizza nella regressione multipla. gl k n-k+1 N-1 16

Esercizio A partire dall output seguente : Disegnare la retta di regressione tra Reddito del nucleo familiare e Costo di richiesta di indennizzo Qual è la correlazione tra le due variabili? Come si può valutare l adattamento della retta di regressione ai punti empirici? Utilizzando il modello lineare, quale sarà il costo di indennizzo medio a fronte di un reddito familiare pari a 91(in migliaia)? 17