Metodi statistici per le ricerche di mercato

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Metodi statistici per le ricerche di mercato"

Transcript

1 Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per la comunicazione d'impresa» Tipi di analisi dei dati ANALISI MONOVARIATA considera un carattere alla volta e studia come esso si distribuisce sulle unità statistiche rilevate. Consente di pervenire ad una conoscenza più accurata dei dati. In presenza di dati campionari, è necessaria per valutare la struttura del campione. ANALISI BIVARIATA studia le relazioni tra i caratteri considerando due caratteri alla volta osservati sullo stesso collettivo di unità statistiche. ANALISI MULTIVARIATA Studia le relazioni tra più caratteri osservati sullo stesso collettivo di unità statistiche. 1

2 Il punto di partenza: la matrice dei dati Insieme di informazioni, numeri o codici alfanumerici, disposte su righe e colonne. Alle righe corrisponde un insieme omogeneo I Alle colonne corrisponde un insieme omogeneo J X1 X2 Xj Xp u1 x 11 x 12 x 1j x 1p u2 x 21 x 22 x 2j x 2p X = ui x i1 x i2 x ij x ip un x n1 x n2 x nj X np Tipi di matrici di dati: Unità x Variabili Caratteristiche: Righe e colonne non rappresentano gli stessi elementi : in riga sono rappresentate le unità di analisi, in colonna le variabili Insieme I= unità /Insieme J= Variabili Esempi : Tabella inventario Matrice di dati qualitativi Matrice di intensità Matrice di ranghi Matrice di preferenze Matrice di punteggi 2

3 Tabella inventario o matrice di dati unità/variabili Matrice di dati M np con dati di tipo misto. L applicazione di tecniche di analisi richiede la selezione e/o la parziale trasformazione delle variabili Matrice di dati qualitativi Matrice di intensità Matrice di dati Q np con caratteri di tipo qualitativo (nominale e/o ordinale). Matrice di dati I np con caratteri di tipo quantitativo (discreti e /o continui) 3

4 Matrice di preferenze Matrice di ranghi Matrice di dati P np che contiene il rango dato da ciascuna unità statistica ai caratteri osservati in base alla propria preferenza. I valori sono espressi da 1 a p, numero di entità da valutare Matrice di dati R np che contiene il rango assegnato a ciascuna unità statistica secondo l intensità assunta su ciascuno dei caratteri osservati I valori sono espressi da 1 a n, numero di unità da ordinare. Matrice di punteggi Matrice di dati P np che contiene valori discreti aventi un campo definito di variazione (es. 1-10; 1-5; 0-100) indicanti, per esempio, per ciascuna unità statistica un dato punteggio o l intensità di soddisfazione /insoddisfazione o il grado di accordo/ disaccordo) 4

5 Tipi di matrici di dati: Matrici Unità x Unità Sono matrici nxn in cui l insieme di unità I rappresentato in riga è omogeneo rispetto a quello J rappresentato in colonna. Gli elementi possono essere misure di similarità/dissimilarità fra le unità statistiche oppure di intensità di flussi in matrici di scambio Possono essere : Simmetriche se gli elementi rappresentati nel triangolo superiore alla diagonale principale sono speculari rispetto a quelle del triangolo inferiore (es. matrici di distanze geografiche) Non simmetriche : se gli elementi rappresentati nel triangolo superiore alla diagonale principale non sono speculari rispetto a quelle del triangolo inferiore Esempio di matrice unità/unità: Matrice di distanza - Quadrata: il numero di righe è uguale al numero di colonne; esse rappresentano gli stessi elementi. - Simmetrica - La diagonale principale presenta valori nulli 5

6 Esempio di matrice unità/unità: Matrice di scambio - Quadrata: il numero di righe è uguale al numero di colonne; esse rappresentano gli stessi elementi. - Non simmetrica - La diagonale principale presenta valori nulli Tipi di matrici di dati: Matrici Variabili x Variabili (pxp) Sono matrici pxp in cui l insieme di unità I rappresentato in riga è omogeneo rispetto a quello J rappresentato in colonna. Gli elementi possono essere variabili o modalità di variabili. Sono matrici di questo tipo Matrice di varianza e covarianza: i cui elementi sono indici di dispersione tra le p variabili considerate; Matrice di correlazione: i cui elementi sono indici di correlazione tra le p variabili considerate; 6

7 Esempio di matrice variabili/variabili Matrice di varianza/covarianza Matrice di correlazione - Quadrata - Simmetrica - Tutti gli elementi della diagonale principali sono uguali alla varianza di ciascuna delle p variabili. -Quadrata -Simmetrica - Tutti gli elementi della diagonale principali sono uguali a uno. Introduzione all analisi Multidimensionale 7

8 Che cosa è l Analisi Multidimensionale dei Dati? Insieme di tecniche statistiche che consentono di interpretare fenomeni complessi mediante l analisi di grandi quantità di dati I dati sottoposti ad analisi sono caratterizzati dall'osservazione congiunta di un insieme di p variabili su n unità statistiche Il concetto di dimensione viene a volte ricondotto a quello geometrico, altre volte a quello di costrutto concettuale. In tutti i casi si adotta un approccio multi-variato. Le informazioni, espresse sia in forma codificata che in linguaggio naturale, sono inserite in opportune tabelle e matrici oggetto di trattamento matematico o grafico. Lo sviluppo di queste tecniche e la loro applicazione è stata possibile grazie all avvento degli elaboratori elettronici e si sono generalizzati con la diffusione odierna dei personal computer e di adeguati software. Approccio esplorativo-descrittivo Nella sua impostazione originaria, l AMD analizza le relazioni tra le variabili sulla base degli strumenti della geometria euclidea e dell'algebra, prescindendo da qualunque assunzione probabilistica. Il suo approccio è originariamente di tipo esplorativo: si analizzano i dati per cogliere indizi utili alla formulazione di ipotesi distributive delle variabili si tratta simultaneamente con variabili numerose e spesso eterogenee riguardo al loro livello di misurazione Le tecniche di AMD possono essere dunque considerate un sottoinsieme di quello più ampio dell Analisi Multivariata che comprende anche altre tecniche di approccio non esplorativo. 8

9 Un approccio tipico di AMD: I principi della Scuola Francese dell Analyse des données 1. La statistica non è calcolo delle probabilità 2. Il modello deve seguire i dati non l inverso 3. è opportuno trattare simultaneamente informazioni concernenti il maggior numero possibile di dimensioni 4. Per l analisi dei fenomeni complessi è indispensabile il computer 5. L uso del computer implica l abbandono di ogni tecnica concepita prima dell avvento del calcolo automatico (Benzècri 1973) AMD: classificazione delle tecniche Criterio: Metrica Analisi metrica: adatta a variabili quantitative Analisi non metrica: applicabile a variabili di qualsiasi scala di misura Criterio: Simmetria Metodi simmetrici: non evidenziano direzioni causali, le relazioni tra le variabili sono considerate bidirezionali Metodi asimmetrici: evidenziare relazioni di dipendenza tra più sistemi di variabili. Le variabili osservate sono divise in variabili dipendenti e variabili predittive (o esplicative o indipendenti). Criterio: Linearità Relazioni lineari: si assume che la relazione che lega la variabile Y ad un gruppo di variabili X 1, X 2,,X k è esprimibile attraverso una funzione lineare delle variabili esplicative più un termine residuale Relazioni non lineari: si assume che la relazione sia di altro tipo (esponenziale, logaritmica, sinusoidale, polinomiale). 9

10 Alcune finalità delle tecniche di AMD Riduzione dei dati Descrizione dei dati rilevati mediante forme semplici e compatte analitiche e/o grafiche Costruzione di indici sintetici Evidenziazione strutture latenti Raggruppamento e ricerca di tipologie Definizione automatica di classi di unità più omogenee Discriminazione Identificazione delle caratteristiche che differenziano due o più insiemi di unità. Strategie di analisi Nella prassi della ricerca le tecniche di AMD vengono concatenate e possono costituire a loro volta il presupposto per l applicazione di altre tecniche. Una strategia è un processo di analisi dei dati che si avvale di un insieme di tecniche statistiche combinate tra loro in vista di determinati fini conoscitivi. Esempio di strategia Matrice dati Sintesi delle variabili Ricerca di tipologie 10

11 Tecniche multivariate di riduzione delle variabili: L analisi in componenti principali Matrice di dati: rappresentazione geometrica Ogni riga di una matrice di dati X np quantitativi può essere rappresentata come un vettore numerico a p dimensioni che indica le coordinate del puntounità nello spazio R p detto delle unità Ogni colonna di una matrice di dati X np quantitativi può essere rappresentata come un vettore numerico a n dimensioni che indica le coordinate del puntovariabile nello spazio R n detto delle variabili 11

12 Glossario: Vettore e spazio vettoriale Il piano cartesiano è un esempio di spazio vettoriale Un vettore è un punto del piano cartesiano, determinato da una coppia di numeri reali (x, y). Disegnando una freccia che parte nell'origine (0, 0) e arriva in (x, y), si ottiene il significato fisico di vettore applicato nell'origine; I vettori possono essere sommati e moltiplicati per scalari e per altri vettori. Analogamente nello spazio n-dimensionale un vettore è una ennupla di numeri reali (x 1, x 2, x n ). Esempio: nuvola di punti-unità nel piano e nello spazio p dimensionale n punti in R 2 All aumentare degli n vettori di riga x i aumenta anche la numerosità dei punti rappresentati nella nuvola dei punti-unità nello spazio R p. All aumentare dei p vettori colonna aumenta la numerosità delle dimensioni dello spaziounità e dunque la complessità dei dati in analisi. n punti in R 3 12

13 Glossario Baricentro e Inerzia totale Il baricentro di una nuvola di punti-unità è il vettore delle medie delle variabili La dispersione totale della nuvola dei punti unità intorno al loro baricentro si definisce varianza totale o inerzia totale. Essa può essere calcolata sommando gli elementi della diagonale principale (traccia) della matrice di varianza e covarianza. L analisi in componenti principali (ACP) E una tecnica di tipo fattoriale utile per ridurre la complessità, che si propone di sintetizzare le variabili: si basa sulle correlazioni esistenti tra di esse individua una serie di p fattori comuni o componenti, di importanza decrescente. Le componenti sono: combinazioni lineari delle variabili originarie, pertanto ne sintetizzano l informazione non sono correlati tra di loro. Esempi di applicazione: Quali sono le dimensioni del benessere dei comuni italiani? In quali componenti si possono sintetizzare le valutazioni attribuite dai cittadini alle funzioni amministrative degli enti locali? In quali dimensioni possono essere sintetizzate i punteggi espressi dai clienti sulle caratteristiche di un prodotto? 13

14 ACP : approccio geometrico Y 2 Geometricamente, le componenti rappresentano un nuovo sistema di coordinate ottenuto ruotando il sistema originale con p assi coordinati L obiettivo è di sceglierne un numero q p che spiegano la massima parte della varianza originaria. Nell esempio la somma delle distanze al quadrato dai punti alla retta Y 1 è minimizzata Y 1 è una combinazione lineare delle variabili originarie Correlazione e riduzione Tasso di disoccupazione r=0,976 Le caratteristiche dei punti-unità espresse dalle due variabili (le due dimensioni del piano cartesiano) possono essere riassunte da una sola dimensione (la retta) che li sintetizza. r=0,002 Non è possibile individuare una retta che riassuma le due dimensioni poiché sono indipendenti. 14

15 Uso del software : la correlaizone Esercizio: la correlazione Utilizzando il file qdv_esercio.sav: Ottenere la matrice di correlazione tra alcune variabili a scelta. Rappresentare graficamente la relazione tra due variabili che presentano un coefficiente di correlazione inferiore a 0.3 Rappresentare graficamente la relazione tra due variabili che presentano un coefficiente di correlazione superiore a 0.7. Rappresentare graficamente la relazione tra due variabili che presentano un coefficiente di correlazione negativo. Osservare le differenti configurazioni dei punti. 15

16 Analisi in Componenti Principali (ACP) : il modello A partire da un insieme di variabili quantitative originarie: X 1, X 2,, X j,, X p l ACP conduce a un insieme di variabili non osservate Y 1,Y 2,,Y q (q p) tale che ciascuna i-esima componente principale Y i sarà : Y i = w i1 X 1 + w i2 X w ip X p i=1,2, q Dove w ij sono i pesi associati ad ogni variabile per ogni componente ACP: calcolo della prima componente Si determineranno i pesi w 1j della combinazione lineare in modo da : rendere massima la varianza della componente stessa: var (Y 1 ) = max e sotto la condizione che la somma dei quadrati dei coefficienti w i1 della combinazione sia uguali a 1: 16

17 ACP: calcolo delle altre componenti La seconda componente sarà determinata con le medesime condizioni e con quella aggiuntiva che sia non-correlata con la prima, valga cioè la relazione: r (Y 1 Y 2 ) = 0 -> w 11 w 12 + w 21 w 22 + w q1 w q2 =0 Le successive componenti principali si determinano in modo analogo; si avrà quindi: e var (Y 1 ) var (Y 2 ) var (Y q ) r(y s Y k ) =0 s,k tale che s k ACP : fasi Fase 1 La matrice iniziale: variabili e trasformazioni Fase 2 La scelta del software: elaborazione Fase 3 Lettura dell output e interpretazione 17

18 Fase 1 Progettazione di una ACP Scelta delle variabili da analizzare: Le variabili devono essere quantitative. Si può optare per l uso di variabili standardizzate (scelta necessaria se si dispone di variabili espressi in differenti unità di misura) o non standardizzate. Fase 2 Esecuzione di una ACP Scelta del software: Si può fare ricorso a numerosi software statistici che dispongono di procedure adatte all applicazione dell ACP: SPSS, SAS, STATA, SPAD, NCSI... 18

19 Uso del software Spss : esecuzione ACP Fase 3 Lettura dell output e interpretazione Analisi delle variabili in input Caratteristiche dei fattori estratti: Numero e quote di varianza spiegata Comunalità Correlazioni fattori/variabili Punteggi delle variabili Punteggi delle unità Rappresentazioni grafiche 19

20 Analisi delle variabili in input L analisi delle statistiche descrittive monovariate precede l applicazione della tecnica multidimensionale e consente di controllare la eventuale esistenza di dati anomali o di casi mancanti. Test che ci consentono di stabilire se la struttura di correlazione delle variabili usate è adatta all applicazione di una analisi di tipo fattoriale. KMO ( varia da 0-1) deve essere >0.7 e prossimo a 1. Test di Bartlett significativo (con sig < 0.05). ACP: risultati La risoluzione del problema di massimo vincolato, applicato alla matrice di correlazione R (o a quella di varianza e covarianza S) tra le p variabili, conduce ad ogni passo a trovare : var (Y i ) = λ i (i=1,2, q) dove λ i è l iesimo autovalore della matrice R, pertanto per la condizione di varianza decrescente: λ 1 > λ 2 > λ 3 > λ q i coefficienti w 1i, w 2i,,w q1 sono l autovettore associato ad ogni λ i 20

21 Le caratteristiche dei fattori : numero e quote di varianza spiegata Nell ACP il numero dei fattori estraibili è pari al numero delle variabili (nel nostro esempio 10). A ciascun fattore è associato un autovalore i (eigenvalue) e una quota di varianza decrescente i / ) i (i=1,2, q) Considerando soltanto alcuni fattori la varianza spiegata è inferiore a 100. Quanti fattori considerare? Non esistono regole tassative, ma possono essere seguiti diversi criteri empirici: fissare un livello minimo di percentuale cumulata di spiegazione della varianza e considerare fattori che cumulativamente consentono di raggiungere la soglia prefissata; - Si potrebbe richiedere che i fattori tengano conto mediamente di almeno il 95% della varianza di ognuna delle p variabili originarie, cioè 0,95 p x 100 Al crescere del numero di variabili ci si può accontentare di una % minore scegliere i fattori con autovalore >1 a prescindere dalla percentuale di varianza (Kaiser) se le variabili sono standardizzate, oppure almeno pari alla varianza media ( somma degli autovalori/ p); rappresentare graficamente gli autovalori rispetto all ordine di estrazione (scree test) e collegarli con una spezzata. Si considerano rilevanti quei fattori i cui autovalori si collocano prima del punto di flesso della spezzata (Cattel). 21

22 Scree test La bontà della riduzione: la comunalità Per valutare la bontà dell operazione, che riduce il numero di dimensioni da p a q (ossia da 10 a 2), possiamo fare riferimento alla comunalità di ciascuna variabile originaria: Misura la percentuale di varianza di ciascuna variabile spiegata dalle componenti estratte 22

23 Il significato di ogni fattore : le correlazioni con le variabili I coefficienti di correlazione tra ogni fattore e le variabili originarie consentono di attribuire alla dimensione sintetica un etichetta : il segno del coefficiente indica il tipo di relazione lineare diretta (+) o inversa (-); L entità del coefficiente indica la forza della relazione. Il grafico delle componenti Se si disegna un cerchio di raggio=1, la prossimità delle variabili alla circonferenza e all asse evidenzia la correlazione prossima a 1. La lontananza indica una correlazione debole. 23

24 Esercizio ACP Utilizzando il file qdv_esercizio.sav, considerare le variabili riguardanti il tenore di vita e il tempo libero. Applicare una ACP al fine di individuare dimensioni sintetiche. Interpretare l output ottenuto, e in particolare: motivare la scelta del numero di fattori individuare le variabili meglio e peggio rappresentate nel nuovo sistema di riferimento attribuire un etichetta concettuale alle dimensioni considerate, motivando la scelta. La rotazione delle componenti Per agevolare la interpretazione delle componenti si può applicare una rotazione ortogonale degli assi fattoriali in modo da minimizzare il numero di variabili che sono fortemente correlate con ogni fattore. Il peso dei fattori è così distribuito più uniformemente e l interpretazione dei fattori è semplificata. Questo tipo di rotazione è denominata Varimax 24

25 La rotazione modifica: -l autovalore e la % di varianza spiegata da ciascuna componente; - la matrice delle componenti I punteggi fattoriali Punteggi delle variabili sui fattori Punteggi delle unità sui fattori autovettori standardizzati: w ij / ij ) 25

26 ACP: i punteggi in SPSS Il punteggio (score) di ogni componente è definito da: Y i = w i1 X 1 + w i2 X w ip X p dove w ij è il peso (autovettore) della prima componente e della iesima variabile Avendo imposto la condizione di normalizzazione i pesi hanno media nulla e varianza pari all autovalore di ogni componente. Ciò riflette l importanza di ogni componente ma presenta lo svantaggio di non rendere direttamente comparabili le diverse componenti. A tal fine si possono ricavare pesi standardizzati, con varianza unitaria, dividendo per ogni fattore l autovettore per la radice quadrata del rispettivo autovalore. SPSS adotta poi diverse procedure per calcolare i punteggi delle unità statistiche sulle componenti. Per ogni unità statistica il punteggio sul fattore è la sua coordinata nel nuovo sistema di riferimento (cfr. grafico slide precedente). Esercizio ACP Riprendendo l applicazione ACP precedente: Salvare i punteggi fattoriali delle unità di analisi Ottenere delle graduatorie decrescenti delle unità di analisi in base ai punteggi ottenuti. Ottenere un grafico fattoriale delle prime due componenti. Commentare i risultati ottenuti. 26

27 Introduzione alla Cluster analysis Tecniche e software Individuare tipologie. è uno degli scopi della classificazione Classificare vuol dire individuare differenze e somiglianze tra elementi di un insieme, distinguere - come affermava Linneo il simile dal dissimile per rendere più chiara la nostra interpretazione della realtà scegliere un punto vista su cui basare tale distinzione Nella ricerca empirica significa osservare e rilevare le modalità assunte da una o più variabili sulla base delle quale raggruppare le unità di analisi in un numero finito di gruppi, in modo tale che le unità di un gruppo siano omogenee rispetto alle variabili considerate. Nelle ricerche di mercato è utile per suddividere consumatori, prodotti, servizi o contesti territoriali in sottoinsieme omogenei. 27

28 Tecniche automatiche per individuare tipologie: Cluster Analysis (analisi dei gruppi classification automatique) La cluster analysis è un insieme di tecniche multivariate esplorative, basate sull'assunzione che le variabili e le unità statistiche possono essere considerate delle dimensioni del fenomeno studiato rappresentabili su spazi geometrici. I gruppi omogenei vengono ottenuti in modo induttivo, automaticamente (unsupervised classification), mediante l applicazione di algoritmi e non con criteri soggettivi. La classificazione a cui consente di pervenire si fonda sul concetto di prossimità (dissimilarità / similarità ) tra le diverse unità nello spazio, definito da un sistema di assi cartesiani ciascuno dei quali riporta i valori assunti da una delle variabili rilevate. Individuazione di tipologie Esempio Lombardia Emilia Romagna Veneto Trentino M arche Valle Lazio Toscana d'aosta Piemonte Friuli Liguria Umbria Ogni regione viene rappresentata sul piano come un punto che ha come coordinate i valori assunti in ognuna delle due variabili. Tanto più le regioni sono vicine sul piano tanto più sono simili rispetto alle due variabili considerate (es. Lombardia ed Emilia Romagna ; Valle d Aosta- Toscana) Abruzzo 16 Sardegna M olise 14 Calabria Puglia Campania 12 Basilicata Sicilia % pop. usa posta elettronica Tanto più le regioni sono distanti sul piano tanto più sono diverse rispetto alle due variabili considerate (es. Basilicata ed Emilia Romagna) I gruppi omogenei si possono individuare in base alla distanza : deve essere minima all interno di un gruppo e massima tra gruppi diversi. 28

29 Tipi di dati Matrice di dati Xnp Matrice di dissimilarità Xnn d(i, j) misura di dissimilarità tra dati Matrice di similarità Xnn d (i, j)=sim= misura di similarità tra dati Dissimilarità e distanza La scelta della misura di dissimilarità è fondamentale nella strategia operativa della cluster analysis ed è condizionata dal tipo di variabili sulla base dei quali si vuole effettuare la classificazione. Le misure di dissimilarità soddisfano le seguenti proprietà: 1. d (a,b)=0 se a=b (identità); 2. d(a,b) 0 se a b (non negatività) 3. d(b,a)=d(a,b) (simmetria); se a queste tre proprietà si aggiunge anche la seguente: d(a,c) <= d(ab)+d(bc) (diseguaglianza triangolare). si ottengono misure di distanza, utilizzabili per variabili quantitative. 29

30 Alcune distanze per variabili quantitative distanza euclidea (E) la distanza City Block (assoluta)o di Manhattan (AB+BC) B C E la distanza di Mahalanobis che considera le varianze e covarianze tra i caratteri considerati e consente di ottenere distanze depurate dalla interdipendenza eventualmente presente tra le variabili. A A B Matrice di distanze: esempio Matrice delle distanze Caso 5:Veneto 6:Friuli0Venezia Giuli 7:Liguria 8:Emilia Romagna 9:Toscana 10:Umbria 11:Marche 12:Lazio 13:Abruzzo 14:Molise 15:Campania Questa è una matrice di dissimilarità Distanza euclidea 6:Friuli0Ve 8:Emilia 5:Veneto nezia Giuli 7:Liguria Romagna 9:Toscana 10:Umbria 11:Marche 12:Lazio 13:Abruzzo 14:Molise 15:Campania,000 4,140 7,628 3,471 2,617 5,314 9,849 5,131 12,402 12,126 15,795 4,140,000 8,857 4,100 2,309 4,624 12,020 6,818 13,412 12,572 16,010 7,628 8,857,000 10,913 6,815 4,554 3,624 2,500 4,789 4,623 8,288 3,471 4,100 10,913,000 4,528 7,716 13,315 8,458 15,700 15,255 18,881 2,617 2,309 6,815 4,528,000 3,189 9,800 4,604 11,517 10,878 14,451 5,314 4,624 4,554 7,716 3,189,000 8,065 3,330 8,846 7,948 11,413 9,849 12,020 3,624 13,315 9,800 8,065,000 5,204 4,123 5,308 8,228 5,131 6,818 2,500 8,458 4,604 3,330 5,204,000 7,272 7,072 10,749 12,402 13,412 4,789 15,700 11,517 8,846 4,123 7,272,000 1,838 4,111 12,126 12,572 4,623 15,255 10,878 7,948 5,308 7,072 1,838,000 3,677 15,795 16,010 8,288 18,881 14,451 11,413 8,228 10,749 4,111 3,677,000 Caratteristiche: È quadrata: gli elementi in riga sono uguali a quelli in colonna E simmetrica rispetto alla diagonale principale Gli elementi della diagonale principale sono uguali a 0. 30

31 Misure di dissimilarità e similarità per dati binari Tabella di contingenza per coppie di dati binari: Coefficiente di matching semplice: Coefficiente di Jaccard: Distanza euclidea per dati binari: Le variabili categoriali possono essere trasformate in variabili binarie e si possono utilizzare queste stesse misure. Cluster analysis : tipi di tecniche Cluster gerarchica aggregativa: Utilizza algoritmi che partendo da un numero n di gruppi pari al numero dei casi, attraverso un procedimento iterativo di n-1 passaggi, conduce ad un gruppo unico in cui sono raggruppati tutti i casi originari. Genera un albero di aggregazione o dendrogramma. Cluster analysis non gerarchica: parte da una situazione di un numero di gruppi predeterminato a priori e giunge ad una partizione che ottimizza (utilizzando una funzione obiettivo) la suddivisione in gruppi. conduce a un'unica partizione dei dati da analizzare, comporta pertanto ipotesi precise circa le modalità di strutturazione del collettivo statistico considerato e,a volte, la scelta delle unità intorno alle quali aggregare le altre unità del gruppo. Si utilizza soprattutto quando le unità in analisi sono molto numerose. Tecniche miste: che utilizzano sia algoritmi gerarchici che non gerarchici. 31

32 Cluster Analysis: fasi Fase 1 Fase 2 Fase 3 La matrice iniziale La scelta del software e dell algoritmo: elaborazione Lettura dell output e interpretazione Fase 4 Descrizione dei gruppi ottenuti Fase 1 Progettazione di una Cluster Analysis: la matrice iniziale Scelta delle variabili in base alle quali raggruppare le unità statistiche: Le variabili possono essere quantitative o qualitative. Se le variabili sono quantitative si può optare per l uso di variabili standardizzate o non standardizzate. Il tipo di variabili incide sul tipo di misura di prossimità (similarità o dissimilarità) da utilizzare Il numero delle unità statistiche incide sul tipo di tecnica (gerarchica o non gerarchica) di cluster adottabile. 32

33 Fase 2 Uso del software : Cluster analysis Cluster gerarchica: si possono calcolare le distanze -Tra due unità statistiche Tra una unità ed un gruppo di unità Lombardia Emilia Romagna Veneto Trentino Tra due gruppi di unità M arche Valle Lazio Toscana d'aosta Piemonte Friuli Liguria Umbria Abruzzo Sardegna M olise Calabria Puglia Campania Basilicata Sicilia Si possono adottare diverse soluzioni per misurare le distanze tra gruppi di unità, considerando: le distanze fra le medie dei gruppi (group means) le distanze fra le loro unità più vicine (nearest neighbour) le distanze fra le loro unità più lontane (furthest neighbour) La media delle distanze fra tutte le unità di un gruppo e tutte quelle dell altro (group average) % pop. usa posta elettronica 33

34 Cluster gerarchica : algoritmo Matrice dati Input: N Unità x p indicatori Scelta della misura di distanza: - tra unità - tra gruppi Matrice distanze D=min Formazione gruppo si no C=N-1? Un gruppo di N unità Le differenti misure di distanza tra gruppi caratterizzano diversi metodi di cluster gerarchica aggregativa Fase 2 Uso del software:cluster gerarchica 34

35 Cluster gerarchica aggregativa Alcuni metodi di raggruppamento Metodo del legame singolo (nearest neighbour ) : la distanza tra il gruppo A e il gruppo B è la distanza minore tra le unità del gruppo A e quelle del gruppo B. I gruppi che si ottengono hanno forma allungata a losanga. Metodo del legame completo (furthest neighbour ): la distanza tra il gruppo A e il gruppo B è la distanza maggiore le unità del gruppo A e quelle del gruppo B. I gruppi che si ottengono hanno forma circolare. Cluster gerarchica aggregativa Alcuni metodi di raggruppamento Metodo legame medio fra i gruppi: considera la media di tutte le distanze possibili tra i casi all'interno di un cluster nuovo singolo determinato dalla combinazione di un cluster A e di un cluster B. Metodo della media entro i gruppi: la distanza tra il gruppo A e il gruppo B è data dalla media aritmetica delle distanze tra ogni unità del gruppo A e ogni unità del gruppo B. Metodo di Ward: Per ogni gruppo viene calcolata la media di tutte le variabili Viene poi calcolata la distanza euclidea di ogni unità dalla media del gruppo Vengono sommati i quadrati delle distanze per tutte le unità Ad ogni step di aggregazione vengono fusi i gruppi per i quali risulta minimo l'incremento della somma dei quadrati delle distanze all'interno del gruppo. 35

36 d i m e n s i o n 0 Fase 3 Lettura dell output Programma di agglomerazione e dendrogramma Programma di agglomerazione Il processo di agglomerazione delle unità indica i vari step con cui le unità vengono aggregate in corrispondenza a un indice di distanza che aumenta al crescere dei passi di agglomerazione. Il dendrogramma rappresenta graficamente tale processo. Stadio Cluster accorpati Stadio di formazione del cluster Stadio Coefficienti Cluster 1 Cluster 2 Cluster 1 Cluster 2 successivo , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , Tagliare un dendrogramma (albero di aggregazione) 3 gruppi 4 gruppi 5 gruppi 36

37 Quali criteri adottare per tagliare un dendrogramma? Sezionare l albero all altezza del massimo salto tra i livelli di distanza a cui sono avvenute le aggregazioni g+1 d- g d=max Sezionare l albero dove si trovano i gruppi coesi, applicando test statistici ad hoc (es: test di Beale, lambda di Wilks, ecc.) La valutazione di un gruppo è effettuata sia riguardo alle proprietà statistiche sia in termini sostanziali, analizzando cioè le caratteristiche dei gruppi ottenuti. Fase 4 Descrizione dei gruppi L intervallo di soluzioni salvato genera nella matrice nuove variabili categoriali che indicano per ciascuna unità statistica l appartenenza ai gruppi ottenuti nelle diverse soluzioni. Queste nuove variabili possono essere utilizzate per descrivere mediante ulteriori analisi le caratteristiche dei gruppi ottenuti. 37

38 Esercizio: Applicazione di una cluster gerarchica Utilizzando il file regioni.sav, applicare una tecnica di Cluster gerarchica aggregativa su variabili standardizzate. Ispezionare il dendrogramma Reiterare l analisi salvando l appartenenza ai gruppi in corrispondenza della partizione ritenuta ottimale. Descrivere i gruppi ottenuti. Strategia di analisi per l individuazione di tipologie Scelta di una o più variabili, indicatori di un fenomeno Individuazione di unità aventi caratteristiche simili rispetto agli indicatori considerati: tipi o gruppi omogenei [ Scelte da effettuare: tipo di cluster analysis, misure di prossimità tra unità e tra gruppi, numero di gruppi,.] Descrizione dei gruppi sulla base degli indicatori iniziali e di altre variabili che agevolano l interpretazione 38

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2016-2017 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

LA MATRICE DEGLI INDICATORI SOCIALI

LA MATRICE DEGLI INDICATORI SOCIALI LA MATRICE DEGLI INDICATORI SOCIALI CORSO DI METODI DI INDAGINE E VALUTAZIONE NELLE SCIENZE SOCIALI La sintesi degli indicatori X n, m x L x L x L L L L L xi 1 L xij L x L L L L L x L x L x 11 1 j 1m im

Dettagli

Analisi delle corrispondenze

Analisi delle corrispondenze Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2018-2019 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it ANALISI DELLE CORRISPONDENZE (cap. VII) Problema della riduzione delle dimensioni L ANALISI DELLE COMPONENTI PRINCIPALI

Dettagli

Indici di variabilità relativa

Indici di variabilità relativa Fonti e strumenti statistici per la comunicazione Prof.ssa Isabella Mingo A.A. 2014-2015 Indici di variabilità relativa Consentono di effettuare confronti sulla variabilità di fenomeni che presentano unità

Dettagli

Stesso valore medio per distribuzioni diverse

Stesso valore medio per distribuzioni diverse Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2018-2019 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 015-016 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per la

Dettagli

Rappresentazione dei dati multivariati

Rappresentazione dei dati multivariati Rappresentazione dei dati multivariati Quando si hanno più di due varabili la posizione di ciascuna unità rispetto alle altre può essere rappresentata nel diagramma relativo alle prime due CP l importanza

Dettagli

COGNOME E NOME MATR. ANALISI DEI DATI PER IL MARKETING novembre 2008.

COGNOME E NOME MATR. ANALISI DEI DATI PER IL MARKETING novembre 2008. COGNOME E NOME MATR. ANALISI DEI DATI PER IL MARKETING novembre 2008. ESERCIZIO I Si è applicata l analisi delle componenti principali a 97 modelli di fotocamere digitali, considerando 7 variabili ed ottenendo

Dettagli

SDE Marco Riani

SDE Marco Riani SDE 208 Marco Riani mriani@unipr.it http://www.riani.it RIDUZIONE DELLE DIMENSIONI (con riferimento alle variabili Analisi dei fattori Analisi delle componenti principali OBIETTIVI Date p variabili (correlate

Dettagli

Statistica multivariata 27/09/2016. D.Rodi, 2016

Statistica multivariata 27/09/2016. D.Rodi, 2016 Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche

Dettagli

Dr. Marco Vicentini Anno Accademico Rev 02/04/2011

Dr. Marco Vicentini Anno Accademico Rev 02/04/2011 Università degli Studi di Padova Facoltà di Psicologia, L4, Psicometria, Modulo B Dr. Marco Vicentini marco.vicentini@unipd.it Anno Accademico 2010 2011 Rev 02/04/2011 Tabelle di contingenza Percentuali

Dettagli

TECNICHE DI POSIZIONAMENTO

TECNICHE DI POSIZIONAMENTO TECNICHE DI POSIZIONAMENTO Discriminant analysis: definizione di n (generalmente 2) funzioni lineari discriminanti, basate su valutazioni quantitative di attributi, utilizzate per posizionare oggetti (marche,

Dettagli

ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM)

ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM) ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM) Questa procedura è stata introdotta negli anni 70, ad opera della scuola francese di analisi dei dati (Benzecri). Inizialmente fu proposta per analizzare tabelle

Dettagli

Indicatori compositi. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Indicatori compositi. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Indicatori [1/4] Gli indicatori: sintetizzano le caratteristiche di un fenomeno colgono aspetti e problemi del fenomeno che non hanno una immediata

Dettagli

Analisi in Componenti Principali (ACP)

Analisi in Componenti Principali (ACP) Analisi in Componenti Principali (ACP) Metodi di analisi fattoriale Obiettivo: individuazione di variabili di sintesi = dimensioni = variabili latenti = variabili non osservate Approccio: Ordinamenti tra

Dettagli

REGISTRO DELLE LEZIONI

REGISTRO DELLE LEZIONI UNIVERSITÀ DEGLI STUDI DI GENOVA Dipartimento di Matematica Corso di laurea in Statistica matematica e trattamento informatico dei dati REGISTRO DELLE LEZIONI dell INSEGNAMENTO o MODULO UFFICIALE Nome:

Dettagli

Analisi delle corrispondenze

Analisi delle corrispondenze Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello

Dettagli

REGISTRO DELLE LEZIONI

REGISTRO DELLE LEZIONI UNIVERSITÀ DEGLI STUDI DI GENOVA Dipartimento di Matematica Corso di laurea in Statistica matematica e trattamento informatico dei dati REGISTRO DELLE LEZIONI dell INSEGNAMENTO o MODULO UFFICIALE Nome:

Dettagli

Alcuni concetti geometrici

Alcuni concetti geometrici Alcuni concetti geometrici spazio Euclideo bidimensionale X P x 1 x 1 x x 11 x 1 x 1 x x 1 P 1 P 1 (x 11, x 1 ) P (x 1, x ) O x 11 x 1 X 1 O (0, 0) In generale,, in uno spazio Euclideo p-dimensionale il

Dettagli

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione : analisi delle relazioni tra due caratteristiche osservate sulle stesse unità statistiche studio del comportamento di due caratteri

Dettagli

ANALISI MULTIDIMENSIONALE DEI DATI (AMD)

ANALISI MULTIDIMENSIONALE DEI DATI (AMD) ANALISI MULTIDIMENSIONALE DEI DATI (AMD) L Analisi Multidimensionale dei Dati (AMD) è una famiglia di tecniche il cui obiettivo principale è la visualizzazione, la classificazione e l interpretazione della

Dettagli

Consideriamo due variabili quantitative Y e X, e supponiamo di essere interessati a comprendere come la Y

Consideriamo due variabili quantitative Y e X, e supponiamo di essere interessati a comprendere come la Y 1 Analisi della interdipendenza lineare Quando si analizzano due o più caratteri quantitativi si può cercare di individuare una funzione che descriva in modo dettagliato la relazione che emerge dai dati,

Dettagli

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi

Dettagli

SDE Marco Riani

SDE Marco Riani SDE 2017 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis (analisi dei gruppi) ANALISI DISCRIMINANTE

Dettagli

Fondamenti e metodi analisi empirica nelle scienze sociali

Fondamenti e metodi analisi empirica nelle scienze sociali CORSO DI FONDAMENTI E METODI PER L'ANALISI EMPIRICA NELLE SCIENZE SOCIALI Distribuzioni statistiche multiple AA 2017/2018 1. Introduzione: il processo di rilevazione e le distribuzioni statistiche. 2.

Dettagli

Scopo dello studio. Metodi

Scopo dello studio. Metodi Ci si può fidare dei risultati dell analisi delle componenti principali? Ricci C, Milani S Istituto di Statistica Medica e Biometria G.A. Maccacaro Facoltà di Medicina e Chirurgia, Università degli Studi

Dettagli

Corso in Statistica Medica

Corso in Statistica Medica Corso in Statistica Medica Introduzione alle tecniche statistiche di elaborazione dati Regressione e correlazione Dott. Angelo Menna Università degli Studi di Chieti G. d Annunziod Annunzio Anno Accademico

Dettagli

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y ) Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 0/03 lezioni di statistica del 5 e 8 aprile 03 - di Massimo Cristallo - A. Le relazioni tra i fenomeni

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 07-Coefficienti di correlazione vers. 1.0 (29 ottobre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Analisi delle componenti principali

Analisi delle componenti principali Analisi delle componenti principali Serve a rappresentare un fenomeno k-dimensionale tramite un numero inferiore o uguale a k di variabili incorrelate, ottenute trasformando le variabili osservate Consiste

Dettagli

Unità Carattere Modalità

Unità Carattere Modalità Unità Carattere Modalità Unità statistica: unità elementare del collettivo oggetto di studio Carattere: è ogni aspetto del fenomeno oggetto di studio osservabile su un insieme di unità statistiche Modalità:

Dettagli

Matematica Lezione 22

Matematica Lezione 22 Università di Cagliari Corso di Laurea in Farmacia Matematica Lezione 22 Sonia Cannas 14/12/2018 Indici di posizione Indici di posizione Gli indici di posizione, detti anche misure di tendenza centrale,

Dettagli

Misure di diversità tra unità statistiche. Loredana Cerbara

Misure di diversità tra unità statistiche. Loredana Cerbara Misure di diversità tra unità statistiche Loredana Cerbara LA DISTANZA IN STATISTICA In statistica la distanza ha un significato diverso da quello che si può intuire in altre discipline, dove, peraltro,

Dettagli

Statistica per l Impresa

Statistica per l Impresa Statistica per l Impresa a.a. 207/208 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 2 maggio 208 Indice Analisi dei Gruppi: Introduzione Misure di distanza e indici di similarità 3. Metodi gerarchici

Dettagli

A.A. 2014/2015 Corso di Algebra Lineare

A.A. 2014/2015 Corso di Algebra Lineare A.A. 2014/2015 Corso di Algebra Lineare Stampato integrale delle lezioni Massimo Gobbino Indice Lezione 01: Vettori geometrici nel piano cartesiano. Operazioni tra vettori: somma, prodotto per un numero,

Dettagli

Statistica descrittiva

Statistica descrittiva Luigi Vajani Statistica descrittiva r,,, I o -:i f e l ~ 1 (f"i I - / I I - ETASLIBRI Indice XIII Presentazione Parte prima - Introduzione 3 Capitolo 1 - Concetti generali 1.1 - Introduzione; l.2 - La

Dettagli

Analisi dei dati per la comunicazione

Analisi dei dati per la comunicazione Analisi dei dati per la comunicazione La costruzione e l uso di misure relative semplici e complesse Prof.ssa Isabella Mingo A.A. 2014-2015 La costruzione di indici complessi: fasi In definitiva, la costruzione

Dettagli

Statistica per l Impresa

Statistica per l Impresa Statistica per l Impresa a.a. 2017/2018 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 23 aprile 2018 Indice 1. Analisi dei Gruppi: Introduzione 2. Misure di distanza e indici di similarità 3.

Dettagli

Analisi Multivariata Prova intermedia del 20 aprile 2011

Analisi Multivariata Prova intermedia del 20 aprile 2011 Analisi Multivariata Prova intermedia del 20 aprile 20 Esercizio A Sia X N 3 (µ, Σ) con µ = [ 3,, 4] e 2 0 Σ = 2 5 0 0 0 2 Quali delle seguenti variabili casuali è indipendente? Motivare la risposta. A.

Dettagli

Teoria e tecniche dei test. Concetti di base

Teoria e tecniche dei test. Concetti di base Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi

Dettagli

Analisi esplorativa di dati multidimensionali

Analisi esplorativa di dati multidimensionali io e Luigi Fabbris Analisi esplorativa di dati multidimensionali 'CENTRO " G. ASTENGO» cleup editore INVENTARIO 2B6 c., INDICE DEI CONTENUTI -~ Cap. 1 L'analisi dei dati nella ricerca sociale pag. I 1.1.

Dettagli

La matrice delle correlazioni è la seguente:

La matrice delle correlazioni è la seguente: Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA

Dettagli

Statistica per l Impresa

Statistica per l Impresa Statistica per l Impresa a.a. 2017/2018 Tecniche di Analisi Multidimensionale L analisi delle componenti principali 14 maggio 2018 Introduzione L Obiettivo dell ACP L Analisi delle Componenti Principali

Dettagli

Varianza totale e generalizzata Analisi Esplorativa

Varianza totale e generalizzata Analisi Esplorativa Varianza totale e generalizzata Analisi Esplorativa Aldo Solari 1 / 49 1 Varianza totale 2 Varianza generalizzata 3 Appendice 2 / 49 Variabilità Nel caso p = 1, la variabilità (o dispersione) presente

Dettagli

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici) Statistica La statistica può essere vista come la scienza che organizza ed analizza dati numerici per fini descrittivi o per permettere di prendere delle decisioni e fare previsioni. Statistica descrittiva:

Dettagli

Psicometria con Laboratorio di SPSS 2

Psicometria con Laboratorio di SPSS 2 Psicometria con Laboratorio di SPSS 2 Esempio di fattoriale esplorativa (v. 1.1, 12 aprile 2018) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2017-18

Dettagli

7. STATISTICA DESCRITTIVA

7. STATISTICA DESCRITTIVA 7. STATISTICA DESCRITTIVA Quando si effettua un indagine statistica si ha a che fare con un numeroso insieme di oggetti, detto popolazione del quale si intende esaminare una o più caratteristiche (matricole

Dettagli

Elementi di Statistica

Elementi di Statistica Università degli Studi di Palermo Dipartimento di Ingegneria Informatica Informatica ed Elementi di Statistica 3 c.f.u. Anno Accademico 2010/2011 Docente: ing. Salvatore Sorce Elementi di Statistica Statistica

Dettagli

Cluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca

Cluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca Cluster Analysis Distanze ed estrazioni M Q Marco Perugini Milano-Bicocca 1 Scopi Lo scopo dell analisi dei Clusters è di raggruppare casi od oggetti sulla base delle loro similarità in una serie di caratteristiche

Dettagli

I metodi di Classificazione automatica

I metodi di Classificazione automatica L Analisi Multidimensionale dei Dati Una Statistica da vedere I metodi di Classificazione automatica Matrici e metodi Strategia di AMD Anal Discrimin Segmentazione SI Per riga SI Matrice strutturata NO

Dettagli

Analisi statistica e matematico-finanziaria II. Alfonso Iodice D Enza Università degli studi di Cassino e del Lazio Meridionale

Analisi statistica e matematico-finanziaria II. Alfonso Iodice D Enza Università degli studi di Cassino e del Lazio Meridionale delle sui delle Analisi statistica e matematico-finanziaria II Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino e del Lazio Meridionale sulle particolari ali dei dati Outline

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Associazione, correlazione e dipendenza tra caratteri In un collettivo di 11 famiglie è stata

Dettagli

SDE Marco Riani

SDE Marco Riani SDE 018 Marco Riani mriani@uniprit http://wwwrianiit ANALISI DELLE CORRISPONDENZE Problema della riduzione delle dimensioni L ANALISI DELLE COMPONENTI PRINCIPALI per una matrice di dati quantitativi L

Dettagli

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci La statistica Elaborazione e rappresentazione dei dati Gli indicatori statistici Introduzione La statistica raccoglie ed analizza gruppi di dati (su cose o persone) per trarne conclusioni e fare previsioni

Dettagli

Indice. L Editore ringrazia. Ringraziamenti. Autori. Prefazione. Obiettivi formativi XIII XVII

Indice. L Editore ringrazia. Ringraziamenti. Autori. Prefazione. Obiettivi formativi XIII XVII Indice XI XI XIII XV XVII L Editore ringrazia Ringraziamenti Autori Prefazione Obiettivi formativi XIX Istruzioni per gli studenti XIX Un po di storia XX Cosa è la Statistica XXI Come usare questo libro

Dettagli

Statistica multivariata! Analisi fattoriale

Statistica multivariata! Analisi fattoriale Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Statistica multivariata! Analisi

Dettagli

Esplorazione grafica di dati multivariati. N. Del Buono

Esplorazione grafica di dati multivariati. N. Del Buono Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)

Dettagli

Analisi in componenti principali

Analisi in componenti principali Capitolo 2 Analisi in componenti principali 2.1 Introduzione L analisi in componenti principali è una tecnica di analisi multivariata tra le più diffuse. Viene utilizzata quando nel dataset osservato sono

Dettagli

Analisi multivariata per osservazioni appaiate. Analisi multivariata per osservazioni appaiate

Analisi multivariata per osservazioni appaiate. Analisi multivariata per osservazioni appaiate Introduzione Notazione Modello additivo Verifica d ipotesi Sia X una variabile q-dimensionale, a valori reali, non degenere, osservata in k tempi diversi (τ 1, τ 2,..., τ k ), sulle stesse n unità statistiche

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 016-017 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per la

Dettagli

Prova scritta di ASM - Modulo Analisi Esplorativa del

Prova scritta di ASM - Modulo Analisi Esplorativa del Cognome:... Nome:... Matricola:......... Prova scritta di ASM - Modulo Analisi Esplorativa del 14.02.2017 La durata della prova è di 90 minuti. Si svolgano gli esercizi A e B riportando il risultato dove

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2015-2016 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

PROGRAMMA DEL CORSO DI GEOMETRIA E ALGEBRA. A.A

PROGRAMMA DEL CORSO DI GEOMETRIA E ALGEBRA. A.A PROGRAMMA DEL CORSO DI GEOMETRIA E ALGEBRA. A.A. 2011-12 DOCENTE TITOLARE: FRANCESCO BONSANTE 1. Geometria analitica dello spazio (1) vettori applicati e lo spazio E 3 O: operazioni su vettori e proprietà.

Dettagli

Copyright Esselibri S.p.A.

Copyright Esselibri S.p.A. 70 3000 500 000 1500 1000 500 A B C D (a) Capitolo Terzo A B C D 500 1000 1500 000 5003000 3500 Fig. 1 - Ortogramma a colonne (a) e ortogramma a nastri (b) 4. MISURE DI ASSOCIAZIONE E DI COGRADUAZIONE

Dettagli

Analisi Multivariata Prova finale del 3 giugno 2010

Analisi Multivariata Prova finale del 3 giugno 2010 Analisi Multivariata Prova finale del 3 giugno 2010 Esercizi da svolgere con carta e penna Esercizio A A1 Descrivere brevemente qual è l obiettivo principale dell analisi fattoriale. A2 Scrivere il modello

Dettagli

Statistica Economica Capitolo 2

Statistica Economica Capitolo 2 Statistica Economica Capitolo 2 Prof. Alessandra Michelangeli a.a. 2013-2014 Argomenti della seconda settimana di lezioni Distribuzione di un carattere e sua rappresentazione grafica Distribuzioni unitarie

Dettagli

REGRESSIONE E CORRELAZIONE

REGRESSIONE E CORRELAZIONE REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.

Dettagli

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 4 Analisi Bivariata I Parte

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 4 Analisi Bivariata I Parte Metodi Quantitativi per Economia, Finanza e Management Lezione n 4 Analisi Bivariata I Parte Statistica descrittiva bivariata Indaga la relazione tra due variabili misurate. Si distingue rispetto alla

Dettagli

ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante.

ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante. ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante. Test di uguaglianza delle medie di gruppo SELF_EFF COLL_EFF COIN_LAV IMPEGNO SODDISF CAP_IST COLLEGHI Lambda di Wilks

Dettagli

Capitolo 1. Analisi Discriminante. 1.1 Introduzione. 1.2 Un analisi discriminante Descrizione del dataset

Capitolo 1. Analisi Discriminante. 1.1 Introduzione. 1.2 Un analisi discriminante Descrizione del dataset Capitolo 1 Analisi Discriminante 1.1 Introduzione L analisi discriminante viene condotta per definire una modalità di assegnazione dei casi a differenti gruppi, in funzione di una serie di variabili fra

Dettagli

Statistica multivariata Donata Rodi 21/11/2016

Statistica multivariata Donata Rodi 21/11/2016 Statistica multivariata Donata Rodi 21/11/2016 PCA Tecnica di riduzione delle dimensioni che descrive la struttura multivariata dei dati per analisi descrittive e inferenziali Descrive la variazione di

Dettagli

62 CAPITOLO 3. STATISTICA DESCRITTIVA

62 CAPITOLO 3. STATISTICA DESCRITTIVA 62 CAPITOLO 3. STATISTICA DESCRITTIVA Raccogliamo su una popolazione di n individui i dati relativi a m caratteri (variabili) e riportiamoli in una matrice, dove le righe (n) sono relative ad individui

Dettagli

ANALISI DEI CLUSTER. In questo documento presentiamo alcune opzioni analitiche della procedura di analisi de cluster di

ANALISI DEI CLUSTER. In questo documento presentiamo alcune opzioni analitiche della procedura di analisi de cluster di ANALISI DEI CLUSTER In questo documento presentiamo alcune opzioni analitiche della procedura di analisi de cluster di SPSS che non sono state incluse nel testo pubblicato. Si tratta di opzioni che, pur

Dettagli

Analisi delle relazioni

Analisi delle relazioni Analisi delle relazioni Corso di statistica sociale prof. Natale Carra - Università degli Studi di Bergamo Facoltà di Lingue e Letterature straniere a. a. 2012-13 Potremmo dire che la statistica ci aiuta

Dettagli

Relazioni Statistiche

Relazioni Statistiche Relazioni Statistiche L analisi congiunta di due o più caratteri è utile per studiare le relazioni tra di essi. Analisi dell associazione Indipendenza Interdipendenza Dipendenza Tipi di relazioni tra caratteri

Dettagli

Statistica. Matematica con Elementi di Statistica a.a. 2017/18

Statistica. Matematica con Elementi di Statistica a.a. 2017/18 Statistica La statistica è la scienza che organizza e analizza dati numerici per fini descrittivi o per permettere di prendere delle decisioni e fare previsioni. Statistica descrittiva: dalla mole di dati

Dettagli

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011 Intelligenza Artificiale Clustering Francesco Uliana 14 gennaio 2011 Definizione Il Clustering o analisi dei cluster (dal termine inglese cluster analysis) è un insieme di tecniche di analisi multivariata

Dettagli

Dispense Associazione PRELIMINARY DRAFT

Dispense Associazione PRELIMINARY DRAFT Dispense Associazione PRELIMINARY DRAFT Cristina Mollica & Jan Martin Rossi January 3, 2019 1 Esercizio 3 - Prova scritta 12-01-2018 Esercizio 3. Si consideri la distribuzione doppia di un campione di

Dettagli

Alfonso Iodice D Enza

Alfonso Iodice D Enza Strumenti quantitativi per l economia e la finanza I Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino e del Lazio Meridionale ali dei Il coefficiente () Statistica 1 / 50 Outline

Dettagli

L'analisi monovariata

L'analisi monovariata L'analisi monovariata Prof. Stefano Nobile Corso di Metodologia della ricerca sociale Concetti introduttivi: analisi mono-, bi- e multivariata ANALISI MONOVARIATA Una tecnica di analisi di dice monovariata

Dettagli

Istituto Tecnico Tecnologico Leonardo da Vinci Foligno

Istituto Tecnico Tecnologico Leonardo da Vinci Foligno Curricolo di Matematica Triennio Classi Terze Competenze Abilità Conoscenze Saper risolvere triangoli rettangoli e triangoli qualunque. Saper applicare i teoremi studiati per risolvere problemi di geometria

Dettagli

Esercitazioni di statistica

Esercitazioni di statistica Esercitazioni di statistica Misure di associazione: Indipendenza assoluta e in media Stefania Spina Universitá di Napoli Federico II stefania.spina@unina.it 22 ottobre 2014 Stefania Spina Esercitazioni

Dettagli

Sequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di:

Sequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di: Teoria dei Fenomeni Aleatori AA 01/13 Sequenze (Sistemi) di Variabili Aleatorie Se consideriamo un numero di variabili aleatorie, generalmente dipendenti si parla equivalentemente di: N-pla o Sequenza

Dettagli

Esercizi del 10 maggio 2012 da riconsegnare il 17 maggio 2012

Esercizi del 10 maggio 2012 da riconsegnare il 17 maggio 2012 Analisi Multivariata Esercizi del 10 maggio 2012 da riconsegnare il 17 maggio 2012 La Tabella 1 contiene la classificazione in base alla qualifica e all abitudine al fumo di 193 dirigenti e impiegati di

Dettagli

Statistica. Matematica con Elementi di Statistica a.a. 2015/16

Statistica. Matematica con Elementi di Statistica a.a. 2015/16 Statistica La statistica è la scienza che organizza e analizza dati numerici per fini descrittivi o per permettere di prendere delle decisioni e fare previsioni. Statistica descrittiva: dalla mole di dati

Dettagli

Stabilità per i sistemi dinamici a tempo discreto

Stabilità per i sistemi dinamici a tempo discreto Parte 3, 1 Stabilità per i sistemi dinamici a tempo discreto Parte 3, 2 Stabilità: Le definizioni delle proprietà di stabilità per i sistemi dinamici a tempo discreto sono analoghe a quelle viste per i

Dettagli

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica Regressione Lineare e Correlazione Argomenti della lezione Determinismo e variabilità Correlazione Regressione Lineare

Dettagli

Prova finale del 6 giugno 2011

Prova finale del 6 giugno 2011 Prova finale del 6 giugno 2011 Esercizio A, da svolgere con carta e penna Si consideri la seguente matrice dei dati relativa a 3 unità statistiche e 3 variabili, X 1 e X 2 quantitative, X 3 dicotomica.

Dettagli

Rappresentazioni Tabellari e Grafiche. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica

Rappresentazioni Tabellari e Grafiche. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica Rappresentazioni Tabellari e Grafiche Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica Vocabolario Essenziale Unità Statistica Unità elementare

Dettagli

Metodi Probabilistici e Statistici per l Analisi dei Dati. Prof. V. Simoncini. Testi di Riferimento

Metodi Probabilistici e Statistici per l Analisi dei Dati. Prof. V. Simoncini. Testi di Riferimento Metodi Probabilistici e Statistici per l Analisi dei Dati Prof. V. Simoncini e-mail: valeria@dm.unibo.it, valeria@ambra.unibo.it Testi di Riferimento Lucidi di Lezione (http://www.dm.unibo.it/ ~simoncin/datiii.html)

Dettagli

Indice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75

Indice. Prefazione. 4 Sintesi della distribuzione di un carattere La variabilità Introduzione La variabilità di una distribuzione 75 00PrPag:I-XIV_prefazione_IAS 8-05-2008 17:56 Pagina V Prefazione XI 1 La rilevazione dei fenomeni statistici 1 1.1 Introduzione 1 1.2 Caratteri, unità statistiche e collettivo 1 1.3 Classificazione dei

Dettagli

SCUOLA PRIMARIA MATEMATICA (Classe 1ª)

SCUOLA PRIMARIA MATEMATICA (Classe 1ª) SCUOLA PRIMARIA MATEMATICA (Classe 1ª) Operare con i numeri nel calcolo scritto e mentale Leggere e scrivere numeri naturali in cifre e lettere. Contare in senso progressivo e regressivo. Raggruppare,

Dettagli

Distanze Analisi Esplorativa

Distanze Analisi Esplorativa Distanze Analisi Esplorativa Aldo Solari 1 / 57 1 Distanze 2 Distanza di Mahalanobis 3 Distanze e trasformazioni lineari 4 Indici di similarità 2 / 57 Raggruppamento di unità statistiche L analisi di raggruppamento

Dettagli

PROGRAMMA DEL CORSO DI GEOMETRIA E ALGEBRA. A.A

PROGRAMMA DEL CORSO DI GEOMETRIA E ALGEBRA. A.A PROGRAMMA DEL CORSO DI GEOMETRIA E ALGEBRA. A.A. 2010-11 DOCENTE TITOLARE: FRANCESCO BONSANTE 1. Geometria analitica dello spazio (1) vettori applicati e lo spazio E 3 O: operazioni su vettori e proprietà.

Dettagli

ITI M. FARADAY PROGRAMMAZIONE DIDATTICA A.s CLASSI: QUARTE Materia: MATEMATICA e COMPLEMENTI Ore settimanali previste: 4 Matematica

ITI M. FARADAY PROGRAMMAZIONE DIDATTICA A.s CLASSI: QUARTE Materia: MATEMATICA e COMPLEMENTI Ore settimanali previste: 4 Matematica CLASSI: QUARTE Materia: MATEMATICA e COMPLEMENTI Ore settimanali previste: 4 Matematica MACRO UNITA' PREREQUISITI TITOLO UNITÀ DI APPRENDIMENTO COMPETENZE ORE PREVISTE PERIODO EQUAZIONI E DISEQUAZIONI

Dettagli

Analisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca

Analisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca Analisi Fattoriale Concetti introduttivi A M D Marcello Gallucci Milano-Bicocca Scopi generali L Analisi Fattoriale (e varianti) si propone di estrarre un numero limitato di fattori (variabili latenti

Dettagli