ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM)

Похожие документы
Analisi delle corrispondenze

La matrice delle correlazioni è la seguente:

ANALISI DEI DATI PER IL MARKETING 2014

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

REGRESSIONE E CORRELAZIONE

ANALISI MULTIDIMENSIONALE DEI DATI (AMD)

Geometria analitica di base. Equazioni di primo grado nel piano cartesiano Funzioni quadratiche Funzioni a tratti Funzioni di proporzionalità inversa

TECNICHE DI POSIZIONAMENTO

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 3

Geometria analitica di base (seconda parte)

SCOPO DELL ANALISI DI CORRELAZIONE

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

INDICATORI DI TENDENZA CENTRALE

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 5

Applicazioni statistiche e utilizzo del package statistico Spss - 7

INDICATORI DI TENDENZA CENTRALE

Università del Piemonte Orientale Specializzazioni di area sanitaria Statistica Medica

Anno scolastico 2015/2016 PROGRAMMA SVOLTO. Docente: Catini Romina. Materie: Matematica. Classe : 4 L Indirizzo Scientifico Scienze Applicate

INDICATORI DI TENDENZA CENTRALE

Disequazioni di secondo grado

EQUAZIONE DELLA RETTA

Associazione tra caratteri quantitativi: gli indici di correlazione

Analisi in componenti principali

La fattibilità dei progetti

UNITÀ DIDATTICA 5 LA RETTA

ESERCIZIO 1. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con 3 fattori tra i soggetti.

standardizzazione dei punteggi di un test

CURRICOLO VERTICALE PER COMPETENZE DISCIPLINARI. Scuola Secondaria di Primo Grado Matematica -

1 4 Esempio 2. Si determini la distribuzione di probabilità della variabile casuale X = punteggio ottenuto lanciando un dado. Si ha immediatamente:

PROGRAMMA di MATEMATICA A. S. 2015/16 PRIVATISTI CLASSE PRIMA Aritmetica: Gli insiemi numerici N, Z, Q con le operazioni e le proprietà.

Quadro riassuntivo di geometria analitica

matematica classe terza Liceo scientifico

La statistica. Elaborazione e rappresentazione dei dati Gli indicatori statistici. Prof. Giuseppe Carucci

Elementi di Statistica

In un triangolo un lato è maggiore della differenza degli altri due, pertanto dal triangolo si ha > dividendo per =1.

Prof. Anna Paola Ercolani (Università di Roma) Lez Indicatori di dispersione

Sistemi lineari. Lorenzo Pareschi. Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara

MISURE DI SINTESI 54

Statistica multivariata 27/09/2016. D.Rodi, 2016

Corso di Psicometria Progredito

Prontuario degli argomenti di Algebra

Statistica. Alfonso Iodice D Enza

ACP: analisi in componenti principali. Giovanni Di Franco

- Conoscere il concetto di insieme. - Sapere rappresentare un insieme. - Riconoscere insiemi uguali, inclusi, vuoti.

Lezione 4 a - Misure di dispersione o di variabilità

UNITÀ DIDATTICA 2 LE FUNZIONI

STATISTICA. La Statistica è la scienza che studia i fenomeni collettivi utilizzando metodi matematici.

STATISTICA DESCRITTIVA. Elementi di statistica medica GLI INDICI INDICI DI DISPERSIONE STATISTICA DESCRITTIVA

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

Equazioni Polinomiali II Parabola

le scale di misura scala nominale scala ordinale DIAGNOSTICA PSICOLOGICA lezione si basano su tre elementi:

RELAZIONE FINALE DEL DOCENTE. Materia: MATEMATICA E COMPLEMENTI DI MATEMATICA Classe 3PTVE A. S. 2015/2016

Statistica descrittiva

Tema d esame del 15/02/12

Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento

PIANO CARTESIANO. NB: attenzione ai punti con una coordinata nulla: si trovano sugli assi

Programmazione con Foglio di Calcolo Cenni di Statistica Descrittiva

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

Esercitazione di Analisi Matematica II

3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17

Statistica. POPOLAZIONE: serie di dati, che rappresenta linsieme che si vuole indagare (reali, sperimentali, matematici)

Piano cartesiano e Retta

STATISTICHE DESCRITTIVE Parte II

Indicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica

Tavola di mobilità: esempio

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

PROCEDURA MAPPATURA SINISTRI

Analisi della correlazione canonica

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione dei numeri relativi

Modulo di Statistica e Tecnologia (Dott. Giorgio Poletti

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 2

Lab. 2 - Excel. Prof. De Michele e Farina

RELAZIONE FINALE DEL DOCENTE. Materia: MATEMATICA E COMPLEMENTI DI MATEMATICA Classe 4BPT A. S. 2015/2016

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Protocollo dei saperi imprescindibili Ordine di scuola: professionale

Programmazione disciplinare per competenze (Rif.to ALLEGATI del DPR 15 marzo 2010 n. 89)

Un monomio è in forma normale se è il prodotto di un solo fattore numerico e di fattori letterali con basi diverse. Tutto quanto sarà detto di

GENETICA QUANTITATIVA

RICHIAMI DI STATISTISTICA E CALCOLO DELLE PROBABILITA

valore di a: verso l alto (ordinate crescenti) se a>0, verso il basso (ordinate decrescenti) se a<0;

STATISTICA I - CORSO DI LAUREA IN STATISTICA a.a. 2004/2005 Prova intermedia del 01 aprile 2005

Statistica multivariata Donata Rodi 17/10/2016

Analisi della varianza a una via

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Y = ax 2 + bx + c LA PARABOLA

Statistica Inferenziale

Statistica. Campione

Gli insiemi e le relazioni. Elementi di logica

Транскрипт:

ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM) Questa procedura è stata introdotta negli anni 70, ad opera della scuola francese di analisi dei dati (Benzecri). Inizialmente fu proposta per analizzare tabelle di contingenza bivariate di gradi dimensioni (AC), successivamente è stata applicata a tabelle contenenti informazioni relative ad un numero elevato di variabili. Fa parte, come l ACP, delle tecniche fattoriali e, come l ACP, ha lo scopo di sintetizzare le relazioni che intercorrono fra numerose variabili sottoposte ad analisi simultanea, allo scopo di riprodurne il patrimonio informativo in un numero più ridotto di variabili sintetiche = fattori. Come nel caso dell ACP, il presupposto è che le variabili trattate siano associate tra loro e che in virtù di ciò possano esprimere (almeno in parte) uno stesso tipo di informazione. Questa tecnica si applica a variabili categoriali e per lo studio delle relazioni tra le numerose modalità-variabili che essa tratta si ricorre alla statistica del 2 Fasi procedurali 1. Si selezionano dalla originaria matrice casi x variabili le variabili che si intendono analizzare, con quale funzione - attiva = destinate a formare le sintesi fattoriali - illustrativa = da utilizzare successivamente allo scopo di meglio interpretare e caratterizzare i fattori estratti e in quale forma/struttura: bilanciamento modalità / bilanciamento variabili. 2. Si costruisce una nuova matrice casi x variabili disgiuntiva completa = ogni modalità delle variabili selezionate viene trattata come se fosse una variabile a sé stante nella nuova matrice dei dati (vedi Statera, 1998, Tab. 6.7, p. 352) 3. Si predispone il dizionario delle modalità-variabili: ciascuna delle modalitàvariabili che entra in ACM deve essere contrassegnata da un etichetta alfanumerica di quattro caratteri, in modo da rendere immediato il suo riconoscimento nell output della procedura. 4. Dalla nuova matrice disgiuntiva completa si ricava una nuova matrice (modalitàvariabili x modalità-variabili) quadrata e simmetrica detta matrice di Burt - (vedi Statera, 1998, Tab. 6.8, p. 353).

5. A seguito di trattamento della matrice di Burt mediante procedimenti di algebra della matrici si estraggono i fattori = costrutti algebrici che si ottengono attraverso combinazioni lineari delle modalità-variabili originarie: a partire dallo spazio a p dimensioni definito da tutte le modalità-variabili considerate, l ACM consente di individuare assi ortogonali (= indipendenti l uno dall altro) detti assi fattoriali, tramite i quali sia possibile rappresentare in uno spazio più ridotto le interrelazioni tra le modalità-variabili considerate. I fattori rappresentano dimensioni latenti nella struttura dei dati, e sono riferibili a categorie concettuali sottostanti, utili a dar conto di ciò che le variabili associate condividono. Essi devono: - essere indipendenti l uno dall altro - essere le migliori combinazioni lineari delle variabili originarie - spiegare in ordine decrescente la maggior parte possibile dell inerzia (equivalente alla varianza in ACP) totale contenuta nella matrice di Burt. Ogni asse fattoriale è distinguibile in due semi-assi, uno positivo e uno negativo, che rappresentano i poli semantici opposti dell asse (designazioni bipolari interpretabili come modalità di riferimento della nuova supervariabile /fattore). 6. Si scelgono i fattori da utilizzare. Come ci si orienta? - Metodo dell autovalore : Ogni fattore estratto è corredato dal relativo autovalore (valore proprio = ) che permette di quantificare la percentuale di inerzia /variabilità spiegata, secondo la seguente proporzione: i : = % i : 100 Considerato che per effetto dell ampliamento del numero delle variabili originarie in modalità-variabili la quantità di inerzia spiegata dai fattori estratti è sottodimensionata, è stata proposta dallo stesso Benzecrì, la seguente formula di rivalutazione degli autovalori * i = autovalore rivalutato del fattore i i = autovalore originario del fattore i p = numero delle variabili attive * i = ( i - 1/p) 2 - si scelgono i fattori con autovalore più elevato - si decide il livello minimo cui attestarsi nella % cumulata dell inerzia spiegata

- Metodo dello screen test: ci si ferma al fattore oltre il quale l incremento di inerzia spiegata diventa esiguo 7. Si interpretano i fattori scelti. Per l interpretazione semantica dei fattori si ricorre a una serie di coefficienti statistici: Massa (o peso relativo) di ciascuna variabile/modalità attiva: è il rapporto tra la frequenza della variabile/modalità e il numero totale di variabili/modalità attive; Indice di distorsione (o distanza dall origine) di ciascuna variabile/modalità: dà indicazioni sul carattere periferico di certe variabili/modalità ed è inversamente proporzionale alla massa; dipende dalla distribuzione di frequenza delle modalità di una variabile: se essa è bilanciata assume valori bassi, se essa è fortemente sbilanciata assume un valore molto alto, indicando, insieme alla massa, l irrilevanza della modalità; Contributo assoluto di ciascuna variabile/modalità attiva: rappresenta la parte di dispersione del fattore dovuta alla singola variabile/modalità (è l equivalente del component loading nell ACP) (quota di inerzia totale del fattore riprodotta dalla singola modalità-variabile); Coseno quadrato o contributo relativo: è un valore che permette di valutare il contributo che un certo fattore F fornisce alla riproduzione della dispersione di ogni variabile/modalità attiva. Se esso è basso la modalità in questione non è ben rappresentata sul fattore e sarà sintetizzata meglio da altri fattori; al contrario, se è elevato, è opportuno analizzare il ruolo che la variabile/modalità riveste nella formazione dell asse su cui è ben rappresentata; Coordinata fattoriale (di segno positivo o negativo): indica la posizione delle modalità sui fattori sia in termini di distanza dal punto zero che rappresenta il centro-origine dei fattori, sia in termini di versante positivo o negativo dell asse-fattore considerato. Le modalità che si collocano più distanti dall origine sono quelle che, di solito, contribuiscono maggiormente alla formazione del fattore stesso. Valore test: indica la significatività dell associazione tra una variabile/modalità e un fattore. Esso è particolarmente utile per valutare le associazioni delle modalità illustrative, che non contribuiscono alla formazione dei fattori stessi. Sono considerati significativi, al livello di probabilità del 5%, i coefficienti maggiori di 2 in valore assoluto.

Criterio di valutazione dell autovalore La somma di tutti gli autovalori corrisponde / è pari alla traccia della matrice di Burt (elementi della diagonale principale, sintesi della complessiva dispersione contenuta nella matrice). Pertanto, il rapporto tra l autovalore e la traccia = sommatoria degli autovalori rappresenta la proporzione di dispersione complessiva riprodotta da quel fattore i : = % i : 100 Criterio indicativo per la valutazione del contributo assoluto Per ogni fattore, la somma di tutti i contributi assoluti è pari a 100. Per stabilire un valore soglia di riconoscimento di un contributo significativo, si divide 100 per il totale delle modalità-variabili attive. Si stima così il contributo assoluto medio e, a partire da questo, si valutano quelli che se ne discostano di più. Criterio indicativo per la valutazione del contributo relativo La dispersione complessiva di ogni modalità-variabile è riprodotta da tutti i fattori estratti, ciascuno secondo una certa proporzione che varia da 0 a 1 (se moltiplicato per 100, tale valore esprime la percentuale di dispersione riprodotta da ciascun fattore). Considerati q fattori estratti, mediamente ciascuno di essi può riprodurne una proporzione pari a 1/q. A partire dal valore medio, si valutano i contributi relativi che se ne discostano maggiormente.

N.B. - Dopo aver interpretato i singoli fattori grazie agli indici statistici sopra elencati, si possono esaminare le rappresentazioni grafiche risultanti dall intersezione di coppie di fattori. In questi grafici cartesiani si possono proiettare sia le modalità (attive e illustrative) sia i casi. In generale, nel caso in cui le modalità abbiano una numerosità bilanciata, quanto più un punto è lontano dall origine degli assi, tanto più forte è il suo contributo alla formazione dell asse stesso; tanto più due punti sono vicini, maggiore è l interdipendenza tra essi. Nel caso in cui le modalità-variabili abbiano diversa numerosità, si deve considerare che modalità-variabili scarsamente numerose ( modalità rare ) tendono ad allontanarsi artificiosamente dal centro degli assi, creando problemi di interpretazione. Per questo andrebbero automaticamente espunte ( ventilate ). Infine: per ciascun caso si possono calcolare le coordinate fattoriali: esse corrispondono ai punteggi componenziali dell ACP e rappresentano lo stato del caso sul fattore. Tali stati saranno le modalità delle nuove super-variabili (fattori) che sostituiranno quelle originarie nella matrice dei dati.

CONTRIBUTO DELL ANALISI FATTORIALE ALLA COSTRUZIONE DEGLI INDICI a) Stima della validità degli indicatori utlizzati per operativizzare un concetto: - indicatori di uno stesso concetto hanno una parte indicante in comune: più altra è la correlazione di un indicatore con gli altri, maggiore è la sua parte indicante, maggiore è la sua validità; - attraverso le misure di associazione fra i singoli indicatori e il fattore che incarna il concetto si individuano gli indicatori più validi; b) Individuazione di dimensioni concettuali non previste o conferma (ma anche revisione) di dimensioni concettuali già previste : funzione euristica e funzione confermativa