Pls- Path Modeling: teoria e applicazioni

Documenti analoghi
UNIVERSITÀ CATTOLICA DEL SACRO CUORE. Giuseppe Boari - Gabriele Cantaluppi

Psicometria. 9-Analisi fattoriale confermativa vers. 1.0

Statistica multivariata 27/09/2016. D.Rodi, 2016

Metodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione

METODI E TECNICHE DELLA RICERCA IN PSICOLOGIA CLINICA E LABORATORIO MEDIAZIONE

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

Metodi di analisi statistica multivariata

Image. Complaints UTILIZZO DEL PACCHETTO PLSPM IN R

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Statistica Applicata all edilizia: il modello di regressione

Analisi delle corrispondenze

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Metodologie Quantitative. Analisi Fattoriale

Statistica multivariata Donata Rodi 08/11/2016

Differenze tra metodi di estrazione

Analisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca

Analisi delle corrispondenze

lezione 7 AA Paolo Brunori

Metodi di regressione multivariata

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Teoria e tecniche dei test LA VALIDITA 10/12/2013. a) SIGNIFICATIVITA TEORICA E OSSERVATIVA DI UN COSTRUTTO. Lezione 6 seconda parte LA VALIDITA

Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)

Corso di Psicometria Progredito

6. ANALISI FATTORIALE

Statistica multivariata Donata Rodi 17/10/2016

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Università degli Studi di Trento

Statistica multivariata Donata Rodi 21/11/2016

Bologna 15 settembre. Spazializzazione dati meteo

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Un approccio multivariato per valutare il benessere a livello territoriale

TECNICHE DI POSIZIONAMENTO

Matrici di Raven (PM47)

Minimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi

PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA

Analisi in Componenti Principali

ANALISI DEI DATI PER IL MARKETING 2014

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Corso di Statistica Industriale

Analisi dei Fattori. Francesca Marta Lilja Di Lascio Dip.to di Scienze Statistiche P. Fortunati Università di Bologna

La regressione fuzzy. Capitolo I limiti della regressione classica. a cura di Fabrizio Maturo

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

Analisi della correlazione canonica

ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM)

La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

lezione 9 AA Paolo Brunori

LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell

Analisi delle componenti principali

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

Analisi della varianza

ANALISI MULTIDIMENSIONALE DEI DATI (AMD)

Stima dei parametri di modelli lineari

Corso di Laurea in Amministrazione Aziendale Complex Learning. Statistica per l azienda (T) SECS-S/01 a. a. 2017/2018

MODELLO DI REGRESSIONE LINEARE. le ipotesi del modello di regressione classico, stima con i metodi dei minimi quadrati e di massima verosimiglianza,

Argomenti della lezione:

Regressione Lineare Semplice e Correlazione

Esercitazione del

REGRESSIONE E CORRELAZIONE

Una Breve Introduzione a E-views

Regressione. Monica Marabelli. 15 Gennaio 2016

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

Regressione lineare multipla

STATISTICA A K (60 ore)

Statistica a lungo termine: calcolo dell onda di progetto

Data Mining. Prova parziale del 20 aprile 2017: SOLUZIONE

METODI DI QUANTIFICAZIONE PER LE VARIABILI QUALITATIVE ORDINALI

Regressione Lineare Multipla

Statistica economica

Regressione lineare semplice

Università di Bologna Facoltà di Scienze statistiche LISREL. (Alessandro Lubisco)

Introduzione all Analisi della Varianza (ANOVA)

RICHIAMI DI STATISTICA DESCRITTIVA E DI INFERENZA: LA VERIFICA DI IPOTESI: TEST BASATI SU UN CAMPIONE

Principi di analisi causale Lezione 3

La regressione lineare. Rappresentazione analitica delle distribuzioni

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

RENATO LEONI. Esempi numerici riguardanti l'analisi della correlazione canonica

Statistica 1 A.A. 2015/2016

Nel modello di regressione Multivariata abbiamo più variabili risposta (tipicamente poche), in particolare avremo:

Test F per la significatività del modello

Regressione multipla

Il calcolo del VAR operativo mediante la metodologia stocastica parametrica. Simona Cosma

Il Modello ACSI. American Customer Satisfaction Index

Case study. viene espressa in unità µmol per ora per grammo di peso secco.

Analisi Multivariata dei Dati. Regressione Multipla

Analisi in componenti principali

Regressione Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Statistical Process Control

Multicollinearità. Strumenti quantitativi per la gestione

Statistica multivariata

Bibliografia. R. Albanese, "Metodi numerici per l'analisi elettromagnetica

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

Prefazione Ringraziamenti

Imputazione dati mancanti

viii Indice generale

Corso di Psicometria Progredito

Laboratorio di Statistica Aziendale Modello di regressione lineare semplice

3.3 FORMULAZIONE DEL MODELLO E CONDIZIONI DI

Sommario. 2 I grafici Il sistema di coordinate cartesiane Gli istogrammi I diagrammi a torta...51

Transcript:

Pls- Path Modeling: teoria e applicazioni Metodi statistici per la Valutazione Prof.ssa Simona Balbi Dipartimento di Scienze Economiche e Statistiche Università di Napoli Federico II E- mail: maria.spano@unina.it 1

I Modelli ad Equazioni Strutturali (SEM) I Modelli ad Equazioni Strutturali SEM (Bollen,1989; Kaplan, 2000) si propongono di misurare le relazioni di causalità che esistono tra concetti, intesi come variabili non direttamente osservabili, a partire da un insieme di indicatori osservati, detti variabili manifeste. Il termine SEM è da riferirsi a una famiglia molto vasta di metodi statistici che condividono l obiettivo di analizzare le relazioni di causa- effetto fra concetti, detti variabili latenti. I parametri di ogni Modello ad Equazioni Strutturali possono essere stimati seguendo due diversi approcci: l approccio basato sulla covarianza tra le variabili manifeste, i cosiddetti covariance- based methods l approccio basato sulla ricerca di particolari componenti latenti, i cosiddetti component- based methods 2

Tecniche di stima nei SEM Metodi Covariance- based SEM Metodi Component- based Mirano a riprodurre la matrice di varianza/covarianza delle variabili manifeste osservata, attraverso i parametri del modello Si tratta soprattutto di un approccio di tipo confermativo Mirano a stimare i valori delle variabili latenti in modo tale che esse siano le più correlate tra loro e le più rappresentative di ogni corrispondente blocco di variabili manifeste. Si tratta soprattutto di un approccio di tipo esplorativo 3

Il Pls- Path Modeling L approccio PLS (Partial Least Squares) ai Modelli ad Equazioni Strutturali, noto pure come PLS Path Modeling (PLS- PM) è stato proposto come una procedura di stima dei legami causali tra variabili latenti endogene ed esogene, alternativa all approccio covariance- based ai Modelli ad Equazioni Strutturali Il PLS- PM stima attraverso un sistema di equazioni interdipendenti basate sulla regressione semplice e multipla la rete di relazioni tra le variabili manifeste e le loro variabili latenti e tra le variabili latenti all interno del modello. Le tre proprietà più rilevanti dell approccio PLS- PM sono: ü indipendenza da assunzioni sulle distribuzioni e sulle scale di misura delle variabili ü possibilità di stimare i punteggi delle variabili latenti tenendo conto della struttura delle stesse e del sistema di misura ipotizzati ü assenza di problemi di identificabilità dei parametri e di soluzioni inammissibili. 4

Il Path Diagram Un modello di regressione multipla del tipo: y = β 1 x 1 + β 2 x 2 + e può essere rappresentato graficamente attraverso un Path Diagram: x 1 e y x 2 Il Path Diagram è una rappresentazione grafica delle relazioni esistenti tra le variabili sotto esame 5

I due modelli (di misura e di struttura) Modello strutturale (o interno) Modello di misura (o esterno) 6

Il modello di misura (o esterno) Indicatori riflessivi Costrutto latente Indicatori formativi Costrutto emergente x 1 x 1 x 2 x 3 x 2 x 3 Ogni variabile latente genera le corrispondenti variabili manifeste e può essere considerata la prima componente principale del proprio blocco di variabili manifeste sotto il vincolo di spiegare al meglio le relazioni tra le variabili latenti adiacenti. Ogni variabile latente è il miglior predittore delle sue variabili manifeste sotto il vincolo di spiegare al meglio le relazioni tra le variabili latenti adiacenti. 7

Esempio: Riflessivo vs. Formativo Gli arredi nelle camere sono belli I servizi ricreativi dell'hotel sono adeguati Le camere sono pulite Tenendo conto di tutto, sono soddisfatto di quest hotel Apprezzo questo hotel Il personale dell hotel è amichevole Soddisfazione L hotel è conveniente Le camere sono silenziose Non vedo l'ora di soggiornare una notte in questo hotel Sono a mio agio in quest hotel Il servizio dell hotel è buono La cucina dell hotel è buona

Differenze tra l approccio di misura riflessivo e formativo Gli indicatori riflessivi sono essenzialmente intercambiabili (la rimozione di un item non cambia la natura del concetto sottostante), omettere un indicatore nel modello di misura formativo vuol dire omettere una parte del concetto Dominio del costrutto L approccio di misura formativo si concentra sul minimizzare la sovrapposizione tra indicatori complementari Dominio del costrutto L approccio di misura riflessivo si concentra sul massimizzare la sovrapposizione tra gli indicatori

Indicatori riflessivi: stima dei loadings x pq = λ pq ξ q + ε q Modo A λ 1q ξ q x 1q λ 2q λ 3q Loading x 2q x 3q I pesi fattoriali λ pq sono i coefficienti di una regressione semplice OLS di ogni variabile manifesta del blocco sulla corrispondente variabile latente Un modello di misura di tipo riflessivo assume che ogni blocco di variabili manifeste sia unidimensionale, in altre parole che un solo concetto latente si rifletta in più indicatori. La coerenza interna del blocco va verificata!!! 10

Verificare l unidimensionalità del blocco La coerenza interna di un blocco di variabili manifeste può essere verificata attraverso tre indici: Sulla base dei risultati di un Analisi in Componenti Principali: Un solo autovalore > 1, o almeno molto più grande degli altri Utilizzando l alpha di Cronbach Utilizzando il rho di Dillon- Goldstein Il blocco è unidimensionale se entrambi gli indici sono almeno uguali a 0,7 Come risolvere il problema se il blocco non è unidimensionale? Rimuovere le variabili manifeste che rendono il blocco non unidimensionale Dividere il blocco multidimensionale in sotto- blocchi unidimensionali Cambiare il tipo di modello di misura passando al formativo 11

Indicatori formativi: stima dei weights ' w q = ( X q X) 1 X q' ξ q Modo B Weights I pesi esterni w pq sono i coefficienti di una regressione multipla OLS di ogni variabile latente sul corrispondente blocco di variabili manifeste x 1q w 1q w 2q x 2q ξ q w 3q x 3q Come risolvere il problema le variabili manifeste sono molto correlate fra loro? Utilizzare i loadings al posto dei weights Utilizzare i coefficienti di una regressione PLS ξ q = p q p=1 w pq x pq + δ q Le variabili latenti sono ottenute come combinazione lineare delle variabili manifeste. Si noti che i pesi devono avere tutti lo stesso segno 12

Il modello strutturale (o interno) Il modello strutturale descrive le relazioni di causalità tra le variabili latenti. Per ogni variabile latente endogena nel modello, l equazione del modello strutturale sarà la seguente: ξ j = R r=1 β rj ξ r +ζ j dove: - β rj è il path coefficient che lega l r- esima variabilie latente esogena alla j- esima variabile latente endogena - R è il numero di variabili latenti esogene che impattano sulla generica variabile latente endogena ξ j 13

L algoritmo del PLS- PM Il PLS- PM è una procedura iterativa che consente di stimare i pesi esterni, interni ed i valori delle variabili latenti La procedura di stima è detta parziale perché risolve i blocchi di variabili uno alla volta, attraverso l alternanza di regressioni lineari semplici e multiple Le stime dei valori delle variabili latenti si ottengono attraverso l alternanza di stime interne ed esterne iterate fino alla convergenza I path coefficients derivano da una tradizionale regressione tra i valori stimati delle variabili latenti 14

Gli step dell algoritmo PLS- PM Scelta di un sistema di pesi arbitrario w q (es. 1,0,0.,0) Stima esterna di ogni variabile latente v q ± X q w q Stima interna di ogni variabile latente z q Σe qq v q Scelta del metodo per il calcolo dei pesi interni: - Centroide: segno delle correlazioni - Fattoriale: correlazioni - Path weighting scheme: coef. di regressione multipla o correlazione Aggiornare il sistema dei pesi esterni w q secondo lo schema A,B o MIMIC Iterare la procedura fino al raggiungimento della convergenza sui pesi esterni 15

Stima Esterna delle variabili latenti Nel modello esterno del PLS- PM, le variabili latenti si ottengono dall aggregazione ponderata dei rispettivi indicatori: v q ± X q w q Parallelamente a quanto detto per le variabili manifeste nel metodo riflessivo e formativo, anche i pesi esterni w q si stimano a seconda del modello seguito, riflessivo o formativo, in due modi: Modo A w pq = cor(x pq, z q ) Ogni peso equivale al coefficiente OLS di una regressione semplice di ogni variabile manifesta sulla corrispondente variabile latente Modo B ' w q = ( X q X q ) 1 X ' q z q vettore dei coefficienti di una regressione multipla OLS di ogni variabile latente sulle proprie variabili manifeste 16

Stima Interna delle variabili latenti Nel modello interno del PLS, le variabili latenti sono degli aggregati pesati delle variabili latenti adiacenti: z q Σe qq v q Schema del Centroide e qq = sign[cor(v q,v q )] Schema Fattoriale e qq = r qq =cor(v q,v q ) Non c è differenza tra variabili latenti endogene ed esogene Schema Strutturale e mj coefficiente di regressione semplice/multipla di v j su v m se ξ j è una variabile endogena e mj =r mj se ξ m è una variabile che impatta su ξ j 17

Indici di bontà del modello Il PLS Path- Modeling manca di una funzione globale da ottimizzare per determinare la bontà del modello. Esistono tre indici di adattamento, per valutare il livello di qualità e di significatività della parte di misura, di quella strutturale e del modello nel suo complesso: L indice di Comunalità misura la bontà del modello di misura L R 2 di ogni relazione strutturale misura la capacità predittiva del modello interno L indice di Ridondanza misura la bontà del modello interno Il Goodness of Fit index (GoF) è un indice di bontà globale del modello 18

Indice di Comunalità L indice di comunalità misura quanta parte della variabilità della variabile manifesta nel blocco è spiegata dalla propria variabile latente Quest indice è definito, per un blocco q, come: comunalità q = 1 p q cor 2 x pq,ξ q p q p=1 ( ) La comunalità media è la media di tutte le correlazioni al quadrato tra ogni variabile manifesta e la corrispondente variabile latente nel modello: comunalità = 1 q q j=1 comunalità j 19

Indice di Ridondanza La ridondanza misura la qualità del modello strutturale per ogni blocco di variabili endogene tenendo in considerazione il modello di misura. Tale misura esprime il potere dei costrutti latenti esogeni nella predizione delle variabili dipendenti osservate. In termini formali è esprimibile, per un blocco di variabili endogene j, come: ridondanza j = comunalità j R 2 ( ξ j,ξ m che spiegano ξ j ) Per misurare la qualità globale del modello strutturale, si calcola la ridondanza media per tutti i blocchi di variabili latenti endogene: ridondanza = 1 J J j=1 ridondanza j 20

Goodness of Fit index GoF L indice GoF rappresenta una soluzione operativa al problema di misurare globalmente la bontà di adattamento del modello, tenendo conto sia della parte esterna che di quella interna Si tratta sostanzialmente della media geometrica della comunalità media e dell R 2 medio. In termini formali è definito come segue: GoF = comunalità R 2 R 2 Dove è pari a: R 2 = 1 J R2 ( ξ j,ξ m che spiegano ξ j ) 21

Un approccio PLS- PM è ottimale se produce: ü alti R 2 : per spiegare la proporzione di varianza di un costrutto non osservabile direttamente dal suo dipendere linearmente da un altro, invece, indipendente ü T- test value significativi: per selezionare i parametri e i coefficienti utili a identificare dove siano le relazioni più forti tra i costrutti latenti e tra questi e le rispettive variabili manifeste ü Validità monofattoriale: è auspicabile che ciascuna variabile manifesta sia legata in maniera significativamente più forte alla variabile latente che intende misurare, rispetto alla correlazione con le altre variabili latenti ü Validità Convergente o AVE (Average Variance Extracted): per misurare la percentuale di varianza spiegata da ciascun fattore osservato, rispetto alla varianza totale nella misurazione del modello. Si possono accettare modelli con AVE>0,5 ü Validità Discriminante: la validità discriminante si riferisce alla capacità delle variabili latenti di misurare concetti diversi seppur correlate tra di loro. Si sottopone a test la correlazione tra due variabili latenti: H 0 : cor(ξ i, ξ j )=1 La correlazione deve essere inferiore ad 1. H 0 si rifiuta se AVE i e AVE j >cor 2 (ξ i, ξ j ) 22

Riferimenti bibliografici Bollen, K.A. (1989). Structural Equations with Latent Variables, New York: John Wiley & Sons, Inc. Corbetta, P. (2005). Metodi di analii multivariata per le scienze sociali, il Mulino, Bologna. Kaplan, D. (2000). Structural Equation Modeling: Foundations and Extensions. Sage, Newbury Park, CA. Lohmöller, J.B.(1989) Latent variable path modeling with partial least squares, Physica- Verlag, Heidelberg. Tenenhaus, M., Esposito Vinzi, V., Chatelin, Y., Lauro, N.C. (2005). PLS path modeling. Computational Statistics and Data Analysis, 48, 159 205. Tenenhaus, M., Hanafi M. (2007) A bridge between PLS path modelling and multi- block data analysis, in: Handbook of Partial Least Squares (PLS): Concepts, methods and applications, (V. Esposito Vinzi, J. Henseler, w. Chin, H. Wang, Eds), Volume II in the series of the Handbooks of Computational Statistics, Springer. Wold, H. (1973). "Non linear Iterative Partial Least Squares (NIPALS) Modeling: Some Current Developments", in P.R. Krishnaiah [ed.]. Multivariate Analysis II, Proceedings of an International Symposium on Multivariate Analysis held at Wright State University, Dayton, Ohio, June 19-24, 1972, New York: Academic Press, pp. 383-407. Wold, H. (1981).The Fix- Point Approach to Interdependent Systems: Review and Current Outlook, in: H. Wold (ed.), The Fix- Point Approach to Interdependent Systems, North- Holland, Amsterdam. Wold, H. (1982). Soft modeling. The basic design and some extensions, in: Vol.II of Jöreskog- Wold (eds.), Systems under indirect observation, North- Holland, Amsterdam. Wold, H. (1985) Partial Least Squares, in: Vol.6 of S. Kotz & N.L. Johnson (eds.), Encyclopedia of Statistical Sciences, John Wiley & Sons, New York, 581-591. 23