Pls- Path Modeling: teoria e applicazioni

Pls- Path Modeling: teoria e applicazioni Metodi statistici per la Valutazione Prof.ssa Simona Balbi Dipartimento di Scienze Economiche e Statistiche Università di Napoli Federico II E- mail: maria.spano@unina.it 1

I Modelli ad Equazioni Strutturali (SEM) I Modelli ad Equazioni Strutturali SEM (Bollen,1989; Kaplan, 2000) si propongono di misurare le relazioni di causalità che esistono tra concetti, intesi come variabili non direttamente osservabili, a partire da un insieme di indicatori osservati, detti variabili manifeste. Il termine SEM è da riferirsi a una famiglia molto vasta di metodi statistici che condividono l obiettivo di analizzare le relazioni di causa- effetto fra concetti, detti variabili latenti. I parametri di ogni Modello ad Equazioni Strutturali possono essere stimati seguendo due diversi approcci: l approccio basato sulla covarianza tra le variabili manifeste, i cosiddetti covariance- based methods l approccio basato sulla ricerca di particolari componenti latenti, i cosiddetti component- based methods 2

Tecniche di stima nei SEM Metodi Covariance- based SEM Metodi Component- based Mirano a riprodurre la matrice di varianza/covarianza delle variabili manifeste osservata, attraverso i parametri del modello Si tratta soprattutto di un approccio di tipo confermativo Mirano a stimare i valori delle variabili latenti in modo tale che esse siano le più correlate tra loro e le più rappresentative di ogni corrispondente blocco di variabili manifeste. Si tratta soprattutto di un approccio di tipo esplorativo 3

Il Pls- Path Modeling L approccio PLS (Partial Least Squares) ai Modelli ad Equazioni Strutturali, noto pure come PLS Path Modeling (PLS- PM) è stato proposto come una procedura di stima dei legami causali tra variabili latenti endogene ed esogene, alternativa all approccio covariance- based ai Modelli ad Equazioni Strutturali Il PLS- PM stima attraverso un sistema di equazioni interdipendenti basate sulla regressione semplice e multipla la rete di relazioni tra le variabili manifeste e le loro variabili latenti e tra le variabili latenti all interno del modello. Le tre proprietà più rilevanti dell approccio PLS- PM sono: ü indipendenza da assunzioni sulle distribuzioni e sulle scale di misura delle variabili ü possibilità di stimare i punteggi delle variabili latenti tenendo conto della struttura delle stesse e del sistema di misura ipotizzati ü assenza di problemi di identificabilità dei parametri e di soluzioni inammissibili. 4

Il Path Diagram Un modello di regressione multipla del tipo: y = β 1 x 1 + β 2 x 2 + e può essere rappresentato graficamente attraverso un Path Diagram: x 1 e y x 2 Il Path Diagram è una rappresentazione grafica delle relazioni esistenti tra le variabili sotto esame 5

I due modelli (di misura e di struttura) Modello strutturale (o interno) Modello di misura (o esterno) 6

Il modello di misura (o esterno) Indicatori riflessivi Costrutto latente Indicatori formativi Costrutto emergente x 1 x 1 x 2 x 3 x 2 x 3 Ogni variabile latente genera le corrispondenti variabili manifeste e può essere considerata la prima componente principale del proprio blocco di variabili manifeste sotto il vincolo di spiegare al meglio le relazioni tra le variabili latenti adiacenti. Ogni variabile latente è il miglior predittore delle sue variabili manifeste sotto il vincolo di spiegare al meglio le relazioni tra le variabili latenti adiacenti. 7

Esempio: Riflessivo vs. Formativo Gli arredi nelle camere sono belli I servizi ricreativi dell'hotel sono adeguati Le camere sono pulite Tenendo conto di tutto, sono soddisfatto di quest hotel Apprezzo questo hotel Il personale dell hotel è amichevole Soddisfazione L hotel è conveniente Le camere sono silenziose Non vedo l'ora di soggiornare una notte in questo hotel Sono a mio agio in quest hotel Il servizio dell hotel è buono La cucina dell hotel è buona

Differenze tra l approccio di misura riflessivo e formativo Gli indicatori riflessivi sono essenzialmente intercambiabili (la rimozione di un item non cambia la natura del concetto sottostante), omettere un indicatore nel modello di misura formativo vuol dire omettere una parte del concetto Dominio del costrutto L approccio di misura formativo si concentra sul minimizzare la sovrapposizione tra indicatori complementari Dominio del costrutto L approccio di misura riflessivo si concentra sul massimizzare la sovrapposizione tra gli indicatori

Indicatori riflessivi: stima dei loadings x pq = λ pq ξ q + ε q Modo A λ 1q ξ q x 1q λ 2q λ 3q Loading x 2q x 3q I pesi fattoriali λ pq sono i coefficienti di una regressione semplice OLS di ogni variabile manifesta del blocco sulla corrispondente variabile latente Un modello di misura di tipo riflessivo assume che ogni blocco di variabili manifeste sia unidimensionale, in altre parole che un solo concetto latente si rifletta in più indicatori. La coerenza interna del blocco va verificata!!! 10

Verificare l unidimensionalità del blocco La coerenza interna di un blocco di variabili manifeste può essere verificata attraverso tre indici: Sulla base dei risultati di un Analisi in Componenti Principali: Un solo autovalore > 1, o almeno molto più grande degli altri Utilizzando l alpha di Cronbach Utilizzando il rho di Dillon- Goldstein Il blocco è unidimensionale se entrambi gli indici sono almeno uguali a 0,7 Come risolvere il problema se il blocco non è unidimensionale? Rimuovere le variabili manifeste che rendono il blocco non unidimensionale Dividere il blocco multidimensionale in sotto- blocchi unidimensionali Cambiare il tipo di modello di misura passando al formativo 11

Indicatori formativi: stima dei weights ' w q = ( X q X) 1 X q' ξ q Modo B Weights I pesi esterni w pq sono i coefficienti di una regressione multipla OLS di ogni variabile latente sul corrispondente blocco di variabili manifeste x 1q w 1q w 2q x 2q ξ q w 3q x 3q Come risolvere il problema le variabili manifeste sono molto correlate fra loro? Utilizzare i loadings al posto dei weights Utilizzare i coefficienti di una regressione PLS ξ q = p q p=1 w pq x pq + δ q Le variabili latenti sono ottenute come combinazione lineare delle variabili manifeste. Si noti che i pesi devono avere tutti lo stesso segno 12

Il modello strutturale (o interno) Il modello strutturale descrive le relazioni di causalità tra le variabili latenti. Per ogni variabile latente endogena nel modello, l equazione del modello strutturale sarà la seguente: ξ j = R r=1 β rj ξ r +ζ j dove: - β rj è il path coefficient che lega l r- esima variabilie latente esogena alla j- esima variabile latente endogena - R è il numero di variabili latenti esogene che impattano sulla generica variabile latente endogena ξ j 13

L algoritmo del PLS- PM Il PLS- PM è una procedura iterativa che consente di stimare i pesi esterni, interni ed i valori delle variabili latenti La procedura di stima è detta parziale perché risolve i blocchi di variabili uno alla volta, attraverso l alternanza di regressioni lineari semplici e multiple Le stime dei valori delle variabili latenti si ottengono attraverso l alternanza di stime interne ed esterne iterate fino alla convergenza I path coefficients derivano da una tradizionale regressione tra i valori stimati delle variabili latenti 14

Gli step dell algoritmo PLS- PM Scelta di un sistema di pesi arbitrario w q (es. 1,0,0.,0) Stima esterna di ogni variabile latente v q ± X q w q Stima interna di ogni variabile latente z q Σe qq v q Scelta del metodo per il calcolo dei pesi interni: - Centroide: segno delle correlazioni - Fattoriale: correlazioni - Path weighting scheme: coef. di regressione multipla o correlazione Aggiornare il sistema dei pesi esterni w q secondo lo schema A,B o MIMIC Iterare la procedura fino al raggiungimento della convergenza sui pesi esterni 15

Stima Esterna delle variabili latenti Nel modello esterno del PLS- PM, le variabili latenti si ottengono dall aggregazione ponderata dei rispettivi indicatori: v q ± X q w q Parallelamente a quanto detto per le variabili manifeste nel metodo riflessivo e formativo, anche i pesi esterni w q si stimano a seconda del modello seguito, riflessivo o formativo, in due modi: Modo A w pq = cor(x pq, z q ) Ogni peso equivale al coefficiente OLS di una regressione semplice di ogni variabile manifesta sulla corrispondente variabile latente Modo B ' w q = ( X q X q ) 1 X ' q z q vettore dei coefficienti di una regressione multipla OLS di ogni variabile latente sulle proprie variabili manifeste 16

Stima Interna delle variabili latenti Nel modello interno del PLS, le variabili latenti sono degli aggregati pesati delle variabili latenti adiacenti: z q Σe qq v q Schema del Centroide e qq = sign[cor(v q,v q )] Schema Fattoriale e qq = r qq =cor(v q,v q ) Non c è differenza tra variabili latenti endogene ed esogene Schema Strutturale e mj coefficiente di regressione semplice/multipla di v j su v m se ξ j è una variabile endogena e mj =r mj se ξ m è una variabile che impatta su ξ j 17

Indici di bontà del modello Il PLS Path- Modeling manca di una funzione globale da ottimizzare per determinare la bontà del modello. Esistono tre indici di adattamento, per valutare il livello di qualità e di significatività della parte di misura, di quella strutturale e del modello nel suo complesso: L indice di Comunalità misura la bontà del modello di misura L R 2 di ogni relazione strutturale misura la capacità predittiva del modello interno L indice di Ridondanza misura la bontà del modello interno Il Goodness of Fit index (GoF) è un indice di bontà globale del modello 18

Indice di Comunalità L indice di comunalità misura quanta parte della variabilità della variabile manifesta nel blocco è spiegata dalla propria variabile latente Quest indice è definito, per un blocco q, come: comunalità q = 1 p q cor 2 x pq,ξ q p q p=1 ( ) La comunalità media è la media di tutte le correlazioni al quadrato tra ogni variabile manifesta e la corrispondente variabile latente nel modello: comunalità = 1 q q j=1 comunalità j 19

Indice di Ridondanza La ridondanza misura la qualità del modello strutturale per ogni blocco di variabili endogene tenendo in considerazione il modello di misura. Tale misura esprime il potere dei costrutti latenti esogeni nella predizione delle variabili dipendenti osservate. In termini formali è esprimibile, per un blocco di variabili endogene j, come: ridondanza j = comunalità j R 2 ( ξ j,ξ m che spiegano ξ j ) Per misurare la qualità globale del modello strutturale, si calcola la ridondanza media per tutti i blocchi di variabili latenti endogene: ridondanza = 1 J J j=1 ridondanza j 20

Goodness of Fit index GoF L indice GoF rappresenta una soluzione operativa al problema di misurare globalmente la bontà di adattamento del modello, tenendo conto sia della parte esterna che di quella interna Si tratta sostanzialmente della media geometrica della comunalità media e dell R 2 medio. In termini formali è definito come segue: GoF = comunalità R 2 R 2 Dove è pari a: R 2 = 1 J R2 ( ξ j,ξ m che spiegano ξ j ) 21

Un approccio PLS- PM è ottimale se produce: ü alti R 2 : per spiegare la proporzione di varianza di un costrutto non osservabile direttamente dal suo dipendere linearmente da un altro, invece, indipendente ü T- test value significativi: per selezionare i parametri e i coefficienti utili a identificare dove siano le relazioni più forti tra i costrutti latenti e tra questi e le rispettive variabili manifeste ü Validità monofattoriale: è auspicabile che ciascuna variabile manifesta sia legata in maniera significativamente più forte alla variabile latente che intende misurare, rispetto alla correlazione con le altre variabili latenti ü Validità Convergente o AVE (Average Variance Extracted): per misurare la percentuale di varianza spiegata da ciascun fattore osservato, rispetto alla varianza totale nella misurazione del modello. Si possono accettare modelli con AVE>0,5 ü Validità Discriminante: la validità discriminante si riferisce alla capacità delle variabili latenti di misurare concetti diversi seppur correlate tra di loro. Si sottopone a test la correlazione tra due variabili latenti: H 0 : cor(ξ i, ξ j )=1 La correlazione deve essere inferiore ad 1. H 0 si rifiuta se AVE i e AVE j >cor 2 (ξ i, ξ j ) 22

Riferimenti bibliografici Bollen, K.A. (1989). Structural Equations with Latent Variables, New York: John Wiley & Sons, Inc. Corbetta, P. (2005). Metodi di analii multivariata per le scienze sociali, il Mulino, Bologna. Kaplan, D. (2000). Structural Equation Modeling: Foundations and Extensions. Sage, Newbury Park, CA. Lohmöller, J.B.(1989) Latent variable path modeling with partial least squares, Physica- Verlag, Heidelberg. Tenenhaus, M., Esposito Vinzi, V., Chatelin, Y., Lauro, N.C. (2005). PLS path modeling. Computational Statistics and Data Analysis, 48, 159 205. Tenenhaus, M., Hanafi M. (2007) A bridge between PLS path modelling and multi- block data analysis, in: Handbook of Partial Least Squares (PLS): Concepts, methods and applications, (V. Esposito Vinzi, J. Henseler, w. Chin, H. Wang, Eds), Volume II in the series of the Handbooks of Computational Statistics, Springer. Wold, H. (1973). "Non linear Iterative Partial Least Squares (NIPALS) Modeling: Some Current Developments", in P.R. Krishnaiah [ed.]. Multivariate Analysis II, Proceedings of an International Symposium on Multivariate Analysis held at Wright State University, Dayton, Ohio, June 19-24, 1972, New York: Academic Press, pp. 383-407. Wold, H. (1981).The Fix- Point Approach to Interdependent Systems: Review and Current Outlook, in: H. Wold (ed.), The Fix- Point Approach to Interdependent Systems, North- Holland, Amsterdam. Wold, H. (1982). Soft modeling. The basic design and some extensions, in: Vol.II of Jöreskog- Wold (eds.), Systems under indirect observation, North- Holland, Amsterdam. Wold, H. (1985) Partial Least Squares, in: Vol.6 of S. Kotz & N.L. Johnson (eds.), Encyclopedia of Statistical Sciences, John Wiley & Sons, New York, 581-591. 23