Analisi statistica multivariata

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Analisi statistica multivariata"

Transcript

1 Università di Bologna Sede di Rimini Anno Accademico 9-1 Analisi statistica multivariata (Alessandro Lubisco) Materiale relativo al primo periodo: - Analisi fattoriale

2

3 INDICE Indice... i Parte I Analisi Fattoriale... 1 Aspetti introduttivi... 1 Introduzione ai modelli a variabili latenti... 3 Esempi di problemi con variabili latenti e manifeste... 4 Modelli a variabili latenti... 5 Il modello lineare a un fattore... 7 Il modello fattoriale lineare Specificazione del modello fattoriale Comunalità e specificità Proprietà del modello fattoriale Equivarianza rispetto a cambiamenti di scala Identificazione del modello... 1 Invarianza del modello rispetto a rotazioni ortogonali della matrice Λ... 1 Stima dei parametri del modello... 4 Metodi di stima... 5 Metodo delle componenti principali... 6 Metodo dei fattori principali... 8 Ripercorriamo il metodo dei fattori principali Il metodo della massima verosimiglianza... 3 Rotazione degli assi fattoriali Rotazione VARIMAX (aiser, 1958) Rotazione QUARTIMAX Rotazione EQUAMAX Rotazioni oblique Prima di interpretare i fattori Esempio di valutazione dei pesi fattoriali Determinazione dei punteggi fattoriali Una prima interpretazione... 4 I pesi fattoriali... 4 Le comunalità Adeguatezza del modello e scelta del numero di fattori Percentuale di varianza spiegata da fattori Matrice di correlazione riprodotta Test sulla bontà di adattamento Riassumendo: Scopi e procedure dell analisi fattoriale Passo 1: Selezione delle variabili Passo : Calcolo ed esame della matrice di correlazione tra le variabili Passo 3: Estrazione dei fattori non ruotati Passo 4: Rotazione dei fattori... 5 Passo 5: Interpretazione della matrice dei fattori ruotati... 5 Analisi fattoriale e analisi delle componenti principali Errori comuni nell uso dell analisi fattoriale... 58

4

5 PARTE I ANALISI FATTORIALE ASPETTI INTRODUTTIVI Gli aspetti caratteristici dell analisi fattoriale si fondano sulle origini del metodo, che si è sviluppato all inizio del secolo scorso ad opera, come già accennato, di Spearman, nell ambito della ricerca psicometrica sulle misure delle capacità psicoattitudinali. In un lavoro del 194, Spearman riporta le correlazioni osservate tra i risultati (voti) conseguiti da un gruppo di studenti in tre diverse materie: lettere (X 1 ), francese (X ), inglese (X 3 ). R = 1,83 1,78,67 1 Egli si chiede se le correlazioni osservate non possano essere spiegate dalla relazione delle tre variabili con un unica variabile latente f che può essere pensata come, per esempio, l intelligenza o la predisposizione allo studio in determinate materie. Se esiste una variabile f in grado di render conto delle correlazioni tra ciascuna coppia di variabili, allora significa che la correlazione residua tra le variabili osservate, una volta che si è eliminato l effetto di f su ciascuna di esse, deve essere non significativamente diversa da zero, ovvero le variabili osservate devono essere linearmente indipendenti condizionatamente ai valori di f. L analisi dei fattori è un metodo di analisi multivariata volto a spiegare le correlazioni fra un insieme di p variabili osservate attraverso un insieme di m variabili non osservate. Si ricorda che la correlazione r ii tra due variabili X i e X i può risultare dalla loro associazione con una terza variabile esterna f k ed è misurabile attraverso la correlazione parziale r ii ;k. Essa misura, infatti, l associazione tra X i e X i quando f k è resa costante ed è quindi la correlazione residua tra X i e X i dopo che si è eliminato l effetto lineare di f k su ciascuna di esse.

6 Analisi statistica multivariata r ii';k = r ii' 1 r r ik ik r i'k 1 r i' k Tale coefficiente misura la correlazione rimanente tra X i e X i dopo aver corretto entrambe le variabili dell effetto lineare di f k su di esse. Qualora X i e X i non fossero influenzate da f k allora r ii';k r ii' in quanto r ik = e r i'k =. Poste certe condizioni sulla variabile f non osservata è facile verificare che un modello, il quale ipotizzi una relazione lineare di ciascuna delle variabili osservate con f, sia in grado di spiegare la correlazione tra le X. Se f spiega le correlazioni, allora le variabili osservate possono essere espresse in funzione di f nel modo seguente: dove: X 1 = λ 1 f + u 1 X = λ f + u X 3 = λ 3 f + u 3 - f è un fattore latente comune a tutte le variabili, che rappresenta l abilità generale di uno studente; - i λ i sono detti pesi fattoriali; - gli u i sono i fattori specifici di ogni singola variabile. Il fattore specifico può avere in questo contesto una duplice interpretazione: o l abilità individuale in ogni singola disciplina dipende anche in una certa misura dall abilità specifica in tale disciplina; o inoltre, la presenza del fattore specifico è legata anche al fatto che la prova o l esame è solo una misura approssimata dell abilità generale dello studente e perciò affetta da errore.

7 A. Lubisco 3 INTRODUZIONE AI MODELLI A VARIABILI LATENTI L analisi fattoriale appartiene a una famiglia di metodi che utilizza le cosiddette variabili latenti. Spesso, in particolar modo nelle scienze sociali, non si è in grado di misurare le grandezze di interesse. E- sempi di tali concetti sono l intelligenza, l orientamento politico, lo stato socio-economico. Sebbene nelle scienze sociali si trattino tali grandezze al pari di qualunque altra variabile, queste si differenziano in quanto non possono essere osservate ed è per questo motivo che vengono dette latenti. In alcuni casi, un concetto può essere rappresentato da un unica variabile latente, ma spesso essi sono di natura multidimensionale e per questo motivo possono coinvolgere più di una variabile latente. Queste variabili latenti sono talvolta chiamate fattori. Tra i metodi a variabili latenti, l analisi fattoriale è il più antico e il più usato. C è uno stretto legame tra l analisi fattoriale (Factor Analysis FA) e l analisi delle componenti principali (Principal Components Analysis PCA). Infatti è usuale vedere la PCA come un metodo della FA (il software statistico SPSS tratta entrambi i metodi nella stessa procedura). E necessario, però, sottolineare la profonda diversità tra i due metodi. Questo per diverse ragioni: - la PCA è un metodo descrittivo che ha l obiettivo di riassumere una matrice di dati in maniera tale da esprimere la sua struttura in un numero ridotto di dimensioni. La FA è una tecnica basata su un modello che richiede vengano fatte assunzioni riguardo le distribuzioni congiunte in popolazione delle variabili coinvolte. Ciò consente di fare inferenza riguardo la popolazione e di fare riferimento a concetti quali bontà di adattamento, significatività e precisione delle stime. - la seconda ragione per enfatizzare la distinzione tra PCA e FA sta nel fatto che, mentre l analisi in componenti principali è un metodo per individuare una particolare trasformazione delle variabili osservate, la FA si inserisce nell ambito dei modelli a variabili latenti, dei quali verranno esaminati più avanti altri esempi. Tradizionalmente l unità di questa famiglia di metodi a variabili latenti è sempre stata oscurata dall uso di notazioni differenti e dalle dif-

8 4 Analisi statistica multivariata ferenti culture scientifiche da cui hanno avuto origine oltre che dai diversi campi di utilizzo. Esempi di problemi con variabili latenti e manifeste i) Esiste un grande interesse nella misurazione dell intelligenza. Essa è concepita come un importante caratteristica dell'individuo posseduta in una certa misura, grande o piccola che sia. Tuttavia non si tratta di qualche cosa simile al peso o all età per i quali ci sono già degli strumenti di misura. L intelligenza è un costrutto, cioè è un concetto che troviamo u- tile e ricco di significato ma che non esiste, almeno non nel senso delle caratteristiche tangibili che ha, per esempio, il peso. È possibile tuttavia includerlo in un modello matematico e trattarlo come qualunque altra variabile. L intelligenza è un buon esempio di variabile latente. Le variabili indicatore sono quantità che si presume siano influenzate dalla variabile latente. Nel caso dello studio sull intelligenza sono, usualmente, i punteggi ottenuti nei test scelti perché si ritiene che persone più intelligenti abbiano risultati migliori. Alcuni quesiti (item) potrebbero riguardare il linguaggio o la matematica, altri invece potrebbero sondare l abilità nel riconoscere particolari strutture. Se gli item richiedono tutti la medesima abilità mentale, ci si aspetta che i punteggi negli item siano correlati positivamente. Il problema è vedere se questa correlazione può essere rappresentata da un unica variabile latente e, se è così, determinare dove posizionare gli individui nella scala di questa variabile. ii) La misura dell orientamento politico è simile a quello dell intelligenza. Descriviamo gli individui come tendenzialmente di destra o di sinistra, oppure più a destra/sinistra di altri. Implicitamente, in questo linguaggio c è l idea che esista una scala lungo la quale gli individui possano essere posizionati andando dall estrema sinistra all estrema destra. Questa è una scala latente e se si desidera costruire una simile scala saranno necessari opportuni indicatori. Questi possono essere determinati, per esempio, da un indagine in cui viene chiesto quali sono gli atteggiamenti riguardo ad alcune questioni politiche quali la sanità privata, l educazione privata e i sindacati. iii) Per misurare una variabile latente come lo stato socio-economi-

9 A. Lubisco 5 co di una famiglia, è possibile, analogamente, raccogliere informazioni riguardo a reddito, occupazione e livello di istruzione dei membri della famiglia. In ciascuno di questi esempi si è utilizzato un criterio personale di comprensione della variabile latente di interesse per identificare alcune variabili manifeste che, si crede, rivelino qualche cosa riguardo la sottostante variabile latente. In effetti, si è partiti da una variabile latente per poi cercare le variabili manifeste che potessero fungere da indicatori perché già in possesso di un idea su quale potesse essere la variabile latente. Talvolta si procede nella direzione opposta. Per esempio, se si dispone di un indagine multiscopo si può supporre che il grande numero di dimensioni manifeste, rappresentato dalle diverse decine di domande del questionario, possa essere ridotto a un numero più piccolo di dimensioni, senza che ciò comporti la perdita di informazioni essenziali. Questo secondo approccio è quello seguito usando la PCA. Modelli a variabili latenti I modelli a variabili latenti sono strettamente collegati al modello di regressione. Può essere perciò utile descrivere l idea base dell analisi fattoriale in termini di analisi di regressione. Un modello di regressione esprime la relazione tra una variabile dipendente e una o più variabili indipendenti o regressori. Nell analisi fattoriale, la relazione di regressione è tra una variabile manifesta e le variabili latenti. In entrambi i casi vengono fatte assunzioni riguardo la distribuzione dei residui o termini di errore in maniera da poter fare inferenza. Il problema essenziale che deve risolvere l analisi fattoriale è quello di ottenere informazioni sulle variabili latenti, note le manifeste. Dal momento che non è possibile osservare le variabili latenti, è possibile conoscere qualche cosa di questa relazione solo indirettamente. Molte variabili manifeste dipendono spesso dalle medesime variabili latenti e questa dipendenza genera delle correlazioni tra di loro. In effetti, l esistenza di una correlazione tra due indicatori può essere considerata come l evidenza di una sorgente di influenza comune. L obiettivo dell analisi a variabili latenti è di determinare se la dipendenza tra le variabili osservate possa essere spiegata da un pic-

10 6 Analisi statistica multivariata colo numero di variabili latenti. Come già osservato, i modelli a variabili latenti possono essere impiegati sia in un momento esplorativo per identificare le variabili latenti sottostanti un gruppo di item, sia in un approccio confermativo per verificare se un gruppo di item, costruito per misurare particolari concetti, sia effettivamente in grado di spiegare tale struttura. Ci sono vari tipi di modelli a variabili latenti. Questi modelli si distinguono per il livello di misura delle variabili osservate e per le assunzioni fatte a proposito del livello di misura delle variabili latenti. La seguente tabella mostra una classificazione dei modelli a variabili latenti Variabili osservate Variabili latenti Metriche Categoriche Metriche Analisi fattoriale Latent trait analysis Categoriche Latent profile analysis Latent class analysis Questa tabella non esaurisce le possibilità perché, per esempio, le variabili manifeste possono essere un mix tra variabili metriche e categoriche. L analisi fattoriale, il primo dei metodi a variabili latenti di cui ci si occupa, è una tecnica appropriata quando tutte le variabili osservate sono su una scala metrica. Il modello fattoriale che è alla base del metodo assume che anche le variabili latenti siano metriche.

11 A. Lubisco 7 IL MODELLO LINEARE A UN FATTORE Il più semplice modello fattoriale è quello che comprende un solo fattore. Charles Spearman, che inventò l analisi fattoriale, introdusse questo modello nello studio dell intelligenza umana. Si introdurrà il modello tramite un esempio che consentirà di mostrare che quello fattoriale può essere pensato come un sistema di equazioni di regressione nel quale alcune variabili (le variabili latenti) non sono osservate. L analisi fattoriale si pone l obiettivo di spiegare le correlazioni tra un gruppo di variabili manifeste. Queste correlazioni sono spesso spurie, nel senso che non sono dovute all esistenza di un legame causale diretto tra le variabili considerate. Esse talvolta esistono in quanto le variabili in questione hanno una dipendenza comune con una o più altre variabili. Per esempio, il fatto che la lunghezza dei piedi dei bambini sia correlata positivamente con l abilità nello scrivere non significa che dei piedi grandi aiutino i bambini a scrivere meglio. La correlazione è, piuttosto, una conseguenza accidentale del fatto che entrambe le caratteristiche sono correlate con l età: maggiore è l età, più grandi sono i piedi e migliore è l abilità nello scrivere. Quando ci si trova in situazioni analoghe è importante investigare per vedere se è possibile ottenere una spiegazione della correlazione attraverso la comune dipendenza con una o più altre variabili. In alcuni casi ci può essere un candidato ovvio al ruolo di altra variabile. Si supponga, per esempio, che si stia conducendo uno studio sulle spese settimanali fatte da un campione di famiglie su una grande varietà di prodotti: cibo, viaggi, divertimento, vestiti, Si supponga, inoltre, di trovare una correlazione positiva tra un paio di acquisti. Non sarebbe credibile affermare che un alta spesa in vestiti sia causa di alte spese in viaggi. È più plausibile supporre che spese alte di questi prodotti siano una conseguenza del disporre di un alto reddito. Per investigare questa ipotesi si dovrebbero ottenere ulteriori informazioni circa il reddito delle famiglie. Ciò permetterebbe di vede-

12 8 Analisi statistica multivariata re se l ammontare di spesa per ciascun prodotto sia correlato al reddito complessivo, e, se così, se la relazione sia in grado di spiegare la correlazione tra le varie spese. Come si può effettuare questa verifica empiricamente? Una maniera potrebbe essere quella di specificare come ciascuna spesa possa essere legata al reddito. Per avere un idea preliminare su come fare ciò, si può, per esempio, specificare la relazione tra la spesa per il cibo e il reddito. Si supponga che si trovi una relazione pressoché lineare e che si ottenga un risultato analogo per ogni altro item. Si possono perciò scrivere semplici regressioni della forma: C i = α i + β i I + e i (i = 1,, ) dove C i rappresenta la spesa per l i-esimo item, I è il reddito della famiglia, α i e β i rispettivamente l intercetta e la pendenza della retta di regressione ed e i il residuo, specifico per C i con media zero, indipendente da I, che spieghi la variazione residua lungo la retta. Se si trova che questo modello ha un buon adattamento per tutti gli item di spesa, e che i residui e i sono incorrelati tra loro, allora si sarà dimostrato che il reddito è l unico elemento distinguibile determinante per la spesa. Per una quantità specifica di reddito, la spesa per l item i si comporterà come una variabile casuale con media α i + β i I e deviazione standard data dalla deviazione standard di e i. Dal momento che i residui sono indipendenti tutte le correlazioni tra le variabili osservate vengono rimosse. Infatti considerando gli item i-esimo e j-esimo la correlazione tra C i e C j per un dato reddito I è data da E[(C i E(C i ))(C j E(C j )) I] = = E[(α i + β i I + e i (α i + β i I))(α j + β j I + e j (α j + β j I)) I] = = E[(e i e j ) I] = Se tutto ciò accadesse, si verificherebbe che le reciproche correlazioni tra le spese per i vari articoli sarebbero spiegate dalla comune dipendenza dal reddito. Inoltre, i coefficienti di regressione β i spiegherebbero quanto intensamente ciascun item dipenda dal reddito. In forma generale, nell ambito del modello a un fattore, se si sup-

13 A. Lubisco 9 pone che p variabili manifeste x 1, x,, x p dipendano per ipotesi da un unico fattore o variabile latente f, la maniera più semplice di esprimere la relazione di ciascuna x su f è tramite il modello lineare x i = λ i f + u i (i = 1,,, p) f è il fattore comune dal momento che è comune a tutte le x i. I residui u i sono i fattori specifici in quanto riferiti ciascuno alla corrispondente x i. Nel modello a un fattore si fanno le stesse ipotesi del modello di regressione: - indipendenza dei fattori specifici u i da f - distribuzione normale, media nulla e deviazione standard σ i degli u i. - si suppone inoltre gli u i siano indipendenti tra di loro per cui le x i sono condizionatamente indipendenti, dato f. Si possono perciò fare delle considerazioni per ciò che riguarda la distribuzione delle x i e in particolare sulle covarianze e correlazioni. Dal momento che f è una variabile non osservata, possiamo sceglierla con le caratteristiche che fanno più comodo, senza che questo influisca sulla forma dell equazione di regressione: f avrà media e deviazione standard unitaria. Ne consegue, disponendo di questo modello, che le covarianze avranno la seguente semplice forma: Cov(x i, x j ) = λ i λ j (i, j = 1,, p; i j) È importante osservare che la covarianza è il prodotto di due numeri, uno dipendente da i e l altro da j. Da ciò è possibile determinare qualche cosa a proposito dei coefficienti di regressione del modello. Per esempio Cov(x 1, x ) Cov(x, x 3 ) / Cov(x 1, x 3 ) = λ è una relazione che serve a determinare λ dalle covarianze. In realtà, è possibile costruire altre espressioni simili a questa per determinare λ. Per esempio, se si sostituiscono gli indici 1 e con qualunque altra coppia di numeri nell intervallo da 1 a p, il risultato sarà il medesimo. Se il modello fosse corretto e conoscessimo le reali covarianze, Cov(x i, x j ), allora le diverse equazioni restituireb-

14 1 Analisi statistica multivariata bero il medesimo valore del coefficiente di regressione, λ. Dal momento che analizzando dati reali si dispone solamente di stime delle covarianze (indicate con cov(x i, x j ) con la c minuscola), non si avranno identiche stime λˆ i di λ i, anche se il modello è corretto. Tuttavia, se tutte le stime di λ i fossero simili, questo potrebbe suggerire che il modello abbia un buon adattamento. Agli inizi, i modelli fattoriali venivano stimati con metodi molto simili a questo, noiosi da applicare e non facilmente estendibili al caso di più fattori. È però grazie a questo metodo che è possibile determinare i parametri del modello partendo dalle covarianze tra le variabili osservate senza conoscere i valori relativi ai fattori. Nella maggior parte dei casi pratici non ci sono variabili pronte all uso, come il reddito dell esempio precedente (anche se ci fosse, potrebbe essere impraticabile raccogliere l informazione in quanto la domanda potrebbe essere troppo intrusiva). In assenza di simili variabili, ci si deve chiedere se esista qualche variabile latente che possa avere il medesimo ruolo. Che la variabile latente sia o meno una variabile reale, ma comunque non osservabile, o un costrutto, ci si trova davanti alla stessa domanda fondamentale: c è un modo per stimare il modello di regressione appena visto senza conoscere i valori di I? Questo è il problema che l analisi fattoriale si propone di risolvere. Si vedrà che l insieme delle correlazioni non contiene sufficiente informazione per permettere la stima delle relazioni di regressione e quindi di determinare l esistenza di fattori comuni.

15 A. Lubisco 11 IL MODELLO FATTORIALE LINEARE Il modello a un fattore può facilmente essere esteso al caso di un numero arbitrario di fattori. Semplicemente si sostituisce l equazione di regressione con un equazione di regressione multipla. Come già anticipato, l analisi dei fattori, nell aspetto metodologico più generale, si propone di spiegare le correlazioni fra un insieme di p variabili osservate attraverso un numero più esiguo di variabili non osservate (fattori o variabili latenti) tra loro linearmente indipendenti. L idea che sta alla base del metodo è che la correlazione tra due variabili X i e X j può essere spiegata dalla relazione lineare di entrambe con un insieme di m variabili f 1, f f m. Poiché la correlazione parziale tra X i e X j dati f 1, f,, f m, che indichiamo con r ij;1 m rappresenta la correlazione residua tra X i e X j non spiegata dalla loro relazione lineare con tali variabili, si dice che l insieme f 1, f,, f m consente di spiegare in modo adeguato la correlazione osservata tra X i e X j se la correlazione parziale r ij;1 m è prossima a zero, o più precisamente se l ipotesi nulla di una correlazione parziale in popolazione uguale a zero (Ho: ρ ij;1 m ) non può essere rifiutata. Date p variabili, se un insieme di m variabili f 1, f,, f m spiega completamente i valori al di fuori della diagonale principale della matrice di correlazione R tra le p variabili osservate, la correlazione parziale degli elementi della matrice dei dati, per assegnati valori di f 1, f,, f m deve essere non significativamente diversa da zero. Le variabili X i e X j devono, quindi, essere condizionatamente INCOR- RELATE dati i valori di f 1, f,, f m (dove m<p). Questa proprietà di indipendenza locale è condizione necessaria perché l insieme di variabili f 1, f,, f m offra una spiegazione adeguata dei valori di R. Il problema così posto è indeterminato perché le variabili f 1, f,, f m non sono osservabili. Una possibile via per risolverlo è quella di imporre alcune condizioni che limitano il campo a relazioni di tipo lineare tra le variabili osser-

16 1 Analisi statistica multivariata vate e le variabili latenti e imporre inoltre alcune condizioni sulle variabili latenti stesse. Quindi, il primo passo dell analisi consiste nella formulazione di un modello appropriato. Nella formulazione più immediata, l analisi fattoriale ipotizza che ciascuna variabile osservata X i dipenda in parte da m fattori comuni a tutte le variabili, f k k = 1,, m, in parte da un fattore specifico u i. Ipotizzando una relazione lineare tra le variabili osservate e i fattori, si definisce un sistema di equazioni del tipo: X 1 = μ 1 + λ 11 f λ 1k f k + + λ 1m f m + u 1 X i = μ i + λ i1 f λ ik f k + + λ im f m + u i X p = μ p + λ p1 f λ pk f k + + λ pm f m + u p dove μ i è la media della variabile X i. La determinazione dei coefficienti λ ik, detti pesi fattoriali, consente di valutare l influenza di ciascun fattore espressa in termini di apporto relativo alla variabilità complessiva del sistema, così da individuare quali tra essi possano ritenersi statisticamente rilevanti. Questo modello somiglia solo in apparenza a quello di regressione multipla. Nel contesto della regressione, infatti, gli f k sono noti, mentre nel caso ora in esame tutti gli elementi a destra dell uguale sono quantità incognite, non direttamente misurabili o osservabili. Sotto certe condizioni è facile verificare che un modello di questo tipo è in grado di spiegare le correlazioni osservate. Si tratta comunque di un modello ed è sempre necessario verificare se tale modello sia in grado di dare una spiegazione adeguata di quanto osservato. La semplicità e l agilità degli sviluppi formali che conseguono l introduzione di alcune ipotesi, cioè a) indipendenza lineare dei fattori b) linearità delle relazioni pur non trovando frequenti riscontri nel contesto fenomenico, ne giustificano la scelta, almeno nella prima fase della ricerca.

17 A. Lubisco 13 Specificazione del modello fattoriale Sia X un vettore aleatorio (px1) con media μ e varianze-covarianze Σ; si definisce modello fattoriale la relazione lineare X = μ + Λf + u dove Λ (pxm) è una matrice di costanti (SONO I PESI FATTORIALI) e f (mx1) e u (px1) sono vettori aleatori. + λ λ λ λ λ λ λ λ λ + μ μ μ = p h 1 m k 1 pm pk p1 hm hk h1 1m 1k 11 p h 1 p h 1 u u u f f f X X X M M M M L L M O M M L L M M O M L L M M M M I vincoli che più frequentemente si impongono sulle componenti del modello sono i seguenti: 1) Le variabili f, i fattori comuni, hanno media zero, varianza unitaria e sono tra loro linearmente indipendenti (equivale a incorrelati) cioè: a) E(f)= nullità delle medie aritmetiche dei fattori comuni b) E(ff )=I unitarietà delle varianze dei fattori comuni e incorrelazione a coppie ) Le variabili u, i fattori specifici o specificità, hanno media zero, varianza ψ ii e sono tra loro incorrelate (significa che la correlazione tra le variabili originarie è spiegata completamente dai fattori comuni) cioè a) E(u)= nullità delle medie aritmetiche dei fattori specifici b) E(uu )=Ψ (dove Ψ=diag(ψ 11,, ψ pp )) incorrelazione a coppie relativamente ai fattori specifici ψ ψ ψ Ψ = pp hh 11 L L M O M M L L M M O M L L N.B. Non ci sono ipotesi sulle varianze, per cui si ha una matri-

18 14 Analisi statistica multivariata ce diagonale in cui tutti gli elementi al di fuori della diagonale principale sono nulli e quelli su di essa non necessariamente uguali. Inoltre, i fattori specifici sono linearmente non correlati anche con i fattori comuni, cioè c) E(fu )= incorrelazione a coppie fra i fattori specifici e i fattori comuni 3) Talvolta vengono introdotte anche le seguenti ipotesi: a) I fattori comuni f hanno distribuzione normale multivariata b) I fattori specifici u hanno distribuzione normale multivariata Le ipotesi 3a e 3b implicano che anche le X i abbiano distribuzione normale multivariata e portano al modello fattoriale lineare normale. Le ipotesi b e c implicano che le correlazioni tra le X i siano completamente spiegate dai fattori. E bene sottolineare il diverso significato dell ipotesi di incorrelazione dei fattori comuni e dei fattori specifici. Per assicurare che i fattori comuni siano in grado di spiegare completamente le correlazioni tra le variabili osservate sono determinanti due ipotesi: i) che i fattori specifici siano incorrelati tra loro E(uu )=Ψ (dove Ψ=diag(ψ 11,, ψ pp )) [ipotesi b] ii) che i fattori specifici siano incorrelati con i fattori comuni E(fu )= [ipotesi c] Diversamente l ipotesi E(ff )=I [ipotesi 1b], non è fondamentale. Infatti la matrice di varianze-covarianze tra i fattori potrebbe essere una qualunque matrice Σ f simmetrica e definita positiva e, in quanto simmetrica, per la scomposizione di Cholesky esisterà sempre una matrice triangolare inferiore L tale che Σ f = LL. Si dimostra che il vettore f * = L -1 f ha ancora media nulla e matrice di varianze-covarianze uguale alla matrice identità; infatti: E(f * f * ) = E(L -1 ff (L ) -1 ) = L -1 E(ff )(L ) -1 = L -1 Σ f (L ) -1 = L -1 LL (L ) -1 = I

19 A. Lubisco 15 Se ora si pone Λ * = ΛL si ha che Λ * f * = ΛLL -1 f = Λf Il modello X = μ + Λ * f * + u è quindi indistinguibile dal modello X = μ + Λf + u, ma il vettore f * ha elementi standardizzati e incorrelati. Senza perdere in generalità, tali vincoli possono essere imposti direttamente sugli elementi di f. Come già accennato, può essere talvolta opportuno supporre che le variabili f k e u i, e quindi le X i, siano distribuite normalmente. Per semplicità si può inoltre porre μ = ; ciò equivale a immaginare le variabili X i come variabili scarto dalla media. Il modello si riduce così all espressione: X = Λf + u In forma esplicita è m X 1 = λ 11 f λ 1k f k + + λ 1m f m + u 1 = λ1kf k + u1 X i = λ i1 f λ ik f k + + λ im f m + u i = X p = λ p1 f λ pk f k + + λ pm f m + u p = m k = 1 k = 1 λ m ik λ k = 1 f + u k pk k i f + u Se il modello fattoriale descrive adeguatamente i dati, vale una particolare relazione per la matrice Σ di varianze-covarianze delle variabili osservate, che può essere scomposta nella somma di due matrici: Σ = ΛΛ + Ψ Infatti Σ = E(XX ) = E[(Λf + u)(λf + u) ] = = E[Λff Λ + Λfu + uf Λ + uu ] = p

20 16 Analisi statistica multivariata dove = ΛE[ff ]Λ + ΛE[fu ] + E[uf ]Λ + E[uu ] = Σ = ΛΛ + Ψ ΛΛ = k = 1 m k = 1 m m k = 1 λ λ λ k... pk 1k λ λ 1k 1k m k = 1 λ λ λ 1k k k = 1 m λ k k = 1 m... pk λ k m k = 1 m k = 1 λ λ m k = 1 1k k... λ λ λ pk pk pk e Ψ = diag(ψ 11,, ψ pp ) Poiché la matrice Ψ è diagonale, le quantità al di fuori della diagonale di Σ coincidono con i corrispondenti elementi di ΛΛ. Ciò significa quindi che, valido il modello fattoriale, i fattori comuni sono in grado di spiegare le covarianze tra le variabili osservate, che risultano dipendere unicamente dai pesi fattoriali. Si noti che affinché ciò accada sono fondamentali le due ipotesi del modello che fanno riferimento all incorrelazione tra fattori specifici [b] (matrice Ψ diagonale) e all incorrelazione tra fattori comuni e fattori specifici [c] (E[fu ] = E[uf ] = ) Comunalità e specificità Indicando con λ i =(λ i1, λ ik,... λ im ) il vettore riga dei pesi fattoriali relativi alla variabile X i, la covarianza tra due variabili X i e X j con i j risulterà quindi data da: COVAR(X i,x j ) = λ i λ j = λ i1 λ j1 + + λ im λ jm La varianza della generica variabile X i risulta essere V(X i ) = σ i = σ ii = k λ ik + ψii Ci si poteva comunque arrivare tenendo conto che, essendo nulle le covarianze vale l uguaglianza

21 A. Lubisco 17 Var(X i ) = Var(λ i1 f 1 )+ Var(λ ik f k )... + Var(λ im f m ) + + Var(u i ) ed essendo i fattori a varianza unitaria vale l uguaglianza Var(X i )= λ i1 + λ ik λ im + ψ ii Il primo addendo della varianza definisce la cosiddetta comunalità : h = λ ik = σ ii - ψ ii i k e rappresenta la parte di varianza di X i spiegata dai fattori comuni. In altre parole, le comunalità delle variabili osservate, definite come la somma dei quadrati dei corrispondenti pesi fattoriali, danno una indicazione del grado in cui ciascuna variabile si sovrappone ai fattori, o più tecnicamente, esse rappresentano la proporzione di varianza delle variabili X i che può essere spiegata dai punteggi nei fattori comuni. Più la comunalità h 1 si avvicina a 1, tanto più il set di fattori scelto sarà in grado di spiegare la varianza della variabile X 1. Supponiamo di considerare un modello fattoriale a 3 fattori. Se la comunalità per una variabile X è pari a,79, questo valore va inteso come un R di un modello di regressione multipla e perciò il 79% della variabilità di X è spiegata dal modello fattoriale. Guardando i livelli delle comunalità si è in grado di capire su quali tra le variabili osservate il modello fattoriale svolge il suo compito in maniera migliore. È possibile anche calcolare la proporzione della variazione complessiva spiegata dal modello fattoriale, dividendo la somma delle comunalità per il numero di variabili osservate. Se la somma delle comunalità di un modello a tre fattori determinato su 9 variabili osservate è pari a 6,3, allora la percentuale di variazione spiegata dal modello è 6,3/9x1=7%. Questo valore può essere inteso come un livello complessivo di valutazione della performance del modello. Riassumendo, le singole comunalità mi dicono quanto bene lavora il modello nei confronti di ciascuna variabile osservata, mentre la comunalità media fornisce una valutazione di insieme.

22 18 Analisi statistica multivariata In tutti i metodi di stima dell analisi fattoriale vengono determinati dei valori di partenza delle comunalità. Nel metodo delle componenti principali le comunalità sono pari a 1. Negli altri metodi di stima, le comunalità sono stime di quella che viene chiamata attendibilità delle variabili osservate sul fattore, cioè la capacità della variabile osservata di misurare il fattore latente. Le comunalità di partenza sono calcolate stimando il coefficiente di correlazione multipla R attraverso l equazione di regressione dei minimi quadrati impostando la variabile X di interesse come variabile dipendente e le rimanenti variabili X come indipendenti. ψ ii è detta invece varianza specifica (o specificità ) ed è dovuta al fattore specifico u i ; è la parte di variabilità di X i non spiegata dai fattori comuni. Si osservi inoltre quanto segue: E(Xf ) = E[(Λf + u)f ] = ΛE(ff ) + E(uf ) = Λ Questo significa che i pesi fattoriali rappresentano le covarianze tra fattori e variabili manifeste.

23 A. Lubisco 19 PROPRIETÀ DEL MODELLO FATTORIALE Equivarianza rispetto a cambiamenti di scala Se il modello fattoriale descrive in modo adeguato le correlazioni osservate, si dimostra che la variabile Y = CX, ottenuta moltiplicando le variabili osservate per C = Diag(c i ), genera una matrice dei pesi fattoriali Λ Y = CΛ x, tale che, nota Λ x, si ottiene Λ Y semplicemente moltiplicando la i-esima riga per c i. Si consideri la variabile Y = CX ottenuta moltiplicando le variabili in X per una matrice C diagonale. C c = 11 c cpp Se il modello fattoriale X = Λ x f + u descrive in modo adeguato le correlazioni osservate, si avrà: Y = CX = C[Λ x f+u] = CΛ x f + Cu Indicando con Λ Y = CΛ x, si può scrivere: Y = Λ Y f + Cu Cioè, per Y vale un modello fattoriale nel quale la matrice dei pesi fattoriali è CΛ x, ossia Λ Y. Inoltre: Σ Y = E(YY ) = E(CXX C ) = CΣC = C[Λ x Λ x +Ψ x ]C = CΛ x Λ x C + CΨ x C Quindi, nota la matrice dei pesi fattoriali Λ x, la matrice Λ Y si ottiene semplicemente moltiplicando ciascuna riga per l elemento corri-

24 Analisi statistica multivariata spondente sulla diagonale di C. Poiché il modello fattoriale risulta invariante (equivarianza) rispetto a cambiamenti di scala delle variabili in X, è possibile standardizzare le variabili osservate, così da operare non sulla matrice di varianze e covarianze, bensì sulla matrice R delle correlazioni. Infatti, se indichiamo con D la matrice diagonale che contiene le varianze delle variabili in X D = σ1 σ σp e con D 1/ la matrice diagonale che contiene le radici delle varianze, D 1 = σ 1 σ σ p le variabili standardizzate, se consideriamo X composta da variabili scarto dalla media, si ottengono: Y = D -1/ X e la matrice di varianze-covarianze Σ Y sarà: Σ Y = Ρ = D -1/ Σ x D -1/ = D -1/ Λ x Λ x D -1/ + D -1/ Ψ x D -1/ Quindi la relazione tra i pesi fattoriali nel modello con le variabili o- riginarie e quelli relativi alle variabili standardizzate sono uguali a meno di una costante: Λ Y = D -1/ Λ x Perciò, almeno a livello di modello fattoriale in popolazione, è possibile ricavare i parametri dell uno riscalando i parametri dell altro. Vedremo però, in fase di stima, poiché i metodi a cui si fa riferimento non godono al pari del modello della proprietà di equivarian-

25 A. Lubisco 1 za rispetto a trasformazioni di scala, le stime dei parametri che si ottengono a partire dalla matrice di correlazione campionaria non consentono di risalire alle stime dei parametri che si ottengono dalle matrici di varianze-covarianze. Come si è detto, poiché il modello fattoriale risulta invariante (equivarianza) rispetto a cambiamenti di scala delle variabili in X, operando sulla matrice di correlazione R, si ha che: R = ΛΛ + Ψ Per differenza si ottiene: Ψ = R - ΛΛ che per la variabile X i da luogo alla: ψ ii = r ii λ k ik Ma r ii = 1 poiché misura la correlazione di X i con se stessa; è, quindi ψ ii = k ik 1 λ = 1 h i Ψ è pertanto funzione di Λ, ed è nota quando siano note le comunalità. IDENTIFICAZIONE DEL MODELLO Invarianza del modello rispetto a rotazioni ortogonali della matrice Λ In generale, un qualunque modello si dice identificato se la soluzione al problema di stima esiste ed è unica. Per il modello fattoriale non esiste una soluzione unica al problema di stima dei pesi fattoriali. Il modello risulta infatti INVARIANTE rispetto a rotazioni ortogonali. Infatti, si consideri una generica matrice ortogonale G (tale cioè che GG = G G = I). Allora X = Λf+u X = Λ I f + u X = Λ GG f + u

26 Analisi statistica multivariata X = Λ G f G +u I due modelli sono del tutto equivalenti e godono delle stesse proprietà (si ricordi il modello X = Λ * f * + u indistinguibile dal modello X = Λf + u): Inoltre: E(f G ) = E(G f) = G E(f) = E(f G f G ) = E(G ff G) = G E(ff )G = G IG = I E(f G u ) = E(G fu ) = G E(fu ) = G = Σ G = Λ G Λ G + Ψ = ΛGG Λ + Ψ = ΛΛ + Ψ L indeterminatezza della soluzione può essere risolta imponendo dei vincoli alla rotazione; generalmente si impone che la matrice Λ Ψ -1 Λ sia diagonale con elementi sulla diagonale ordinati in senso decrescente. Prescindendo da possibili inversioni dei segni, Λ risulta così univocamente determinata. Nulla vieta poi al ricercatore di ruotare successivamente i fattori postmoltiplicando la matrice Λ per una nuova matrice G ortogonale qualora ciò sia utile in fase di interpretazione dei risultati, ma l argomento verrà trattato successivamente. Abbiamo detto che un modello è identificato se la soluzione al problema di stima esiste ed è unica. Abbiamo posto le condizioni per l unicità della soluzione, ma siamo sicuri che esista sempre una soluzione? Il numero delle incognite è pari a pxm (pesi fattoriali) + p (varianze dei fattori comuni) Il numero dei parametri incogniti può essere maggiore delle informazioni disponibili, date dal numero di valori distinti contenute nelle matrici S o R (stime delle matrici Σ e Ρ, rispettivamente), che sono: p(p+1)/ (informazioni disponibili)

27 A. Lubisco 3 Il vincolo per l unicità della soluzione, cioè Λ Ψ -1 Λ introduce m(m-1)/ vincoli, riducendo il numero di parametri liberi a: pxm + p - m(m-1)/ Perché la soluzione esista è dunque necessario imporre un limite al numero di fattori che possono essere inclusi nel modello fattoriale, poiché deve risultare: p(p+1)/ > pxm + p - m(m-1)/ C è quindi un limite al numero di fattori che possono essere inclusi in un modello fattoriale. Infatti: 1) se vale il segno < si hanno infinite soluzioni ) se vale il segno = si ha un unica soluzione esatta, ma il modello fattoriale ha tanti parametri quante sono le informazioni disponibili, quindi non porta ad alcuna riduzione di dimensioni. 3) se vale il segno > allora la soluzione esiste, anche se si tratta di una soluzione approssimata che porta a una riduzione delle dimensioni; è possibile determinare in modo empirico, facendo riferimento alla disuguaglianza, il numero massimo di fattori comuni da includere nel modello per un certo numero p di variabili osservate.

28 4 Analisi statistica multivariata STIMA DEI PARAMETRI DEL MODELLO Usualmente il punto di partenza per un analisi fattoriale è la matrice di correlazione delle X. Le correlazioni dovrebbero essere esaminate per prime. Se le correlazioni tra le X sono basse allora l analisi fattoriale rischia di non essere utile dal momento che correlazioni basse sono un sintomo della mancanza di fattori comuni. L esame può anche svelare aspetti particolari o anomalie indesiderate di vario tipo. Per esempio, se tra le X ve ne sono due molto correlate tra loro, a significare che una aggiunge poca informazione all altra, diventerà immediatamente visibile una correlazione prossima a uno. Il problema è che i fattori comuni alle altre X non sarebbero in grado di spiegare questa particolare correlazione e non è desiderabile aggiungere un altro fattore solo per spiegarne una. Stimare il modello significa trovare i valori dei parametri che rendono la matrice di correlazione osservata quanto più vicina possibile a quella ottenuta col modello. Nel caso del modello a un fattore si è visto che esiste una procedura ad hoc. Ciò di cui si ha bisogno è una procedura matematica in grado di stimare qualunque modello. Attualmente sono disponibili diversi metodi implementati con software di ogni genere: minimi quadrati ordinari, minimi quadrati generalizzati, massima verosimiglianza, Tutti questi metodi partono dalla costruzione di una distanza tra le matrici di correlazione osservata e del modello; essi differiscono nella misura che viene scelta. Questi metodi forniscono generalmente risultati pressoché simili, ma può essere istruttivo provarli tutti dal momento che con i software a disposizione è molto semplice e veloce farlo. Ci sono comunque anche dei vantaggi teorici u- sando sia il metodo della massima verosimiglianza che quello dei minimi quadrati pesati. Stimare il modello non significa, ovviamente, avere la garanzia che la stima sia accettabile. Bisognerà individuare dei metodi di valutazione per giudicare la bontà del modello.

29 A. Lubisco 5 Metodi di stima E nota la relazione Σ = ΛΛ + Ψ S rappresenta la stima della matrice Σ. Cerchiamo uno stimatore di Λ, Λˆ e uno di Ψ, Ψˆ che approssimino al meglio la relazione Σ = ΛΛ + Ψ in cui Σ è stimata con S. S Λˆ ˆ Λ + Ψˆ I metodi di stima dei parametri del modello che andremo a vedere sono i seguenti: a) metodo delle componenti principali b) metodo dei fattori principali (iterato) c) metodo della massima verosimiglianza In alcuni software statistici, come per esempio SPSS, vengono messi a disposizione anche altri metodi basati sui minimi quadrati e su altri sistemi di fattorizzazione. Esiste anche un metodo, detto del centroide che veniva utilizzato prima dell impiego dei calcolatori elettronici.

30 6 Analisi statistica multivariata Metodo delle componenti principali Con l analisi delle componenti principali si cercano combinazioni lineari delle variabili osservate X così da massimizzare il loro successivo contributo alla varianza totale dell insieme. Si suppone che le varianze dei fattori specifici ψ ii siano tutte nulle, cioè: S ΛΛ Il teorema spettrale afferma che data la matrice S pxp simmetrica, è sempre possibile trovare una matrice A pxp ortogonale tale che A -1 S A = L con L diagonale. Data l ortogonalità di A è possibile riscrivere l uguaglianza come A S A = L DIAG Il teorema specifica inoltre che gli elementi presenti sulla diagonale di L sono gli autovalori di S, mentre le colonne di A rappresentano i rispettivi autovettori normalizzati associati agli autovalori di S. Per la scomposizione spettrale, vale quindi la seguente uguaglianza: S = A L A dove L è la matrice diagonale che contiene in ordine decrescente gli autovalori di S, e A è la matrice ortogonale avente per colonne i corrispondenti autovettori. A causa del fatto che S è una matrice di varianze e covarianze e, di conseguenza, semidefinita positiva, gli autovalori di S devono essere tutti maggiori o uguali a zero. Dal momento che L = L 1/ L 1/ ne segue che S = A L 1/ L 1/ A

31 A. Lubisco 7 Di conseguenza Λˆ = A L 1/ Da ciò deriva quindi che S = Λˆ Λˆ. Questa conclusione non è però soddisfacente in quanto Λˆ ha dimensioni pxp e non si ottiene quindi una riduzione di dimensioni. Allora, facendo riferimento all analisi delle componenti principali, si può pensare di selezionare gli m autovalori più grandi di S e i rispettivi autovettori. Quindi si ricostruisce L 1/ 1 di dimensioni mxm in modo tale che contenga sulla diagonale le m radici quadrate degli m autovalori più elevati. Di conseguenza A 1 di dimensioni pxm conterrà gli m autovettori associati agli m autovettori più elevati. Alla fine si otterrà una stima della matrice dei pesi fattoriali di dimensione pxm 1/ Λˆ = A 1 L 1 Le specificità vengono ricavate per differenza: cioè Ψ = S - Λˆ Λˆ m ˆψ ii = Var(x i ) - k= 1 ˆ λ ik per i = 1,, p (i ˆλ ik sono in Λˆ ) È possibile condurre l analisi anche facendo riferimento alla matrice R di correlazione; tuttavia, le soluzioni ottenute usando le due diverse matrici (R e S), caratteristica già nota se si è già affrontato lo studio dell analisi delle componenti principali, non sono legate in alcun modo da una relazione algebrica; infatti il metodo non gode della proprietà di equivarianza rispetto ai cambiamenti di scala delle variabili osservate. Un ultima considerazione sul metodo delle componenti principali: uno degli svantaggi è che tale metodo non fornisce un test di bontà di adattamento. Possiamo esaminare i parametri ottenuti e valutare se essi sono prossimi o uguali a zero, ma non c è un test statistico che ci aiuti in questo. Tale test è presente invece nel metodo che si basa sulla massima verosimiglianza.

32 8 Analisi statistica multivariata Metodo dei fattori principali Un altro metodo proposto per la stima di Λ e Ψ è il metodo dei fattori principali. Tale metodo prevede che vengano stabilite stime iniziali per le comunalità. La stima delle comunalità è ottenuta per iterazione e viene calcolata in base ai pesi fattoriali. Si presuppone una stima iniziale di Ψ, Ψ ; tale stima, nell ambito del modello S ΛΛ + Ψ, da cui Ψ S - ΛΛ, comporta, per la singola variabile x i, la conoscenza di m ψ ii = s ii - k= 1 λ ik = sii h i, ossia delle varianze dei fattori specifici. Tuttavia, tale supposizione deve essere suffragata da una stima iniziale delle comunalità, h i. Prima di procedere, occorre precisare che l analisi può essere condotta sia su R sia su S. Immaginando di lavorare su R, il calcolo della varianza dei fattori specifici diventa m ψ ii = r ii - k = 1 λ ik = 1 hi In generale i criteri più seguiti per stimare le comunalità consistono, nel caso si analizzi la matrice R di correlazione, nel sostituire h i con: a) il quadrato del coefficiente di correlazione multiplo tra X i e tutte le altre variabili, R i( 1...,i 1,i + 1,...,p), indicato anche con R i oppure con b) il più elevato coefficiente di correlazione lineare tra X i e le altre variabili, maxr ii' i i' Nel caso, invece si utilizzi la matrice S di varianze-covarianze, si useranno rispettivamente: a) s ii R i( 1...,i 1,i + 1,...,p), indicato anche con s ii R i b) s ii maxr ii' i i' Nel caso della matrice R, si calcola la matrice di correlazione ridotta R- Ψˆ che si ottiene sostituendo gli 1 che si trovano sulla diagonale

33 A. Lubisco 9 principale con le stime delle comunalità diventando: ~ h 1 R Ψ ˆ = r i1 r p1 r r 1i ~ h i pi r 1p rip ~ h p Una volta stimate le comunalità, si otterranno direttamente anche le stime delle varianze dei fattori specifici, come complemento a 1 delle comunalità stesse (si ottiene, quindi, Ψ ). Nel caso di S, si calcola la matrice di varianze-covarianze ridotta S- Ψˆ che si ottiene sostituendo le varianze che si trovano sulla diagonale principale con le stime delle comunalità ~ diventando h i S Ψˆ ~ h 1 = s i1 s p1 s s 1i ~ h i pi s 1p sip ~ h p Per il teorema spettrale sarà possibile la scomposizione R - Ψˆ = A 1 L 1 A 1 dove L 1 è la matrice diagonale che contiene in ordine decrescente gli autovalori di R - Ψˆ, e A 1 è la matrice ortogonale avente per colonne i corrispondenti autovettori). Se i primi m autovalori sono positivi, dal momento che L 1 = L 1 1/ L 1 1/ e che R - Ψˆ = ΛΛ ne segue che la stima di Λ sarà 1/ ˆΛ = A 1 L 1 dove A 1 ha per colonne i primi m autovettori e L 1 ha sulla diagonale

34 3 Analisi statistica multivariata i corrispondenti autovalori. Perciò, data una adeguata stima ˆΨ di Ψ, le prime m componenti principali di R - ˆΨ sono stime dei pesi fattoriali Λ. Usando le stime dei pesi fattoriali contenute in ˆΛ vengono stimate successivamente le varianze specifiche tramite la relazione m ˆψ ii = 1 - ˆ λ ik k= 1 1 Ottenuta una nuova stima di ˆΨ (l indice 1 indica che si tratta di un 1 momento successivo), possiamo calcolare una nuova matrice R - ˆΨ 1 (o S - ˆΨ ) e di conseguenza una nuova stima ˆΛ 1. Il processo si arresta quando le differenze tra ˆΛ i e ˆ i + 1 Ψ sono minori di un ε prefissato. ˆ i + 1 Λ e tra i ˆΨ e Il problema è che il processo di convergenza può essere molto lento o, addirittura, si può non arrivare alla convergenza e può accadere che le stime di alcune varianze vengano negative (Caso di Heywood). In aggiunta, l analisi dei fattori con il metodo dei fattori principali, così come quella condotta con il metodo delle componenti principali, non è invariante rispetto ai cambiamenti di scala. C è da dire, però, che uno dei vantaggi consiste nel fatto che non è necessario porre condizioni sulla forma distributiva delle variabili X nella popolazione di riferimento.

35 A. Lubisco 31 Ripercorriamo il metodo dei fattori principali Lo scopo è sempre quello di fornire una stima di Λ e Ψ. Essendo nota la relazione R - Ψ = ΛΛ si effettua una prima stima ˆΨ di Ψ (le specificità) per poter successivamente scomporre la matrice ridotta R - ˆΨ Per la stima iniziale delle specificità, ciò che si è in grado di fare è partire da una stima iniziale delle comunalità per ottenere le specificità dalla seguente relazione: Ψ ii = Var(X i ) - h i Il punto di partenza è perciò la stima iniziale delle comunalità sostituendo h i con: a) il quadrato del coefficiente di correlazione multiplo tra X i e tutte le altre variabili, R i( 1...,i 1,i + 1,...,p), oppure con b) il più elevato coefficiente di correlazione lineare tra X i e le altre variabili, maxr ii' i i' Ottenuta ˆΨ, si determina la matrice ridotta R - ˆΨ che permette di ottenere, con la scomposizione spettrale, una stima ˆΛ pari a: 1/ ˆΛ = A 1 L 1 Questa scomposizione è possibile solo prendendo in considerazione gli autovalori positivi, non potendo fare la radice quadrata di valori negativi. Prendendo la diagonale della matrice Λ ˆ ˆ Λ si ottiene una nuova stima delle comunalità, tramite la quale ottengo una nuova stima di 1 ˆΨ. 1 Si calcola R - ˆΨ ottenendo una nuova matrice ΛΛ sulla quale fare la scomposizione spettrale ottenendo: 1 1/ ˆΛ = A L ˆ i + 1 ˆ i + 1 Si procede fino a quando le nuove coppie Λ e Ψ non differiscono da ˆΛ i i e ˆΨ meno di un valore ε prefissato. Per esempio, in SPSS questo valore è impostato a,1.

Analisi Fattoriale Analisi Esplorativa

Analisi Fattoriale Analisi Esplorativa Analisi Fattoriale Analisi Esplorativa Aldo Solari 1 / 31 Introduzione Nelle scienze sociali, in particolare in psicologia, spesso è problematico misurare le variabili di interesse direttamente. Ad esempio:

Dettagli

6. ANALISI FATTORIALE

6. ANALISI FATTORIALE 6. ANALISI FATTORIALE 6.1 Introduzione L analisi fattoriale (AF) si è sviluppata nell ambito della ricerca sulla misura di capacità attitudinali all inizio del 1900. Spearman effettua molti test su campioni

Dettagli

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0. Regressione [] el modello di regressione lineare si assume una relazione di tipo lineare tra il valore medio della variabile dipendente Y e quello della variabile indipendente X per cui Il modello si scrive

Dettagli

Psicometria con Laboratorio di SPSS 1

Psicometria con Laboratorio di SPSS 1 Psicometria con Laboratorio di SPSS 1 1-Panoramica delle tecniche: Spiegazione intuitiva vers. 1.1 (vers. 1.1, 14 marzo 2018) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università

Dettagli

Analisi delle componenti principali

Analisi delle componenti principali Analisi delle componenti principali Serve a rappresentare un fenomeno k-dimensionale tramite un numero inferiore o uguale a k di variabili incorrelate, ottenute trasformando le variabili osservate Consiste

Dettagli

Analisi fattoriale. Capitolo 9

Analisi fattoriale. Capitolo 9 Capitolo 9 Analisi fattoriale In generale la correlazione tra due variabili aleatorie X 1 e X 2 può risultare dall associazione di entrambe con una terza variabile F. A tale proposito si è già introdotto

Dettagli

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa

Dettagli

Sistemi lineari. Lorenzo Pareschi. Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara

Sistemi lineari. Lorenzo Pareschi. Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara Sistemi lineari Lorenzo Pareschi Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara http://utenti.unife.it/lorenzo.pareschi/ lorenzo.pareschi@unife.it Lorenzo Pareschi (Univ. Ferrara)

Dettagli

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y ) Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 0/03 lezioni di statistica del 5 e 8 aprile 03 - di Massimo Cristallo - A. Le relazioni tra i fenomeni

Dettagli

CORSO DI ALGEBRA LINEARE Anno Accademico 2004/2005 Appunti su SISTEMI di EQUAZIONI LINEARI

CORSO DI ALGEBRA LINEARE Anno Accademico 2004/2005 Appunti su SISTEMI di EQUAZIONI LINEARI CORSO DI ALGEBRA LINEARE Anno Accademico 2004/2005 Appunti su SISTEMI di EQUAZIONI LINEARI Lo studente ha forse già incontrato i sistemi di equazioni lineari alla scuola secondaria Con il termine equazione

Dettagli

Esercizi su Regressione e Connessione

Esercizi su Regressione e Connessione Esercizi su Regressione e Connessione Stefano Cabras 31 marzo 2009 Sommario Questa serie di esercizi è principalmente incentrata sulla regressione e la connessione, tuttavia in alcuni esercizi le soluzioni

Dettagli

Matematica Lezione 22

Matematica Lezione 22 Università di Cagliari Corso di Laurea in Farmacia Matematica Lezione 22 Sonia Cannas 14/12/2018 Indici di posizione Indici di posizione Gli indici di posizione, detti anche misure di tendenza centrale,

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Associazione, correlazione e dipendenza tra caratteri In un collettivo di 11 famiglie è stata

Dettagli

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1 lezione n. 6 (a cura di Gaia Montanucci) METODO MASSIMA VEROSIMIGLIANZA PER STIMARE β 0 E β 1 Distribuzione sui termini di errore ε i ε i ~ N (0, σ 2 ) ne consegue : ogni y i ha ancora distribuzione normale,

Dettagli

Università di Bologna Facoltà di Scienze statistiche. Analisi fattoriale. Alessandro Lubisco

Università di Bologna Facoltà di Scienze statistiche. Analisi fattoriale. Alessandro Lubisco Università di Bologna Facoltà di Scienze statistiche Analisi fattoriale Alessandro Lubisco INDICE Indice... i Analisi Fattoriale... 1 Aspetti introduttivi... 1 Introduzione ai modelli a variabili latenti...

Dettagli

4 Autovettori e autovalori

4 Autovettori e autovalori 4 Autovettori e autovalori 41 Cambiamenti di base Sia V uno spazio vettoriale tale che dim V n Si è visto in sezione 12 che uno spazio vettoriale ammette basi distinte, ma tutte con la medesima cardinalità

Dettagli

Analisi delle corrispondenze

Analisi delle corrispondenze Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello

Dettagli

REGRESSIONE E CORRELAZIONE

REGRESSIONE E CORRELAZIONE REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.

Dettagli

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è

Dettagli

Dispensa di Statistica

Dispensa di Statistica Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza

Dettagli

Appunti su Indipendenza Lineare di Vettori

Appunti su Indipendenza Lineare di Vettori Appunti su Indipendenza Lineare di Vettori Claudia Fassino a.a. Queste dispense, relative a una parte del corso di Matematica Computazionale (Laurea in Informatica), rappresentano solo un aiuto per lo

Dettagli

Analisi della correlazione canonica

Analisi della correlazione canonica Analisi della correlazione canonica Su un collettivo di unità statistiche si osservano due gruppi di k ed m variabili L analisi della correlazione canonica ha per obiettivo lo studio delle relazioni di

Dettagli

ANALISI MULTIDIMENSIONALE DEI DATI (AMD)

ANALISI MULTIDIMENSIONALE DEI DATI (AMD) ANALISI MULTIDIMENSIONALE DEI DATI (AMD) L Analisi Multidimensionale dei Dati (AMD) è una famiglia di tecniche il cui obiettivo principale è la visualizzazione, la classificazione e l interpretazione della

Dettagli

25 - Funzioni di più Variabili Introduzione

25 - Funzioni di più Variabili Introduzione Università degli Studi di Palermo Facoltà di Economia CdS Statistica per l Analisi dei Dati Appunti del corso di Matematica 25 - Funzioni di più Variabili Introduzione Anno Accademico 2013/2014 M. Tumminello

Dettagli

Argomenti della lezione:

Argomenti della lezione: Lezione 7 Argomenti della lezione: La regressione semplice Il modello teorico Il calcolo dei parametri Regressione lineare Esamina la relazione lineare tra una o più variabili esplicative (o indipendenti,

Dettagli

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione. Coppie o vettori di dati Spesso i dati osservati sono di tipo vettoriale. Ad esempio studiamo 222 osservazioni relative alle eruzioni del geyser Old Faithful. Old Faithful, Yellowstone Park. Old Faithful

Dettagli

Esercizi di statistica

Esercizi di statistica Esercizi di statistica Test a scelta multipla (la risposta corretta è la prima) [1] Il seguente campione è stato estratto da una popolazione distribuita normalmente: -.4, 5.5,, -.5, 1.1, 7.4, -1.8, -..

Dettagli

Analisi multivariata (DPRS)

Analisi multivariata (DPRS) Analisi multivariata (DPRS) 8b-Esempio di fattoriale esplorativa vers. 1.0 Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2010-2011 Rossi (Dip. Psicologia)

Dettagli

Corso in Statistica Medica

Corso in Statistica Medica Corso in Statistica Medica Introduzione alle tecniche statistiche di elaborazione dati Regressione e correlazione Dott. Angelo Menna Università degli Studi di Chieti G. d Annunziod Annunzio Anno Accademico

Dettagli

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre R - Esercitazione 6 Andrea Fasulo fasulo.andrea@yahoo.it Università Roma Tre Venerdì 22 Dicembre 2017 Il modello di regressione lineare semplice (I) Esempi tratti da: Stock, Watson Introduzione all econometria

Dettagli

Il Modello di Markowitz e la frontiera efficiente (1952)

Il Modello di Markowitz e la frontiera efficiente (1952) Il Modello di Markowitz e la frontiera efficiente (1952) Introduzione La selezione di portafoglio consiste nella ripartizione di un capitale tra più investimenti di reddito aleatorio Il capitale da ripartire

Dettagli

Esercitazione del

Esercitazione del Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36

Dettagli

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)

Dettagli

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile Corso di Metodologia della ricerca sociale L analisi della varianza (ANOVA) La tecnica con cui si esplorano le relazioni

Dettagli

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria

Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata Prof. Massimo Aria aria@unina.it Il concetto di interpolazione In matematica, e in particolare in

Dettagli

04 - Numeri Complessi

04 - Numeri Complessi Università degli Studi di Palermo Facoltà di Economia CdS Statistica per l Analisi dei Dati Appunti del corso di Matematica 04 - Numeri Complessi Anno Accademico 2013/2014 M. Tumminello, V. Lacagnina e

Dettagli

0 altimenti 1 soggetto trova lavoroentro 6 mesi}

0 altimenti 1 soggetto trova lavoroentro 6 mesi} Lezione n. 16 (a cura di Peluso Filomena Francesca) Oltre alle normali variabili risposta che presentano una continuità almeno all'interno di un certo intervallo di valori, esistono variabili risposta

Dettagli

Elementi di Psicometria

Elementi di Psicometria Elementi di Psicometria Analisi fattoriale: Spiegazione intuitiva (April 28, 2010) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2009-2010 G. Rossi

Dettagli

lezione 4 AA Paolo Brunori

lezione 4 AA Paolo Brunori AA 2016-2017 Paolo Brunori dove eravamo arrivati - abbiamo individuato la regressione lineare semplice (OLS) come modo immediato per sintetizzare una relazione fra una variabile dipendente (Y) e una indipendente

Dettagli

Minimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi

Minimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi Minimi quadrati ordinari Interpretazione geometrica Eduardo Rossi Il MRLM Il modello di regressione lineare multipla è usato per studiare le relazioni tra la variabile dipendente e diverse variabili indipendenti

Dettagli

Elementi di Algebra Lineare Matrici e Sistemi di Equazioni Lineari

Elementi di Algebra Lineare Matrici e Sistemi di Equazioni Lineari Elementi di Algebra Lineare Matrici e Sistemi di Equazioni Lineari Antonio Lanteri e Cristina Turrini UNIMI - 2016/2017 Antonio Lanteri e Cristina Turrini (UNIMI - 2016/2017 Elementi di Algebra Lineare

Dettagli

ossia può anche essere localizzato univocamente sul piano complesso con la sua forma polare.

ossia può anche essere localizzato univocamente sul piano complesso con la sua forma polare. ALGEBRA COMPLESSA Nel corso dei secoli gli insiemi dei numeri sono andati man mano allargandosi per rispondere all esigenza di dare soluzione a equazioni e problemi sempre nuovi I numeri complessi sono

Dettagli

Analisi multivariata per osservazioni appaiate. Analisi multivariata per osservazioni appaiate

Analisi multivariata per osservazioni appaiate. Analisi multivariata per osservazioni appaiate Introduzione Notazione Modello additivo Verifica d ipotesi Sia X una variabile q-dimensionale, a valori reali, non degenere, osservata in k tempi diversi (τ 1, τ 2,..., τ k ), sulle stesse n unità statistiche

Dettagli

Analisi dei Fattori. Francesca Marta Lilja Di Lascio Dip.to di Scienze Statistiche P. Fortunati Università di Bologna

Analisi dei Fattori. Francesca Marta Lilja Di Lascio Dip.to di Scienze Statistiche P. Fortunati Università di Bologna Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Analisi dei Fattori Francesca Marta Lilja

Dettagli

STATISTICA A K (60 ore)

STATISTICA A K (60 ore) STATISTICA A K (60 ore) Marco Riani mriani@unipr.it http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta

Dettagli

SDE Marco Riani

SDE Marco Riani SDE 208 Marco Riani mriani@unipr.it http://www.riani.it RIDUZIONE DELLE DIMENSIONI (con riferimento alle variabili Analisi dei fattori Analisi delle componenti principali OBIETTIVI Date p variabili (correlate

Dettagli

A =, c d. d = ad cb. c d A =

A =, c d. d = ad cb. c d A = Geometria e Algebra (II), 271112 1 Definizione D ora innanzi, al posto di dire matrice quadrata di tipo n n o matrice quadrata n n diremo matrice quadrata di ordine n o in breve matrice di ordine n Il

Dettagli

Scheda n. 13: modelli lineari

Scheda n. 13: modelli lineari Scheda n. 13: modelli lineari December 4, 2008 1 Combinazioni affini di variabili aleatorie La teoria che stiamo per esporre vuole descrivere relazioni matematiche tra variabili aleatorie: in tali relazioni

Dettagli

Note per il corso di Geometria Corso di laurea in Ing. Edile/Architettura. 4 Sistemi lineari. Metodo di eliminazione di Gauss Jordan

Note per il corso di Geometria Corso di laurea in Ing. Edile/Architettura. 4 Sistemi lineari. Metodo di eliminazione di Gauss Jordan Note per il corso di Geometria 2006-07 Corso di laurea in Ing. Edile/Architettura Sistemi lineari. Metodo di eliminazione di Gauss Jordan.1 Operazioni elementari Abbiamo visto che un sistema di m equazioni

Dettagli

Analisi Multivariata Prova intermedia del 20 aprile 2011

Analisi Multivariata Prova intermedia del 20 aprile 2011 Analisi Multivariata Prova intermedia del 20 aprile 20 Esercizio A Sia X N 3 (µ, Σ) con µ = [ 3,, 4] e 2 0 Σ = 2 5 0 0 0 2 Quali delle seguenti variabili casuali è indipendente? Motivare la risposta. A.

Dettagli

La regressione lineare. Rappresentazione analitica delle distribuzioni

La regressione lineare. Rappresentazione analitica delle distribuzioni La regressione lineare Rappresentazione analitica delle distribuzioni Richiamiamo il concetto di dipendenza tra le distribuzioni di due caratteri X e Y. Ricordiamo che abbiamo definito dipendenza perfetta

Dettagli

Regressione & Correlazione

Regressione & Correlazione Regressione & Correlazione Monia Ranalli Ranalli M. Dipendenza Settimana # 4 1 / 20 Sommario Regressione Modello di regressione lineare senplice Stima dei parametri Adattamento del modello ai dati Correlazione

Dettagli

Rappresentazione dei dati multivariati

Rappresentazione dei dati multivariati Rappresentazione dei dati multivariati Quando si hanno più di due varabili la posizione di ciascuna unità rispetto alle altre può essere rappresentata nel diagramma relativo alle prime due CP l importanza

Dettagli

La matrice delle correlazioni è la seguente:

La matrice delle correlazioni è la seguente: Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA

Dettagli

ALGEBRA LINEARE PARTE III

ALGEBRA LINEARE PARTE III DIEM sez Matematica Finanziaria Università degli studi di Genova Dicembre 200 Indice PREMESSA 2 GENERALITA 2 RAPPRESENTAZIONE DI UN SISTEMA LINEARE IN FORMA MATRI- CIALE 2 3 SOLUZIONE DI SISTEMI LINEARI

Dettagli

Psicometria con Laboratorio di SPSS 2

Psicometria con Laboratorio di SPSS 2 Psicometria con Laboratorio di SPSS 2 Esempio di fattoriale esplorativa (v. 1.1, 12 aprile 2018) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2017-18

Dettagli

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value Inferenza: singolo parametro Sistema di ipotesi: H 0 : β j = β j0 H 1 : β j β j0 statistica test t b j - b s a jj j0 > t a, 2 ( n-k) confronto con valore t o p-value Se β j0 = 0 X j non ha nessuna influenza

Dettagli

9.3 Il metodo dei minimi quadrati in formalismo matriciale

9.3 Il metodo dei minimi quadrati in formalismo matriciale 8 CAPIOLO 9. IMA DEI PARAMERI MEODO DEI MINIMI QADRAI 9.3 Il metodo dei minimi quadrati in formalismo matriciale Nel caso si debba applicare il metodo minimi quadrati con molti parametri risulta vantaggioso

Dettagli

Analisi delle corrispondenze

Analisi delle corrispondenze Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza

Dettagli

Statistica descrittiva in due variabili

Statistica descrittiva in due variabili Statistica descrittiva in due variabili 1 / 65 Statistica descrittiva in due variabili 1 / 65 Supponiamo di misurare su un campione statistico due diverse variabili X e Y. Indichiamo come al solito con

Dettagli

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati

Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati ISTITUZIONI DI STATISTICA A. A. 2007/2008 Marco Minozzo e Annamaria Guolo Laurea in Economia del Commercio Internazionale Laurea in Economia e Amministrazione delle Imprese Università degli Studi di Verona

Dettagli

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1 Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare

Dettagli

Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1

Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1 Università degli Studi Roma Tre Anno Accademico 2014/2015 ST410 Statistica 1 Lezione 1 - Martedì 23 Settembre 2014 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,

Dettagli

5. Analisi dei dati di input

5. Analisi dei dati di input Anno accademico 2007/08 Analisi e scelta dei dati di input Per l esecuzione di una simulazione è necessario disporre di dati di input che siano una adeguata rappresentazione di ciò che accadrà in realtà

Dettagli

Statistica multivariata Donata Rodi 17/10/2016

Statistica multivariata Donata Rodi 17/10/2016 Statistica multivariata Donata Rodi 17/10/2016 Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2015-2016 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

Geometria Prova scritta, appello unico, sessione autunnale Corso di laurea in fisica A.A 2017/2018 Canali A C, e L Pa

Geometria Prova scritta, appello unico, sessione autunnale Corso di laurea in fisica A.A 2017/2018 Canali A C, e L Pa Geometria Prova scritta, appello unico, sessione autunnale Corso di laurea in fisica A.A 27/28 Canali A C, e L Pa Durata: 2 ore e 3 minuti Simone Diverio Alessandro D Andrea Paolo Piccinni 7 settembre

Dettagli

Esercizi svolti. delle matrici

Esercizi svolti. delle matrici Esercizi svolti. astratti. Si dica se l insieme delle coppie reali (x, y) soddisfacenti alla relazione x + y è un sottospazio vettoriale di R La risposta è sì, perchè l unica coppia reale che soddisfa

Dettagli

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica

Σ (x i - x) 2 = Σ x i 2 - (Σ x i ) 2 / n Σ (y i - y) 2 = Σ y i 2 - (Σ y i ) 2 / n. 13. Regressione lineare parametrica 13. Regressione lineare parametrica Esistono numerose occasioni nelle quali quello che interessa è ricostruire la relazione di funzione che lega due variabili, la variabile y (variabile dipendente, in

Dettagli

Appunti di ALGEBRA LINEARE

Appunti di ALGEBRA LINEARE Appunti di ALGEBRA LINEARE Corso di Laurea in Chimica A. A. 2009/200 Capitolo SPAZI VETTORIALI In matematica si incontrano spesso insiemi di elementi su cui sono definite delle operazioni che godono di

Dettagli

Geometria analitica del piano pag 12 Adolfo Scimone

Geometria analitica del piano pag 12 Adolfo Scimone Geometria analitica del piano pag 12 Adolfo Scimone Fasci di rette Siano r e r' due rette distinte di equazioni r: ax + by + c r': a' x + b' y + c' Consideriamo la retta combinazione lineare delle due

Dettagli

Statistica descrittiva in due variabili

Statistica descrittiva in due variabili Statistica descrittiva in due variabili Dott Nicola Pintus AA 2018-2019 Indichiamo con U la popolazione statistica e con u i le unità statistiche Ad ogni unità statistica associamo i caratteri osservati

Dettagli

Introduzione soft alla matematica per l economia e la finanza. Marta Cardin, Paola Ferretti, Stefania Funari

Introduzione soft alla matematica per l economia e la finanza. Marta Cardin, Paola Ferretti, Stefania Funari Introduzione soft alla matematica per l economia e la finanza Marta Cardin, Paola Ferretti, Stefania Funari Capitolo Sistemi di equazioni lineari.8 Il Teorema di Cramer Si consideri un generico sistema

Dettagli

Statistica. Alfonso Iodice D Enza

Statistica. Alfonso Iodice D Enza Statistica Alfonso Iodice D Enza iodicede@unicas.it Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative

Dettagli

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. Un indicatore che sintetizza in un unico numero tutti i dati, nascondendo quindi la molteplicità dei dati. Per esempio,

Dettagli

MATRICI E SISTEMI LINEARI

MATRICI E SISTEMI LINEARI MATRICI E SISTEMI LINEARI - PARTE I - Felice Iavernaro Dipartimento di Matematica Università di Bari 27 Febbraio 2006 Felice Iavernaro (Univ. Bari) Matrici e Sistemi lineari 27/02/2006 1 / 1 Definizione

Dettagli

Differenze tra metodi di estrazione

Differenze tra metodi di estrazione Lezione 11 Argomenti della lezione: L analisi fattoriale: il processo di estrazione dei fattori Metodi di estrazione dei fattori Metodi per stabilire il numero di fattori Metodi di Estrazione dei Fattori

Dettagli

I VETTORI GAUSSIANI E. DI NARDO

I VETTORI GAUSSIANI E. DI NARDO I VETTOI GAUSSIANI E. DI NADO. L importanza della distribuzione gaussiana I vettori di v.a. gaussiane sono senza dubbio uno degli strumenti più utili in statistica. Nell analisi multivariata, per esempio,

Dettagli

CONFRONTO TRA LA MEDIE DI DUE CAMPIONI INDIPENDENTI

CONFRONTO TRA LA MEDIE DI DUE CAMPIONI INDIPENDENTI CONFRONTO TRA LA MEDIE DI DUE CAMPIONI INDIPENDENTI ipotesi sul confronto tra le medie di due campioni indipendenti Obiettivo: decidere, attraverso il confronto tra le medie dei due campioni indipendenti,

Dettagli

Statistica di base per l analisi socio-economica

Statistica di base per l analisi socio-economica Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo gdibartolomeo@unite.it Definizioni di base Una popolazione è l insieme

Dettagli

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1 Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1 Lezione 1 - Mercoledì 28 Settembre 2016 Introduzione al corso. Richiami di probabilità: spazi di probabilità, variabili aleatorie,

Dettagli

ANALISI DELLE SERIE STORICHE

ANALISI DELLE SERIE STORICHE ANALISI DELLE SERIE STORICHE De Iaco S. s.deiaco@economia.unile.it UNIVERSITÀ del SALENTO DIP.TO DI SCIENZE ECONOMICHE E MATEMATICO-STATISTICHE FACOLTÀ DI ECONOMIA 24 settembre 2012 Indice 1 Funzione di

Dettagli

Analisi lineari: ACP. Loredana Cerbara

Analisi lineari: ACP. Loredana Cerbara Loredana Cerbara Analisi fattoriali L analisi fattoriale appartiene a una famiglia di metodi che utilizza le cosiddette variabili latenti. Spesso, in particolar modo nelle scienze sociali, non si è in

Dettagli

APPLICAZIONI. Im f = {b B a A tale che f (a) = b}.

APPLICAZIONI. Im f = {b B a A tale che f (a) = b}. APPLICAZIONI Diremo applicazione (o funzione) da un insieme A ad un insieme B una legge f che associa ad ogni elemento a A uno ed un solo elemento b B. Scriviamo f : A B e il corrispondente o immagine

Dettagli

Statistica per l Impresa

Statistica per l Impresa Statistica per l Impresa a.a. 2017/2018 Tecniche di Analisi Multidimensionale L analisi delle componenti principali 14 maggio 2018 Introduzione L Obiettivo dell ACP L Analisi delle Componenti Principali

Dettagli

Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari"

Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in Scienze e Tecnologie Alimentari Levine, Krehbiel, Berenson Statistica Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari" Unità Integrata Organizzativa

Dettagli

1. variabili dicotomiche: 2 sole categorie A e B

1. variabili dicotomiche: 2 sole categorie A e B Variabile X su scala qualitativa (due categorie) modello di regressione: variabili quantitative misurate almeno su scala intervallo (meglio se Y è di questo tipo e preferibilmente anche le X i ) variabili

Dettagli

MATRICI E SISTEMI LINEARI

MATRICI E SISTEMI LINEARI 1 Rappresentazione di dati strutturati MATRICI E SISTEMI LINEARI Gli elementi di una matrice, detti coefficienti, possono essere qualsiasi e non devono necessariamente essere omogenei tra loro; di solito

Dettagli

1 4 Esempio 2. Si determini la distribuzione di probabilità della variabile casuale X = punteggio ottenuto lanciando un dado. Si ha immediatamente:

1 4 Esempio 2. Si determini la distribuzione di probabilità della variabile casuale X = punteggio ottenuto lanciando un dado. Si ha immediatamente: CAPITOLO TERZO VARIABILI CASUALI. Le variabili casuali e la loro distribuzione di probabilità In molte situazioni, dato uno spazio di probabilità S, si è interessati non tanto agli eventi elementari (o

Dettagli

Parte 12b. Riduzione a forma canonica

Parte 12b. Riduzione a forma canonica Parte 2b. Riduzione a forma canonica A. Savo Appunti del Corso di Geometria 202-3 Indice delle sezioni. Coniche, 2. Esempio di riduzione, 4 3. Teoremi fondamentali, 6 4. Come determinare l equazione canonica,

Dettagli

Elementi di Algebra Matriciale. (richiami)

Elementi di Algebra Matriciale. (richiami) Elementi di Algebra Matriciale Definizione di matrice (richiami) Matrice quadrata, diagonale, identità, triangolare, simmetrica Matrice trasposta Principali operazioni su matrici e vettori: somma, sottrazione,

Dettagli

Statistica Applicata all edilizia: il modello di regressione

Statistica Applicata all edilizia: il modello di regressione Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione

Dettagli

ALGEBRA C. MALVENUTO

ALGEBRA C. MALVENUTO ALGEBRA CANALE A-L ESAME SECONDA PARTE SECONDO ESONERO 27 GENNAIO 22 C. MALVENUTO Istruzioni. Completare subito la parte inferiore di questa pagina con il proprio nome, cognome e firma. Scrivere solamente

Dettagli

Matematica II, aa

Matematica II, aa Matematica II, aa 2011-2012 Il corso si e svolto su cinque temi principali: sistemi lineari, algebra delle matrici, determinati, spazio vettoriale R n, spazio euclideo R n ; per ogni tema descrivo gli

Dettagli

Matrici simili. Matrici diagonalizzabili.

Matrici simili. Matrici diagonalizzabili. Matrici simili. Matrici diagonalizzabili. Definizione (Matrici simili) Due matrici quadrate A, B si dicono simili se esiste una matrice invertibile P tale che B = P A P. () interpretazione: cambio di base.

Dettagli

Esercizi sulle coniche (prof.ssa C. Carrara)

Esercizi sulle coniche (prof.ssa C. Carrara) Esercizi sulle coniche prof.ssa C. Carrara Alcune parti di un esercizio possono ritrovarsi in un altro esercizio, insieme a parti diverse. È un occasione per affrontarle da un altra angolazione.. Determinare

Dettagli