6. ANALISI FATTORIALE
|
|
|
- Artemisia Guidi
- 8 anni fa
- Visualizzazioni
Transcript
1 6. ANALISI FATTORIALE 6.1 Introduzione L analisi fattoriale (AF) si è sviluppata nell ambito della ricerca sulla misura di capacità attitudinali all inizio del Spearman effettua molti test su campioni numerosi per cercare di misurare l intelligenza degli individui sulla base delle correlazioni tra i punteggi ottenuti in diverse prove. Rilevando che il punteggio in ogni test era correlato positivamente con tutti gli altri, spiega questo risultato distinguendo due ordini di fattori: 1) un fattore comune che spiegava le correlazioni positive fra i test; 2) una serie di fattori specifici, espressione delle abilità specifiche individuali, che spiegavano perché tali correlazioni non fossero perfette. L ipotesi alla base era che la mente umana contiene un abilità generale, l intelligenza, che influisce sul rendimento in tutti i test, e un vasto insieme di abilità particolari. L intelligenza non è direttamente osservabile, ma si può fare riferimento ad un insieme di indicatori (rilevabili e misurabili) che si ritengono correlati con questo fattore comune, (indicato anche come variabile latente, perché non direttamente misurabile). Questi indicatori dovranno quindi essere correlati con la variabile latente: nel caso dell intelligenza gli individui più intelligenti devono poter ottenere valori più elevati degli indicatori considerati (tipicamente test attitudinali che misurano l'abilità linguistica, di calcolo e di logica). Allo stesso modo, per valutare lo stato socio-economico delle famiglie ci si potrebbe basare, per esempio, sulle informazioni circa il reddito, l'occupazione e il livello di istruzione dei suoi componenti. In generale l AF viene utilizzata quando le variabili osservate su un insieme di individui possono essere considerate come funzioni lineari di un gruppo ristretto di una o più variabili latenti, non direttamente osservabili. Questi fattori sono comuni a tutte le variabili osservate (o a gruppi di esse) ed il problema dell AF consiste nell identificare e denominare questi fattori. In generale, quindi, l AF è un metodo che cerca di spiegare le correlazioni fra un insieme di h variabili osservate attraverso un insieme di k variabili non osservabili. Un elevato coefficiente di correlazione lineare tra due variabili X i e X j può infatti dipendere dalla loro associazione con una terza variabile, F. In questo caso si ricorre al calcolo del coefficiente di correlazione parziale fra le due variabili, al netto di F, che consente di misurare l associazione tra X i e X j dopo che si
2 è eliminato l effetto lineare di F su ciascuna di esse. Se questo coefficiente è prossimo a zero, allora è proprio la variabile F quella responsabile dell elevata relazione lineare esistente fra X i e X j. In alcuni casi si può supporre che esista un unica variabile latente, ma più spesso si ipotizza la presenza di più variabili. C è uno stretto legame tra l AF e l analisi in CP, che talvolta vengono confuse fra loro, ma fra i due tipi di analisi esistono delle differenze fondamentali: - L analisi in CP è un metodo di statistica descrittiva che ha l obiettivo di ridurre la dimensione della matrice di dati, mentre l AF è una tecnica basata su un modello che necessita di assunzioni sulla distribuzione congiunta delle variabili nella popolazione. Pertanto si utilizzano metodi di statistica inferenziale per misurare la bontà di adattamento, la significatività e la precisione delle stime. - Una seconda differenza sta nel fatto che, mentre nell analisi in CP si determinano delle opportune combinazioni lineari delle variabili osservate, nell AF sono invece le variabili osservate a essere espresse come combinazioni lineari di fattori latenti. - Infine l analisi in CP cerca di spiegare con poche componenti una grande parte della varianza delle variabili osservate, mentre nell AF si prendono in considerazione le covarianze, o le correlazioni, tra le variabili. L ipotesi sottostante l AF è che se le variabili osservate sono funzioni lineari di variabili comuni, dovranno risultare più o meno correlate fra di loro, per cui l AF può essere considerata come la ricerca delle origini delle correlazioni fra le variabili. I fattori comuni determinano le covarianze fra le variabili, mentre i fattori specifici contribuiscono solo alla varianza della variabile a cui si riferiscono. Questo metodo di analisi non è accettato da tutti gli studiosi in quanto può accadere di avere dei data set per i quali il modello fattoriale non fornisce un adeguato adattamento, nel senso che non si riesce ad individuare alcun fattore comune. Inoltre l AF si basa spesso su scelte soggettive, a causa della difficoltà di individuare il numero corretto di variabili latenti e di darne una chiara interpretazione sulla base dei risultati ottenuti. Cominciando a considerare il caso in cui le h variabili osservate dipendano da un unico fattore o variabile latente F, l AF si basa sul modello lineare X i = i F + U i (i = 1, 2,, h) 6.1.1
3 che solo apparentemente somiglia al modello di regressione, dato che il fattore non è osservabile così che tutto quello che si trova a destra dell uguaglianza è incognito. Scopo dell AF è spiegare l interdipendenza esistente all interno di un insieme numeroso di variabili X i tramite un fattore F non osservabile sottostante. Con il modello si suppone che le intensità delle h variabili X i rilevate su n unità dipendano da un unico fattore comune F e da un fattore specifico per ogni individuo, oltre che da una componente casuale. Il parametro i indica il peso del fattore (o peso fattoriale o loading factor) per la variabile X i, mentre U i è una variabile le cui intensità sono influenzate sia dal fattore specifico sia da fattori casuali (che in genere non si ha interesse a misurare distintamente). Nel modello a un fattore le ipotesi sottostanti sono: - l indipendenza dei fattori specifici U i da F - Le variabili U i hanno distribuzione normale, di media nulla e varianza loro, per cui anche le X i sono condizionatamente indipendenti, dato F. 2 i, e sono indipendenti tra di - dato che F è una variabile non osservata, si assume (per semplicità di calcolo) che abbia media zero e varianza unitaria, due caratteristiche di comodo che non influiscono sulla forma dell equazione di regressione. Dato che la U i è incorrelata con F la varianza della generica X i corrisponde alla somma V(X i ) = 2 i + i, dove 2 i è la varianza spiegata dal fattore, detta comunalità o comunanza, e i è la varianza residua, detta varianza specifica, specificità o unicità. Si dimostra inoltre che Cov(X i,f) = i. L obiettivo dell AF è la stima del valore dei coefficienti i, delle varianze delle U i e dei valori di F. Nel caso di più fattori comuni, date le h variabili X i rilevate su n individui, si suppone che le loro intensità dipendano da q fattori comuni F j (j = 1, 2,..., q) e da un solo fattore unico. Ipotizzando per semplicità che ogni fattore comune abbia media 0 e varianza 1, ogni X i può essere scomposta nel modo seguente
4 X i = i + i1 F1 + + iq F q + U i dove ij è il peso del j-esimo fattore per la variabile X i e corrisponde anche alla Cov(X i, F j ), mentre U i è una variabile le cui intensità sono influenzate dal fattore specifico e da fattori casuali. La varianza di X i assume la forma V(X i ) α 2 j ij ψ i In questo caso le comunalità sono le componenti della varianza corrispondenti a j α 2 ij e le varianze specifiche sono date sempre da i. Come si è detto, per i fattori comuni si assumono le condizioni che abbiano media zero, varianza unitaria e siano incorrelati fra di loro, mentre si assume che i fattori specifici abbiano media zero, varianza i e siano incorrelati fra di loro e con i fattori specifici. Se è valido il modello fattoriale, risulta che: - la matrice di covarianza delle h variabili X i è scomposta nella somma di due matrici sulle cui diagonali compaiono rispettivamente le comunalità e le specificità. - la covarianza fra X i e X j è completamente spiegata dai fattori comuni, - le covarianze fra fattori e variabili coincidono con i pesi fattoriali. Si dimostra che il modello fattoriale è invariante per cambiamenti di scala delle osservazioni. Il problema dell AF sta nel fatto che la matrice dei pesi fattoriali non è identificabile, ossia che non esiste una soluzione unica alla determinazione dei pesi fattoriali. Il problema viene risolto imponendo alcuni particolari vincoli che finiscono per imporre un limite al numero di fattori che possono essere stimati. C è inoltre da osservare che in alcuni casi la scomposizione della varianza può portare a stime negative che ovviamente non possono essere accettate, trattandosi di varianze.
5 Le comunalità delle variabili osservate, definite come la somma dei quadrati dei corrispondenti pesi fattoriali, danno una indicazione del grado in cui ciascuna variabile si sovrappone ai fattori, o più tecnicamente, rappresentano la proporzione di varianza delle variabili X i che può essere spiegata dai punteggi nei fattori comuni. È possibile calcolare la proporzione della variabilità complessiva spiegata dal modello fattoriale, dividendo la somma delle comunalità per il numero di variabili osservate. Se, per esempio, la somma delle comunalità di un modello a tre fattori determinato su 9 variabili osservate è pari a 6.3, allora la percentuale di variazione spiegata dal modello è pari al 70%. Questo valore può essere inteso come un livello complessivo di valutazione della performance del modello. Le singole comunalità consentono quindi di valutare la bontà del modello nei confronti di ciascuna variabile osservata, mentre la comunalità media fornisce una valutazione di insieme. In tutti i metodi di stima dell analisi fattoriale vengono determinati dei valori di partenza delle comunalità e questi valori di partenza variano a seconda del metodo scelto, anche se in genere i risultati finali ottenuti con l AF non sono molto diversi fra di loro. Quelli più frequentemente utilizzati sono - il metodo dei fattori principali, che prevede siano stabilite stime iniziali per le comunalità. La stima delle comunalità è ottenuta per iterazione e viene calcolata in base ai pesi fattoriali. - il metodo di massima verosimiglianza, che si utilizza quando si può assumere che le variabili originarie abbiano una distribuzione normale multivariata. Per interpretare più facilmente i pesi fattoriali di solito si effettuano delle rotazioni degli assi fattoriali che semplificano la struttura del sistema di pesi. Si cerca di suddividere le variabili in gruppi, in modo tale che i pesi all interno di ciascun gruppo siano elevati su un singolo fattore e bassi o trascurabili sugli altri. Le soluzioni più utilizzate rispettano l ortogonalità dei fattori. Le più usate sono - varimax - quartimax 6.2 Proc factor La procedura SAS per effettuare un AF è la proc factor, che prevede opzioni diverse a seconda del metodo di stima prescelto. Usualmente il punto di partenza per un AF si basa sull analisi della matrice di correlazione delle variabili rilevate, dato che se le correlazioni sono basse allora l analisi rischia di non essere utile, in quanto basse correlazioni sono un sintomo della mancanza di fattori comuni.
6 Nella tabella seguente è riportata, per esempio, la matrice di correlazione relativa ai risultati ottenuti da 34 atleti in alcune gare del decathlon. Le sei variabili rilevate sono: X 1 - tempo ottenuto nella corsa dei 100 metri, X 2 - tempo nei 400 metri, X 3 - tempo nei 110 ad ostacoli X 4 - risultato in metri nel salto con l asta, X 5 - risultato nel lancio del disco, X 6 - risultato nel lancio del giavellotto. Tabella matrice di correlazione di alcuni risultati ottenuti nel decathlon X 1 X 2 X 3 X 4 X 5 X 6 X 1 1,000 0,698 0,751-0,627-0,353-0,344 X 2 0,698 1,000 0,655-0,521-0,154-0,150 X 3 0,751 0,655 1,000-0,709-0,403-0,350 X 4-0,627-0,521-0,709 1,000 0,620 0,557 X 5-0,353-0,154-0,403 0,620 1,000 0,618 X 6-0,344-0,150-0,350 0,557 0,618 1,000 Dalla tabella si nota che i risultati relativi alle corse sono abbastanza correlati fra di loro in modo positivo e che lo stesso vale anche per i risultati del secondo gruppo. Le correlazioni fra i due gruppi sono negative, ma i risultati migliori nelle discipline del primo gruppo corrispondono a tempi più bassi, mentre per le altre variabili è vero il contrario, cosicché in realtà i risultati sono tutti correlati positivamente. Si nota anche che le correlazioni più alte fra le variabili del primo gruppo e le variabili del secondo sono quelle tra le corse ed il salto con l'asta, dato che in quest'ultima disciplina probabilmente la fase della rincorsa è più importante che nei due lanci. Per far eseguire l AF al SAS a partire dai dati contenuti nella tabella è necessario dichiarare che il data set in questione è una matrice di correlazione. Questo risultato può essere ottenuto utilizzando l opzione (TYPE=CORR) nel data step, così come è stato fatto nel listato successivo in cui l opzione è
7 stata inserita fra parentesi tonde, insieme al commento circa la numerosità delle unità statistiche utilizzate, /* N=34 */. Si può anche notare come sia stata utilizzata una variabile, DF, corrispondente ai gradi di libertà (Degree of Freedom) che è stata posta pari alla numerosità delle unità più 1, in accordo con quanto previsto dal SAS che calcola automaticamente DF=N-1. * * data are in the form of a correlation matrix. so the * SAS data set must be a TYPE=CORR data set * ; DATA a(/* N=34 */ TYPE=CORR); INPUT _NAME_ $ X1-X6; IF _N_=1 THEN _TYPE_='N '; ELSE _TYPE_='CORR'; LABEL X1='100 metri' X2='400 metri' X3='110 ostacoli' X4='salto con asta' X5='lancio disco' X6='giavellotto' ; CARDS; DF X X X X X X ; proc factor priors=smc; run; Con il metodo dei fattori principali si ottengono le stime preliminari delle comunalità che sono indicate nella tabella seguente Tabella Metodo del fattore iniziale: Fattori principali - Stime di comunanza a priori: SMC X1 X2 X3 X4 X5 X
8 Il SAS ottiene due soli autovalori positivi pari rispettivamente a 3.17 e 0.79 circa, come risulta dai valori riportati nella tabella successiva Tabella Autovalori della matrice (metodo dei fattori principali) Autovalore Differenza Proporzione Cumulativa Le soluzioni ammissibili sono quindi costituite da due soli fattori i cui coefficienti (pesi) sono Tabella Pattern fattoriale Factor1 Factor2 X1 100 metri X2 400 metri X3 110 ostacoli X4 salto con asta X5 lancio disco X6 giavellotto La varianza spiegata da ciascun fattore risulta rispettivamente pari a circa 3.17 e 0.79, come si nota dai risultati elencati nella tabella 6.2.5, mentre le stime finali delle comunalità sono riportate nella tabella 6.2.6
9 Tabella Varianza spiegata dai fattori Factor1 Factor Tabella Stime di comunanza finali: Totale = X1 X2 X3 X4 X5 X La matrice dei pesi in seguito è stata ruotata utilizzando l opzione varimax, esplicitata con la seguente opzione prevista dal SAS proc factor priors=smc rotate=varimax; In questo modo si sono ottenuti i nuovi risultati riportati nelle tabelle successive Tabella Pattern fattoriale ruotato Factor1 Factor2 X1 100 metri X2 400 metri X3 110 ostacoli X4 salto con asta X5 lancio disco X6 giavellotto Tabella Varianza spiegata dai fattori Factor1 Factor
10 Tabella Stime di comunanza finali: Totale = X1 X2 X3 X4 X5 X I nuovi pesi rendono più chiara l'identificazione dei fattori. Il primo fattore infatti risulta correlato con le tre variabili relative alle corse e più debolmente con i risultati nel salto con l'asta. Il secondo fattore è correlato esclusivamente con il salto con l'asta e con i lanci, cosicché si può concludere che i due fattori in senso lato corrispondono alla potenza delle gambe ed quella delle braccia. La varianza spiegata da questi nuovi fattori è rispettivamente pari a 2.26 e 1.70 circa. Se sui dati della tabella si vuole effettuare la stima con il metodo di massima verosimiglianza, il listato SAS assumerà la forma seguente proc factor method=ml; Anche in questo caso si ottengono due soli autovalori positivi, come risulta dalla tabella seguente Tabella Autovalori della matrice (metodo di massima verosimiglianza) Autovalore Differenza Proporzione Cumulativa In questo caso il SAS effettua automaticamente anche un test di significatività sul numero di fattori, i cui risultati sono riportati nella tabella Tabella
11 Test di significatività basati su 35 osservazioni Test DF Chi-quadrato Pr > ChiQuadr H0: Nessun fattore comune <.0001 HA: Almeno un fattore comune H0: 2 fattori sono sufficienti HA: altri fattori sono necessari Tralasciando alcune informazioni fornite dal SAS circa la matrice di correlazione ridotta, i pesi fattoriali risultano quelli riportati nella tabella seguente Tabella Pattern fattoriale Factor1 Factor2 X1 100 metri X2 400 metri X3 110 ostacoli X4 salto con asta X5 lancio disco X6 giavellotto mentre la varianza spiegata è pari a circa 3.27 per il primo fattore e a 0.92 per il secondo (considerando i fattori non pesati). Sempre relativamente al caso non pesato, le stime finali della comunanza sono Tabella
12 Stime di comunanza finali: Totale = Variabile Comunanza X X X X X X Anche in questo caso si è effettuata la rotazione Varimax ottenendo i risultati seguenti Tabella Pattern fattoriale ruotato Factor1 Factor2 X1 100 metri X2 400 metri X3 110 ostacoli X4 salto con asta X5 lancio disco X6 giavellotto Tabella Varianza spiegata Fattore Non pesato Factor Factor Tabella Stime di comunanza finali: Totale = Variabile Comunanza X
13 Tabella Stime di comunanza finali: Totale = Variabile Comunanza X X X X X La varianza spiegata da questi nuovi fattori risulta rispettivamente pari a 2.37 ed a 1.81 circa e, come si vede, i risultati ottenuti con i due diversi metodi sono molto simili fra di loro.
La matrice delle correlazioni è la seguente:
Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA
Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo
UIVERSITA DEGLI STUDI DI BASILICATA FACOLTA DI ECOOMIA Corso di laurea in Economia Aziendale anno accademico 2012/2013 Lezioni di Statistica del 15 e 18 aprile 2013 Docente: Massimo Cristallo LA RELAZIOE
Analisi delle corrispondenze
Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello
Differenze tra metodi di estrazione
Lezione 11 Argomenti della lezione: L analisi fattoriale: il processo di estrazione dei fattori Metodi di estrazione dei fattori Metodi per stabilire il numero di fattori Metodi di Estrazione dei Fattori
REGRESSIONE E CORRELAZIONE
REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.
x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )
Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 0/03 lezioni di statistica del 5 e 8 aprile 03 - di Massimo Cristallo - A. Le relazioni tra i fenomeni
Statistica Descrittiva Soluzioni 7. Interpolazione: minimi quadrati
ISTITUZIONI DI STATISTICA A. A. 2007/2008 Marco Minozzo e Annamaria Guolo Laurea in Economia del Commercio Internazionale Laurea in Economia e Amministrazione delle Imprese Università degli Studi di Verona
Analisi delle corrispondenze
Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza
Esercizi di statistica
Esercizi di statistica Test a scelta multipla (la risposta corretta è la prima) [1] Il seguente campione è stato estratto da una popolazione distribuita normalmente: -.4, 5.5,, -.5, 1.1, 7.4, -1.8, -..
Analisi delle componenti principali
Analisi delle componenti principali Serve a rappresentare un fenomeno k-dimensionale tramite un numero inferiore o uguale a k di variabili incorrelate, ottenute trasformando le variabili osservate Consiste
Analisi dei Fattori. Francesca Marta Lilja Di Lascio Dip.to di Scienze Statistiche P. Fortunati Università di Bologna
Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Analisi dei Fattori Francesca Marta Lilja
L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010
L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano. Strumenti statistici in Excell
LEZIONI IN LABORATORIO Corso di MARKETING L. Baldi Università degli Studi di Milano Strumenti statistici in Excell Pacchetto Analisi di dati Strumenti di analisi: Analisi varianza: ad un fattore Analisi
La regressione lineare. Rappresentazione analitica delle distribuzioni
La regressione lineare Rappresentazione analitica delle distribuzioni Richiamiamo il concetto di dipendenza tra le distribuzioni di due caratteri X e Y. Ricordiamo che abbiamo definito dipendenza perfetta
ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM)
ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM) Questa procedura è stata introdotta negli anni 70, ad opera della scuola francese di analisi dei dati (Benzecri). Inizialmente fu proposta per analizzare tabelle
PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA
PROCEDURE/TECNICHE DI ANALISI / MISURE DI ASSOCIAZIONE A) ANALISI DELLA VARIANZA PROCEDURA/TECNICA DI ANALISI DEI DATI SPECIFICAMENTE DESTINATA A STUDIARE LA RELAZIONE TRA UNA VARIABILE NOMINALE (ASSUNTA
ESERCIZIO 1. Di seguito vengono presentati i risultati di un analisi fattoriale effettuata con il metodo di estrazione dei fattori principali (PAF).
ESERCIZIO. Di seguito vengono presentati i risultati di un analisi fattoriale effettuata con il metodo di estrazione dei fattori principali (PAF). Test KMO e di Bartlett Misura di adeguatezza campionaria
Regressione lineare semplice
Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro
Il modello di regressione lineare multipla. Il modello di regressione lineare multipla
Introduzione E la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa
STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo
STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)
Statistica multivariata Donata Rodi 21/11/2016
Statistica multivariata Donata Rodi 21/11/2016 PCA Tecnica di riduzione delle dimensioni che descrive la struttura multivariata dei dati per analisi descrittive e inferenziali Descrive la variazione di
Capitolo 3. Le correlazioni fra i rendimenti dei prestiti e la diversificazione di portafoglio.
Capitolo 3. Le correlazioni fra i rendimenti dei prestiti e la diversificazione di portafoglio. 3.1 Introduzione. Il terzo tassello fondamentale per poter applicare la teoria di portafoglio è la stima
Quanti soggetti devono essere selezionati?
Quanti soggetti devono essere selezionati? Determinare una appropriata numerosità campionaria già in fase di disegno dello studio molto importante è molto Studi basati su campioni troppo piccoli non hanno
Statistica - metodologie per le scienze economiche e sociali /2e S. Borra, A. Di Ciaccio - McGraw Hill
Statistica - metodologie per le scienze economiche e sociali /e S Borra, A Di Ciaccio - McGraw Hill Es 6 Soluzione degli esercizi del capitolo 6 In base agli arrotondamenti effettuati nei calcoli, si possono
Analisi della correlazione canonica
Analisi della correlazione canonica Su un collettivo di unità statistiche si osservano due gruppi di k ed m variabili L analisi della correlazione canonica ha per obiettivo lo studio delle relazioni di
Il metodo delle osservazioni indirette
Il metodo delle osservazioni indirette Teoria della stima ai minimi quadrati Il criterio di massima verosimiglianza Sia data una grandezza η e si abbiano n osservazioni indipendenti l i (i=1,...,n) di
7. ANALISI DISCRIMINANTE
7. ANALISI DISCRIMINANTE 7. Introduzione Uno tra i primi a parlare di analisi discriminante (AD) fu Fisher, con riferimento all'attribuzione di alcuni reperti fossili alla categoria dei primati o a quella
Statistica multivariata Donata Rodi 17/10/2016
Statistica multivariata Donata Rodi 17/10/2016 Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare
Minimi quadrati vincolati e test F
Minimi quadrati vincolati e test F Impostazione del problema Spesso, i modelli econometrici che stimiamo hanno dei parametri che sono passibili di interpretazione diretta nella teoria economica. Consideriamo
Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.
Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:
STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE
STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 2 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1.1
Statistica Applicata all edilizia: il modello di regressione
Statistica Applicata all edilizia: il modello di regressione E-mail: [email protected] 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione
ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante.
ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante. Test di uguaglianza delle medie di gruppo SELF_EFF COLL_EFF COIN_LAV IMPEGNO SODDISF CAP_IST COLLEGHI Lambda di Wilks
PROBABILITÀ ELEMENTARE
Prefazione alla seconda edizione XI Capitolo 1 PROBABILITÀ ELEMENTARE 1 Esperimenti casuali 1 Spazi dei campioni 1 Eventi 2 Il concetto di probabilità 3 Gli assiomi della probabilità 3 Alcuni importanti
Esercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
Statistica di base per l analisi socio-economica
Laurea Magistrale in Management e comunicazione d impresa Statistica di base per l analisi socio-economica Giovanni Di Bartolomeo [email protected] Definizioni di base Una popolazione è l insieme
Regressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
Principi di analisi causale Lezione 3
Anno accademico 2007/08 Principi di analisi causale Lezione 3 Docente: prof. Maurizio Pisati Approccio causale Nella maggior parte dei casi i ricercatori sociali utilizzano la regressione per stimare l
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri
Sistemi lineari. Lorenzo Pareschi. Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara
Sistemi lineari Lorenzo Pareschi Dipartimento di Matematica & Facoltá di Architettura Universitá di Ferrara http://utenti.unife.it/lorenzo.pareschi/ [email protected] Lorenzo Pareschi (Univ. Ferrara)
Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1
Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare
La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative.
Lezione 14 (a cura di Ludovica Peccia) MULTICOLLINEARITA La multicollinearità sorge quando c è un elevata correlazione tra due o più variabili esplicative. In un modello di regressione Y= X 1, X 2, X 3
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009)
Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all esame? Potrei calcolare il coefficiente di correlazione.
Capitolo 12. Suggerimenti agli esercizi a cura di Elena Siletti. Esercizio 12.1: Suggerimento
Capitolo Suggerimenti agli esercizi a cura di Elena Siletti Esercizio.: Suggerimento Per verificare se due fenomeni sono dipendenti in media sarebbe necessario confrontare le medie condizionate, in questo
R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre
R - Esercitazione 6 Andrea Fasulo [email protected] Università Roma Tre Venerdì 22 Dicembre 2017 Il modello di regressione lineare semplice (I) Esempi tratti da: Stock, Watson Introduzione all econometria
Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata. Prof. Massimo Aria
Lezione 10: Interpolazione lineare Corso di Statistica Facoltà di Economia Università della Basilicata Prof. Massimo Aria [email protected] Il concetto di interpolazione In matematica, e in particolare in
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 33 Outline 1 2 3 4 5 6 () Statistica 2 / 33 Misura del legame Nel caso di variabili quantitative
Contenuti: Capitolo 14 del libro di testo
Test d Ipotesi / TIPICI PROBLEMI DI VERIFICA DI IPOTESI SONO Test per la media Test per una proporzione Test per la varianza Test per due campioni indipendenti Test di indipendenza Contenuti Capitolo 4
Teoria e tecniche dei test
Teoria e tecniche dei test Lezione 9 LA STANDARDIZZAZIONE DEI TEST. IL PROCESSO DI TARATURA: IL CAMPIONAMENTO. Costruire delle norme di riferimento per un test comporta delle ipotesi di fondo che è necessario
SCOPO DELL ANALISI DI CORRELAZIONE
CORRELAZIONE 1 SCOPO DELL ANALISI DI CORRELAZIONE STUDIARE LA RELAZIONE TRA DUE VARIABILI X E Y 2 diagrammi di dispersione un diagramma di dispersione (o grafico di dispersione) èuna rappresentazione grafica
Il modello lineare misto
Il modello lineare misto (capitolo 9) A M D Marcello Gallucci Univerisità Milano-Bicocca Lezione: 15 GLM Modello Lineare Generale vantaggi Consente di stimare le relazioni fra due o più variabili Si applica
Modelli Log-lineari Bivariati
Modelli Log-lineari Bivariati Luca Stefanutti Università di Padova Dipartimento di Psicologia Applicata Via Venezia 8, 35131 Padova L.Stefanutti (Università di Padova) Modelli Log-lineari 1 / 71 Contenuti
STATISTICA A K (60 ore)
STATISTICA A K (60 ore) Marco Riani [email protected] http://www.riani.it Richiami sulla regressione Marco Riani, Univ. di Parma 1 MODELLO DI REGRESSIONE y i = a + bx i + e i dove: i = 1,, n a + bx i rappresenta
Test F per la significatività del modello
Test F per la significatività del modello Per verificare la significatività dell intero modello si utilizza il test F Si vuole verificare l ipotesi H 0 : β 1 = 0,, β k = 0 contro l alternativa che almeno
Analisi in Componenti Principali
Analisi in Componenti Principali 1/20 Analisi in Componenti Principali tecnica di riduzione e interpretazione dei dati spesso gioca un ruolo ausiliario rispetto ad altre tecniche (es. analisi fattoriale,
Statistica multivariata
Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire
Esercitazioni di statistica
Esercitazioni di statistica Misure di associazione: Indipendenza assoluta e in media Stefania Spina Universitá di Napoli Federico II [email protected] 22 ottobre 2014 Stefania Spina Esercitazioni
Distribuzioni e inferenza statistica
Distribuzioni e inferenza statistica Distribuzioni di probabilità L analisi statistica spesso studia i fenomeni collettivi confrontandoli con modelli teorici di riferimento. Tra di essi, vedremo: la distribuzione
1 4 Esempio 2. Si determini la distribuzione di probabilità della variabile casuale X = punteggio ottenuto lanciando un dado. Si ha immediatamente:
CAPITOLO TERZO VARIABILI CASUALI. Le variabili casuali e la loro distribuzione di probabilità In molte situazioni, dato uno spazio di probabilità S, si è interessati non tanto agli eventi elementari (o
standardizzazione dei punteggi di un test
DIAGNOSTICA PSICOLOGICA lezione! Paola Magnano [email protected] standardizzazione dei punteggi di un test serve a dare significato ai punteggi che una persona ottiene ad un test, confrontando la
Analisi della varianza
1. 2. univariata ad un solo fattore tra i soggetti (between subjects) 3. univariata: disegni fattoriali 4. univariata entro i soggetti (within subjects) 5. : disegni fattoriali «misti» L analisi della
Tema d esame del 15/02/12
Tema d esame del 15/0/1 Volendo aprire un nuovo locale, una catena di ristoranti chiede ad un consulente di valutare la posizione geografica ideale all interno di un centro abitato. A questo scopo, avvalendosi
TRACCIA DI STUDIO. Indici di dispersione assoluta per misure quantitative
TRACCIA DI STUDIO Un indice di tendenza centrale non è sufficiente a descrivere completamente un fenomeno. Gli indici di dispersione assolvono il compito di rappresentare la capacità di un fenomeno a manifestarsi
Dispensa di Statistica
Dispensa di Statistica 1 parziale 2012/2013 Diagrammi... 2 Indici di posizione... 4 Media... 4 Moda... 5 Mediana... 5 Indici di dispersione... 7 Varianza... 7 Scarto Quadratico Medio (SQM)... 7 La disuguaglianza
ESERCIZIO 1. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con 3 fattori tra i soggetti.
ESERCIZIO. Di seguito vengono riportati i risultati di un modello fattoriale di analisi della varianza con fattori tra i soggetti. Variabile dipendente: PERF Sorgente Modello corretto Intercept SEX_96
Analisi della varianza
Analisi della varianza Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona ANALISI DELLA VARIANZA - 1 Abbiamo k gruppi, con un numero variabile di unità statistiche.
BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i
BLAND-ALTMAN PLOT Il metodo di J. M. Bland e D. G. Altman è finalizzato alla verifica se due tecniche di misura sono comparabili. Resta da comprendere cosa si intenda con il termine metodi comparabili
Metodi di riduzione del modello dinamico Dott. Lotti Nevio
1. Metodi di riduzione del modello dinamico Nel mettere insieme modelli dinamici di elementi diversi di una struttura (come avviene nel caso di un velivolo e del suo carico utile, ma anche per i diversi
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo
Metodi statistici per l economia (Prof. Capitanio) Slide n. 10 Materiale di supporto per le lezioni. Non sostituisce il libro di testo 1 REGRESSIONE LINEARE Date due variabili quantitative, X e Y, si è
Argomenti della lezione:
Lezione 13 L analisi della Varianza (ANOVA): il modello lineare Argomenti della lezione: Modello lineare Disegni a una via L Analisi della Varianza (ANOVA): Esamina differenze tra le medie di due o più
Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale)
Esercizi su distribuzioni doppie, dipendenza, correlazione e regressione (Statistica I, IV Canale) Esercizio 1: Un indagine su 10.000 famiglie ha dato luogo, fra le altre, alle osservazioni riportate nella
Analisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca
Analisi Fattoriale Concetti introduttivi A M D Marcello Gallucci Milano-Bicocca Scopi generali L Analisi Fattoriale (e varianti) si propone di estrarre un numero limitato di fattori (variabili latenti
Analisi statistica multivariata
Università di Bologna Sede di Rimini Anno Accademico 9-1 Analisi statistica multivariata (Alessandro Lubisco) Materiale relativo al primo periodo: - Analisi fattoriale INDICE Indice... i Parte I Analisi
Analisi della varianza
Università degli Studi di Padova Facoltà di Medicina e Chirurgia Facoltà di Medicina e Chirurgia - A.A. 2009-10 Scuole di specializzazione Lezioni comuni Disciplina: Statistica Docente: dott.ssa Egle PERISSINOTTO
Ulteriori applicazioni del test del Chi-quadrato (χ 2 )
Ulteriori applicazioni del test del Chi-quadrato (χ 2 ) Finora abbiamo confrontato con il χ 2 le numerosità osservate in diverse categorie in un campione con le numerosità previste da un certo modello
PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE
PROBABILITÀ SCHEDA N. 5 SOMMA E DIFFERENZA DI DUE VARIABILI ALEATORIE DISCRETE 1. Distribuzione congiunta Ci sono situazioni in cui un esperimento casuale non si può modellare con una sola variabile casuale,
Esercizio 1. Stima intervallare: IC per la media incognita (varianza ignota)
STATISTICA (2) ESERCITAZIONE 5 26.02.2014 Dott.ssa Antonella Costanzo Esercizio 1. Stima intervallare: IC per la media incognita (varianza ignota) Il responsabile del controllo qualità di un azienda che
Indicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica
Indicatori di Posizione e di Variabilità Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica Indici Sintetici Consentono il passaggio da una pluralità
CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)
CHEMIOMETRIA Applicazione di metodi matematici e statistici per estrarre (massima) informazione chimica (affidabile) da dati chimici INCERTEZZA DI MISURA (intervallo di confidenza/fiducia) CONFRONTO CON
3.1 Classificazione dei fenomeni statistici Questionari e scale di modalità Classificazione delle scale di modalità 17
C L Autore Ringraziamenti dell Editore Elenco dei simboli e delle abbreviazioni in ordine di apparizione XI XI XIII 1 Introduzione 1 FAQ e qualcos altro, da leggere prima 1.1 Questo è un libro di Statistica
Esercitazione 5 Sta/s/ca Aziendale
Esercitazione 5 Sta/s/ca Aziendale David Aristei 12 maggio 2015 Si è interessa/ ad analizzare le determinan/ a livello aziendale della produ>vità del lavoro (PL, in migliaia di euro per dipendente) di
STATISTICHE DESCRITTIVE Parte II
STATISTICHE DESCRITTIVE Parte II INDICI DI DISPERSIONE Introduzione agli Indici di Dispersione Gamma Differenza Interquartilica Varianza Deviazione Standard Coefficiente di Variazione introduzione Una
0 altimenti 1 soggetto trova lavoroentro 6 mesi}
Lezione n. 16 (a cura di Peluso Filomena Francesca) Oltre alle normali variabili risposta che presentano una continuità almeno all'interno di un certo intervallo di valori, esistono variabili risposta
Test delle Ipotesi Parte I
Test delle Ipotesi Parte I Test delle Ipotesi sulla media Introduzione Definizioni basilari Teoria per il caso di varianza nota Rischi nel test delle ipotesi Teoria per il caso di varianza non nota Test
IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA
Metodi per l Analisi dei Dati Sperimentali AA009/010 IL CRITERIO DELLA MASSIMA VEROSIMIGLIANZA Sommario Massima Verosimiglianza Introduzione La Massima Verosimiglianza Esempio 1: una sola misura sperimentale
Premessa: la dipendenza in media
Premessa: la dipendenza in media Supponiamo di avere K diversi livelli di un fattore che potrebbero influire su una determinata variabile. Per esempio supponiamo di domandarci se la diversificazione (intesa
I appello di calcolo delle probabilità e statistica
I appello di calcolo delle probabilità e statistica A.Barchielli, L. Ladelli, G. Posta 8 Febbraio 13 Nome: Cognome: Matricola: Docente: I diritti d autore sono riservati. Ogni sfruttamento commerciale
