Analisi in componenti principali
|
|
|
- Letizia Baldini
- 9 anni fa
- Visualizzazioni
Transcript
1 Capitolo 2 Analisi in componenti principali 2.1 Introduzione L analisi in componenti principali è una tecnica di analisi multivariata tra le più diffuse. Viene utilizzata quando nel dataset osservato sono presenti numerose variabili e si è interessati a ridurne la dimensionalità. L analsi in componenti principali è assolutamente necessaria quando un certo carattere (o variabile) non è direttamente osservabile e quantificabile, per cui bisogna lavorare e analizzzare diversi indicatori legati al quel carattere 1. Nella sostanza l analisi in componenti principali porta alla creazione di nuove variabili, dette Componenti Principali appunto, che sono combinazioni lineari delle originarie, e che godono delle due seguenti proprietà: 1. sono tra loro incorrelate (ortogonali), 2. sono elencate in ordine decrescente della loro varianza, Questa tecnica viene impiegata esclusivamente per variabili quantitative e chiaramente con un certo grado di correlazione. Di seguito riportiamo un analisi in componenti principali (d ora in avanti abbreviata in acp). 1 Un esempio è la misurazione dell intelligenza degli individui sulla base dei risultati di specifici test 26
2 2.2 Un analisi in componenti pricipali Descrizione del dataset Capitolo2. Analisi in componenti principali Il dataset che utilizzeremo riguarda l osservazione di alcne variabili su automobili di diverse case di produzione e diversi modelli. L analisi consiste nel valutare se è possibile predire le vendite delle vettura in base ad alcuni indicatori. Le varibili contenute nel dataset sono: manufact: il costruttore della vettura, model: il modello della vettura, sales: numero di vetture vendute, resale: numero di vetture vendute dopo quattro anni, type: tipo di vettura, price: prezzo di vendita engine s: misura del motore, horsepow: potenza (in cavalli), wheelbas: il passo, distanza tra gli assi delle ruote, width: la larghezza della vettura, length: la lunghezza della vettura, fuel cap: capacità del serbatoio, Il dataset si trova nel file in formato.sav denominato vendite auto 2. Una volta aperto, il file si presenta come in Figura 2.1, 2 Il file è reperibile nella sezione Materiale Didattico sul sito del corso di laurea in Statistica ( 27
3 Figura 2.1: Il dataset La procedura in SPSS Il pacchetto statistico SPSS non prevede una procedura specifica per effettuare l acp, ma la racchiude tra la famiglia dei metodi fattoriali. Il primo passo da compiere è un attenta analisi della matrice dei dati iniziali che ci permette di avere una visione più ampia del dataset in esame. L acp prevede una prima analisi di tipo descrittivo sulle variabili per cui si può evitare di effettuare queste analisi separatamente. Dal menù Analizza selezionare Riduzione dei dati e di seguito Fattoriale (Analizza Riduzione dei dati Fattoriale). 28
4 Figura 2.2: La procedura per avviare un acp Si apre la finestra mostrata in Figura 2.3, in cui vengono visualizzate le variabili che possono essere selezionate per effettuare l analisi 3. Figura 2.3: La finestra di avvio della perocedura A questo punto, si procede selezionando le varibili 4 presenti nell elenco posto a sinistra e inviandole nella parte destra della finestra (vedi Figura 2.4, Figura 2.4: Selezione delle variabili 3 Si tratta delle sole variabili di tipo quantitativo 4 ATTENZIONE! Quali delle variabili presenti nel dataset vanno utilizzate per l analisi? 29
5 Questa finestra mostra alcuni titoli, Statistiche..., Estrazione..., Rotazione..., Punteggi..., Opzioni... che andiamo a considerare nel dettaglio: i. selezionando Statistiche si apre una nuova finestra che contiene un elenco di statistiche descrittive e selezioniamo Statistiche descrittive, Coefficienti per la matrice di correlazione, cliccare su Continua; ii. selezionando Estrazione si apre una nuova finestra in cui selezioniamo come metodo di estrazione dei fattori componenti principali; inoltre scegliamo di condurre l indagine dalla matrice di correlazione e di ottenere il grafico decrescente degli autovalori, cliccare su Continua; iii. selezionando Rotazione si ha la possibilità di scegliere il metodo di rotazione, nel nostro caso lasciamo la scelta di default, cliccare su Continua; iv. selezionando Punteggi si sceglie di salvarli come punteggi, cliccare su Continua e infine su Ok. Viene eseguita la procedura dell acp e aperto il file di output su cui vengono visualizzate le tabelle che riportano i risultati dell analisi (Figura 2.5). Figura 2.5: L output 30
6 2.3 L interpretazione dei risultati Capitolo2. Analisi in componenti principali Nelle Figure 2.6 e 2.7 sono riporate, rispettivamente le statistiche descrittive e la matrice di correlazione delle variabili in esame. Si lascia allo studente l analisi accurata delle due tabelle e le osservazioni e riflessioni in merito 5. Figura 2.6: Tabella delle Statistiche Descrittive Figura 2.7: L a matrice di correlazione I primi risultati che l acp effettuata con SPSS produce sono mostrati nella tabella delle comunalità (Figura 2.8). 5 Vedi la sezione Esercizi 31
7 Figura 2.8: Tabella delle comunalità In essa troviamo le quote di varianza di ciascuna variabile spiegate dalle componenti principali appena estratte. Per cui osserviamo che esse spiegano più del 90% della varianza delle variabili PREZZO,POTENZA, una percentuale superiore all 80% per le variabili PREZZO DOPO ANNI, DIMENSIONE DEL MOTORE, PASSO, LUNGHEZZA, mentre la variabile VENDITE è quella riprodotta meno bene dalle componenti principali, solo il 42% della varianza spiegata. Ma quante componenti principali abbiamo estratto? Questa informazione la troviamo nella tabella intitolata Totale varianza spiegata (Figura 2.9) Questa tabella ci dice che la prima componente estratta, il cui autovalore è pari a 4, 591, spiega il 51,014% della varianza totale e la seconda, il cui autovalore è pari a 2, 450, un ulteriore 27,227%, per in totale esse spiegano il 78,24% della varianza totale 6. 6 Vedi Esercizio 1.2 Figura 2.9: Tabella della Varianza Spiegata 32
8 Il numero di componenti principali che vengono ritenute sufficienti e utilizzabili può essere osservato nel grafico che riporta gli autovalori in funzione del numero delle componenti (da 1 a 9 poichè sono nove le variabili originarie). Il grafico, mostrato in Figura 2.10, si presenta come una spezzata sempre decrescente e ad un certo punto avviene una brusca variazione della pendenza (il gomito) che ci segnale il numero delle componenti da utilizzare. Nel nostro caso il gomito avviene tra la seconda e la terza componente, per cui sono le prime due le componenti da considerare Autovalore Numero componente Figura 2.10: Grafico descrescente degli autovalori La procedura dell acp presente in SPSS non restituisce in maniera immediata gli autovettori corrispondenti alle componenti principali, ma fornisce in una tabella intitolata matrice delle comunalità, i coefficienti di correlazione tra ogni variabili e ogni componente estratta. Per cui osserviamo che la prima componente risulta correlata positivamente (lo si deduce dal segno dei coefficienti) con tutte le variabili, ma questa relazione lineare è più forte 7 Vedi Esercizio
9 con le varibili DIMENSIONE DEL MOTORE, POTENZA, mentre la seconda componente risulta correlata in maniera negativa e consistente con la variabile PREZZO DOPO 4 ANNI 8. Figura 2.11: Tabella delle componenti Per ottenere i coefficienti della combinazione lineare che determina le componenti possiamo ricorrere ai valori contenuti nella matrice delle componenti e ricordando che: r(y i, X j ) = a i,j λi dove Y i è l i-esima componente, X j è la j-iesima variabile e λ i è l autovettore corrispondente all i-esima componente, possiamo deterimare gli autovettori 9. Otteniamo che gli autovettori corrispondenti sono: 8 Vedi Esercisio Si consiglia di calcolare gli autovettori utilizzando l applicativo Excel di Microsoft 34
10 Variabile a1j 12j Sales in thousands 0,0294 0, year resale value 0,2851-0,4542 Price in thousands 0,3406-0,3997 Engine size 0,4156-0,0701 Horsepower 0,3994-0,2622 Wheelbase 0,2954 0,4342 Width 0,3721 0,2361 Length 0,3337 0,3510 Fuel capacity 0,3640 0,1486 Tabella 2.1: Gli autovettori Gli elementi di tali autovettori sono i coefficienti della combinazione lineare che definisce rispettivamente la prima e la seconda componente in funzione degli scostamenti standardizzati delle 9 variabili 10. Utilizzando questi valori si calcolano i punteggi con media nulla e varianza uguali a λ 1 e λ 2 per la prima e per la seconda componente, per ciscuna vettura presente nel dataset. Infine SPSS produce il grafico delle componeti in cui i punti sono le variabili e le coordinate di ogni variabile sono i pesi fattoriali di ciascuna componnete. Per leggere in maniera corretta il grafico bisogna considerare che: sull asse orizzontale troviamo la correlazione tra le variabili e la prima componente, sull asse verticale troviamo la correlazione tra le variabili e la seconda componente, le variabili presenti nel grafico sono vettori che contengono i coefficienti di correlazione tra le due componenti e le variabili, tutti compresi in un cerchio di raggio unitario il cui cebtro coincide con l origine, l angolo compreso tra ciascun vettore e l asse relativo alla componente che si vuole esaminare individua l entità della loro correlazione. Per cui se l angolo è picco- 10 Per esercizio si scrivino le espessioni delle due componenti. 35
11 lo vuol dire che tra la variabile e la componente sussiste una forte correlazione viceversa una debole correlazione. 1,0 sales in thousands wheelbase length,5 width fuel capacity 0,0 engine size horsepower Componente 2 -,5-1,0 price in thousands 4-year resale value -1,0 -,5 0,0,5 1,0 Componente 1 Figura 2.12: Grafico delle componenti Si lascia allo studente l interpretazione del grafico relativo all analisi appena condotta. 36
12 2.4 Esercizi Capitolo2. Analisi in componenti principali Esercizio 2.1 Effetuare un analisi di tipo esplorativo sulle variabili contenute nel dataset Vendite auto, (tabelle frequenza, statistiche descrittive, grafici rappresentativi di ogni distribuzioni, correlazione). Commentare accuratamente i risultati. Esercizio 2.2 La percentuale di varianza totale spiegata dalle prime due componenti principali risulta sufficiente? Esse tengono conto di una ragionevole quota della varianza totale?si argomenti la risposta. Esercizio 2.3 Quali sono i criteri a cui bisogna far riferimento per determinare il numero di componenti principali da utilizzare? Esercizio 2.4 Commentare il grado di correlazione delle altre variabili con le componeti principali estratte. 37
Analisi delle corrispondenze
Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello
Psicometria con Laboratorio di SPSS 2
Psicometria con Laboratorio di SPSS 2 Esempio di fattoriale esplorativa (v. 1.1, 12 aprile 2018) Germano Rossi 1 [email protected] 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2017-18
Analisi delle corrispondenze
Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza
Analisi delle componenti principali
Analisi delle componenti principali Serve a rappresentare un fenomeno k-dimensionale tramite un numero inferiore o uguale a k di variabili incorrelate, ottenute trasformando le variabili osservate Consiste
Capitolo 1. Analisi Discriminante. 1.1 Introduzione. 1.2 Un analisi discriminante Descrizione del dataset
Capitolo 1 Analisi Discriminante 1.1 Introduzione L analisi discriminante viene condotta per definire una modalità di assegnazione dei casi a differenti gruppi, in funzione di una serie di variabili fra
Statistica multivariata Donata Rodi 21/11/2016
Statistica multivariata Donata Rodi 21/11/2016 PCA Tecnica di riduzione delle dimensioni che descrive la struttura multivariata dei dati per analisi descrittive e inferenziali Descrive la variazione di
La matrice delle correlazioni è la seguente:
Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA
Applicazioni statistiche e utilizzo del package statistico Spss - 7
Applicazioni statistiche e utilizzo del package statistico Spss - 7 CISI 27 gennaio 2005 [email protected] Illustrare le principali statistiche mono e bivariate. Valutare quando è opportuno
ANALISI DEI DATI PER IL MARKETING 2014
ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani [email protected] http://www.riani.it ANALISI DELLE CORRISPONDENZE (cap. VII) Problema della riduzione delle dimensioni L ANALISI DELLE COMPONENTI PRINCIPALI
Differenze tra metodi di estrazione
Lezione 11 Argomenti della lezione: L analisi fattoriale: il processo di estrazione dei fattori Metodi di estrazione dei fattori Metodi per stabilire il numero di fattori Metodi di Estrazione dei Fattori
ANALISI MULTIDIMENSIONALE DEI DATI (AMD)
ANALISI MULTIDIMENSIONALE DEI DATI (AMD) L Analisi Multidimensionale dei Dati (AMD) è una famiglia di tecniche il cui obiettivo principale è la visualizzazione, la classificazione e l interpretazione della
Analisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca
Analisi Fattoriale Concetti introduttivi A M D Marcello Gallucci Milano-Bicocca Scopi generali L Analisi Fattoriale (e varianti) si propone di estrarre un numero limitato di fattori (variabili latenti
Strumenti informatici Calcolare il coefficiente di correlazione di Pearson con Excel e SPSS
Strumenti informatici 7.3 - Calcolare il coefficiente di correlazione di Pearson con Excel e SPSS Il coefficiente di correlazione di Pearson può essere calcolato con la funzione di Excel =CORRELAZIONE(Matrice1;Matrice2),
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6 Dott.ssa Antonella Costanzo [email protected] Esercizio 1. Associazione, correlazione e dipendenza tra caratteri In un collettivo di 11 famiglie è stata
Analisi in Componenti Principali
Analisi in Componenti Principali 1/20 Analisi in Componenti Principali tecnica di riduzione e interpretazione dei dati spesso gioca un ruolo ausiliario rispetto ad altre tecniche (es. analisi fattoriale,
Analisi in Componenti Principali (ACP)
Analisi in Componenti Principali (ACP) Metodi di analisi fattoriale Obiettivo: individuazione di variabili di sintesi = dimensioni = variabili latenti = variabili non osservate Approccio: Ordinamenti tra
Teoria e tecniche dei test DIMENSIONALITA DI UN TEST DIMENSIONALITA DI UN TEST (2) 03/04/2012. Lezione 7 DIMENSIONALITA e ATTENDIBILITA
Teoria e tecniche dei test Lezione 7 DIMENSIONALITA e ATTENDIBILITA DIMENSIONALITA DI UN TEST Una domanda cruciale da porsi nella fase di messa a punto di un test riguarda la sua dimensionalità. La tecnica
Analisi Multivariata Prova intermedia del 20 aprile 2011
Analisi Multivariata Prova intermedia del 20 aprile 20 Esercizio A Sia X N 3 (µ, Σ) con µ = [ 3,, 4] e 2 0 Σ = 2 5 0 0 0 2 Quali delle seguenti variabili casuali è indipendente? Motivare la risposta. A.
REGRESSIONE E CORRELAZIONE
REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.
Analisi lineari: ACP. Loredana Cerbara
Loredana Cerbara Analisi fattoriali L analisi fattoriale appartiene a una famiglia di metodi che utilizza le cosiddette variabili latenti. Spesso, in particolar modo nelle scienze sociali, non si è in
Metodologie Quantitative. Analisi Fattoriale
Metodologie Quantitative Analisi Fattoriale La soluzione fattoriale ed il modello ACP M Q Marco Perugini Milano-Bicocca 1 Correlazioni e Varianze Ricordate che la correlazione (al quadrato) indica la varianza
Uso della funzione FREQUENZA col foglio di calcolo CALC di OpenOffice 3.4
frequenza Uso della funzione FREQUENZA col foglio di calcolo CALC di OpenOffice 3.4 1) Si selezionano in una colonna ( per esempio A ) n celle, dove n è il numero dei dati sperimentali. Fare clic su Formato
Analisi delle Componenti Principali con R
Università di Bologna - Facoltà di Scienze Statistiche Laurea Triennale in Statistica e Ricerca Sociale Corso di Analisi di Serie Storiche e Multidimensionali Prof.ssa Marilena Pillati Analisi delle Componenti
GUIDA ALLE TABELLE PIVOT *
GUIDA ALLE TABELLE PIVOT * Partendo da una matrice dei dati è possibile ottenere tabelle di dati utilizzando le Tabelle Pivot di Excel. Di seguito ne verranno descritti i singoli passi utilizzando i dati
Capitolo 3 Sintesi e descrizione dei dati quantitativi
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 3 Sintesi e descrizione dei dati quantitativi Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e tecnologie Alimentari" Unità
ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM)
ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM) Questa procedura è stata introdotta negli anni 70, ad opera della scuola francese di analisi dei dati (Benzecri). Inizialmente fu proposta per analizzare tabelle
Istruzioni per l analisi in componenti principali con R
Istruzioni per l analisi in componenti principali con R Vi ricordo che in nero sono state inserite le note e in rosso le istruzioni da digitare sulla console di R Importare il dataset gelati
Note per il corso di Geometria Corso di laurea in Ing. Edile/Architettura. 4 Sistemi lineari. Metodo di eliminazione di Gauss Jordan
Note per il corso di Geometria 2006-07 Corso di laurea in Ing. Edile/Architettura Sistemi lineari. Metodo di eliminazione di Gauss Jordan.1 Operazioni elementari Abbiamo visto che un sistema di m equazioni
Il proprietario di una catena di negozi vuole confrontare il reddito (in euro) dei suoi 5 negozi, riportato nella seguente tabella
Primo esempio (es. 2.1) Il proprietario di una catena di negozi vuole confrontare il reddito (in euro) dei suoi 5 negozi, riportato nella seguente tabella Negozio Reddito Negozio 1 21.500,00 Negozio 2
II Università degli Studi di Roma
Versione preliminare gennaio TOR VERGATA II Università degli Studi di Roma Dispense di Geometria. Capitolo 3. 7. Coniche in R. Nel Capitolo I abbiamo visto che gli insiemi di punti P lineare di primo grado
Capitolo 8 Forme quadratiche e loro applicazioni Esercizi svolti Tutorato di geometria e algebra lineare. Marco Robutti
Capitolo 8 Forme quadratiche e loro applicazioni Esercizi svolti Tutorato di geometria e algebra lineare Marco Robutti 5 Ottobre 2017 1 Introduzione Gli esercizi di questo capitolo riguardano i seguenti
Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari"
Levine, Krehbiel, Berenson Statistica Capitolo 5 Variabili aleatorie discrete notevoli Insegnamento: Statistica Applicata Corso di Laurea in "Scienze e Tecnologie Alimentari" Unità Integrata Organizzativa
Capitolo 12 La regressione lineare semplice
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università
POTENZE DI MATRICI QUADRATE
POTENZE DI MATRICI QUADRATE In alcune applicazioni pratiche, quali lo studio di sistemi dinamici discreti, può essere necessario calcolare le potenze A k, per k N\{0}, di una matrice quadrata A M n n (R)
UTILIZZO DELLO STRUMENTO ANALISI DATI DI EXCEL 1 PER ANALISI DI CORRELAZIONE E STIMA DI MODELLI DI REGRESSIONE
UTILIZZO DELLO STRUMENTO ANALISI DATI DI EXCEL 1 PER ANALISI DI CORRELAZIONE E STIMA DI MODELLI DI REGRESSIONE [a cura di L.Secondi, ad uso degli studenti del corso di Statistica per le ricerche di mercato]
Varianza totale e generalizzata Analisi Esplorativa
Varianza totale e generalizzata Analisi Esplorativa Aldo Solari 1 / 49 1 Varianza totale 2 Varianza generalizzata 3 Appendice 2 / 49 Variabilità Nel caso p = 1, la variabilità (o dispersione) presente
P z. OP x, OP y, OP z sono le proiezioni ortogonali di v sugli assi x, y, z, per cui: OP x = ( v i) i. k j. P x. OP z = ( v k) k
Richiami di calcolo vettoriale Consideriamo il vettore libero v = OP. Siano P x, P y, P z le proiezioni ortogonali di P sui tre assi cartesiani. v è la diagonale del parallelepipedo costruito su OP x,
Statistica. Alfonso Iodice D Enza
Statistica Alfonso Iodice D Enza [email protected] Università degli studi di Cassino () Statistica 1 / 24 Outline 1 2 3 4 5 () Statistica 2 / 24 Dipendenza lineare Lo studio della relazione tra caratteri
ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante.
ESERCIZIO 1. Vengono riportati di seguito i risultati di un analisi discriminante. Test di uguaglianza delle medie di gruppo SELF_EFF COLL_EFF COIN_LAV IMPEGNO SODDISF CAP_IST COLLEGHI Lambda di Wilks
2 2 2 A = Il Det(A) = 2 quindi la conica è non degenere, di rango 3.
Studio delle coniche Ellisse Studiare la conica di equazione 2x 2 + 4xy + y 2 4x 2y + 2 = 0. Per prima cosa dobbiamo classificarla. La matrice associata alla conica è: 2 2 2 A = 2 2 2 Il DetA = 2 quindi
Regressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
ESERCIZIO 1. Di seguito vengono presentati i risultati di un analisi fattoriale effettuata con il metodo di estrazione dei fattori principali (PAF).
ESERCIZIO. Di seguito vengono presentati i risultati di un analisi fattoriale effettuata con il metodo di estrazione dei fattori principali (PAF). Test KMO e di Bartlett Misura di adeguatezza campionaria
STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE
STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 2 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1.1
Prova scritta di ASM - Modulo Analisi Esplorativa del
Cognome:... Nome:... Matricola:......... Prova scritta di ASM - Modulo Analisi Esplorativa del 14.02.2017 La durata della prova è di 90 minuti. Si svolgano gli esercizi A e B riportando il risultato dove
Indicatori di Posizione e di Variabilità. Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica
Indicatori di Posizione e di Variabilità Corso di Laurea Specialistica in SCIENZE DELLE PROFESSIONI SANITARIE DELLA RIABILITAZIONE Statistica Medica Indici Sintetici Consentono il passaggio da una pluralità
