Metodi Multivariati: Analisi delle Componeti Principali (PCA)
|
|
- Sebastiano Lucio Corradi
- 5 anni fa
- Visualizzazioni
Transcript
1 Metodi Multivariati: Analisi delle Componeti Principali (PCA)
2 Il modello PCA come approssimazione delle informazioni contenute in una matrice di dati in cui più oggetti (es. campioni) sono spiegati da tante variabili. L Analisi delle componenti principali (PCA) è utile all interpretazione di una complessa realtà multidimensionale attraverso il computo di un modello più semplice descritto da un numero assai minore di dimensioni (variabili latenti o componenti principali), facilmente interpretabile, ma ancora capace di rappresentare, con una buona approssimazione, l informazione contenuta nei dati originari.
3 PRINCIPAL COMPONENT ANALYSIS (PCA) La PCA è una procedura statistica per la riduzione della dimensionalità dei modelli Essa permette: Ridurre il numero di dimensioni necessarie per rappresentare i dati nel rispetto dell intera infromazione presente in una matrice di dati con più oggetti descritte da molte variabili. Ottenere informazioni sulle similitudini e differenze tra i campioni. Ottenere informazioni circa le caratteristiche dei campioni in relazione alle variabili misurate che descrivono le differenze tra i campioni.
4
5 Che cosa è la PCA? la PCA è definita come un metodo di modellazione bilineare che fornisce una descrizione delle informazioni principali contenute in una matrice di dati. Su che metodo di modellazione è basata la PCA? La modellazione bilineare è uno dei possibili metodi di compressione (riduzione) dei dati e dunque di riduzione della complessità della matrice originaria. Essa è adatta nelle situazioni in cui esiste una collinearità tra le variabili originarie di una matrice.
6 Quando due variabili sono da considerarsi collineari? Due variabili sono collineari se il valore di una può essere calcolata dall altra usando una relazione lineare. L informazione comune contenuta nelle variabili originali dunque può essere utilizzata per costruire nuove variabili, dette latenti. Che cosa è una variabile latente? Le variabili latenti prendono il nome di Componenti Principali, cioè variabili composite (funzione lineare delle variabili originali) calcolate per contenere, in ordine decrescente la struttura fondamentale dell informazione presente nei dati.
7 Il Principio della Proiezione 1) Trovare le dimensioni dello spazio multidimensionale lungo le quali la distanza tra i campioni è la maggiore. Identificazione delle variabili che meglio descrivono le differenze tra i campioni. Variabili con maggiore varianza ricerca, tra queste, delle collinearità: definizione delle componenti principali.
8 La rappresentazione grafica della riduzione delle dimensioni in un modello PCA Immaginiamo 3 variabili (X1; X2; X3) che descrivono un gruppo di campioni
9 Inizialmente i dati sono centrati in funzione di una media generale
10 La Prima Componente Principale (PC1) è la direzione che rappresenta le più grandi differenze tra gli oggetti (maggiore varianza spiegata). PC1
11 La Seconda Componente Principale (PC2) è ortogonale alla prima e spiega ulteriori differenze tra gli oggetti non spiegate dalla PC1. PC1 PC2 Queste direzioni o combinazioni lineari sono computate iterativamente in modo che la prima componente è quella caratterizzata da una maggiore varianza spiegata, la seconda componente ridurrà la varianza residua dopo la prima componente e così via per la terza e successive.
12 Rappresentazione grafica della relazione tra le Componenti Principali e le variabili originali in funzione dell angolo che le PCs costituiscono con quelle originarie. In questo caso il peso di ciascuna variabile (X1, X2, X3) sulla PC1 è pari al coseno dell angolo (rispettivamente α1, α2 e α3) descritto dalla componente stessa ed i vettori delle variabili considerate. PC1 a 3 a 1 a 2 PC2
13 3) Le componenti principali computate formano un nuovo set di coordinate che hanno due vantaggi rispetto alle variabili originarie: 1 le componenti sono ortogonali e sono ordinate in funzione della quantità di informazione che portano facilitando l interpretazione delle differenze tra i campioni. La prima componente sarà sempre quella che spiega maggiormente le differenze tra i campioni. 2 Il modo attraverso il quale le componenti sono computate assicura che questo nuovo set di coordinate è una solida base per una rappresentazione grafica che consente una facile interpretazione della struttura dei dati.
14 X Y OUTPUT RIEPILOGO 6,17 5,17 5,85 6,39 5,43 15,13 5,91 11,38 5,97 12,75 5,87 12,35 6,03 7,58 5,62 15,38 6,3 1,07 6,2 1,65 6,22 13,22 5,86 22,6 5,67 17,2 5,69 34,92 6,26 11,18 5,33 24,67 6,16 1,46 5,81 28,5 6,59 8,64 6,23 4,85 6,18 23,68 6,55 5,63 3,81 71,58 5,18 31,22 4,35 59,61 3,17 90,17 3,07 83,9 3,74 72,95 4,65 46,75 4,49 53,67 4,35 64,38 5,4 13,33 5,51 61,25 5,44 20,72 Statistica della regressione R multiplo 0, R al quadrato 0, R al quadrato c 0, Errore standard 0, Osservazioni 34 SS regressione = ΣY p2 (ΣY p ) 2 / N SS residuo = Σ(Y m -Y p ) 2 SS totale = ΣY 2 (ΣY) 2 / N ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 1 25, , ,0335 1,95186E-15 Residuo 32 3, , Totale 33 29,34511 Dividendo per df = MS STIMA della VARIANZA MS regressione / MS totale *100 = VARIANZA SPIEGATA % MS residuo / MS totale *100 = VARIANZA RESIDUA %
15 L importanza dell informazione descritta da una componente principale è stimata attraverso la varianza spiegata ad essa associata, cioè la percentuale della varianza totale che è spiegata dalla componente. La varianza spiegata è calcolata come il complemento della varianza residua fratto quella totale ed è espressa in percentuale.
16 Come utilizzare la varianza spiegata e quella residua per interpretare i modelli derivanti dall analisi delle componenti principali. Varianza spiegata e residua indicano quanto bene il modello spiega le differenze e le similitudini tra i campioni. Modelli con una bassa varianza residua (vicino a 0) o con una alta varianza spiegata (vicino al 100%) spiegano la maggior parte della variabilità nei dati.
17 Informazione e rumore Normalmente le prime componenti contengono la maggior parte dell informazione robusta relativa alle differenze tra i prodotti. Con l aumentare del numero delle componenti considerate il modello è affetto da ciò che comunemente è chiamato rumore. Pertanto è sempre opportuno studiare un numero limitato di componenti.
18 Oggetti Schematizzazione dei risultati della PCA Variabili Scores plot Interpretazione delle differenze tra i prodotti Matrice di dati X PCA Loadings plot Bi-plot Interpretazione del peso e delle relazioni tra le variabili Explained variance plot Validazione del modello
19 Lo Score plot PCA su dati descrittivi: Score plot della PC1 vs la PC2 Ogni campione ha una coordinata su una componente (score) Quando due componenti vengono rappresentate graficamente (plot) a definite un piano si ottiene una mappa in cui ogni campione è descritto da due coordinate, una per ciascuna componente. La mappa descrive similitudini e differenze tra i campioni: campioni vicini sono simili campioni molto distanti tra loro saranno molto diversi
20 Il loading plot Il contributo di una variabile della matrice originaria nel definire una componente principale è proporzionale alla correlazione tra le coordinate dei campioni per quella componente e i valori della variabile Il loading corrisponde al coseno dell angolo tra il vettore di una variabile originaria e la componente principale considerata (range between -1 and 1). Var. 2 PC2 Var. 1 PC1 Var. 3 Loading values PC1 PC2 Var Var Var. 3-0,5-0,5
21 IL loading plot 1) I campioni sulla destra dello score plot relativo avranno valori maggiori per le variabili con loading alti sulla prima componente e viceversa. 2) I campioni in alto dello score plot relativo avranno valori maggiori per le variabili con loading alti sulla seconda componente e viceversa. 3) Variabili vicine sono tra loro positivamente correlate 4) Variabili con segno opposto su una componente sono negativamente correlate
22 Il Bi-plot (score and loading plot)
23 Il correlation loading plot Grafico dei valori di correlazione tra le componenti principali e i valori delle variabili originarie. La posizione di una variabile sulla mappa indica quanto quella variabile è correlata con le componenti e la distanza dall origine indica la varianza spiegata di detta correlazione. E possibile disegnare delle ellissi sul grafico che rappresentano diversi livelli di varianza spiegata, di norma il 100% (ellissi esterna) e 50% (ellissi interna). PCA su dati descrittivi: Correlation loading plot PC1 vs PC2 Proposto da Martens & Martens (2001)
24 Il correlation loading plot: Un bi-plot alternativo con i campioni come dummy variables A B C V. 1 V.2. A B C I campioni sono inseriti come variabili di comodo (0;1) ( dummy )nella matrice che li descrive. In questo modo le variabili campioni hanno un peso molto basso e non influenzano i risultati della PCA. Nel correlation loading plot le variabili campioni si posizionano in modo da riprodurre la posizione degli stessi nello score plot.
25 Il modello vettoriale per interpretare le caratteristiche di un prodotto in funzione di una variabile in un bi-plot costruito su un correlation-loading plot. Posizione del campione P1 nel bi-plot score - correlation loading plot Punto finale del vettore della variabile «I» nel bi-plot score - correlation loading plot che indica la direzione di incremento della variabile stessa. Proiezione ortogonale della posizione del prodotto P1 sul vettore della variabile «I». Muovendosi lungo il vettore «I» i punti I4, I3, I6, I2, I5, e I1, indicano i valori crescenti della variabile I rispettivamente nei campioni P4, P3, P6, P2, e P1
26 Explained Variance Plot Validazione/selezione del numero di componenti Criterio «steep Increase» per la selezione del numero di componenti utili ad estrarre l informazione contenuta in una matrice di dati. PCs massimo 2 componenti. Nel passaggio dalla PC2 alla PC3 e da questa alla PC4 l incremento di varianza spiegata mantiene la stessa pendenza tendendo progressivamente ad un plateau.
27 explained variance Explained variance plot Cross-Validation Calibration calibration variance Rappresentazione grafica della varianza spiegata progressivamente dalle componenti principali computate sulla matrice originaria validation variance Max num di componenti da considerare 0 PC-0 PC-1 PC-2 PC-3 PC-4 PC-5 PC-6 PC-7 PCs Varianza derivata dalla media delle varianze spiegate ottenute da modelli di PCA computate ogni volta escludendo un campione dalla matrice originaria. Il numero di componenti ottimali si ottiene comparando le due curve. La componente in corrispondenza della quale le due curve si differenziano per andamento rappresenta il numero massimo di Pcs da considerare.
28
29 PC2 19% Score Plot 1.0 C 0.5 B D I 0 A E N L -0.5 F G H M PC1 52%
30 PC2 19% Score and Loading Plot 1.0 astringency C bitterness 0.5 herbal B tomato leaf viscosity D I green olive 0 ripe olive A E N grassy L pungency -0.5 F G H fresh almond M ripe tomato PC1 52%
31 4 PC2 Scores (3) (5) (4) 2 0 (12) (15) (14) (1) (2) (6) -2 (10) (11) (7) (8) (9) (16) (13) RESULT6, X-expl: 49%,19% PC1
32 PCA su dati sensoriali: dati non scalati 1.5 PC2 Scores 1.0 LATRS2 LADES2 MTDES2 0.5 FEDES2 FETRS2 LATRS1 0 FETRS1 MTTRS2-0.5 MTTRS1 MTDES1-1.0 LADES1-1.5 FEDES RESULT8, X-expl: 74%,14% PC1
33 Intensità Interpretare ed analizzare i dati rappresentare un profilo sensoriale metodi grafici Olio A Olio B Interpretare le differenze tra i profili sensoriali Studiare la relazione tra profilo sensoriale e composizione del prodotto Studiare la relazione tra profilo sensoriale e giudizi affettivi Oliva Verde Erba tagliata Foglia di pomodoro Carciofo Amaro Piccante Viscoso Descrittori metodi statistici e visualizzazione grafica dei risultati Piccante Amaro Astringenza Carciofo Olio A Olio B Olio C Mela Verde Giallo Oliva verde Oliva matura Erba tagliata Foglia di Pomodoro B (TP) TomatoF leaf Tomato Grassy leaf G (TP) M (TP) H (AR) F (AG) (F) Grassy (F) green olive (F) apple G (BA) E (BA) Green olive A (VR) D (PG) Bitter apple Pungency ness artichoke I (FI) Thickn F Ripe olive almond (F) artichoke ess C N (TP) L (AG) Ripe olive H (AG) (FI) RESULT2, X-expl: 69%,10% e 21 Aprile 2011, Laboratorio di Analisi Sensoriale Dipartimento di Biotecnologie Agrarie, Università degli Studi di Firenze
L Analisi delle Componenti Principali applicata a dati sensoriali derivanti dall analisi descrittiva.
L Analisi delle Componenti Principali applicata a dati sensoriali derivanti dall analisi descrittiva. Nota didattica per gli studenti dei corsi di: Analisi Sensoriale degli Alimenti Corso di Laurea in
Analisi, validazione e rappresentazione dei dati nell analisi descrittiva. e non solo
Analisi, validazione e rappresentazione dei dati nell analisi descrittiva. e non solo Descrizione sensoriale del profilo aromatico di 11 campioni di vino attraverso la valutazione dell intensità dell odore
Nota didattica sulla validazione e l interpretazione dei dati raccolti per la definizione del profilo sensoriale dei prodotti alimentari.
Nota didattica sulla validazione e l interpretazione dei dati raccolti per la definizione del profilo sensoriale dei prodotti alimentari. 1 1. La validazione dei dati relativi all analisi descrittiva del
Statistica multivariata Donata Rodi 21/11/2016
Statistica multivariata Donata Rodi 21/11/2016 PCA Tecnica di riduzione delle dimensioni che descrive la struttura multivariata dei dati per analisi descrittive e inferenziali Descrive la variazione di
Analisi delle Componenti Principali
Struttura e proprietà degli alimenti Analisi delle Componenti Principali Dott. Rossella Di Monaco Dipartimento di Scienza degli Alimenti CORSO di LAUREA MAGISTRALE in SCIENZE E TECNOLOGIE ALIMENTARI La
L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010
L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi
Analisi delle corrispondenze
Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza
s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value
Inferenza: singolo parametro Sistema di ipotesi: H 0 : β j = β j0 H 1 : β j β j0 statistica test t b j - b s a jj j0 > t a, 2 ( n-k) confronto con valore t o p-value Se β j0 = 0 X j non ha nessuna influenza
STATISTICA. Regressione-2
STATISTICA Regressione-2 Esempio Su un campione di =5unità sono state osservate due variabili, ed : x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5 1. Rappresentare l andamento congiunto di in funzione di mediante
Esplorazione grafica di dati multivariati. N. Del Buono
Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6
CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Associazione, correlazione e dipendenza tra caratteri In un collettivo di 11 famiglie è stata
gradimento Processo Alimento Insieme di stimoli Chimici e Fisici Attese Packaging Informazioni Etichette Marchi Prezzo Stereotipi
Conduzione dei test di gradimento e analisi univariate e multivariate dei dati Erminio Monteleone Materie Prime Processo Alimento Insieme di stimoli Chimici e Fisici Proprietà sensoriali Attese Packaging
Rappresentazione dei dati multivariati
Rappresentazione dei dati multivariati Quando si hanno più di due varabili la posizione di ciascuna unità rispetto alle altre può essere rappresentata nel diagramma relativo alle prime due CP l importanza
Analisi in Componenti Principali
Analisi in Componenti Principali 1/20 Analisi in Componenti Principali tecnica di riduzione e interpretazione dei dati spesso gioca un ruolo ausiliario rispetto ad altre tecniche (es. analisi fattoriale,
Analisi in Componenti Principali
Analisi in Componenti Principali 1/20 Analisi in Componenti Principali Analisi in Componenti Principali 1/20 Analisi in Componenti Principali tecnica di riduzione e interpretazione dei dati spesso gioca
Capitolo 12 La regressione lineare semplice
Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università
STATISTICA. Esercitazione 5
STATISTICA Esercitazione 5 Esercizio 1 Ad un esame universitario sono stati assegnati in modo casuale due compiti diversi con i seguenti risultati: Compito A Compito B Numero studenti 102 105 Media dei
Statistica descrittiva: analisi di regressione
Statistica descrittiva: analisi di regressione L analisi di regressione permette di esplorare le relazioni tra due insiemi di valori (p.e. i valori di due attributi di un campione) alla ricerca di associazioni.
Analisi Multivariata Prova intermedia del 20 aprile 2011
Analisi Multivariata Prova intermedia del 20 aprile 20 Esercizio A Sia X N 3 (µ, Σ) con µ = [ 3,, 4] e 2 0 Σ = 2 5 0 0 0 2 Quali delle seguenti variabili casuali è indipendente? Motivare la risposta. A.
Analisi delle corrispondenze
Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello
La matrice delle correlazioni è la seguente:
Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA
Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1
Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare
Prova scritta di Complementi di Probabilità e Statistica. 7 Dicembre 2012
Prova scritta di Complementi di Probabilità e Statistica 7 Dicembre. Un ingegnere vuole investigare se le caratteristiche di una superficie metallica sono influenzate dal tipo di pittura usata e dal tempo
ANALISI DEI DATI PER IL MARKETING 2014
ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it ANALISI DELLE CORRISPONDENZE (cap. VII) Problema della riduzione delle dimensioni L ANALISI DELLE COMPONENTI PRINCIPALI
ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo
Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università di Padova Docenti: Prof. L. Salmaso, Dott. L. Corain ESERCIZI Regressione lineare semplice
ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM)
ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM) Questa procedura è stata introdotta negli anni 70, ad opera della scuola francese di analisi dei dati (Benzecri). Inizialmente fu proposta per analizzare tabelle
Regressione. Monica Marabelli. 15 Gennaio 2016
Regressione Monica Marabelli 15 Gennaio 2016 La regressione L analisi di regressione é una tecnica statistica che serve a studiare la relazione tra variabili. In particolare, nel modello di regressione
Statistica13-23/11/2015
Statistica13-23/11/2015 Voglio studiare due fattori dipendenti uno dall altro L esempio classico sono le rese di macellazione: il peso di un organo aumenta infatti all aumentare del peso dell animale (quale
Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.
Regressione [] el modello di regressione lineare si assume una relazione di tipo lineare tra il valore medio della variabile dipendente Y e quello della variabile indipendente X per cui Il modello si scrive
Differenze tra metodi di estrazione
Lezione 11 Argomenti della lezione: L analisi fattoriale: il processo di estrazione dei fattori Metodi di estrazione dei fattori Metodi per stabilire il numero di fattori Metodi di Estrazione dei Fattori
Analisi della varianza
Università degli Studi di Padova Facoltà di Medicina e Chirurgia Facoltà di Medicina e Chirurgia - A.A. 2009-10 Scuole di specializzazione Lezioni comuni Disciplina: Statistica Docente: dott.ssa Egle PERISSINOTTO
La statistica applicata all analisi delle revenues di una squadra di calcio
La statistica applicata all analisi delle revenues di una squadra di calcio 1 dicembre 2017 Obiettivo dell analisi Obiettivo dell analisi è quello di comprendere se sia possibile intraprendere una pianificazione
ESERCITAZIONE REGRESSIONE MULTIPLA
ESERCITAZIONE REGRESSIONE MULTIPLA Dati delle Nazioni Unite del 2005 riferiti, per diverse nazioni, al tasso di feconditá (bambini per donna) (variabile Fert), alla percentuale di donne che usa contraccettivi
STATISTICA. Regressione-3 L inferenza per il modello lineare semplice
STATISTICA Regressione-3 L inferenza per il modello lineare semplice Regressione lineare: GRAFICO DI DISPERSIONE & & analisi residui A. Valutazione preliminare se una retta possa essere una buona approssimazione
Psicometria con Laboratorio di SPSS 1
Psicometria con Laboratorio di SPSS 1 1-Panoramica delle tecniche: Spiegazione intuitiva vers. 1.1 (vers. 1.1, 14 marzo 2018) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università
Correlazione e regressione
Correlazione e regressione Correlazione 1 Come posso determinare il legame tra due o più variabili? Correlazione COEFFICIENTE DI CORRELAZIONE (r di Pearson) massimo consumo di ossigeno e prestazione nelle
Teoria e tecniche dei test. Concetti di base
Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi
STATISTICA MULTIVARIATA SSD MAT/06
Università degli studi di Ferrara Dipartimento di Matematica A.A. 2018/2019 I semestre STATISTICA MULTIVARIATA SSD MAT/06 LEZION 13 Analisi della interdipendenza e della dipendenza : overview Docente:
Metodi computazionali per i Minimi Quadrati
Metodi computazionali per i Minimi Quadrati Come introdotto in precedenza si considera la matrice. A causa di mal condizionamenti ed errori di inversione, si possono avere casi in cui il e quindi S sarebbe
Metodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello
Metodi Quantitativi per Economia, Finanza e Management Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello 1. Introduzione ai modelli di regressione 2. Obiettivi 3. Le
La regressione lineare semplice
La regressione lineare semplice Il modello di regressione lineare semplice - 1 y = β 0 + βx + ε 10 8 Una retta nel piano Variabile Y 6 4 2 0 0 1 2 3 4 Variabile X 1 Il modello di regressione lineare semplice
Metodologie Quantitative. Analisi Fattoriale
Metodologie Quantitative Analisi Fattoriale La soluzione fattoriale ed il modello ACP M Q Marco Perugini Milano-Bicocca 1 Correlazioni e Varianze Ricordate che la correlazione (al quadrato) indica la varianza
Analisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca
Analisi Fattoriale Concetti introduttivi A M D Marcello Gallucci Milano-Bicocca Scopi generali L Analisi Fattoriale (e varianti) si propone di estrarre un numero limitato di fattori (variabili latenti
CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)
CHEMIOMETRIA Applicazione di metodi matematici e statistici per estrarre (massima) informazione chimica (affidabile) da dati chimici INCERTEZZA DI MISURA (intervallo di confidenza/fiducia) CONFRONTO CON
Soluzioni prova scritta di Complementi di Probabilità e Statistica (29/06)
Soluzioni prova scritta di Complementi di Probabilità e Statistica (29/6). (a) Per costruire il box plot, vengono determinati minimo=,, massimo=,97, mediana=,455, I quartile=,3375 e III quartile=,745 dei
Analisi in Componenti Principali (ACP)
Analisi in Componenti Principali (ACP) Metodi di analisi fattoriale Obiettivo: individuazione di variabili di sintesi = dimensioni = variabili latenti = variabili non osservate Approccio: Ordinamenti tra
STIMA DELLA PIENA INDICE
STIMA DELLA PIENA INDICE 1) Metodi a base geomorfoclimatica (es. Formula razionale) 2) Metodi basati su regressioni rispetto a parametri morfo-climatici 1 Valutazione della piena media Formula razionale
Stima dei parametri di modelli lineari
Stima dei parametri di modelli lineari Indice Introduzione................................ 1 Il caso studio................................ 2 Stima dei parametri............................ 3 Bontà delle
Regressione lineare semplice
Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro
L Analisi della Varianza ANOVA (ANalysis Of VAriance)
L Analisi della Varianza ANOVA (ANalysis Of VAriance) 1 Concetti generali: Confronto simultaneo tra più di due popolazioni, esempi... La analisi della varianza estende il confronto a p gruppi con p>2.
Ricerca di outlier. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna
Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla
62 CAPITOLO 3. STATISTICA DESCRITTIVA
62 CAPITOLO 3. STATISTICA DESCRITTIVA Raccogliamo su una popolazione di n individui i dati relativi a m caratteri (variabili) e riportiamoli in una matrice, dove le righe (n) sono relative ad individui
Statistica multivariata Donata Rodi 08/11/2016
Statistica multivariata Donata Rodi 08/11/2016 MANOVA: Multivariate Analysis of Variance Due o più variabili dipendenti quantitative Una o più variabili indipendenti categoriali (con più livelli) Residui
Statistica multivariata! Analisi fattoriale
Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Statistica multivariata! Analisi
Statistica multivariata Donata Rodi 17/10/2016
Statistica multivariata Donata Rodi 17/10/2016 Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare
lezione 7 AA Paolo Brunori
AA 2016-2017 Paolo Brunori dove siamo arrivati? - se siamo interessati a studiare l andamento congiunto di due fenomeni economici - possiamo provare a misurare i due fenomeni e poi usare la lineare semplice
6. Partial Least Squares (PLS)
& C. Di Natale: (PLS) Partial Least Squares PLS toolbox di MATLAB 1 Da PCR a PLS approccio geometrico Nella PCR la soluzione del problema della regressione passa attraverso la decomposizione della matrice
Sistemi Intelligenti Relazione tra ottimizzazione e statistica - IV Alberto Borghese
Sistemi Intelligenti Relazione tra ottimizzazione e statistica - IV Alberto Borghese Università degli Studi di Milano Laboratory of Applied Intelligent Systems (AIS-Lab) Dipartimento di Informatica borghese@di.unimi.it
LE REGOLE PER IL RILASCIO DEI RISULTATI DELLE ELABORAZIONI
Giugno 2019 LE REGOLE PER IL RILASCIO DEI RISULTATI DELLE ELABORAZIONI Estratto da: Il Laboratorio per l Analisi dei Dati ELEmentari (ADELE) Guida all utenza Per qualsiasi comunicazione o richiesta di
Introduzione all Analisi della Varianza (ANOVA)
Introduzione all Analisi della Varianza (ANOVA) Marcello Gallucci P S I C O M E T R I A marcello.gallucci@unimib.it Variabili nella Regressione Nella regressione, la viariabile dipendente è sempre quantitativa
1. variabili dicotomiche: 2 sole categorie A e B
Variabile X su scala qualitativa (due categorie) modello di regressione: variabili quantitative misurate almeno su scala intervallo (meglio se Y è di questo tipo e preferibilmente anche le X i ) variabili
x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )
Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 0/03 lezioni di statistica del 5 e 8 aprile 03 - di Massimo Cristallo - A. Le relazioni tra i fenomeni
Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.
Coppie o vettori di dati Spesso i dati osservati sono di tipo vettoriale. Ad esempio studiamo 222 osservazioni relative alle eruzioni del geyser Old Faithful. Old Faithful, Yellowstone Park. Old Faithful
CURVE DI DURATA: Introduzione e Rappresentazione analitica
CURVE DI DURATA: Introduzione e Rappresentazione analitica Premesse Si definisce durata di una portata Q riferita ad una sezione di misura, l'intervallo di tempo in cui le portate naturali del corso d
ANALISI MULTIDIMENSIONALE DEI DATI (AMD)
ANALISI MULTIDIMENSIONALE DEI DATI (AMD) L Analisi Multidimensionale dei Dati (AMD) è una famiglia di tecniche il cui obiettivo principale è la visualizzazione, la classificazione e l interpretazione della
Metodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione
Metodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 1/25 Introduzione Gli approcci
ANALISI DESCRITTIVA I. Introduzione al metodo
ANALISI DESCRITTIVA I. Introduzione al metodo Metodo ANALITICO, l attenzione è focalizzata sul prodotto Descrive le differenze percepibili fra prodotti della stessa tipologia Le differenze individuali
Scopo dello studio. Metodi
Ci si può fidare dei risultati dell analisi delle componenti principali? Ricci C, Milani S Istituto di Statistica Medica e Biometria G.A. Maccacaro Facoltà di Medicina e Chirurgia, Università degli Studi
Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali
Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione : analisi delle relazioni tra due caratteristiche osservate sulle stesse unità statistiche studio del comportamento di due caratteri
Statistica Applicata all edilizia: il modello di regressione
Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione
Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo
UIVERSITA DEGLI STUDI DI BASILICATA FACOLTA DI ECOOMIA Corso di laurea in Economia Aziendale anno accademico 2012/2013 Lezioni di Statistica del 15 e 18 aprile 2013 Docente: Massimo Cristallo LA RELAZIOE
Esercitazione del
Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36
Scale di Misurazione Lezione 2
Last updated April 26, 2016 Scale di Misurazione Lezione 2 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura II anno, II semestre Tipi di Variabili 1 Scale di Misurazione 1. Variabile
Regressione & Correlazione
Regressione & Correlazione Monia Ranalli Ranalli M. Dipendenza Settimana # 4 1 / 20 Sommario Regressione Modello di regressione lineare senplice Stima dei parametri Adattamento del modello ai dati Correlazione
METODI DI CLASSIFICAZIONE. Federico Marini
METODI DI CLASSIFICAZIONE Federico Marini Introduzione Nella parte introduttiva dell analisi multivariata abbiamo descritto la possibilità di riconoscere l origine di alcuni campioni come uno dei campi
STIMA DELLA PIENA INDICE
STIMA DELLA PIENA INDICE STIMA LOCALE - Anche se basata su un numero molto limitato di osservazioni (5-6) STIMA REGIONALE 1) Metodi basati su regressioni rispetto a parametri morfo-climatici 2) Metodi
Analisi multivariata (DPRS)
Analisi multivariata (DPRS) 8b-Esempio di fattoriale esplorativa vers. 1.0 Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2010-2011 Rossi (Dip. Psicologia)
UTILIZZO DELL ANALISI DELLE COMPONENTI PRINCIPALI (PCA) DI DATI HVSR FINALIZZATO ALLA ZONAZIONE SISMICA
UTILIZZO DELL ANALISI DELLE COMPONENTI PRINCIPALI (PCA) DI DATI HVSR FINALIZZATO ALLA ZONAZIONE SISMICA Terremoto de L Aquila, 2009 Gallipoli et al., 2011 Lo scopo di questo lavoro è quello di indagare
Statistica multivariata
Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire le relazioni
Statistica multivariata
Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire
Regressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
Statistica economica
Statistica economica a.a. 013/14 Dr. Luca Secondi 10.a. Output tipico di un modello di regressione lineare multipla 1 Le analisi basate sul modello di regressione prevedono la stima dei coefficienti associati
La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.
La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. Un indicatore che sintetizza in un unico numero tutti i dati, nascondendo quindi la molteplicità dei dati. Per esempio,
Regressione semplice: come applicarla come interpretare i risultati
Regressione semplice: come applicarla come interpretare i risultati Questo materiale è utile ai fini dell esecuzione della regressione con software statistico. Questo materiale non è in alcun modo utile
Caratteristiche dei dati ecologici
Caratteristiche dei dati ecologici I dati sono sparsi, cioè hanno molti valori nulli (a volte la maggioranza!) La gran parte delle specie presenti è rara. I fattori ambientali che influenzano la distribuzione
Variabili tutte osservabili: regressione Si parla di regressione quando si ha a disposizione un campione sperimentale di numerosità n della forma X 1
Modelli lineari Come motivazione di ciò che stiamo per fare, pensiamo ai dati indicatori_benessere.txt. Quando li abbiamo esaminati nella lezione 1 tramite la rappresentazione nel piano delle componenti
STATISTICA MULTIVARIATA SSD MAT/06
Università degli studi di Ferrara Dipartimento di Matematica A.A. 2018/2019 I semestre STATISTICA MULTIVARIATA SSD MAT/06 LEZIONE 4 - Questioni di analisi e applicazione della regressione lineare Pratica
Psicometria con Laboratorio di SPSS 2
Psicometria con Laboratorio di SPSS 2 Esempio di fattoriale esplorativa (v. 1.1, 12 aprile 2018) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2017-18
REGRESSIONE E CORRELAZIONE
REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.
LA REGRESSIONE LINEARE SEMPLICE
LA REGRESSIONE LINEARE SEMPLICE Se due variabili X e Y sono tra loro correlate, e sono entrambe su scala a intervalli o rapporti equivalenti, la tecnica statistica della regressione lineare consente di
Media: è la più comune misura di tendenza centrale. Può essere calcolata per variabili numeriche.
Misure di tendenza centrale e di variabilità: Media: è la più comune misura di tendenza centrale. Può essere calcolata per variabili numeriche. Il valore medio di una variabile in un gruppo di osservazioni
lezione 9 AA Paolo Brunori
AA 2016-2017 Paolo Brunori Dove siamo arrivati? - la regressione lineare multipla ci permette di stimare l effetto della variabile X sulla Y tenendo ferme tutte le altre variabili osservabili che hanno
STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo
STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)
Analisi Fattoriale. Metodi Quantitativi per Economia, Finanza e Management. Esercitazione n 7
Analisi Fattoriale Metodi Quantitativi per Economia, Finanza e Management Esercitazione n 7 Metodi Quantitativi per Economia, Finanza e Management Obiettivi di questa esercitazione: 1 2 3 4 Riepilogo teorico
Analisi delle componenti principali
Analisi delle componenti principali Serve a rappresentare un fenomeno k-dimensionale tramite un numero inferiore o uguale a k di variabili incorrelate, ottenute trasformando le variabili osservate Consiste
ANALISI MULTIVARIATA
ANALISI MULTIVARIATA Marcella Montico Servizio di epidemiologia e biostatistica... ancora sulla relazione tra due variabili: la regressione lineare semplice VD: quantitativa VI: quantitativa Misura la
Analisi della varianza a una via
Analisi della varianza a una via Statistica descrittiva e Analisi multivariata Prof. Giulio Vidotto PSY-NET: Corso di laurea online in Discipline della ricerca psicologico-sociale SOMMARIO Modelli statistici