Metodi Multivariati: Analisi delle Componeti Principali (PCA)

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Metodi Multivariati: Analisi delle Componeti Principali (PCA)"

Transcript

1 Metodi Multivariati: Analisi delle Componeti Principali (PCA)

2 Il modello PCA come approssimazione delle informazioni contenute in una matrice di dati in cui più oggetti (es. campioni) sono spiegati da tante variabili. L Analisi delle componenti principali (PCA) è utile all interpretazione di una complessa realtà multidimensionale attraverso il computo di un modello più semplice descritto da un numero assai minore di dimensioni (variabili latenti o componenti principali), facilmente interpretabile, ma ancora capace di rappresentare, con una buona approssimazione, l informazione contenuta nei dati originari.

3 PRINCIPAL COMPONENT ANALYSIS (PCA) La PCA è una procedura statistica per la riduzione della dimensionalità dei modelli Essa permette: Ridurre il numero di dimensioni necessarie per rappresentare i dati nel rispetto dell intera infromazione presente in una matrice di dati con più oggetti descritte da molte variabili. Ottenere informazioni sulle similitudini e differenze tra i campioni. Ottenere informazioni circa le caratteristiche dei campioni in relazione alle variabili misurate che descrivono le differenze tra i campioni.

4

5 Che cosa è la PCA? la PCA è definita come un metodo di modellazione bilineare che fornisce una descrizione delle informazioni principali contenute in una matrice di dati. Su che metodo di modellazione è basata la PCA? La modellazione bilineare è uno dei possibili metodi di compressione (riduzione) dei dati e dunque di riduzione della complessità della matrice originaria. Essa è adatta nelle situazioni in cui esiste una collinearità tra le variabili originarie di una matrice.

6 Quando due variabili sono da considerarsi collineari? Due variabili sono collineari se il valore di una può essere calcolata dall altra usando una relazione lineare. L informazione comune contenuta nelle variabili originali dunque può essere utilizzata per costruire nuove variabili, dette latenti. Che cosa è una variabile latente? Le variabili latenti prendono il nome di Componenti Principali, cioè variabili composite (funzione lineare delle variabili originali) calcolate per contenere, in ordine decrescente la struttura fondamentale dell informazione presente nei dati.

7 Il Principio della Proiezione 1) Trovare le dimensioni dello spazio multidimensionale lungo le quali la distanza tra i campioni è la maggiore. Identificazione delle variabili che meglio descrivono le differenze tra i campioni. Variabili con maggiore varianza ricerca, tra queste, delle collinearità: definizione delle componenti principali.

8 La rappresentazione grafica della riduzione delle dimensioni in un modello PCA Immaginiamo 3 variabili (X1; X2; X3) che descrivono un gruppo di campioni

9 Inizialmente i dati sono centrati in funzione di una media generale

10 La Prima Componente Principale (PC1) è la direzione che rappresenta le più grandi differenze tra gli oggetti (maggiore varianza spiegata). PC1

11 La Seconda Componente Principale (PC2) è ortogonale alla prima e spiega ulteriori differenze tra gli oggetti non spiegate dalla PC1. PC1 PC2 Queste direzioni o combinazioni lineari sono computate iterativamente in modo che la prima componente è quella caratterizzata da una maggiore varianza spiegata, la seconda componente ridurrà la varianza residua dopo la prima componente e così via per la terza e successive.

12 Rappresentazione grafica della relazione tra le Componenti Principali e le variabili originali in funzione dell angolo che le PCs costituiscono con quelle originarie. In questo caso il peso di ciascuna variabile (X1, X2, X3) sulla PC1 è pari al coseno dell angolo (rispettivamente α1, α2 e α3) descritto dalla componente stessa ed i vettori delle variabili considerate. PC1 a 3 a 1 a 2 PC2

13 3) Le componenti principali computate formano un nuovo set di coordinate che hanno due vantaggi rispetto alle variabili originarie: 1 le componenti sono ortogonali e sono ordinate in funzione della quantità di informazione che portano facilitando l interpretazione delle differenze tra i campioni. La prima componente sarà sempre quella che spiega maggiormente le differenze tra i campioni. 2 Il modo attraverso il quale le componenti sono computate assicura che questo nuovo set di coordinate è una solida base per una rappresentazione grafica che consente una facile interpretazione della struttura dei dati.

14 X Y OUTPUT RIEPILOGO 6,17 5,17 5,85 6,39 5,43 15,13 5,91 11,38 5,97 12,75 5,87 12,35 6,03 7,58 5,62 15,38 6,3 1,07 6,2 1,65 6,22 13,22 5,86 22,6 5,67 17,2 5,69 34,92 6,26 11,18 5,33 24,67 6,16 1,46 5,81 28,5 6,59 8,64 6,23 4,85 6,18 23,68 6,55 5,63 3,81 71,58 5,18 31,22 4,35 59,61 3,17 90,17 3,07 83,9 3,74 72,95 4,65 46,75 4,49 53,67 4,35 64,38 5,4 13,33 5,51 61,25 5,44 20,72 Statistica della regressione R multiplo 0, R al quadrato 0, R al quadrato c 0, Errore standard 0, Osservazioni 34 SS regressione = ΣY p2 (ΣY p ) 2 / N SS residuo = Σ(Y m -Y p ) 2 SS totale = ΣY 2 (ΣY) 2 / N ANALISI VARIANZA gdl SQ MQ F Significatività F Regressione 1 25, , ,0335 1,95186E-15 Residuo 32 3, , Totale 33 29,34511 Dividendo per df = MS STIMA della VARIANZA MS regressione / MS totale *100 = VARIANZA SPIEGATA % MS residuo / MS totale *100 = VARIANZA RESIDUA %

15 L importanza dell informazione descritta da una componente principale è stimata attraverso la varianza spiegata ad essa associata, cioè la percentuale della varianza totale che è spiegata dalla componente. La varianza spiegata è calcolata come il complemento della varianza residua fratto quella totale ed è espressa in percentuale.

16 Come utilizzare la varianza spiegata e quella residua per interpretare i modelli derivanti dall analisi delle componenti principali. Varianza spiegata e residua indicano quanto bene il modello spiega le differenze e le similitudini tra i campioni. Modelli con una bassa varianza residua (vicino a 0) o con una alta varianza spiegata (vicino al 100%) spiegano la maggior parte della variabilità nei dati.

17 Informazione e rumore Normalmente le prime componenti contengono la maggior parte dell informazione robusta relativa alle differenze tra i prodotti. Con l aumentare del numero delle componenti considerate il modello è affetto da ciò che comunemente è chiamato rumore. Pertanto è sempre opportuno studiare un numero limitato di componenti.

18 Oggetti Schematizzazione dei risultati della PCA Variabili Scores plot Interpretazione delle differenze tra i prodotti Matrice di dati X PCA Loadings plot Bi-plot Interpretazione del peso e delle relazioni tra le variabili Explained variance plot Validazione del modello

19 Lo Score plot PCA su dati descrittivi: Score plot della PC1 vs la PC2 Ogni campione ha una coordinata su una componente (score) Quando due componenti vengono rappresentate graficamente (plot) a definite un piano si ottiene una mappa in cui ogni campione è descritto da due coordinate, una per ciascuna componente. La mappa descrive similitudini e differenze tra i campioni: campioni vicini sono simili campioni molto distanti tra loro saranno molto diversi

20 Il loading plot Il contributo di una variabile della matrice originaria nel definire una componente principale è proporzionale alla correlazione tra le coordinate dei campioni per quella componente e i valori della variabile Il loading corrisponde al coseno dell angolo tra il vettore di una variabile originaria e la componente principale considerata (range between -1 and 1). Var. 2 PC2 Var. 1 PC1 Var. 3 Loading values PC1 PC2 Var Var Var. 3-0,5-0,5

21 IL loading plot 1) I campioni sulla destra dello score plot relativo avranno valori maggiori per le variabili con loading alti sulla prima componente e viceversa. 2) I campioni in alto dello score plot relativo avranno valori maggiori per le variabili con loading alti sulla seconda componente e viceversa. 3) Variabili vicine sono tra loro positivamente correlate 4) Variabili con segno opposto su una componente sono negativamente correlate

22 Il Bi-plot (score and loading plot)

23 Il correlation loading plot Grafico dei valori di correlazione tra le componenti principali e i valori delle variabili originarie. La posizione di una variabile sulla mappa indica quanto quella variabile è correlata con le componenti e la distanza dall origine indica la varianza spiegata di detta correlazione. E possibile disegnare delle ellissi sul grafico che rappresentano diversi livelli di varianza spiegata, di norma il 100% (ellissi esterna) e 50% (ellissi interna). PCA su dati descrittivi: Correlation loading plot PC1 vs PC2 Proposto da Martens & Martens (2001)

24 Il correlation loading plot: Un bi-plot alternativo con i campioni come dummy variables A B C V. 1 V.2. A B C I campioni sono inseriti come variabili di comodo (0;1) ( dummy )nella matrice che li descrive. In questo modo le variabili campioni hanno un peso molto basso e non influenzano i risultati della PCA. Nel correlation loading plot le variabili campioni si posizionano in modo da riprodurre la posizione degli stessi nello score plot.

25 Il modello vettoriale per interpretare le caratteristiche di un prodotto in funzione di una variabile in un bi-plot costruito su un correlation-loading plot. Posizione del campione P1 nel bi-plot score - correlation loading plot Punto finale del vettore della variabile «I» nel bi-plot score - correlation loading plot che indica la direzione di incremento della variabile stessa. Proiezione ortogonale della posizione del prodotto P1 sul vettore della variabile «I». Muovendosi lungo il vettore «I» i punti I4, I3, I6, I2, I5, e I1, indicano i valori crescenti della variabile I rispettivamente nei campioni P4, P3, P6, P2, e P1

26 Explained Variance Plot Validazione/selezione del numero di componenti Criterio «steep Increase» per la selezione del numero di componenti utili ad estrarre l informazione contenuta in una matrice di dati. PCs massimo 2 componenti. Nel passaggio dalla PC2 alla PC3 e da questa alla PC4 l incremento di varianza spiegata mantiene la stessa pendenza tendendo progressivamente ad un plateau.

27 explained variance Explained variance plot Cross-Validation Calibration calibration variance Rappresentazione grafica della varianza spiegata progressivamente dalle componenti principali computate sulla matrice originaria validation variance Max num di componenti da considerare 0 PC-0 PC-1 PC-2 PC-3 PC-4 PC-5 PC-6 PC-7 PCs Varianza derivata dalla media delle varianze spiegate ottenute da modelli di PCA computate ogni volta escludendo un campione dalla matrice originaria. Il numero di componenti ottimali si ottiene comparando le due curve. La componente in corrispondenza della quale le due curve si differenziano per andamento rappresenta il numero massimo di Pcs da considerare.

28

29 PC2 19% Score Plot 1.0 C 0.5 B D I 0 A E N L -0.5 F G H M PC1 52%

30 PC2 19% Score and Loading Plot 1.0 astringency C bitterness 0.5 herbal B tomato leaf viscosity D I green olive 0 ripe olive A E N grassy L pungency -0.5 F G H fresh almond M ripe tomato PC1 52%

31 4 PC2 Scores (3) (5) (4) 2 0 (12) (15) (14) (1) (2) (6) -2 (10) (11) (7) (8) (9) (16) (13) RESULT6, X-expl: 49%,19% PC1

32 PCA su dati sensoriali: dati non scalati 1.5 PC2 Scores 1.0 LATRS2 LADES2 MTDES2 0.5 FEDES2 FETRS2 LATRS1 0 FETRS1 MTTRS2-0.5 MTTRS1 MTDES1-1.0 LADES1-1.5 FEDES RESULT8, X-expl: 74%,14% PC1

33 Intensità Interpretare ed analizzare i dati rappresentare un profilo sensoriale metodi grafici Olio A Olio B Interpretare le differenze tra i profili sensoriali Studiare la relazione tra profilo sensoriale e composizione del prodotto Studiare la relazione tra profilo sensoriale e giudizi affettivi Oliva Verde Erba tagliata Foglia di pomodoro Carciofo Amaro Piccante Viscoso Descrittori metodi statistici e visualizzazione grafica dei risultati Piccante Amaro Astringenza Carciofo Olio A Olio B Olio C Mela Verde Giallo Oliva verde Oliva matura Erba tagliata Foglia di Pomodoro B (TP) TomatoF leaf Tomato Grassy leaf G (TP) M (TP) H (AR) F (AG) (F) Grassy (F) green olive (F) apple G (BA) E (BA) Green olive A (VR) D (PG) Bitter apple Pungency ness artichoke I (FI) Thickn F Ripe olive almond (F) artichoke ess C N (TP) L (AG) Ripe olive H (AG) (FI) RESULT2, X-expl: 69%,10% e 21 Aprile 2011, Laboratorio di Analisi Sensoriale Dipartimento di Biotecnologie Agrarie, Università degli Studi di Firenze

L Analisi delle Componenti Principali applicata a dati sensoriali derivanti dall analisi descrittiva.

L Analisi delle Componenti Principali applicata a dati sensoriali derivanti dall analisi descrittiva. L Analisi delle Componenti Principali applicata a dati sensoriali derivanti dall analisi descrittiva. Nota didattica per gli studenti dei corsi di: Analisi Sensoriale degli Alimenti Corso di Laurea in

Dettagli

Analisi, validazione e rappresentazione dei dati nell analisi descrittiva. e non solo

Analisi, validazione e rappresentazione dei dati nell analisi descrittiva. e non solo Analisi, validazione e rappresentazione dei dati nell analisi descrittiva. e non solo Descrizione sensoriale del profilo aromatico di 11 campioni di vino attraverso la valutazione dell intensità dell odore

Dettagli

Nota didattica sulla validazione e l interpretazione dei dati raccolti per la definizione del profilo sensoriale dei prodotti alimentari.

Nota didattica sulla validazione e l interpretazione dei dati raccolti per la definizione del profilo sensoriale dei prodotti alimentari. Nota didattica sulla validazione e l interpretazione dei dati raccolti per la definizione del profilo sensoriale dei prodotti alimentari. 1 1. La validazione dei dati relativi all analisi descrittiva del

Dettagli

Statistica multivariata Donata Rodi 21/11/2016

Statistica multivariata Donata Rodi 21/11/2016 Statistica multivariata Donata Rodi 21/11/2016 PCA Tecnica di riduzione delle dimensioni che descrive la struttura multivariata dei dati per analisi descrittive e inferenziali Descrive la variazione di

Dettagli

Analisi delle Componenti Principali

Analisi delle Componenti Principali Struttura e proprietà degli alimenti Analisi delle Componenti Principali Dott. Rossella Di Monaco Dipartimento di Scienza degli Alimenti CORSO di LAUREA MAGISTRALE in SCIENZE E TECNOLOGIE ALIMENTARI La

Dettagli

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi

Dettagli

Analisi delle corrispondenze

Analisi delle corrispondenze Analisi delle corrispondenze Obiettivo: analisi delle relazioni tra le modalità di due (o più) caratteri qualitativi Individuazione della struttura dell associazione interna a una tabella di contingenza

Dettagli

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value Inferenza: singolo parametro Sistema di ipotesi: H 0 : β j = β j0 H 1 : β j β j0 statistica test t b j - b s a jj j0 > t a, 2 ( n-k) confronto con valore t o p-value Se β j0 = 0 X j non ha nessuna influenza

Dettagli

STATISTICA. Regressione-2

STATISTICA. Regressione-2 STATISTICA Regressione-2 Esempio Su un campione di =5unità sono state osservate due variabili, ed : x i 1 2 3 4 5 y i 1.5 2.5 3 2.5 3.5 1. Rappresentare l andamento congiunto di in funzione di mediante

Dettagli

Esplorazione grafica di dati multivariati. N. Del Buono

Esplorazione grafica di dati multivariati. N. Del Buono Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)

Dettagli

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6 CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Associazione, correlazione e dipendenza tra caratteri In un collettivo di 11 famiglie è stata

Dettagli

gradimento Processo Alimento Insieme di stimoli Chimici e Fisici Attese Packaging Informazioni Etichette Marchi Prezzo Stereotipi

gradimento Processo Alimento Insieme di stimoli Chimici e Fisici Attese Packaging Informazioni Etichette Marchi Prezzo Stereotipi Conduzione dei test di gradimento e analisi univariate e multivariate dei dati Erminio Monteleone Materie Prime Processo Alimento Insieme di stimoli Chimici e Fisici Proprietà sensoriali Attese Packaging

Dettagli

Rappresentazione dei dati multivariati

Rappresentazione dei dati multivariati Rappresentazione dei dati multivariati Quando si hanno più di due varabili la posizione di ciascuna unità rispetto alle altre può essere rappresentata nel diagramma relativo alle prime due CP l importanza

Dettagli

Analisi in Componenti Principali

Analisi in Componenti Principali Analisi in Componenti Principali 1/20 Analisi in Componenti Principali tecnica di riduzione e interpretazione dei dati spesso gioca un ruolo ausiliario rispetto ad altre tecniche (es. analisi fattoriale,

Dettagli

Analisi in Componenti Principali

Analisi in Componenti Principali Analisi in Componenti Principali 1/20 Analisi in Componenti Principali Analisi in Componenti Principali 1/20 Analisi in Componenti Principali tecnica di riduzione e interpretazione dei dati spesso gioca

Dettagli

Capitolo 12 La regressione lineare semplice

Capitolo 12 La regressione lineare semplice Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università

Dettagli

STATISTICA. Esercitazione 5

STATISTICA. Esercitazione 5 STATISTICA Esercitazione 5 Esercizio 1 Ad un esame universitario sono stati assegnati in modo casuale due compiti diversi con i seguenti risultati: Compito A Compito B Numero studenti 102 105 Media dei

Dettagli

Statistica descrittiva: analisi di regressione

Statistica descrittiva: analisi di regressione Statistica descrittiva: analisi di regressione L analisi di regressione permette di esplorare le relazioni tra due insiemi di valori (p.e. i valori di due attributi di un campione) alla ricerca di associazioni.

Dettagli

Analisi Multivariata Prova intermedia del 20 aprile 2011

Analisi Multivariata Prova intermedia del 20 aprile 2011 Analisi Multivariata Prova intermedia del 20 aprile 20 Esercizio A Sia X N 3 (µ, Σ) con µ = [ 3,, 4] e 2 0 Σ = 2 5 0 0 0 2 Quali delle seguenti variabili casuali è indipendente? Motivare la risposta. A.

Dettagli

Analisi delle corrispondenze

Analisi delle corrispondenze Capitolo 11 Analisi delle corrispondenze L obiettivo dell analisi delle corrispondenze, i cui primi sviluppi risalgono alla metà degli anni 60 in Francia ad opera di JP Benzécri e la sua equipe, è quello

Dettagli

La matrice delle correlazioni è la seguente:

La matrice delle correlazioni è la seguente: Calcolo delle componenti principali tramite un esempio numerico Questo esempio numerico puó essere utile per chiarire il calcolo delle componenti principali e per introdurre il programma SPAD. IL PROBLEMA

Dettagli

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1 Statistica Capitolo 1 Regressione Lineare Semplice Cap. 1-1 Obiettivi del Capitolo Dopo aver completato il capitolo, sarete in grado di: Spiegare il significato del coefficiente di correlazione lineare

Dettagli

Prova scritta di Complementi di Probabilità e Statistica. 7 Dicembre 2012

Prova scritta di Complementi di Probabilità e Statistica. 7 Dicembre 2012 Prova scritta di Complementi di Probabilità e Statistica 7 Dicembre. Un ingegnere vuole investigare se le caratteristiche di una superficie metallica sono influenzate dal tipo di pittura usata e dal tempo

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it ANALISI DELLE CORRISPONDENZE (cap. VII) Problema della riduzione delle dimensioni L ANALISI DELLE COMPONENTI PRINCIPALI

Dettagli

ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo

ESERCIZI. Regressione lineare semplice CAPITOLO 12 Levine, Krehbiel, Berenson, Statistica II ed., 2006 Apogeo Insegnamento: Statistica Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università di Padova Docenti: Prof. L. Salmaso, Dott. L. Corain ESERCIZI Regressione lineare semplice

Dettagli

ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM)

ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM) ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM) Questa procedura è stata introdotta negli anni 70, ad opera della scuola francese di analisi dei dati (Benzecri). Inizialmente fu proposta per analizzare tabelle

Dettagli

Regressione. Monica Marabelli. 15 Gennaio 2016

Regressione. Monica Marabelli. 15 Gennaio 2016 Regressione Monica Marabelli 15 Gennaio 2016 La regressione L analisi di regressione é una tecnica statistica che serve a studiare la relazione tra variabili. In particolare, nel modello di regressione

Dettagli

Statistica13-23/11/2015

Statistica13-23/11/2015 Statistica13-23/11/2015 Voglio studiare due fattori dipendenti uno dall altro L esempio classico sono le rese di macellazione: il peso di un organo aumenta infatti all aumentare del peso dell animale (quale

Dettagli

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0. Regressione [] el modello di regressione lineare si assume una relazione di tipo lineare tra il valore medio della variabile dipendente Y e quello della variabile indipendente X per cui Il modello si scrive

Dettagli

Differenze tra metodi di estrazione

Differenze tra metodi di estrazione Lezione 11 Argomenti della lezione: L analisi fattoriale: il processo di estrazione dei fattori Metodi di estrazione dei fattori Metodi per stabilire il numero di fattori Metodi di Estrazione dei Fattori

Dettagli

Analisi della varianza

Analisi della varianza Università degli Studi di Padova Facoltà di Medicina e Chirurgia Facoltà di Medicina e Chirurgia - A.A. 2009-10 Scuole di specializzazione Lezioni comuni Disciplina: Statistica Docente: dott.ssa Egle PERISSINOTTO

Dettagli

La statistica applicata all analisi delle revenues di una squadra di calcio

La statistica applicata all analisi delle revenues di una squadra di calcio La statistica applicata all analisi delle revenues di una squadra di calcio 1 dicembre 2017 Obiettivo dell analisi Obiettivo dell analisi è quello di comprendere se sia possibile intraprendere una pianificazione

Dettagli

ESERCITAZIONE REGRESSIONE MULTIPLA

ESERCITAZIONE REGRESSIONE MULTIPLA ESERCITAZIONE REGRESSIONE MULTIPLA Dati delle Nazioni Unite del 2005 riferiti, per diverse nazioni, al tasso di feconditá (bambini per donna) (variabile Fert), alla percentuale di donne che usa contraccettivi

Dettagli

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice STATISTICA Regressione-3 L inferenza per il modello lineare semplice Regressione lineare: GRAFICO DI DISPERSIONE & & analisi residui A. Valutazione preliminare se una retta possa essere una buona approssimazione

Dettagli

Psicometria con Laboratorio di SPSS 1

Psicometria con Laboratorio di SPSS 1 Psicometria con Laboratorio di SPSS 1 1-Panoramica delle tecniche: Spiegazione intuitiva vers. 1.1 (vers. 1.1, 14 marzo 2018) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università

Dettagli

Correlazione e regressione

Correlazione e regressione Correlazione e regressione Correlazione 1 Come posso determinare il legame tra due o più variabili? Correlazione COEFFICIENTE DI CORRELAZIONE (r di Pearson) massimo consumo di ossigeno e prestazione nelle

Dettagli

Teoria e tecniche dei test. Concetti di base

Teoria e tecniche dei test. Concetti di base Teoria e tecniche dei test Lezione 2 2013/14 ALCUNE NOZIONI STATITICHE DI BASE Concetti di base Campione e popolazione (1) La popolazione è l insieme di individui o oggetti che si vogliono studiare. Questi

Dettagli

STATISTICA MULTIVARIATA SSD MAT/06

STATISTICA MULTIVARIATA SSD MAT/06 Università degli studi di Ferrara Dipartimento di Matematica A.A. 2018/2019 I semestre STATISTICA MULTIVARIATA SSD MAT/06 LEZION 13 Analisi della interdipendenza e della dipendenza : overview Docente:

Dettagli

Metodi computazionali per i Minimi Quadrati

Metodi computazionali per i Minimi Quadrati Metodi computazionali per i Minimi Quadrati Come introdotto in precedenza si considera la matrice. A causa di mal condizionamenti ed errori di inversione, si possono avere casi in cui il e quindi S sarebbe

Dettagli

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello Metodi Quantitativi per Economia, Finanza e Management Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello 1. Introduzione ai modelli di regressione 2. Obiettivi 3. Le

Dettagli

La regressione lineare semplice

La regressione lineare semplice La regressione lineare semplice Il modello di regressione lineare semplice - 1 y = β 0 + βx + ε 10 8 Una retta nel piano Variabile Y 6 4 2 0 0 1 2 3 4 Variabile X 1 Il modello di regressione lineare semplice

Dettagli

Metodologie Quantitative. Analisi Fattoriale

Metodologie Quantitative. Analisi Fattoriale Metodologie Quantitative Analisi Fattoriale La soluzione fattoriale ed il modello ACP M Q Marco Perugini Milano-Bicocca 1 Correlazioni e Varianze Ricordate che la correlazione (al quadrato) indica la varianza

Dettagli

Analisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca

Analisi Fattoriale Concetti introduttivi Marcello Gallucci Milano-Bicocca Analisi Fattoriale Concetti introduttivi A M D Marcello Gallucci Milano-Bicocca Scopi generali L Analisi Fattoriale (e varianti) si propone di estrarre un numero limitato di fattori (variabili latenti

Dettagli

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi)

CHEMIOMETRIA. CONFRONTO CON VALORE ATTESO (test d ipotesi) CONFRONTO DI VALORI MISURATI (test d ipotesi) CONFRONTO DI RIPRODUCIBILITA (test d ipotesi) CHEMIOMETRIA Applicazione di metodi matematici e statistici per estrarre (massima) informazione chimica (affidabile) da dati chimici INCERTEZZA DI MISURA (intervallo di confidenza/fiducia) CONFRONTO CON

Dettagli

Soluzioni prova scritta di Complementi di Probabilità e Statistica (29/06)

Soluzioni prova scritta di Complementi di Probabilità e Statistica (29/06) Soluzioni prova scritta di Complementi di Probabilità e Statistica (29/6). (a) Per costruire il box plot, vengono determinati minimo=,, massimo=,97, mediana=,455, I quartile=,3375 e III quartile=,745 dei

Dettagli

Analisi in Componenti Principali (ACP)

Analisi in Componenti Principali (ACP) Analisi in Componenti Principali (ACP) Metodi di analisi fattoriale Obiettivo: individuazione di variabili di sintesi = dimensioni = variabili latenti = variabili non osservate Approccio: Ordinamenti tra

Dettagli

STIMA DELLA PIENA INDICE

STIMA DELLA PIENA INDICE STIMA DELLA PIENA INDICE 1) Metodi a base geomorfoclimatica (es. Formula razionale) 2) Metodi basati su regressioni rispetto a parametri morfo-climatici 1 Valutazione della piena media Formula razionale

Dettagli

Stima dei parametri di modelli lineari

Stima dei parametri di modelli lineari Stima dei parametri di modelli lineari Indice Introduzione................................ 1 Il caso studio................................ 2 Stima dei parametri............................ 3 Bontà delle

Dettagli

Regressione lineare semplice

Regressione lineare semplice Regressione lineare semplice Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Statistica con due variabili var. nominale, var. nominale: gruppo sanguigno - cancro

Dettagli

L Analisi della Varianza ANOVA (ANalysis Of VAriance)

L Analisi della Varianza ANOVA (ANalysis Of VAriance) L Analisi della Varianza ANOVA (ANalysis Of VAriance) 1 Concetti generali: Confronto simultaneo tra più di due popolazioni, esempi... La analisi della varianza estende il confronto a p gruppi con p>2.

Dettagli

Ricerca di outlier. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

Ricerca di outlier. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

62 CAPITOLO 3. STATISTICA DESCRITTIVA

62 CAPITOLO 3. STATISTICA DESCRITTIVA 62 CAPITOLO 3. STATISTICA DESCRITTIVA Raccogliamo su una popolazione di n individui i dati relativi a m caratteri (variabili) e riportiamoli in una matrice, dove le righe (n) sono relative ad individui

Dettagli

Statistica multivariata Donata Rodi 08/11/2016

Statistica multivariata Donata Rodi 08/11/2016 Statistica multivariata Donata Rodi 08/11/2016 MANOVA: Multivariate Analysis of Variance Due o più variabili dipendenti quantitative Una o più variabili indipendenti categoriali (con più livelli) Residui

Dettagli

Statistica multivariata! Analisi fattoriale

Statistica multivariata! Analisi fattoriale Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Statistica multivariata! Analisi

Dettagli

Statistica multivariata Donata Rodi 17/10/2016

Statistica multivariata Donata Rodi 17/10/2016 Statistica multivariata Donata Rodi 17/10/2016 Quale analisi? Variabile Dipendente Categoriale Continua Variabile Indipendente Categoriale Chi Quadro ANOVA Continua Regressione Logistica Regressione Lineare

Dettagli

lezione 7 AA Paolo Brunori

lezione 7 AA Paolo Brunori AA 2016-2017 Paolo Brunori dove siamo arrivati? - se siamo interessati a studiare l andamento congiunto di due fenomeni economici - possiamo provare a misurare i due fenomeni e poi usare la lineare semplice

Dettagli

6. Partial Least Squares (PLS)

6. Partial Least Squares (PLS) & C. Di Natale: (PLS) Partial Least Squares PLS toolbox di MATLAB 1 Da PCR a PLS approccio geometrico Nella PCR la soluzione del problema della regressione passa attraverso la decomposizione della matrice

Dettagli

Sistemi Intelligenti Relazione tra ottimizzazione e statistica - IV Alberto Borghese

Sistemi Intelligenti Relazione tra ottimizzazione e statistica - IV Alberto Borghese Sistemi Intelligenti Relazione tra ottimizzazione e statistica - IV Alberto Borghese Università degli Studi di Milano Laboratory of Applied Intelligent Systems (AIS-Lab) Dipartimento di Informatica borghese@di.unimi.it

Dettagli

LE REGOLE PER IL RILASCIO DEI RISULTATI DELLE ELABORAZIONI

LE REGOLE PER IL RILASCIO DEI RISULTATI DELLE ELABORAZIONI Giugno 2019 LE REGOLE PER IL RILASCIO DEI RISULTATI DELLE ELABORAZIONI Estratto da: Il Laboratorio per l Analisi dei Dati ELEmentari (ADELE) Guida all utenza Per qualsiasi comunicazione o richiesta di

Dettagli

Introduzione all Analisi della Varianza (ANOVA)

Introduzione all Analisi della Varianza (ANOVA) Introduzione all Analisi della Varianza (ANOVA) Marcello Gallucci P S I C O M E T R I A marcello.gallucci@unimib.it Variabili nella Regressione Nella regressione, la viariabile dipendente è sempre quantitativa

Dettagli

1. variabili dicotomiche: 2 sole categorie A e B

1. variabili dicotomiche: 2 sole categorie A e B Variabile X su scala qualitativa (due categorie) modello di regressione: variabili quantitative misurate almeno su scala intervallo (meglio se Y è di questo tipo e preferibilmente anche le X i ) variabili

Dettagli

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y )

x, y rappresenta la coppia di valori relativa La rappresentazione nel piano cartesiano dei punti ( x, y ),( x, y ),...,( x, y ) Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 0/03 lezioni di statistica del 5 e 8 aprile 03 - di Massimo Cristallo - A. Le relazioni tra i fenomeni

Dettagli

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione. Coppie o vettori di dati Spesso i dati osservati sono di tipo vettoriale. Ad esempio studiamo 222 osservazioni relative alle eruzioni del geyser Old Faithful. Old Faithful, Yellowstone Park. Old Faithful

Dettagli

CURVE DI DURATA: Introduzione e Rappresentazione analitica

CURVE DI DURATA: Introduzione e Rappresentazione analitica CURVE DI DURATA: Introduzione e Rappresentazione analitica Premesse Si definisce durata di una portata Q riferita ad una sezione di misura, l'intervallo di tempo in cui le portate naturali del corso d

Dettagli

ANALISI MULTIDIMENSIONALE DEI DATI (AMD)

ANALISI MULTIDIMENSIONALE DEI DATI (AMD) ANALISI MULTIDIMENSIONALE DEI DATI (AMD) L Analisi Multidimensionale dei Dati (AMD) è una famiglia di tecniche il cui obiettivo principale è la visualizzazione, la classificazione e l interpretazione della

Dettagli

Metodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione

Metodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione Metodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/6c_pca.html#(1) 1/25 Introduzione Gli approcci

Dettagli

ANALISI DESCRITTIVA I. Introduzione al metodo

ANALISI DESCRITTIVA I. Introduzione al metodo ANALISI DESCRITTIVA I. Introduzione al metodo Metodo ANALITICO, l attenzione è focalizzata sul prodotto Descrive le differenze percepibili fra prodotti della stessa tipologia Le differenze individuali

Dettagli

Scopo dello studio. Metodi

Scopo dello studio. Metodi Ci si può fidare dei risultati dell analisi delle componenti principali? Ricci C, Milani S Istituto di Statistica Medica e Biometria G.A. Maccacaro Facoltà di Medicina e Chirurgia, Università degli Studi

Dettagli

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione : analisi delle relazioni tra due caratteristiche osservate sulle stesse unità statistiche studio del comportamento di due caratteri

Dettagli

Statistica Applicata all edilizia: il modello di regressione

Statistica Applicata all edilizia: il modello di regressione Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione

Dettagli

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo

Lezioni di Statistica del 15 e 18 aprile Docente: Massimo Cristallo UIVERSITA DEGLI STUDI DI BASILICATA FACOLTA DI ECOOMIA Corso di laurea in Economia Aziendale anno accademico 2012/2013 Lezioni di Statistica del 15 e 18 aprile 2013 Docente: Massimo Cristallo LA RELAZIOE

Dettagli

Esercitazione del

Esercitazione del Esercizi sulla regressione lineare. Esercitazione del 21.05.2013 Esercizio dal tema d esame del 13.06.2011. Si consideri il seguente campione di n = 9 osservazioni relative ai caratteri ed Y: 7 17 8 36

Dettagli

Scale di Misurazione Lezione 2

Scale di Misurazione Lezione 2 Last updated April 26, 2016 Scale di Misurazione Lezione 2 G. Bacaro Statistica CdL in Scienze e Tecnologie per l'ambiente e la Natura II anno, II semestre Tipi di Variabili 1 Scale di Misurazione 1. Variabile

Dettagli

Regressione & Correlazione

Regressione & Correlazione Regressione & Correlazione Monia Ranalli Ranalli M. Dipendenza Settimana # 4 1 / 20 Sommario Regressione Modello di regressione lineare senplice Stima dei parametri Adattamento del modello ai dati Correlazione

Dettagli

METODI DI CLASSIFICAZIONE. Federico Marini

METODI DI CLASSIFICAZIONE. Federico Marini METODI DI CLASSIFICAZIONE Federico Marini Introduzione Nella parte introduttiva dell analisi multivariata abbiamo descritto la possibilità di riconoscere l origine di alcuni campioni come uno dei campi

Dettagli

STIMA DELLA PIENA INDICE

STIMA DELLA PIENA INDICE STIMA DELLA PIENA INDICE STIMA LOCALE - Anche se basata su un numero molto limitato di osservazioni (5-6) STIMA REGIONALE 1) Metodi basati su regressioni rispetto a parametri morfo-climatici 2) Metodi

Dettagli

Analisi multivariata (DPRS)

Analisi multivariata (DPRS) Analisi multivariata (DPRS) 8b-Esempio di fattoriale esplorativa vers. 1.0 Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2010-2011 Rossi (Dip. Psicologia)

Dettagli

UTILIZZO DELL ANALISI DELLE COMPONENTI PRINCIPALI (PCA) DI DATI HVSR FINALIZZATO ALLA ZONAZIONE SISMICA

UTILIZZO DELL ANALISI DELLE COMPONENTI PRINCIPALI (PCA) DI DATI HVSR FINALIZZATO ALLA ZONAZIONE SISMICA UTILIZZO DELL ANALISI DELLE COMPONENTI PRINCIPALI (PCA) DI DATI HVSR FINALIZZATO ALLA ZONAZIONE SISMICA Terremoto de L Aquila, 2009 Gallipoli et al., 2011 Lo scopo di questo lavoro è quello di indagare

Dettagli

Statistica multivariata

Statistica multivariata Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire le relazioni

Dettagli

Statistica multivariata

Statistica multivariata Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Cercare di capire

Dettagli

Regressione Lineare Semplice e Correlazione

Regressione Lineare Semplice e Correlazione Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)

Dettagli

Statistica economica

Statistica economica Statistica economica a.a. 013/14 Dr. Luca Secondi 10.a. Output tipico di un modello di regressione lineare multipla 1 Le analisi basate sul modello di regressione prevedono la stima dei coefficienti associati

Dettagli

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati.

La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. La media e la mediana sono indicatori di centralità, che indicano un centro dei dati. Un indicatore che sintetizza in un unico numero tutti i dati, nascondendo quindi la molteplicità dei dati. Per esempio,

Dettagli

Regressione semplice: come applicarla come interpretare i risultati

Regressione semplice: come applicarla come interpretare i risultati Regressione semplice: come applicarla come interpretare i risultati Questo materiale è utile ai fini dell esecuzione della regressione con software statistico. Questo materiale non è in alcun modo utile

Dettagli

Caratteristiche dei dati ecologici

Caratteristiche dei dati ecologici Caratteristiche dei dati ecologici I dati sono sparsi, cioè hanno molti valori nulli (a volte la maggioranza!) La gran parte delle specie presenti è rara. I fattori ambientali che influenzano la distribuzione

Dettagli

Variabili tutte osservabili: regressione Si parla di regressione quando si ha a disposizione un campione sperimentale di numerosità n della forma X 1

Variabili tutte osservabili: regressione Si parla di regressione quando si ha a disposizione un campione sperimentale di numerosità n della forma X 1 Modelli lineari Come motivazione di ciò che stiamo per fare, pensiamo ai dati indicatori_benessere.txt. Quando li abbiamo esaminati nella lezione 1 tramite la rappresentazione nel piano delle componenti

Dettagli

STATISTICA MULTIVARIATA SSD MAT/06

STATISTICA MULTIVARIATA SSD MAT/06 Università degli studi di Ferrara Dipartimento di Matematica A.A. 2018/2019 I semestre STATISTICA MULTIVARIATA SSD MAT/06 LEZIONE 4 - Questioni di analisi e applicazione della regressione lineare Pratica

Dettagli

Psicometria con Laboratorio di SPSS 2

Psicometria con Laboratorio di SPSS 2 Psicometria con Laboratorio di SPSS 2 Esempio di fattoriale esplorativa (v. 1.1, 12 aprile 2018) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2017-18

Dettagli

REGRESSIONE E CORRELAZIONE

REGRESSIONE E CORRELAZIONE REGRESSIONE E CORRELAZIONE Nella Statistica, per studio della connessione si intende la ricerca di eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabili statistiche 1.

Dettagli

LA REGRESSIONE LINEARE SEMPLICE

LA REGRESSIONE LINEARE SEMPLICE LA REGRESSIONE LINEARE SEMPLICE Se due variabili X e Y sono tra loro correlate, e sono entrambe su scala a intervalli o rapporti equivalenti, la tecnica statistica della regressione lineare consente di

Dettagli

Media: è la più comune misura di tendenza centrale. Può essere calcolata per variabili numeriche.

Media: è la più comune misura di tendenza centrale. Può essere calcolata per variabili numeriche. Misure di tendenza centrale e di variabilità: Media: è la più comune misura di tendenza centrale. Può essere calcolata per variabili numeriche. Il valore medio di una variabile in un gruppo di osservazioni

Dettagli

lezione 9 AA Paolo Brunori

lezione 9 AA Paolo Brunori AA 2016-2017 Paolo Brunori Dove siamo arrivati? - la regressione lineare multipla ci permette di stimare l effetto della variabile X sulla Y tenendo ferme tutte le altre variabili osservabili che hanno

Dettagli

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo STATISTICA (2) ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X)

Dettagli

Analisi Fattoriale. Metodi Quantitativi per Economia, Finanza e Management. Esercitazione n 7

Analisi Fattoriale. Metodi Quantitativi per Economia, Finanza e Management. Esercitazione n 7 Analisi Fattoriale Metodi Quantitativi per Economia, Finanza e Management Esercitazione n 7 Metodi Quantitativi per Economia, Finanza e Management Obiettivi di questa esercitazione: 1 2 3 4 Riepilogo teorico

Dettagli

Analisi delle componenti principali

Analisi delle componenti principali Analisi delle componenti principali Serve a rappresentare un fenomeno k-dimensionale tramite un numero inferiore o uguale a k di variabili incorrelate, ottenute trasformando le variabili osservate Consiste

Dettagli

ANALISI MULTIVARIATA

ANALISI MULTIVARIATA ANALISI MULTIVARIATA Marcella Montico Servizio di epidemiologia e biostatistica... ancora sulla relazione tra due variabili: la regressione lineare semplice VD: quantitativa VI: quantitativa Misura la

Dettagli

Analisi della varianza a una via

Analisi della varianza a una via Analisi della varianza a una via Statistica descrittiva e Analisi multivariata Prof. Giulio Vidotto PSY-NET: Corso di laurea online in Discipline della ricerca psicologico-sociale SOMMARIO Modelli statistici

Dettagli