1. ESEMPIO DI PCA. A <- read.table ('clipboard', header=true)

Documenti analoghi
1. ESEMPIO DI PCA. (nota: sono valori assoluti, non percentualizzati al numeri di abitanti e sono espressi in quintali) PCA = princomp(a) biplot(pca)

1. SOLUZIONE ESERCIZIO RIASSUNTIVO. n=1000. Z1 = rnorm(n); Z2 = rnorm(n); plot(z1,z2) X1 = 3*Z1; X2 = Z2; plot(x1,x2)

1. GRAFICO DEI DUE R^2. Si riprenda l esercitazione del 19/10, relativa alla tabella IB. IB <- read.table ("clipboard", header=true)

Siete invitati a cambiare un po di parametri dell esercizio (es. aumentare Nrow; diminuire sig2; diminuire i coefficienti di X3 ed X4).

Word ha il vantaggio che possiamo salvare un po' di risultati, anche grafici

Probablità, Statistica e Processi Stocastici

Istruzioni per l analisi in componenti principali con R

Probablità, Statistica e Processi Stocastici

Analisi delle Componenti Principali con R

Bologna, 6 settembre Francesco Giardina BIO IN CIFRE

Probablità, Statistica e Processi Stocastici

PCA: Applicazioni Analisi Esplorativa

Scheda n. 9: PCA - parte prima

Analisi delle CP. Dati USArrests

L'analisi in componenti principali

L'analisi in componenti principali

Metodi e Modelli Matematici di Probabilità per la Gestione Prova scritta A 18/12/2009

Probablità, Statistica e Processi Stocastici

Bologna, 7 settembre Francesco Giardina BIO IN CIFRE

Il SINAB è un progetto di: L AGRICOLTURA BIOLOGICA AL 31/12/2009 Tabella 1 Numero operatori per tipologia e regione TOTALE. Var.

L economia della famiglia Luigi Campiglio. Bologna Fondazione C.E.U.R. 4 dicembre 2014

Analisi Multivariata Prova intermedia del 20 aprile 2011

DISTRIBUZIONE NORMALE STANDARDIZZATA ESEMPIO DI USO DELLE TAVOLE

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1

Metodi e Modelli Matematici di Probabilità per la Gestione Prova scritta 15/12/2008 Compito B

Bologna, 8 settembre Francesco Giardina BIO IN CIFRE

BIO IN CIFRE. Marta Romeo. I numeri che raccontano il biologico. SANA 9 settembre 2013

Agricoltura biologica in Italia: nel 2015, i produttori sono cresciuti dell 8,1%, la SAU del 7,5%

Rappresentazione dei dati multivariati

L AGRICOLTURA BIOLOGICA IN CIFRE AL 31/12/2007

Analisi in Componenti Principali

Metodi Matematici e Informatici per la biologia. Esercizi

Analisi in Componenti Principali

Metodi e Modelli Matematici di Probabilità per la Gestione Prova scritta 15/12/2008 Compito A

lezione 7 AA Paolo Brunori

AGRICOLTURA BIOLOGICA IN CIFRE AL 31/12/2010

L AGRICOLTURA BIOLOGICA IN CIFRE AL 31/12/2007

Scheda n. 13: modelli lineari

Statistica II Laurea magistrale in Ing. Gestionale a.a. 2012/13 Registro delle lezioni

UNA PANORAMICA DEL BIO NEL MONDO ED IN EUROPA. Area Agroalimentare - Nomisma

Descrittiva. V Scuola Estiva AISV La statistica come strumento di analisi nelle scienze umanistiche e comportamentali

Analisi Multivariata Prova finale del 3 giugno 2010

L economia umbra tra vecchie questioni e nuove domande

Variabili tutte osservabili: regressione Si parla di regressione quando si ha a disposizione un campione sperimentale di numerosità n della forma X 1

UNIVERSITÀ DEGLI STUDI ROMA TRE Corso di Laurea in Matematica GE210 - Geometria 2 a.a Prima prova di esonero TESTO E SOLUZIONI

Bologna, 8 settembre Francesco Giardina Marta Romeo BIO IN CIFRE

L AGRICOLTURA BIOLOGICA IN CIFRE AL 31/12/2005

Scheda n. 10: PCA - parte seconda

IL FUTURO E BIO Il Biologico certificato: un opportunità per i vini a Denominazione. Castagnito (CN), 21/02/2017. Sandra Furlan

1. CLUSTER ANALYSIS. E <- read.table ('clipboard', header=true) PCA = princomp(e); biplot(pca) Parte 1: analisi preliminari, di tipo grafico.

Elementi di Psicometria

Agricoltura biologica in Italia: nel 2016 la superficie coltivata cresce del 20%; si consolida il secondo posto in Europa e il sesto nel mondo.

SDE Marco Riani

L AGRICOLTURA BIOLOGICA IN CIFRE AL 31/12/2009

Alcuni esempi su PCA e regressione Lo scopo di questa scheda è: 1) mostrare alcuni pericoli 2) descrivere una delle ragioni per studiare PCA

A Descrizione: ruota effetti opzionale con supporto/ optional effects wheel with support/ iprofile FLEX MODIFICHE. Codice assemblato:

Laboratorio di Analisi ed Esplorazione Dati A.A. 2008/09 Terzo foglio di esercizi per l esame.

Dispense di Statistica II

Corso di Laurea in Informatica Calcolo delle Probabilità e Statistica (269AA) A.A. 2016/17 - Prova del

Europa: un momento favorevole Italia: un ritorno alla crescita (finalmente) Il territorio: divari e squilibri

Equazioni del 2. ordine omogenee a coeff. costanti

Analisi Fattoriale. Metodi Quantitativi per Economia, Finanza e Management. Esercitazione n 7

Analisi dei dati per la comunicazione

L AGRICOLTURA BIOLOGICA IN CIFRE AL 31/12/2008

Prova scritta di Complementi di Probabilità e Statistica. 7 Dicembre 2012

Analisi delle Componenti Principali

Distribuzioni di probabilità e principi del metodo di Montecarlo. Montecarlo

SEZIONE DELLE AUTONOMIE

CONSEGUENZA PROPORZIONI

ANALISI DEI DATI PER IL MARKETING 2014

COGNOME E NOME MATR. ANALISI DEI DATI PER IL MARKETING novembre 2008.

Programma Esercitazione

I Pagamenti Diretti e l obiettivo di sostenere un reddito agricolo sufficiente. Simone Severini -

ANALISI DEI DATI PER IL MARKETING 2014

Indici di Dispersione

LA MASSIMIZZAZIONE DEL PROFITTO: UN'ESTENSIONE

BIO IN CIFRE. anteprima

02/04/2015. Cremona, 3 marzo 2015

Fonti e strumenti statistici per la comunicazione

Market & Portfolio Insight

Definisce e rappresenta gli insiemi. Riconosce i sottoinsiemi. Esegue le operazioni di unione e intersezione.

1. ISTOGRAMMI E GRAFICI DI ALCUNE DENSITA (COMPLEMENTO ALLA LEZIONE PRECEDENTE)

Esercitazione Marzo 2019

Metodi e Modelli Matematici di Probabilità per la Gestione Prova scritta 12/6/2010

Metodi per la riduzione della dimensionalità. Strumenti quantitativi per la gestione

L AGRICOLTURA BIOLOGICA IN CIFRE AL 31/12/2005

Abilità disciplinari Abilità trasversali

Scuola di Calcolo Scientifico con MATLAB (SCSM) 2017 Palermo Luglio 2017

Residui di fitofarmaci nell olio di oliva: principali risultati emersi dal progetto interregionale MIPAF.

Esplorazione grafica di dati multivariati. N. Del Buono

L EVOLUZIONE DEL MERCATO DEL PRODOTTO BIOLOGICO

Corso di Laurea in Informatica Calcolo delle Probabilità e Statistica (269AA) A.A. 2017/18 - Prova scritta

MMMPG 2008/09 Registro delle lezioni

Analisi in Componenti principali (ACP)

MANCA : VETTORI, FORZE E MOMENTO DI UNA FORZA

LE REGOLE PER IL RILASCIO DEI RISULTATI DELLE ELABORAZIONI

L AGRICOLTURA BIOLOGICA IN CIFRE AL 31/12/2008

Transcript:

1. ESEMPIO DI PCA A <- read.table ('clipboard', header=true) cereali tuberi ortaggi frutta agrumi vite olivo Abru 3590855 1751220 5449426 708934 560 3365847 1294269 Basi 4363879 62500 3708553 1641121 1559906 390346 364225 Cala 1739823 662162 5519088 1452920 14683931 741594 10077833 Camp 3924660 3003977 10458024 7590865 704345 2496557 2405586 EmRo 28225968 2270305 23975740 15426392 0 8595036 69929 FrVG 9025287 205466 168715 394817 0 1548909 2274 Lazi 4623582 733404 6841368 2694107 71986 2642408 1716086 Ligu 18120 94820 230370 41257 4880 127165 180400 Lomb 32935561 290328 6959450 912570 0 1876437 45364 Marc 6804551 137124 1947801 256951 0 0 231802 Moli 2080439 136160 919430 215050 0 457307 449975 Piem 20721193 475128 2508111 4382869 0 3876660 824 Pugl 10020854 797250 28828207 2052407 2782495 18336000 12139400 Sard 1113011 469177 3242480 543111 853664 1329089 498888 Sici 8802313 2236681 11053669 3467058 18483078 10624445 3361878 Tosc 5384898 1167367 3288339 828962 955 4023110 1174819 TrAA 20535 219900 113826 15099290 0 1631673 10500 Umbr 7091903 77400 1725350 91299 0 1296170 409179 ValA 1665 22000 0 39450 0 45000 0 Vene 31121694 1233404 5441741 4449690 0 11464375 77865 cereali tuberi ortaggi frutta agrumi vite olivo Abru 3590855 1751220 5449426 708934 560 3365847 1294269 Basi 4363879 62500 3708553 1641121 1559906 390346 364225 Cala 1739823 662162 5519088 1452920 14683931 741594 10077833 Camp 3924660 3003977 10458024 7590865 704345 2496557 2405586 EmRo 28225968 2270305 23975740 15426392 0 8595036 69929 FrVG 9025287 205466 168715 394817 0 1548909 2274 Lazi 4623582 733404 6841368 2694107 71986 2642408 1716086 Ligu 18120 94820 230370 41257 4880 127165 180400 Lomb 32935561 290328 6959450 912570 0 1876437 45364 Marc 6804551 137124 1947801 256951 0 0 231802 Moli 2080439 136160 919430 215050 0 457307 449975 Piem 20721193 475128 2508111 4382869 0 3876660 824 Pugl 10020854 797250 28828207 2052407 2782495 18336000 12139400 Sard 1113011 469177 3242480 543111 853664 1329089 498888 Sici 8802313 2236681 11053669 3467058 18483078 10624445 3361878 Tosc 5384898 1167367 3288339 828962 955 4023110 1174819 TrAA 20535 219900 113826 15099290 0 1631673 10500 Umbr 7091903 77400 1725350 91299 0 1296170 409179 ValA 1665 22000 0 39450 0 45000 0 Vene 31121694 1233404 5441741 4449690 0 11464375 77865

Comp.2-0.6-0.4-0.2 0.0 0.2 0.4-4e+07-2e+07 0e+00 2e+07 4e+07 PCA = princomp(a) biplot(pca) -4e+07-2e+07 0e+00 2e+07 4e+07 Piem FrVG Marc Umbr ValA Ligu Moli TrAA Basi Tosc Sard Abru Lazi tuberi frutta Camp agrumi olivo vite Lomb Vene cerea EmRo Cala Sici ortaggi Pugl -0.6-0.4-0.2 0.0 0.2 0.4 Comp.1 Qualche informazione è deducibile anche da questo disegno ma le frecce di lunghezza diversa segnalano che involontariamente abbiamo operato una scelta, quella di non standardizzare le grandezze, che di solito con PCA non ripaga. Non è obbligatorio standardizzare: ma se il nostro scopo è migliorare la visibilità, questa è un po compromessa dalle diverse unità di misura. Standardizziamo. AA =A for ( i in 1:7) {

AA[,i] = ( A[,i] - mean(a[,i]) ) / ( sd(a[,i]) ) } PCAA = princomp(aa) biplot(pcaa) Ora la leggibilità delle frecce è molto aumentata. Come in ogni esempio, si può ora fare un analisi non matematica ma qualitativa delle associazioni tra regioni, tra frecce e tra regioni e frecce. Possiamo poi chiederci se per caso le due componenti principali hanno un significato. A questo scopo visualizziamo anche la matrice dei loadings: In realtà è più facile farsi delle idee col biplot, ad es. che la prima componente principale è quella della produttività in generale, la seconda differenzia tra colture più fredde o più calde.

Variances 0.0 0.5 1.0 1.5 2.0 2.5 Esercizio per casa. I) normalizzare la tabella al numero di abitanti. Si può usare questo vettore che offre una misura approssimata della popolazione regionale: pop<-c(1.3,0.6,1.9,6,4.4,1.2,5.6,1.6,9.9,1.5,0.3,4.4,4.1,1.6,5,3.7,1,0.9,0.1,4.9) ii) ripetere l analisi PCA evidenziando alcune differenze nei risultati. 2. AUTOVALORI, DEV ST, VARIANZE SPIEGATE plot(pcaa) PCAA Comp.1 Comp.3 Comp.5 Comp.7 > PCAA$sdev Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 1.6931828 1.2520744 0.9412341 0.7724487 0.6585050 0.4465577 0.3159122 > PCAA$sdev^2 Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 2.86686806 1.56769023 0.88592165 0.59667696 0.43362880 0.19941375 0.09980054 Sono i numeri visualizzati da plot. summary(pcaa) > summary(pcaa) Importance of components:

Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 St dev 1.693183 1.2520744 0.9412341 0.77244868 0.65850498 0.44655767 0.3159122 Prop Var 0.431108 0.2357429 0.1332213 0.08972586 0.06520734 0.02998703 0.0150076 Cum Pro 0.431108 0.6668509 0.8000722 0.88979803 0.95500537 0.98499240 1.0000000 3. ARRICCHIMENTO GRAFICO (diagnostica) plot(pcaa$sdev, type="b") plot(c(0,cumsum(pcaa$sdev^2)), type="b")

varianza.cumulativa 0.0 0.2 0.4 0.6 0.8 1.0 varianza.cumulativa=c(0, 0.431108, 0.6668509, 0.8000722, 0.88979803, 0.95500537, 0.98499240, 1.0000000) plot(varianza.cumulativa,type="b") 1 2 3 4 5 6 7 8 Index Questi disegni quantificano anche la bontà della riduzione. 4. PUNTEGGI E CLASSIFICHE I punteggi di ogni regione rispetto a ciascuna componente principale si ottengono con: predict(pcaa) round(predict(pcaa),3) Vediamo solo i punteggi rispetto alla prima componente principale: punteggi = -predict(pcaa)[,1] round(punteggi,3) Vediamo infine la classifica classifica =sort(round(punteggi,3))

> sort(round(class,3)) ValA Ligu Moli Marc FrVG Umbr Basi Sard TrAA Tosc Piem Lazi Lomb Abru -1.820-1.742-1.556-1.445-1.339-1.336-1.208-1.111-0.709-0.362-0.318-0.315-0.216-0.051 Cala Vene Camp Sici EmRo Pugl 0.802 1.275 1.320 2.692 3.269 4.170 5. NOMI SU UN GRAFICO Svolgiamo un esercizio preparatorio che risolve anche una vecchia questione. Supponiamo di voler esaminare graficamente il legame tra frutta e vite nelle varie regioni italiane: plot(a$frutta, A$vite) Possiamo arricchire il disegno dei nomi delle regioni? text(a$frutta, A$vite, labels=as.character(row.names(a))) E quasi meglio evitare il pallino, a questo punto: plot(a$frutta, A$vite, type="n") text(a$frutta, A$vite, labels=as.character(row.names(a)))

6. ESPLORAZIONE DI TUTTI I PIANI PRINCIPALI C<-predict(PCAA) i=1; j=2 plot(c[,c(i,j)],type="n",asp=1) text(c[,c(i,j)],labels=as.character(row.names(aa))) Questo caso ora è in scala. Provare a ragionare piano per piano. Mettiamo le esplorazioni insieme al biplot

Comp.2-0.4-0.2 0.0 0.2 0.4 0.6-4 -2 0 2 4 Comp.3-2 -1 0 1 2 3 par(mfrow=c(1,2)) i=2; j=3 biplot(pcaa) plot(c[,c(i,j)],type="n",asp=1) text(c[,c(i,j)],labels=as.character(row.names(aa))) -4-2 0 2 4 Cala olivoagrumi Pugl Pugl Sici Vene Lomb rtaggi vite tuberi Camp Vene frutta cereali Sard Abru Lazi Basi Moli Ligu ValA Tosc Umbr Marc FrVG Piem TrAA Lomb EmRo Piem FrVG Umbr Marc Lazi Basi Moli Tosc ValA Sard Ligu Abru TrAA Camp Sici Cala EmRo -0.4-0.2 0.0 0.2 0.4 0.6 Comp.1-3 -2-1 0 1 2 3 Comp.2