Analisi delle componenti principali PRINCIPAL COMPONENT ANALYSIS- PCA

Transcript

1 Analisi delle componenti principali PRINCIPAL COMPONENT ANALYSIS- PCA

2 Background:Richiami di nozioni statistiche multivariate Spazio degli osservabili ogni misurazione multivariata è rappresentata da un vettore in uno spazio m dimensionale (feature) m numero di feature che caratterizza una osservazione n numero di campioni delle osservazioni la distribuzione statistica dei punti (vettori) definisce le proprietà dell intero dataset

3 Background Ogni grandezza multivariata rappresentabile in uno spazio vettoriale m-dimensionale definisce una PDF multivariata Ipotesi importante: osservazioni che descrivono campioni simili sono rappresentate da punti vicini Esistenza di un relazione tra distanza reciproca e similitudine tra campioni (ipotesi del pattern recognition)

4 Statistica descrittiva multivariata Descrittori fondamentali di una distribuzione univariata (statistiche del primo e secondo ordine): Media (scalare) Varianza o momento secondo (scalare) definisce la ampiezza della distribuzione stessa, cioè il range di valori della variabile che hanno una probabilità reale di essere osservati Per una distribuzione multivariata valgono gli stessi concetti media di ogni feature (vettore delle medie sulle caratteristiche) varianza di ogni feature e covarianza tra le varie feature (matrice di covarianza) definisce l ampiezza della PDF e il grado di correlazione tra le variabili stesse

5 Matrice di covarianza Consideriamo una matrice dei dati X (matrice degli osservabili) di dimensione n m m feature di tipo quantitativo pseudoinversa di X fornisce una stima delle variabili aleatorie reali studio delle relazioni fra i fenomeni si può ottenere considerando ciascuna delle possibili coppie di variabili X i e X j valori della covarianza tra ciascuna delle coppie di variabili si scrivono in forma compatta utilizzando la matrice di covarianza dei dati, di dimensioni m m

6 Matrice di covarianza = ), cov ( ) ( var ), cov( ), cov ( ), cov( ) ( var m m X X X X X X X X X X X S M O M M L L ) ( var ), cov ( ), cov( 2 1 m m m X X X X X L Matrice simmetrica, semi-definita positiva Elementi diagonali sono i valori delle varianze delle m variabili trace(s X ) rappresenta la varianza totale varianza totale

7 Matrice di correlazione Osserviamo che Conoscere la matrice di covarianza consente di calcolare la matrice di correlazione ) var( ) var( ), cov( v s v s sv X X X X r = L = L M O M M L L p p p p X r r r r r r R Matrice simmetrica (r ij = r ji ), semidefinita positiva Elementi diagonali uguali a 1 Evidenzia le relazioni lineari tra le coppie di variabili

8 Matrice di correlazione Riferendoci alle sole relazioni bidimensionali, la matrice di correlazione permette di conoscere: le coppie di variabili che forniscono informazioni pressoché ripetitive (coefficiente di correlazione in modulo vicino a 1) le coppie di variabili non correlate linearmente (coefficiente di correlazione pari a 0)

9 Matrici di covarianza e correlazione X = x x M xn x x x M n2 L L O L x x x 1m 2m M nm Vettore delle medie delle feature X c = X µ X 1 Matrice centrata sulla media (matrice degli scarti dalla media) 1 S X C = n 1 RX C X T X 1 2 = ( diag( S)) S( diag( S)) 1 2 Matrice di covarianza Matrice di correlazione

10 Matrice di covarianza e PCA Per rimuovere la correlazione tra le varie feature si deve ridurre la matrice di covarianza dei dati in forma diagonale introducendo delle nuove variabili latenti forma diagonale ottenibile mediante un adeguato cambiamento del sistema di riferimento nuovo sistema di riferimento corrisponde agli autovettori della matrice di covarianza, cioè agli assi principali dell ellisse costruita come forma quadratica dalla matrice di covarianza stessa PCA

11 Matrice di covarianza e PCA La diagonalizzazione della matrice di covarianza dei dati rende le feature scorrelate la PDF multivariata prodotto di PDF univariate Le nuove feature non sono più degli osservabili fisici (oggetto di misurazioni), ma sono combinazioni lineari di queste. le nuove variabili si chiamano Componenti Principali

12 Principal Component Analysis L'analisi delle componenti principali (PCA) appare in molti campi della matematica computazionale con diversi nomi: Trasformazione sugli assi principali in geometria, trasformazione di Karhunen-Loeve (KL) in ingegneria e nella teoria del riconoscimento delle forme e nell'elaborazione delle immagini, analisi spettrale in fisica e analisi matematica (esempio problemi agli autovalori per equazioni differenziali), Analisi fattoriale in psicologia (anche se con questo termine spesso si associano obiettivi più ambiziosi della sola riduzione delle dimensioni). Metodo preliminare ad altri metodi della statistica multivariata, quali l'analisi dei raggruppamenti e la ricerca di funzioni discriminanti

13 Principal Component Analysis PCA tecnica di estrazione di feature basata sul criterio dell errore quadratico medio tecnica non supervisionata (unsupervised statistical learning) metodo classico orientato alla riduzione della dimensionalità e alla separazione di sorgenti Metodo di rappresentazione di segnali PCA esprime un dato segnale come somma di componenti ortonormali e scorrelate

14 PCA e BSS Problema di BSS (blind signal separation, o blind source separation) BSS separare un insieme di segnali da un insieme di segnali combinati senza alcuna informazione sulle sorgenti o sul processo di combinazione X formato da m feature combinazioni lineari di sorgenti s 1, s 2,, s m che supponiamo indipendenti. sorgenti indipendenti sono anche scorrelate

15 PCA e BSS PCA approccio più semplice per la soluzione di un problema BSS (Blind Source Separation) Sfrutta l informazione di scorrelazione fra le sorgenti, generando cioè un insieme di m feature scorrelate Y 1,Y 2,,Y m (stime delle sorgenti) a partire dalle m feature generiche X 1,X 2,,X m

16 PCA e BSS PCA genera (al massimo) m feature (trasformate fra loro) e scorrelate. Le nuove feature sono ordinate in modo decrescente rispetto agli autovalori della matrice di covarianza dei dati a 1 direzione lungo cui si ha la massima dispersione a m direzione lungo cui la dispersione è più bassa La PCA per la BSS fornisce intrinsecamente un ordinamento (ranking) delle sorgenti estratte.

17 PCA e BSS Assunzione fondamentale: potere informativo di una feature legato alla sua varianza gli ultimi autovalori sono molto piccoli, le corrispondenti feature trasformate possono essere considerare poco significative Se le sorgenti sono gaussiane, allora la PCA fornisce una stima di massima verosimiglianza delle sorgenti [Schölkopf et al., 1998, Prior knowledge in support vectors kernels. Advances in Neural Information Processing Systems].

18 Scopo della PCA Se le variabili di un fenomeno multivariato hanno un certo grado di correlazione, allora i vettori rappresentativi del fenomeno tenderanno a occupare solo una porzione dello spazio degli osservabili Lo scopo della PCA è quello di rappresentare un insieme di dati con matrice di covarianza non diagonale e di dimensione m in uno spazio di dimensione minore di m in cui gli stessi dati siano rappresentati da una matrice di covarianza diagonale

19 Scopo della PCA La diagonalizzazione si ottiene con una rotazione delle coordinate nella base degli autovettori (componenti principali). A ogni autovettore è associato un autovalore a cui corrisponde la varianza della componente principale Correlazione parziale tra le feature originarie si riflette in autovalori con valori trascurabili. autovettori corrispondenti ad autovalori piccoli possono essere trascurati e limitare la rappresentazione solo agli autovettori con gli autovalori più grandi Poiché la matrice di covarianza nella nuova base delle componenti principali è diagonale, la varianza totale è la somma delle varianze delle singole componenti principali.

20 PCA e riduzione di dimensionalità PCA meccanismo per la riduzione della dimensionalità proiezione ortogonale dallo spazio originale allo spazio delle componenti principali i cui autovalori associati siano quelli di valore maggiore Proiezione degli n punti in un sottospazio di dimensioni ridotte in modo che la nuvola di punti sia deformata il meno possibile Metodo del secondo ordine: sia le nuove coordinate che il criterio per la riduzione delle dimensioni si basano unicamente sulle proprietà della matrice di covarianza

21 PCA e distribuzione normale Ipotesi operativa della PCA: le variabili in X sono distribuite normalmente La media è in genere resa nulla (considerando la matrice dei dati centrata sulla madia) tutta l informazione statistica è contenuta nella matrice di covarianza In questo caso le componenti principali saranno indipendenti e la probabilità multivariata diventa il prodotto delle probabilità univariate Se l ipotesi di normale distribuzione cade si ottiene unicamente la scorrelazione delle componenti principali

22 Determinazione analitica della PCA Passaggi analitici spiegati alla lavagna

23 Determinazione del numero delle componenti principali Quante componenti principali?

24 PCA Jolliffe (ix, 9) The central idea of principal component analysis is to reduce the dimensionality of a data set in which there are a large number of interrelated variables, while retaining as much as possible of the variation present in the data set... Computation of the principal components reduces to the solution of an eigenvalueeigenvector problem for a positive- semidenite symmetric matrix. Thus, the definition and computation of principal components are straightforward but, as will be seen, this apparently simple technique has a wide variety of different applications, as well as a number of different derivations... Despite the apparent simplicity of the technique, much research is still being done in the general area of PCA, and it is very widely used

25 Calcolo PCA: riepilogo La prima componente principale si determina risolvendo un problema di massimo vincolato T max{ a1 S X a1} a T a = 1 1 a 1 Calcolo punti stazionari della lagrangiana: L( a1, λ1 ) = a1s X a1 λ1 ( a1 a1 1) Calcolo dell autocoppia dominante della matrice di covarianza dei dati Prima componente principale: y 1 = Xa 1 T

26 Calcolo PCA: riepilogo La seconda componente, i cui pesi sono contenuti nel vettore a 2, massimizza la varianza residua sotto il vincolo di ortonormalità, cioè: max{ a a T 2 a 2 T 2 ( S X = 1, a T 2 λ a a a = 0 T 1 ) a 2 }

27 Calcolo della PCA: riepilogo Le rimanenti componenti si determinano seguendo lo stesso ragionamento (fino ad ottenere p componenti). PCA permette di ottenere una rappresentazione della matrice dei dati X in un sottospazio ortogonale (iperpiano) a p < m dimensioni. Le coordinate dei punti nel sottospazio di proiezione sono contenute in una matrice di Y (variabili artificiali) di dimensione n p

28 Calcolo della PCA: riepilogo Le nuove variabili artificiali Y=XA m ottenute come combinazione lineare delle variabili iniziali Loadings: coefficienti della combinazione lineare vettori colonna della matrice A m (dimensione m m) forniscono il peso assegnato alle variabili originarie costituiscono un insieme di vettori ortonormali (A mt A m = I). var(y j ) = var(a jt S X a j ) =λ j Funzione funzione della varianza delle variabili di partenza cov(y i,y j )=0 La matrice di covarianza di Y =diag(λ 1, λ p )

29 Quante PCs considerare? Le PCs sono scorrelate e hanno varianza lambda_i La varianza totale delle m PCs risulta: m λi = trace( SY ) = i= 1 var( X Per determinare il numero minimo di PCs sufficienti per ottenere una descrizione sintetica della matrice dei dati, X, si utilizzano diversi criteri i )

30 Percentuale cumulativa della varianza totale Criterio più facile da adottare Scegliere il numero dell PCs in modo che la somma delle varianze rappresenti una alta percentuale della varianza totale (80-90%) Il numero delle PCs è il più piccolo valore k per cui si supera la percentuale scelta Definiamo il significato di percentuale della varianza

31 Percentuale cumulativa della varianza totale PCs scelte successivamente per massimizzare la varianza Definiamo la percentuale della varianza mantenuta dalle prime k PCs t k k i = 1 i k λi i = 1 i= 1 = 100 = 100 m trace λ λ i ( S X )

32 Percentuale cumulativa della varianza totale Scegliendo un valore di soglia t*(cut-off) tra il 70% e il 90% si considerano le prime k PCs tali che: k = arg min( k > 1 t k > t*)

33 Percentuale cumulativa della varianza totale Valore usuale del cut-off tra 70% e 90% più alto o più basso a seconda del dataset cut-off >90% Appropriato quando 1-2 PCs sono dominanti e rappresentano la maggiore varianza cut-off< 70% Se le PCs sono elevate in numero rendendo inutile l analisi

34 Caso 2D: rapporto di varianza Un indice della bontà statistica della proiezione 2-dimensionale sui primi due assi principali è definito dal rapporto (cumulativo) di varianza: λ 1 λ1 + λ λ m Interpretazione da effettuare con cautela, soprattutto quando si confrontano standardizzazioni diverse.

35 Caso 2D: rapporto di varianza La differenza: 1 λ 1 λ1 + λ λ misura la profondità dei dati; a profondità maggiore corrisponde un rischio maggiore che punti vicini nella proiezione sul piano siano invece lontani nella realtà (cioè in R m ) m

36 Scree Plot Scree-plot: grafico degli autovalori della matrice di covarianza rispetto al numero d ordine della componente Introdotto da Cattel nel 1966 Grafico con ripida pendenza per le prime componenti e comportamento asintotico per le restanti componenti Scelta del valore k in corrispondenza del punto in cui il grafico presenta un gomito

37 Gomito

38 Diagramma LEV Diagramma LEV o diagramma logeigenvalue: grafico dei logaritmi degli autovalori della matrice di covarianza rispetto al numero d ordine della componente alternativo allo scree-plot sviluppato nell ambito dell analisi di dati atmosferici Scelta del valore k in corrispondenza del punto in cui il grafico diventa approssimativamente una linea retta

39 Criterio di Kaiser Criterio di Kaiser: si calcola la media delle varianze (ovvero l autovalore medio) si sceglie il numero k come il più grande valore per cui le prime k PCs hanno varianza superiore alla media m 1 k = arg min( λ > = k λ ), λ λi k > 1 m i= 1

40 Criteri più complessi Tecniche più avanzate per la scelta del numero di PCs da conservare sono basate su: Test delle ipotesi Meccansimi di cross-validation

41 Criterio di cross-validation Si rimuove un valore della matrice dei dati Si usano un certo numero di PCs per predirlo Se l aggiunta di una PCs non migliora la predizione allora la componente può essere rimossa Errore di predizione PRESS (PREdiction Sum of Squares) calcolato usando le prime p PCs PRESS ( p) = 1 / ( xˆ ij x i j ij Si calcola il valore w p =(PRESS(p-1)-PRESS(p))/PRESS(p) Se w p è vicino a 1, si selezionano solo p-1 componenti np ) 2

42 Scelta dell unità di misura I risultati della PCA dipendono dall unità di misura adottata per le variabili Esempio: cambiando la lunghezza da metri a centimetri si alterano le PCs Gli autovalori di una matrice dipendono da fattori di scala La modifica di una X i per un fattore di scala s aumenta la var(x i ) di un fattore s 2 La variabile dominerà la matrice di covarianza e quindi le autocoppie

43 Scelta dell unità di misura Risoluzione di alcuni problemi di scaling Pre-processing dei dati Utilizzo della matrice di correlazione invece della matrice di covarianza L analisi si conduce sulle variabili standardizzate La matrice di covarianza delle matrici standardizzate coincide con la matrice di correlazione Lavorare con R X invece che con S X comporta una arbitraria decisione di rendere tutte le variabili ugualmente importanti Le autocoppie di R saranno diverse da quelle di S Le PCs standardizzate sono la migliore approssimazione nella distanza di Mahalanobis

44 Interpretazione delle PCs PCA cerca di approssimare le sorgenti (variabili latenti) non direttamente osservabili PCs approssimazione di tali sorgenti nascoste (capacità sportive, intelligenza, ecc) PCA utilizzata per riassumere i dati a disposizione Problema: assegnare un significato semantico alle variabili artificiali PCs Capacità del ricercatore, esperienza, sensibilità elementi non formalizzabili

45 Interpretazione delle PCs Strumenti su cui basare l interpretazione Y j è combinazione lineare delle X 1, X 2,, X m mediante i coefficienti a 1j,a 2j,, a mj Interpretazione in base ai coefficienti a ij Interpretazione in base alla correlazione tra le variabili originarie X e le PCs Y

46 Interpretazione delle PCs I coefficienti a hj prossimi allo zero corrispondono a variabili in X che non contribuiscono in maniera rilevante alla determinazione delle variabili in Y Il generico coefficiente a hj rappresenta il peso che la variabile X h ha nel determinare Yj Più grande è a hj maggiore sarà il peso che i valori x ih avranno nel determinare le componenti di Yj I coefficienti a hj conferiscono una semantica alla PCs Yj La PCs Yj è caratterizzata dalle feature corrispondenti a coefficienti più grandi in valore assoluto

47 Interpretazione delle PCs Calcolo dei coefficienti di correlazione tra le PCs e le variabili originarie Una componente che risulta marcatamente correlata con - per esempio - due delle k variabili originarie, misura, in modo più sintetico, il fenomeno descritto da quelle due variabili. Interpretazione facilitata se una componente è correlata solo con alcune variabili che, a loro volta, non sono correlate con le altre componenti.

48 Interpretazione delle PCs Le variabili originali sono poco importanti (significative) se fortemente correlate con le PCs scartate (quelle che hanno associata una varianza bassa) non sono correlate con nessuna delle PCs scelte

49 Interpretazione delle PCs Cerchio delle correlazioni: cerchio unitario nel piano delle prime due PCs Si calcolano r XiY1 =corr(xi,y1) r XiY2 =corr(xi,y2) Si rappresentano le variabili Xi nel cerchio delle correlazioni come punti di coordinate (r XiY1, r XiY2 ) Si ottiene una rappresentazione grafica di quali variabili determinano maggiormente l una o l altra PCs, e delle correlazioni positive e negative

50 PCA per la selezione di variabili Le prime PCs forniscono informazioni riassuntive sul dataset originario Utile in diverse applicazioni poter determinare un sottoinsieme di dati originali virtualmente contenente tutte le informazioni racchiuse nel dataset PCA come metodo per la selezione delle variabili

51 PCA per la selezione delle variabili Determinare il numero k di PCs da considerare k indica effettiva dimensionalità dei dati k fornisce la dimensione del sottoinsieme di variabili originali da estrarre Selezionare, per ogni PCs, il più alto punteggio (componente) in valore assoluto Indice corrispondente al più alto punteggio fornisce la posizione della colonna dei dati originali da selezionare

52 PCA applicazioni a diversi dataset Sperimentazione ottenuta con il software Matlab (ver 7.0)

53 IRIS data L esempio riguarda la classificazione di tre tipi di fiori iris: Setosa, Versicolor, Virginica. Iris Setosa Iris Versicolor Iris Virginica

54 IRIS data Il dataset è costituito da 150 esempi di iris catalogati in base ad una analisi di 4 attributi (variabili di input): Lunghezza e larghezza dei sepali (elementi costitutivi del calice del fiore) Lunghezza e larghezza dei petali (elemento costitutivo della corolla del fiore). Ogni campione del data set è un vettore di 5 dimensioni (4 variabili continue, 1 categorica): Esempio di pattern (campione): attributi dei fiori (input) classe (output) Iris-virginica

55 Scatterplot: IRIS data Esempio di scatterplot bivariato (lungh. Sepali, lungh. Petali)

56 Scattermatrix: IRIS data

57 PCA: Iris dataset cov (X) =[ ] corrcoeff(x)= [ ]

58 PCA: Iris dataset A Y [λ 1, λ 2 λ m ] Matrice dei dati [COEFF, SCORE, LATENT] = PRINCOMP(X) COEFF autovettori della matrice di covarianza dei dati SCORE componenti principali (Proiezione della matrice dei dati nello spazio delle componenti principali) LATENT autovalori della matrice di covarianza dei dati (ciascuno indica la percentuale della varianza rappresentata dalla corrispondente PCs)

59 PCA: Iris dataset COEFF= LATENT =

60 PCA: Iris dataset scree plot

61 PCA: Iris dataset LEV-diagram

62 Diabete indiani Pima Il dataset è costituito da 768 esempi pazienti affetti da disturbi di fegato catalogati in base a una analisi di 8 attributi (variabili di input): Features: 1. Numero di gravidanze 2. Concentrazione di glucosio nel sangue (test orale di tolleranza al glucosio) 3. Pressione sanguigna (diastolica) (mm Hg) 4. Spessore della cute (Triceps skin fold thickness (mm)) 5. Insulina (valori su 2 ore) (mu U/ml) 6. Indice di massa corporea (peso in kg/(altezza in m)^2) 7. Funzione di familiarità al diabete 8. Età (anni) 9. Variabile di classe (0 or 1) (da eliminare in una analisi di tipo unsupervised)

63 Diabete Indiani PIMA Scree-plot Percentuale cumulativa della varianza

64 Diabete Indiani PIMA Per conoscere la percentuale cumulativa della varianza conservata dalle prime k componenti principali si può utilizzate il comando [COEFF, LATENT, EXPLAINED] = PCACOV(S) (S matrice di covarianza dei dati) COEFF componenti principali LATENT autovalori della matrice di covarianza dei dati EXPLAINED percentuale cumulativa della varianza conservata dalle prime k PCs

65 Sintesi di punteggi in indagine di customer satisfaction Dati relativi a un indagine di customer satisfaction condotta su un campione di 2000 utenti del Servizio Sanitario, con riferimento a 20 strutture sanitarie in una specifica regione (Emilia Romagna) Questionario contenente 6 quesiti relativi ad altrettanti aspetti del servizio, ai quali l intervistato assegnava un punteggio da 1 (per nulla soddisfatto) a 10 (completamente soddisfatto), su una scala discreta

66 Sintesi di punteggi in indagine di Variabili considerate customer satisfaction Cortesia del personale (X 1 ) Chiarezza nella comunicazione (X 2 ) Competenza del personale (X 3 ) Stato della struttura (X 4 ) Tempestività negli appuntamenti (X 5 ) Orari di apertura (X 6 )

67 H G F E D C B A orari Tempestività stato Competenza Chiarezza Cortesia Struttura Punteggi medi ottenuti con riferimento alle 20 strutture V U T S R Q P O N M L I

68 Sintesi di punteggi in indagine di customer satisfaction L obiettivo principale dell indagine: ottenere giudizi sintetici sulle 20 strutture (al limite un unico giudizio). Informazioni sui dati (per decidere se la PCA va condotta su matrice di covarianza o correlazione): variabili misurate come punteggi da 1 a 10 espresse nella stessa unità di misura controllo delle varianze (statistiche descrittive dei dati) Cortesia N 20 MIN 3 MAX 7 MEDIA 4.8 DEV. STD 1.11 VARIANZA Chiarezza Competenza Stato Tempestività Orari

69 Sintesi di punteggi in indagine di customer satisfaction Varianze piuttosto diverse la varianza di X 4 è circa 3 volte quella di X 2 la varianza di X 4 è circa e circa 6 volte quella di X 6. PCA su matrice di covarianza: se le varianze rispettano l'ordine di importanza che noi vogliamo attribuire alle variabili Nel caso in esame: nessuna gerarchia tra le variabili osservate. Analisi da condurre: PCA su matrice di correlazione si vuole attribuire la medesima importanza a tutte le variabili

70 Sintesi di punteggi in indagine di customer satisfaction Calcolo della matrice di correlazione dei dati R= - comando Matlab: corrcoef

71 Sintesi di punteggi in indagine di customer satisfaction Autovec= autval = %var = varcum =

72 Consideriamo solo le prime due PCs

73 Sintesi di punteggi in indagine di customer satisfaction Coeff. correlazione tra i dati e le PCs dati Le variabili: cortesia, chiarezza, competenza presentano una correlazione elevata e negativa con la prima PCs Le variabili: stato struttura, tempestività servizio, orari di apertura, presentano una correlazione elevata e positiva con la seconda PCs

74 Sintesi di punteggi in indagine di customer satisfaction Le variabili sintetizzate dalla prima PCs principale riguardano il personale. Interpretazione: indice sintetico delle performance del personale Le variabili sintetizzate dalla seconda PCs principale riguardano la struttura interpretazione tale componente come indice sintetico delle prestazioni della struttura

75 Cerchio delle correlazioni

76 PCA/SVD e sue applicazioni Analisi di alcuni lavori apparsi in letteratura

77 Analisi di dati biochimici SVD-based principal component analysis of geochimical data Autore: Petr Praus Pubblicato su: Central European Journal of Chemistry, Volume 3, Number 4, , Springer, 2005

78 Analisi di dati biochimici Dati chimici reali: Affetti da rumore Lontani dalla normalità, molte variabili correlate Possono contenere outliers (da eliminare) PCA: modello chemometrico per la determinazione della riduzione di dimensionalità dei dati

79 Analisi di dati biochimici Data matrix N=52 esempi di carbone derivanti dal Bacino Carbonifero della Slesia Superiore Analisi dei dati effettuata con tecniche standard di raccolta e conservazione (boh!) Le caratteristiche dei campioni sono state scelte per permettere di classificare i tipi di carbone alterato

80 Analisi di dati biochimici Feature: Contenuto di cenere Umidità (moisture) Sostanze volatili Acido umico (composto organico, generato dalla decomposizione di materiali organici quali foglie, ecc, altamente ossidato, che ricopre i giacimenti di carbone) Contenuto calorifero (combustion heat) Riflettanza media della vitrinite (componente organica del carbone) Concentrazione di alcuni elementi (non-metalli) Carbonio (C) Idrogeno (H) Ossigeno (O) Azoto (N)

81 Analisi di dati biochimici Contenuto di cenere Umidità Sostanze volatili Acido umico Contenuto calorif ero Riflettanza vitrinit e Concentrazioni non metalli

82 Analisi di dati biochimici Scree-plot Varianza Varianza cumulativa

83 Analisi di dati biochimici Relazione reciproca tra acido umico, contenuto di cenere e ossigeno Cerchio delle correlazioni Relazione reciproca tra idrogeno e riflettanza e carbonio Acido umico Umidità Sostanze volatili Forte relazione tra umidità e contenuto calorifero Contenuto calorif ero Relazione tra contenuto di cenere, contenuto calorifero e ossigeno Forte relazione tra riflettanza e carbonio Riflettanza vitrinite Contenuto di cenere

84 Analisi di dati biochimici Riduzione della concentrazione di idrogeno associata con un incremento della concentrazione di carbonio Alto valore di riflettanza è un effetto dell ossidazione del carbone a alte temperature Composizione chimica del carbone termicamente alterato senza alcuna influenza dell ossigeno caratterizzata da alta concentrazione dell idrogeno Le variabili: concentrazione di carbonio, di idrogeno e riflettanza media del vinitre indice dell intensità dei cambi termici nel carbone

85 Analisi di dati biochimici Le variabili: contenuto di cenere, concentrazione di ossigeno, contenuto calorifero e umidità indice del processo di ossidazione del carbone Forte relazione tra contenuto calorifero e umidità Alta umidità causata da produzione di prodotto ossidativi gassosi

86 Analisi di dati biochimici Acido umico e acqua prodotti dal processo di ossidazione di carbone alterato. Relazione reciproca tra concentrazione di Relazione reciproca tra concentrazione di ossigeno, potere calorifero e acido umico.

87 Analisi di dati biochimici Analisi dei fattori per confermare la relazione tra le variabili Tavola dei primi tre assi principali Contenuto di cenere Umidità Sostanze volatili Acido umico Contenuto calorifero Riflettanza vitrinite PCs1 indicatore di alterazione termica del carbone PCs2 indicatore di alterazione ossidativa del carbone PCs3 prodotto della ossidazione del carbone

88 PCA per analisi di DNA-microarray Pricipal Components Analysis to summarize microarray experiments: application to sporulation time series Autori: S. Raychaudhuri, J. M. Stuart, R. B. Altman Pubblicato su Pacific Symposium on Biocomputing 5: (2000)

89 PCA per analisi di DNA-microarray Microarray di DNA utilizzati per esaminare il profilo di espressione di un gene Identificare la presenza di un gene o di una breve sequenza di geni all interno di migliaia di geni PCA su microarray di DNA: sia i geni che gli esperimenti possono essere considerati feature del problema geni come variabili principal gene components indicano le caratteristiche dei geni che permettono di spiegare le risposte sperimentali prodotte Esperimenti come variabili principal experiment components indicano le caratteristiche dell esperimento che meglio esplicitano il comportamento di un gene

90 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae Dati: 6118 campioni di espressini di geni noti della Saccharomyces cerevisiae organismo unicellulare appartenete al regno dei funghi, specie di lievito che si riproduce per sporulazione utilizzato nella produzione di birra e vino per ogni gene i dati sono stati raccolti, durante la sporulazione, in 7 diversi istanti temporali (0h, 0.5h, 2h, 5h, 7h, 9h, 11.5h) Matrice dei dati 6118 righe di geni e 7 colonne di condizioni (feature) corrispondenti a ciascun istante temporale

91 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae Statistiche elementari dei dati

92 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae

93 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae Le prime 2 PCs conservano il 90% della varianza totale, includendo la terza PCs si raggiunge il 95%.

94 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae Prima PCs rappresenta una media pesata e permette di distinguere i geni dalla loro espressività media Espressività o grado di manifestazione equivale all intensità con cui un gene si manifesta a livello fenotipico Prima PCs: espressività media pesata dal contenuto informativo del particolare esperimento Geni con coefficienti positivi lungo il primo asse principale sono upregulated durante la sporulazione Geni con coefficienti negativi sono down-regulated

95 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae Seconda PCs rappresenta una misura del cambio di espressività di un gene Un gene represso in un istante iniziale viene attivato negli istanti finali Un gene attivato in un istante iniziale, viene represso negli istanti finali

96 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae La terza PCs cattura le informazioni circa l andamento nel tempo della concavità del pattern di espressività gene attivi solo all inizio e alla fine delle osservazioni avranno un profilo di espressività con concavità verso l alto geni attivi durante un periodo intermedio saranno caratterizzati da un profilo di espressività con concavità verso il basso

97 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae

98 PCA per analisi di DNA-microarray: Sporulazione del Saccharomyces cerevisiae L applicazione della PCA alle serie temporali è controversa Contro: diverse problematiche: Intervalli non uniformi dipendenza dei dati (relazione tra esperimenti precedenti e successivi) Pro: evidenza di pattern temporali quali la grandezza, la variazione e la concavità della curva di espressività genica aiuto nella visualizzazione dei dati meccanismo di preprocessing per un successivo clustering

99 SVD/PCA approccio pratico per l analisi di Microarray Singular value decomposition and principal analysis. In A Practical approach to Microarray Data Analysis, in D.P. Berrar, W. Dubitzky, M. Granzow, eds. pp , Kluwer: Norwell, MA (2003). LANL LA-UR Autori: M.E Wall, A Rechtsteineir, L.M. Rocha

100 SVD/PCA approccio pratico per l analisi di Microarray SVD per la visualizzazione di dati di espressività genetica Rappresentazione di dati utilizzando un piccolo numero di nuove variabili Individuazione di pattern in dati di espressività genica affetti da rumore Descrizione della relazione tra SVD e PCA, quando la PCA è calcolata utilizzando la matrice di covarianza dei dati.

101 SVD/PCA approccio pratico per l analisi di Microarray Significato biologico della SVD/PCA Considerazione di due classi di esperimenti systems biology applications diagnostic applications Dati: matrice della espressività genica n colonne corrispondenti agli esperimenti m righe corrispondenti ai geni SVD della matrice dei dati produce Base per lo spazio della risposta transcrizionale di un gene (vettori singolari destri, V T ) v k eigengenes Base per il profilo di espressività in ciascun esperimento (vettori singolari sinistri, U) u k eigenassays (nella terminologia della PCA, component)

102 SVD/PCA approccio pratico per l analisi di Microarray Applicazioni diagnostiche Classificare esempi di tessuti di individui con e senza una certa malattia eigenassay più significanti Applicazioni a sistemi biologici eigengene più significativi

103 SVD/PCA approccio pratico per l analisi di Microarray

104 SVD/PCA approccio pratico per l analisi di Microarray La visualizzazione grafica come strumento fondamentale per interpretare i risultati dell applicazione della SVD/PCA a dati di espressività genica Grafici ottenuti applicando la SVD/PCA a un dataset relativo al ciclo cellulare di un lievito nascente circa geni del lievito 17 istanti temporali uniformemente spaziati(con intervalli di 10 minuti) in cui sono state monitorare l espressività dei geni

105 SVD/PCA approccio pratico per l analisi di Microarray

106 SVD/PCA approccio pratico per l analisi di Microarray Eigengenes Nel caso in cui gli esperimenti corrispondono a un campionamento di una variabile continua (tempo, concentrazione ecc,) un grafico degli elementi degli eigengenes {vk} potrebbe rivelare pattern riconoscibili Esempio su dati sintetici

107 SVD/PCA approccio pratico per l analisi di Microarray Eigengene Rappresentazione grafica degli elementi della matrice U Ogni u ij è rappresentato come un pixel di una immagine, di colore verde se il valore è negativo, rosso se è positivo L intensità del colore fornisce la grandezza del valore u ij Le righe sono ordinate utilizzando la correlazione tra gli eigengene Maggiori approfondimenti : leggere i lavori