La tecnologia dei microarray
I microarray I progetti di sequenziamento (progetti permesso di identificare migliaia di geni genoma) ) hanno Migliaia di geni (ed i loro prodotti, le proteine) operano in maniera simultanea e coordinata Il metodo tradizionale della Biologia Molecolare ( (un gene, un esperimento) ) risulta limitato E necessaria una tecnologia per monitorare l intero genoma: Microarrays di DNA ( (DNA microarray)
I microarray: che cosa sono? Supporto solido (wafer di silicio o vetrino da microscopia) Migliaia di catene di DNA o di sequenze oligonucleotidiche immobilizzate sul supporto
I microarray: funzionamento Tutti i geni (o parte) di un organismo vengono depositati e immobilizzati sulla matrice (DNA( noto immobilizzato o sonde) Dalle cellule dello stesso organismo si estrae l RNA (genoma effettivamente utilizzato) e da questo si sintetizza il cdna (cdna ingognito libero o target) ) mediante l uso l della trascrittasi inversa Il cdna libero viene marcato con molecole fluorescenti
I microarray: funzionamento La matrice viene interrogata con il cdna incognito Ibridizzazione: accoppiamento complementare e specifico delle catene di DNA e cdna Lo spettro di fluorescenza della matrice è una fotografia dell informazione genetica effettivamente utilizzata dall organismo
I microarray: lo scopo Monitorare contemporaneamente tutta l informazione genetica di un organismo per: Analisi funzionale ( (gene discovery) Scoprire nuovi geni e la loro funzione Diagnosi di patologie e metabolismo Caratterizzare il profilo genetico di un fenotipo Farmacogenomica Collegare la risposta terapeutica ad un farmaco con il profilo genetico del paziente
I microarray: le tipologie Esistono due tipologie di matrici a seconda delle caratteristiche della sequenza di DNA immobilizzata: matrici da sintesi in-situ (Affimetrix GeneChip ) matrici da deposizione (Stanford University)
Tecnologia Affymetrix Oligonucleotidi da 20-25 25 residui sono sintetizzati direttamente sul supporto Fotochimica e maschere fotolitografiche
Tecnologia Affymetrix
Tecnologia Affymetrix
Spotted microarray Sonde di cdna (500-5000 5000 bp) o oligonucleotidi (30-70 70-mer) sono depositate in micro-gocce su di un supporto solido funzionalizzato (vetro) La deposizione avviene per mezzo di un sistema robotizzato Le sonde vengono ancorate covalentemente tramite reazione fotochimica al supporto solido Una volta immobilizzate, le sonde devono essere rese a catena singola per permettere l ibridizzazione dei targets
Spotted microarray Sonde La loro sequenza viene scelta direttamente da banche dati genomiche (GenBank, dbest, etc.) Vengono normalmente prodotte con tecniche di biologia molecolare (amplificazione via PCR) Supporto Il supporto ideale deve permettere un immobilizzazione efficace della sonda e un ibridizzazione efficiente tra sonda e target I supporti comunemente utilizzati sono materiali polimerici (filtri, membrane in nitrocellulosa o nylon) o vetro (vetrini da microscopia)
Spotted microarray (http://sequence.aecom.yu.edu/bioinf/funcgenomic.html) 12 pennini 230 matrici 5 piastre 2 stazioni di lavaggio 1 stazione di essiccamento 2 matrici per secondo
Spotted microarray
Spotted microarray
Il disegno sperimentale
Disegno sperimentale Sorgenti di variabilià e tipologia e numero dei replicati Criteri di selezione dei campioni Pianificazione del numero dei campioni Pooling
Disegno sperimentale
Disegno sperimentale Le repliche permettono di quantificare la variabilità sperimentale e di applicare tecniche statistiche per identificare differenze nei livelli di espressione tra i vari campioni Più repliche si usano, più solidi sono i risultati statistici Se si hanno a disposizione solo due repliche e risultano essere significativamente diverse, non è possibile determinare quale delle due analisi sia quello sbagliata. È quindi utile disporre di almeno tre replicati per ogni campione, soprattutto nei casi in cui si proceda alla comparazione di fenotipi multipli Tipologia di replicati Un campione di RNA suddiviso in aliquote multiple Campioni multipli di RNA da un individuo Individui multipli selezionati da popolazioni diverse
Disegno sperimentale Repliche biologiche Repliche tecniche
Disegno sperimentale Attenzione particolare va prestata all omogeneità delle popolazioni analizzate Qual è il numero ottimale di campioni da analizzare?
Disegno sperimentale
Disegno sperimentale Tempo t 0 Cinetica 1, 2, 3, 4, 6, 12, 24, e 48 ore per eventi rapidi POOLING 3, 5, 7, 9, 11, 15, 19, e 23 giorni per eventi lenti
Disegno sperimentale Il pooling è vantaggioso? È molto efficace quando la variabilità biologica è notevolmente maggiore della variabilità tecnica ed il costo degli array è un parametro rilevante Il pooling di campioni diversi sullo stesso array permette di ridurre il numero di array necessari per ottenere un dato livello di inferenza. Tuttavia, l operazione di pooling richiede di avere a disposizione un numero elevato di campioni biologici distinti
Il preprocessamento dei dati
Pre-processing Biological question Experimental design Microarray experiment Image analysis Expression quantification Pre-processing Normalization Analysis Estimation Testing Clustering Discrimination Biological verification and interpretation
Normalizzazione La normalizzazione ha come obbiettivo la correzione dei bias sistematici e casuali dei dati La normalizzazione serve per limitare l impatto l delle informazioni di carattere non-biologico ( (obscuring)) sui dati biologici e ad enfattizare quest ultimi ultimi La normalizzazione permette di compare i dati provenienti da più microarray La normalizzazione permette la comparazione dei dati generati con piattaforme diverse (Affymetrix, spotted array,, etc)
1 2 3 4 5 6 7 8 Log 2 intensities 6 8 10 12 14 Normalizzazione
Normalizzazione Le tecniche di normalizzazione servono a rimuovere quella parte di segnale che può oscurare l informazione biologica rilevante Tuttavia, il processo di normalizzazione rimuove anche parte dell informazione biologica interessante (tail flattening) Quindi, conviene usare tecniche poco invasive replicati campioni di riferimento controlli sistemi di controllo di qualità schemi sperimentali accurati
Normalizzazione Prima della normalizzazione Dopo normalizzazione: tail flattening
Filtraggio sui segnali Eliminare tutti quei probe set che presentano elavate percentuali di Detection Calls A 100? 90?? Eliminare tutti quei probe set che presentano elavate percentuali di segnali minori di una certa soglia Thr=100? Thr=soglia sulla distribuzione del segnale delle probe con basse percentuali di presenza (P)?? Excel, dchip, BRBTool
Filtraggio sulla variazione Eliminare tutti quei probe set che presentano variazioni limitate nei vari campioni Filtraggio sul CV (coefficiente( di variazione) il rapporto tra la deviazione standard e la media dei segnali di espressione attraverso tutti i campioni sia maggiore di una soglia data più un gene è variabile nei campioni, più tale rapporto è elevato tuttavia,, se un gene è caratterizzato da molte A,, tale rapporto può essere elevato semplicemente perché la media è bassa il limite superiore di 10 è ragionevole per i dati di microarray
Analisi non-supervisionata
Analisi non-supervisionata Obbiettivo: : raggruppare profili simili in gruppi omogenei I cluster sono tali per cui segnali simili sono riuniti nello stesso cluster Che informazione è possibile ricavare raggruppando i geni? geni collegati da un punto di vista funzionale? sistemi di regolazione? Che informazione è possibile ricavare raggruppando i campioni? classi? tassonomie?
Analisi non-supervisionata I cluster contengono geni co-espressi, ma geni funzionalmente scorrelati possono avere profili di espressione simili geni funzionalmente correlati possono avere profili di espressione diversi Le tecniche di clustering sono approcci non supervisionati... ovvero sono strumenti di analisi esplorativa che permettono l identificazione l di geni candidati per studi ulteriori I cluster non costituiscono di per sés il risultato finale dell analisi di un database di espressione genica
Analisi non-supervisionata Pair-wise analysis Il principio alla base di tutte le tecniche utilizzate per identificare ificare gruppi di geni co-espressi è che un espressione coordinata è plausibile qualora i profili di espressione di due geni sono più simili di quanto non sia attendibile per caso Metodi per l identificazione l di similarità pair-wise Metrica di similarità o Distanza, coefficiente di correlazione, contenuto pendenze, angoli tra le osservazioni Linkage o Average, complete, centroid Caratteristiche (features) o informativo, Livelli di espressione, medie, proiezioni alle componenti principali
Analisi non-supervisionata Clustering gerarchico (dendrogrammi) raggruppamento ottenuto per agglomerazioni (agglomerativo) raggruppamento ottenuto per divisioni (divisivo) k-mean clustering viene selezionato a priori il numero di cluster k i vari segnali sono spostati iterativamente tra I vari cluster Metodo di proiezione (PCA, ICA) il raggruppamento avviene sfruttando la riduzione dimensionale Self-Organizing Maps (SOM) La rappresentazione dei gruppi cerca di conservare la nozione di prossimità
Analisi non-supervisionata
Analisi non-supervisionata Principal component analysis Independent component analysis 4 3 2 1 PC 3 0-1 -2-3 2 nd axis -4 10 5 PC 2 0-5 -8-6 -4-2 0 2 PC 1 ALL MLL MLL/AF4 4 6 8 1 st axis
Analisi supervisionata
Analisi supervisionata Test d ipotesid attraverso un test d ipotesi d si ricercano quelle variabili che sono statisticamente diverse tra due popolazioni di campioni il criterio per definire la similarità tra due popolazioni è che, per la data variabile, le medie siano statisticamente uguali è basato su una t-statistica una variabile presenta una variazione significativa tra due popolazioni qualora: t = g A B > 2 2 A sb s n A + g n B t α / 2,ν t t α / 2, ν > 1
Analisi supervisionata
Analisi supervisionata
Analisi supervisionata: : SAM
Analisi supervisionata: : SAM