Analisi di dati di sequenziamento del trascrittoma (RNA-Seq):



Documenti analoghi
Avanzamento dei sistemi di sequenziamento

DNA sequencing. Reading Genomes. Giovanni Bacci

SAGE: Serial Analysis of Gene Expression

Alcuni aspetti legati al calcolo bioinformatico su CRESCO. Giuseppe Aprea UTMEA-CAL

Funzioni in C. Violetta Lonati

Algoritmi e strutture dati. Codici di Huffman

Progetto di simulazione molecolare per il corso di Complementi di algoritmi A.A

Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi

Uso di base delle funzioni in Microsoft Excel

MODULO 5 ACCESS Basi di dati. Lezione 4

Database. Si ringrazia Marco Bertini per le slides

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini.

Lezione 1. Assemblaggio dei genomi

Plate Locator Riconoscimento Automatico di Targhe

Università degli Studi di Ferrara - A.A. 2014/15 Dott. Valerio Muzzioli ORDINAMENTO DEI DATI

Sistemi Operativi mod. B. Sistemi Operativi mod. B A B C A B C P P P P P P < P 1, >

Cosa è un foglio elettronico

Prestazioni CPU Corso di Calcolatori Elettronici A 2007/2008 Sito Web: Prof. G. Quarella prof@quarella.

Il Software e Il Sistema Operativo. Prof. Francesco Accarino IIS Altiero Spinelli A.S. 09/10

3 CENNI DI TEORIA DELLA COMPLESSITA COMPUTAZIONALE. E. Amaldi Fondamenti di R.O. Politecnico di Milano 1

SEQUENZIAMENTO DEL DNA

Genomica Servizio Sequenziamento DNA

Definire all'interno del codice un vettore di interi di dimensione DIM, es. int array[] = {1, 5, 2, 4, 8, 1, 1, 9, 11, 4, 12};

Gli input sono detti anche fattori di produzione: terra, capitale, lavoro, materie prime.

Novità di Access 2010

Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY.

Compilatore risorse display grafico LCD serie IEC-line

Dispensa di Informatica I.1

MATEMATICA DEL DISCRETO elementi di teoria dei grafi. anno acc. 2009/2010

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

Esercizi di JavaScript

Inizializzazione, Assegnamento e Distruzione di Classi

Il Web Server e il protocollo HTTP

SISTEMI OPERATIVI. Prof. Enrico Terrone A. S: 2008/09

Progettazione : Design Pattern Creazionali

Con il termine Sistema operativo si fa riferimento all insieme dei moduli software di un sistema di elaborazione dati dedicati alla sua gestione.

Dispositivi di rete. Ripetitori. Hub

Scheduling della CPU. Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux

FLASHINVESTOR Manuale dell Utente

Informatica per la comunicazione" - lezione 7 -

Test statistici di verifica di ipotesi

WG-TRANSLATE Manuale Utente WG TRANSLATE. Pagina 1 di 15

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

E possibile modificare la lingua dei testi dell interfaccia utente, se in inglese o in italiano, dal menu [Tools

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

Dispensa di database Access

Più processori uguale più velocità?

Metodi Computazionali

Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A Pietro Frasca.

Progettazione di Basi di Dati

Per chi ha la Virtual Machine: avviare Grass da terminale, andando su Applicazioni Accessori Terminale e scrivere grass

SCHEDA TECNICA PER IL MONTAGGIO DELLE COPERTURE LA COPERTURA TOSCANA.

Sistemi Informativi Territoriali. Map Algebra

Manuale servizio ScambioDati

Elementi di Psicometria con Laboratorio di SPSS 1

Calcolatori Elettronici A a.a. 2008/2009

Word processor funzione Stampa Unione

Un nuovo modo per fare analisi e generare documenti dinamici

Complessità Computazionale

ControlloCosti. Cubi OLAP. Controllo Costi Manuale Cubi

Per scrivere una procedura che non deve restituire nessun valore e deve solo contenere le informazioni per le modalità delle porte e controlli

I marcatori molecolari. Dipartimento di Scienze Agronomiche e Genetica Vegetale Agraria Corso di Genetica Agraria Giovanna Attene

Esercizi per il corso di Algoritmi e Strutture Dati

Corso di Informatica

Sistemi Operativi MECCANISMI E POLITICHE DI PROTEZIONE. D. Talia - UNICAL. Sistemi Operativi 13.1

MECCANISMI E POLITICHE DI PROTEZIONE 13.1

GUIDA AL CALCOLO DEI COSTI DELLE ATTIVITA DI RICERCA DOCUMENTALE

Come archiviare i dati per le scienze sociali

FIRESHOP.NET. Gestione del taglia e colore.

ColorSplitter. La separazione automatica dei colori di Colibri.. Perché ColorSplitter? Come opera ColorSplitter?

Gestione della memoria. Paginazione Segmentazione Segmentazione con paginazione

MODULO 5 Appunti ACCESS - Basi di dati

Introduzione al MATLAB c Parte 2

5.3 TABELLE RECORD Inserire, eliminare record in una tabella Aggiungere record Eliminare record

Perché il logaritmo è così importante?

I casi d uso corrispondono ai compiti che l attore (che può essere una persona fisica e non) può svolgere.

Come valutare le caratteristiche aerobiche di ogni singolo atleta sul campo

BASI DI DATI - : I modelli di database

Carichiamo il segnale contenuto nel file ecg_es_ mat

Correttezza. Corso di Laurea Ingegneria Informatica Fondamenti di Informatica 1. Dispensa 10. A. Miola Novembre 2007

Capitolo 3. L applicazione Java Diagrammi ER. 3.1 La finestra iniziale, il menu e la barra pulsanti

Settaggio impostazioni tema. Cliccando nuovamente su aspetto e poi su personalizza si avrà modo di configurare la struttura dinamica della template.

Esercizio 1: trading on-line

Pronto Esecuzione Attesa Terminazione

Da 2 a 4 Giocatori Autore Martin Wallace

Strutturazione logica dei dati: i file

EasyPrint v4.15. Gadget e calendari. Manuale Utente

Come modificare la propria Home Page e gli elementi correlati

Corso di Laurea in Scienze della Formazione Primaria Università di Genova MATEMATICA Il

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

Effetti sull opinione di pazienti riguardo all utilizzo di un computer in uno studio medico nell assistenza ordinaria

Guida all uso di Java Diagrammi ER

Introduzione al Foglio Elettronico

Capitolo Quarto...2 Le direttive di assemblaggio di ASM Premessa Program Location Counter e direttiva ORG

Matematica - SMID : Programmazione Febbraio 2009 FOGLIO RISPOSTE

Nozione di algoritmo. Gabriella Trucco

Esempio: dest = parolagigante, lettere = PROVA dest (dopo l'invocazione di tipo pari ) = pprrlogvgante

Bioinformatica (modulo bioinf. dei genomi moderni )

Capitolo V : Il colore nelle immagini digitali

Informatica 3. LEZIONE 23: Indicizzazione. Modulo 1: Indicizzazione lineare, ISAM e ad albero Modulo 2: 2-3 trees, B-trees e B + -trees

Transcript:

Il vostro progetto Analisi di dati di sequenziamento del trascrittoma (RNA-Seq): 1. Analisi di qualità 2. Mappatura sul genoma 3. Calcolo dell espressione 4. Test di espressione differenziale 5. Visualizzazione e interpretazione 6. Analisi funzionale

The Sanger chain-termination method Sequenziatori: - La separazione e' effettuata per elettroforesi su capillare invece che su gel - 1 corsa = 4 ore - 1 corsa = 384 sequenze in parallelo - più di 2000 sequenze al giorno - ogni sequenza = fino a 700 bp - Si possono sequenziare circa 10^6 nucleotidi al giorno

Next Generation Sequencing DNA sequencing technologies Sanger sequencing Next-Generation sequencing Roche 454 ABI SOLiD Illumina (Solexa) Next-Next (3 rd ) Generation sequencing VisiGen Helicos Oxford Nanopore

Next Generation Sequencing - Producono un'enorme mole di reads corte; - I tempi di corsa sono molto brevi; - Grosso risparmio economico; - Possono essere applicate a DNA, RNA e altre varianti; - Di recente sono state estese per la produzione di paired reads; - L'analisi bioinformatica è lo step limitante di tutta la procedura: I dati sono prodotti più velocemente e facilmente di quanto sia possibile analizzarli.

Next Generation Sequencing

Analisi del trascrittoma 1995 Profili dell espressione genica usando array su cui sono spo3ate probes complementari a cdna di geni no: 2002 Profili di espressione usando Tiling Arrays, su cui sono spota3e sequenze complementari a tra? dche coprono l intero genoma, perme3ono di iden:ficare geni espressi anche non no: 2008 RNA- Seq, sequenziamento quan:ta:vo di tu3o il trascri3oma nel campione

Analisi del trascrittoma

Analisi del trascrittoma

Qualità della sequenza Phred PHRED PHil s Read EDitor (Phil Green) Generata sequenza della read e valutazione della qualità PHRED quality = -10 log 10 Prob(Error)

Sequenziamento Illumina/Solexa Genome Analyzer sequence clusters tile Ciclo 1 Ciclo 2 Ciclo 3 Ciclo 4 Ciclo 5 Ciclo 6

Il formato FASTQ @SEQUENCE1 GCCCGGCGGGTTCATGCTGAAGAAAGGCGAAGTGTTCGGTTGGGCGGC + fffffffefe^eeceedffdcd^dxecffbeed`reebe`db\]xwss Un file FASTQ utilizza 4 righe per ogni sequenza: - La prima riga inizia con una @ ed è seguita dall identificativo della sequenza ed una descrizione (opzionale); equivale alla prima riga di un file FASTA (che inizia per >). - La seconda riga contiene la sequenza. - La terza riga inizia con un + e può contenere identificativo e descrizione. - La quarta riga contiene I punteggi di qualità per ogni nucleotide della sequenza codificati come conversione decimale del codice ASCII (American Standard Code for Information Interchange) del carattere corrispondente (ad es. ]=93,f=102).

I dati GEO (Gene Expression Omnibus) http://www.ncbi.nlm.nih.gov/geo/

I dati

I dati

I dati

I dati Paziente 1 con cancro del colon e retto Sequenziato con Illumina Genome Analyzer Tessuto normale del paziente 1 P1N: 9,037,384 reads Tessuto canceroso del paziente 1 P1T: 8,542,144 reads Lunghezza delle reads: 65 nt Disponibili in GEO in formato sra (Short Read Archive) Convertite in formato fastq con fastq-dump, parte del sra-toolkit

Il vostro progetto Indirizzo del server: 160.80.34.123 Per il login: ssh user_name@160.80.34.123 Per Linux o MacOS: ssh fa gi aparte della shell Per Windows: usate un programma come PuTTY

Il vostro progetto Nella cartella data: - La sequenza di un cromosoma - Due files in formato fastq, uno per il sano e uno per il malato

Il vostro progetto Cosa dobbiamo fare: 1. Controllare la qualità delle reads 2. Eliminare reads o parti di esse a bassa qualità (trimming)

Il vostro progetto

Controllo della qualità delle reads FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

Controllo della qualità delle reads Output di FastQC: Distribuzione della qualità media delle reads Qualità media delle reads per posizione Contenuto nucleotidico per posizione Distribuzione del contenuto in GC per read Contenuto in GC per posizione Basi non assegnate (N) per posizione Distribuzione delle lunghezze delle reads Sequenze over-rappresentate/ duplicate Contenuto in K-meri

Controllo della qualità delle reads Qualità media delle reads per posizione Il box giallo rappresenta la qualità del 25-75% delle reads in quella posizione La riga rossa al centro del box giallo è la mediana della qualità in quella posizione I whiskers sopra e sotto il box giallo rappresentano il limite del 10% e 90% La riga blu è la qualità media

Controllo della qualità delle reads Qualità media delle reads per posizione

Controllo della qualità delle reads Distribuzione della qualità media delle reads 4/12/14 25

Controllo della qualità delle reads Distribuzione della qualità media delle reads Reads di bassa qualità media 4/12/14 26

Controllo della qualità delle reads Contenuto nucleotidico per posizione 4/12/14 27

Controllo della qualità delle reads Contenuto nucleotidico per posizione Contaminazione? 4/12/14 28

Controllo della qualità delle reads Distribuzione del contenuto in GC per read 4/12/14 29

Controllo della qualità delle reads Distribuzione del contenuto in GC per read Contaminazione? 4/12/14 30

Controllo della qualità delle reads Basi non assegnate (N) per posizione 4/12/14 31

Controllo della qualità delle reads Basi non assegnate (N) per posizione Problemi in alcuni cicli di reazione? 4/12/14 32

Controllo della qualità delle reads Distribuzione delle lunghezze delle reads Alcune piattaforme producono reads tutte della stessa lunghezza 4/12/14 33

Controllo della qualità delle reads Distribuzione delle lunghezze delle reads Altre no 4/12/14 34

Controllo della qualità delle reads Livello di duplicazione delle reads 4/12/14 35

Controllo della qualità delle reads Livello di duplicazione delle reads Contaminazione? 4/12/14 36

Controllo della qualità delle reads Sequence sovra-rappresentate 4/12/14 37

Controllo della qualità delle reads Create una cartella per l output Eseguibile di fastqc Folder per l output Numero di CPU File fastq in input Lanciate poi per l altro fastq 4/12/14 38

Controllo della qualità delle reads 4/12/14 39

Controllo della qualità delle reads Il file fastqc_data.txt 4/12/14 40

Controllo della qualità delle reads Il file fastqc_report.html 4/12/14 41

Trimming In base ai risultati del controllo di qualità, posso decidere di ripulire il dataset di reads per facilitare e rendere più accurate le analisi successive. Posso: - Scartare le estremità a bassa qualità - Scartare reads con bassa qualità media - Scartare reads che dopo le operazioni di trimming rimangono troppo corte - Rimuovere gli adattatori

Trimming Trimming statico: si tagliano tutte le reads allo stesso punto Taglio

Trimming Trimming dinamico Taglio dall estremità 5 finchè la qualità è sotto una soglia Taglio dall estremità 3 Ottengo reads più corte ma di maggiore qualità media. Le reads non avranno più tutte la stessa lunghezza

Trimming http://www.usadellab.org/cms/?page=trimmomatic

Trimming Parametri: SE > reads single end -threads -> numero di CPU -phred33 -> scala dei valori di qualità nel fastq File di input File di output LEADING -> qualità minima dei nucleotidi al 5 della read TRAILING -> qualità minima dei nucleotidi al 3 AVGQUAL -> qualità media minima MINLEN -> lunghezza minima alla fine del trimming

Trimming Prima del trimming

Trimming Dopo il trimming

Trimming Prima del trimming

Trimming Dopo il trimming

Trimming Prima del trimming

Trimming Dopo il trimming

Lezione 2 Assemblaggio del genoma

Strategie per il sequenziamento di genomi

Strategie per il sequenziamento di genomi Coverage (numero totale di basi sequenziate)/ (lunghezza della sequenza assemblata) 31/13=2.3

Strategie per il sequenziamento di genomi Bottom-up Top-down

Metodo top-down Contig: un set continuo di sequenze overlappanti Gap

Double barrel shotgun sequencing Assemblaggi fatti senza dati di reads appaiate conducono a contigs il cui ordine e orientamento non sono noti. Reads appaiate possono creare ponti fra contigs, e permettono anche di stimare le dimensioni dei gaps 10,000bp 10,000bp

Paired-end reads

Double barrel shotgun sequencing

Strategie per il sequenziamento di genomi [Venter et al., 2001]

Double barrel shotgun sequencing Physical gaps Sequencing gaps gap di sequenza è noto l ordine e l orientamento dei contigs, c è almeno un clone che scavalca il gap gap fisico non si hanno informazioni sui contig adiacenti, non c è nessun frammento sequeziato che scavalca il gap Figure 4.17a Genomes 3 ( Garland Science 2007)

Strategie per il sequenziamento di genomi Terminologia: read una sequenza di 500-900 basi determinata dal sequenziatore overlap regione significativa di sovrapposizione fra due reads che ne fa supporre la contiguità sul genoma paired reads una coppia di reads dalle due estremità dello stesso clone contig una sequenza ininterrotta formata da molte reads sovrapposte supercontig un insieme ordinato e orientato di contig, (scaffold) basato sulle reads appaiate sequenza sequenza derivata dall'allineamento consenso multiplo delle reads di un contig

Strategie per il sequenziamento di genomi Whole-genome shotgun sequencing Clone-based sequencing Vantaggi: Non richiede conoscenze preliminari Veloce Vantaggi: Basato su mappe fisiche dei cromosomi Richiede un numero minore di sequenze Svantaggi: Richiede un numero elevato di sequenze Assemblaggio complesso Riempimento dei gaps Costi (?) Svantaggi: Basato su mappe fisiche dei cromosomi Creazione delle librerie di BACs Selezione dei BACs Tempi Costi (?)

Human Genome Project (1990) - Scopo: ottenere la sequenza del genoma umano eucromatico; - Dimensioni: 3Gb - Approccio: clone-based genome shotgun - Data prevista di completamento: 2005 - Finanziamento: 3 miliardi di dollari - Partners: laboratori in USA, UK, Francia, Germania, Giappone, Cina e India - Sono stati usati una serie di donatori anonimi, uomini e donne 2000: il primo assemblaggio (working draft) viene completato nello UCSC Genome Bioinformatics Group, da Jim Kent, Patrick Gavin, Terrence Furey, e David Kulp. 2003: l' assemblaggio completo viene pubblicato La maggior parte del genoma umano è stato sequenziato con coverage di 12X, quindi ogni nucleotide del genoma è presente in media su 12 reads. Nonostante questo, non si e' ancora stati in grado di sequenziare od assemblare circa 1% del genoma eucromatinico.

Human Genome Project Strategia usata: Hierarchical shotgun 1. Il genoma e' rotto in frammenti da 150mila basi, inseriti in vettori chiamati BAC (cromosomi artificiali batterici). 2. I frammenti sono sottoposti a sequenziamento shotgun per ottenere delle sequenze di qualche centinaia di basi (reads). 3. Le reads sono assemblate da algoritmi appositi mediante regioni di overlap. 4. I frammenti cosi sequenziati sono mappati sul genoma grazie a marcatori (ad esempio genetici).

Human Genome Project

Human Genome Project

Human Genome Project

Celera (1998) Nel 1998 una azienda privata la Celera, fondata da Craig Venter (che era stato il primo ad applicare WGS ad organismi superiori) raccolse 300 milioni di dollari per sequenziare il genoma umano più in fretta (e più economicamente) del consorzio HGP. Fino a quel punto, il genoma di Heamophilus influenzae (1.8 Mbp) e di Drosophila melanogaster (135 Mbp) erano stati sequenziati con successo per WGS. Venter intendeva sequenziare ed assemblare il genoma in meno di due anni con coverage 10X, generando 50-60 milioni di reads. Tutto dipendeva dal suo assemblatore e dall'utilizzo del double barrel shotgun per identificare relazioni a lunga distanza

Celera (1998) Sequencing Factory 300 ABI 3700 DNA Sequencers 50 Production Staff 20,000 sq. ft. of wet lab 20,000 sq. ft. of sequencing space 800 tons of A/C (160,000 cfm) $1 million / year for electrical service $10 million / month for reagents

Sequenziamento del genoma umano

Sequenziamento del genoma umano - Chi ha vinto? Il genoma umano e' di dominio pubblico La Celera ha dovuto ricorrere ad informazioni prodotte dal consorzio HGP Ma l'approccio WGS ha funzionato - Cosa e' stato prodotto? 90% della sequenza (320 milioni di bp erano mancanti) Coverage medio 4X 25% della sequenza a 8-10X 50000 scaffolds (lunghezza media 54.2 Mbp)

Sequenziamento del genoma umano E spesso affermato che il genoma umano e' stato completamente sequenziato, ma stime recenti mostrano come solo intorno al 93% della sequenza e' nota. Alcune regioni rimangono incomplete o del tutto sconosciute. - Centromeri: sequenze altamente ripetitive di DNA molto difficili da sequenziare. Possono essere anche molto lunghi (fin a milioni di basi), e sono quasi completamente non sequenziati; - Telomeri: anche essi sono sequenze altamente ripetitive. Possono avere lunghezza variabile, per questo non e' chiaro quanto ne rimanga da sequenziare; - Famiglie multigeniche complesse: geni simili in sequenza e vicini sul cromosoma possono causare ambiguità durante l'assemblaggio. Un esempio sono geni coinvolti nel sistema immunitario; - Ci sono poi alcune decine di lacune (gaps) nella sequenza, alcune anche molto grandi, ma che per motivi non noti non hanno raggiunto un livello di coverage sufficiente. Per regioni come telomeri e centomeri, è possibile che le attuali tecnologie non siano in grado di determinarne la sequenza. E anche se ogni base del genoma fosse sequenziata, rimarrebbero da determinare le differenze fra individui.

Assemblaggio - L'assemblaggio del genoma è il processo per il quale a partire da un elevato numero di sequenze corte, generate da sequenziamento shotgun, vengono ricostruite le sequenze dei cromosomi da cui queste originano; - E' una struttura gerarchica: le reads formano i contigs, i contigs formano gli scaffolds; - Un contig può essere visto come un allineamento multiplo di reads, e la loro sequenza consenso; - Uno scaffold definisce ordine e orientamento dei contigs, e la dimensione dei gaps fra contigs adiacenti (gaps sono di solito riempiti da dequenze di N); - La bontà di un assemblaggio può essere stimata da varie misure: - lunghezza media e massima di contigs e scaffolds - lunghezza totale combinata; - N50 (lunghezza del contig più piccolo nell' insieme più piccolo dei contig che si può creare la cui lunghezza combinata rappresenti almeno il 50 dell assemblaggio). Es.: Genoma di 1 Mbp Contigs: 300k, 100k, 50k, 45k, 30k, 20k, 15k, 15k, 10k,... N50 = 30 kbp (300k+100k+50k+45k+30k = 525k >= 500kbp)

Assemblatori L'assemblaggio di un genoma è un problema molto difficile da un punto di vista computazionale, specialmente perchè molti genomi contengono un grande numero di sequenze identiche dette ripetizioni, lunghe anche migliaia di nucleotidi, e che possono essere trovate in migliaia di siti diversi. I primi assemblatori vennero disegnati alla fine degli anni '80, inizio anni '90, ed erano varianti di algoritmi di allineamento di sequenze. Algoritmi più evoluti vennero poi sviluppati per gestire: - terabytes di sequenze; - ripetizioni; - errori di sequenziamento. Ci sono due classi di assemblatori: 1. de-novo: le reads sono assemblate a formare un sequenza sconosciuta a priori; 2. mapping: le reads sono assemblate su una impalcatura gia nota Gli assemblatori de-novo sono di vari ordini di grandezza più lenti e bisognosi di memoria. Questo è principalmente dovuto alla necessità di confrontare ogni possibile coppia di reads. La complessità O(n 2 ) può essere però ridotta a O(n log(n)).

Shortest common superstring problem Dato un insieme di stringhe S={s 1, s 2,,s n }, trovare la stringa T più corta tale che ogni stringa s i sia una sottostringa di T (NP-hard)

Approccio Overlap-layout-consensus Dato un set di reads da sequenziamento shotgun... 1. trovare l'overlap fra tutte le coppie 2. trovare l'ordine delle reads sul genoma 3. determinare una sequenza rappresentativa Overlap: trovare tutti le reads con regioni di sovrapposizione (contigs) Layout: determinare regioni discrete (scaffolds, o supercontigs) di cui si può stimare l'orientamento e la posizione reciproca Contig Layout: fondere reads sovrapposte identificando i confini di ogni regione Supercontig assembly: I contigs devono essere ordinati, e regioni di separazione fra di loro devono essere riempite Consensus: ottenere la sequenza di ogni scaffold

Approccio Overlap-layout-consensus overlap layout consensus s1 s1 s2 s3 s4 s5 s6 s1 s5 s1 s5 s2 s2 s2 s3 s3 s3 s4 s4 s4 s5 s6 s6 s6

Assemblatori All'inizio, ogni centro di sequenziamento sviluppò i propri strumenti per assemblare le sequenze da loro prodotte. Man mano che il numero di sequenze disponibili cresceva, e si affrontavano genomi più complessi, si sono sviluppati strumenti più versatili e potenti l PHRAP l l Uno dei primi assemblatori, molto usato per piccoli genomi, buon trattamento degli errori nelle reads Sovrapposizione O(n 2 ) layout (senza paired reads) consensus l l l l Celera l l Arachne l l Primo assemblatore WGS capace di gestire genomi grandi (drosophila, uomo, topo) Overlap layout consensus Assemblatore WGS open source (topo, piante, funghi) Overlap layout consensus Phusion l Overlap clustering PHRAP assemblaggio consensus Euler l Indexing Euler graph layout (percorsi sul grafo) consensus

Assemblatori Fase 1. Overlap 1. Pulizia del dataset di reads 2. Identificazione e rimozione delle regioni ripetute 3. Identificazione efficiente delle regioni di sovrapposizione 4. Allineamento delle reads sovrapposte Fase 2. Layout - Vari approcci tentati 1. Algoritmi greedy 3. Costruzione di grafi 4. Clustering

Algoritmi greedy Algoritmo greedy: 1. Calcola la sovrapposizione fra ogni coppia s i e s j di S; 2. Assegna un punteggio ad ogni sovrapposizione; La sovrapposizione è solitamente calcolata con versioni modificate dell'algoritmo di Smith-Waterman, per consentire allineamenti imperfetti dovuti ad errori nel sequenziamento; 3. Unisci coppie di stringhe in ordine decrescente di punteggio. Le due reads con overlap migliore sono concatenate; si passa poi alla read con overlap migliore con una delle due di partenza, e cosi via

Overlap Graph Grafo: è un'astrazione composta da un insieme di nodi (o vertici) uniti da lati (o archi); Un grafo i cui i nodi possono essere attraverstai in una sola direzione è detto diretto; Un "percorso" di lunghezza n nel grafo è dato da una sequenza di vertici v0,v1,..., vn (non necessariamente tutti distinti) e da una sequenza di archi che li collegano (v0,v1), (v1,v2),...,(vn-1,vn). I vertici v0 e vn si dicono estremi del percorso. Un percorso con i lati a due a due distinti tra loro prende il nome di cammino. Un cammino chiuso (v0 = vn) si chiama circuito o ciclo.

Overlap Graph [Schatz, 2010]

Overlap Graph [Schatz, 2010]

Overlap Graph Overlap graph: grafo dove i nodi rappresentano ogni read, e gli archi connettono due nodi se le corrispondenti reads sono sovrapposte. In questa rappresentazione, il problema dell'assemblaggio si riconduce al problema di trovare un percorso nel grafo contenente tutti i nodi. 1. Costruisci un grafo con n vnodi rappresentanti le n stringhe s 1, s 2,., s n 2. Inserisci archi di lunghezza pari all' overlap ( s i, s j ) fra nodi s i and s j 3. Trova il percorso più corto che visiti ogni nodo una volta sola (percorso Hamiltoniano, NP-hard): questo è il problema del commesso viaggiatore (Traveling Salesman Problem)