Avanzamento dei sistemi di sequenziamento Sistemi di sequenziamento capillare basati su: Lunghezza delle read: 800 basi Poche sequenze prodotte in una singola corsa Second Generation Sequencing (SGS): Lunghezza read da 35 a 400 basi Decine di milioni di read prodotte in una singola corsa costi notevolmente inferiori del sequenziamento Sanger. E possibile ottenere un coverage maggiore ma problemi per quanto riguarda le sequenze ripetute: se la sequenza ripetuta è > della lunghezza della read verrà prodotto un gap nell assemblaggio. Possibile soluzione viene dall uso di paired-end reads fintanto che la distanza che separa le paia è maggiore della ripetizione.
Panoramica delle tecnologie SGS 2 tipi principali: 454 (Roche) produce più di un milione di read di 400 basi Illumina, Applied Biosystem, Helicos: producono read più corte ma con in quantità molto maggiore: 20-60 Gb di dati per corsa Lunghezza > 100 basi (150) Tutte le tecnologie permettono di ottenere read paired end ma non si possono ottenere pair di lunghezza paragonabile ai BAC (150Kb)
Metodi di assemblaggio Principale problema: sequenze ripetute le read possono essere assemblate in più di un modo a causa delle sequenze ripetute nel genoma Dipende dalla lunghezza delle read La frazione di sequenze uniche aumenta con l aumentare della lunghezza delle read ma la relazione varia tra specie e specie.
Variabilità della ripetitività tra specie Sequenze non sono random ma hanno delle «costrizioni» che variano tra specie e specie Uniqueness Ratio: la frazione di genoma coperto da lunghezze uniche di lunghezza K o maggiore.
Algoritmi «greedy» di assemblaggio I primi assemblatori utilizzavano un algoritmo «greedy»: Ogni read viene comparata con tutte le altre e le read che overlappano vengono fuse Al fine di permettere una certa percentuale di errori di sequenziamento viene permessa una percentuale (1-10%) di errori nell appaiamento. Una volta che tutte le sovrapposizioni sono state calcolate le read con la maggiore sovrapposizione vengono concatenate in modo da formare un contig Il processo di fusione fallisce per sequenze ripetitive più lunghe della lunghezza della read: tutte le copie di una repeat veranno fuse in una singola sequenza
Assemblaggio di sequenziamento shotgun su larga scala Assemblatori: Celera Assembler ARACHNE PCAP Processo in 2 fasi: 1. Assemblaggio di sequenze con sovrapposizioni non ambigue contigs 2. Informazione dalle mate-pair viene usato per connettere i contig in scaffold L assemblatore può anche includere contig ripetitivi nell assemblaggio fintanto che sia connesso a contig unici tramite mate pair
Overlap graph Assemblatori tradizionali utilizzano overlap graph per ridurre le risorse di memoria utilizzate: Ogni nodo del grafo è una sequenza e connessioni pesate connettono le read in base al livello di sovrapposizione.
Assemblaggio di short read Assemblatori tradizionali non funzionano: Va ridisegnato in modo da essere fattibile da un punto di vista computazionale molte più read sono necessarie per ottenere lo stesso coverage Generalmente con short read si utilizzando coperture di 40-50X contro gli 8-10X del sequenziamento Sanger Il numero di sovrapposizioni da calcolare aumenta enormemente
Assemblatori per short read Velvet ALLPATHS SOAPdenovo Abyss K=3 Utilizzano tutti l algoritmo basato su grafo di de Brujin: le read vengono decomposte in k-mers (sottosequenze di k basi) che diventano nodi del grafo. Un collegamento diretto tra nodi del grafo indica che i k-mer su quei nodi compaiono consecutivamente in una o più read. Gli overlap tra le sequenze sono catturati in maniera implicita dal grafo e non devono essere computati esplicitamente. computazionalmente efficiente Stretch non ambigui di sequenza formano percorsi non ramificati contig Sequenze ripetute formano dei punti di ramificazione densamente connessi. Mate-pairs possono essere utilizzati per risolvere ambiguità e correggere errori.
Svantaggi degli assemblatori basati su de Brujin Ci possono essere percorsi lungo il grafo che formano una sequenza che non è supportata dalle read sottostanti: ad esempio quando lo stesso k-mer compare in mezzo a due read che non appaiano in nessun altro punto Richiedono elevate quantità di RAM Difficilmente parallelizzabile
Scelta dell assembler Read corte: assembler basati su de Brujin graph Read > 100bp: assembler basati su overlap graph Anche assembler basati su de Brujin possono funzionare bene ma una differenza elevata con la lunghezza del k-mer può dare luogo a troppi punti di ramificazione.
Expected Contig Length vs. Read Coverage Le dimensioni effettive dei contig del cane ottenuti da read da 710 basi sono molto più simili alla lunghezza teorica calcolata rispetto alle dimensioni effettive dei contig del panda (read da 50 basi): una proporzione più ampia del genoma è ripetitiva rispetto a read corte e l assemblatore è costretto a creare molti più punti di rottura dei contig alle estremità dei repeat N50: la dimensione del contig per cui il 50% delle basi assemblate sono contenute in contigs di lunghezza N50 o maggiore.
Comparative assembly L approccio migliore per assemblare un genoma utilizzando delle short read è utilizzare un genoma di riferimento per risolvere le ripetizioni. Ovviamente per poter essere applicato deve esistere già una sequenza assemblata per quell organismo. Potrebbe non risolvere ampie inserzioni e variazioni strutturali rispetto al reference
Lunghezza della read e dell inserto Read più lunghe producono assemblaggi migliori perché si sovrappongono a più repeat. Inserti di maggiori dimensioni in librerie matepair aumentano le dimensioni dello scaffold ma non necessariamente quelle del contig: Gap ampi hanno molti più percorsi alternativi multipli possibili nel grafo. Utilizzare una miscela di dimensioni degli inserti può essere molto efficiente.