Avanzamento dei sistemi di sequenziamento



Documenti analoghi
Alcuni aspetti legati al calcolo bioinformatico su CRESCO. Giuseppe Aprea UTMEA-CAL

Tecniche di riconoscimento statistico

Algoritmi e strutture dati. Codici di Huffman

Università degli Studi di Padova Dipartimento di Matematica. - Corso di Laurea in Informatica

Calcolatori Elettronici A a.a. 2008/2009

L informatica INTRODUZIONE. L informatica. Tassonomia: criteri. È la disciplina scientifica che studia

Dr. Tommaso Giordani SEQUENZIAMENTO SANGER E ASSEMBLAGGIO DEI GENOMI

Come creare il test di Yasso tramite l applicazione Training Center

DNA sequencing. Reading Genomes. Giovanni Bacci

Sistema operativo: Gestione della memoria

COS È UN LINGUAGGIO? LINGUAGGI DI ALTO LIVELLO LA NOZIONE DI LINGUAGGIO LINGUAGGIO & PROGRAMMA

Linguaggi di programmazione

Analisi di dati di sequenziamento del trascrittoma (RNA-Seq):

Strutturazione logica dei dati: i file

L USO DEL CALCOLATORE

Che cosa è un VIRUS?

Le banche e la moneta bancaria. Il conto corrente

Corso di Informatica

Corso di Calcolo Numerico

Come costruire una presentazione. PowerPoint 1. ! PowerPoint permette la realizzazione di presentazioni video ipertestuali, animate e multimediali

Bioinformatica (modulo bioinf. dei genomi moderni )

Import Sisam. Manuale utente. Maggio Sistema di raccolta dei dati statistici in ambito Socio-Assistenziale Minori

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di

Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A Pietro Frasca.

SEQUENZIAMENTO DEL DNA

Automazione Industriale (scheduling+mms) scheduling+mms.

Cosa è un foglio elettronico

DAL PROBLEMA ALL'ALGORITMO AL PROGRAMMA SCRITTO IN Come. Scopo principale dell informatica è risolvere problemi con i calcolatori.

Architettura hardware

RICLASSIFICAZIONE ECONOMICA DELLO S.P. E DEL C.E.

Sistemi Operativi mod. B. Sistemi Operativi mod. B A B C A B C P P P P P P < P 1, >

Architettura del calcolatore

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Prestazioni CPU Corso di Calcolatori Elettronici A 2007/2008 Sito Web: Prof. G. Quarella prof@quarella.

SOFTWARE PER LA RILEVAZIONE DEI TEMPI PER CENTRI DI COSTO

Ricorsione in SQL-99. Introduzione. Idea di base

Analisi dei dati MLPA con il nuovo Coffalyser.NET. MRC-Holland

Tecniche per il progetto di sistemi elettronici tolleranti ai guasti

Le fattispecie di riuso

I motori di ricerca. Che cosa sono. Stefania Marrara Corso di Sistemi Informativi

Funzioni in C. Violetta Lonati

Analisi e diagramma di Pareto

Architettura (10/9/2003) Pag. 1/6. Cognome e Nome (in stampatello):

Argo Palm Manuale utente Versione del

Informatica. Rappresentazione binaria Per esempio diventa /10/2007. Introduzione ai sistemi informatici 1

È possibile organizzare corsi e cicli presso la propria sede (Classi on-site)?

Le immagini digitali. Le immagini digitali. Caterina Balletti. Caterina Balletti. Immagini grafiche. Trattamento di immagini digitali.

PkBox Client Smart API

I TUTORI. I tutori vanno creati la prima volta seguendo esclusivamente le procedure sotto descritte.

Corso di Informatica

Pro e contro delle RNA

F G H I L. Sulla base della figura, nel programma sono usate le seguenti definizioni:

Tirocinio per la Laurea Triennale

Dall Algoritmo al Programma. Prof. Francesco Accarino IIS Altiero Spinelli Sesto San Giovanni

gestione e modifica di immagini fotografiche digitali

Strumenti di indagine per la valutazione psicologica

APPUNTI DI MATEMATICA ALGEBRA \ INSIEMISTICA \ TEORIA DEGLI INSIEMI (1)

Capitolo Quarto...2 Le direttive di assemblaggio di ASM Premessa Program Location Counter e direttiva ORG

Appunti del corso di Informatica 1 (IN110 Fondamenti) 4 Linguaggi di programmazione

Organizzazione della memoria principale Il bus

2.2b: RELAZIONI E BASI DI DATI. Atzeni, cap

Soluzione dell esercizio del 2 Febbraio 2004

AXO Architettura dei Calcolatori e Sistema Operativo. processo di assemblaggio

Quando troncare uno sviluppo in serie di Taylor

Appunti di informatica. Lezione 2 anno accademico Mario Verdicchio

Genomica Servizio Sequenziamento DNA

VMware. Gestione dello shutdown con UPS MetaSystem

Informatica - A.A. 2010/11

Le ombre in OpenGl. Daniele Varin LS Ing. Informatica Corso di Elementi di Grafica Digitale

Descrizione di un algoritmo

Strumenti informatici 13.1

Informatica 3. LEZIONE 23: Indicizzazione. Modulo 1: Indicizzazione lineare, ISAM e ad albero Modulo 2: 2-3 trees, B-trees e B + -trees

Dispositivi di rete. Ripetitori. Hub

Concetti Fondamentali

Valutazione delle Prestazioni. Valutazione delle Prestazioni. Architetture dei Calcolatori (Lettere. Tempo di risposta e throughput

Corso di Informatica Applicata. Lezione 3. Università degli studi di Cassino

Sistemi Operativi IMPLEMENTAZIONE DEL FILE SYSTEM. D. Talia - UNICAL. Sistemi Operativi 9.1

Corso di Algoritmi e Strutture Dati Informatica per il Management Prova Scritta, 25/6/2015

ESERCIZI DI PROBLEM SOLVING E COMPOSIZIONE DEI DIAGRAMMI DI FLUSSO per le classi terza

uadro Soluzioni software per L archiviazione elettronica dei documenti Gestione Aziendale Fa quadrato attorno alla tua azienda

Progettazione di una base di dati Ufficio della Motorizzazione

Come modificare la propria Home Page e gli elementi correlati

Esame sezione Brevetti Prova Pratica di meccanica

Misure finanziarie del rendimento: il Van

Modulo GeoVIEWER. manuale di utilizzo

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini.

LINGUAGGI DI PROGRAMMAZIONE

GENOMA. c varia da pochi kb nei virus a milioni di kb in piante e animali

Sistemi Informativi e Sistemi ERP

La memoria - generalità

Gestione della memoria centrale

PROGRAMMA SVOLTO NELLA SESSIONE N.

Soluzione dell esercizio del 12 Febbraio 2004

MANUALE UTENTE Fiscali Free

Misure finanziarie del rendimento: il Van

Approfondimento: Migrazione dei database e backup della posta

Bioinformatica: DNA e Algoritmi

Sistemi di distribuzione a MT e BT

Immagine di una sequenza ben riuscita. Sequences troubleshooting

Transcript:

Avanzamento dei sistemi di sequenziamento Sistemi di sequenziamento capillare basati su: Lunghezza delle read: 800 basi Poche sequenze prodotte in una singola corsa Second Generation Sequencing (SGS): Lunghezza read da 35 a 400 basi Decine di milioni di read prodotte in una singola corsa costi notevolmente inferiori del sequenziamento Sanger. E possibile ottenere un coverage maggiore ma problemi per quanto riguarda le sequenze ripetute: se la sequenza ripetuta è > della lunghezza della read verrà prodotto un gap nell assemblaggio. Possibile soluzione viene dall uso di paired-end reads fintanto che la distanza che separa le paia è maggiore della ripetizione.

Panoramica delle tecnologie SGS 2 tipi principali: 454 (Roche) produce più di un milione di read di 400 basi Illumina, Applied Biosystem, Helicos: producono read più corte ma con in quantità molto maggiore: 20-60 Gb di dati per corsa Lunghezza > 100 basi (150) Tutte le tecnologie permettono di ottenere read paired end ma non si possono ottenere pair di lunghezza paragonabile ai BAC (150Kb)

Metodi di assemblaggio Principale problema: sequenze ripetute le read possono essere assemblate in più di un modo a causa delle sequenze ripetute nel genoma Dipende dalla lunghezza delle read La frazione di sequenze uniche aumenta con l aumentare della lunghezza delle read ma la relazione varia tra specie e specie.

Variabilità della ripetitività tra specie Sequenze non sono random ma hanno delle «costrizioni» che variano tra specie e specie Uniqueness Ratio: la frazione di genoma coperto da lunghezze uniche di lunghezza K o maggiore.

Algoritmi «greedy» di assemblaggio I primi assemblatori utilizzavano un algoritmo «greedy»: Ogni read viene comparata con tutte le altre e le read che overlappano vengono fuse Al fine di permettere una certa percentuale di errori di sequenziamento viene permessa una percentuale (1-10%) di errori nell appaiamento. Una volta che tutte le sovrapposizioni sono state calcolate le read con la maggiore sovrapposizione vengono concatenate in modo da formare un contig Il processo di fusione fallisce per sequenze ripetitive più lunghe della lunghezza della read: tutte le copie di una repeat veranno fuse in una singola sequenza

Assemblaggio di sequenziamento shotgun su larga scala Assemblatori: Celera Assembler ARACHNE PCAP Processo in 2 fasi: 1. Assemblaggio di sequenze con sovrapposizioni non ambigue contigs 2. Informazione dalle mate-pair viene usato per connettere i contig in scaffold L assemblatore può anche includere contig ripetitivi nell assemblaggio fintanto che sia connesso a contig unici tramite mate pair

Overlap graph Assemblatori tradizionali utilizzano overlap graph per ridurre le risorse di memoria utilizzate: Ogni nodo del grafo è una sequenza e connessioni pesate connettono le read in base al livello di sovrapposizione.

Assemblaggio di short read Assemblatori tradizionali non funzionano: Va ridisegnato in modo da essere fattibile da un punto di vista computazionale molte più read sono necessarie per ottenere lo stesso coverage Generalmente con short read si utilizzando coperture di 40-50X contro gli 8-10X del sequenziamento Sanger Il numero di sovrapposizioni da calcolare aumenta enormemente

Assemblatori per short read Velvet ALLPATHS SOAPdenovo Abyss K=3 Utilizzano tutti l algoritmo basato su grafo di de Brujin: le read vengono decomposte in k-mers (sottosequenze di k basi) che diventano nodi del grafo. Un collegamento diretto tra nodi del grafo indica che i k-mer su quei nodi compaiono consecutivamente in una o più read. Gli overlap tra le sequenze sono catturati in maniera implicita dal grafo e non devono essere computati esplicitamente. computazionalmente efficiente Stretch non ambigui di sequenza formano percorsi non ramificati contig Sequenze ripetute formano dei punti di ramificazione densamente connessi. Mate-pairs possono essere utilizzati per risolvere ambiguità e correggere errori.

Svantaggi degli assemblatori basati su de Brujin Ci possono essere percorsi lungo il grafo che formano una sequenza che non è supportata dalle read sottostanti: ad esempio quando lo stesso k-mer compare in mezzo a due read che non appaiano in nessun altro punto Richiedono elevate quantità di RAM Difficilmente parallelizzabile

Scelta dell assembler Read corte: assembler basati su de Brujin graph Read > 100bp: assembler basati su overlap graph Anche assembler basati su de Brujin possono funzionare bene ma una differenza elevata con la lunghezza del k-mer può dare luogo a troppi punti di ramificazione.

Expected Contig Length vs. Read Coverage Le dimensioni effettive dei contig del cane ottenuti da read da 710 basi sono molto più simili alla lunghezza teorica calcolata rispetto alle dimensioni effettive dei contig del panda (read da 50 basi): una proporzione più ampia del genoma è ripetitiva rispetto a read corte e l assemblatore è costretto a creare molti più punti di rottura dei contig alle estremità dei repeat N50: la dimensione del contig per cui il 50% delle basi assemblate sono contenute in contigs di lunghezza N50 o maggiore.

Comparative assembly L approccio migliore per assemblare un genoma utilizzando delle short read è utilizzare un genoma di riferimento per risolvere le ripetizioni. Ovviamente per poter essere applicato deve esistere già una sequenza assemblata per quell organismo. Potrebbe non risolvere ampie inserzioni e variazioni strutturali rispetto al reference

Lunghezza della read e dell inserto Read più lunghe producono assemblaggi migliori perché si sovrappongono a più repeat. Inserti di maggiori dimensioni in librerie matepair aumentano le dimensioni dello scaffold ma non necessariamente quelle del contig: Gap ampi hanno molti più percorsi alternativi multipli possibili nel grafo. Utilizzare una miscela di dimensioni degli inserti può essere molto efficiente.