Alcuni aspetti legati al calcolo bioinformatico su CRESCO. Giuseppe Aprea UTMEA-CAL



Documenti analoghi
Avanzamento dei sistemi di sequenziamento

TECNICHE DI SIMULAZIONE

Informazione analogica e digitale

Corso di Informatica

Materiali per il modulo 1 ECDL. Autore: Marco Lanino

Che cosa è un VIRUS?

Informatica per la comunicazione" - lezione 7 -

Indice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi

SAGE: Serial Analysis of Gene Expression

Software per Helpdesk

Bioinformatica (modulo bioinf. dei genomi moderni )

1. BASI DI DATI: GENERALITÀ

Sistemi Operativi. Interfaccia del File System FILE SYSTEM : INTERFACCIA. Concetto di File. Metodi di Accesso. Struttura delle Directory

TERM TALK. software per la raccolta dati

Database. Francesco Tapparo Informatica e Bioinformatica /16

Se i segni e i prodotti e/o servizi sono simili, non significa necessariamente che vi sia rischio di confusione. I due

Materiali per il modulo 1 ECDL. Autore: M. Lanino

Report di valutazione studiolegalebraggio.it

SETTIMANA LUN MAR MER GIO VEN

Capitolo V : Il colore nelle immagini digitali

Codifiche a lunghezza variabile

Elementi di Architettura e Sistemi Operativi. problema punti massimi i tuoi punti problema 1 6 problema 2 7 problema 3 7 problema 4 10 totale 30

Bioinformatica: DNA e Algoritmi

DNA sequencing. Reading Genomes. Giovanni Bacci

Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY.

edilsoft Sistemi & Servizi Informatici

I marcatori molecolari. Dipartimento di Scienze Agronomiche e Genetica Vegetale Agraria Corso di Genetica Agraria Giovanna Attene

Anticipa le richieste dei tuoi Clienti con flessibilità e livelli di servizio di assoluta eccellenza rispetto agli standard di mercato

L informatica INTRODUZIONE. L informatica. Tassonomia: criteri. È la disciplina scientifica che studia

e-dva - eni-depth Velocity Analysis

Strutture di Memoria 1

La riforma del servizio di distribuzione del

Architettura del calcolatore

Quotidiano.

Si intende una parte conduttrice, che non fa parte dell'impianto. grado di introdurre nell'impianto un potenziale, generalmente quello di terra

1. Considerazioni preliminari

Scheduling della CPU. Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux

Ufficio Stampa Tel Foro Buonaparte, 31 Fax Milano

Laboratorio Virtuale NEPTUNIUS (Numerical. codes for computational fluid dynamics and. fluid structure interactions)

LABORATORIO DI SISTEMI

Structural analysis of behavioral networks from the Internet

Con il termine Sistema operativo si fa riferimento all insieme dei moduli software di un sistema di elaborazione dati dedicati alla sua gestione.

CPU. Maurizio Palesi

Più processori uguale più velocità?

Laboratorio di Informatica

RELAZIONE STAGE. CFP GALDUS Milano Via Pompeo Leoni, 2. Federico Stefanelli. 3 Operatore Elettronico. Anno scolastico: 2013/14

Indici di dispersione

Consideriamo due polinomi

Povo2. Nuovo Datacenter d Ateneo. Trasloco sala macchine domenica 14 dicembre 2014

SISTEMI DI CONTROLLO PER ISOLE VARIE REFERENZE

BAS Wizard CMS: dimensionamento ed evoluzione. Dimensionamento infrastruttura Wizard

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

Organizzazione della memoria

General Linear Model. Esercizio

INVERTER DI STRINGA POWER ONE AURORA: Dimensionamento del generatore fotovoltaico con Aurora Designer

MODULO 02. Iniziamo a usare il computer

I quattro ordini di scuola a confronto Elisabetta Malaguti

PROCESSO DI INDICIZZAZIONE SEMANTICA

I NUMERI DECIMALI. che cosa sono, come si rappresentano

Appunti di informatica. Lezione 2 anno accademico Mario Verdicchio

Informatica per la comunicazione" - lezione 8 -

Architettura hardware

Lo scenario: la definizione di Internet

Linux I/O Scheduling overview

La componente tecnologica dei. sistemi informativi. Architettura hw. Componenti di una architettura hw

V. RISORSE PER IL PROGETTO

BODY SCANFIT : il primo body scanner 3D portatile per digitalizzare in 4 secondi il mondo reale

PRINCIPALI AGGIORNAMENTI DELLA NUOVA VERSIONE DI WEBDIOCESI. 1 Nuovo menù di gestione

Normative sulla Tenuta dei Serramenti ad Aria, Acqua e Vento

Corso di Componenti e Impianti Termotecnici LE RETI DI DISTRIBUZIONE PERDITE DI CARICO LOCALIZZATE

STUDIO DI SETTORE SM43U ATTIVITÀ COMMERCIO AL DETTAGLIO DI MACCHINE, ATTREZZATURE E PRODOTTI PER L AGRICOLTURA E IL GIARDINAGGIO

Istruzioni per l installazione del software per gli esami ICoNExam (Aggiornate al 15/01/2014)

VERIFICA DELLE IPOTESI

Descrizione funzionale

Interfaccia. 1. Sede configuratori 2. Morsetto IN 3. Led di segnalazione 4. Pulsante per configurazione virtuale 5. Morsetto OUT

Sistemi informativi secondo prospettive combinate

COMPANY PROFILE AUTOMAZIONE & CABLAGGIO INDUSTRIALE. Esperienza e qualità per i professionisti dell automazione

Analisi della performance temporale della rete

Corso di Matematica per la Chimica

HBase Data Model. in più : le colonne sono raccolte in gruppi di colonne detti Column Family; Cosa cambia dunque?

La Videosorveglianza Criteri per il dimensionamento dello storage

Word per iniziare: aprire il programma

La memoria centrale (RAM)

Scheduling della CPU:

Codifica binaria dei numeri relativi

Sistemi di distribuzione a MT e BT

CONTENUTO DELL OFFERTA TECNICA E CRITERI DI VALUTAZIONE

nuovo progetto in franchising

Pro e contro delle RNA

clock DATA BUS ADDRESS BUS CONTROL BUS In realtà il bus del microprocessore si compone di 3 bus diversi: Bus indirizzi Bus di controllo

Linee guida per la rilevazione sistematica della customer satisfaction tramite emoticons

I TRASFORMATORI DI DISTRIBUZIONE IN EUROPA

Le strategie di promozione della lettura messe in atto dalla. biblioteca comunale di Soriano nel Cimino risultano abbastanza

Architettura di un calcolatore

SEQUENZIAMENTO DEL DNA

Titolo: Sistemi di bigliettazione elettronica: analisi dati e data mining Relatore: Andrea Gaffi

Sviluppo e prospettive future del solare termico

Descrizione generale del sistema SGRI

Le conseguenze emotivo - motivazionali di una difficoltà scolastica

Sondaggio bonus.ch sull assicurazione malattia: osare il cambiamento significa risparmiare

Transcript:

Alcuni aspetti legati al calcolo bioinformatico su CRESCO Giuseppe Aprea UTMEA-CAL

Principali attività bioinformatiche ENEA legate al calcolo Assemblaggio de Novo* Trascrittomica Analisi filogenetica Metagenomica* Analisi delle sequenze In tutti questi casi l'input è costituito da dati di sequenziamento.

L'evoluzione dei dati (1) la lunghezza delle sequenze si è accorciata di un fattore 10 circa (eccetto il taso della tecnologia 454) Nel sequenziamnto di seconda generazione il throughput è aumentato enormemente (fino a un fattore ~105) Al giorno d'oggi la tecnologia più affermata è Illumina di conseguenza si incontrano molto spesso reads corte.

L'evoluzione dei dati (2)

L'evoluzione dei dati (3) Il prezzo da pagare in seguito agli sviluppi delle tecniche di sequenziamento è dato da: L'analisi dati è diventata molto più complessa È aumentata la richiesta di risorse di calcolo

Assemblaggio: l'evoluzione degli algoritmi (1) Gli algoritmi di assemblaggio più usati fanno uso di strutture a grafo di 2 tipi: Grafi di overlap Grafi di de Bruijn

Assemblaggio: l'evoluzione degli algoritmi (2) Gli algoritmi basati su grafi di overlap sono più indicati per reads medio-lunghe (454) Gli algoritmi basati su grafi di Bruijn sono più indicati per reads corte e di alta qualità (Illumina) Su CRESCO sono attualmente installati sia software basati sul primo tipo di algoritmo (Newbler) che sul secondo (Abyss, Soap2, Velvet)

Assemblaggio: memory footprint Algoritmi basati su grafi di de Bruijn (Abyss): Memoria totale = numero_di_kmer_unici * byte_per_kmer numero_di_kmer_unici [genome_size] + [numero_reads * (l-k+1) * p] l=lunghezza read, k=lunghezza kmer (NB:l>k), p=probabilità che ci sia almeno un errore per read byte_per_kmer = 8 + maxk/4 maxk = 32, byte_per_kmer=16; maxk = 64, byte_per_kmer=24; maxk = 96, byte_per_kmer=32. Es: genome_size=1 Gbase, coverage 20x, l=100bp, k=64, maxk = 64, p=0.63 Memoria totale 135 GB

Assemblaggio: esempi reali AbySS: Assemblaggio del genoma umano in 87 h su cluster di 21 nodi da 8 core, ciascuno con 16 GB of RAM (totale di 168 core, 336 GB RAM)[Simpson et al. 2009]. SOAPdenovo: assemblaggio del genoma umano in 40 h su singolo nodo con 32 core e 512 GB di RAM [Li et al. 2010].

Ultra low memory assembly Approccio molto promettente ma ancora non consolidato.

RNA-seq (1)

RNA-seq (2) É stata implemetata su CRESCO una pipeline per la determinazione dell'espressione differenziale dei trascritti: tophat: allinemento delle sequenze al genoma; cufflinks,cuffmerge,cuffdiff: calcolo dei livelli d'espressione, identificazione di eventuali nuovi trascritti o varianti di splicing. La pipeline è in grado di processare qualche decina di campioni con genoma contenete alcune decine di geni in 2-3 giorni. Gira principalmente su code a basso parallelismo.

Analisi filogenetica genome-wide É stata implemetata su CRESCO una pipeline per la determinazione delle sequenze consenso dei trascritti genici e per il loro confronto: Bowtie2: allinemento delle sequenze al riferimento Samtools: determinazione delle sequenze consenso Clustalw: riallinemento tra i consensi di uno stesso trascritto PAML(yn00): analisi della sostituzioni sinonime e non sinonime. La pipeline è in grado di processare un insieme di qualche decina di migliaia di geni per 4-5 campioni in circa un paio di giorni. Gira principalmente su CRESCO1

Conclusioni Le risorse di calcolo attuali e quelle prospettate per CRESCO4 sono adeguate all'esecuzione della maggior parte dei calcoli bioinformatici descritti. Tuttavia esistono alcune criticità: - ci sono solo 2 nodi con memoria ad immagine unica dell'ordine di 100GB o superiore. Si tratta di 2 nodi un pò datati. Non vi sono nodi con memoria maggiore di 256GB, necessari per l'assemblaggio di genomi complessi di grandi dimensioni. - in alcuni casi l'analisi di grandissime quantità di sequenze può richiedere tempi superiori ai massimi consentiti dalle code attuali (10 giorni). I codici coinvolti tipicamente non consentono resume (o non lo consentono in maniera semplice) e non lavorano in parallelo distribuito (Newbler, ClustalOmega). - Lo spazio disco necessario per i dati grezzi e l'area di lavoro è dell'ordine di grandezza di 10TB e aumenta di circa 1TB all'anno (la messa in esercizio di cresco3 aiuta già molto da questo punto di vista).