Dr. Tommaso Giordani METODI DI NEXT GENERATION SEQUENCING (NGS)

Per il sequenziamento di genomi la metodica principalmente utilizzata fino a pochi anni fa era basata su una strategia enzimatica, metodo della terminazione della catena sviluppato da Frederick Sanger (1977). Prevede uno step di clonaggio dei frammenti derivanti dalla diretta frammentazione del DNA genomico (o derivante dalla frammentazione di inserti di cloni BAC).

Più recentemente sono stati sviluppati nuovi metodi caratterizzati dalla capacità di sequenziare molti frammenti di DNA contemporaneamente (anche se con efficienza minore in termini di numero di basi sequenziate per frammento) aprendo una nuova era del sequenziamento. Queste metodiche di nuova concezione sono dette di NEXT GENERATION SEQUENCNG e prevedono un sequenziamento ad elevato parallelismo. Sanger 1000 bp X 384 reazioni contemporanee X 10 corse al giorno= 3.840.000 (3,84 Mb) al giorno NGS 40-800 bp X milioni di sequenze. Una corsa 0,5-10 Gb!!!

NEXT GENERATION SEQUENCNG - Non è più indispensabile il clonaggio in vettori batterici o virali. - Non è più necessaria la fase di migrazione dei frammenti su gel o in capillare per ottenere la sequenza. - La lettura della sequenza è effettuata step-by-step (sequencing by synthesis).

NEXT GENERATION SEQUENCNG - E necessaria la fase di amplificazione del DNA genomico prima del sequenziamento. Fra le tecnologie attualmente disponibili: 1) Roche/454 (pyrosequencing) dal 2005 2) Applied Biosystems SOLID (sequencing by ligation). Dal 2007 3) Illumina/Solexa (modified Sanger, reversible dyeterminators) dal 2006

Roche 454 GS-FLX System Using Titanium Chemistry Microbial whole genome sequencing BAC sequencing Metagenomics Mutation discovery mirna discovery cdna library screening ~500bp average read length 1-1.6 milion reads/plate Obtain up to 500Mb per run (10 ore)

Anche la metodica del PYROSEQUENCING si basa sulla replicazione del DNA

1) PYROSEQUENCING (Ronaghi M, Ehleen M and Nyrén P (1998) A sequencing method based on real-time pyrophosphate. Science, 238, 363-365).

PYROSEQUENCING: 4 passaggi ripetuti ciclicamente 1. La sequenza da analizzare, previa amplificazione con PCR, viene incubata come singola elica insieme a: -primers adeguati DNA polimerasi -ATP solforilasi e agli enzimi: - luciferasi apirasi -adenosinsolfofosfato (ASP) -luciferina 2. Un solo tipo di dntp alla volta viene aggiunto alla reazione. Per ogni tipo di dntp aggiunto si verificano due possibilità esclusive: in caso di non complementarietà allo stampo nella prima posizione dopo il primer, l'allungamento non avviene e il nucleotide mismatching viene degradato dalla apirasi; in caso di complementarietà, la DNA polimerasi ne catalizza l'aggiunta con liberazione di pirofosfato inorganico Ppi.

Metodi di Next Generation Sequencing (NGS) 3. Il PPi così prodotto viene quindi rivelato dalla produzione di un segnale luminoso: partendo dall' adenosinsolfofosfato (ASP) come substrato, la solforilasi catalizza la trasformazione del PPi in ATP, il quale fornisce energia per la conversione della luciferina ad ossiluciferina (ad opera della luciferasi). Il segnale luminoso così generato viene rilevato e registrato da una ccd. La presenza del segnale ci conferma l'appartenenza del nucleotide alla tal posizione della catena, mentre l'intensità del segnale sarà proporzionale al numero di ripetizioni della base lungo lo stesso filamento: un impulso doppio o triplo, per esempio, è indice dell'inglobamento nello stesso ciclo di 2 dntp (ripetizione della stessa base per 2 o 3 volte sul templato); viceversa un segnale nullo indica che il dntp aggiunto in quel ciclo non è complementare.

Metodi di Next Generation Sequencing (NGS) PYROSEQUENCING 4. L'enzima apirasi, degrada in continuazione l'eccesso di dntp che non è stato incorporato, e l'eccesso di ATP prodotto dalla solforilasi. Solo quando l'eccesso di ATP è stato eliminato completamente si può aggiungere un secondo dntp per far progredire la reazione di polimerizzazione (ritornando allo step 1). Si aggiungono quindi ciclicamente tutti e 4 i dntp fino al completamento della sequenza. (N.B. per l adenina non si può utilizzare ATP, ma l'adenosin-α-tiotrifosfato, che è un analogo riconosciuto dalla DNA polimerasi come se fosse ATP, ma non dalla luciferasi; l ATP produrrebbe infatti un segnale luminoso continuo che non deriverebbe dalla reazione di conversione del pirofosfato, ma dall'aggiunta tal quale di ATP, utilizzato direttamente dalla luciferasi).

Metodi di Next Generation Sequencing (NGS) PYROSEQUENCING Dall'analisi del pirogramma si risale alla sequenza completa. TCTCTGTAAAGTGG TCTCTATAAAGTGG Esempio di SNP rivelato dall analisi di un pirogramma

Metodi di Next Generation Sequencing (NGS) PYROSEQUENCING Filmato riassuntivo: pyrosequencing.flv

PYROSEQUENCING PER SEQUENZIARE INTERI GENOMI: L ELEVATO PARALLELISMO In realtà siamo già oltre 500 basi per corsa.

Preparazione della Library genomica: frammentazione e ligation di adattatori

Attacco dei frammenti di DNA a sferette con adattatori. In una sferetta si lega un solo frammento. Si emulsionano le sferette in una water-in-oil mixture contenente i reagenti per la amplificazione PCR. Amplificazione clonale ( emulsion PCR )

Le sferette sono inserite in supporti contenenti circa 1 milione di micro-pozzetti in cui avviene la reazione di sequenziamento per l aggiunta di sferette contenenti i reagenti per il sequenziamento

Sequencing by Ligation - SOLID TM system Il sistema SOLID prodotto da Applied Biosystem è una piattaforma per il sequenziamento in parallelo di segmenti di DNA amplificati in modo clonale e legati a sferette magnetiche. La metodologia di sequenziamento è basata sulla "ligazione sequenziale" di oligonucleotidi marcati con fluorocromi (SBL, sequencing by ligation). - fino a 10 Gbp per run -sequenze di lunghezza pari a 30-35 nt con un'accuratezza superiore al 99% - 250 milioni di reads - Possibilità di caricare fino a 8 campioni in canali separati -Una corsa dura 3-6 giorni Attualmente il suo uso va diminuendo.

Preparazione della library con i frammenti legati a sferette magnetiche amplificati con Emulsion PCR e distribuiti su speciali vetrini 1-Enulsion PCR 2-Clonal amplification 3-Enrichment for DNApositive beads 4-Transfer on solid array

Si basa sulla ligazione sequenziale di oligonucleotidi marcati con fluorocromi differenti. La reazione è ciclica, ad ogni ciclo si aggiunge un oligonucleotide differente di 8 bp. La struttura degli oligonucleotidi fluorescenti è NNnnnZZZ* - NN è una delle 16 combinazioni dei 4 nucleotidi A, C, T, G. -nnn sono tre basi degenerate -ZZZ sono basi che legano il fluoroforo. -Tra le basi nnn e ZZZ c è un sito di taglio per una nucleasi.

Ogni ciclo è composto di vari step: annealing, ligation, lavaggio, visualizzazione e taglio dell estremità 5 del primer fluorescente. Al primo ciclo si aggiungono in sequenza i 16 oligonucleotidi possibili: il primo oligonucleotide si prova ad appaiare in 5 del primer universale di innesco lungo n attaccato all estremità 5 del filamento attaccato alla sferetta. Se non c è complementarietà si passa al secondo oligonucleotide possibile e così via. Se c è complementarietà la ligasi lega l oligo, e viene registrata la fluorescenza. Successivamente una nucleasi rimuove l estremità 5 dell oligo e si ricomincia ad aggiungere in sequenza i 16 oligonucleotidi possibili.

Al termine di 7-8 cicli il filamento neo sintetizzato a partire dal primer universale di innesco lungo n è rimosso e si fa ibridare un primer universale di innesco lungo n-1 all estremità 5 del filamento stampo.

Quindi si ripetono altri 7-8 cicli col primer lungo n-1 e successivamente con primer lungo n-2, n-3 e n-4.

n n-1 n-2 n-3 n-4 1/2 6/7 11/12 16/17 18/19 20/21 22/23 ATxxxACxxxAAxxxATxxxTCxxxAAxxxGCxxx CAxxxAAxxxTAxxxCAxxxGTxxxTAxxxCGxxx TAxxxGTxxxTCxxxCGxxxGTxxxGCxxx GTxxxCGxxxCTxxxGCxxxCGxxxGGxxx TGxxxCCxxxACxxxTGxxxCCxxxAGxxx seq CATGTAACCGTAACTCATGCGTCCGTAAGGCGC

Ho 4 fluorocromi (colori) ma devo distinguere 16 dinucleotidi L associazione colore dinucleotide è studiata in modo da facilitare la lettura della sequenza finale...

Conoscendo la Base Zero...

La base zero è data dall ultima base del primer universale lungo n n n-1 n-2 n-3 n-4 Primer univ 1/2 6/7 11/12 16/17 18/19 20/21 22/23 ATTTCGACGACC ATxxxACxxxAAxxxATxxxTCxxxAAxxxGCxxx.. ATTTCGACGAC CAxxxAAxxxTAxxxCAxxxGTxxxTAxxxCGxxx.. ATTTCGACGA TAxxxGTxxxTCxxxCGxxxGTxxxGCxxx.. ATTTCGACG GTxxxCGxxxCTxxxGCxxxCGxxxGGxxx.. ATTTCGAC TGxxxCCxxxACxxxTGxxxCCxxxAGxxx.. seq CATGTAACCGTAACTCATGCGTCCGTAAGGCGC..

Sapendo che il nucleotide zero è una A, c è solo una sequenza possibile A-T T-A C-G G-C G-A A-G T-C C-T A-C C-A G-T T-G A-A T-T C-C G-G

Sapendo che il nucleotide zero è una A, c è solo una sequenza possibile A-T T-A C-G G-C G-A A-G T-C C-T A-C C-A G-T T-G A-A T-T C-C G-G A T C A A

Sequencing by Synthesis - SOLEXA TM / ILLUMINA system Il sistema SOLEXA prodotto da Illumina è una piattaforma per il sequenziamento in parallelo di segmenti di DNA legati sulla superficie di un vetrino (flowcell) diviso in 8 lanes ed amplificati in modo clonale attraverso una Bridge PCR. La metodologia di sequenziamento è basata sulla sintesi sequenziale" di DNA attraverso l utilizzo di terminatori dideossi reversibili. Il sistema SOLEXA può generare circa un miliardo di bp per run (sequenze di lunghezza fino a 150 nt) con un'accuratezza superiore al 99%.

Solexa technology. Illumina Genome Analyzer Generating high quality readout of one billion bases per run at less than 1% of the cost of capillary-based methods, the Illumina Genome Analyzer is designed to enable researchers to dramatically improve the efficiency of current applications. Extremely high throughput: 2G sequences per run Scalable: Up to eight samples can be loaded onto the flow cell simultaneously High accuracy Cost effective Bioinformatics solution by professionals Genome resequencing BAC resequencing Expression profiling Small RNA identification Single ends sequencing (2-3 giorni) or Paired ends sequencing (4-6 giorni)

Illumina: la libreria di frammenti di DNA legati ad adattatori è attaccata al vetrino, niente sferette o micropozzetti. Il vetrino è cosparso di primer adattatori

Illumina: primo ciclo della Bridge PCR: l estremità libera di un frammento di DNA si piega a ponte e si ibrida ad un primer adattatore vicino con sequenza complementare

Dopo vari cicli di Bridge PCR si creano circa 10 milioni di gruppi (cluster) ciascuno con milioni di copie della stessa molecola di DNA, come fossero dei veri e propri cloni in una piasra

Inizia il sequenziamento: si aggiungono primer, enzima e terminatori dideossi reversibili marcati con fluorocromi. Si attacca la prima base a ciascun cluster, si eccitano i fluorocromi con luce laser e si cattura la prima immagine del vetrino

I nucleotidi dideossi reversibili possono consentire l aggiunta di nuovi nucleotidi in modo da non bloccare l allungamento della catena di DNA. Successivamente si lavano via tutti i reagenti e si aggiungono nuovi terminatori dideossi reversibili e si acquisisce l immagine della seconda base.

Col susseguirsi dei cicli di sequenza, in ciascun punto del vetrino si registrano immagini successive che il software tramuta in stringhe di sequenza (reads).

Illumina Emissione di fluorescenza sul vetrino. Ogni spot luminoso sul vetrino corrisponde a un frammento e il colore indica la base aggiunta.

Riassumendo il metodo Illumina

Riassumendo il metodo Illumina: video NGS.flv

NGS e sequenziamento dei genomi Per il sequenziamento di un genoma, a livello di assemblaggio, data la bassa taglia dei frammenti sequenziati, è importante utilizzare anche un altra informazione, la lunghezza dei frammenti stampo, in modo da tenere conto che fra le due estremità di un frammento (paired ends) c è un numero preciso di nucleotidi. 1 2 3 4 5 6 7 8 9 10 5 6 9 10 1 2

Sequenza unica con marcatore molecolare Regione con sequenze ripetute, difficile da assemblare Frammento di 8000bp Frammento di 20000bp???????? Porzione di frammento sequenziato in 5 Porzione di frammento sequenziato in 3

Sequenziamento di un genoma usando NGS Illumina (ma anche 454): sono sequenze troppo corte Questo pone problemi, per esempio riguardo alle sequenze ripetute (metafora del puzzle)

grandezza dei pezzi = lunghezza delle sequenze Pezzi più grandi rendono il puzzle più facile = sequenze più lunghe rendono l assemblaggio del genoma più facile tuttavia ottenere sequenze lunghe con metodi di sequenziamento tradizionali (Sanger) è costoso tecniche di sequenziamento di next generation sequencing sono decisamente più economiche ma forniscono sequenze più corte rispetto ai metodi tradizionali Si cerca un compromesso, spesso attraverso soluzioni ibride tra metodi tradizionali e di next generation sequencing

Infatti NGS è utile per disporre a basso prezzo, di una grande copertura del genoma, con cui integrare dati ottenuti con Sanger Per avere contig più grandi, conviene partire da library BAC e sequenziare quelle (come se ogni BAC fosse un piccolo genoma) mediante NGS; i contig verranno poi più facilmente assemblati Per l assemblaggio inoltre è molto utile disporre di mappe genetiche sempre più sature in modo da poter ancorare i contig

Sequenziamento di un genoma usando NGS NGS molto utile per il risequenziamento, dove si dispone di un genoma già sequenziato che fa da riferimento. Tuttavia, mutazioni tipo inserzioni o delezioni di frammenti di DNA possono essere sottostimate. Per questo c è necessità di algoritmi sempre più efficienti che tengano conto della lunghezza del frammento compreso fra le due paired ends sequenziate. Genoma A completamente sequenziato (di riferimento) Genoma B risequenziato con (NGS) con inserzione rispetto ad A Complessivamente, si rivela comunque utile disporre di una library BAC della specie da sequenziare.

Annotazione di un genoma e NGS -Geni: uso di software predittivi e di allineamento con library EST; allineamento con db pubblici (BLASTx e BLASTn)- RepeatMasker -Sequenze ripetute: J dotter; uso di software predittivi (LTR finder); allineamento con db pubblici (BLASTx, BLASTn, RepBase); Allineamento con sequenze Illumina (mapping)

Mapping delle reads Regioni genomiche ripetute Contig da NGS Reads illumina che mappano col contig Le regioni a cui si allineano numerose reads contengono sequenze ripetute

Mapping delle reads Annotazione e mappaggio con reads Illumina di tre cloni BAC di girasole (DES, DHN, LTP) Sequenze di trasposoni sono indicate seguendo la nomenclatura di Wicker et al. (2007). I picchi ci danno un idea della ripetitività di una sequenza La mappatura è utile per trovare sequenze ripetute ignote (v. contig 61)

Genoma 1.000 dollari? 2003 genoma umano è stato "sostanzialmente completo" costo di 3 miliardi di dollari o 300 milioni di dollari (Celera Genomics). 2005, il consorzio HapMap individua le ubicazioni di un milione di SNPs nel genoma umano Entrambe queste pietre miliari hanno aperto la porta a numerose opportunità di ricerca. Una di queste è un genoma 1.000 dollari. Il genoma 1.000 dollari servirà a comprendere la diversità del genoma umano e scoprire le sue variazioni, per determinare le caratteristiche che possono essere eliminate per garantire una migliore salute delle persone. Attualmente, gran parte della ricerca su questi aspetti non è stata fatta, perché ogni sequenza del genoma compiuta con metodi tradizionali costa un milione di $ e circa un anno di lavoro. Il genoma 1.000 $ è realistico? Quanto tempo sarà l'attesa? Attualmente ci sono diverse piattaforme commerciali, come Illumina e Affymetrix, che hanno dimostrato la loro capacità di valutare rapidamente SNPs conosciuti a costi assai contenuti. Tuttavia, la tecnologia attuale non è ancora capace di scoprire nuovi SNPs o altri polimorfismi. Ma la tecnologia è in continua e rapida evoluzione.

Il progetto genoma 1.000 $ è iniziato nel 2004, con il National Human Genome Research Institute (NHGRI). Il primo obiettivo, che mirava a ridurre il costo del sequenziamento a 100.000 $, è stato raggiunto in cinque anni. Con le tecnologie attuali il costo del sequenziamento di un genoma umano è circa 3-10000 $ e sette giorni di lavoro, quindi, il traguardo non è lontano. Tuttavia, con sorpresa di tutti, Pacific Biosciences, una società di biotecnologie che produce una piattaforma per il sequenziamento di singole molecole di DNA, ha annunciato che sarà in grado di mappare un genoma in 15 minuti per meno di $ 1.000 entro il 2013. La Life Technologies nel gennaio di quest anno ha annunciato Proton Ion per il sequenziamento del genoma umano in 24h per 1000 dollari. Illumina ha annunciato Hiseq2500 Realisticamente, prima che queste tecnologie possano essere utilizzate su larga scala, si può supporre un periodo di attesa di 3-5 anni. La riduzione dei costi può influenzare la qualità delle Reads? La qualità delle reads è sempre stata la prima priorità per coloro che lavorano al progetto genoma di 1.000 dollari. L'obiettivo è di avere una sequenza de-novo assemblata con non più di un errore per 10.000 nucleotidi e non lasciare spazi vuoti. Per anni è stato utilizzato il metodo Sanger, con adeguata lunghezza e qualità delle sequenze. Nel corso degli anni il metodo ha ridotto i costi a $ 0,6 per 1.000 basi, ma per un genoma umano occorrerebbe quasi un anno di lavoro e 1 milione di dollari!

Tecniche di NGS e nuovi algoritmi per l assemblaggio sono in grado di offrire risultati migliori, meno costosi e in tempi più rapidi, anche se forniscono sequenze più brevi ed hanno bisogno di una copertura più elevata per essere assemblate. Roche 454, per esempio, necessita di una copertura di 20X per assemblare contig di dimensioni utili. Il 454 è in grado di sequenziare un piccolo genoma al costo di 0.07$/ kb, Solexa 0.002 $/kb, Solid 0.004$/kb. Un genoma umano ha un costo <100.000 $ Occorrerà attendere tecniche di next next generation sequencing

La tecnologia sarà disponibile per applicazioni mediche? Il campo della medicina non sarà in grado di accedere al genoma 1.000 dollari subito. Al costo del sequenziamento occorre aggiungere l analisi computazionale delle sequenze di DNA, inoltre occorrerà tempo e denaro per fornirsi di attrezzature mediche e per la preparazione di medici in grado di interpretare le sequenze. Inoltre le sequenze che si potranno ottenere probabilmente non saranno molto precise da essere utilizzare per uso medico. La precisione necessaria aumenterebbe i costi di 10 volte, un prezzo che non molte strutture possono essere in grado di pagare. Quando anche i costi per l accuratezza si ridurranno il sistema sanitario sarà in grado di utilizzare le nuove tecnologie di sequenziamento del DNA per ridurre le malattie genetiche e contribuire a ridurre le spese mediche ad esse correlate. Il genoma personale porterà a problemi etici, legali e medici come la discriminazione a causa di un genoma sbagliato? I prossimi anni saranno cruciali per il genoma di 1.000 dollari.

Sui grafici del National Human Genome Research Institute (INGRI) è riportato il costo del sequenziamento (per Megabasi e per genoma umano) e anche l andamento della legge di Moore, che indica la velocità secondo la quale aumentano le prestazioni dei processori. Fa abbastanza impressione notare come la nostra capacità di produrre sequenze di DNA stia diventando molto ma molto superiore alla capacità di analizzarle!!

Dal gennaio 2008 si è passati dal Sanger al NGS