History of DNA Sequencing Adapted from Eric Green, NIH; Adapted from Messing & Llaca, PNAS (1998) Efficiency (bp/person/year) 1 1870 1940 1953 Miescher: Discovers DNA Avery: Proposes DNA as Genetic Material Watson & Crick: Double Helix Structure of DNA Holley: Sequences Yeast trna Ala 15 150 1,500 15,000 25,000 50,000 200,000 1965 1970 1977 1980 1986 1990 Wu: Sequences λ Cohesive End DNA Sanger: Dideoxy Chain Termination Gilbert: Chemical Degradation Messing: M13 Cloning Hood et al.: Partial Automation Cycle Sequencing Improved Sequencing Enzymes Improved Fluorescent Detection Schemes 50,000,000 2002 100,000,000,000 2009 Next Generation Sequencing Improved enzymes and chemistry New image processing
2
(1) Produzione dello stampo a filamento singolo Evoluzione dei vettori d espressione Utilizzo della PCR (PCR asimmetrica Promotore/operatore M13 Shine-Dalgarno TAG laci BamHI Terminatore Utilizzo di fagemidi oric Ap ori Utilizzo di un fago helper Per M13 e produzione della Forma a singolo filamento Denaturazione del vettore 3
DNA sequencing by Capillary Electrophoresis (CE) Resa: circa 100.000 pb/corsa
L Algoritmo Phred e l identificazione delle basi 1) I 4 tracciati fluorescenti sono fusi in un unico file 2) il computer calcola il punto dove si aspetta di trovare un picco, basandosi sulla distanza media dei picchi in certe parti della sequenza. La lettera N viene assegnata quando non è possibile individuare una base esatta. 3) calcola i valori massimi locali per ogni serie di tracciati e valuta se ogni picco cade nello spazio previsto 4) Per stabilire se un picco è reale viene indicato un valore soglia di altezza minima e massima 6
Le probabilità di errore (P) del programma Phred sono calcolate in base a 4 parametri: 1) la variazione di distanza del picco, al centro, in un intervallo di 7 picchi; 2) il rapporto fra il più alto e il più basso picco non identificato in un dato intervallo; 3) il rapporto fra il più alto e il più basso picco in un intervallo con tre picchi; 4) il n di basi tra quella in esame e quella più vicina non identificata
Determinazione della qualità delle sequenze: algoritmo Phred valore di affidabilità: Phred-score Phred-score = - 10 log10 P ( probabilità di errore) Phred-score = 10 P=1/10 Phred-score = 20 P=1/100 Phred-score = 30 P=1/1000 ok! Al termine dell analisi, Phred genera un file in cui ad ogni base è assegnato il corrispondente Phred-score
L Algoritmo Phred e l identificazione delle basi 1) I 4 tracciati fluorescenti sono fusi in un unico file 2) il computer calcola il punto dove si aspetta di trovare un picco, basandosi sulla distanza media dei picchi in certe parti della sequenza. La lettera N viene assegnata quando non è possibile individuare una base esatta. 3) calcola i valori massimi locali per ogni serie di tracciati e valuta se ogni picco cade nello spazio previsto 4) Per stabilire se un picco è reale viene indicato un valore soglia di altezza minima e massima 9
Le probabilità di errore (P) del programma Phred sono calcolate in base a 4 parametri: 1) la variazione di distanza del picco, al centro, in un intervallo di 7 picchi; 2) il rapporto fra il più alto e il più basso picco non identificato in un dato intervallo; 3) il rapporto fra il più alto e il più basso picco in un intervallo con tre picchi; 4) il n di basi tra quella in esame e quella più vicina non identificata
Determinazione della qualità delle sequenze: algoritmo Phred valore di affidabilità: Phred-score Phred-score = - 10 log10 P ( probabilità di errore) Phred-score = 10 P=1/10 Phred-score = 20 P=1/100 Phred-score = 30 P=1/1000 ok! Al termine dell analisi, Phred genera un file in cui ad ogni base è assegnato il corrispondente Phred-score
L Algoritmo Phred e l identificazione delle basi 1) I 4 tracciati fluorescenti sono fusi in un unico file 2) il computer calcola il punto dove si aspetta di trovare un picco, basandosi sulla distanza media dei picchi in certe parti della sequenza. La lettera N viene assegnata quando non è possibile individuare una base esatta. 3) calcola i valori massimi locali per ogni serie di tracciati e valuta se ogni picco cade nello spazio previsto 4) Per stabilire se un picco è reale viene indicato un valore soglia di altezza minima e massima 12
Le probabilità di errore (P) del programma Phred sono calcolate in base a 4 parametri: 1) la variazione di distanza del picco, al centro, in un intervallo di 7 picchi; 2) il rapporto fra il più alto e il più basso picco non identificato in un dato intervallo; 3) il rapporto fra il più alto e il più basso picco in un intervallo con tre picchi; 4) il n di basi tra quella in esame e quella più vicina non identificata
Determinazione della qualità delle sequenze: algoritmo Phred valore di affidabilità: Phred-score Phred-score = - 10 log10 P ( probabilità di errore) Phred-score = 10 P=1/10 Phred-score = 20 P=1/100 Phred-score = 30 P=1/1000 ok! Al termine dell analisi, Phred genera un file in cui ad ogni base è assegnato il corrispondente Phred-score
Next-gen sequencers From John McPherson, OICR 100 Gb 10 Gb AB/SOLiDv3, Illumina/GAII short-read sequencers (10+Gb in 50-100 bp reads, >100M reads, 4-8 days) bases per machine run 1 Gb 100 Mb 10 Mb 1 Mb 454 GS FLX pyrosequencer (100-500 Mb in 100-400 bp reads, 0.5-1M reads, 5-10 hours) ABI capillary sequencer (0.04-0.08 Mb in 450-800 bp reads, 96 reads, 1-3 hours) 10 bp 100 bp 1,000 bp read length 15
Pyrosequencing - Solid Phase Ronaghi M. Pyrosequencing sheds light on DNA sequencing. Genome Res 2001 16
Pyrosequencing - Liquid Phase Ronaghi M. Pyrosequencing sheds light on DNA sequencing. Genome Res 2001 17
Pyrogram Ronaghi M. Pyrosequencing sheds light on DNA sequencing. Genome Res 2001 18
454 LifeSciences Sequencer http://www.roche-applied-science.com/publications/multimedia/genome_sequencer/flx_multimedia/wbt.htm
http://www.genomesequencing.info/videos-illumina-solexa-sequencing- %5B77r5p8IBwJk%5D.cfm
http://media.invitrogen.com.edgesuite.net/ab/applications-technologies/solid/ SOLiD_video_final.html 21
APPLICAZIONI DELLE TECNICHE DI SEQUENZIAMENTO Whole Genome Sanger (old-gen) Sequencing Human (early drafts), model organisms, bacteria, viruses and mitochondria (chloroplast), low coverage Now-Gen Sequencing New human (!), individual genome, 1,000 normal, 25,000 cancer matched control pairs, rare-samples RNA cdna clones, ESTs, Full Length Insert cdnas, other RNAs RNA-Seq: Digitization of transcriptome, alternative splicing events, mirna Communities Environmental sampling, 16S RNA populations, ocean sampling, Human microbiome, deep environmental sequencing, Bar-Seq Other Epigenome, rearrangements, ChIP-Seq 23
Elenco dei siti che contengono informazioni sul Progetto Genoma Umano e sui frammenti di DNA sequenziati.
Sequenziamento: Applicazioni in ambito biomedico Sequenziamento di genomi umani individuali a scopo preventivo o farmacoterapeutico. Analisi dettagliata delle mutazioni presenti in cloni cancerosi Associazione Genotipo-Fenotipo Profilo di espressione genica complessivo in vitro e in situ a tutti gli stadi di sviluppo di un organismo multicellulare Diversità Microbica (studi metagenomici) Eteroplasmia Mitocondriale 25
454-based Mutation Detection DNA from X tumor samples Pooled with equal concentration PCR amplification with Y primer pairs Pool PCR products 454 sequencing SNP/Indel Detection Using ssahasnp and BreakPointRead Reads with G12 mutation in KRAS Reads with 15 bp deletion in EGFR 26
Solexa Approach to Exon Sequencing Exon 1 Exon 2 Exon 3 Exon 4 Exon 5 gdna Fragment and hybridize to Solexa capture array Elute 454 Sequencing Analyze Exon sequences Courtesy of R.A. Gibbs 27
GBM (Glioblastoma multiforme): Somatic mutations (Shared 20 genes, 84 tumors; orthogonal validation pending) Samples *Indels included ASXL1 BMPR1A CDK4 CDK6 CDKN2A CDKN2B CHIC2 CYP27B1 EGFR FBXW7 FGFR1 KIT LRRN2 MDM4 MET PDGFRA Pink: 1 mutation Red: 2 mutations PLAG1 PTEN RB1 TP53 28
Studio del trascrittoma e ricerca di splicing alternativi Può essere usato per il sequenziamento massivo del trascrittoma, da cui dedurre la frequenza delle sequenze e quindi gli splicing alternativi
Analisi Metagenomica: una autostrada per la conoscenza di batteri che non sopravvivono in coltura. 30
Sequenziamento del tratto nucleotidico delle immunoglobuline (Ig) relativo al riarrangiamento della regione variabile CDR3, specifica di ogni clone tumorale: - da utilizzare nell analisi in neoplasie linfoidi di tipo B; - per il monitoraggio della malattia minima residua; - come base per la produzione di vaccini anti-idiotipici paziente-specifici.
HIV Software allinea sequenza con WT Rileva Mutazioni Singole o combinazioni di mutazioni in grado di dare resistenza ai farmaci Accesso a Banca Dati
Monitoring Changes in Genomic DNA Identify mutations Examine genomic instability such as in certain cancers and tumors (gene amplifications, translocations, deletions) Identify polymorphisms (SNPs) Diagnosis: chips have been designed to detect mutations in p53, HIV, and the breast cancer gene BRCA-1 Analizzare gli elementi che controllano l espressione genica
Applications in Drug Discovery Drug Discovery Identify appropriate molecular targets for therapeutic intervention (small molecule / proteins) Monitor changes in gene expression in response to drug treatments (up / down regulation) Analyze patient populations (SNPs) and response Targeted Drug Treatment Pharmacogenomics: individualized treatments Choosing drugs with the least probable side effects