Il sequenziamento del genoma umano 1. storia e risultati dei due progetti: HGP e Celera. 2. innovazioni e problematiche di ricerca connesse al progetto genoma umano: (a) sequenziamento su larga scala (b) polimorfismi vs errori di sequenziamento (c) DNA ripetuto (d) Genome assembly 3. Mappe genetiche 4. Mappe fisiche: (a)mappe di restrizione (b) mappe FISH (c) le mappe di STS e l integrazione delle mappe genetiche con quelle fisiche 5. Il sequenziamento di singoli genomi: Venter e Watson
Cronologia 1985 progettazione UCSC (University of California Santa Cruz) progetto pubblico 1988 approvazione 1990 inizio finanziamento per 15 anni 1998 parte progetto Celera Genomics progetto privato 2001 primo annuncio completamento 2003 completamento (tasso di errore 1/10,000)
La Rivoluzione dello Human Genome Project (HGP) Assenza di ipotesi a priori Multidisciplinarità Accesso illimitato ai dati ELSI Ethical Legal and Social Implications
Obbiettivi dello HGP Produzione di mappe fisiche e mappe genetiche Sequenza completa del genoma Identificazione e localizzazione dei geni Identificazione e localizzazione dei polimorfismi
Risultati first draft of the human genome in February 2001 sequence of the entire genome's three billion base pairs some 90 percent complete. number of human genes significantly fewer than previous estimates (50,000-140,000) Full sequence completed and published in April 2003
Gli obbiettivi sono stati raggiunti e superati
The announcement June 26, 2000
Celera (Craig Venter) vs. HGP (Francis Collins) 2001 Venter CJ et al. The sequence of the human genome. Science. 2001 Feb 16;291(5507):1304-51 Lander E et al. Initial sequencing and analysis of the human genome. Nature. 2001 Feb 15;409(6822):860-921
polemiche Myers EW, Sutton GG, Smith HO, Adams MD, Venter JC. On the sequencing and assembly of the human genome.proc Natl Acad Sci U S A. 2002 Apr;99(7):4145-6. Waterston RH, Lander ES, Sulston JE.On the sequencing of the human genome.proc Natl Acad Sci U S A. 2002 Mar 19;99(6):3712-6.
Sito web http://www.genome.gov/10001772
Il sequenziamento del genoma umano 2. innovazioni e problematiche di ricerca connesse al progetto genoma umano: (a) sequenziamento su larga scala (b) polimorfismi vs errori di sequenziamento (c) Genome assembly (d) DNA ripetuto
2. innovazioni e problematiche a. È possibile sequenziare al max 600 bp consecutive mentre il cromosoma più piccolo (cromosoma 21) è lungo 46,944,323 bp b. Errori di sequenziamento o polimorfismi? c. sequence assembly d. Tratti di sequenze ripetute e. DNA non clonabile
a. sequenziamento su larga scala (a) Top-down (hierarchical) Un singolo cromosoma viene spezzettato in larghi pezzi (cloni) che vengono clonati in vettori artificiali.i cloni vengono ordinati e ciascuno viene ulteriormente suddiviso in altri cloni ordinati. Quando i cloni raggiungono dimensioni appropiate vengono sequenziati Ogni clone è fingerprinted (pattern di restrizione o STSs) Il risultato è una mappa fisica di cloni ordinati e delle loro rispettive sequenze. La sequenza finale è ottenuta allineando le sequenze dei singoli cloni
a. sequenziamento su larga scala (b) Bottom-up (shotgun) Il DNA viene spezzettato in modo random in numerosi frammenti di dimesioni sequenziabili. Le sequenze si chiamano reads Questa procedura viene ripetuta più volte per ottenere reads parzialmente sovrapposte La sequenza finale viene ottenuta assemblando al calcolatore le diverse reads nessuna conoscenza a priori, nessuna mappa richiesta
Green ED. Strategies for the systematic sequencing of complex genomes.nat Rev Genet. 2001 Aug;2(8):573-83. Review.
2. innovazioni e problematiche a. È possibile sequenziare al max 600 bp consecutive mentre il cromosoma più piccolo (cromosoma 21) è lungo 46,944,323 bp b. Errori di sequenziamento o polimorfismi? c. sequence assembly d. Tratti di sequenze ripetute e. DNA non clonabile
b. errori o polimorfismi? Polimorfismi: due sequenze differiscono in media di 1 base ogni 100 Errori: nella versione finale della sequenza del genoma umano è presente 1 errore ogni 10,000 basi
Read Coverage Average number of times a base is sequenced C Length of genomic segment: L Number of reads: n Length of each read: l C = n l L Lander-Waterman model: Assuming uniform distribution of reads, C=10 results in 1 gapped region per 1,000,000 nucleotides Lander ES, Waterman MS Genomic mapping by fingerprinting random clones: a mathematical analysis, Genomics 2(3): 231-239 (1988)
2. innovazioni e problematiche a. È possibile sequenziare al max 600 bp consecutive mentre il cromosoma più piccolo (cromosoma 21) è lungo 46,944,323 bp b. Errori di sequenziamento o polimorfismi? c. sequence assembly d. Tratti di sequenze ripetute e. DNA non clonabile
Step in assembling the genome Given a set of (short) fragments from sequencing... find overlap between all pairs find the order of reads in DNA determine a consensus sequence
Contig continuous set of overlapping sequences Gap Contigs
Overlap-Layout-Consensus 1. Overlap: find potentially overlapping reads 2. Layout: merge reads into contigs and contigs into supercontings 3. Consensus: derive the DNA sequence and correct read errors..acgattacaataggtt.. Assemblers: ARACHNE, PHRAP, CAP, TIGR, CELERA
Filling in gaps Gap Contig Contig Contig Gap Probe libraries
Fragment Assembly Assembly was Computational Challenging Until late 1990s the shotgun fragment assembly of human genome was viewed as intractable problem
2. innovazioni e problematiche a. È possibile sequenziare al max 600 bp consecutive mentre il cromosoma più piccolo (cromosoma 21) è lungo 46,944,323 bp b. Errori di sequenziamento o polimorfismi? c. sequence assembly d. Tratti di sequenze ripetute e. DNA non clonabile
d. sequenze ripetute
Repeat Types Low-Complexity DNA: (e.g. ATATATATACATA ) Microsatellite repeats: (a 1 a k ) N where k ~ 3-6 (e.g. CAGCAGCAGCAG) Transposons/retrotransposons SINE (Short Interspersed Nuclear Elements): e.g., Alu: ~300 bp long, 10 6 copies Long Interspersed Nuclear Elements ~500-5,000 bp long, 200,000 copies LTR retroposons: Long Terminal Repeats (~700 bp) at each end Gene Families: genes duplicate & then diverge Segmental duplications: ~very long, very similar copies
Challenges in Fragment Assembly > 50% of human genome are repeats Repeat Repeat Repeat La sequenza verde-rosso-azzurro può essere assemblata in due modi diversi Repeat Repeat Repeat oppure Repeat Repeat Repeat
Paired-end reads help to resolve repeat order Raw sequence obtained from both ends of a cloned insert in any vector BAC Repeat Repeat Repeat
Il sequenziamento del genoma umano 3. Mappe genetiche 4. Mappe fisiche: (a)mappe di restrizione (b) mappe FISH (c) le mappe di STS e l integrazione delle mappe genetiche con quelle fisiche
Genetic marker segment of DNA with an identifiable physical location on a chromosome and whose inheritance can be followed. can be a gene, or it can be some section of DNA with no known function. when is in linkage with a gene whose location has not yet been identified, markers could be used as indirect ways of tracking the inheritance pattern of that gene http://www.genome.gov/glossary.cfm?key=genetic%20marker
Genetic marker genetic markers properties: locus-specific polymorphic in the studied population easily genotyped The quality of a genetic marker is typically measured by its: Heterozygosity in the population of interest PIC (Botstein et al., 1980): Polymorphism Information Content (probability that the parent is heterozygous x probability that the offspring is informative) http://cgil.uoguelph.ca/qtl/geneticmarkerdefinition.htm
mappe posizione di geni e/o marcatori nel genoma genetiche: ottenute mediante incrocio o analisi dei pedigrees basate sulle frequenze di ricombinazione fisiche: ottenute con tecniche di biologia molecolare. basate sulle distanze nucleotidiche
Mappe genetiche le prime costruite in Drosophila all inizio del secolo geni usati come marcatori (marcatori utilizzabili devono avere almeno 2 forme alleliche) utilizzati prima fenotipi morfologici, poi biochimici (nell uomo AB0, proteine del siero, antigeni HLA, malattie)
Morgan (Sturtevant, 1930) il crossing-over è un evento casuale, che avviene con (circa) uguale probabilità in ogni punto del cromosoma più due punti del cromosoma sono vicini, meno è frequente il crossing-over tra loro, ovvero più sono in linkage la frequenza di ricombinazione può esser presa a misura della distanza tra due geni combinando le distanze tra diverse coppie di geni, si può costruire una mappa genetica della loro posizione relativa sul cromosoma
In pratica: mappe di linkage Sistemi: - organismi modello incroci pianificati - uomo pedigrees Marcatori: - Geni, RFLPs, SSLPs, SNPs difficili da realizzare : tempi lunghi per gli incroci pianificati, pedigree non sempre sufficientemente grandi, fenotipi difficili da misurare oggi integrate nella costruzione delle mappe fisiche
mappe fisiche mappe di restrizione: indicano i siti di taglio degli enzimi di restrizione rapide e dettagliate, ma inapplicabili a genomi grandi FISH: la posizione dei marcatori è determinata ibridando sonde fluorescenti sui cromosomi interi poco accurata, ma lenta e tecnicamente difficile mappe STS: la posizione dei marcatori è determinata grazie a tecniche di PCR e/o di analisi di ibridazione di frammenti genomici
mappe di restrizione singole digestioni del DNA, unite a doppie digestioni e a digestioni parziali, permettono la ricostruzione della posizione relativa di tutti i siti di restrizione Lunghezza sequenza palindromica Probabilità di trovare il sito di restrizione 4 (1/4) 4 = 1 ogni 256 bp 5 (1/4) 5 = 1 ogni 1024 bp 6 (1/4) 6 = 1 ogni 4096 bp 8 (1/4) 8 = 1 ogni 65.536 bp n (1/4) n
mappe di restrizione
Il risultato è mappa con le posizioni dei siti di restrizione
mappe FISH FISH = Fluorescent In Situ Hybridization la posizione dei marcatori è determinata ibridando sonde fluorescenti sui cromosomi interi (metafasici o anche meno condensati)
Mappe (FISH) Il principio delle mappe FISH è l ibridazione con sonde fuorescenti
stringenza La parametro più importante dell ibridazione è la stringenza. È regolata da temperatura e forza ionica
Stringenza alta stringenza richiede elevata omologia tra sonda e bersaglio elevata Temperatura bassa concenrtrazione salina presenza di denaturanti chimici bassa stringenza è sufficiente bassa omologia tra sonda e bersaglio bassa Temperatura elevata [ ] salina assenza di denaturanti chimici Problema con sequenze ripetute
Mappe STS: la mappa fisica del genoma umano secondo HGP a. Creazione di librerie PAC e BAC b. Mappaggio dei cloni c. fingerprinting dei cloni mediante STS d. Clone selection e. Clone sequencing f. Contig assembly
YAC: yeast artificial chromosome Vettori di clonaggio che permettono l inserimento di DNA >200 Kb inizialmente basati su mini crosmosomi di lievito (YAC) instabili Sito di clonaggio Telomeri N S Marcatore di inserimento Marcatori fenotipici centromero standard YACs fino a 600 kb special YACs fino a 1400 kb
Altri vettori batteriofago P1: può contenere fino a 125 kb BACs: basati sul plasmide F di E.coli; fino a > 300 kb PACs: commistione tra P1 e BAC; fino a > 300 kb Fosmidi: contengono ori di F e cos di ; simili a cosmidi ma + stabili
Libraries YAC library
Library hybridization YAC library Marked probes hybridization * *
STSs: Sequence Tagged Sites sequenze brevi (100-500 bp) Facilmente amplificabile per PCR Unica nel genoma Localizzazione genomica nota Identifica inequivocabilmente la molecola di DNA più grande che lo contiene
STS-like ESTs (Expressed Sequence Tags): corte sequenze derivanti dall analisi di cdna SSLPs (Simple Sequence Lenght Polymorphisms) Microsatelliti (STRs, Short Tandem Repeats) Minisatelliti (VNTRs, Variable Number Tandem Repeats)
STS mapping STS vicini STS lontani cromosoma collezione di frammenti 4 volte su 6 nello stesso frammento 2 volte su 6 nello stesso frammento La frequenza con cui sono sullo stesso frammento è propozionale alla distanza
(a) clone libraries amplification Cromosome from donors pool of large number of anonymous males and females fragmentation cloning BAC
(b) clone maps Determinazione della posizione dei cloni rispetto al cromosoma sulla base dei (pochi) STSs esistenti exsisting maps of STS clone libraries
(c) fingerprinting Identificazione di nuovi STSs che permetteranno di collegare tra loro i cloni exsisting maps of STS new STSs Clone_1 Clone_13 Clone_2
(d) Clone selection minimal tiling path collezione di cloni che permette di coprire la regione con il minor grado di sovrapposizione Clone_1 Clone_6 Clone_17 Clone_4 Clone_13 Clone_16 Clone_10
(e) Clone sequencing Clone_1 Clone_4 Clone_6 Clone_10 Clone_13 Clone_16 Clone_17 Shotgun secuencing Contig_1 Contig_4 Contig assembly
(f) Contig assembly Contig_1 Contig_4 Contig_6 Contig_10 Contig_17 Contig_13 Contig_16 http://www.ncbi.nlm.nih.gov/genomes/
Il sequenziamento del genoma umano 5. Il sequenziamento di singoli genomi: Venter e Watson