Sequenziamento e analisi di genomi completi
Genoma L'insieme del materiale genetico di un organismo o cellula. (Hans Winkler, 1920) Un genoma è sequenziato quando viene stabilita interamente la successione delle basi nei cromosomi.
Acquisizione di genomi completi Quali ragioni per sequenziare un genoma? Quali organismi sequenziare? Come ottenere una sequenza genomica?
Genomi a bassa risoluzione : mappature genetiche e fisiche MAPPA GENETICA: un set ordinato di geni sul cromosoma, la distanza tra i quali è espressa in unità di ricombinazione genetica (centimorgan) MAPPA FISICA: un set ordinato di frammenti di DNA sul cromosoma, la distanza tra i quali è espressa in unità fisiche (paia di basi).
Costruzione di una mappa genetica
Costruzione di una mappa fisica del genoma Diversi metodi: Radiation hybrid cell lines (applicabile solo a mammiferi), Methylation filtration, High C0t selection, Happy mapping, DNA fingerprinting. Quello più comunemente usato è il DNA fingerprinting
Mappe fisiche ottenute con DNA fingerprinting a) Libreria BAC (Bacterial artificial chromosome) dimensioni inserti ~100 kb b) DNA fingerprintig dei cloni c) Assemblaggio automatico dei cloni con bande condivise d) Raffinamento manuale; e) Verifica e allineamento con altre mappature.
Confronto tra mappe genetiche e mappe fisiche
Sequenziamento del DNA Metodo: terminazione della catena con dideossinucleotidi + elettroforesi (Sanger, 1970) Vantaggi: procedure robotizzate per la preparazione dei campioni. Strumenti capaci di diverse reazioni in parallelo. High throughput, low cost. Limiti: < 800 basi di sequenza di qualità per lettura
Metodi per ottenere sequenze contigue > 1kb Walking Shotgun
Assemblaggio sequenziamento shotgun Contig Scaffolds Complete
Ridondanza e copertura in un sequenziamento shotgun
Problema dell'assemblaggio shotgun : sequenze ripetute Regione ripetuta
Metodi di sequenziamento dei genomi Sequenziamento shotgun clone by clone Whole genome shotgun (WGS)
Sequenziamento shotgun clone by clone Libreria con larghi inserti cromosomici. Cloni BAC ~100-200 kb Costruzione di una mappa fisica del genoma, selezione del numero minimo di cloni per coprire il genoma (minimal tiling path) Frammentazione casuale e sequenziamento shotgun dei cloni. Assemblaggio delle sequenze
Minimal tiling path Clone Library Minimal Tiling Path
Whole genome shotgun (WGS) Libreria shotgun: corti inserti 1.5-3 kb Sequenziamento shotgun dei cloni. Assemblaggio delle sequenze
Qual'è la strategia migliore di sequenziamento? Organismi monocellulari con genomi piccoli (<20Mb) e poche regioni ripetute: WGS Organismi multicellulari con genomi grandi, ricchi in sequenze ripetute: clone by clone? WGS?
Strategie di sequenziamento per genomi di organismi multicellulari Nature Reviews Genetics 2; 573-583 (2001)
clone by clone Vs WGS Human Genome Consortium Celera Fisical map, 45.000 BAC 27.000.000 clones individual BAC shotgun sequencing whole shotgun sequencing Assembly 10 years 1 years Assembly
clone by clone Vs WGS: regioni ripetute Ripetizioni con identità >97% e lunghezza >15kb molto difficilmente risolvibili dall'approccio WGS
Miglior compromesso tra velocità e accuratezza: strategia ibrida di sequenziamento Clone by clone + WGS
Strategie di sequenziamento per genomi di organismi multicellulari Nature Reviews Genetics 2; 573-583 (2001)
Completamento delle sequenze genomiche Draft sequence Scaffol d Lacuna di sequenza Finished sequence >95% genoma <0.01% errore Scaffol d Buchi fisici Fase di finishing Lacuna di sequenza
Confronto tra sequenze Draft e Finished Nature 431, 931-945 (21 October 2004); Finishing the euchromatic sequence of the human genome Finished sequence gap inversioni Draft sequence
Costi e tempi per il sequenziamento di un genoma eucariotico (gennaio 2005) Organismo: Tuber borchii Dimensione stimata genoma: 30 Mb Laboratorio di sequenziamento: BGI - Beijing Genome Institute Costo sequenziamento WGS: 3.8 euro / 1 kb Costo genoma 1x: 114,000 euro Costo genoma 10x (>95%): 1,114,000 euro Tempo sequenziamento: ~ 1 Mb / h Tempo completamento 10x: 4 mesi
Analisi di genomi completi Identificazione e annotazione dei geni, predizioni funzionali Genomica comparativa: - Larga scala: evoluzione genomica (duplicazioni, riarrangiamenti) - Piccola scala: nascita di nuovi geni inattivazione di geni ancestrali
Identificazione delle ORFs (Open Reading Frames) Barre continue: codoni di stop Trattini: codoni d'inizio In sequenze non codificanti un codone di stop è atteso ogni ~20 codoni (3/64)
Identificazione di geni in genomi procariotici
Complicazioni nell'identificazione dei geni in genomi eucariotici Struttura interrotta dei geni. Grande quantità di DNA non codificante Presenza di pseudogeni Codon usage spesso più equilibrato Metodi per l'identificazione: Ab inizio (ricerca ORF, codon usage, modelli giunzione introni/esoni, elementi regolatori upstream e downstream) Comparativi (confronto con sequenze proteiche o sequenze EST)
Accuratezza dei gene-finder eucariotici Evaluation of Gene-Finding Programs on Mammalian Sequences Gen Res, 2001 (No. of sequences) number of sequences effectively analyzed by each program; in parentheses is the number of sequences where the absence of gene was predicted; (Sn) nucleotide level sensitivity; (Sp) nucleotide level specificity; (AC) approximate correlation; (CC) correlation coefficient; (ESn) exon level sensitivity; (ESp) exon level specificity; (ME) missed exons; (WE) wrong exons; (PCa) proportion of real exons that were partially predicted (only one exon boundary correct); (PCp) proportion of predicted exons that were only partially correct; (OL) proportion of predicted exons that overlap an actual exon. AC and (ESn+ESp)/2 are given with standard deviation. In assenza di una conferma sperimentale o di forti evidenze comparative una sequenza codificante identificata in un genoma è da considerarsi una realtà ipotetica: hypothetical protein
Caratteristiche notevoli del genoma umano The Sequence of the Human Genome, Science 2001
Uomo-scimpanzé Science Dec 12 2003: 1960-1963