GENOMICA STRUTTURALE: GENOMICA FUNZIONALE: 1. Anatomia dei genomi 9. Funzionamento dei genomi Il genoma dei procarioti Modificazioni della cromatina e l espressione del genoma Il genoma degli eucarioti Microarray e RNA-seq 2. La mappatura dei genomi Metil-seq Mappatura genetica Chip-seq Mappatura fisica 3. Il sequenziamento automatico del DNA Il principio del sequenziamento secondo Sanger Il sequenziamento su larga scala La lettura dei tracciati di sequenziamento 4. Il sequenziamento del genoma I nuovi metodi di sequenziamento Il sequenziamento gerarchico Il sequenziamento shogun Piattaforme di sequenziamento di interi genomi (NGS) III Generation Sequencing 5. Assemblaggio e annotazione del genoma Copertura del genoma Phrap/Consed Approccio Overlap-Layout-Consensus La verifica delle sequenze Le caratteristiche funzionali delle sequenze genomiche 6. I Progetti Genoma 7. La metagenomica 8. Genotipizzazione Gli SNP e la variazione La genotipizzazione degli SNP
The Human Genome Project(HGP) refers to the international 13-year effort, formally begun in October 1990 and completed in 2003, to discover all the estimated 20,000-25,000 human genes and make them accessible for further biological study. Another project goal was to determine the complete sequence of the 3,2 billion DNA bases in the human genome.
Special issues of Science (Feb. 16, 2001) and Nature (Feb. 15, 2001) contain the working draft of the human genome sequence. Nature papers include initial analysis of the descriptions of the sequence generated by the publicly sponsored Human Genome Project, while Science publications focus on the draft sequence reported by the private company, Celera Genomics. A press conference was held at 10 a.m., Monday, February 12, 2001, to discuss the landmark publications
LE TAPPE DEL PROGETTO GENOMA UMANO 1986 R. Dulbecco e L. Hood lanciano l'idea di sequenziare l'intero genoma Umano. 1990 Negli Stati Uniti nasce ufficialmente lo Human Genome Project (HGP), sotto la guida di James Watson. Negli anni successivi Regno Unito, Giappone, Francia, Germania, Cina si uniscono al progetto formando un consorzio pubblico internazionale. 1992 Craig Venter lascia l'nih. Fonda la compagnia privata Celera Genomics, portando avanti un progetto genoma parallelo. 1993 F. Collins e J. Sulston diventano direttori rispettivamente del National Human Genome Research Center negli USA e del Sanger Center in Inghilterra, i 2 principali centri coinvolti nel HGP. 2000 (Giugno) Francis Collins e Craig Venter annunciano congiuntamente di aver completato la"bozza" del genoma Umano. 2001 La bozza completa del genoma umano (working draft) è pubblicata su Nature (consorzio pubblico) e su Science(Celera). 2003 Il sequenziamento del Genoma Umano è completo ed il Progetto è dichiarato finito con due anni di anticipo rispetto ai tempi stabiliti
Goals: identify all the approximate 30,000 genes in human DNA determine the sequences of the 3 billion chemical base pairs that make up human DNA store this information in databases improve tools for data analysis transfer related technologies to the private sector, and address the ethical, legal and social issues (ELSI) that may arise from the project.
Date storiche della sequenza del DNA Avery propone il DNA come materiale genetico 1944 1869 1953 Miescher osserva per la prima volta il DNA Watson e Crick determinano la struttura della doppia elica Holley sequenza il trna di lievito METODO SANGER (terminazione di catena) METODO MAXAM-GILBERT (degradazione chimica) KARY MULLIS Introduce la PCR 1965 1977 1986 1970 1980 1989 Vengono sviluppate le tecniche per la sintesi degli oligonucleotidi e per la degradazione chimica del DNA. Viene introdotta l elettroforesi su gel per la Separazione di frammenti di DNA Il DNA genomico viene clonato nel fago M13 o in vettori plasmidici, nascono i primi programmi informatici di analisi dei dati, vengono sviluppate nuove tecnologie per il sequenziamento Automazione completa Sequenziamento completo del genoma umano 2001 AUTOMAZIONE PARZIALE Vengono sviluppate le prime apparecchiature per il sequenziamentoche impiegano sistemi per la rilevazione della fluorescenza.
Il sequenziamento automatico del DNA
Shotgun sequencing
Sequenziamento per shotgun gerarchici Sequenziamento per shotgun dell intero genoma
Febbraio 2001: Pubblicazione del Genoma Umano Allafine,tuttieduegliapproccisonostatiutili:quellodiVenterper la sua efficienza, automazione e rapidita, quello del consorzio pubblico per ordinare esattamente le sequenze ripetute
IHGC Reclutare più di 50 donatori volontari di diversa origine etnica Celera Reclutare 21 donatori volontari di diversa origine etnica Ottenere il consenso informato Ottenere il consenso informato Costruire librerie PAC/BAC stabilire la qualità Stabilire linee cellulari permanenti e librerie da 2, 10 e 15 kb Scegliere 8 librerie per la costruzione di mappe fisiche: maschi di identità etnica sconosciuta Scegliere 5 librerie per il sequenziamento: 2 maschi, 3 femmine; 1 africano, 1 asiatico, 1 latino-americano, 2 caucasici Sequenziamento per shotgun gerarchici Sequenziamento per shotgun dell intero genoma
What does the draft human genome By the Numbers sequence tell us? The human genome contains 3 billion chemical nucleotide bases The average gene consists of 3000 bases, but sizes vary greatly, with the largest known human gene being dystrophin at 2.4 million bases. The total number of genes is estimated at around 25,000-35,000; much lower than previous estimates of 80,000 to 140,000. Almost all (99.9%) nucleotide bases are exactly the same in all people (3.000.000 SNPs, 1 every Kb) The functions are unknown for over 50% of discovered genes.
What does the draft human genome How It's Arranged sequence tell us? The human genome's gene-dense regions "urban center" are predominantly composed of the DNA building blocks G and C. In contrast, the gene-poor regions "desert" are rich in the DNA buildingblocksaandt. Genes appear to be concentrated in random areas along the genome, with vast expanses of noncoding DNA between. Stretches of up to 30,000 C and G bases repeating over and over often occur adjacent to gene-rich areas, forming a barrier between the genes and the "junk DNA." These CG islands are believed to help regulate gene activity. Chromosome 1 has the most genes (2968), and the Y chromosome has the fewest(231).
Ethical, legal and social implications of the Human Genome Project correttezza nell uso delle informazioni genetiche privacy e riservatezza impatto psicologico e possibilità di discriminazione test genetici problemi nel campo della procreazione istruzionepubblicae professionale commercializzazione implicazioni filosofiche
What genomes have been sequenced completely? In addition to the human genome, the genomes of about 800 organisms have been sequenced in recent years. These include the mouse Mus musculus, the fruitfly Drosophila melanogaster, the worm Caenorhabditis elegans, the bacterium Escherichia coli, the yeast Saccharomyces cerevisiae, the plant Arabidopsis thaliana, and many microbes.
Sequenziamento del Genoma di altri organismi 1977 fago φx174 5386bp Arabidopsis thaliana, riso
Ofmiceandmen The genetic similarity (or homology) of superficially dissimilar species is amply demonstrated here. The full complement of human chromosomes can be cut, schematically at least, into about 150 pieces, then reassembled into a reasonable approximation of the mouse genome. The colors of the mouse chromosomes and the numbers alongside indicate the human chromosomes containing homologous segments. This piecewise similarity between the mouse and human genomes means that insights into mouse genetics are likely to illuminate human genetics as well.
organism estimated size (base pairs) estimated gene number averagegene density chromosome number Homo sapiens (human) 3.2 billion ~25,000 1 gene per 100,000 bases 46 Mus musculus (mouse) 2.6 billion ~25,000 1 gene per 100,000 bases 40 Drosophila melanogaster (fruit fly) 137 million 13,000 1 gene per 9,000 bases 8 Arabidopsis thaliana (plant) 100 million 25,000 1 gene per 4000 bases 10 Caenorhabditis elegans (roundworm) 97 million 19,000 1 gene per 5000 bases 12 Saccharomyces cerevisiae (yeast) 12.1 million 6000 1 gene per 2000 bases 32 Escherichia coli (bacteria) 4.6 million 3200 1 gene per 1400 bases 1 H. influenzae (bacteria) 1.8 million 1700 1 gene per 1000 bases 1
Genomesizedoesnotcorrelate with evolutionarystatus, noristhe numberof genesproportionatewithgenomesize
Perché alcuni genomi sono così grandi? La quantità di DNA contenuta nel genoma aploide è una caratteristica propria di ciascuna specie vivente ed è definita come valore C Il valore C varia enormemente da <10 6 bp per un micoplasma a >10 11 bp per anfibi ed alcune piante La dimensione del genoma cresce con la complessità dell organismo. Ma in alcuni gruppi c è un enorme variabilità nel contenuto di DNA di specie simili fra loro Il paradosso del valore Csi riferisce alla mancanza di correlazione tra le dimensioni del genoma e la complessità biologica
non-coding DNA