GENOMICA GENOMICA DEL BACILLO TUBERCOLARE branca della biologia molecolare che si occupa dello studio del genoma degli organismi studio della struttura, contenuto, funzione ed evoluzione del genoma Laura Rindi Genomica comparativa approccio che consente l identificazione di variazioni genetiche tra gli organismi che possono spiegare differenze nella fisiologia, biochimica e virulenza Dipartimento di Patologia Sperimentale, Biotecnologie Mediche Infettivologia ed Epidemiologia Università di Pisa Nature 393, 537544, 1998 Deciphering the biology of Mycobacterium tuberculosis from the complete genome sequence S. T. Cole, et al. Circular map of the chromosome of M. tuberculosis H37Rv Positions of stable RNA genes (trnas are blue, others are pink) and the direct repeat region (pink cube); PPE family members (green); Scale in Mb, with 0 representing the origin of replication. coding sequence by strand (clockwise, dark green; anticlockwise, light green);.the genome comprises 4,411,529 base pairs, contains around 4,000 genes, and has a very high guanine + cytosine content that is reflected in the biased aminoacid content of the proteins. M. tuberculosis differs radically from other bacteria in that a very large portion of its coding capacity is devoted to the production of enzymes involved in lipogenesis and lipolysis, and to two new families of glycinerich proteins with a repetitive structure that may represent a source of antigenic variation. PE family members (purple, excluding PGRS); PGRS sequences (dark red) G + C content, with <65% G + C in yellow, and >65% G + C in red. repetitive DNA (insertion sequences, orange; 13E12 REP family, dark pink; prophage, blue); Microbiology 148, 29672973, 2002 + 82 geni Reannotation of the genome sequence of Mycobacterium tuberculosis H37Rv J. C. Camus, et al. Nature 393, 537544, 1998 Deciphering the biology of Mycobacterium tuberculosis from the complete genome sequence S. T. Cole, et al.... Here the complete reannotation of the genome sequence of Mycobacterium tuberculosis strain H37Rv is presented almost 4 years after the first submission. Eightytwo new proteincoding sequences (CDS) have been included and 22 of these have a predicted function... The functional classification of 643 CDS has been changed based principally on recent sequence comparisons and new experimental data from the literature. More than 300 gene names and over 1000 targeted citations have been added and the lengths of 60 genes have been modified. Presently, it is possible to assign a function to 2058 proteins (52% of the 3995 proteins predicted) and only 376 putative proteins share no homology with known proteins and thus could be unique to M. tuberculosis. CARATTERISTICHE DEL GENOMA DI M. TUBERCULOSIS H37Rv 4.411.532 bp G+C % 52% funzione definita 4.000 geni codificanti proteine 48% funzione ipotetica o sconosciuta 50 geni codificanti RNA stabile Oltre il 51% dei geni è derivato dalla duplicazione genica Il 3.4% del genoma è composto da sequenze di inserzione e profagi 1
CLASSIFICAZIONE FUNZIONALE DEI GENI DI M. TUBERCULOSIS H37Rv METABOLISMO LIPIDICO CLASSE FUNZIONE NUMERO DI GENI 8% del genoma è dedicato al metabolismo lipidico (oltre 200 enzimi rispetto ai 50 di E.coli) 0 Virulence, detoxification, adaptation 99 1 Lipid metabolism 233 2 Information pathways 229 3 Cell wall and cell processes 708 4 Stable RNAs 50 5 Insertion sequences and phages 149 6 PE and PPE proteins 170 7 Intermediary metabolism and respiration 894 8 9 10 Proteins of unknown function Regulatory proteins Conserved hypothetical proteins 272 189 1051 Lipid metabolism. Degradation of hostcell lipids is vital in the intracellular life of M. tuberculosis. Hostcell membranes provide precursors for many metabolic processes, as well as potential precursors of mycobacterial cellwall constituents, through the actions of a broad family of boxidative enzymes encoded by multiple copies in the genome. These enzymes produce acetyl CoA, which can be converted into many different metabolites and fuel for the bacteria through the actions of the enzymes of the citric acid cycle and the glyoxylate shunt of this cycle. PROTEINE PE E PPE SEQUENZE DI DNA RIPETUTE 7% dei geni codifica per due nuove famiglie di proteine ricche in glicina Duplicazioni di geni/famiglie di geni Sequenze di inserzione Sequenze non codificanti disperse Ruolo immunologico Sequenze di DNA ripetute: SEQUENZE DI INSERZIONE Le sequenze di inserzione (IS) sono piccoli segmenti di DNA (<2.5kb) in grado di inserirsi in siti multipli del genoma. transposasi Il genoma di M. tuberculosis H37Rv contiene 56 copie di elementi IS appartenenti ad almeno 9 famiglie. FAMIGLIA IS IS3 MEMBRI IN M. TUBERCULOSIS IS6110 (16), IS1540, IS1604 Sequenze di DNA ripetute: SEQUENZE NON CODIFICANTI DISPERSE Locus DR : direct repeat. Sequenze ripetute di 36 bp separate da sequenze non ripetute (spacers) di 3641 bp IS5 IS21 IS30 IS110 IS256 IS1535 ISL3 ignota IS1560, IS1560, ISlike (2) IS1532, IS1533, IS1534 IS1603 IS1547 (2), IS1558, IS1558, IS1607, IS1608 (2) IS1081 (6), IS1552, IS1553, IS1554 IS1535, IS1536, IS1537, IS1538, IS1539, IS1602, IS1605 IS1555, IS1557 (2), IS1557, IS1561, IS1606 IS1556 MIRU : mycobacterial interspersed repetitive unit. 41 loci dimensioni 40100 bp Ad eccezione di IS6110, che traspone frequentemente, gli elementi IS sono stabili in H37Rv e in altri isolati. 2
ORGANISM SIZE GC CONTENT PUBLICATION http://genolist.pasteur.fr/tuberculist Mycobacterium tuberculosis H37Rv (lab strain) Mycobacterium leprae TN Mycobacterium tuberculosis CDC1551 (Oshkosh) Mycobacterium bovis AF2122/97(spoligotype 9) 4411 Kb 4060 orfs 3268 Kb 2749 orfs 4403 Kb 4346 orfs 4345 Kb 4012 orfs 57.8 Nature 393,537544 19980611 Nature 409, 10071011 20010222 J Bacteriol 184, 547990 20011002 PNAS 100, 78777882 20030624 34 ceppi micobatterici completamente sequenziati Mycobacterium avium paratuberculosis K10 Mycobacterium sp MCS Mycobacterium smegmatis MC2 155 Mycobacterium avium 104 4829 Kb 4415 orfs 5705 Kb 5752 orfs 6988 Kb 6978 orfs 5475 Kb 5339 orfs 69.3 68 67.4 69 PNAS 102, 123449 20040130 20060609 20061120 20061120 47 ceppi del complesso tubercolare in corso di sequenziamento Mycobacterium ulcerans Agy99 5631 Kb 4291 orfs 65.5 Genome Res 17, 192200 20061201 Mycobacterium sp KMS 5737 Kb 6133 orfs 68.4 20061220 Mycobacterium vanbaalenii PYR1 6491 Kb 6092 orfs 67.8 20061227 Mycobacterium bovis 1173P2 4374 Kb 4033 orfs 20070108 Mycobacterium sp JLS 6048 Kb 5899 orfs 68 20070227 Mycobacterium flavenscens (gilvum) PYRGCK 5619 Kb 5723 orfs 67 20070412 Mycobacterium tuberculosis H37Ra 4419 Kb 4132 orfs PLoS ONE 3, e2375 20070601 Mycobacterium tuberculosis F11 (ExPEC) 4424 Kb 4050 orfs 20070607 Mycobacterium abscessus CIP 104536 5067 Kb 5041 orfs 64 20080301 Mycobacterium marinum M, ATCC BAA535 6636 Kb 5550 orfs 65 Genome Res. Epub 20080415 http://www.genomesonline.org/gold.cgi M. tuberculosis complex M. tuberculosis BCG H37Rv in corso in corso in corso AF2122/97 BCGPasteur CDC1551 H37Ra 4.32 Mb 4.31Mb 4.41 Mb J. Bacteriol, 184, 547990, 2002 WholeGenome Comparison of Mycobacterium tuberculosis Clinical and Laboratory Strains R. D. Fleischmann et al. Caratteristiche Dimensioni del genoma, bp G+C, % Geni codificanti per proteine M. tuberculosis H37Rv 4.411.532 3.995 M. tuberculosis CDC1551 4.403.836 4.249 PNAS, 100, 787782, 2003 The complete genome sequence of Mycobacterium bovis T. Garnier et al. AF2122/97 4.345.492 3.951 Tutti i micobatteri appartenenti al complesso tubercolare condividono il 99.9% di identità a livello nucleotidico, ma differiscono ampiamente in termini di spettro d ospite e di patogenicità PLASTICITA DEL GENOMA polimorfismi di singoli nucleotidi eventi di inserzione e delezione Rispetto a Mtb H37Rv: polimorfismi singoli delezioni inserzioni Il genoma di AF2122/97 (identico per oltre il 99.5% a quello di M tuberculosis H37Rv) rispetto a quelli dei due ceppi tubercolari è più piccolo di 70 kb e contiene circa 60 geni in meno. Il 55% delle inserzioni e delezioni tra i due ceppi tubercolari riguardano geni, soprattutto quelli codificanti per le proteine PE e PPE. La variabilità tra e Mtb riguarda prevalentemente componenti della parete cellulare e proteine di secrezione. 1135 72 63 2348 117 108 Regioni genomiche che differiscono tra M. tuberculosis H37Rv e (Esat6, CFP10) (phirv2) (fosfolipasi C) (invasina) (phirv1) Brosch et al. 2002 PNAS 99:36849. Scheme of the proposed evolutionary pathway of the tubercle bacilli illustrating successive loss of DNA in certain lineages (gray boxes). The scheme is based on the presence or absence of conserved deleted regions and on sequence polymorphisms in five selected genes. Note that the distances between certain branches may not correspond to actual phylogenetic differences calculated by other methods. Blue arrows indicate that strains are characterized by katg 463. CTG (Leu), gyra 95 ACC (Thr), typical for group 1 organisms. Green arrows indicate that strains belong to group 2 characterized by katg 463 CGG (Arg), gyra 95 ACC (Thr). The red arrow indicates that strains belong to group 3, characterized by katg 463 CGG (Arg), gyra 95 AGC (Ser), as defined by Sreevatsan et al. 3
Evoluzione del complesso tubercolare Evoluzione del complesso tubercolare X M. tuberculosis M. tuberculosis bacillo progenitore RD9 + TbD1 0 eg. Beijing cluster eg. Haarlem cluster eg. H37Rv 0 isolates isolates pnca c57 CAC GAC pnca c57 CAC GAC isolates 4 4 mmpl6 551 AAG 0 isolates isolates RD4 0 isolates 4 4 4
RD1 0 4 BCG J. Clin. Microbiol. 41, 16371650, 2003 PCRBased Method To Differentiate the Subspecies of the Mycobacterium tuberculosis Complex on the Basis of Genomic Deletions R. C. Huard, et al. The composite MtbC PCR typing panel. Illustrated are the typical MtbC PCR panel typing results for a single representative of each MtbC subspecies as well as MOTT (M. avium subsp. avium is shown). Lanes: 1, 16S rrna; 2, Rv0577; 3, IS1561'; 4, Rv1510 (RD4); 5, Rv1970 (RD7); 6, Rv3877/8 (RD1); 7, Rv3120 (RD12). EVOLUZIONE DI MYCOBACTERIUM TUBERCULOSIS ERA POSTGENOMICA CARATTERIZZAZIONE GENOMICA GENOMICA COMPARATIVA Gagneux S. et.al. PNAS 2006;103:28692873 Identificazione di fattori di virulenza (confronto genoma Mtb/BCG) e di antigeni (proteine PE/PPE) comprensione dei meccanismi di patogenicità e sviluppo di nuovi vaccini Allestimento di test diagnostici rapidi (identificazione delle specie del complesso tubercolare; diagnosi immunologica di infezione latente) Identificazione di molecole essenziali, potenziali bersagli per nuovi farmaci Studi evoluzionistici e di epidemiologia molecolare Sviluppo di migliori strategie di controllo dell infezione tubercolare 5