Internet web: >8,000,000,000 pagine
Merck Index: >10.000 monografie su composti chimici Uric Acid Ammonia is a universal participant in amino acid synthesis and degradation, but its accumulation has toxic consequences. Because terrestrial animals must conserve water, they convert ammonia to a form that can be excreted without large water losses. Birds, terrestrial reptiles, and insects convert most of their excess ammonia to uric acid, an oxidized purine. Most mammals excrete the bulk of their nitrogen as urea. See urea cycle reactions here. Uric acid is an intermediate in purine nucleotide metabolism (Figure 22.7) and is quite insoluble in water. Consequently, increasing concentrations of it causes it to precipitate as crystals of sodium urate, and cause the painful condition of gout. Uric acid also has antioxidant properties.
Bioinformatica Biologia (molecolare) + Informatica :studio dei problemi biologici attraverso le metodologie dell'informatica ~Biologia molecolare computazionale ~Biochimica computazionale
...viceversa Biocomputazione Algoritmi genetici Reti neurali :Metodi informatici di applicazione generale che si ispirano ai principi della biologia
Gli oggetti principali della bioinformatica Sequenze di acidi nucleici >gi 8886401 gb AF162269.1 CCCACTCCTCCATCTCACAAACACTTCTCTATACCCAACAATCCCTTTTACAATCCCTGCTCATTTAGTC AAAATGGTCAAGATTGCTGCTATCATCCTCCTCATGGGCATTCTCGCCAATGCTGCCGCCATCCCTGTCA TTTCAACACCCAAATTACAGAGCCAACCGGCGAGGGCGACCGTGGGGACGTGGCCGAC Sequenze di proteine >P25032 MASSSSATSGDDRPPAAGGGTPAQAHAEWAASMHAYYAAAASAAGHPYAAWPLPPQAQQHGLVAAGAGAAYG AGAVPHVPPPPAGTRHAHASMAAGVPYMA Strutture di macromolecole
Gli scopi della bioinformatica Gestione dei dati biologici mantenimento, organizzazione, distribuzione... Analisi dei dati biologici inferenze e predizioni sul significato biologico
Crescita esponenziale dei dati bioinformatici
Incremento dei dati di sequenza Vs diminuizione dei costi Sequencing costs have dropped several orders of magnitude, from $10 per finished base in 1990 to today's cost, which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence. The Scientist 17, 2003 02/03/04
Dogma centrale della bioinformatica = Dogma centrale della biologia DNA RNA Proteine struttura/funzione struttura/funzione Secondo il dogma centrale della biologia le funzioni biologiche sono interamente codificate nella sequenza del DNA
Affidabilità e completezza dei dati di sequenza Esattezza dell'informazione A differenza di altre osservazioni biologiche, i dati di sequenza hanno una bassa percentuale di errore. Un sequenziamento accurato ha un errore di ~10-4 Completezza dell'informazione Disponibili informazioni genomiche complete per numerosi organismi
Importanza della bioinformatica Quantità di informazione Valore dell'informazione Esattezza e completezza dell'informazione
Genomica Genoma indica l'insieme del materiale genetico trasmissibile di un essere vivente (Hans Winkler, 1920). La genomica è la disciplina che studia i genomi completi.
Genomica Studio dei genomi completi degli organismi. Possibile grazie a: - Metodi di sequenziamento automatico - Metodi bioinformatici Organismi a genoma completo http://www.nslij-genetics.org/seq/
Genomica Dimensione del genoma e numero di geni
Homo sapiens: 30.000 geni, 3 * 109 caratteri
Post-genomica?
Storia evolutiva degli organismi Nature is a tinkerer and not an inventor Jacob, 1977 LCA voi siete qui
Evoluzione nel tempo dell'informazione biologica Sequenza ancestrale Evento di separazione ATCGGCCACTTTCGCGATCA ATCGGCCACTTTCGCGATCG ATAGGCCACTTTCGCGATCA ATAGGCCACTTTCGCGATTA ATCGGCCACTTTCGTGATCG ATCGGCCACGTTCGTGATCG ATCGGCCACGTTCGCGATCG ATAGGGCACTTTCGCGATTA ATCGCCCACGTTCGCGATCG ATAGGGCACTTT-GCGATTA ATTGCCCACGTTCGCGATCG ATAGGGCACTTT-GCGATGA Sequenze omologhe Omologia = condivisione di un ancestore comune
Separazione per speciazione
Separazione dei geni per speciazione Organismo ancestore Evento di speciazione ATCGGCCACTTTCGCGATCA Lo stesso gene in organismi diversi ATTGCCCACGTTCGCGATCG Specie moderna A ATAGGGCACTTT-GCGATGA Sequenze ortologhe Specie moderna B
I geni hanno una storia evolutiva più complicata di quella degli organismi GLOBINA GLOBINA Separazione del gene MIOGLOBINA α-globina β-globina β β α Separazione della specie α α β
Separazione per duplicazione genica Evento di duplicazione gene ancestore ATCGGCCACTTTCGCGATCA Geni originati per duplicazione in uno stesso genoma ATTGCCCACGTTCGCGATCG gene moderno A ATAGGGCACTTT-GCGATGA Sequenze paraloghe gene moderno B
Caratteristiche dei geni omologhi - Proteine derivanti da geni omologhi hanno struttura tridimensionale (3D) simile - Proteine derivanti da geni ortologhi hanno probabilmente una funzione uguale o simile - Proteine derivanti da geni paraloghi possono avere una funzione uguale o simile
L'omologia è dedotta dall'allineamento Sequenze allineate Osservazione ATTGCCCACGTTCGCGATCG ATAGGGCACTTT-GCGATGA ** * *** ** ***** Sequenza ancestrale ATCGGCCACTTTCGCGATCA? Ipotesi ATTGCCCACGTTCGCGATCG ATAGGGCACTTT-GCGATGA
Allineamento di sequenze biologiche DNA: alfabeto di 4 lettere + gaps AATGTCA AC-GTAA Proteine: alfabeto di 20 lettere + gaps SPRRNQ-ACTCC NPR-NQGASCCC
Penalità per apertura gap e penalità per allungamento gap Se in una posizione è tollerata l'inserzione o delezione di un residuo è probabile che siano tollerate inserzioni o delezioni di più residui Regione in cui non sono tollerati i gap Uno o più gap tollerati dalla struttura Penalità gap= penalita apertura penalità allungamento
Criteri per la somiglianza di nucleotidi e amninoacidi Nucleotidi: identità AGGCTGACCTGGGAAGGGAAACTCTCAAAACCAT AGGATGAGCT-GGAAGGATA-CTCTCAAAAACAT *** *** ** ******* ** ******** *** Aminoacidi: identità + somiglianza VLSSADKTNVKAAWGKVGAHAGEYGAEALERMFL VLSAADKANIKAAW-KVGGQAGDHGAEALERMPL ***:*** *:**** ***: **: ******** *
Matrici empiriche di sostituzione
Significatività di un allineamento Sequenze allineate ATTGCCCACGTTCGCGATCG ATAGGGCACTTT-GCGATGA ** * *** ** ***** Osservazione Ipotesi OMOLOGIA? CASO? P(omologia) + P(caso) = 1 02/03/04
Banche dati primarie: acidi nucleici Tre consorzi che scambiano informazioni (International Nucleotide Sequence Database Collaboration): GenBank (americana) EMBL (europea) DDBJ (giapponese) Una Release in cui la banca dati viene congelata ad una certa data Genetic Sequence Data Bank October 15 2001 NCBI-GenBank Flat File Release 126.0 Distribution Release Notes 13602262 loci, 14396883064 bases, from 13602262 reported sequences This document describes the format and content of the flat files that comprise releases of the GenBank database. If you have any questions or comments about GenBank or this document, please contact NCBI via email at info@ncbi.nlm.nih.gov or: + Aggiornamenti quotidiani: Es: GenBank_new, EMBL_new 02/03/04
Ricerca di omologia in banca dati >AAAA acgctaggctagctggatcggggatcggat aggctcggatcgggatttgagtctagggatg >BBBB gctagctggatcggggatcggat ggatcgggatttgagtctagggatg >CCCC cgctaggatagctggatcggggatcggat ggctcggatcgggatttgagtctagggatg acgctaggctagctggatcggggatcggat acgctaggctagctggatcggggatcggat acgctaggctagctggatcggggatcggat 1 Filtro statistico >query ccgctaggctagccatcggggatcggat acgctaggctagctggatcggggaaaa 2 >EEEEE cggctcggatcgggatttgagtctag ccgctaggctagcc... >DDDD acgctaaaaggctagcatcgggga... >DDDD acgctaaaaggctagcatcggggatcggat >EEEEE cggctcggatcgggatttgagtctagggatg ccgctaggctagccatcggggatcggat acgctaggctagctggatcgggg n >AAAA acgctaggctagctggatcggg gatcggat... >FFFFF cggctcggatcgggatttgagtctagggatg ccgctaggctagccatcggggatcggat acgctaggctagctggatcgggg 02/03/04
BLAST Output E Value Sequences producing significant alignments: gi 6320379 ref NP_010459.1 High mobility group (HMG)-like... gi 7446209 pir T12113 transcription factor - fava bean >gi... gi 1731110 sp Q09390 YR44_CAEEL HYPOTHETICAL 23.8 KD PROTEI... gi 14550383 gb AAK67237.1 U22831_8 (U22831) Hypothetical pr... gi 4507241 ref NP_003137.1 structure specific recognition... gi 11359753 pir T43009 HMG protein 1.2 - Caenorhabditis el... gi 14550384 gb AAK67238.1 U22831_9 (U22831) Hypothetical pr... gi 12857100 dbj BAB30892.1 (AK017716) putative [Mus musculus] gi 15022805 ref NP_080088.1 high mobility group 20A [Mus m... gi 8922633 ref NP_060670.1 high-mobility group 20A [Homo s... gi 7446219 pir JC6179 dorsal switch protein 1 - fruit fly... gi 1079089 pir S50068 nonhistone chromosomal protein HMG1-... gi 136657 sp P25980 UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT... gi 65265 emb CAA42523.1 (X59863) a xenopus upstream bindi... gi 587104 emb CAA57212.1 (X81456) unnamed protein product... 332 50 48 48 48 47 47 46 46 46 46 46 45 45 45 gi 3915056 sp Q91731 SX11_XENLA TRANSCRIPTION FACTOR SOX-11... gi 14786454 ref XP_030626.1 hypothetical protein XP_030626... gi 1431689 pdb 1AAB Nmr Structure Of Rat Hmg1 Hmga Frag... gi 12836358 dbj BAB23621.1 (AK004857) putative [Mus musculus] gi 576153 pdb 1HME High Mobility Group Protein Fragment... gi 7446228 pir T03375 high mobility group protein HMGd1 -... gi 13559761 gb AAK29965.1 (AC024859) Hypothetical protein... 37 37 37 37 37 37 37 3e-90 1e-05 8e-05 1e-04 1e-04 1e-04 1e-04 2e-04 3e-04 3e-04 3e-04 3e-04 4e-04 4e-04 4e-04 0.11 0.11 0.12 0.13 0.13 0.17 0.18 02/03/04
Trascrittomica - Studio dei profili di esperssione (quantità di mrna) dei geni in una cellula o tessuto - Il segnale misurato dipende dall'ibridazione tra le molecole di mrna estratte e sequenze complementari depositate su microsupporti - E' usata tipicamente per confrontare cellule in diverse condizioni (es. 'normale' vs 'tumorale')
Proteomica - Separazione attraverso gel bidimensionale delle proteine presenti nella cellula - Comparazione tra diverse condizioni e individuazione delle macchie differenziali - Sequenziamento parziale attraverso spettrometria di massa - Identificazione tramite confronto con un database di sequenze