Internet web: >8,000,000,000 pagine

Documenti analoghi
Bioinformatica. :studio dei problemi biologici attraverso le metodologie dell'informatica

Ricerca di omologia di sequenza

Omologia di sequenze: allineamento e ricerca

Descrizione generale dell esame

Alberi filogenetici. File: alberi_filogenetici.odp. Riccardo Percudani 02/03/04

Genomica, proteomica, genomica strutturale, banche dati.

Modulo Laboratorio A.A. 2014/2015

Banche dati di sequenze biologiche: interrogazione e ricerca di omologia

Bioinformatica. Analisi del genoma

Algoritmi di Allineamento

Bioinformatica. Marin Vargas, Sergio Paul

Esempio di utilizzo del programma BLAST disponibile all NCBI Form di Nucleotide BLAST

Principi di biologia

Database di sequenze. Dati di sequenza. Caratteristiche dei dati della biologia molecolare. I dati ed i problemi della bioinformatica

Relatrice: dott.ssa Ilaria Pegoretti

Banche dati di sequenze biologiche: Organizzazione e Interrogazione

Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli. Esercizi ricerche in banche dati

Sommario. Presentazione dell opera Ringraziamenti

GENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi

Metabolismo delle purine e delle pirimidine

Organizzazione del genoma umano

Banche Dati proteiche

Indice generale. Nozioni fondamentali. Prefazione XIII

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.

Il Corso sarà tenuto nei giorni di Lunedì, Mercoledì e Venerdì dalle ore 17 alle ore 19.

Bioinformatica ed applicazioni di bioinformatica strutturale!

Informatica e Bioinformatica

Informatica e biotecnologie I parte. Informatica e biotecnologie. Banche dati biologiche: sommario. Strumenti per

Allineamenti di sequenze: concetti e algoritmi

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST

Modello computazionale per la predizione di siti di legame per fattori di trascrizione

Decode NGS data: search for genetic features

Informatica e Bioinformatica A. A

Laboratorio di Elementi di Bioinformatica

Dogma centrale DNA RNA PROTEINE

Pairwise Sequence Alignment BIOINFORMATICA. Corso di Laurea in Ingegneria Informatica e Biomedica. Università Magna Graecia Catanzaro

Lezione 1. Le molecole di base che costituiscono la vita

Laboratorio di Metodologie e Tecnologie Genetiche ESERCITAZIONE DI BIOINFORMATICA

Biotecnologie applicate all ispezione degli alimenti di origine animale

Laboratorio di Bioinformatica I. Parte 1. Dott. Sergio Marin Vargas (2014 / 2015)

Introduzione al corso di bioinformatica e analisi dei genomi AA Docente: Silvia Fuselli

LA BIOLOGIA MOLECOLARE E UNA BRANCA DELLA BIOLOGIA CHE STUDIA LE BASI MOLECOLARI DELLE FUNZIONI BIOLOGICHE, PONENDO UNA PARTICOLARE ATTENZIONE A QUEI

Ottimizzazione del protocollo bioinformatico per l annotazione di geni codificanti proteine in genomi complessi. Marin Vargas, Sergio Paul

FASTA. Lezione del

31/05/2007. Omologia. Evoluzione: Mutabilità e Selezione Naturale. Similarità. Sequenze omologhe sono sempre simili?

EVOLUZIONE MOLECOLARE. Silvia Fuselli

Lezione 2. Le molecole di base che costituiscono la vita

Rimodulazione coerente con Negoziazione

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche)

Metodologie citogenetiche. Metodologie molecolari. Formulare la domanda Utilizzare la metodica appropriata

Rimodulazione coerente con Negoziazione

Progetto Lars-Biotec

Interazioni proteina-dna

Corso di Bioinformatica. Docente: Dr. Antinisca DI MARCO

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

REGOLAZIONE DELL ESPRESSIONE GENICA. Controllo trascrizionale in E. coli. Esempio: Lac operon

Sperimenta il BioLab. Introduzione alla Bioinformatica. Università degli Studi di Milano Settore Didattico, via Celoria 20, Milano Laboratorio 105

BIOLOGIA MOLECOLARE CON ELEMENTI DI BIOINFORMATICA

1. Progetto Costituzione di una rete regionale di laboratori per gli approcci di biologia sistemica nelle malattie umane (BISIMANE)

Filogenesi molecolare

Relazione sequenza-struttura e funzione

Dogma centrale DNA RNA PROTEINE

Banche dati molti dati sulle proteine derivano dalle banche dati primarie

RELAZIONE di BIOLOGIA MOLECOLARE

Allineamento multiplo

Dimensioni dei Genomi Eucariotici

Le biotecnologie. Sadava et al. Biologia La scienza della vita Zanichelli editore 2010

TASSONOMIA O SISTEMATICA

In molecular terms, a gene commonly is defined as the entire nucleic acid sequence that is necessary for the synthesis of a functional polypeptide.

Lezione 2. costituiscono la vita

Struttura dei genomi delle piante

Biologia Molecolare e Bioinformatica

Allineamento e similarità di sequenze

Marcatori molecolari per l analisi genica, genetica e genomica

Ricevimento Studenti: Lunedì previa prenotazione. Cenci lab

Biochimica: le biomolecole. 1 I carboidrati B2. Per saperne di più. Anomeria e mutarotazione. Per saperne di più. I diastereoisomeri

Laboratorio di Elementi di Bioinformatica

Gli sviluppi della genetica. 1 Gli studi sui cromosomi sessuali 2 Malattie genetiche e alberi genealogici 3 Le mappe cromosomiche

Corso di Elementi di Bioinformatica

Programmazione di Biologia a.s

Spettrometria di Massa applicata alla PROTEOMICA

Corso di Bioinformatica

Corso di laurea magistrale in. Scienze per la diagnostica e conservazione dei beni culturali

Sintenia e colinearità

Patologie da analizzare

Biochimica. Prof. Alessandro Tossi Edificio Q 1 piano lab 106 Dip. Scienze della Vita

Principi di biologia Introduzione alla biologia

Laboratorio di Bioinformatica I. Parte 2. Dott. Sergio Marin Vargas (2014 / 2015)

ESERCITAZIONE 3. OBIETTIVO: Ricerca di omologhe mediante i programmi FASTA e BLAST

La chimica della vita. 1 La vita dipende dall acqua A20. Read & Answer Life in the ice age. 2 Le proprietà delle biomolecole. Verifiche interattive

L ACQUA. Struttura e proprieta dell acqua

Evoluzione delle molecole biologiche

Autonoma valutazione delle informazioni su argomenti e problemi biologici fornite dai mezzi di comunicazione di massa

Strumenti della Genetica Molecolare Umana (3) Capitoli 6-7-8

Ricerche con BLAST (Laboratorio)

PROGRAMMAZIONE ANNUALE A.S. 2016/2017

BIOMEDICINA GENOMICA E DEI SISTEMI COMPLESSI

50 kb 4-5 milioni milioni 100 milioni 165 milioni Fago E. Coli S. cerevisiae C. elegans D. melanogaster. Human 3 miliardi

Rivelazione, identificazione, caratterizzazione strutturale

Transcript:

Internet web: >8,000,000,000 pagine

Merck Index: >10.000 monografie su composti chimici Uric Acid Ammonia is a universal participant in amino acid synthesis and degradation, but its accumulation has toxic consequences. Because terrestrial animals must conserve water, they convert ammonia to a form that can be excreted without large water losses. Birds, terrestrial reptiles, and insects convert most of their excess ammonia to uric acid, an oxidized purine. Most mammals excrete the bulk of their nitrogen as urea. See urea cycle reactions here. Uric acid is an intermediate in purine nucleotide metabolism (Figure 22.7) and is quite insoluble in water. Consequently, increasing concentrations of it causes it to precipitate as crystals of sodium urate, and cause the painful condition of gout. Uric acid also has antioxidant properties.

Bioinformatica Biologia (molecolare) + Informatica :studio dei problemi biologici attraverso le metodologie dell'informatica ~Biologia molecolare computazionale ~Biochimica computazionale

...viceversa Biocomputazione Algoritmi genetici Reti neurali :Metodi informatici di applicazione generale che si ispirano ai principi della biologia

Gli oggetti principali della bioinformatica Sequenze di acidi nucleici >gi 8886401 gb AF162269.1 CCCACTCCTCCATCTCACAAACACTTCTCTATACCCAACAATCCCTTTTACAATCCCTGCTCATTTAGTC AAAATGGTCAAGATTGCTGCTATCATCCTCCTCATGGGCATTCTCGCCAATGCTGCCGCCATCCCTGTCA TTTCAACACCCAAATTACAGAGCCAACCGGCGAGGGCGACCGTGGGGACGTGGCCGAC Sequenze di proteine >P25032 MASSSSATSGDDRPPAAGGGTPAQAHAEWAASMHAYYAAAASAAGHPYAAWPLPPQAQQHGLVAAGAGAAYG AGAVPHVPPPPAGTRHAHASMAAGVPYMA Strutture di macromolecole

Gli scopi della bioinformatica Gestione dei dati biologici mantenimento, organizzazione, distribuzione... Analisi dei dati biologici inferenze e predizioni sul significato biologico

Crescita esponenziale dei dati bioinformatici

Incremento dei dati di sequenza Vs diminuizione dei costi Sequencing costs have dropped several orders of magnitude, from $10 per finished base in 1990 to today's cost, which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence. The Scientist 17, 2003 02/03/04

Dogma centrale della bioinformatica = Dogma centrale della biologia DNA RNA Proteine struttura/funzione struttura/funzione Secondo il dogma centrale della biologia le funzioni biologiche sono interamente codificate nella sequenza del DNA

Affidabilità e completezza dei dati di sequenza Esattezza dell'informazione A differenza di altre osservazioni biologiche, i dati di sequenza hanno una bassa percentuale di errore. Un sequenziamento accurato ha un errore di ~10-4 Completezza dell'informazione Disponibili informazioni genomiche complete per numerosi organismi

Importanza della bioinformatica Quantità di informazione Valore dell'informazione Esattezza e completezza dell'informazione

Genomica Genoma indica l'insieme del materiale genetico trasmissibile di un essere vivente (Hans Winkler, 1920). La genomica è la disciplina che studia i genomi completi.

Genomica Studio dei genomi completi degli organismi. Possibile grazie a: - Metodi di sequenziamento automatico - Metodi bioinformatici Organismi a genoma completo http://www.nslij-genetics.org/seq/

Genomica Dimensione del genoma e numero di geni

Homo sapiens: 30.000 geni, 3 * 109 caratteri

Post-genomica?

Storia evolutiva degli organismi Nature is a tinkerer and not an inventor Jacob, 1977 LCA voi siete qui

Evoluzione nel tempo dell'informazione biologica Sequenza ancestrale Evento di separazione ATCGGCCACTTTCGCGATCA ATCGGCCACTTTCGCGATCG ATAGGCCACTTTCGCGATCA ATAGGCCACTTTCGCGATTA ATCGGCCACTTTCGTGATCG ATCGGCCACGTTCGTGATCG ATCGGCCACGTTCGCGATCG ATAGGGCACTTTCGCGATTA ATCGCCCACGTTCGCGATCG ATAGGGCACTTT-GCGATTA ATTGCCCACGTTCGCGATCG ATAGGGCACTTT-GCGATGA Sequenze omologhe Omologia = condivisione di un ancestore comune

Separazione per speciazione

Separazione dei geni per speciazione Organismo ancestore Evento di speciazione ATCGGCCACTTTCGCGATCA Lo stesso gene in organismi diversi ATTGCCCACGTTCGCGATCG Specie moderna A ATAGGGCACTTT-GCGATGA Sequenze ortologhe Specie moderna B

I geni hanno una storia evolutiva più complicata di quella degli organismi GLOBINA GLOBINA Separazione del gene MIOGLOBINA α-globina β-globina β β α Separazione della specie α α β

Separazione per duplicazione genica Evento di duplicazione gene ancestore ATCGGCCACTTTCGCGATCA Geni originati per duplicazione in uno stesso genoma ATTGCCCACGTTCGCGATCG gene moderno A ATAGGGCACTTT-GCGATGA Sequenze paraloghe gene moderno B

Caratteristiche dei geni omologhi - Proteine derivanti da geni omologhi hanno struttura tridimensionale (3D) simile - Proteine derivanti da geni ortologhi hanno probabilmente una funzione uguale o simile - Proteine derivanti da geni paraloghi possono avere una funzione uguale o simile

L'omologia è dedotta dall'allineamento Sequenze allineate Osservazione ATTGCCCACGTTCGCGATCG ATAGGGCACTTT-GCGATGA ** * *** ** ***** Sequenza ancestrale ATCGGCCACTTTCGCGATCA? Ipotesi ATTGCCCACGTTCGCGATCG ATAGGGCACTTT-GCGATGA

Allineamento di sequenze biologiche DNA: alfabeto di 4 lettere + gaps AATGTCA AC-GTAA Proteine: alfabeto di 20 lettere + gaps SPRRNQ-ACTCC NPR-NQGASCCC

Penalità per apertura gap e penalità per allungamento gap Se in una posizione è tollerata l'inserzione o delezione di un residuo è probabile che siano tollerate inserzioni o delezioni di più residui Regione in cui non sono tollerati i gap Uno o più gap tollerati dalla struttura Penalità gap= penalita apertura penalità allungamento

Criteri per la somiglianza di nucleotidi e amninoacidi Nucleotidi: identità AGGCTGACCTGGGAAGGGAAACTCTCAAAACCAT AGGATGAGCT-GGAAGGATA-CTCTCAAAAACAT *** *** ** ******* ** ******** *** Aminoacidi: identità + somiglianza VLSSADKTNVKAAWGKVGAHAGEYGAEALERMFL VLSAADKANIKAAW-KVGGQAGDHGAEALERMPL ***:*** *:**** ***: **: ******** *

Matrici empiriche di sostituzione

Significatività di un allineamento Sequenze allineate ATTGCCCACGTTCGCGATCG ATAGGGCACTTT-GCGATGA ** * *** ** ***** Osservazione Ipotesi OMOLOGIA? CASO? P(omologia) + P(caso) = 1 02/03/04

Banche dati primarie: acidi nucleici Tre consorzi che scambiano informazioni (International Nucleotide Sequence Database Collaboration): GenBank (americana) EMBL (europea) DDBJ (giapponese) Una Release in cui la banca dati viene congelata ad una certa data Genetic Sequence Data Bank October 15 2001 NCBI-GenBank Flat File Release 126.0 Distribution Release Notes 13602262 loci, 14396883064 bases, from 13602262 reported sequences This document describes the format and content of the flat files that comprise releases of the GenBank database. If you have any questions or comments about GenBank or this document, please contact NCBI via email at info@ncbi.nlm.nih.gov or: + Aggiornamenti quotidiani: Es: GenBank_new, EMBL_new 02/03/04

Ricerca di omologia in banca dati >AAAA acgctaggctagctggatcggggatcggat aggctcggatcgggatttgagtctagggatg >BBBB gctagctggatcggggatcggat ggatcgggatttgagtctagggatg >CCCC cgctaggatagctggatcggggatcggat ggctcggatcgggatttgagtctagggatg acgctaggctagctggatcggggatcggat acgctaggctagctggatcggggatcggat acgctaggctagctggatcggggatcggat 1 Filtro statistico >query ccgctaggctagccatcggggatcggat acgctaggctagctggatcggggaaaa 2 >EEEEE cggctcggatcgggatttgagtctag ccgctaggctagcc... >DDDD acgctaaaaggctagcatcgggga... >DDDD acgctaaaaggctagcatcggggatcggat >EEEEE cggctcggatcgggatttgagtctagggatg ccgctaggctagccatcggggatcggat acgctaggctagctggatcgggg n >AAAA acgctaggctagctggatcggg gatcggat... >FFFFF cggctcggatcgggatttgagtctagggatg ccgctaggctagccatcggggatcggat acgctaggctagctggatcgggg 02/03/04

BLAST Output E Value Sequences producing significant alignments: gi 6320379 ref NP_010459.1 High mobility group (HMG)-like... gi 7446209 pir T12113 transcription factor - fava bean >gi... gi 1731110 sp Q09390 YR44_CAEEL HYPOTHETICAL 23.8 KD PROTEI... gi 14550383 gb AAK67237.1 U22831_8 (U22831) Hypothetical pr... gi 4507241 ref NP_003137.1 structure specific recognition... gi 11359753 pir T43009 HMG protein 1.2 - Caenorhabditis el... gi 14550384 gb AAK67238.1 U22831_9 (U22831) Hypothetical pr... gi 12857100 dbj BAB30892.1 (AK017716) putative [Mus musculus] gi 15022805 ref NP_080088.1 high mobility group 20A [Mus m... gi 8922633 ref NP_060670.1 high-mobility group 20A [Homo s... gi 7446219 pir JC6179 dorsal switch protein 1 - fruit fly... gi 1079089 pir S50068 nonhistone chromosomal protein HMG1-... gi 136657 sp P25980 UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT... gi 65265 emb CAA42523.1 (X59863) a xenopus upstream bindi... gi 587104 emb CAA57212.1 (X81456) unnamed protein product... 332 50 48 48 48 47 47 46 46 46 46 46 45 45 45 gi 3915056 sp Q91731 SX11_XENLA TRANSCRIPTION FACTOR SOX-11... gi 14786454 ref XP_030626.1 hypothetical protein XP_030626... gi 1431689 pdb 1AAB Nmr Structure Of Rat Hmg1 Hmga Frag... gi 12836358 dbj BAB23621.1 (AK004857) putative [Mus musculus] gi 576153 pdb 1HME High Mobility Group Protein Fragment... gi 7446228 pir T03375 high mobility group protein HMGd1 -... gi 13559761 gb AAK29965.1 (AC024859) Hypothetical protein... 37 37 37 37 37 37 37 3e-90 1e-05 8e-05 1e-04 1e-04 1e-04 1e-04 2e-04 3e-04 3e-04 3e-04 3e-04 4e-04 4e-04 4e-04 0.11 0.11 0.12 0.13 0.13 0.17 0.18 02/03/04

Trascrittomica - Studio dei profili di esperssione (quantità di mrna) dei geni in una cellula o tessuto - Il segnale misurato dipende dall'ibridazione tra le molecole di mrna estratte e sequenze complementari depositate su microsupporti - E' usata tipicamente per confrontare cellule in diverse condizioni (es. 'normale' vs 'tumorale')

Proteomica - Separazione attraverso gel bidimensionale delle proteine presenti nella cellula - Comparazione tra diverse condizioni e individuazione delle macchie differenziali - Sequenziamento parziale attraverso spettrometria di massa - Identificazione tramite confronto con un database di sequenze