Banche dati di sequenze biologiche: interrogazione e ricerca di omologia

Documenti analoghi
Ricerca di omologia di sequenza

Banche dati di sequenze biologiche: Organizzazione e Interrogazione


Internet web: >8,000,000,000 pagine

BLAST. W = word size T = threshold X = elongation S = HSP threshold

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche)

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random

Bioinformatica ed applicazioni di bioinformatica strutturale!

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2.

La ricerca di similarità in banche dati

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.

Laboratorio di Bioinformatica I. Parte 1. Dott. Sergio Marin Vargas (2014 / 2015)

Banche Dati Primarie di Biosequenze

Bioinformatica. :studio dei problemi biologici attraverso le metodologie dell'informatica

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento

Banche Dati proteiche

Laboratorio di Metodologie e Tecnologie Genetiche ESERCITAZIONE DI BIOINFORMATICA

Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli. Esercizi ricerche in banche dati

Corso di Elementi di Bioinformatica

Database biologici (banche di dati biologici)

Sommario. Presentazione dell opera Ringraziamenti

Bellini Lara matricola: Tesina di Biologia Molecolare 2

Ricerche con BLAST (Laboratorio)

Metodi euristici di allineamento

Allineamenti a coppie

FASTA. Lezione del

Banche Dati. Docente: Dr. Antinisca DI MARCO

GENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi

Laboratorio di Elementi di Bioinformatica

Tesina di Biologia Molecolare II

Database genomici primari

La ricerca di similarità: i metodi

31/05/2007. Omologia. Evoluzione: Mutabilità e Selezione Naturale. Similarità. Sequenze omologhe sono sempre simili?

Laboratorio di Elementi di Bioinformatica

Laboratorio di Bioinformatica I. Parte 2. Dott. Sergio Marin Vargas (2014 / 2015)

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche

DataBase Biologici 1

Il Corso sarà tenuto nei giorni di Lunedì, Mercoledì e Venerdì dalle ore 17 alle ore 19.

Informatica e Bioinformatica: Basi di Dati

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing

Bioinformatica. Analisi del genoma

RELAZIONE di BIOLOGIA MOLECOLARE

Provate rispondere alle domande, se ci riuscirete, sarete pronti a superare l esame per quanto riguarda la parte di bioinformatica.

Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini)

Programmazione dinamica

L organizzazione del genoma. Prof. Savino; dispense di Biologia Molecolare, Corso di Laurea in Biotecnologie

Esercitazioni Informatiche e Telematiche

Genomica, proteomica, genomica strutturale, banche dati.

Informatica e biotecnologie

Informatica e Bioinformatica A. A

Database di sequenze. Dati di sequenza. Caratteristiche dei dati della biologia molecolare. I dati ed i problemi della bioinformatica

Programmazione dinamica

Ogni tipo ha il suo alfabeto di riferimento, e metodi specifici, nonché metodi per la conversione da un tipo all altro (trascrizione, traduzione)

Algoritmi di Allineamento

Modello computazionale per la predizione di siti di legame per fattori di trascrizione

METODOLOGIE BIOCHIMICHE ESERCITAZIONE DI BIOINFORMATICA

Principi di biologia

Applicazione della biologia molecolare nella valutazione del benessere del cavallo

Banche dati molti dati sulle proteine derivano dalle banche dati primarie

Lezione 7. Allineamento di sequenze biologiche

Laboratorio di Elementi di Bioinformatica

Come facciamo ad isolare un gene da un organismo? Utilizziamo una libreria ovvero una collezione dei geni del genoma del cromosoma di un organismo

Introduzione alla Genomica

METODOLOGIE BIOCHIMICHE ESERCITAZIONE DI BIOINFORMATICA

Principali Database biologici

Modulo Laboratorio A.A. 2014/2015

Lezione 6. Analisi di sequenze biologiche e ricerche in database

Evoluzione del genoma. Silvia Fuselli, 29 novembre 2011

BLAST: Basic Local Alignment Search Tool

II LEZIONE. Database di interesse per la genetica e la biologia molecolare. Portali per l'accesso a database e servizi bioinformatici

Lezione 7. Allineamento di sequenze biologiche

50 kb 4-5 milioni milioni 100 milioni 165 milioni Fago E. Coli S. cerevisiae C. elegans D. melanogaster. Human 3 miliardi

Vai al sito: Incolla nel box vuoto la sequenza nucleotidica

Bioinformatica (3) Banche dati biologiche. Dott. Alessandro Laganà

UTILIZZO DI BLAST PER ALCUNE SEMPLICI APPLICAZIONI IN STUDI GENOMICI

SRS (Sequence Retrieval System) della EBI che mette a disposizione anche dello spazio sul server per memorizzare le richerche.

Informatica e biotecnologie I parte

MODELLO SCHEDA INSEGNAMENTO. II II Luigi Cerulo

Tecnologia del DNA ricombinante

lezione martedì 6 aprile 2010 aula 2 ore 9:00 corso integrato di Biologia Applicata (BU) ed Ingegneria Genetica (BCM)

Struttura dei genomi delle piante

Lezione 7. Allineamento di sequenze biologiche

Dimensioni dei Genomi Eucariotici

ESERCITAZIONE 3. OBIETTIVO: Ricerca di omologhe mediante i programmi FASTA e BLAST

Principali Database biologici

Lezione 3. Genoma umano come esempio di genoma eucariote

Decode NGS data: search for genetic features

LA BIOLOGIA MOLECOLARE E UNA BRANCA DELLA BIOLOGIA CHE STUDIA LE BASI MOLECOLARI DELLE FUNZIONI BIOLOGICHE, PONENDO UNA PARTICOLARE ATTENZIONE A QUEI

Basi di dati biologiche

In molecular terms, a gene commonly is defined as the entire nucleic acid sequence that is necessary for the synthesis of a functional polypeptide.

DATABASE DI GENETICA E BIOLOGIA MOLECOLARE

Genomi vegetali Da 7x10 7 bp per genoma aploide (130Mbp diploide, 5 cromosomi) di Arabidopsis thaliana alle 1,5x10 11 bp ( Mbp=150Gbp) di una

Banche dati biologiche

Strategie di annotazione di geni e genomi

TRE PAROLE CHIAVE DELLA GENETICA

Transcript:

Banche dati di sequenze biologiche: interrogazione e ricerca di omologia

Raccolte di dati biologici Libri - 1960 Margaret Dayhoff, collezione di proteine (NBRF) Floppy disk - 1977 PDB Strutture di macromolecole Cd-rom - 1980 EMBL (Heidelberg) acidi nucleici 1982 GenBank (NCBI) acidi nucleici Internet - 1991 EST (Expressed Sequence Tags) WWW - 1996 Genomi - 1998 Trascrittomi Oggi: migliaia di collezioni: funzioni, famiglie di proteine, motivi, vie metaboliche...

Definizione di banca dati :una collezione di informazioni organizzata in modo che un programma al computer possa velocemente accedere a determinate porzioni di dati Data bank (Banca dati) Collezione di dati Database (Base di dati) Collezione di dati + software per accedervi

Struttura Struttura delle delle banche banche dati dati Diagramma della struttura di un database. Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi).

Banche dati biologiche Primarie Informazione acquisita direttamente Acidi nucleici Sequenze espresse (EST) Proteine Strutture Secondarie Organizzano informazioni presenti in altre banche dati Famiglie di proteine Famiglie di strutture Promotori

Banche dati primarie: acidi nucleici Tre consorzi che scambiano informazioni (International Nucleotide Sequence Database Collaboration): GenBank (americana) EMBL (europea) DDBJ (giapponese)

Acidi nucleici: Release e aggiornamenti Una Release in cui la banca dati viene congelata ad una certa data Genetic Sequence Data Bank October 15 2001 NCBI-GenBank Flat File Release 126.0 Distribution Release Notes 13602262 loci, 14396883064 bases, from 13602262 reported sequences This document describes the format and content of the flat files that comprise releases of the GenBank database. If you have any questions or comments about GenBank or this document, please contact NCBI via email at info@ncbi.nlm.nih.gov or: + Aggiornamenti quotidiani: Es: GenBank_new, EMBL_new

Acidi nucleici: raccolta informazioni Inizialmente informazioni prese dalla letteratura Ora sottomesse direttamente dagli autori. La sottomissione della sequenza alle banche dati è condizione essenziale per pubblicare sulle principali riviste. I dati sono di solito segretati fino alla pubblicazione (entries hold until published) L autore ha il controllo completo della sequenza sottomessa, di conseguenza: solo l autore può modificare l informazione del proprio record, altri non possono correggere l informazione presente anche se questa è chiaramente errata la possibilità di trovare informazioni dipende da quanto accuratamente è stata descritta dall autore

Incremento dei dati di sequenza Vs diminuizione dei costi Sequencing costs have dropped several orders of magnitude, from $10 per finished base in 1990 to today's cost, which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence. The Scientist 17, 2003

Acidi nucleici: quantità di informazione Entries Bases 5074650 7915783043 3282738 1982497435 309512 615314337 277024 342250586 196531 292339256 194296 258809578 140700 187274610 189005 165547824 198152 95024632 204698 92361300 156413 89308950 155185 80380251 140798 72431327 80582 72089785 121918 60487285 102233 58906089 124150 57745385 86956 54526352 104222 54130240 91420 53130188 Species Homo sapiens Mus musculus Drosophila melanogaster Rattus norvegicus Oryza sativa Arabidopsis thaliana Caenorhabditis elegans Tetraodon nigroviridis Bos taurus Glycine max Danio rerio Lycopersicon esculentum Medicago truncatula Entamoeba histolytica Xenopus laevis Chlamydomonas reinhardtii Zea mays Strongylocentrotus purpuratus Sus scrofa Trypanosoma brucei http://www.ncbi.nlm.nih.gov/genbank/genbankstats.html

Banche dati primarie: EST Una banca dati di sequenze espresse: dbest (Expressed sequence Tag) Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mrna, ottenute per sequenziamento parziale di un clone a cdna. il sequenziamento automatico e a singolo passo utilizza primers sul vettore contenente l'inserto. Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5' e 3' terminali del gene.

EST: quantità di informazione dbest release 102601 Summary by Organism - October 26, 2001 ------------------------------------------------Number of public entries: 9,372,718 Homo sapiens (human) 3,859,807 Mus musculus + domesticus (mouse) 2,328,188 Rattus sp. (rat) 317,076 Drosophila melanogaster (fruit fly) 255,456 Glycine max (soybean) 208,186 Bos taurus (cattle) 193,313 Danio rerio (zebrafish) 155,077 Lycopersicon esculentum (tomato) 141,687 Medicago truncatula (barrel medic) 137,588 Caenorhabditis elegans (nematode) 135,203 Xenopus laevis (African clawed frog) 118,996 Arabidopsis thaliana (thale cress) 113,330 Chlamydomonas reinhardtii 111,958 Zea mays (maize) 108,392 Poco più del 50% dei geni umani sequenziati dal genoma ha un corrispondente nelle EST. Le EST rappresentano principalmente il 3' (65%) o il 5' (26%). dei trascritti. Solo nell'11% dei casi le EST 'unite' costituiscono la sequenza completa di un trascritto. Molte EST sono prodotte da company biotech e disponibili a pagamento. Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze.

EST: I.M.A.G.E consortium FEATURES source Location/Qualifiers 1..355 /organism="homo sapiens" /db_xref="taxon:9606" /clone="image:69864" Se il clone da cui deriva la EST appartiene al consorzio I.M.A.G.E è possibile ottenerlo ~ gratuitamente da vari distributori

Banche dati primarie: proteine Due consorzi che non scambiano informazioni: SwissProt (europea) PIR (americana) Sequenze di proteine determinate per sequenziamento diretto (in minima parte) Sequenze ricavate dalla traduzione di sequenze codificanti di DNA, di solito annotate e commentate dai curatori della banca Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL GenPep (GenBank cds) TREMBL(EMBL cds) Sono peggio annotate di SwissProt e Pir, ma più complete

Proteine: quantità di informazione ---------------------------------------------------Frequency Species ---------------------------------------------------20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp. japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)

Distribuzione Distribuzione della della lunghezze lunghezze delle delle sequenze sequenze proteiche proteiche

Distribuzione Distribuzione delle delle frequenze frequenze degli degli amino amino acidi acidi Legend: gray = aliphatic, red = acidic, green = small hydroxy, blue = basic, black = aromatic, white = amide, yellow = sulfur

Formato del record: Flat File format Chiave del campo Valore del campo header : testo con le informazioni ( annotazioni ) sulla sequenza Sequenza, memorizzata dal 5 al 3

GenBank/DDBJ entry

EMBL entry [resto della sequenza omesso]

DDBJ/EMBL/GenBank Feature table

SwissProt entry ID AC DT DT DT DE GN OS OC OC OX RN RP RX RA RA RT RT RL RP RC CC CC CC CC CC CC CC CC CC CC CC CC CC CC CC RASK_HUMAN STANDARD; PRT; 189 AA. P01116; 21-JUL-1986 (Rel. 01, Created) 21-JUL-1986 (Rel. 01, Last sequence update) 10-OCT-2003 (Rel. 42, Last annotation update) Transforming protein p21a (K-Ras 2A) (Ki-Ras) (c-k-ras). KRAS2 OR RASK2. Homo sapiens (Human). Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. NCBI_TaxID=9606; [1] SEQUENCE FROM N.A. MEDLINE=83271513; PubMed=6308466; [NCBI, ExPASy, EBI, Israel, Japan] McGrath J.P., Capon D.J., Smith D.H., Chen E.Y., Seeburg P.H., Goeddel D.V., Levinson A.D.; "Structure and organization of the human Ki-ras proto-oncogene and a related processed pseudogene."; Nature 304:501-506(1983). SEQUENCE FROM N.A. TISSUE=Colon carcinoma, and Lung; -!- ALTERNATIVE PRODUCTS: Event=Alternative splicing; Named isoforms=2; Comment=Isoforms differ in the C-terminal region which is encoded by two alternative exons (IVA and IVB); Name=2A; IsoId=P01116-1; Sequence=Displayed; Name=2B; IsoId=P01118-1; Sequence=External; -!- DISEASE: KRAS2 mutations are involved in tumor formation. -!- MISCELLANEOUS: The mammalian ras gene family consists of the Harvey and Kirsten ras genes (c-hras1 and c-kras2), an inactive pseudogene of each (c-hras2 and c-kras1) and the N-ras gene. -!- SIMILARITY: Belongs to the small GTPase superfamily. Ras family. -!- DATABASE: NAME=Atlas Genet. Cytogenet. Oncol. Haematol.; http://au.expasy.org/cgi-bin/get-sprot-entry?p01116

SwissProt entry (continua) DR DR DR DR DR DR DR KW KW FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT SQ BLOCKS; P01116. ProtoNet; P01116. ProtoMap; P01116. PRESAGE; P01116. DIP; P01116. ModBase; P01116. SWISS-2DPAGE; GET REGION ON 2D PAGE. Proto-oncogene; GTP-binding; Prenylation; Palmitate; Lipoprotein; Alternative splicing; Disease mutation. NP_BIND 10 17 GTP. NP_BIND 57 61 GTP. NP_BIND 116 119 GTP. DOMAIN 32 40 Effector region. DOMAIN 166 185 HYPERVARIABLE REGION. LIPID 180 180 S-palmitoyl cysteine. LIPID 186 186 S-farnesyl cysteine. VARIANT 12 12 G -> C (in lung carcinoma). /FTId=VAR_006839. VARIANT 12 12 G -> V (in colon carcinoma). /FTId=VAR_006840. VARIANT 61 61 Q -> H (in lung carcinoma PR310 and pancreas T3M-4). /FTId=VAR_006841. MUTAGEN 164 164 R->A: LOSS OF GTP-BINDING ACTIVITY. SEQUENCE 189 AA; 21656 MW; 973547B2E11C2C81 CRC64; MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM //

EST entry LOCUS H89388 338 bp mrna EST 24-NOV-1995 DEFINITION PL_16 Root, Angelo Bolchi Zea mays cdna clone PL_16, mrna sequence. ACCESSION H89388 VERSION H89388.1 GI:1072300 KEYWORDS EST. SOURCE Zea mays. REFERENCE 1 (bases 1 to 338) AUTHORS Ottonello,S. TITLE cdnas from maize JOURNAL Unpublished (1995) COMMENT Contact: Simone Ottonello Email: simone@irisbioc.bio.unipr.it. FEATURES Location/Qualifiers source 1..338 /organism="zea mays" /db_xref="taxon:4577" /clone="pl_16" /clone_lib="root, Angelo Bolchi" /note="vector: pmosblue; Site_1: EcoRV; mrna was purified from the root of sulfate deprived maize seedlings. cdna was constructed using anchored oligo(dt) primers, and PCR amplified in the presence of the same anchored oligo(dt) primer and random primer (Science 257:967-971). Amplified cdna fragments were ligated into the pmosblue vector (Amersham)." BASE COUNT 91 a 70 c 64 g 113 t ORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata //

Porzioni ordinate di GenBank Unigene: Sequenze di Est e di mrna organizzate in cluster che rappersentano un unico gene putativo. RefSeq: Sequenza di riferimento, definita da annotatori, per una data porzione genomica, mrna o proteina Entrez Gene: Loci genetici con informazioni curate da annotatori, relative a funzioni e fenotipi associati

Unigene: informazioni sui trascritti

Unigene: Profili di espressione Unigine EST Profile di Tirosina idrossilasi (Tirosina ->-> Dopa) Espressa soprattutto nel tessuto nervoso Trascritti per milione (TPM) EST gene / EST totali nel pool

Dal gene al fenotipo. Online Mendelian Inheritance in Man

Dal gene al genoma

Dal gene al genoma: analisi del contesto genomico Complete genome > Deinococcus radiodurans Proteina ipotetica Urato ossidasi

#1 L ago nel pagliaio Si cerca di solito una sequenza specifica Il numero delle sequenze nella banca dati cresce in modo esponenziale Il numero delle sequenze indesiderate è, in modo crescente, >> delle sequenze desiderate Risultato: trovare quello che si cerca è sempre più difficile

#2 Nomenclatura non standard Quando si cercano informazioni in banca dati si dipende dal modo in cui l autore ha deciso di descrivere l informazione. Il modo per designare anche i geni più noti (come il 16s RNA) non è uniforme

#3 Errori e stranezze LOCUS A00674 6 bp DNA PAT 29-JAN-1993 DEFINITION Nucleotide sequence 3 from patent WO8601533 ACCESSION A00674 KEYWORDS. SOURCE Unknown ORGANISM Unknown Unclassified. REFERENCE 1 (bases 1 to 6) AUTHORS TITLE 'PRODUCTION OF CHIMERIC ANTIBODIES' JOURNAL Patent: WO 8601533-A 3 13-MAR-1986; STANDARD full automatic BASE COUNT 3a 2c 0g 1t ORIGIN 1 cactaa // Sei nucleotidi brevettati di origine sconosciuta transciption, 26sequenze

Interrogazione delle banche dati Interrogare una banca dati significa fare una ricerca testuale nella porzione header dei record, contenente le informazioni di testo sulla sequenza. Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare più banche dati con una sola interfaccia Entrez (NCBI) SRS (Sequence Retrieval System) E importante usare questi sistemi propriamente perché ottenere esattamente l informazione che si cerca interrogando le banche dati di sequenze è difficile.

Sistemi di interrogazione: Entrez Entrez è un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti all NCBI (National Center for Biotechnology Information) e all NLM (National Library of Medicine). Gruppo di database limita la ricerca a in cui effettuare la particolari campi ricerca Rivede le ricerche effettuate per combinarle con operatori logici Le banche dati includono sequenze nucleotidiche e proteiche, strutture molecolari, genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE). Il client per l interrogazione può essere il browser o un programma a linea di comando in UNIX (Clever)

Sistemi di interrogazione: SRS SRS (Sequence Retrieval System) è un sistema creato all EMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune. Vi sono diversi server SRS pubblici, ciascuno con un particolare subset di banche dati disponibili. Il client per l interrogazione può essere il browser o un programma a linea di comando in UNIX (Getz)

Banche dati genomiche

Banche dati genomiche: whitehead

Museo del genoma

Ricerca Ricerca di di omologia omologia in in banca banca dati dati RICERCA DI OMOLOGIA DI SEQUENZA := Data una sequenza (query), una banca dati, un sistema per il confronto e una soglia statistica trovare le sequenze della banca più somiglianti alla data sequenza, ordinate per significatività

Ricerca Ricerca in in banca banca dati dati >AAAA acgctaggctagctggatcggggatcggat aggctcggatcgggatttgagtctagggatg >BBBB gctagctggatcggggatcggat ggatcgggatttgagtctagggatg >query >CCCC cgctaggatagctggatcggggatcggat ggctcggatcgggatttgagtctagggatg acgctaggctagctggatcggggatcggat acgctaggctagctggatcggggatcggat acgctaggctagctggatcggggatcggat ccgctaggctagccatcggggatcggat acgctaggctagctggatcggggaaaa 1 Filtro statistico 2 >EEEEE cggctcggatcgggatttgagtctag ccgctaggctagcc... >DDDD acgctaaaaggctagcatcgggga... >DDDD acgctaaaaggctagcatcggggatcggat >EEEEE cggctcggatcgggatttgagtctagggatg ccgctaggctagccatcggggatcggat acgctaggctagctggatcgggg n >AAAA acgctaggctagctggatcggg gatcggat... >FFFFF cggctcggatcgggatttgagtctagggatg ccgctaggctagccatcggggatcggat acgctaggctagctggatcgggg

Metodi Metodi per per la la ricerca ricerca in in banca banca dati dati Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati). In computer molto potenti (paralleli) è possibile usare un algoritmo di programmazione dinamica per una ricerca più accurata in tempi brevi. Allineamento ottimale SSEARCH (Smith-Waterman) Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale Allineamento euristico FASTA BLAST

SSEARCH SSEARCH Utilizza un algoritmo completo di programmazione dinamica. Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati. Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici: confronto tra indici 1 2 3 4 5 6 7 8 9 10 11 query sequence H A R F Y A A Q I V L Ktup = 1 Indice (Lookup table) A 2, 6, 7 F 4 H 1 I 9 L 11 Q 8 R 3 V 10 Y 5 Database 1 2 3 4 5 6 7 8 sequence V D M A A Q I A +9-2 +2-3 +2 +2 +3 +1-6 +2-2 -1-6 -5-4 1-3 -2-1 1 2 1 0 +1 +2 +3 1 4 1 +4 +5 offsets +6 +7 +8 +9 +10 1 Offset vector

Il confronto tra indici trova rapidamente segmenti simili 1 2 3 4 5 6 7 8 9 10 11 H A R F Y A A Q I V L V D M A A Q I A 1 2 3 Offset: 4 5 6 7 8 2 2 2 2 Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10-1 -2-3 -4-5 -6-7 H A R F Y A A Q I V L V D M A A Q I A

FASTA Pearson & Lipmann, PNAS 1988 K-tuple = lungezza delle parole nell'indice k-tuple k-tuple k-tuple = 4 sensibilità velocità sensibilità velocità Valori standard: k-tuple=2 (proteine) k-tuple=6 (nucleotidi)

FASTA FASTA (schema) (schema) Rappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table). La lunghezza della parola è definita dal valore ktuple. Confronta le posizioni delle parole e identifica le regioni di match (diagonali). Le migliori diagonali sono estese per trovare i match più lunghi senza gap. I segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo è migliore tenendo conto della penalità per i gap) La migliore regione viene riallineata con programmazione dinamica, limitando l allineamento a una banda della matrice

BLAST Altschul et al JMB 1990 Basic Local Alignment Tool Words (parole indice) T (punteggio minimo per parola) W T W T sensibilità velocità sensibilità velocità >query AGPDPATA AGP GPD PDP DPA PAT ATA words + PEP, EPA, DPG, Neighbourhood words La lunghezza delle words è definita dal parametro W. Il punteggio che devono raggiungere per essere considerate è definito dal parametro T.

BLAST BLAST (schema) (schema) Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine, 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia. Per ogni match con la banca dati, estende i segmenti a maggior punteggio (High Scoring Pairs, HSP) fino a quando lo score totale aumenta. Nella versione originale non ammetteva gap, le nuove versioni (gapped-blast) producono allineamenti con gap

Calcolo della probabilità casuali di un allineamento La funzione di probabilità degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD) la probabilità di ottenere per caso almeno un segmento con score S>x è uguale a: P S x = 1 e E Dove E (Expect) è in numero di segmenti attesi raggiungere un certo score per effetto del caso

Calcolo del numero di segmenti attesi (E) Il numero di segmenti attesi con un punteggio x>s per effetto del caso in confronti a coppie è calcolabile dalla distribuzione dei valori estremi (EVD) e dipende: 1) dal punteggio 2) dalla dimensione delle sequenze 3) dal sistema di punteggio usato (matrice e penalità) E = Kmne λs S è lo score dell'allineamento m e n sono le dimensioni delle sequenze confrontate. Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati K e λ dipendono dal tipo di matrice usata e dalle penalità assegnate ai gap e dalla composizione delle sequenze. Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali. In BLAST sono precalcolati per ogni matrice e penalità di gap In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati

Significato di E nella ricerca di omologia Il valore di E è usato come misura della significatività dell'allineamento Un allineamento è significativo se è improbabile che si possa ottenere per effetto del caso P S x = 1 e E Se E è molto piccolo, ha il significato di una probabilità. Per E<<1, E P Negli altri casi ha il significato di numero di segmenti casuali attesi. Per E>>1, P 1

FASTA FASTA Output Output < 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 2770 3 16 62 376 1484 4614 13754 23411 39159 56111 70165 80673 78762 72314 63901 54332 98 100 102 104 106 108 110 112 114 116 118 >120 284 268 214 171 128 91 91 84 81 61 52 498 0:=== 0:= one = represents 1345 library sequences 1:* 17:* 178:* 1084:*= 4192:===* 11369:========*== 23349:=================* 38587:============================*= 53825:========================================*= 65795:================================================*==== 72578:=====================================================*====== 73923:======================================================*==== 70772:====================================================*= 64580:================================================* 56777:========================================= * Statistiche ottenute dai punteggi con la banca dati. Fitting sulla EVD per determinare i valori dei parametri λ e k 241:*:=====================*==== 186:*:================*======== 144:*:=============*====== 112:*:==========*===== 250424712 residues in 787946 sequences 86:*:=======*==== statistics extrapolated from 60000 to 786965 sequences 67:*:======*== Expectation_n fit: rho(ln(x))= 5.8609+/-0.000139; mu= 6.7390+/- 0.007 52:*:====*==== mean_var=88.6622+/-16.334, 0's: 530 Z-trim: 573 B-trim: 974 in 2/62 40:*:===*==== Lambda= 0.1362 31:*:==*===== Kolmogorov-Smirnov statistic: 0.0321 (N=29) at 48 24:*:==*=== 19:*:=*=== 14:*:=*======================================

FASTA FASTA output output 22 score Lista significatività The best scores are: gi 6320379 ref NP_010459.1 High mobility group (HMG)-like protein; gi 65265 emb CAA42523.1 (X59863) a xenopus upstream binding factor gi 104205 pir S17196 transcription factor UBF2 - African clawed fro gi 136657 sp P25980 UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS gi 729731 sp P40626 HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi 1023 gi 7492240 pir T38936 non-histone chromosomal protein high mobility gi 1079088 pir S47596 HMG1-like protein - fruit fly (Drosophila mel gi 1174454 sp P41848 SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT gi 15218011 ref NP_173492.1 high mobility group protein (HMG1), put ( ( ( ( ( ( ( ( ( opt bits E(787946) 246) 1581 320 2.7e-86 701) 196 48 0.00053 701) 196 48 0.00053 701) 196 48 0.00053 143) 180 44 0.0013 108) 176 43 0.0018 216) 180 44 0.0018 697) 186 46 0.002 502) 184 45 0.0021 gi 2137073 pir JC5112 ribosomal transcription factor UBF1 - Chinese gi 1045008 gb AAB38418.1 (L42570) putative [Cricetulus griseus] gi 85591 pir A24019 nonhistone chromosomal protein HMG-T - trout (f gi 12836542 dbj BAB23701.1 (AK004961) putative [Mus musculus] gi 112465 pir B40439 UBF transcription factor, short form - rat gi 14772527 ref XP_008365.2 hypothetical protein XP_008365 [Homo sa gi 14754719 ref XP_047946.1 high-mobility group 20A [Homo sapiens] gi 730842 sp Q04931 SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN gi 15022805 ref NP_080088.1 high mobility group 20A [Mus musculus] ( ( ( ( ( ( ( ( ( 764) 764) 172) 752) 727) 727) 313) 561) 346) 176 176 167 175 174 174 167 170 167 44 44 42 44 44 44 42 43 42 0.0086 0.0086 0.0089 0.0097 0.011 0.011 0.014 0.015 0.016 Allineamenti >>gi 6320379 ref NP_010459.1 High mobility group (HMG)-like protein; Hmo1p (246 aa) 10 20 30 40 50 60 70 80 QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI :::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: gi 632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80

BLAST BLAST Output Output Sequences producing significant alignments: Score (bits) E Value gi 6320379 ref NP_010459.1 High mobility group (HMG)-like... gi 7446209 pir T12113 transcription factor - fava bean >gi... gi 1731110 sp Q09390 YR44_CAEEL HYPOTHETICAL 23.8 KD PROTEI... gi 14550383 gb AAK67237.1 U22831_8 (U22831) Hypothetical pr... gi 4507241 ref NP_003137.1 structure specific recognition... gi 11359753 pir T43009 HMG protein 1.2 - Caenorhabditis el... gi 14550384 gb AAK67238.1 U22831_9 (U22831) Hypothetical pr... gi 12857100 dbj BAB30892.1 (AK017716) putative [Mus musculus] gi 15022805 ref NP_080088.1 high mobility group 20A [Mus m... gi 8922633 ref NP_060670.1 high-mobility group 20A [Homo s... gi 7446219 pir JC6179 dorsal switch protein 1 - fruit fly... gi 1079089 pir S50068 nonhistone chromosomal protein HMG1-... gi 136657 sp P25980 UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT... gi 65265 emb CAA42523.1 (X59863) a xenopus upstream bindi... gi 587104 emb CAA57212.1 (X81456) unnamed protein product... 332 50 48 48 48 47 47 46 46 46 46 46 45 45 45 3e-90 1e-05 8e-05 1e-04 1e-04 1e-04 1e-04 2e-04 3e-04 3e-04 3e-04 3e-04 4e-04 4e-04 4e-04 gi 3915056 sp Q91731 SX11_XENLA TRANSCRIPTION FACTOR SOX-11... gi 14786454 ref XP_030626.1 hypothetical protein XP_030626... gi 1431689 pdb 1AAB Nmr Structure Of Rat Hmg1 Hmga Frag... gi 12836358 dbj BAB23621.1 (AK004857) putative [Mus musculus] gi 576153 pdb 1HME High Mobility Group Protein Fragment... gi 7446228 pir T03375 high mobility group protein HMGd1 -... gi 13559761 gb AAK29965.1 (AC024859) Hypothetical protein... 37 37 37 37 37 37 37 0.11 0.11 0.12 0.13 0.13 0.17 0.18

BLAST BLAST Output Output 22 Allineamenti >gi 6320379 ref NP_010459.1 High mobility group (HMG)-like protein; Hmo1p [Saccharomyces Length = 246 Score = 332 bits (850), Expect = 3e-90 Identities = 191/220 (86%), Positives = 191/220 (86%) Query: 1 Sbjct: 1 Query: 61 Sbjct: 61... MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYV TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120 Lambda 0.308 Gapped Lambda 0.267 K Statistiche basate su valori di λ e k pre-calcolati per determinate matrici, composizione in residui e penalità per gap H 0.127 0.355 K H 0.0410 0.140 Matrix: BLOSUM62 Gap Penalties: Existence: 11, Extension: 1

Punteggi Punteggi normalizzati normalizzati (Bits (Bits score) score) Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score, sia come score normalizzato (bits score). La relazione che lega S' ad E diventa:

Regioni a bassa complessità Le regioni a bassa complessità hanno una diversa statistica dei punteggi casuali poiché le probabilità di match casuali sono molto più alte La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV Avrà molte più provabilità di avere falsi match con altre sequenze con simile composizione aminoacidica Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto. La sequenza verrà quindi trasformata in: LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV) Il filtro può essere attivo a default in BLAST. In alcuni casi, quando si vuole ricercare altre sequenze con simili ripetizioni, è opportuno disattivare il filtro

Output Output grafico grafico di di blast blast

Significatività e dimensioni delle bancadati La significatività dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati: Il punteggio del confronto tra due sequenze è costante Il numero delle sequenze nella banca dati cresce in modo esponenziale Il numero nelle sequenze non omologhe >> di quelle omologhe E necessaria una sensibilità sempre maggiore per identificare le sequenze omologhe

II programmi programmi della della famiglia famiglia BLAST BLAST ee FASTA FASTA P ro g ra m m a Q u e r yb a n c a d a tit ip o d i c o n fr o n to B L A S TF A S T A b la s tn fa s ta 3 nuc nuc nuc / nuc b la s tp fa s ta 3 aa aa aa / aa b la s tx fa s tx3 fa s ty3 nuc aa aa / aa tb la s tn tfa s tx3 tfa s ty3 aa nuc a a /a a tb la s tx nuc nuc aa / aa

E(DNA) vs E(Proteine) Valori attesi con la sequenza di DNA [Score, E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila. La ricerca che utilizza la sequenza proteica fornisce risultati più significativi ed è in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Misure dell accuratezza della ricerca SENSIBILITA o COPERTURA [ VP / (VP + FN) ] := Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi) SELETTIVITA [ VP / (VP + FP) ] := Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi) ERRORE [ FP / (VP + FP) ] := Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

Compromesso tra sensibilità e selettività Sequenze non appartenenti alla famiglia Sequenze appartenenti alla famiglia Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi, molto difficilmente si hanno due curve perfettamente separate. Una soglia stringente consente di eliminare i falsi positivi ma ha anche l effetto di escludere alcuni veri positivi. Viceversa, una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi. Un compromesso spesso usato è scegliere la soglia all intersezione delle curve.

Copertura vs Errore 100% soglia=30 Errore. % falsi positivi sul totale soglia=20 soglia=10 Diverse soglie di punteggo Sensibilità (Copertura). Due metodi. Quello tratteggiato è peggiore 100% % veri positivi sul totale

Accuratezza dei metodi di ricerca Brenner et al PNAS 1998 Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identità di sequenza < del 40% SSEARCH > FASTA > BLAST METODO SSEARCH E-values FASTA ktup = 1 E-values FASTA ktup = 2 E-values WU-BLAST2 E-values BLAST E-values TEMPO (s) 25.5 3.9 1.4 1.1 1.0 COPERTURA 1% Err. 18.4 17.9 16.7 17.5 14.8

Argomenti pratici nella ricerca in banca dati Sapere dove cercare! (usare la banca dati più completa. Notare che alcune sezioni dbest, HTGS, Patent sono tenute separate dalla banca dati principale) Usare le matrici e le penalità dei i gap opportuni Preferire una ricerca con la traduzione in amino acidi se la query sequence è codificante Utilizzare SSEARCH per il massimo dell accuratezza Utilizzare FASTA (ktup=1) per una ricerca nucleotidica In BLAST fare attenzione all opzione filtro Esaminare con attenzione l allineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione Ricordarsi dei genomi completi. Prestate attenzione anche a quello che non c è.