Banche dati di sequenze biologiche: Organizzazione e Interrogazione

Transcript

1 Banche dati di sequenze biologiche: Organizzazione e Interrogazione

2 Raccolte di dati biologici Libri Margaret Dayhoff, collezione di proteine (NBRF) Floppy disk Cd rom PDB Strutture di macromolecole EMBL (Heidelberg) acidi nucleici 1982 GenBank (NCBI) acidi nucleici Internet EST (Expressed Sequence Tags) WWW Genomi Trascrittomi Oggi: migliaia di collezioni: funzioni, famiglie di proteine, motivi, vie metaboliche...

3 Una Una rivista rivista scientifica scientifica dedicata dedicata alle alle banche banche dati dati biologiche biologiche

4 Definizione di banca dati :una collezione di informazioni organizzata in modo che un programma al computer possa velocemente accedere a determinate porzioni di dati Data bank (Banca dati) Collezione di dati Database (Base di dati) Collezione di dati + software per accedervi

5 Struttura Struttura delle delle banche banche dati dati Diagramma della struttura di un database. Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi).

6 Banche dati di macromolecole biologiche Primarie Informazione acquisita direttamente Acidi nucleici Sequenze espresse (EST) Proteine Strutture Secondarie Organizzano informazioni presenti in altre banche dati Famiglie di proteine Famiglie di strutture Promotori

7 Banche dati primarie: acidi nucleici Tre consorzi che scambiano informazioni (International Nucleotide Sequence Database Collaboration): GenBank (americana) EMBL (europea) DDBJ (giapponese)

8 Acidi nucleici: Release e aggiornamenti Una Release in cui la banca dati viene congelata ad una certa data RELEASE NOTE Genetic Sequence Data Bank October NCBI-GenBank Flat File Release Distribution Release Notes 132,067,413,372 bases, 144,458,648 reported sequences + Aggiornamenti quotidiani: Es: GenBank_new, EMBL_new

9 Acidi nucleici: raccolta informazioni Inizialmente informazioni prese dalla letteratura Ora sottomesse direttamente dagli autori. La sottomissione della sequenza alle banche dati è condizione essenziale per pubblicare sulle principali riviste. I dati sono di solito segretati fino alla pubblicazione (entries hold until published) L autore ha il controllo completo della sequenza sottomessa, di conseguenza: solo l autore può modificare l informazione del proprio record, altri non possono correggere l informazione presente anche se questa è chiaramente errata la possibilità di trovare informazioni dipende da quanto accuratamente è stata descritta dall autore

10 Acidi nucleici: quantità di informazione 1015 basi (peta) 1012 basi (tera) (whole genome sequences)

11 Diminuizione esponenziale dei costi di sequenziamento

12 Acidi nucleici: organismi più rappresentati Entries Bases Species Homo sapiens Mus musculus Drosophila melanogaster Rattus norvegicus Oryza sativa Arabidopsis thaliana Caenorhabditis elegans Tetraodon nigroviridis Bos taurus Glycine max Danio rerio Lycopersicon esculentum Medicago truncatula Entamoeba histolytica Xenopus laevis Chlamydomonas reinhardtii Zea mays Strongylocentrotus pur. Sus scrofa

13 Banche dati primarie: EST Una banca dati di sequenze espresse: dbest (Expressed sequence Tag) Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mrna, ottenute per sequenziamento parziale di un clone a cdna. il sequenziamento automatico e a singolo passo utilizza primers sul vettore contenente l'inserto. Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5'- e 3'- terminali del trascritto. Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length.

14 EST: quantità di informazione Summary by Organism - October 1, Number of public entries: 70,937,429 Homo sapiens (human) Mus musculus (mouse) Zea mays (maize) Sus scrofa (pig) Bos taurus (cattle) Arabidopsis thaliana Danio rerio (zebrafish) Glycine max (soybean) Xenopus tropicalis (clawed frog) Oryza sativa (rice) Ciona intestinalis Rattus norvegicus (rat) Triticum aestivum (wheat) Drosophila melanogaster 8,315,272 4,853,562 2,019,114 1,624,046 1,559,494 1,529,700 1,488,275 1,461,624 1,271,375 1,252,989 1,205,674 1,162,136 1,073, ,005 Poco più del 50% dei geni umani sequenziati dal genoma ha un corrispondente nelle EST. Le EST rappresentano principalmente il 3' (65%) o il 5' (26%). dei trascritti. Solo nell'11% dei casi le EST 'unite' costituiscono la sequenza completa di un trascritto. Molte EST sono prodotte da company biotech e disponibili a pagamento. Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze.

15 EST: I.M.A.G.E consortium FEATURES source Location/Qualifiers /organism="homo sapiens" /db_xref="taxon:9606" /clone="image:69864" Se il clone da cui deriva la EST appartiene al consorzio I.M.A.G.E (integrated molecular analysis of genomes and their expression) o altri consorzi con accordi distribuzione pubblica è possibile ottenerlo ~gratuitamente da vari distributori

16 Banche dati primarie: proteine Due consorzi SwissProt (europeo) PIR (americano) UNIPROT (universal protein resource) Sequenze di proteine determinate per sequenziamento diretto (in minima parte) Sequenze ricavate dalla traduzione di sequenze codificanti di DNA, in parte annotate e commentate dai curatori della banca Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL GenPep (GenBank cds) TREMBL (EMBL cds) Sono peggio annotate di SwissProt e Pir, ma più complete

17 Proteine: quantità di informazione 9 x 107 Manualmente annotate: <5% (Uniprot/Swissprot)

18 Distribuzione Distribuzione tassonomica tassonomica delle delle sequenze sequenze in in Uniprot Uniprot Kingdom Archaea Bacteria Eukaryota Viruses Other sequences (% of the database) ( 1%) ( 82%) ( 14%) ( 2%) ( <1%)

19 Distribuzione Distribuzione della della lunghezze lunghezze delle delle sequenze sequenze proteiche proteiche The shortest sequence is GWA_SEPOF: 2 amino acids. The longest sequence is TITIN_MOUSE: amino acids.

20 Distribuzione Distribuzione delle delle frequenze frequenze degli degli amino amino acidi acidi Legend: gray = aliphatic, red = acidic, green = small hydroxy, blue = basic, black = aromatic, white = amide, yellow = sulfur

21 Formato del record: Flat File format Chiave del campo Valore del campo annotation : testo con le informazioni ( annotazioni ) sulla sequenza data : sequenza, memorizzata dal 5 al 3

22 GenBank/DDBJ entry

23 EMBL entry [resto della sequenza omesso]

24 DDBJ/EMBL/GenBank Feature table 100 5'UTR CDS 'UTR

25 SwissProt entry ID AC DT DT DT DE GN OS OC OC OX RN RP RX RA RA RT RT RL RP RC CC CC CC CC CC CC CC CC CC CC CC CC CC CC CC RASK_HUMAN STANDARD; PRT; 189 AA. P01116; 21-JUL-1986 (Rel. 01, Created) 21-JUL-1986 (Rel. 01, Last sequence update) 10-OCT-2003 (Rel. 42, Last annotation update) Transforming protein p21a (K-Ras 2A) (Ki-Ras) (c-k-ras). KRAS2 OR RASK2. Homo sapiens (Human). Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. NCBI_TaxID=9606; [1] SEQUENCE FROM N.A. MEDLINE= ; PubMed= ; [NCBI, ExPASy, EBI, Israel, Japan] McGrath J.P., Capon D.J., Smith D.H., Chen E.Y., Seeburg P.H., Goeddel D.V., Levinson A.D.; "Structure and organization of the human Ki-ras proto-oncogene and a related processed pseudogene."; Nature 304: (1983). SEQUENCE FROM N.A. TISSUE=Colon carcinoma, and Lung; -!- ALTERNATIVE PRODUCTS: Event=Alternative splicing; Named isoforms=2; Comment=Isoforms differ in the C-terminal region which is encoded by two alternative exons (IVA and IVB); Name=2A; IsoId=P ; Sequence=Displayed; Name=2B; IsoId=P ; Sequence=External; -!- DISEASE: KRAS2 mutations are involved in tumor formation. -!- MISCELLANEOUS: The mammalian ras gene family consists of the Harvey and Kirsten ras genes (c-hras1 and c-kras2), an inactive pseudogene of each (c-hras2 and c-kras1) and the N-ras gene. -!- SIMILARITY: Belongs to the small GTPase superfamily. Ras family. -!- DATABASE: NAME=Atlas Genet. Cytogenet. Oncol. Haematol.;

26 SwissProt entry (continua) Legame a cofattori Modificazione post-traduzionale DR DR DR DR DR DR DR KW KW FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT SQ // BLOCKS; P ProtoNet; P ProtoMap; P PRESAGE; P DIP; P ModBase; P SWISS-2DPAGE; GET REGION ON 2D PAGE. Proto-oncogene; GTP-binding; Prenylation; Palmitate; Lipoprotein; Alternative splicing; Disease mutation. NP_BIND GTP. NP_BIND GTP. NP_BIND GTP. DOMAIN Effector region. DOMAIN HYPERVARIABLE REGION. LIPID S-palmitoyl cysteine. LIPID S-farnesyl cysteine. VARIANT G -> C (in lung carcinoma). /FTId=VAR_ VARIANT G -> V (in colon carcinoma). /FTId=VAR_ VARIANT Q -> H (in lung carcinoma PR310 and pancreas T3M-4). /FTId=VAR_ MUTAGEN R->A: LOSS OF GTP-BINDING ACTIVITY. SEQUENCE 189 AA; MW; B2E11C2C81 CRC64; MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

27 EST entry LOCUS H bp mrna EST 24-NOV-1995 DEFINITION PL_16 Root, Angelo Bolchi Zea mays cdna clone PL_16, mrna sequence. ACCESSION H89388 VERSION H GI: KEYWORDS EST. SOURCE Zea mays. REFERENCE 1 (bases 1 to 338) AUTHORS Ottonello,S. TITLE cdnas from maize JOURNAL Unpublished (1995) COMMENT Contact: Simone Ottonello simone@irisbioc.bio.unipr.it. FEATURES Location/Qualifiers source /organism="zea mays" /db_xref="taxon:4577" /clone="pl_16" /clone_lib="root, Angelo Bolchi" /note="vector: pmosblue; Site_1: EcoRV; mrna was purified from the root of sulfate deprived maize seedlings. cdna was constructed using anchored oligo(dt) primers, and PCR amplified in the presence of the same anchored oligo(dt) primer and random primer (Science 257: ). Amplified cdna fragments were ligated into the pmosblue vector (Amersham)." BASE COUNT 91 a 70 c 64 g 113 t ORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata //

28 Interrogazione delle banche dati Interrogare una banca dati significa fare una ricerca testuale nella porzione header dei record, contenente le informazioni di testo sulla sequenza. Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare più banche dati con una sola interfaccia Entrez (NCBI) E importante usare questi sistemi propriamente perché ottenere esattamente l informazione che si cerca interrogando le banche dati di sequenze è difficile.

29 Sistemi di interrogazione: Entrez (GQuery) Entrez è un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti all NCBI (National Center for Biotechnology Information) e all NLM (National Library of Medicine). Gruppo di database limita la ricerca a in cui effettuare la particolari campi ricerca Rivede le ricerche effettuate per combinarle con operatori logici Le banche dati includono sequenze nucleotidiche e proteiche, strutture molecolari, genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE). Il client per l interrogazione può essere il browser o un programma a linea di comando in UNIX (Clever)

30 #1 L ago nel pagliaio Si cerca di solito una sequenza specifica Il numero delle sequenze nella banca dati cresce in modo esponenziale Il numero delle sequenze indesiderate è, in modo crescente, >> delle sequenze desiderate Risultato: trovare quello che si cerca è sempre più difficile

31 #2 Nomenclatura non standard Quando si cercano informazioni in banca dati si dipende dal modo in cui l autore ha deciso di descrivere l informazione. Il modo per designare anche i geni più noti (come il 16s RNA) non è uniforme

32 #3 Errori e stranezze LOCUS A bp DNA PAT 29-JAN-1993 DEFINITION Nucleotide sequence 3 from patent WO ACCESSION A00674 KEYWORDS SOURCE. Unknown ORGANISM Unknown Unclassified. REFERENCE 1 (bases 1 to 6) AUTHORS TITLE 'PRODUCTION OF CHIMERIC ANTIBODIES' JOURNAL Patent: WO A 3 13-MAR-1986; STANDARD full automatic BASE COUNT 3a 2c 0g 1t ORIGIN 1 cactaa // Sei nucleotidi brevettati di origine sconosciuta transciption, 26sequenze

33 Porzioni ordinate di GenBank Unigene: Sequenze di Est e di mrna organizzate in cluster che rappersentano un unico gene putativo. RefSeq: Sequenza di riferimento, definita da annotatori, per una data porzione genomica, mrna o proteina Gene: Loci genetici con informazioni curate da annotatori, relative a funzioni e fenotipi associati

34

35 Unigene: informazioni sui trascritti

36 Unigene: Profili di espressione Unigine EST Profile di Tirosina idrossilasi (Tirosina ->-> Dopa) Espressa soprattutto nel tessuto nervoso Trascritti per milione (TPM) ESTs derivanti dal gene / EST totali nel pool

37 Profili Profili di di espressione espressione con con RNASeq RNASeq SHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

38 Dal gene al fenotipo. Online Mendelian Inheritance in Man

39 Dal gene al genoma

40 Dal gene al genoma: analisi del contesto genomico Complete genome > Deinococcus radiodurans Proteina ipotetica Urato ossidasi

41 Ricerca di omologia in banca dati

42 Simian sarcoma virus onc gene, v-sis, is derived from the gene (or genes) encoding a platelet-derived growth factor. Doolittle et al. SCIENCE, 1983

43 Ricerca Ricerca di di omologia omologia in in banca banca dati dati RICERCA DI OMOLOGIA DI SEQUENZA := Data una sequenza (query), una banca dati, un sistema per il confronto e una soglia statistica trovare le sequenze della banca più somiglianti alla data sequenza, ordinate per significatività

44 Ricerca Ricerca di di omologia: omologia: schema schema >AAAA acgctaggctagctggatcggggatcggat aggctcggatcgggatttgagtctagggatg >BBBB gctagctggatcggggatcggat ggatcgggatttgagtctagggatg >query ccgctaggctagccatcggggatcggat acgctaggctagctggatcggggaaaa >CCCC cgctaggatagctggatcggggatcggat ggctcggatcgggatttgagtctagggatg acgctaggctagctggatcggggatcggat acgctaggctagctggatcggggatcggat acgctaggctagctggatcggggatcggat 1 Filtro statistico 2 >FFFFF cggctcggatcgggatttgagtctagggatg ccgctaggctagccatcggggatcggat acgctaggctagctggatcgggg >DDDD acgctaaaaggctagcatcggggatcggat >DDDD acgctaaaaggctagcatcggggatcggat >EEEEE cggctcggatcgggatttgagtctagggatg ccgctaggctagccatcggggatcggat acgctaggctagctggatcgggg >FFFFF cggctcggatcgggatttgagtctagggatg ccgctaggctagccatcggggatcggat acgctaggctagctggatcgggg >ZZZZZ acgctaggctagctggatcggggatcggat aggctcggatcgggatttgagtctagggatg n >AAAA acgctaggctagctggatcggggatcggat aggctcggatcgggatttgagtctagggatg

45 Significatività nella ricerca di omologia P = 1 e-e P E se E<<1 S E=Kmne E=significatività: numero di segmenti attesi raggiungere lo score S per effetto del caso K e sono parametri stimati con fitting. Dipendono dal tipo di matrice usata, dalle penalità assegnate ai gap e dalla composizione delle sequenze m = lunghezza della query n = dimensione della bancadati

46 Metodi Metodi per per la la ricerca ricerca in in banca banca dati dati Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati). In computer molto potenti (paralleli) è possibile usare un algoritmo di programmazione dinamica per una ricerca più accurata in tempi brevi. Allineamento ottimale SSEARCH (Smith-Waterman) Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale Allineamento euristico FASTA BLAST

47 SSEARCH SSEARCH Utilizza un algoritmo completo di programmazione dinamica. Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati. Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

48 Metodi euristici: confronto tra indici query sequence H A R F Y A A Q I V L Ktup = 1 Indice (Lookup table) A 2, 6, 7 F 4 H 1 I 9 L 11 Q 8 R 3 V 10 Y 5 Database sequence V D M A A Q I A Offset vector Segmento simile offsets

49 Il confronto tra indici trova rapidamente segmenti simili H A R F Y A A Q I V L V D M A A Q I A 1 2 Offset: Segmenti con il medesimo offset sono simili

50 Segmenti simili sono rappresentati come diagonali con il medesimo offset H A R F Y A A Q I V L V D M A A Q I A

51 FASTA Pearson & Lipmann, PNAS 1988 K-tuple = lungezza delle parole nell'indice k-tuple k-tuple k-tuple = 4 sensibilità velocità sensibilità velocità Valori standard: k-tuple=2 (proteine) k-tuple=6 (nucleotidi)

52 BLAST Altschul et al JMB 1990 Basic Local Alignment Tool Words (parole indice) T (punteggio minimo per parola) W T sensibilità velocità >query AGPDPATA AGP GPD PDP DPA PAT ATA words W T sensibilità velocità + PEP, EPA, DPG, Neighbourhood words La lunghezza delle words è definita dal parametro W. Il punteggio che devono raggiungere per essere considerate è definito dalparametro T. Valori di default W: blastp: 6 blastn: 11

53 BLAST BLAST (schema) (schema) Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine, 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia. Per ogni match con la banca dati, estende i segmenti a maggior punteggio (High Scoring Pairs, HSP) fino a quando lo score totale aumenta. Nella versione originale non ammetteva gap, le versioni attuali (gapped-blast) producono allineamenti con gap

54 Calcolo del numero di segmenti attesi (E) Il numero di segmenti attesi con un punteggio x>s per effetto del caso in confronti a coppie è calcolabile dalla distribuzione dei valori estremi (EVD) e dipende: 1) dal punteggio 2) dalla dimensione delle sequenze 3) dal sistema di punteggio usato (matrice e penalità) E Kmne S S è lo score dell'allineamento m e n sono le dimensioni delle sequenze confrontate. Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati K e dipendono dal tipo di matrice usata e dalle penalità assegnate ai gap e dalla composizione delle sequenze. Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali. In BLAST sono precalcolati per ogni matrice e penalità di gap In FASTA sono calcolati al momento della ricerca.

55 Significato di E nella ricerca di omologia Il valore di E è usato come misura della significatività dell'allineamento Un allineamento è significativo se è improbabile che si possa ottenere per effetto del caso P S x = 1 e E Se E è molto piccolo, ha il significato di una probabilità. Per E<<1, E P Negli altri casi ha il significato di numero di segmenti casuali attesi. Per E>>1, P 1

56 BLAST BLAST Output Output Sequences producing significant alignments: Score (bits) E Value gi ref NP_ High mobility group (HMG)-like... gi pir T12113 transcription factor - fava bean >gi... gi sp Q09390 YR44_CAEEL HYPOTHETICAL 23.8 KD PROTEI... gi gb AAK U22831_8 (U22831) Hypothetical pr... gi ref NP_ structure specific recognition... gi pir T43009 HMG protein Caenorhabditis el... gi gb AAK U22831_9 (U22831) Hypothetical pr... gi dbj BAB (AK017716) putative [Mus musculus] gi ref NP_ high mobility group 20A [Mus m... gi ref NP_ high-mobility group 20A [Homo s... gi pir JC6179 dorsal switch protein 1 - fruit fly... gi pir S50068 nonhistone chromosomal protein HMG1-... gi sp P25980 UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT... gi emb CAA (X59863) a xenopus upstream bindi... gi emb CAA (X81456) unnamed protein product e-90 1e-05 8e-05 1e-04 1e-04 1e-04 1e-04 2e-04 3e-04 3e-04 3e-04 3e-04 4e-04 4e-04 4e-04 gi sp Q91731 SX11_XENLA TRANSCRIPTION FACTOR SOX gi ref XP_ hypothetical protein XP_ gi pdb 1AAB Nmr Structure Of Rat Hmg1 Hmga Frag... gi dbj BAB (AK004857) putative [Mus musculus] gi pdb 1HME High Mobility Group Protein Fragment... gi pir T03375 high mobility group protein HMGd gi gb AAK (AC024859) Hypothetical protein

57 BLAST BLAST Output Output 22 Allineamenti >gi ref NP_ High mobility group (HMG)-like protein; Hmo1p [Saccharomyces Length = 246 Score = 332 bits (850), Expect = 3e-90 Identities = 191/220 (86%), Positives = 191/220 (86%) Query: 1 Sbjct: 1 Query: 61 Sbjct: Lambda MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYV TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120 K H Gapped Lambda K H Matrix: BLOSUM62 Gap Penalties: Existence: 11, Extension: 1 Statistiche basate su valori di e K pre-calcolati per determinate matrici, composizione in residui e penalità per gap

58 Punteggi Punteggi normalizzati normalizzati (Bits (Bits score) score) Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score, sia come score normalizzato (bits score). La relazione che lega S' ad E diventa:

59 Regioni a bassa complessità Le regioni a bassa complessità hanno una diversa statistica dei punteggi casuali poiché le probabilità di match casuali sono molto più alte La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV Avrà molte più provabilità di avere falsi match con altre sequenze con simile composizione aminoacidica Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto. La sequenza verrà quindi trasformata in: LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV) Il filtro può essere attivo a default in BLAST. In alcuni casi, quando si vuole ricercare altre sequenze con simili ripetizioni, è opportuno disattivare il filtro

60 Output Output grafico grafico di di blast blast

61 II programmi programmi della della famiglia famiglia BLAST BLAST ee FASTA FASTA Programma Query Banca dati Tipo di confronto BLAST FASTA blastn fasta3 nuc nuc nuc / nuc blastp fasta3 aa aa aa / aa blastx fastx3 fasty3 nuc aa aa / aa tblastn tfastx3 tfasty3 aa nuc aa /aa tblastx nuc nuc aa / aa

62 E(DNA) vs E(Proteine) Valori attesi con la sequenza di DNA [Score, E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila. La ricerca che utilizza la sequenza proteica fornisce risultati più significativi ed è in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

63 Misure dell accuratezza della ricerca SENSIBILITA o COPERTURA [ VP / (VP + FN) ] := Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi) SELETTIVITA [ VP / (VP + FP) ] := Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi) ERRORE [ FP / (VP + FP) ] := Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

64 Compromesso tra sensibilità e selettività Sequenze non appartenenti alla famiglia Sequenze appartenenti alla famiglia Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi, molto difficilmente si hanno due curve perfettamente separate. Una soglia stringente consente di eliminare i falsi positivi ma ha anche l effetto di escludere alcuni veri positivi. Viceversa, una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi. Un compromesso spesso usato è scegliere la soglia all intersezione delle curve.

65 Copertura vs Errore 100% soglia=30 Errore. % falsi positivi sul totale soglia=20 soglia=10 Diverse soglie di punteggo Sensibilità (Copertura). Due metodi. Quello tratteggiato è peggiore % veri positivi sul totale 100%

66 Accuratezza dei metodi di ricerca: indicatori Brenner et al PNAS 1998 Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identità di sequenza < del 40% E-value > Score > %id

67 Accuratezza dei metodi di ricerca: algoritmi Brenner et al PNAS 1998 Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identità di sequenza < del 40% SSEARCH > FASTA~WU-BLAST > BLAST (ungapped) METODO SSEARCH E-values FASTA ktup = 1 E-values FASTA ktup = 2 E-values WU-BLAST2 E-values BLAST E-values TEMPO (s) COPERTURA 1% Err

68 Argomenti pratici nella ricerca in banca dati Sapere dove cercare! (usare la banca dati più completa. Notare che alcune sezioni dbest, HTGS, Patent sono tenute separate dalla banca dati principale) Usare le matrici e le penalità dei i gap opportuni Preferire una ricerca con la traduzione in amino acidi se la query sequence è codificante Utilizzare SSEARCH per il massimo dell accuratezza Utilizzare FASTA (ktup=1) per una ricerca nucleotidica In BLAST fare attenzione all opzione filtro per regioni a bassa complessità Esaminare con attenzione l allineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione Ricordarsi dei genomi completi. Prestate attenzione anche a quello che non c è.