Banche dati di sequenze biologiche: Organizzazione e Interrogazione

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Banche dati di sequenze biologiche: Organizzazione e Interrogazione"

Transcript

1 Banche dati di sequenze biologiche: Organizzazione e Interrogazione

2 Raccolte di dati biologici Libri Margaret Dayhoff, collezione di proteine (NBRF) Floppy disk Cd rom PDB Strutture di macromolecole EMBL (Heidelberg) acidi nucleici 1982 GenBank (NCBI) acidi nucleici Internet EST (Expressed Sequence Tags) WWW Genomi Trascrittomi Oggi: migliaia di collezioni: funzioni, famiglie di proteine, motivi, vie metaboliche...

3 Una Una rivista rivista scientifica scientifica dedicata dedicata alle alle banche banche dati dati biologiche biologiche

4 Definizione di banca dati :una collezione di informazioni organizzata in modo che un programma al computer possa velocemente accedere a determinate porzioni di dati Data bank (Banca dati) Collezione di dati Database (Base di dati) Collezione di dati + software per accedervi

5 Struttura Struttura delle delle banche banche dati dati Diagramma della struttura di un database. Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi).

6 Banche dati di macromolecole biologiche Primarie Informazione acquisita direttamente Acidi nucleici Sequenze espresse (EST) Proteine Strutture Secondarie Organizzano informazioni presenti in altre banche dati Famiglie di proteine Famiglie di strutture Promotori

7 Banche dati primarie: acidi nucleici Tre consorzi che scambiano informazioni (International Nucleotide Sequence Database Collaboration): GenBank (americana) EMBL (europea) DDBJ (giapponese)

8 Acidi nucleici: Release e aggiornamenti Una Release in cui la banca dati viene congelata ad una certa data RELEASE NOTE Genetic Sequence Data Bank October NCBI-GenBank Flat File Release Distribution Release Notes 132,067,413,372 bases, 144,458,648 reported sequences + Aggiornamenti quotidiani: Es: GenBank_new, EMBL_new

9 Acidi nucleici: raccolta informazioni Inizialmente informazioni prese dalla letteratura Ora sottomesse direttamente dagli autori. La sottomissione della sequenza alle banche dati è condizione essenziale per pubblicare sulle principali riviste. I dati sono di solito segretati fino alla pubblicazione (entries hold until published) L autore ha il controllo completo della sequenza sottomessa, di conseguenza: solo l autore può modificare l informazione del proprio record, altri non possono correggere l informazione presente anche se questa è chiaramente errata la possibilità di trovare informazioni dipende da quanto accuratamente è stata descritta dall autore

10 Acidi nucleici: quantità di informazione 1015 basi (peta) 1012 basi (tera) (whole genome sequences)

11 Diminuizione esponenziale dei costi di sequenziamento

12 Acidi nucleici: organismi più rappresentati Entries Bases Species Homo sapiens Mus musculus Drosophila melanogaster Rattus norvegicus Oryza sativa Arabidopsis thaliana Caenorhabditis elegans Tetraodon nigroviridis Bos taurus Glycine max Danio rerio Lycopersicon esculentum Medicago truncatula Entamoeba histolytica Xenopus laevis Chlamydomonas reinhardtii Zea mays Strongylocentrotus pur. Sus scrofa

13 Banche dati primarie: EST Una banca dati di sequenze espresse: dbest (Expressed sequence Tag) Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mrna, ottenute per sequenziamento parziale di un clone a cdna. il sequenziamento automatico e a singolo passo utilizza primers sul vettore contenente l'inserto. Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5'- e 3'- terminali del trascritto. Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length.

14 EST: quantità di informazione Summary by Organism - October 1, Number of public entries: 70,937,429 Homo sapiens (human) Mus musculus (mouse) Zea mays (maize) Sus scrofa (pig) Bos taurus (cattle) Arabidopsis thaliana Danio rerio (zebrafish) Glycine max (soybean) Xenopus tropicalis (clawed frog) Oryza sativa (rice) Ciona intestinalis Rattus norvegicus (rat) Triticum aestivum (wheat) Drosophila melanogaster 8,315,272 4,853,562 2,019,114 1,624,046 1,559,494 1,529,700 1,488,275 1,461,624 1,271,375 1,252,989 1,205,674 1,162,136 1,073, ,005 Poco più del 50% dei geni umani sequenziati dal genoma ha un corrispondente nelle EST. Le EST rappresentano principalmente il 3' (65%) o il 5' (26%). dei trascritti. Solo nell'11% dei casi le EST 'unite' costituiscono la sequenza completa di un trascritto. Molte EST sono prodotte da company biotech e disponibili a pagamento. Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze.

15 EST: I.M.A.G.E consortium FEATURES source Location/Qualifiers /organism="homo sapiens" /db_xref="taxon:9606" /clone="image:69864" Se il clone da cui deriva la EST appartiene al consorzio I.M.A.G.E (integrated molecular analysis of genomes and their expression) o altri consorzi con accordi distribuzione pubblica è possibile ottenerlo ~gratuitamente da vari distributori

16 Banche dati primarie: proteine Due consorzi SwissProt (europeo) PIR (americano) UNIPROT (universal protein resource) Sequenze di proteine determinate per sequenziamento diretto (in minima parte) Sequenze ricavate dalla traduzione di sequenze codificanti di DNA, in parte annotate e commentate dai curatori della banca Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL GenPep (GenBank cds) TREMBL (EMBL cds) Sono peggio annotate di SwissProt e Pir, ma più complete

17 Proteine: quantità di informazione 9 x 107 Manualmente annotate: <5% (Uniprot/Swissprot)

18 Distribuzione Distribuzione tassonomica tassonomica delle delle sequenze sequenze in in Uniprot Uniprot Kingdom Archaea Bacteria Eukaryota Viruses Other sequences (% of the database) ( 1%) ( 82%) ( 14%) ( 2%) ( <1%)

19 Distribuzione Distribuzione della della lunghezze lunghezze delle delle sequenze sequenze proteiche proteiche The shortest sequence is GWA_SEPOF: 2 amino acids. The longest sequence is TITIN_MOUSE: amino acids.

20 Distribuzione Distribuzione delle delle frequenze frequenze degli degli amino amino acidi acidi Legend: gray = aliphatic, red = acidic, green = small hydroxy, blue = basic, black = aromatic, white = amide, yellow = sulfur

21 Formato del record: Flat File format Chiave del campo Valore del campo annotation : testo con le informazioni ( annotazioni ) sulla sequenza data : sequenza, memorizzata dal 5 al 3

22 GenBank/DDBJ entry

23 EMBL entry [resto della sequenza omesso]

24 DDBJ/EMBL/GenBank Feature table 100 5'UTR CDS 'UTR

25 SwissProt entry ID AC DT DT DT DE GN OS OC OC OX RN RP RX RA RA RT RT RL RP RC CC CC CC CC CC CC CC CC CC CC CC CC CC CC CC RASK_HUMAN STANDARD; PRT; 189 AA. P01116; 21-JUL-1986 (Rel. 01, Created) 21-JUL-1986 (Rel. 01, Last sequence update) 10-OCT-2003 (Rel. 42, Last annotation update) Transforming protein p21a (K-Ras 2A) (Ki-Ras) (c-k-ras). KRAS2 OR RASK2. Homo sapiens (Human). Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. NCBI_TaxID=9606; [1] SEQUENCE FROM N.A. MEDLINE= ; PubMed= ; [NCBI, ExPASy, EBI, Israel, Japan] McGrath J.P., Capon D.J., Smith D.H., Chen E.Y., Seeburg P.H., Goeddel D.V., Levinson A.D.; "Structure and organization of the human Ki-ras proto-oncogene and a related processed pseudogene."; Nature 304: (1983). SEQUENCE FROM N.A. TISSUE=Colon carcinoma, and Lung; -!- ALTERNATIVE PRODUCTS: Event=Alternative splicing; Named isoforms=2; Comment=Isoforms differ in the C-terminal region which is encoded by two alternative exons (IVA and IVB); Name=2A; IsoId=P ; Sequence=Displayed; Name=2B; IsoId=P ; Sequence=External; -!- DISEASE: KRAS2 mutations are involved in tumor formation. -!- MISCELLANEOUS: The mammalian ras gene family consists of the Harvey and Kirsten ras genes (c-hras1 and c-kras2), an inactive pseudogene of each (c-hras2 and c-kras1) and the N-ras gene. -!- SIMILARITY: Belongs to the small GTPase superfamily. Ras family. -!- DATABASE: NAME=Atlas Genet. Cytogenet. Oncol. Haematol.;

26 SwissProt entry (continua) Legame a cofattori Modificazione post-traduzionale DR DR DR DR DR DR DR KW KW FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT SQ // BLOCKS; P ProtoNet; P ProtoMap; P PRESAGE; P DIP; P ModBase; P SWISS-2DPAGE; GET REGION ON 2D PAGE. Proto-oncogene; GTP-binding; Prenylation; Palmitate; Lipoprotein; Alternative splicing; Disease mutation. NP_BIND GTP. NP_BIND GTP. NP_BIND GTP. DOMAIN Effector region. DOMAIN HYPERVARIABLE REGION. LIPID S-palmitoyl cysteine. LIPID S-farnesyl cysteine. VARIANT G -> C (in lung carcinoma). /FTId=VAR_ VARIANT G -> V (in colon carcinoma). /FTId=VAR_ VARIANT Q -> H (in lung carcinoma PR310 and pancreas T3M-4). /FTId=VAR_ MUTAGEN R->A: LOSS OF GTP-BINDING ACTIVITY. SEQUENCE 189 AA; MW; B2E11C2C81 CRC64; MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

27 EST entry LOCUS H bp mrna EST 24-NOV-1995 DEFINITION PL_16 Root, Angelo Bolchi Zea mays cdna clone PL_16, mrna sequence. ACCESSION H89388 VERSION H GI: KEYWORDS EST. SOURCE Zea mays. REFERENCE 1 (bases 1 to 338) AUTHORS Ottonello,S. TITLE cdnas from maize JOURNAL Unpublished (1995) COMMENT Contact: Simone Ottonello simone@irisbioc.bio.unipr.it. FEATURES Location/Qualifiers source /organism="zea mays" /db_xref="taxon:4577" /clone="pl_16" /clone_lib="root, Angelo Bolchi" /note="vector: pmosblue; Site_1: EcoRV; mrna was purified from the root of sulfate deprived maize seedlings. cdna was constructed using anchored oligo(dt) primers, and PCR amplified in the presence of the same anchored oligo(dt) primer and random primer (Science 257: ). Amplified cdna fragments were ligated into the pmosblue vector (Amersham)." BASE COUNT 91 a 70 c 64 g 113 t ORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata //

28 Interrogazione delle banche dati Interrogare una banca dati significa fare una ricerca testuale nella porzione header dei record, contenente le informazioni di testo sulla sequenza. Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare più banche dati con una sola interfaccia Entrez (NCBI) E importante usare questi sistemi propriamente perché ottenere esattamente l informazione che si cerca interrogando le banche dati di sequenze è difficile.

29 Sistemi di interrogazione: Entrez (GQuery) Entrez è un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti all NCBI (National Center for Biotechnology Information) e all NLM (National Library of Medicine). Gruppo di database limita la ricerca a in cui effettuare la particolari campi ricerca Rivede le ricerche effettuate per combinarle con operatori logici Le banche dati includono sequenze nucleotidiche e proteiche, strutture molecolari, genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE). Il client per l interrogazione può essere il browser o un programma a linea di comando in UNIX (Clever)

30 #1 L ago nel pagliaio Si cerca di solito una sequenza specifica Il numero delle sequenze nella banca dati cresce in modo esponenziale Il numero delle sequenze indesiderate è, in modo crescente, >> delle sequenze desiderate Risultato: trovare quello che si cerca è sempre più difficile

31 #2 Nomenclatura non standard Quando si cercano informazioni in banca dati si dipende dal modo in cui l autore ha deciso di descrivere l informazione. Il modo per designare anche i geni più noti (come il 16s RNA) non è uniforme

32 #3 Errori e stranezze LOCUS A bp DNA PAT 29-JAN-1993 DEFINITION Nucleotide sequence 3 from patent WO ACCESSION A00674 KEYWORDS SOURCE. Unknown ORGANISM Unknown Unclassified. REFERENCE 1 (bases 1 to 6) AUTHORS TITLE 'PRODUCTION OF CHIMERIC ANTIBODIES' JOURNAL Patent: WO A 3 13-MAR-1986; STANDARD full automatic BASE COUNT 3a 2c 0g 1t ORIGIN 1 cactaa // Sei nucleotidi brevettati di origine sconosciuta transciption, 26sequenze

33 Porzioni ordinate di GenBank Unigene: Sequenze di Est e di mrna organizzate in cluster che rappersentano un unico gene putativo. RefSeq: Sequenza di riferimento, definita da annotatori, per una data porzione genomica, mrna o proteina Gene: Loci genetici con informazioni curate da annotatori, relative a funzioni e fenotipi associati

34

35 Unigene: informazioni sui trascritti

36 Unigene: Profili di espressione Unigine EST Profile di Tirosina idrossilasi (Tirosina ->-> Dopa) Espressa soprattutto nel tessuto nervoso Trascritti per milione (TPM) ESTs derivanti dal gene / EST totali nel pool

37 Profili Profili di di espressione espressione con con RNASeq RNASeq SHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

38 Dal gene al fenotipo. Online Mendelian Inheritance in Man

39 Dal gene al genoma

40 Dal gene al genoma: analisi del contesto genomico Complete genome > Deinococcus radiodurans Proteina ipotetica Urato ossidasi

41 Ricerca di omologia in banca dati

42 Simian sarcoma virus onc gene, v-sis, is derived from the gene (or genes) encoding a platelet-derived growth factor. Doolittle et al. SCIENCE, 1983

43 Ricerca Ricerca di di omologia omologia in in banca banca dati dati RICERCA DI OMOLOGIA DI SEQUENZA := Data una sequenza (query), una banca dati, un sistema per il confronto e una soglia statistica trovare le sequenze della banca più somiglianti alla data sequenza, ordinate per significatività

44 Ricerca Ricerca di di omologia: omologia: schema schema >AAAA acgctaggctagctggatcggggatcggat aggctcggatcgggatttgagtctagggatg >BBBB gctagctggatcggggatcggat ggatcgggatttgagtctagggatg >query ccgctaggctagccatcggggatcggat acgctaggctagctggatcggggaaaa >CCCC cgctaggatagctggatcggggatcggat ggctcggatcgggatttgagtctagggatg acgctaggctagctggatcggggatcggat acgctaggctagctggatcggggatcggat acgctaggctagctggatcggggatcggat 1 Filtro statistico 2 >FFFFF cggctcggatcgggatttgagtctagggatg ccgctaggctagccatcggggatcggat acgctaggctagctggatcgggg >DDDD acgctaaaaggctagcatcggggatcggat >DDDD acgctaaaaggctagcatcggggatcggat >EEEEE cggctcggatcgggatttgagtctagggatg ccgctaggctagccatcggggatcggat acgctaggctagctggatcgggg >FFFFF cggctcggatcgggatttgagtctagggatg ccgctaggctagccatcggggatcggat acgctaggctagctggatcgggg >ZZZZZ acgctaggctagctggatcggggatcggat aggctcggatcgggatttgagtctagggatg n >AAAA acgctaggctagctggatcggggatcggat aggctcggatcgggatttgagtctagggatg

45 Significatività nella ricerca di omologia P = 1 e-e P E se E<<1 S E=Kmne E=significatività: numero di segmenti attesi raggiungere lo score S per effetto del caso K e sono parametri stimati con fitting. Dipendono dal tipo di matrice usata, dalle penalità assegnate ai gap e dalla composizione delle sequenze m = lunghezza della query n = dimensione della bancadati

46 Metodi Metodi per per la la ricerca ricerca in in banca banca dati dati Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati). In computer molto potenti (paralleli) è possibile usare un algoritmo di programmazione dinamica per una ricerca più accurata in tempi brevi. Allineamento ottimale SSEARCH (Smith-Waterman) Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale Allineamento euristico FASTA BLAST

47 SSEARCH SSEARCH Utilizza un algoritmo completo di programmazione dinamica. Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati. Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

48 Metodi euristici: confronto tra indici query sequence H A R F Y A A Q I V L Ktup = 1 Indice (Lookup table) A 2, 6, 7 F 4 H 1 I 9 L 11 Q 8 R 3 V 10 Y 5 Database sequence V D M A A Q I A Offset vector Segmento simile offsets

49 Il confronto tra indici trova rapidamente segmenti simili H A R F Y A A Q I V L V D M A A Q I A 1 2 Offset: Segmenti con il medesimo offset sono simili

50 Segmenti simili sono rappresentati come diagonali con il medesimo offset H A R F Y A A Q I V L V D M A A Q I A

51 FASTA Pearson & Lipmann, PNAS 1988 K-tuple = lungezza delle parole nell'indice k-tuple k-tuple k-tuple = 4 sensibilità velocità sensibilità velocità Valori standard: k-tuple=2 (proteine) k-tuple=6 (nucleotidi)

52 BLAST Altschul et al JMB 1990 Basic Local Alignment Tool Words (parole indice) T (punteggio minimo per parola) W T sensibilità velocità >query AGPDPATA AGP GPD PDP DPA PAT ATA words W T sensibilità velocità + PEP, EPA, DPG, Neighbourhood words La lunghezza delle words è definita dal parametro W. Il punteggio che devono raggiungere per essere considerate è definito dalparametro T. Valori di default W: blastp: 6 blastn: 11

53 BLAST BLAST (schema) (schema) Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine, 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia. Per ogni match con la banca dati, estende i segmenti a maggior punteggio (High Scoring Pairs, HSP) fino a quando lo score totale aumenta. Nella versione originale non ammetteva gap, le versioni attuali (gapped-blast) producono allineamenti con gap

54 Calcolo del numero di segmenti attesi (E) Il numero di segmenti attesi con un punteggio x>s per effetto del caso in confronti a coppie è calcolabile dalla distribuzione dei valori estremi (EVD) e dipende: 1) dal punteggio 2) dalla dimensione delle sequenze 3) dal sistema di punteggio usato (matrice e penalità) E Kmne S S è lo score dell'allineamento m e n sono le dimensioni delle sequenze confrontate. Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati K e dipendono dal tipo di matrice usata e dalle penalità assegnate ai gap e dalla composizione delle sequenze. Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali. In BLAST sono precalcolati per ogni matrice e penalità di gap In FASTA sono calcolati al momento della ricerca.

55 Significato di E nella ricerca di omologia Il valore di E è usato come misura della significatività dell'allineamento Un allineamento è significativo se è improbabile che si possa ottenere per effetto del caso P S x = 1 e E Se E è molto piccolo, ha il significato di una probabilità. Per E<<1, E P Negli altri casi ha il significato di numero di segmenti casuali attesi. Per E>>1, P 1

56 BLAST BLAST Output Output Sequences producing significant alignments: Score (bits) E Value gi ref NP_ High mobility group (HMG)-like... gi pir T12113 transcription factor - fava bean >gi... gi sp Q09390 YR44_CAEEL HYPOTHETICAL 23.8 KD PROTEI... gi gb AAK U22831_8 (U22831) Hypothetical pr... gi ref NP_ structure specific recognition... gi pir T43009 HMG protein Caenorhabditis el... gi gb AAK U22831_9 (U22831) Hypothetical pr... gi dbj BAB (AK017716) putative [Mus musculus] gi ref NP_ high mobility group 20A [Mus m... gi ref NP_ high-mobility group 20A [Homo s... gi pir JC6179 dorsal switch protein 1 - fruit fly... gi pir S50068 nonhistone chromosomal protein HMG1-... gi sp P25980 UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT... gi emb CAA (X59863) a xenopus upstream bindi... gi emb CAA (X81456) unnamed protein product e-90 1e-05 8e-05 1e-04 1e-04 1e-04 1e-04 2e-04 3e-04 3e-04 3e-04 3e-04 4e-04 4e-04 4e-04 gi sp Q91731 SX11_XENLA TRANSCRIPTION FACTOR SOX gi ref XP_ hypothetical protein XP_ gi pdb 1AAB Nmr Structure Of Rat Hmg1 Hmga Frag... gi dbj BAB (AK004857) putative [Mus musculus] gi pdb 1HME High Mobility Group Protein Fragment... gi pir T03375 high mobility group protein HMGd gi gb AAK (AC024859) Hypothetical protein

57 BLAST BLAST Output Output 22 Allineamenti >gi ref NP_ High mobility group (HMG)-like protein; Hmo1p [Saccharomyces Length = 246 Score = 332 bits (850), Expect = 3e-90 Identities = 191/220 (86%), Positives = 191/220 (86%) Query: 1 Sbjct: 1 Query: 61 Sbjct: Lambda MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYV TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120 K H Gapped Lambda K H Matrix: BLOSUM62 Gap Penalties: Existence: 11, Extension: 1 Statistiche basate su valori di e K pre-calcolati per determinate matrici, composizione in residui e penalità per gap

58 Punteggi Punteggi normalizzati normalizzati (Bits (Bits score) score) Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score, sia come score normalizzato (bits score). La relazione che lega S' ad E diventa:

59 Regioni a bassa complessità Le regioni a bassa complessità hanno una diversa statistica dei punteggi casuali poiché le probabilità di match casuali sono molto più alte La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV Avrà molte più provabilità di avere falsi match con altre sequenze con simile composizione aminoacidica Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto. La sequenza verrà quindi trasformata in: LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV) Il filtro può essere attivo a default in BLAST. In alcuni casi, quando si vuole ricercare altre sequenze con simili ripetizioni, è opportuno disattivare il filtro

60 Output Output grafico grafico di di blast blast

61 II programmi programmi della della famiglia famiglia BLAST BLAST ee FASTA FASTA Programma Query Banca dati Tipo di confronto BLAST FASTA blastn fasta3 nuc nuc nuc / nuc blastp fasta3 aa aa aa / aa blastx fastx3 fasty3 nuc aa aa / aa tblastn tfastx3 tfasty3 aa nuc aa /aa tblastx nuc nuc aa / aa

62 E(DNA) vs E(Proteine) Valori attesi con la sequenza di DNA [Score, E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila. La ricerca che utilizza la sequenza proteica fornisce risultati più significativi ed è in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

63 Misure dell accuratezza della ricerca SENSIBILITA o COPERTURA [ VP / (VP + FN) ] := Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi) SELETTIVITA [ VP / (VP + FP) ] := Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi) ERRORE [ FP / (VP + FP) ] := Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

64 Compromesso tra sensibilità e selettività Sequenze non appartenenti alla famiglia Sequenze appartenenti alla famiglia Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi, molto difficilmente si hanno due curve perfettamente separate. Una soglia stringente consente di eliminare i falsi positivi ma ha anche l effetto di escludere alcuni veri positivi. Viceversa, una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi. Un compromesso spesso usato è scegliere la soglia all intersezione delle curve.

65 Copertura vs Errore 100% soglia=30 Errore. % falsi positivi sul totale soglia=20 soglia=10 Diverse soglie di punteggo Sensibilità (Copertura). Due metodi. Quello tratteggiato è peggiore % veri positivi sul totale 100%

66 Accuratezza dei metodi di ricerca: indicatori Brenner et al PNAS 1998 Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identità di sequenza < del 40% E-value > Score > %id

67 Accuratezza dei metodi di ricerca: algoritmi Brenner et al PNAS 1998 Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identità di sequenza < del 40% SSEARCH > FASTA~WU-BLAST > BLAST (ungapped) METODO SSEARCH E-values FASTA ktup = 1 E-values FASTA ktup = 2 E-values WU-BLAST2 E-values BLAST E-values TEMPO (s) COPERTURA 1% Err

68 Argomenti pratici nella ricerca in banca dati Sapere dove cercare! (usare la banca dati più completa. Notare che alcune sezioni dbest, HTGS, Patent sono tenute separate dalla banca dati principale) Usare le matrici e le penalità dei i gap opportuni Preferire una ricerca con la traduzione in amino acidi se la query sequence è codificante Utilizzare SSEARCH per il massimo dell accuratezza Utilizzare FASTA (ktup=1) per una ricerca nucleotidica In BLAST fare attenzione all opzione filtro per regioni a bassa complessità Esaminare con attenzione l allineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione Ricordarsi dei genomi completi. Prestate attenzione anche a quello che non c è.

Ricerca di omologia di sequenza

Ricerca di omologia di sequenza Ricerca di omologia di sequenza RICERCA DI OMOLOGIA DI SEQUENZA := Data una sequenza (query), una banca dati, un sistema per il confronto e una soglia statistica trovare le sequenze della banca più somiglianti

Dettagli

Banche dati di sequenze biologiche: interrogazione e ricerca di omologia

Banche dati di sequenze biologiche: interrogazione e ricerca di omologia Banche dati di sequenze biologiche: interrogazione e ricerca di omologia Raccolte di dati biologici Libri - 1960 Margaret Dayhoff, collezione di proteine (NBRF) Floppy disk - 1977 PDB Strutture di macromolecole

Dettagli

http://biochimica.unipr.it/biocomp/ab/bioinformatica/index.html Banche dati di sequenze biologiche: Organizzazione e Interrogazione Raccolte di dati biologici Libri - 1960 Margaret Dayhoff, sequenze di

Dettagli

Internet web: >8,000,000,000 pagine

Internet web: >8,000,000,000 pagine Internet web: >8,000,000,000 pagine Merck Index: >10.000 monografie su composti chimici Uric Acid Ammonia is a universal participant in amino acid synthesis and degradation, but its accumulation has toxic

Dettagli

BLAST. W = word size T = threshold X = elongation S = HSP threshold

BLAST. W = word size T = threshold X = elongation S = HSP threshold BLAST Blast (Basic Local Aligment Search Tool) è un programma che cerca similarità locali utilizzando l algoritmo di Altschul et al. Anche Blast, come FASTA, funziona: 1. scomponendo la sequenza query

Dettagli

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 8 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 8 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche)

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche) Docente: Matteo Re UNIVERSITÀ DEGLI STUDI DI MILANO C.d.l. Informatica Bioinformatica A.A. 2013-2014 semestre I 3 Allineamento veloce (euristiche) Banche dati primarie e secondarie Esistono due categorie

Dettagli

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST Quarta lezione 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST Ricerca di omologhe in banche dati Proteina vs. proteine Gene (traduzione in aa) vs. proteine Gene vs. geni

Dettagli

Lezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 6 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

Bioinformatica ed applicazioni di bioinformatica strutturale!

Bioinformatica ed applicazioni di bioinformatica strutturale! Bioinformatica ed applicazioni di bioinformatica strutturale! Bioinformatica! Le banche dati! Programmi per estrarre ed analizzare i dati! I numeri! Cellule nell uomo! Geni nell uomo! Genoma umano Il dogma

Dettagli

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random Z-score lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random è una misura di quanto il valore di opt si discosta dalla deviazione standard media. indica di quante dev.

Dettagli

Banche Dati Primarie di Biosequenze

Banche Dati Primarie di Biosequenze Descrizione Ie banche dati primarie delle sequenze nucleotidiche EMBL, GenBank e DDBJ sono una collezione di sequenze di DNA e RNA che provengono dalla letteratura scientifica e dalle sequenze brevettate.

Dettagli

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2.

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2. Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti patti@di.unito.it Esercitazione 7 1 Info&Bio Bio@Lab Allineamento di sequenze Esercitazione 7 2 1 Es2: Allineamento

Dettagli

Banche Dati proteiche

Banche Dati proteiche Banche Dati proteiche Un altro grande database è UniProt, The Universal Protein Resource (http://www.uniprot.org/) nel quale sono radunate le sequenze proteiche, e le annotazione delle stesse, ottenute

Dettagli

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA. Il progetto Genoma Umano è iniziato nel 1990. E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA. Progetto internazionale finanziato da vari paesi, affidato

Dettagli

Laboratorio di Bioinformatica I. Parte 1. Dott. Sergio Marin Vargas (2014 / 2015)

Laboratorio di Bioinformatica I. Parte 1. Dott. Sergio Marin Vargas (2014 / 2015) Laboratorio di Bioinformatica I Banche dati Parte 1 Dott. Sergio Marin Vargas (2014 / 2015) Introduzione a NCBI National Center for Biotechnology Information (NCBI) http://www.ncbi.nlm.nih.gov/ NCBI Databases

Dettagli

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento Algoritmi EURISTICI di allineamento Sono nati insieme alle banche dati, con lo scopo di permettere una ricerca per similarità rapida anche se meno accurata contro le migliaia di sequenze depositate. Attualmente

Dettagli

Laboratorio di Metodologie e Tecnologie Genetiche ESERCITAZIONE DI BIOINFORMATICA

Laboratorio di Metodologie e Tecnologie Genetiche ESERCITAZIONE DI BIOINFORMATICA Laboratorio di Metodologie e Tecnologie Genetiche ESERCITAZIONE DI BIOINFORMATICA Bioinformatica - Scienza interdisciplinare coinvolgente la biologia, l informatica, la matematica e la statistica per l

Dettagli

Informatica e biotecnologie I parte. Informatica e biotecnologie. Banche dati biologiche: sommario. Strumenti per

Informatica e biotecnologie I parte. Informatica e biotecnologie. Banche dati biologiche: sommario. Strumenti per Informatica e biotecnologie I parte Banche dati biologiche e analisi di sequenze CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC CGAAATCGCATCAGCATACGATCGCATGC Informatica e biotecnologie Strumenti

Dettagli

Bellini Lara matricola: Tesina di Biologia Molecolare 2

Bellini Lara matricola: Tesina di Biologia Molecolare 2 Bellini Lara matricola: 594736 Tesina di Biologia Molecolare 2 Argomento: Scegli una proteina di Drosophila e trovala in Uniprot.Descrivi le informazioni presenti nel record ed i collegamenti a risorse

Dettagli

Corso di Elementi di Bioinformatica

Corso di Elementi di Bioinformatica Corso di Elementi di Bioinformatica Laurea Triennale in Informatica I dati e le banche dati in Bioinformatica Anno Accademico 2015-2016 Docente del laboratorio: Raffaella Rizzi 1 Il DNA (oggetto biologico)

Dettagli

Esempio di utilizzo del programma BLAST disponibile all NCBI Form di Nucleotide BLAST

Esempio di utilizzo del programma BLAST disponibile all NCBI   Form di Nucleotide BLAST Esempio di utilizzo del programma BLAST disponibile all NCBI www.ncbi.nlm.nih.gov/blast Form di Nucleotide BLAST Per un uso più avanzato, si possono impostare parametri particolari (es. cost to open gap,

Dettagli

Banche Dati. Docente: Dr. Antinisca DI MARCO

Banche Dati. Docente: Dr. Antinisca DI MARCO Docente: Dr. Antinisca DI MARCO Email: antinisca.dimarco@di.univaq.it La biologia molecolare produce una grande mole di dati che può essere memorizzata in database general-purpose o specialized (es. immunological):

Dettagli

Laboratorio di Bioinformatica I. Parte 2. Dott. Sergio Marin Vargas (2014 / 2015)

Laboratorio di Bioinformatica I. Parte 2. Dott. Sergio Marin Vargas (2014 / 2015) Laboratorio di Bioinformatica I Banche dati Parte 2 Dott. Sergio Marin Vargas (2014 / 2015) Google Scholar https://scholar.google.it/ E un motore di ricerca di Google, specializzato nella ricerca di articoli

Dettagli

Metodi euristici di allineamento

Metodi euristici di allineamento Metodi euristici di allineamento Algoritmi euristici di allineamento Sono nati insieme alle banche dati, con lo scopo di permettere una ricerca rapida, anche se meno accurata, utilizzando la similarità

Dettagli

Ricerche con BLAST (Laboratorio)

Ricerche con BLAST (Laboratorio) Laboratorio di Bioinformatica I Ricerche con BLAST (Laboratorio) Dott. Sergio Marin Vargas (2014 / 2015) NCBI BLAST BLAST: Basic Local Alignment Search Tool http://blast.ncbi.nlm.nih.gov/blast.cgi NCBI

Dettagli

Database biologici (banche di dati biologici)

Database biologici (banche di dati biologici) 1 Lo sviluppo di tecnologie strumentali sempre più sofisticate ha portato ad una enorme produzione di dati biologici. Per la gestione di questi dati è quindi necessario disporre di potenti sistemi di archiviazione

Dettagli

Sommario. Presentazione dell opera Ringraziamenti

Sommario. Presentazione dell opera Ringraziamenti Sommario Presentazione dell opera Ringraziamenti XI XII Capitolo 1 Introduzione alla bioinformatica 1 1.1 Cenni introduttivi 1 1.2 Pietre miliari della bioinformatica 2 1.3 Infrastrutture bioinformatiche

Dettagli

Allineamenti a coppie

Allineamenti a coppie Laboratorio di Bioinformatica I Allineamenti a coppie Dott. Sergio Marin Vargas (2014 / 2015) ExPASy Bioinformatics Resource Portal (SIB) http://www.expasy.org/ Il sito http://myhits.isb-sib.ch/cgi-bin/dotlet

Dettagli

Ottimizzazione del protocollo bioinformatico per l annotazione di geni codificanti proteine in genomi complessi. Marin Vargas, Sergio Paul

Ottimizzazione del protocollo bioinformatico per l annotazione di geni codificanti proteine in genomi complessi. Marin Vargas, Sergio Paul Ottimizzazione del protocollo bioinformatico per l annotazione di geni codificanti proteine in genomi complessi Marin Vargas, Sergio Paul 2012 Con l avvento del sequenziamento NGS a costi sempre più contenuti,

Dettagli

Database genomici primari

Database genomici primari Esercitazione di laboratorio di bioinformatica Seconda parte: I principali database genomici e proteomici Slide ricavate dal corso di Laboratorio Integrato di Biologia Computazionale Francesca Cordero

Dettagli

Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli. Esercizi ricerche in banche dati

Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli. Esercizi ricerche in banche dati Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli Esercizi ricerche in banche dati 1) Nel romanzo fantasy Jurassic Park di Michael Crichton sulla possibilità di clonare i dinosauri,

Dettagli

Provate rispondere alle domande, se ci riuscirete, sarete pronti a superare l esame per quanto riguarda la parte di bioinformatica.

Provate rispondere alle domande, se ci riuscirete, sarete pronti a superare l esame per quanto riguarda la parte di bioinformatica. Per aiutarvi ho elaborato (frettolosamente) questi quesiti che dovrebbero aiutarvi ad individuare gli argomenti importanti del corso ed a darvi un idea delle domande che potrebbero esservi poste all esame.

Dettagli

Il Corso sarà tenuto nei giorni di Lunedì, Mercoledì e Venerdì dalle ore 17 alle ore 19.

Il Corso sarà tenuto nei giorni di Lunedì, Mercoledì e Venerdì dalle ore 17 alle ore 19. Docente: Prof. Alfredo Ferro Il Corso sarà tenuto nei giorni di Lunedì, Mercoledì e Venerdì dalle ore 17 alle ore 19. Programma del Corso DATA ARGOMENTO 09/03/2011 Introduzione al corso. Slides Panoramica

Dettagli

FASTA. Lezione del

FASTA. Lezione del FASTA Lezione del 10.03.2016 Omologia vs Similarità Quando si confrontano due sequenze o strutture si usano spesso indifferentemente i termini somiglianza o omologia per indicare che esiste un rapporto

Dettagli

Laboratorio di Elementi di Bioinformatica

Laboratorio di Elementi di Bioinformatica Laboratorio di Elementi di Bioinformatica Laurea Triennale in Informatica (codice: E3101Q116) AA 2016/2017 I dati in Bioinformatica Docente del laboratorio: Raffaella Rizzi 1 Il DNA (oggetto biologico)

Dettagli

GENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi

GENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi GENOMA EVOLUZIONE CONTENUTO FUNZIONE STRUTTURA Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine Progetti genoma in centinaia di organismi Importante la sintenia tra i genomi The

Dettagli

La ricerca di similarità in banche dati

La ricerca di similarità in banche dati La ricerca di similarità in banche dati Uno dei problemi più comunemente affrontati con metodi bioinformatici è quello di trovare omologie di sequenza interrogando una banca dati. L idea di base è che

Dettagli

La ricerca di similarità: i metodi

La ricerca di similarità: i metodi La ricerca di similarità: i metodi Pairwise alignment allineamenti a coppie 1. Analisi della matrice a punti (dot matrix) 2. Programmazione dinamica (dynamic programming) allineamenti locale e globale.

Dettagli

Descrizione generale dell esame

Descrizione generale dell esame Descrizione generale dell esame Ci saranno 15 domande a risposta multipla: le risposte corrette aggiungono punti le risposte sbagliate tolgono punti Ciascuna domanda avrà 2 risposte corrette e due sbagliate

Dettagli

31/05/2007. Omologia. Evoluzione: Mutabilità e Selezione Naturale. Similarità. Sequenze omologhe sono sempre simili?

31/05/2007. Omologia. Evoluzione: Mutabilità e Selezione Naturale. Similarità. Sequenze omologhe sono sempre simili? . 31/05/2007 Evoluzione Molecolare e omologia Evoluzione Molecolare e omologia Evoluzione: Mutabilità e Selezione Naturale Le sequenze degli organismi attuali hanno avuto origine dall evoluzione di sequenze

Dettagli

Tesina di Biologia Molecolare II

Tesina di Biologia Molecolare II MELATO GIULIA 595033 Tesina di Biologia Molecolare II Mostra un albero filogenetico con la relazione tra Uomo, Topo e Ratto. Che banca dati è disponibile per quest'ultimo organismo? Descrivi alcune caratteristiche

Dettagli

Laboratorio di Elementi di Bioinformatica

Laboratorio di Elementi di Bioinformatica Laboratorio di Elementi di Bioinformatica Laurea Triennale in Informatica (codice: E3101Q116) AA 2015/2016 Parsing di un file in formato EMBL (parte I) Docente del laboratorio: Raffaella Rizzi 1 Esercizio

Dettagli

Informatica e Bioinformatica A. A

Informatica e Bioinformatica A. A GQuery (http://www.ncbi.nlm.nih.gov/gquery/) è il punto di partenza per eseguire query su tutti o parte dei database dell NCBI: si basa sul sistema di interrogazione ENTREZ Informatica e Bioinformatica

Dettagli

Informatica e biotecnologie

Informatica e biotecnologie Informatica e biotecnologie Ricerca di informazioni e analisi di sequenze CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC CGAAATCGCATCAGCATACGATCGCATGC Informatica e biotecnologie Strumenti per raccogliere

Dettagli

Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini)

Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini) Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini) Collegatevi al sito www.ncbi.nlm.nih.gov/blast. Apparirà una pagina nella quale le versioni

Dettagli

DataBase Biologici 1

DataBase Biologici 1 DataBase Biologici 1 Lo sviluppo di tecnologie strumentali sempre più sofisticate ha portato ad una enorme produzione di dati biologici. Per la gestione di questi dati è quindi necessario disporre di potenti

Dettagli

METODOLOGIE BIOCHIMICHE ESERCITAZIONE DI BIOINFORMATICA

METODOLOGIE BIOCHIMICHE ESERCITAZIONE DI BIOINFORMATICA METODOLOGIE BIOCHIMICHE ESERCITAZIONE DI BIOINFORMATICA Scopo di questa esercitazione è apprendere l utilizzo di internet per: STUDIO DELLA STRUTTURA E DELLA FUNZIONE DELLE PROTEINE Conoscere i database

Dettagli

Ogni tipo ha il suo alfabeto di riferimento, e metodi specifici, nonché metodi per la conversione da un tipo all altro (trascrizione, traduzione)

Ogni tipo ha il suo alfabeto di riferimento, e metodi specifici, nonché metodi per la conversione da un tipo all altro (trascrizione, traduzione) BioPython Descrizione Il progetto BioPython è un associazione di sviluppatori di codice Python liberamente disponibile per bioinformatica La homepage del progetto è http://www.biopython.org Il codice viene

Dettagli

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing SAGA: sequence alignment by genetic algorithm ALESSANDRO PIETRELLI Soft Computing Bologna, 25 Maggio 2007 Multi Allineamento di Sequenze (MSAs) Cosa sono? A cosa servono? Come vengono calcolati Multi Allineamento

Dettagli

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche InfoBioLab I ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche Esercizio 1 - obiettivi: Ricerca di 2 proteine in ENTREZ Salva i flat file che descrivono le 2 proteine in formato testo Importa

Dettagli

Applicazione della biologia molecolare nella valutazione del benessere del cavallo

Applicazione della biologia molecolare nella valutazione del benessere del cavallo UNIVERSITA DEGLI STUDI DI PERUGIA FACOLTA DI MEDICINA VETERINARIA Centro di Studio del Cavallo Sportivo Applicazione della biologia molecolare nella valutazione del benessere del cavallo Andrea Verini

Dettagli

Banche dati molti dati sulle proteine derivano dalle banche dati primarie

Banche dati molti dati sulle proteine derivano dalle banche dati primarie Banche dati Banche dati Si possono raggruppare in varie categorie in base al tipo di dato biologico che raccolgono e organizzano, ma ce ne sono alcune che sono da considerarsi fondamentali: - banche dati

Dettagli

Database di sequenze. Dati di sequenza. Caratteristiche dei dati della biologia molecolare. I dati ed i problemi della bioinformatica

Database di sequenze. Dati di sequenza. Caratteristiche dei dati della biologia molecolare. I dati ed i problemi della bioinformatica I dati ed i problemi della bioinformatica Giorgio Valentini DSI Università degli Studi di Milano 1 Caratteristiche dei dati della biologia molecolare Diverse tipologie di dati bio-molecolari Per ogni tipo

Dettagli

BLAST: Basic Local Alignment Search Tool

BLAST: Basic Local Alignment Search Tool BLAST: Basic Local Alignment Search Tool 1 Outline della lezione di oggi BLAST Uso pratico Algoritmo Strategie Trovare proteine lontanamente legate: PSI-BLAST 2 Problema con gli algoritmi dinamici Gli

Dettagli

Bioinformatica. Analisi del genoma

Bioinformatica. Analisi del genoma Bioinformatica Analisi del genoma GABRIELLA TRUCCO CREMA, 5 APRILE 2017 Cosa è il genoma? Insieme delle informazioni biologiche, depositate nella sequenza di DNA, necessarie alla costruzione e mantenimento

Dettagli

Esercitazioni Informatiche e Telematiche

Esercitazioni Informatiche e Telematiche Esercitazioni Informatiche e Telematiche Scuola di Farmacia e Nutraceutica Università Magna Graecia di Catanzaro I Anno, I Semestre, A.A. 2015/2016 Ing. Alessia Sarica 2 Informazioni Docente Ing. Alessia

Dettagli

Laboratorio di Elementi di Bioinformatica

Laboratorio di Elementi di Bioinformatica Laboratorio di Elementi di Bioinformatica Laurea Triennale in Informatica (codice: E3101Q116) AA 2016/2017 Formato GTF per annotare un gene Docente del laboratorio: Raffaella Rizzi 1 GTF (Gene Transfer

Dettagli

METODOLOGIE BIOCHIMICHE ESERCITAZIONE DI BIOINFORMATICA

METODOLOGIE BIOCHIMICHE ESERCITAZIONE DI BIOINFORMATICA METODOLOGIE BIOCHIMICHE ESERCITAZIONE DI BIOINFORMATICA Scopo di questa esercitazione è apprendere l utilizzo di internet per: STUDIO DELLA STRUTTURA E DELLA FUNZIONE DELLE PROTEINE Conoscere i database

Dettagli

Principali Database biologici

Principali Database biologici Principali Database biologici Acidi nucleici: -Sequenze DNA genomico -Sequenze di trascritti (mrna) La maggior quantità di dati biologici presenti nei database è rappresentata da sequenze di acidi nucleici

Dettagli

Algoritmi di Allineamento

Algoritmi di Allineamento Algoritmi di Allineamento CORSO DI BIOINFORMATICA Corso di Laurea in Biotecnologie Università Magna Graecia Catanzaro Outline Similarità Allineamento Omologia Allineamento di Coppie di Sequenze Allineamento

Dettagli

Modulo Laboratorio A.A. 2014/2015

Modulo Laboratorio A.A. 2014/2015 Biochimica - Laboratorio di Bioinformatica I (CdL. Bioinformatica) Bioinformatica e banche dati biologiche (CdL. Biotecnologie) Modulo Laboratorio A.A. 2014/2015 Docente: Dr. Sergio Marin Vargas Mail:

Dettagli

L organizzazione del genoma. Prof. Savino; dispense di Biologia Molecolare, Corso di Laurea in Biotecnologie

L organizzazione del genoma. Prof. Savino; dispense di Biologia Molecolare, Corso di Laurea in Biotecnologie L organizzazione del genoma L organizzazione del genoma Fino ad ora abiamo studiato la regolazione dell espressione genica prendendo come esempio singoli geni dei batteri. Ma quanti geni ci sono in un

Dettagli

MODELLO SCHEDA INSEGNAMENTO. II II Luigi Cerulo

MODELLO SCHEDA INSEGNAMENTO. II II Luigi Cerulo Corso di L/LM/LMCU Denominazione insegnamento: MODELLO SCHEDA INSEGNAMENTO Numero di Crediti: 6 Anno: Semestre: Docente Titolare: Scienze e Tecnologie Genetiche Bioinformatica II II Luigi Cerulo Dottorandi/assegnisti

Dettagli

Strategie di annotazione di geni e genomi

Strategie di annotazione di geni e genomi Strategie di annotazione di geni e genomi Dr. Giovanni Emiliani giovanni.emiliani@unifi.it Bioinformatica A.A. 2011-1012 Concetti generali Le nuove tecnologie consentono l ottenimento di una grande mole

Dettagli

Genomica, proteomica, genomica strutturale, banche dati.

Genomica, proteomica, genomica strutturale, banche dati. Genomica, proteomica, genomica strutturale, banche dati. Alcune pietre miliari della biologia anno risultato 1866 Mendel scopre i geni 1944 il DNA è il materiale genetico 1951 prima sequenza di una proteina

Dettagli

Lezione 7. Allineamento di sequenze biologiche

Lezione 7. Allineamento di sequenze biologiche Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra

Dettagli

RELAZIONE di BIOLOGIA MOLECOLARE

RELAZIONE di BIOLOGIA MOLECOLARE NOME: Marini Selena MATRICOLA: 592330 RELAZIONE di BIOLOGIA MOLECOLARE CHE ORGANISMO MODELLO È DICTYOSTELIUM? CHE RISORSE BIOINFORMATICHE AGEVOLANO I RICERCATORI CHE LO STUDIANO? Dictyostelium è un genere

Dettagli

Bioinformatica (3) Banche dati biologiche. Dott. Alessandro Laganà

Bioinformatica (3) Banche dati biologiche. Dott. Alessandro Laganà Bioinformatica (3) Banche dati biologiche Dott. Alessandro Laganà Banche dati biologiche Organismi e sequenze biologiche Rappresentazione digitale dei dati biologici e formati Banche dati generiche: NCBI,

Dettagli

Modello computazionale per la predizione di siti di legame per fattori di trascrizione

Modello computazionale per la predizione di siti di legame per fattori di trascrizione Modello computazionale per la predizione di siti di legame per fattori di trascrizione Attività di tirocinio svolto presso il Telethon Institute of Genetics and Medicine Relatori Prof. Giuseppe Trautteur

Dettagli

II LEZIONE. Database di interesse per la genetica e la biologia molecolare. Portali per l'accesso a database e servizi bioinformatici

II LEZIONE. Database di interesse per la genetica e la biologia molecolare. Portali per l'accesso a database e servizi bioinformatici II LEZIONE Database di interesse per la genetica e la biologia molecolare Portali per l'accesso a database e servizi bioinformatici DATABASE DI GENETICA E BIOLOGIA MOLECOLARE OMIM Online Mendelian Inheritance

Dettagli

lezione martedì 6 aprile 2010 aula 2 ore 9:00 corso integrato di Biologia Applicata (BU) ed Ingegneria Genetica (BCM)

lezione martedì 6 aprile 2010 aula 2 ore 9:00 corso integrato di Biologia Applicata (BU) ed Ingegneria Genetica (BCM) lezione 15-16 martedì 6 aprile 2010 aula 2 ore 9:00 corso integrato di Biologia Applicata (BU) ed Ingegneria Genetica (BCM) R.A.C.E. Con la RT-PCR si amplifica solo un frammento del cdna Se si vuole identificare

Dettagli

UTILIZZO DI BLAST PER ALCUNE SEMPLICI APPLICAZIONI IN STUDI GENOMICI

UTILIZZO DI BLAST PER ALCUNE SEMPLICI APPLICAZIONI IN STUDI GENOMICI UTILIZZO DI BLAST PER ALCUNE SEMPLICI APPLICAZIONI IN STUDI GENOMICI Come prima cosa diamo un occhiata alla nostra sequenza di interesse, chiamata «unknown sequence» Con un doppio click possiamo visualizzarla

Dettagli

Informatica e Bioinformatica: Basi di Dati

Informatica e Bioinformatica: Basi di Dati Informatica e Bioinformatica: Date TBD Bioinformatica I costi di sequenziamento e di hardware descrescono vertiginosamente si hanno a disposizione sempre più dati e hardware sempre più potente e meno costoso...

Dettagli

Introduzione alla Genomica

Introduzione alla Genomica Laboratorio di Bioinformatica I Introduzione alla Genomica Dott. Sergio Marin Vargas (2014 / 2015) Il Genoma umano Gene codificanti proteine Gene non codificanti proteine Geni codificanti proteine 3 Il

Dettagli

50 kb 4-5 milioni milioni 100 milioni 165 milioni Fago E. Coli S. cerevisiae C. elegans D. melanogaster. Human 3 miliardi

50 kb 4-5 milioni milioni 100 milioni 165 milioni Fago E. Coli S. cerevisiae C. elegans D. melanogaster. Human 3 miliardi Genomi GENOMI 50 kb 4-5 milioni 12-13 milioni 100 milioni 165 milioni Fago E. Coli S. cerevisiae C. elegans D. melanogaster Human 3 miliardi Problematiche etiche, privacy, scelte lavorative, rapporto

Dettagli

Lezione 6. Analisi di sequenze biologiche e ricerche in database

Lezione 6. Analisi di sequenze biologiche e ricerche in database Lezione 6 Analisi di sequenze biologiche e ricerche in database Schema della lezione Allinemento: definizioni Allineamento di due sequenze Ricerca di singola sequenza in banche dati (Alignment-based database

Dettagli

Programmazione dinamica

Programmazione dinamica rogrammazione dinamica Fornisce l allineamento ottimale tra due sequenze semplici variazioni dell algoritmo producono allineamenti globali o locali l allineamento calcolato dipende dalla scelta di alcuni

Dettagli

Bioinformatica. :studio dei problemi biologici attraverso le metodologie dell'informatica

Bioinformatica. :studio dei problemi biologici attraverso le metodologie dell'informatica Bioinformatica :studio dei problemi biologici attraverso le metodologie dell'informatica Sinomimi: biochimica computazionale, biologia molecolare computazionale Viceversa: Biocomputazione, algoritmi genetici,

Dettagli

ESERCITAZIONE 3. OBIETTIVO: Ricerca di omologhe mediante i programmi FASTA e BLAST

ESERCITAZIONE 3. OBIETTIVO: Ricerca di omologhe mediante i programmi FASTA e BLAST ESERCITAZIONE 3 OBIETTIVO: Ricerca di omologhe mediante i programmi FASTA e BLAST L'esercitazione prevede l'utilizzo di risorse web per effettuare ricerche di similarità con la proteina GRB2 (growth factor

Dettagli

Principali Database biologici

Principali Database biologici Principali Database biologici Acidi nucleici: -Sequenze DNA genomico -Sequenze di trascritti (mrna) La maggior quantità di dati biologici presenti nei database è rappresentata da sequenze di acidi nucleici

Dettagli

Principi di biologia

Principi di biologia Principi di biologia Prof.ssa Flavia Frabetti Tecnici di lab. 2009-10 BIOLOGIA è la scienza della vita, che indaga le caratteristiche dei sistemi viventi biologia animale biologia cellulare biologia molecolare

Dettagli

Lezione 7. Allineamento di sequenze biologiche

Lezione 7. Allineamento di sequenze biologiche Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra

Dettagli

Dimensioni dei Genomi Eucariotici

Dimensioni dei Genomi Eucariotici Dimensioni dei Genomi Eucariotici plasmids viruses bacteria fungi plants algae insects mollusks bony fish amphibians Il Genoma umano è costituito da circa 3 miliardi di bp e contiene un numero di geni

Dettagli

Banche dati biologiche

Banche dati biologiche Banche dati biologiche Tipi di basi di dati Acidi nucleici GenBank, EMBL Data Library, DNA Data Bank of Japan Sequenze proteiche PIR, Swiss-Prot, TrEMBL, UniProt Strutture Protein Data Bank Pubblicazioni

Dettagli

DATABASE DI GENETICA E BIOLOGIA MOLECOLARE

DATABASE DI GENETICA E BIOLOGIA MOLECOLARE DATABASE DI GENETICA E BIOLOGIA MOLECOLARE OMIM Online Mendelian Inheritance in Man EntrezGene curated sequence and descriptive information about genetic loci GenCards HGMD dbsnp database of human genes,

Dettagli

Corso di Bioinformatica

Corso di Bioinformatica Corso di Bioinformatica Cortona - Novembre 2002 Metodi Computazionali per l'analisi delle sequenze Dr. Sabino Liuni Istituto di Tecnologie Biomediche- CNR Sezione di Bioinformatica e Genomica - Bari Sabino@area.ba

Dettagli

LA BIOLOGIA MOLECOLARE E UNA BRANCA DELLA BIOLOGIA CHE STUDIA LE BASI MOLECOLARI DELLE FUNZIONI BIOLOGICHE, PONENDO UNA PARTICOLARE ATTENZIONE A QUEI

LA BIOLOGIA MOLECOLARE E UNA BRANCA DELLA BIOLOGIA CHE STUDIA LE BASI MOLECOLARI DELLE FUNZIONI BIOLOGICHE, PONENDO UNA PARTICOLARE ATTENZIONE A QUEI CONCETTI DI BASE LA BIOLOGIA MOLECOLARE E UNA BRANCA DELLA BIOLOGIA CHE STUDIA LE BASI MOLECOLARI DELLE FUNZIONI BIOLOGICHE, PONENDO UNA PARTICOLARE ATTENZIONE A QUEI PROCESSI CHE COINVOLGONO GLI ACIDI

Dettagli

Come facciamo ad isolare un gene da un organismo? Utilizziamo una libreria ovvero una collezione dei geni del genoma del cromosoma di un organismo

Come facciamo ad isolare un gene da un organismo? Utilizziamo una libreria ovvero una collezione dei geni del genoma del cromosoma di un organismo Come facciamo ad isolare un gene da un organismo? Utilizziamo una libreria ovvero una collezione dei geni del genoma del cromosoma di un organismo GENOMA di alcuni organismi viventi raffigurato come libri

Dettagli

Programmazione dinamica

Programmazione dinamica Programmazione dinamica Fornisce l allineamento ottimale tra due sequenze semplici variazioni dell algoritmo producono allineamenti globali o locali l allineamento calcolato dipende dalla scelta di alcuni

Dettagli

Evoluzione del genoma. Silvia Fuselli, 29 novembre 2011

Evoluzione del genoma. Silvia Fuselli, 29 novembre 2011 Evoluzione del genoma Silvia Fuselli, fss@unife.it 29 novembre 2011 In questa lezione parleremo di Meccanismi di evoluzione del genoma Formazione di nuovi geni Dimensioni del genoma e complessità degli

Dettagli

Vai al sito: Incolla nel box vuoto la sequenza nucleotidica

Vai al sito:  Incolla nel box vuoto la sequenza nucleotidica Identificare il gene a cui appartiene la sequenza (sonda) e la sua posizione sul cromosoma. Per raggiungere l obiettivo della prima parte dell attività devi usare il software BLAT (BLAST- Like Alignment

Dettagli

Struttura dei genomi delle piante

Struttura dei genomi delle piante Struttura dei genomi delle piante Genomi sequenziati Caratteristiche dei genomi delle piante Classi di geni e funzioni Trasposoni e dimensioni dei genomi Sintenia e colinearità Livelli di organizzazione

Dettagli

Basi di dati biologiche

Basi di dati biologiche Basi di dati biologiche Seminario per il corso di Basi di Dati II Luana Rinaldi luana.rinaldi@gmail.com AGENDA: Introduzione alla bioinformatica; Concetti Biologici; Banche dati biologiche; Collaborazioni

Dettagli

Decode NGS data: search for genetic features

Decode NGS data: search for genetic features Decode NGS data: search for genetic features Valeria Michelacci NGS course, June 2015 Blast searches What we are used to: online querying NCBI database for the presence of a sequence of interest ONE SEQUENCE

Dettagli

Lezione 7. Allineamento di sequenze biologiche

Lezione 7. Allineamento di sequenze biologiche Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra

Dettagli

Ai miei genitori, Love is caring enough not to hold on tightly. Con affetto, Fabrizio

Ai miei genitori, Love is caring enough not to hold on tightly. Con affetto, Fabrizio Ai miei genitori, Love is caring enough not to hold on tightly Con affetto, Fabrizio UNIVERSITA DI PISA Corso di Laurea Magistrale in Medicina Veterinaria DNA-FISH in cromosomi metafasici di Bos taurus

Dettagli

Tecnologia del DNA ricombinante

Tecnologia del DNA ricombinante Tecnologia del DNA ricombinante Scoperte rivoluzionarie che hanno permesso lo studio del genoma e della funzione dei singoli geni Implicazioni enormi nel progresso della medicina: comprensione malattie

Dettagli

Università degli studi di Pisa

Università degli studi di Pisa Università degli studi di Pisa Nicola Guido PATTERNHUNTER: Faster and More Sensitive. Homology Search Seminario: Bioinformatica a.a. 2008/2009 Contenuto della presentazione Introduzione Scenario PatternHunter

Dettagli