31/05/2007. Omologia. Evoluzione: Mutabilità e Selezione Naturale. Similarità. Sequenze omologhe sono sempre simili?

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "31/05/2007. Omologia. Evoluzione: Mutabilità e Selezione Naturale. Similarità. Sequenze omologhe sono sempre simili?"

Transcript

1 . 31/05/2007 Evoluzione Molecolare e omologia Evoluzione Molecolare e omologia Evoluzione: Mutabilità e Selezione Naturale Le sequenze degli organismi attuali hanno avuto origine dall evoluzione di sequenze ancestrali Le sequenze genomiche cambiano continuamente in modo casuale L ambiente seleziona gli individui in base al loro fenotipo Se il prodotto del gene modificato non è funzionale (perde struttura o funzione) l individuo muore e la modifica non si trasmette Omologia Due sequenze sono dette omologhe se hanno un ancestore comune Ortologhe in due specie differenti Paraloghe all interno della stessa specie (duplicazione genica) Similarità Due sequenze sono dette simili se condividono buona parte della sequenza (molti amminoacidi uguali o simili): concetto NON evolutivo, ma di confronto tra sequenze NB. Le mutazioni sono casuali? Almeno la loro velocità, non sempre: SOS polimerasi di Radman Omologia e Similarità Sequenze omologhe sono sempre simili? Dipende dal grado di divergenza Identità di sequenza e identità strutturale Quando la similarità di sequenza implica similiarità strutturale? Sequenze simili sono sempre omologhe? Sequenze differenti possono essere evolute convergentemente verso sequenze simili (es., non su sequenze, ali di uccelli e ali di pipistrello sono evoluzioni convergenti, a partire da da rettili e da mammiferi) Di principio similarità e omologia non coincidono esattamente. Tuttavia se due sequenze sono molto simili sono probabilmente omologhe. Per ora misuriamo la similarità in termini di identità di sequenza Identità di sequenza e identità strutturale Identità di sequenza e identità strutturale Fino a quanto due sequenze simili danno strutture uguali? of backbone atoms in core Rmsd o Percent identical residues in core tion of residues in core with RMSD < 0.1 nm Fract Chothia, C. & Lesk, A. M. (1986). The relation between the divergence of sequence and structure in proteins. EMBO J. 5, Percent identical residues in core 2 proteine sono sovrapposte e si esamina la percentuale di identità nel nucleo sovrapposto Proteine con identità maggiore del 60% hanno il 90% dei residui sovrapposti a meno di 0.1 nm di sequenza (%) Identità d identity Identità di sequenza implica identità strutturale Identità di sequenza NON implica identità strutturale Numero di residui allineati Rost B (1999). The twilight zone of protein alignments. Protein Engineering 12,

2 . 31/05/2007 Identità di sequenza e identità strutturale Quindi due sequenze più lunghe di 100 residui, che condividano il 30 % dei residui, hanno struttura simile Identità di sequenza e identità strutturale Per sequenze più lunghe di 100 residui Per sequenze più corte la percentuale di identità deve essere più alta Questo NONN implica che sequenze con identità minore abbiano strutture differenti Esempio: Mioglobina di capodoglio e emoglobina batterica: RMSD = 0.19 nm, Identità: 14% Midnight zone: Twilight zone: alto numero di falsi contiene la maggior positivi i parte delle proteine (sequenza simile strutturalmente simili struttura diversa) Safe zone: nessun falso positivo tutte tt le sequenze simili hanno la stessa struttura 20% 30% Percentuale di identità Identità di sequenza e funzione Il limite di identità che determina la stessa funzione è più difficile da stabilire e dipende criticamente dalla definizione di funzione. Per enzimi, la classe funzionale maggiore (ossidoreduttasi, isomerasi, ligasi, liasi.) viene conervata per sequenze con più del 30% di identità. La funzione più specifica richiede il 60% di identità istidase [1B8F] Aspartase [1JSW] δ2-crystallin [1AUW] - CO 2 + N3 N N - CO 2 N N + N 3 - CO2 O C N3 + O - - O2C - CO2 + N3 Avian eye lens protein Dati: Torsten Schwede Università di Basilea Allineamento di sequenze Problema: date due sequenze, confrontarle in modo da rilevare la loro similarità Definire una distanza tra le sequenze Cercare un algoritmo per trovare l allineamento a minima distanza Studiare metodi per validare la significatività dell allineamento Qualieventiconsideriamo? Distanza tra sequenze Mutazione Va definito un punteggio per la sostituzione dell amminoacido i con l amminoacido j Matrici di sostituzione s(i,j) A: ALASVLIRLITRLYP B: ASAVLNRLITRLYP i i Score( A, B) = s( A, B ) La matrice di sostituzione riflette se una mutazione è mediamente compatibile col folding e col mantenimento della funzione 2

3 Identità e similarità Nucleotidi: identità AGGCTGACCTGGGAAGGGAAACTCTCAAAACCAT AGGATGAGCT-GGAAGGATA-CTCTCAAAAACAT *** *** ** ******* ** ******** *** Amminoacidi: identità + somiglianza VLSSADKTNVKAAWGKVGAAGEYGAEALERMFL VLSAADKANIKAAW-KVGGQAGDGAEALERMPL ***:*** *:**** ***: **: ******** * Derivazione degli score da allineamenti di sequenze omologhe Vogliamo misurare la probabilità di mutazione di ogni tipo di amminoacido in un insieme di sequenze omologhe Date (molte) coppie di sequenze correlate, misuriamo la frequenza della sostituzione i A ->j B o i B ->j A (indipendente dalla direzione): P ij Es: A: ALASVLIRAILRLYP B: ALAVLLNRLILRALP P(A,A)= N(A A,A B )/N = 2/15 P(A,L)= P(L,A)= [N(L A,A B )+N(A A,L B )]/N = 2/15 La sostituzione è significativa? Qual è la probabilità che la sostituzione i->j sia casuale (e quindi non significativa)? Es: 1 insieme di sequenze omologhe A: ALASVLIRAILRLYP B: ALAVLLNRLILRALP 2 insieme di sequenze omologhe A: LLLLAALLLALLALL B: LALLAALLAALLALL P(A,L)= 2/15 in entrambi i casi. Sono ugualmente significativi? La probabilità che questa sostituzione sia casuale dipende dalle frequenze di occorrenza dei singoli amminoacidi P i e P j Confronto con l ipotesi di indipendenza Sostituzione i A -> j B casuale significa che i 2 eventi: E 1 = (i in A) e E 2 = (j in B) sono INDIPENDENTI Per determinare il grado di non casualità della sostituzione bisogna confrontare P ij con il prodotto P i P j Es: 1 insieme di sequenze omologhe A: ALASVLIRAILRLYP B: ALAVLLNRLILRALP P(A)= 6/30, P(L) =10/30 P(A,L) = 2/15 > 1/15 = P(A)P(L): sostituzione FAVORITA 2 insieme di sequenze omologhe A: LLLLAALLLALLALL B: LALLAALLAALLALL P(A)= 10/30, P(L) =20/30 P(A,L) = 2/15 < 2/9 = P(A)P(L): sostituzione SFAVORITA Score di sostituzione Il rapporto r ij = P ij /P i P j determina se la sostituzione i -> j è più o meno frequente di quanto ci si aspetterebbe casualmente. Dato un allineamento tra due sequenze: A: SLDPIKTYRALMNVDSLRTFPIL B: SFGIKKTKLAKLPVDTIKSWPIL la probabilità di sostituzione A->B sarà data dal prodotto degli r ij : r SS r LF r DG r PI r IK (indipendenza delle posizioni) SCORE di SOSTITUZIONE: s(i,j) =int[k log(p ij /P i P j )] Il logaritmo rende la quantità additiva sulla sequenza Minima distanza = Massimo score (s) 3

4 ESERCIZIO Calcolare la matrice di sostituzione a partire dalle seguenti sequenze allineate ACAGGTGGACCT ACTGGTCGACTT CTATATGG CCGGATCG Matrici di sostituzione: PAM In base a questo concetto, differenti matrici possono essere derivate. La differenza fondamentale sta nell insieme di allineamenti considerati per costruire le matrici. PAMx: (Point Accepted Mutation). Numero di eventi mutazionali pari a x%. Si costruisce la matrice: A 1 ij = P(j i) =N(i,j)/N(i) per sequenze con 1% di mutazioni. PAM 1 = Log(A 1 ij /P i ) Matrici di sostituzione: PAM Relazione tra PAM e identità tra due sequenze Per derivare gli score relativi a sequenze in cui siano avvenuti n eventi mutazionali ogni 100 residui: Es: n=2 P(i j) = Π l P(i l) P(l j) A n ij=(a 1 ij) n NOTA BENE: n % eventi mutazionali: numero di mutazioni, NON di residui mutati. Possono essere rimutati posizioni già mutate. 100 eventi mutazionali indipendenti ogni 100 residui lasciano alcune posizioni invariate PAM n = Log(A n ij /P i ) Il numero di eventi mutazionali (PAM) è differente dal numero di residui differenti tra due sequenze, quando le mutazioni si accumulano. PAM10 PAM160 Matrice molto stringente: nessun valore positivo fuori diagonale Iniziano valori positivi fuori diagonale: residui con valori di sostituzione positivi sono detti SIMILI 4

5 PAM250 PAM500 Molto usata Matrici di sostituzione BLOSUM62 Le matrici PAM ricavano ipotesi sulle mutazioni in sequenze lontane a partire dalle mutazioni osservate in sequenze molto simili. Ipotesi molto stretta. BLOSUMx: Famiglia di matrici ricavate direttamente da blocchi di allineamenti di sequenze con identità maggiore al x%. Per sequenze molto relate vanno usate PAM basse o BLOSUM alte. Per sequenze lontane, viceversa. Molto usata BLOSUM90 BLOSUM30 5

6 Qualieventiconsideriamo? Distanza tra sequenze Mutazione Delezione e Inserzione Alcuni amminoacidi possono essere stati deleti o inseriti nel corso dell evoluzione A: ALASVLIRLIT--YP B: ASAVL---ITRLYP i i Score( A, B) = s( A, B ) +σ (3) + σ (2) Il punteggio (negativo) di un gap dipende solo dal numero di posizioni σ(n) =-nd lineare σ(n) =-d-(n-1)e affine (d: apertura,e: estensione) Allineamento tra sequenze Date due sequenze, qual è l allineamento a punteggio massimo? Soluzione naïf: provare tutti gli allineamenti possibili e scegliere quello a punteggio maggiore! Per ogni allineamento, possiamo infatti calcolare il punteggio tramite la formula i i Score( A, B) s( A, B ) σ ( ngap ) = + i gap N.B. Tutti i punteggi sono indipendenti dalla posizione lungo la sequenza Quanti sono i possibili allineamenti di due sequenze? Scrivere TUTTI i possibili allineamenti senza gap interni delle sequenze: A: tca B: ga Scrivere TUTTI i possibili allineamenti con gap delle medesime sequenze Quanti sono i possibili allineamenti di due sequenze? Caso senza Gap interni --tca -tca tca tca tca- tca-- ga--- ga-- ga- -ga --ga ---ga Uguale al primo Date due sequenze di lunghezza m e n, il numero dei possibili scorrimenti differenti è m +n Scrivere i punteggi di allineamento per ognuno degli allineamenti secondo la seguente matrice con penalità di gap LINEARE (d=2) A C T G A C T 2-1 G 2 Quanti sono i possibili allineamenti di due sequenze? Caso con gap interni --tca -tca -tca -tca t-ca ga--- ga-- g-a- g--a ga-- gatca gtaca gtcaa gtcaa tgaca tca tca tc-a tca tcaga- g-a -ga- -ga --ga tgcaa tgcaa tcgaa tcgaa tcaga I possibili allineamenti sono uguali ai possibili modi di intercalare le due sequenze, mantenendo l ordine Date due sequenze di lunghezze n e m, i possibili allineamenti sono (m+n)!/n!m! Per n=m=80 ho possibili allineamenti!!!!!!! Algoritmi di programmazione dinamica: idea base Il calcolo per intero di tutti gli allineamenti è sovrabbondante ALSKLASPALSAKDLDSPALS ALSKIADSLAPIKDLSPASLT ALSKLASPALSAKDLDSPAL-S ALSKIADSLAPIKDLSPASLT- I due allineamenti sono per la maggior parte uguali. Lo score è additivo lungo l allineamento. Col metodo naïf la prima parte dell allineamento viene ricalcolata! Si possono memorizzare i punteggi degli allineamenti parziali 6

7 Complessità computazionale Numero di operazioni necessario per ottenere un risultato seguendo un algoritmo Algoritmo naïf Date due sequenze di lunghezza n dobbiamo calcolare (2n)!/(n!) 2 punteggi di allineamento. Ognuno richiede dalle n alle 2n operazioni. Allineamenti globali e locali Algoritmi differenti, ma sostanzialmente simili, cercano similarità GLOBALI confrontando intere sequenze o similarità LOCALI, cercando i segmenti che meglio si allineano all interno di due sequenze L annotazione si basa spesso sulla ricerca di domini comuni e elementi funzionali conservati Poiché n! n n (2π n) 1/2 e -n Complessità O(2 2n n 1/2 ) Algoritmo Needleman-Wunsch Vanno calcolati (n +1) 2 valori della matrice. Ognuno richiede 4 operazioni: Complessità (n 2 ) Significatività di un allineamento Dato un allineamento (globale o locale) che abbia ottenuto un punteggio S, come valutare se è significativo? Come sono distribuiti i punteggi di allineamenti di sequenze casuali? Con 100,000 allineamenti di sequenze scorrelate e randomizzate: Z=(S-<S>)/σ s Z-score S=Punteggio di allineamento <S>=Media dei punteggi di allineamento su un insieme random σ s =Deviazione dei punteggi di allineamento su un insieme random Occorrenza Gli allinementi significativi sono qua! Accuratezza dell allineamento Z<3 non significativo Score Quanto è affidabile lo Z-score? E-value Lo Z-score di questo allineamento locale è 7.5 su 54 residui L identità è 25.9%. Le sequenze sono completamente differenti in struttura secondaria Citrate synthase (2cts) vs transthyritin (2paba) Numero atteso di allineamenti random con punteggio maggiore o uguale a un punteggio dato (s) E reso possibile dal calcoli statistici E=Kmn e -λs m, n: lunghezze delle due sequenze K, λ: Costantidi scaling Il numero di allineamenti random a punteggio maggiore di s cresce col crescere delle lunghezze delle sequenze (o dei data base con cui confrontiamo una sequenza) e cala esponenziamente al crecere di s 7

8 E-value La probabilità P di trovare un allineamento con score maggiore o uguale ad un certo valore S è data da: E ( S x ) = 1 e P S 1 Accuratezza dell allineamento La significatività dell E-value dipende dalla lunghezza della banca dati considerata. Per un numero di sequenze pari a quello di SwissProt E> 10-1 non significativo E < 10-3 significativo ifi Ricerca di similarità in Banche Dati Data una sequenza, cercare se esistono sequenze simili in una banca dati Di principio si potrebbero fare allineamenti tra la sequenza target e TUTTE le sequenze Le sequenze da allineare sono troppe, e il processo non è fattibile in tempi brevi nemmeno usando l algoritmo di NW Si utilizzano algoritmi euristici, che non assicurano il raggiungimento dell allineamento ottimo FASTA BLAST FASTA Data una sequenza (Query), viene divisa in parole lunghe k-tup (generalmente k-tup = 2 per proteine, 6 per DNA) ADKLPTLPLRLDPTNMVFGLRI Parole (indicizzate per posizione): AD, DK, KL, LP, PT, TL, LP, PR, RL,,, Lo stesso elenco di parole indicizzato è compilato per ogni sequenza (Subject) del data base in cui si cercano sequenze. E molto rapida la ricerca di parole uguali tra Query e Subject. La differenza degli indici determina la diagonale FASTA Query FASTA Query Identificazione delle identità di parole : identità consecutive danno origine a diagonali più lunghe Si selezionano le sequenze candidate I punteggi delle regioni più lunghe sono valutati con una matrice di score (PAM o BLOSUM) 8

9 FASTA Query FASTA Query Vengono cercate regioni ad alta similarità su diagonali vicine Si procede ad un allineamento esatto (Smith-Waterman) su una banda stretta attorno alla diagonale di maggior similarità (solitamente banda larga attorno ai 32 residui) Sequence similarity with FASTA BLAST Data un data base di sequenze, questo viene indicizzato: per ogni tripletta di residui consecutivi si memorizza in quali sequenze e in quali posizioni questa tripletta viene trovata. AAA AAC AAD ACA BLAST Data una sequenza (Query), viene divisa in parole lunghe W (generalmente W = 3 per proteine) LSLPTLPLRLDPTNMVFGLRI LS, SL, LP, LPT, PTL, TLR,,, Per ognuna vengono generate le parole affini secondo la BLOSUM62: parole con punteggio > T (T = ) 13) LS 16 IS 14 MS 14 VS 13 LA 13 LT 13 LN 13 The BLAST Algorithm: Seeding (W and T) Speed gained by minimizing search space Alignments require word hits Neighborhood words W and T modulate speed and sensitivity Sequence 1 word hits T=12 BLOSUM62 neighborhood of RGD RGD 17 KGD 14 QGD 13 RGE 13 EGD 12 GD 12 NGD 12 RGN 12 AGD 11 MGD 11 RAD 11 RGQ 11 RGS 11 RND 11 RSD 11 SGD 11 TGD 11 9

10 The BLAST Algorithm: 2-hit Seeding Alignments tend to have multiple word hits. Isolated word hits are frequently false leads. Most alignments have large ungapped regions. isolated words word clusters Requiring 2 word hits on the same diagonal (of 40 aa for example), greatly increases speed at a slight cost in sensitivity. BLAST Per ognuna delle parole affini vengono recuperate le sequenze del data base che la contengono (secondo l indicizzazione) The BLAST Algorithm: Extension Alignments are extended from seeds in each direction. Extension is terminated when the maximum score drops below X. alignment extension La corrispondenza viene estesa (senza gap) a destra e a sinistra fino a che lo score rimane superiore a una soglia S. Durante l estensione vengono tollerate perdite di score fino a una tolleranza X Query:83 Subject:48 LMVAISNVGTDTLSLEAQNKIKSASNLSLTLQKSK +++AIS GT+++S +AQ++IK+AS+ L L + ++ VILAISGFGTESMSADAQDRIKAASYQLCLKIDRAE SP Text example match +1 mismatch -1 no gaps The quick brown fox jumps over the lazy dog. The quiet brown cat purrs when she sees him. length of extension trim to max X = Sequence similarity with BLAST (Basic Local Alignment Search Tool) >gi ref NP_ (NC_004193) 3-oxoacyl-(acyl carrier protein) reductase [Oceanobacillus iheyensis] Length = 253 Score = 38.9 bits (89), Expect = 3e-05 Identities = 17/40 (42%), Positives = 26/40 (64%) Frame = -1 Query: 4146 VTGAGGLGRAISLELAKKGCIAVVDINVSGAEDTVKQI 4027 VTGA G+G+AI+ A +G + V D+N GA+ V++I Sbjct: 10 VTGAASGMGKAIATLYASEGAKVIVADLNEEGAQSVVEEI 49 10

11 BLAST: i 4 parametri fondamentali W: word size, maggiore è il numero, minore è il numero di parole generate, minore è il tempo di esecuzione. Ma la sensibilità decresce sensibilmente. T: threshold, minore è il numero, maggiore è il numero di w-mers inclusi nella lista, maggiore è il tempo di esecuzione. Si ha però un incremento di sensibilità. S: score, minore è il numero, maggiore sarà la lunghezza degli SP X: maggiore è il numero, più estesamente sarà osservato l intorno di una SP, aumentando il tempo di esecuzione. Le versioni di BLAST blastp: cerca similarità in banche dati proteiche a partire da una query di amino acidi. blastn: cerca similarità in banche dati di nucleotidi a partire da una query di nucleotidi. blastx: cerca similarità in banche dati proteiche a partire da una query di nucleotidi che viene tradotta tt in tutti i frame. tblastn: cerca similarità in banche dati di nucleotidi a partire da una query di amino acidi, traducendo in amino acidi tutti i subject della banca dati, in tutti frame. tblastx: cerca similarità in banche dati di nucleotidi a partire da una query di nucleotidi, traducendo in amino acidi tutti i subject della banca dati The 5 Standard BLAST Programs Program Database Query Typical Uses BLASTN Nucleotide Nucleotide Mapping oligonucleotides, amplimers, ESTs, and repeats to a genome. Identifying related transcripts. BLASTP Protein Protein Identifying common regions between proteins. Collecting related proteins for phylogenetic analysis. BLASTX Protein Nucleotide Finding protein-coding genes in genomic DNA. TBLASTN Nucleotide Protein Identifying transcripts similar to a known protein (finding proteins not yet in GenBank). Mapping a protein to genomic DNA. TBLASTX Nucleotide Nucleotide Cross-species gene prediction. Searching for genes missed by traditional methods. gapped-blast: porta avanti la fase di estensione delle SP considerando la possibilità di inserzione dei gap. PSI-BLAST: effettua una ricerca iterativa utilizzando le SP per generare dei profili caratteristici della query. PI-BLAST: estensione di PSI-BLAST per la ricerca in banca dati di pattern proteici più che di query esatte. BL2SEQ: adattamento di blast per l allineamento a coppie MegaBLAST: può concatenare molte queries tra loro per minimizzare il tempo di esecuzione dovuto a sequenze query troppo lunghe (è adatto a sequenze nucleotidiche molto simili tra loro) FASTA vs BLAST FASTA vs BLAST simili in strategia, molto diversi nei contenuti Cerca parole esatte : può perdere similarità significative supera il problema grazie all introduzione dei w-mers N.B. i w-mers sono basati su una matrice quindi può accadere che match esatti score S inferiori rispetto a match non esatti Esempio, con Blosum62 - il match perfetto AIS-AIS dà score 12 - lo score inesatto LS-MS dà score 14 il mismatch è premiato più del match più tollerante per sequenze che presentano gaps, il loro inserimento è previsto già nelle prime fasi inserisce i gaps solo in fase di allungamento 11

12 60 Sequenze Low complexity La presenza nelle sequenze di regioni molto ripetitive (polyq, stratch idrofobici, ) può falsare i risultati della ricerca: si ritrovano altre regioni simili in proteine non imparentate: Di default viene utilizzato il filtro per le regioni low complexity: nell allineamento queste regioni vengono indicate come XXXXXX Query: 61 XXXXGVNLGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNLGISSELVN RRKIERDPNAPKKPLTVFFAYSAYV Sbjct: 61 TLTSGVNLGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120 Ricerca FASTA Lista score significatività The best scores are: opt bits E(787946) gi ref NP_ igh mobility group (MG)-like protein; ( 246) e-86 gi emb CAA (X59863) a xenopus upstream binding factor ( 701) gi pir S17196 transcription factor UBF2 - African clawed fro ( 701) gi sp P25980 UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) gi sp P40626 MGB_TETT IG-MOBILITY-GROUP PROTEIN B gi 1023 ( 143) gi pir T38936 non-histone chromosomal protein high mobility ( 108) gi pir S47596 MG1-like protein - fruit fly (Drosophila mel ( 216) gi sp P41848 SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) gi ref NP_ high mobility group protein (MG1), put ( 502) gi pir JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) gi gb AAB (L42570) putative [Cricetulus griseus] ( 764) gi pir A24019 i A24019 nonhistone chromosomal protein MG-T - trout t (f ( 172) gi dbj BAB (AK004961) putative [Mus musculus] ( 752) gi pir B40439 UBF transcription factor, short form - rat ( 727) gi ref XP_ hypothetical protein XP_ [omo sa ( 727) gi ref XP_ high-mobility group 20A [omo sapiens] ( 313) gi sp Q04931 SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) gi ref NP_ high mobility group 20A [Mus musculus] ( 346) Allineamenti >>gi ref NP_ igh mobility group (MG)-like protein; mo1p (246 aa) QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNLGISSELVNPI :::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: gi 632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNLGISSELVNPI Ricerca BLAST Score E Sequences producing significant alignments: (bits) Value gi ref NP_ igh mobility group (MG)-like e-90 gi pir T12113 transcription factor - fava bean >gi e-05 gi sp Q09390 YR44_CAEEL YPOTETICAL 23.8 KD PROTEI e-05 gi gb AAK U22831_8 (U22831) ypothetical pr e-04 gi ref NP_ structure specific recognition e-04 gi pir T43009 MG protein Caenorhabditis el e-04 gi gb AAK U22831_9 (U22831) ypothetical pr e-04 gi dbj BAB (AK017716) putative [Mus musculus] 46 2e-04 gi ref NP_ high mobility group 20A [Mus m e-04 gi ref NP_ high-mobility group 20A [omo s e-04 gi pir JC6179 dorsal switch protein 1 - fruit fly e-04 gi pir S50068 nonhistone chromosomal protein MG e-04 gi sp P25980 UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT e-04 gi emb CAA (X59863) a xenopus upstream bindi e-04 gi emb CAA (X81456) unnamed protein product e-04 gi sp Q91731 SX11_XENLA TRANSCRIPTION FACTOR SOX gi ref XP_ hypothetical protein XP_ gi pdb 1AAB Nmr Structure Of Rat mg1 mga Frag gi dbj BAB (AK004857) putative [Mus musculus] gi pdb 1ME igh Mobility Group Protein Fragment gi pir T03375 high mobility group protein MGd gi gb AAK (AC024859) ypothetical protein Allineamenti >gi ref NP_ igh mobility group (MG)-like protein; mo1p [Saccharomyces Length = 246 Score = 332 bits (850), Expect = 3e-90 Identities = 191/220 (86%), Positives = 191/220 (86%) Query: 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct: 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60 Query: 61 XXXXGVNLGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNLGISSELVN RRKIERDPNAPKKPLTVFFAYSAYV Sbjct: 61 TLTSGVNLGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV Lambda K Gapped Lambda K Matrix: BLOSUM62 Gap Penalties: Existence: 11, Extension: 1 Statistiche basate su valori di λ e k precacolati per determinate matrici, composizione in residui e penalità per gap E(DNA) vs E(Proteine) Allineamento di tutte le sequenze Valori attesi con la sequenza di DNA [Score, E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila. La ricerca che utilizza la sequenza proteica fornisce risultati più significativi ed è in grado di individuare omologhi della GST al di fuori del gruppo degli insetti ATTENZIONE: Non è allineamento multiplo ottimale 12

13 1 Y K D Y S - D K K K G E L Y R D Y Q T - D Q K K G D L Y R D Y Q S - D K K G E L Y R D Y V S - D K K G E L Y R D Y Q F - D Q K K G S L Y K D Y N T - Q K K N E S Y R D Y Q T - D K K A D L G Y G F G - - L I K N T E T T K 9 T K G Y G F G L I K N T E T T K 10 T K G Y G F G L I K N T E T T K Position Profilo di sequenza A C D E F G K I L M N P Q R S T V W Y Utilità del profilo di sequenza Il profilo di sequenza dà una descrizione complessiva di tutte le sequenze: evidenzia le zone più conservate o le mutazioni più frequenti posizione per posizione Allineare una sequenza contro un profilo I parametri di un allineamento sono generalmente identici per tutte le posizioni. Allineare contro un profilo pesa differentemente le mutazioni nelle differenti posizioni Dal profilo di sequenza possiamo ricavare una matrice di score dipendente dalla posizione A C D E F G K I L M N P Q R S T V W Y Stimo se ogni residuo in ogni posizione è più o meno presente di quanto ci si aspetterebbe random: confronto la probabilità desunta dal profilo con la probabilità a priori di avere l amminoacido in questione Sequenza Profilo delle sequenze rintracciate PSI-BLAST Fino a convergenza BLAST PSI-BLAST Data Base S AA (pos) = int [K log (Prof AA (pos)/p AA ) ] The design of PSI-BLAST (1) PSI-BLAST takes as an input a single protein sequence and compares it to a protein database, using the gapped BLAST program (2) The program constructs a multiple alignment, and then a profile, from any significant local alignments found. The original query sequence serves as a template for the multiple alignment and profile, whose lengths are identical to that of the query. Different numbers of sequences can be aligned in different template positions (3) The profile is compared to the protein database, again seeking local alignments. After a few minor modifications, the BLAST algorithm can be used for this directly. (4) PSI-BLAST estimates the statistical significance of the local alignments found. Because profile substitution scores are constructed to a fixed scale, and gap scores remain independent of position, the statistical theory and parameters for gapped BLAST alignments remain applicable to profile alignments. (5) Finally, PSI-BLAST iterates, by returning to step (2), an arbitrary number of times or until convergence. 13

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento Algoritmi EURISTICI di allineamento Sono nati insieme alle banche dati, con lo scopo di permettere una ricerca per similarità rapida anche se meno accurata contro le migliaia di sequenze depositate. Attualmente

Dettagli

Ricerca di omologia di sequenza

Ricerca di omologia di sequenza Ricerca di omologia di sequenza RICERCA DI OMOLOGIA DI SEQUENZA := Data una sequenza (query), una banca dati, un sistema per il confronto e una soglia statistica trovare le sequenze della banca più somiglianti

Dettagli

BLAST. W = word size T = threshold X = elongation S = HSP threshold

BLAST. W = word size T = threshold X = elongation S = HSP threshold BLAST Blast (Basic Local Aligment Search Tool) è un programma che cerca similarità locali utilizzando l algoritmo di Altschul et al. Anche Blast, come FASTA, funziona: 1. scomponendo la sequenza query

Dettagli

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST Quarta lezione 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST Ricerca di omologhe in banche dati Proteina vs. proteine Gene (traduzione in aa) vs. proteine Gene vs. geni

Dettagli

Metodi euristici di allineamento

Metodi euristici di allineamento Metodi euristici di allineamento Algoritmi euristici di allineamento Sono nati insieme alle banche dati, con lo scopo di permettere una ricerca rapida, anche se meno accurata, utilizzando la similarità

Dettagli

Algoritmi di Allineamento

Algoritmi di Allineamento Algoritmi di Allineamento CORSO DI BIOINFORMATICA Corso di Laurea in Biotecnologie Università Magna Graecia Catanzaro Outline Similarità Allineamento Omologia Allineamento di Coppie di Sequenze Allineamento

Dettagli

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random Z-score lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random è una misura di quanto il valore di opt si discosta dalla deviazione standard media. indica di quante dev.

Dettagli

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche)

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche) Docente: Matteo Re UNIVERSITÀ DEGLI STUDI DI MILANO C.d.l. Informatica Bioinformatica A.A. 2013-2014 semestre I 3 Allineamento veloce (euristiche) Banche dati primarie e secondarie Esistono due categorie

Dettagli

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2.

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2. Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti patti@di.unito.it Esercitazione 7 1 Info&Bio Bio@Lab Allineamento di sequenze Esercitazione 7 2 1 Es2: Allineamento

Dettagli

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 8 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 8 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing SAGA: sequence alignment by genetic algorithm ALESSANDRO PIETRELLI Soft Computing Bologna, 25 Maggio 2007 Multi Allineamento di Sequenze (MSAs) Cosa sono? A cosa servono? Come vengono calcolati Multi Allineamento

Dettagli

Le sequenze consenso

Le sequenze consenso Le sequenze consenso Si definisce sequenza consenso una sequenza derivata da un multiallineamento che presenta solo i residui più conservati per ogni posizione riassume un multiallineamento. non è identica

Dettagli

Lezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 6 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

La ricerca di similarità: i metodi

La ricerca di similarità: i metodi La ricerca di similarità: i metodi Pairwise alignment allineamenti a coppie 1. Analisi della matrice a punti (dot matrix) 2. Programmazione dinamica (dynamic programming) allineamenti locale e globale.

Dettagli

FASTA. Lezione del

FASTA. Lezione del FASTA Lezione del 10.03.2016 Omologia vs Similarità Quando si confrontano due sequenze o strutture si usano spesso indifferentemente i termini somiglianza o omologia per indicare che esiste un rapporto

Dettagli

Internet web: >8,000,000,000 pagine

Internet web: >8,000,000,000 pagine Internet web: >8,000,000,000 pagine Merck Index: >10.000 monografie su composti chimici Uric Acid Ammonia is a universal participant in amino acid synthesis and degradation, but its accumulation has toxic

Dettagli

Ricerche con BLAST (Laboratorio)

Ricerche con BLAST (Laboratorio) Laboratorio di Bioinformatica I Ricerche con BLAST (Laboratorio) Dott. Sergio Marin Vargas (2014 / 2015) NCBI BLAST BLAST: Basic Local Alignment Search Tool http://blast.ncbi.nlm.nih.gov/blast.cgi NCBI

Dettagli

Allineamento e similarità di sequenze

Allineamento e similarità di sequenze Allineamento e similarità di sequenze Allineamento di Sequenze L allineamento tra due o più sequenza può aiutare a trovare regioni simili per le quali si può supporre svolgano la stessa funzione; La similarità

Dettagli

Bioinformatica ed applicazioni di bioinformatica strutturale!

Bioinformatica ed applicazioni di bioinformatica strutturale! Bioinformatica ed applicazioni di bioinformatica strutturale! Bioinformatica! Le banche dati! Programmi per estrarre ed analizzare i dati! I numeri! Cellule nell uomo! Geni nell uomo! Genoma umano Il dogma

Dettagli

Pairwise Sequence Alignment BIOINFORMATICA. Corso di Laurea in Ingegneria Informatica e Biomedica. Università Magna Graecia Catanzaro

Pairwise Sequence Alignment BIOINFORMATICA. Corso di Laurea in Ingegneria Informatica e Biomedica. Università Magna Graecia Catanzaro Pairwise Sequence Alignment BIOINFORMATICA Corso di Laurea in Ingegneria Informatica e Biomedica Università Magna Graecia Catanzaro Outline Similarità Allineamento Omologia Allineamento Esatto di Coppie

Dettagli

Allineamenti a coppie

Allineamenti a coppie Laboratorio di Bioinformatica I Allineamenti a coppie Dott. Sergio Marin Vargas (2014 / 2015) ExPASy Bioinformatics Resource Portal (SIB) http://www.expasy.org/ Il sito http://myhits.isb-sib.ch/cgi-bin/dotlet

Dettagli

Perché considerare la struttura 3D di una proteina

Perché considerare la struttura 3D di una proteina Modelling Perché considerare la struttura 3D di una proteina Implicazioni in vari campi : biologia, evoluzione, biotecnologie, medicina, chimica farmaceutica... Metodi di studio della struttura di una

Dettagli

Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini)

Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini) Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini) Collegatevi al sito www.ncbi.nlm.nih.gov/blast. Apparirà una pagina nella quale le versioni

Dettagli

La ricerca di similarità in banche dati

La ricerca di similarità in banche dati La ricerca di similarità in banche dati Uno dei problemi più comunemente affrontati con metodi bioinformatici è quello di trovare omologie di sequenza interrogando una banca dati. L idea di base è che

Dettagli

ALLINEAMENTO DI SEQUENZE

ALLINEAMENTO DI SEQUENZE ALLINEAMENTO DI SEQUENZE Procedura per comparare due o piu sequenze, volta a stabilire un insieme di relazioni biunivoche tra coppie di residui delle sequenze considerate che massimizzino la similarita

Dettagli

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0;

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0; Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p1 p6 p i >0; 6! i=1 p i =1 Sequenza di dna/proteine x con probabilita q x Probabilita dell intera sequenza n " i!1 q xi Massima verosimiglianza

Dettagli

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche InfoBioLab I ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche Esercizio 1 - obiettivi: Ricerca di 2 proteine in ENTREZ Salva i flat file che descrivono le 2 proteine in formato testo Importa

Dettagli

BLAST: Basic Local Alignment Search Tool

BLAST: Basic Local Alignment Search Tool BLAST: Basic Local Alignment Search Tool 1 Outline della lezione di oggi BLAST Uso pratico Algoritmo Strategie Trovare proteine lontanamente legate: PSI-BLAST 2 Problema con gli algoritmi dinamici Gli

Dettagli

Università degli studi di Pisa

Università degli studi di Pisa Università degli studi di Pisa Nicola Guido PATTERNHUNTER: Faster and More Sensitive. Homology Search Seminario: Bioinformatica a.a. 2008/2009 Contenuto della presentazione Introduzione Scenario PatternHunter

Dettagli

Bioinformatics more basic notions

Bioinformatics more basic notions Bioinformatics more basic notions Alcune slides provengono dal materiale rilasciato da: Dr Sergio Marin Vargas - Verona Prof. Riccardo Percudari - Parma Bioinformatics Bio-inspired Computer science Gli

Dettagli

Allineamenti di sequenze: concetti e algoritmi

Allineamenti di sequenze: concetti e algoritmi Allineamenti di sequenze: concetti e algoritmi 1 globine: a- b- mioglobina Precoce esempio di allineamento di sequenza: globine (1961) H.C. Watson and J.C. Kendrew, Comparison Between the Amino-Acid Sequences

Dettagli

Lezione 6. Analisi di sequenze biologiche e ricerche in database

Lezione 6. Analisi di sequenze biologiche e ricerche in database Lezione 6 Analisi di sequenze biologiche e ricerche in database Schema della lezione Allinemento: definizioni Allineamento di due sequenze Ricerca di singola sequenza in banche dati (Alignment-based database

Dettagli

Lezione 7. Allineamento di sequenze biologiche

Lezione 7. Allineamento di sequenze biologiche Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra

Dettagli

local alignment Highly sensitive FASTA BLAST Based on similarity matrices (PAM o BLOSUM)

local alignment Highly sensitive FASTA BLAST Based on similarity matrices (PAM o BLOSUM) BLAST Acronym for Basic local alignment search tool BLAST is the most important tool for comparing nucleotide and protein sequences Input sequence (query) vs database Can be used online (NCBI BLAST) or

Dettagli

Come si sceglie l algoritmo di allineamento? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione?

Come si sceglie l algoritmo di allineamento? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione? Come si sceglie l algoritmo di allineamento? Domande: le due proteine hanno domini simili? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione? hanno un antenato

Dettagli

6.6 Sequence Alignment

6.6 Sequence Alignment 6.6 Sequence Alignment E capitato anche a voi? Di digitare sul computer una parola in maniera sbagliata (per esempio usando un dizionario sul Web): AGORITNI E sentirsi chiedere: «Forse cercavi ALGORITMI?»

Dettagli

Modello computazionale per la predizione di siti di legame per fattori di trascrizione

Modello computazionale per la predizione di siti di legame per fattori di trascrizione Modello computazionale per la predizione di siti di legame per fattori di trascrizione Attività di tirocinio svolto presso il Telethon Institute of Genetics and Medicine Relatori Prof. Giuseppe Trautteur

Dettagli

Informatica e Bioinformatica A. A

Informatica e Bioinformatica A. A Purtroppo non esiste un modo univoco per indicare un gene. Ad esempio abbiamo visto che il gene tcap a seconda del record è riportato come titin-cap protein o telethonin. Questo crea confusione e non facilita

Dettagli

A W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I

A W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I COME CALCOLARE IL PUNTEIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi che, però, sono le due facce di una stessa medaglia al

Dettagli

Lezione 7. Allineamento di sequenze biologiche

Lezione 7. Allineamento di sequenze biologiche Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra

Dettagli

Lezione 2: Allineamento di sequenze. BLAST e CLUSTALW

Lezione 2: Allineamento di sequenze. BLAST e CLUSTALW Lezione 2: Allineamento di sequenze BLAST e CLUSTALW Allineamento di sequenze Allineamenti L avvento della genomica moderna permette di analizzare le similitudini e le differenze tra organismi a livello

Dettagli

Biologia Molecolare Computazionale

Biologia Molecolare Computazionale Biologia Molecolare Computazionale Paolo Provero - paolo.provero@unito.it 2008-2009 Argomenti Allineamento di sequenze Ricostruzione di alberi filogenetici Gene prediction Allineamento Allineamento di

Dettagli

Corso di Bioinformatica. Docente: Dr. Antinisca DI MARCO

Corso di Bioinformatica. Docente: Dr. Antinisca DI MARCO Corso di Bioinformatica Docente: Dr. Antinisca DI MARCO Email: antinisca.dimarco@univaq.it Analisi Filogenetica Gene Ancestrale duplicazione genica La filogenesi è lo studio delle relazioni evolutive tra

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: introduzione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Una definizione

Dettagli

Lezione 7. Allineamento di sequenze biologiche

Lezione 7. Allineamento di sequenze biologiche Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra

Dettagli

Cerca la tua sequenza ed analizzala. 4-Utilizzando l intera sequenza NM_ quante ORF trovate nella ORF +3?

Cerca la tua sequenza ed analizzala. 4-Utilizzando l intera sequenza NM_ quante ORF trovate nella ORF +3? Ferlito Valentina Esercizio 1 Cerca la tua sequenza ed analizzala 1-Ricerca in Genbank la sequenza dell adenine nucleotide translocator umano 2-Quante sequenze proteiche di riferimento vi sono? 3-Quante

Dettagli

Omologia di sequenze: allineamento e ricerca

Omologia di sequenze: allineamento e ricerca Omologia di sequenze: allineamento e ricerca Genomi (organismi) e geni hanno un evoluzione divergente Sequenze imparentate per evoluzione divergente sono omologhe Le sequenze sono confrontabili tramite

Dettagli

Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni:

Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni: Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni: antonella.meloni@ifc.cnr.it Sequenza A= stringa formata da N simboli, dove i simboli apparterranno ad un certo alfabeto. A

Dettagli

Informatica e biotecnologie

Informatica e biotecnologie Informatica e biotecnologie Ricerca di informazioni e analisi di sequenze CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC CGAAATCGCATCAGCATACGATCGCATGC Informatica e biotecnologie Strumenti per raccogliere

Dettagli

Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli. Esercizi ricerche in banche dati

Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli. Esercizi ricerche in banche dati Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli Esercizi ricerche in banche dati 1) Nel romanzo fantasy Jurassic Park di Michael Crichton sulla possibilità di clonare i dinosauri,

Dettagli

Allineamento multiplo di sequenze

Allineamento multiplo di sequenze Allineamento multiplo di sequenze Bioinformatica a.a. 2008/2009 Letterio Galletta Università di Pisa 22 Maggio 2009 Letterio Galletta (Università di Pisa) Allineamento multiplo di sequenze 22 Maggio 2009

Dettagli

UTILIZZO DI BLAST PER ALCUNE SEMPLICI APPLICAZIONI IN STUDI GENOMICI

UTILIZZO DI BLAST PER ALCUNE SEMPLICI APPLICAZIONI IN STUDI GENOMICI UTILIZZO DI BLAST PER ALCUNE SEMPLICI APPLICAZIONI IN STUDI GENOMICI Come prima cosa diamo un occhiata alla nostra sequenza di interesse, chiamata «unknown sequence» Con un doppio click possiamo visualizzarla

Dettagli

Corso di Bioinformatica

Corso di Bioinformatica Corso di Bioinformatica Cortona - Novembre 2002 Metodi Computazionali per l'analisi delle sequenze Dr. Sabino Liuni Istituto di Tecnologie Biomediche- CNR Sezione di Bioinformatica e Genomica - Bari Sabino@area.ba

Dettagli

La distribuzione dei veri e falsi positivi la ricerca della giusta soglia

La distribuzione dei veri e falsi positivi la ricerca della giusta soglia La distribuzione dei veri e falsi positivi la ricerca della giusta soglia BLAST Blast (Basic Local Aligment Search Tool) è un programma che cerca similarità locali utilizzando l algoritmo di Altschul et

Dettagli

Programmazione dinamica

Programmazione dinamica rogrammazione dinamica Fornisce l allineamento ottimale tra due sequenze semplici variazioni dell algoritmo producono allineamenti globali o locali l allineamento calcolato dipende dalla scelta di alcuni

Dettagli

Relazione Laboratorio di bioinformatica

Relazione Laboratorio di bioinformatica Relazione Laboratorio di bioinformatica Davide Cittaro La predizione della struttura tridimensionale di una proteina sulla base della sequenza è un risultato ambito. L utilizzo di sole considerazioni fisico-chimiche

Dettagli

Protein folding. Un gran numero di interazioni deboli + ΔH

Protein folding. Un gran numero di interazioni deboli + ΔH Protein folding -ΔS Un gran numero di interazioni deboli +ΔS + ΔH E r Protein structure modelling: A digression I polimeri (inclusi quelli di amino acidi) in generale non hanno una struttura unica. Le

Dettagli

Programmazione dinamica

Programmazione dinamica Programmazione dinamica Fornisce l allineamento ottimale tra due sequenze semplici variazioni dell algoritmo producono allineamenti globali o locali l allineamento calcolato dipende dalla scelta di alcuni

Dettagli

Bioinformatica. Analisi del genoma

Bioinformatica. Analisi del genoma Bioinformatica Analisi del genoma GABRIELLA TRUCCO CREMA, 5 APRILE 2017 Cosa è il genoma? Insieme delle informazioni biologiche, depositate nella sequenza di DNA, necessarie alla costruzione e mantenimento

Dettagli

Banche Dati proteiche

Banche Dati proteiche Banche Dati proteiche Un altro grande database è UniProt, The Universal Protein Resource (http://www.uniprot.org/) nel quale sono radunate le sequenze proteiche, e le annotazione delle stesse, ottenute

Dettagli

Informatica e biotecnologie II parte

Informatica e biotecnologie II parte Informatica e biotecnologie II parte Analisi di sequenze: allineamenti CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC CGAAATCGCATCAGCATACGATCGCATGC Bioinformatica La Bioinformatica è una disciplina

Dettagli

Sintenia e colinearità

Sintenia e colinearità Sintenia e colinearità I genomi degli eucarioti differiscono nel grado in cui i geni rimangono sullo stesso cromosoma nel grado in cui l ordine dei geni viene mantenuto sul cromosoma sintenia colinearità

Dettagli

Lezione 5. Cambiamenti evolutivi nelle sequenze nucleotidiche

Lezione 5. Cambiamenti evolutivi nelle sequenze nucleotidiche Lezione 5 Cambiamenti evolutivi nelle sequenze nucleotidiche materiale Graur and Li ch 3 Graur Lectures 16 17 Sostituzioni nucleotidiche Processo base nell evoluzione molecolare Essenziale per comprendere

Dettagli

Lezione 6. Lo string matching

Lezione 6. Lo string matching Lezione 6 Lo string matching String matching Date due stringhe (sequenze di caratteri) vogliamo stabilire se sono uguali Nel caso dello string matching, due stringhe sono uguali se... sono uguali ( DNA

Dettagli

ESERCITAZIONE 3. OBIETTIVO: Ricerca di omologhe mediante i programmi FASTA e BLAST

ESERCITAZIONE 3. OBIETTIVO: Ricerca di omologhe mediante i programmi FASTA e BLAST ESERCITAZIONE 3 OBIETTIVO: Ricerca di omologhe mediante i programmi FASTA e BLAST L'esercitazione prevede l'utilizzo di risorse web per effettuare ricerche di similarità con la proteina GRB2 (growth factor

Dettagli

Il Corso sarà tenuto nei giorni di Lunedì, Mercoledì e Venerdì dalle ore 17 alle ore 19.

Il Corso sarà tenuto nei giorni di Lunedì, Mercoledì e Venerdì dalle ore 17 alle ore 19. Docente: Prof. Alfredo Ferro Il Corso sarà tenuto nei giorni di Lunedì, Mercoledì e Venerdì dalle ore 17 alle ore 19. Programma del Corso DATA ARGOMENTO 09/03/2011 Introduzione al corso. Slides Panoramica

Dettagli

Sommario. Presentazione dell opera Ringraziamenti

Sommario. Presentazione dell opera Ringraziamenti Sommario Presentazione dell opera Ringraziamenti XI XII Capitolo 1 Introduzione alla bioinformatica 1 1.1 Cenni introduttivi 1 1.2 Pietre miliari della bioinformatica 2 1.3 Infrastrutture bioinformatiche

Dettagli

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA. Il progetto Genoma Umano è iniziato nel 1990. E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA. Progetto internazionale finanziato da vari paesi, affidato

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Filogenesi Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Introduzione alla

Dettagli

Organizzazione del genoma umano

Organizzazione del genoma umano Organizzazione del genoma umano Famiglie di geni o geniche Copie multiple di geni, tutte con sequenza identica o simile. La famiglia multigenica corrisponde a un insieme di geni correlati che si sono evoluti

Dettagli

GENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi

GENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi GENOMA EVOLUZIONE CONTENUTO FUNZIONE STRUTTURA Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine Progetti genoma in centinaia di organismi Importante la sintenia tra i genomi The

Dettagli

Lezione 6. Confronti fra sequenze: distanze, allineamenti

Lezione 6. Confronti fra sequenze: distanze, allineamenti Lezione 6 Confronti fra sequenze: distanze, allineamenti tempo Sostituzioni nucleotidiche La distanza tra due sequenze si definisce come il numero atteso di sostituzioni nucleotidiche per sito. Se il tasso

Dettagli

Metodi di Distanza. G.Allegrucci riproduzione vietata

Metodi di Distanza. G.Allegrucci riproduzione vietata Metodi di Distanza La misura più semplice della distanza tra due sequenze nucleotidiche è contare il numero di siti nucleotidici che differiscono tra le due sequenze Quando confrontiamo siti omologhi in

Dettagli

Decode NGS data: search for genetic features

Decode NGS data: search for genetic features Decode NGS data: search for genetic features Valeria Michelacci NGS course, June 2015 Blast searches What we are used to: online querying NCBI database for the presence of a sequence of interest ONE SEQUENCE

Dettagli

Esercizio da portare all orale

Esercizio da portare all orale Laboratorio di Informatica 2004/05 Corso di laurea in biotecnologie Esercizio da portare all orale Create subito una cartella che porti il vostro cognome. Fate attenzione a salvare tutti i vostri file

Dettagli

Alberi filogenetici. File: alberi_filogenetici.odp. Riccardo Percudani 02/03/04

Alberi filogenetici. File: alberi_filogenetici.odp. Riccardo Percudani 02/03/04 Alberi filogenetici The tree of life Albero filogenetico costruito con le sequenze della subunità piccola dell RNA ribosomale. Tutte le forme viventi condividono un comune ancestore (LCA, last common ancestor

Dettagli

6.5 RNA Secondary Structure. 18 novembre 2014

6.5 RNA Secondary Structure. 18 novembre 2014 6.5 RNA Secondary Structure 18 novembre 2014 Calendario Oggi è la lezione 17/24: ultima lezione su Programmazione dinamica Metodo greedy: 18, 19 Grafi: 20, 21, 22, 23 Reti di flusso: 23, 24 (=mercoledì

Dettagli

RELAZIONE DI BIOLOGIA MOLECOLARE

RELAZIONE DI BIOLOGIA MOLECOLARE RELAZIONE DI BIOLOGIA MOLECOLARE 2 BRUNO FRANCESCA mat.576193 Analisi di proteine. Descrivi un database di interazioni proteiche e mostra con quali proteine interagisce la proteina KEN di Drosophila. Uno

Dettagli

Interazioni proteina-dna

Interazioni proteina-dna Interazioni proteina-dna 1) Proteine che legano la doppia elica del DNA in maniera non sequenza-specifica: histone-like proteins (HU protein) 2) Proteine che legano strutture particolari del DNA: - single

Dettagli

Allineamenti Multipli di Sequenze

Allineamenti Multipli di Sequenze Allineamenti Multipli di Sequenze 1 Allineamento multiplo di sequenze: obiettivi di oggi Definire un allineamento multiplo di sequenze; com è generato; comprendere i principali metodi. Introdurre i database

Dettagli

Bioinformatica A.A semestre I

Bioinformatica A.A semestre I Docente: Matteo Re UNIVERSITÀ DEGLI STUDI DI MILANO C.d.l. Informatica Bioinformatica A.A. 2013-2014 semestre I p3 Programmazione dinamica I Programmazione dinamica in PERL Implementazione di un algoritmo

Dettagli

ALLINEAMENTO DI SEQUENZE

ALLINEAMENTO DI SEQUENZE ALLINEAMENTO DI SEQUENZE 1 DATABASE DI SEQUENZE RICERCA TESTUALE Ricerca dei record i cui campi soddisfano determinati criteri (hanno certi valori) Abbiamo già visto nelle lezioni precedenti SIMILARITA

Dettagli

Dati e Algoritmi 1: A. Pietracaprina. Text Processing

Dati e Algoritmi 1: A. Pietracaprina. Text Processing Dati e Algoritmi 1: A. Pietracaprina Text Processing 1 Campi Applicativi text editing web searching computational biology (e.g., DNA analysis) vision... 2 Definizioni Stringa P P P[0]P[1]... P[m 1] (lunghezza

Dettagli

COME CALCOLARE IL PUNTEGGIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi

COME CALCOLARE IL PUNTEGGIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi COME CALCOLARE IL PUNTEGGIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi che, però, sono le due facce di una stessa medaglia al

Dettagli

Dimensioni dei Genomi Eucariotici

Dimensioni dei Genomi Eucariotici Dimensioni dei Genomi Eucariotici plasmids viruses bacteria fungi plants algae insects mollusks bony fish amphibians Il Genoma umano è costituito da circa 3 miliardi di bp e contiene un numero di geni

Dettagli

Materiale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna).

Materiale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna). Materiale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna). Date due o più sequenze, inizialmente potremmo volere: misurarne il grado di similarità;

Dettagli

Bellini Lara matricola: Tesina di Biologia Molecolare 2

Bellini Lara matricola: Tesina di Biologia Molecolare 2 Bellini Lara matricola: 594736 Tesina di Biologia Molecolare 2 Argomento: Scegli una proteina di Drosophila e trovala in Uniprot.Descrivi le informazioni presenti nel record ed i collegamenti a risorse

Dettagli

crittografia a chiave pubblica

crittografia a chiave pubblica crittografia a chiave pubblica Whitfield Diffie Martin Hellman New Directions in Cryptography We stand today on the brink of a revolution in cryptography. The development of cheap digital hardware... has

Dettagli

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I 1 INTRODUZIONE

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I 1 INTRODUZIONE Docente: Matteo Re UNIVERSITÀ DEGLI STUDI DI MILANO C.d.l. Informatica Bioinformatica A.A. 2013-2014 semestre I 1 INTRODUZIONE Motivazioni dell esistenza della biologia computazionale: Biologia Computazionale

Dettagli

UNIVERSITÀ DEGLI STUDI DI MILANO. Giorgio Valentini. Bioinformatica. A.A semestre I 1 INTRODUZIONE

UNIVERSITÀ DEGLI STUDI DI MILANO. Giorgio Valentini. Bioinformatica. A.A semestre I 1 INTRODUZIONE Docenti: Matteo Re Giorgio Valentini UNIVERSITÀ DEGLI STUDI DI MILANO C.d.l. Informatica Bioinformatica A.A. 2014-2015 semestre I 1 INTRODUZIONE Motivazioni dell esistenza della biologia computazionale:

Dettagli

Laboratorio di Bioinformatica I. Parte 2. Dott. Sergio Marin Vargas (2014 / 2015)

Laboratorio di Bioinformatica I. Parte 2. Dott. Sergio Marin Vargas (2014 / 2015) Laboratorio di Bioinformatica I Banche dati Parte 2 Dott. Sergio Marin Vargas (2014 / 2015) Google Scholar https://scholar.google.it/ E un motore di ricerca di Google, specializzato nella ricerca di articoli

Dettagli

Esercizi 3, 1. Prof. Thomas Parisini. Esercizi 3, 3 Regola:

Esercizi 3, 1. Prof. Thomas Parisini. Esercizi 3, 3 Regola: Esercizi 3, 1 Esercizi 3, 2 Esercizi Stabilità per sistemi a tempo continuo Analisi degli autovalori Analisi del polinomio caratteristico, criterio di Routh-Hurwitz Stabilità per sistemi a tempo continuo

Dettagli

Stabilità per sistemi a tempo continuo

Stabilità per sistemi a tempo continuo Esercizi 3, 1 Stabilità per sistemi a tempo continuo Analisi degli autovalori Analisi del polinomio caratteristico, criterio di Routh-Hurwitz Calcolo di Esercizi 3, 2 Esercizi Stabilità per sistemi a tempo

Dettagli

Algoritmi Priority-Driven RT. Corso di Sistemi RT Prof. Davide Brugali Università degli Studi di Bergamo

Algoritmi Priority-Driven RT. Corso di Sistemi RT Prof. Davide Brugali Università degli Studi di Bergamo Algoritmi Priority-Driven RT Corso di Sistemi RT Prof. Davide Brugali Università degli Studi di Bergamo 2 Algoritmi Real Time Earliest Due Date (statico) Seleziona il task con la deadline relativa più

Dettagli

Informatica 3. Informatica 3. LEZIONE 22: Politiche di risoluzione delle collisioni. Lezione 23 - Modulo 1. Politiche di risoluzione delle collisioni

Informatica 3. Informatica 3. LEZIONE 22: Politiche di risoluzione delle collisioni. Lezione 23 - Modulo 1. Politiche di risoluzione delle collisioni Informatica 3 Informatica 3 LEZIONE 22: Politiche di risoluzione delle collisioni Lezione 23 - Modulo 1 Modulo 1: Open e closed hashing Modulo 2: Sequenze di probe Modulo 3: Analisi del closed hashing

Dettagli

Relazione sequenza-struttura e funzione

Relazione sequenza-struttura e funzione Biotecnologie applicate alla progettazione e sviluppo di molecole biologicamente attive A.A. 2010-2011 Modulo di Biologia Strutturale Relazione sequenza-struttura e funzione Marco Nardini Dipartimento

Dettagli

Banche dati di sequenze biologiche: interrogazione e ricerca di omologia

Banche dati di sequenze biologiche: interrogazione e ricerca di omologia Banche dati di sequenze biologiche: interrogazione e ricerca di omologia Raccolte di dati biologici Libri - 1960 Margaret Dayhoff, collezione di proteine (NBRF) Floppy disk - 1977 PDB Strutture di macromolecole

Dettagli