Allineamento e similarità di sequenze

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Allineamento e similarità di sequenze"

Transcript

1 Allineamento e similarità di sequenze

2 Allineamento di Sequenze L allineamento tra due o più sequenza può aiutare a trovare regioni simili per le quali si può supporre svolgano la stessa funzione; La similarità tra due o più sequenza può essere definita in base a una funzione distanza: Tanto più simili sono le sequenze, tanto meno distanti sono; Esistono diversi algoritmi di allineamento ciascuno dei quali definisce una funzione distanza; Dato un allineamento possiamo assegnare uno Score che indica il grado di similarità delle due sequenze.

3 Confrontare sequenze Il confronto fra sequenze, nucleotidiche o aminoacidiche, è uno dei compiti fondamentali della bioinformatica. Perché è possibile confrontare sequenze? Perché generalmente in natura le strutture molecolari non vengono create ex-novo ma per modificazione di modelli preesistenti. Obiettivi del confronto: Filogenesi molecolare Evoluzione dei singoli genomi Caratterizzazione di proteine con funzione sconosciuta

4 Confrontare sequenze (2) Filogenesi molecolare La filogenesi molecolare, attraverso il paragone tra sequenze nucleotidiche o aminoacidiche, consente di costruire alberi filogenetici che illustrino le distanze ed i rapporti evolutivi tra le molecole analizzate. A differenza della filogenesi classica, che prende in considerazione le caratteristiche morfologiche dei vari organismi per delinearne l evoluzione, la filogenesi molecolare non consente lo studio evolutivo degli organismi ma permette di identificarne le relazioni evolutive molecolari. Caratterizzazione di proteine con funzione ignota Il confronto di una proteina a funzione ignota con una famiglia di proteine a funzione nota può permettere di formulare ipotesi sulla funzione della prima.

5 Similarità e omologia Tra due o più sequenze può esserci un certo grado di similarità. Tale similarità può essere misurata in modi diversi, anche a seconda del tipo di sequenze in esame (Nucleotidiche o aminoacidiche). A volte una similarità tra sequenze implica una similarità strutturale e, conseguentemente, una similarità funzionale. L omologia tra sequenze indica invece una comune origine evolutiva tra di esse. Due sequenze si dicono omologhe quando discendono entrambe da una sequenza ancestrale comune. Due o più sequenze simili tra loro possono quindi essere omologhe o meno.

6 OMOLOGIA= indica che due entità (es. 2 sequenze) hanno una stessa origine filogenetica, cioè derivano da un antenato comune. È un carattere QUALITATIVO. SIMILITUDINE (analogia)= indica che due entità (es. 2 sequenze), in relazione ad un certo criterio comparativo, hanno un certo grado di somiglianza. È un carattere QUANTITATIVO.

7 SIMILARITA : é un dato che prescinde da eventuali ipotesi sulla causa della similarità stessa. Ad esempio: l ala di un uccello e l ala di un pipistrello si sono evolute indipendentemente e di conseguenza non sono omologhe. La similarita osservata tra due sequenze PUO indicare che esse siano omologhe, cioe evolutivamente correlate La similarita tra sequenze si osserva, l omologia tra sequenze si puo ipotizzare in base alla similarita osservata.

8 Omologia e Analogia, Ortologia e Paralogia OMOLOGIA (ANTENATO COMUNE) ORTOLOGIA Elementi omologhi derivanti da un Processo di speciazione PARALOGIA Elementi omologhi derivanti da un Processo di duplicazione genica per esempio, la catena β dell emoglobina e un paralogo della catena α dell emoglobina e della mioglobina, dal momento che ambedue si sono evolute dallo stesso gene ancestrale attraverso ripetuti eventi di duplicazione genica.

9 Allineamento di sequenze Per poter procedere al confronto tra sequenze nucleotidiche o tra sequenze proteiche è necessario che queste sequenze vengano allineate. Questo è un esempio di allineamento multiplo di 5 brevi sequenze aminoacidiche.

10 Allineamento di Sequenze GLOBALE: Si cerca la corrispondenza ottimale tra tutti gli amminoacidi (nucleotidi) di entrambe le sequenze. LOCALE: Si cerca di individuare regioni locali di similarità. Globale Globale LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKAG TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKAG Locale Locale LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK.. TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKAG TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKAG

11 Allineamento Pairwise (a coppie) Matrici Dot Plot Si crea una matrice in cui vengono confrontati tutti i possibili appaiamenti di ogni carattere delle due sequenze da allineare. Si riempie la matrice, annerendo le caselle che hanno nella corrispondente riga e colonna la stessa lettera. Il programma DOTLET ( date due sequenze in input permette di disegnare facilmente la relativa matrice Dot Plot.

12 Allineamento Pairwise m a r g a r e t d a y h q f f Matrici Dot Plot margaretqaklerdayhqff Duplicazione Inversione Similarità

13

14 Allineamento Pairwise Matrici Dot Plot FILTRAGGIO Window Size E chiaro che il numero di punti della matrice è influenzato dalla natura della sequenza; Se confrontiamo due sequenze di nucleotidi (o proteine) costituite da 1 residui, assumendo che ciascun nucleotide (o aminoacido) occorra con la stessa probabilità, il numero totale di punti della matrice sarà mediamente pari a 25 (5 nel caso di aminoacidi) su 1 celle totali; Quando confrontiamo sequenze nucleotidiche il rumore di fondo sara più elevato; Possiamo confrontare finestre costituite da w residui contigui; In tal caso metteremo un dot nella cella (i,j) solo nel caso in cui le stringhe (ai, ai +1,..., aw ) (b j, b j +1,..., bw ) risultino identiche per s residui su w.

15

16

17 Allineamento di stringhe Cominciamo con l affrontare il problema più generale dell allineamento di una coppia di stringhe. Date due stringhe acbcdb e cadbd, in che modo possiamo stabilire quanto sono simili? La similarità scaturisce dall allineamento ottimale delle due stringhe. Ecco un possibile allineamento: a - c c a d b b c - d d b - Il carattere speciale - rappresenta l inserimento di uno spazio, che sta a significare una cancellazione nella sequenza o, equivalentemente, un inserzione nell altra sequenza (Mutazioni/Operazioni di INDEL).

18 Similarità e distanza a - c c a c d b b c - d d b - Possiamo valutare il grado di correlazione tra stringhe calcolandone la similarità o la distanza. Due stringhe che presentano alta similarità sono poco distanti, due stringhe che presentano bassa similarità sono molto distanti.

19 Distanza di editing E possibile calcolare la distanza tra due stringhe utilizzando, per esempio, la distanza di editing. La distanza di editing è definita come il minimo numero di operazioni da eseguire (inserimenti, cancellazioni, sostituzioni) per trasformare una stringa in un altra. a a g c c c t t t g - a a In questo caso per trasformare la prima stringa nella seconda dobbiamo inserire una g, sostituire una c con una t e cancellare una g. La distanza di editing tra le due stringhe è dunque 3.

20 La scoring function: similarità a a c c a c d b b c - d d b - In generale è possibile valutare il grado di similarità o la distanza tra due stringhe, assegnando un punteggio (score) all allineamento utilizzando un opportuna scoring function. Per esempio, se assegniamo un punteggio di +2 per ogni match esatto e un punteggio di -1 per ogni mismatch o indel, la similarità tra le due sequenze secondo l allineamento considerato sarà: S= ( 1)=4

21 La scoring function: distanza a a c c a c d b b c - d d b - Se assegniamo uno score pari a nel caso di matches, pari ad 1 in caso di sostituzione di caratteri e pari a 2 in caso di allineamento con uno spazio, la distanza tra le due stringhe precedenti secondo l allineamento considerato è: d= =7

22 La scoring function Più formalmente: Se x e y sono singoli caratteri o spazi, allora con il simbolo denotiamo lo score dell allineamento di σ ( x,y) è la scoring function. x con y; Ovviamente possiamo costruire σ delle scoring function ad hoc per ogni problema; se, ad esempio, volessimo costruire una scoring function per il confronto di aminoacidi, faremmo in modo da tenere presenti le similarità chimico-fisiche e le differenze tra gli aminoacidi stessi.

23 Pairwise alignment Sia S una sequenza. Con il simbolo S denotiamo la lunghezza di S e con S[i] indichiamo l i-esimo carattere di S. Se ad es. S = acbcdb, avremo S =6 e S[3]=b. Siano S e T due sequenze. Un allineamento A associa ad S e T le sequenze S e T, che possono contenere simboli di spazio -, in modo che S = T Rimuovendo gli spazi da S e T otteniamo S e T.

24 Ricerca miglior allineamento Lunghezza: s1=6 s2=6 Numero confronti s1+s2-1 = 11 ILVVIV VLVVII ILVVIV VLVVII ILVVIV VLVVII Caratteri confrontati s1s2 = 36 1 ILVVIV VLVVII ILVVIV VLVVII 1 ILVVIV VLVVII ILVVIV VLVVII 1 ILVVIV VLVVII 2 ILVVIV VLVVII 4 2 ILVVIV 2 VLVVII ILVVIV 1 VLVVII

25 Ordine di un Algoritmo 34

26 Pairwise alignment (2) Lo score dell allineamento sequenze è dato da: di una coppia di l σ ( S' [ i ],T' [ i ]) i=1 Dove l = S = T. L allineamento ottimale di S e T è quello che massimizza la similarità tra le sequenze o che minimizza la loro distanza. Nel seguito utilizzeremo il termine score per indicare il grado di similarità tra sequenze.

27 Allineamento di proteine: Matrici di sostituzione Nella valutazione di un allineamento di sequenze ci chiediamo se tale allineamento è casuale o biologicamente significativo, ed in questo caso ci chiediamo quanto è biologicamente significativo. Abbiamo visto che la scoring function associa un valore numerico ad ogni coppia di caratteri. Le matrici di sostituzione associano un valore numerico ad ogni possibile coppia di aminoacidi, tenendo conto delle similarità chimiche tra di essi. Tali matrici possono quindi essere utilizzate come scoring function per l allineamento di proteine.

28 Le matrici di punteggio Matrice identità Matrice transizione trasversione Matrice BLAST A T C G A T A 1 T 1 C G C G A T A T C G C G A T C G

29 Similarità tra aminoacidi Gli aminoacidi possono essere classificati in base alle loro proprietà chimico-fisiche. Nel confronto di proteine occorre tenere conto di queste proprietà.

30 Matrici PAM Le matrici PAM (Point Accepted Mutations) furono sviluppate alla fine degli anni 7 esaminando le mutazioni all interno di superfamiglie di sequenze aminoacidiche strettamente correlate tra loro. Si notò che le sostituzioni che occorrevano tra sequenze strettamente correlate non erano casuali. Si concluse che alcune sostituzioni di aminoacidi occorrono più facilmente di altre, probabilmente a causa del fatto che tali sostituzioni non alterano significativamente la struttura e la funzione di una proteina. Ciò significa che proteine omologhe non devono necessariamente avere gli stessi aminoacidi in ogni posizione.

31 Unità e matrici PAM Usiamo le unità PAM per misurare la distanza tra sequenze aminoacidiche. Due sequenze S1 ed S2 distano 1 unità PAM se S1 può essere trasformata in S2 con una media di 1 mutazione puntuale ogni 1 aminoacidi. In una sequenza la stessa posizione può mutare più volte e tornare quindi al carattere originario; dunque due sequenze che distano 1 PAM possono differire di meno dell 1%.

32 Le matrici PAM Esistono diversi tipi di matrici PAM. Ognuna di esse è utilizzata per confrontare due sequenze che distano un certo numero di unità PAM l una dall altra. Ad es. la PAM12 può essere utilizzata per confrontare sequenze che distano 12 unità PAM. La entry (i,j) della matrice PAM12 contiene lo score assegnato alla coppia di aminoacidi (Ai,Aj); tale score è proporzionale alla frequenza con cui ci si aspetta che Ai sostituisca Aj in due sequenze che distano 12 unità PAM.

33 Tutte le matrici della serie sono derivate per moltiplicazione della matrice unitaria (PAM1): PAM1 X PAM1 = PAM3 = 3 sostituzioni su 1 siti (~ 75% identità) PAM12 = 12 sostituzioni su 1 siti (~ 4% identità) PAM25 = 25 sostituzioni su 1 siti (~ 2% identità) Nb alcune sostituzioni riportano al dato originale! PAM2

34 PAM % identità 1% 99% 75% 6% 11 5% 2 25% 25 2% se due sequenze sono filogeneticamente distanti è opportuno usare matrici PAM con indici più alti, e viceversa

35 Matrice PAM 12 A R N D C Q E G H I L K M F P S T W Y V A R N D C Q E G H I L K M F P S T W Y V

36 Matrici BLOSUM (Henikoff e Henikoff 1992) Derivano, usando lo stesso metodo usato per quelle PAM, dalla banca dati BLOCKS contenente gli allineamenti delle regioni più conservate di famiglie di proteine. Per ogni tipo di matrice BLOSUM si eliminano tutte le sequenze che hanno una percentuale di identità superiore ad una soglia. BLOSUM62 = derivata da un allineamento in cui le sequenze che abbiano più del 62% di amminoacidi identici vengono considerate come una sola sequenza

37 I valori nelle matrici di sostituzione determinano il punteggio di un allineamento Score allineamento: 15 Seq1 Seq2 V D S - C Y V E S L C Y Score Blosum6 2 Punteggiototale= somiglianze penalità gap

38 Needelman-wunsch all globale

39

40

41

42

43

44

45

46 Schemi di peso per i gap Linear score f(g)= -gd con d gap-open penalty e g lunghezza del gap Un peso dei gap dipendente dalla sola lunghezza comporta che due gap isolati diano lo stesso costo di due consecutivi Affine score f(g)= -d (g-1)e con d gap-open penalty, e gap-extension penalty e g lunghezza del gap Modello di transizione da una sequenza all altra biologicamente più significativo, dal momento che inserzioni e cancellazioni di più di un residuo non sono eventi poco comuni tra sequenze proteiche omologhe 55

47 Significato strutturale ALFAELICAUNO-----ALFAELICADUE ALFAELICAUNOLOOOPALFAELICADUE Loop Alfa elica Alfa elica

48 Allineamento globale vs locale L allineamento di due o più sequenze può essere globale o locale Globale: l intera sequenza viene allineata Locale: solo frammenti della sequenza vengono allineati 57

49 Allineamento locale: esempio LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKA LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKA 58

50 Allineamento locale E meglio avere molte coincidenze sparse o averne meno, ma concentrate? Allineamento locale Date S e T trovare due sottostringhe v e w di S e T rispettivamente la cui similarità (allineamento ottimo) sia massima su tutte le coppie di sottostringhe di S e T. 59

51 Significato Biologico Allineamento globale Allineamento locale

52 Ordine di un Algoritmo 61

53 Confronto di sequenza query e l'intera banca dati FASTA per allineamenti globali BLAST- per allineamenti locali

54

55

56

57 FASTA Sistema di ricerca in banca dati di sequenze simili ad una di nostro interesse

58 FASTA: usa le lookup tables Tabelle formate dalle differenze in posizione di singoli aminoacidi

59 Procedura simile alla costruzione di dot-plot ma meno richiestiva sul calcolo Lookup: O (n+m) Matrice: O (nm)

60 Matrice di parole A G W W R A A W A A R G W A G A G W W R A G W A A

61 Matrice di parole 13 Coppie di parole identiche di lunghezza 2 A G W W R A A W A A R G W A G A G W W R A G W A A Parola 2

62 Matrice di parole 13 Coppie di parole identiche di lunghezza 2 A G W W R A A W A A R G W A G A G W W R A G W A A Parola 2

63 FastA Sequenza A > Sequenza A > Sequenza B > Sequenza B > Matrice di punti Matrice di parole di lunghezza 2

64 Unione parole contigue Sequenza A > Sequenza A > Sequenza B > Sequenza B >

65 Calcolo similarità Sequenza A > Sequenza A > Sequenza B > Sequenza B >

66 Inserimento gaps Sequenza A > Sequenza A > Sequenza B > Sequenza B >

67 Calcolo Opt Sequenza A > Sequenza B >

68 FASTA- pipeline

69 Parole con errori Nessuna parola identica di lunghezza 3 LTAGARIDEDWEDISLHDWRTDW TSGCRKDEWWTWDSIHSTQWSD E D W Parole lunghezza 3 E W W Identiche con 1 Errore EDWL EWWA Parole lunghezza 4 Identiche con 2 Errori LTAGARIDEDWEDISLHDWRTDW TSGCRKDEWWTWDSIHSTQWSD 1 Parole lunghe 3 con 1 errore ammesso LTAGARIDEDWEDISLHDWRTDW TSGCRKDEWWTWDSIHSTQWSD 18 Parole lunghe 4 con 2 errori ammessi

70 Ricerca per similarità Una delle operazioni più comuni ed utili su una base di dati biologica è la ricerca di sequenze simili ad una sequenza data in input. Il tool più popolare per questo tipo di ricerche è BLAST (Basic Local Alignment Search Tool). BLAST esegue confronti fra coppie di sequenze alla ricerca di regioni di similarità, piuttosto che un allineamento globale tra le intere sequenze. BLAST può eseguire migliaia di confronti fra sequenze in pochi minuti e in poco tempo è possibile confrontare una sequenza query con l intero database per ricercare tutte le sequenze simili ad essa.

71 Come funziona BLAST? Ecco i passi dell algoritmo di BLAST: 1- Si estraggono tutte le possibili word di m lettere dalla sequenza query (m=3 per le proteine, m=11 per il DNA). 2 Per ogni word della sequenza da esaminare viene costruita una lista di possibili words che, se confrontate con la sequenza in questione, hanno un punteggio superiore ad un valoresoglia T (compreso fra 11 e 15) calcolato di volta in volta in base alla composizione e alla lunghezza della sequenza in esame.

72

73 Come funziona BLAST? (2) 1. Si confronta la lista di words con le sequenze contenute nel database alla ricerca di matches esatti: 1. Quando viene riscontrata una corrispondenza (hit), essa viene estesa a monte e a valle per vedere se è possibile definire un tratto di sequenza in grado di raggiungere un punteggio superiore ad un valore-soglia S.

74

75

76

77 Come funziona BLAST? (3)

78 NCBI BLAST L implementazione più popolare dell algoritmo BLAST si trova sul sito dell NCBI: Sono disponibili numerosi tipi di BLAST; tra cui vale la pena di citare: BLASTN (Nucleotidi Nucleotidi); BLASTP (Proteine - Proteine); TBLASTN (Translated BLAST Nucleotide); BL2SEQ (Blast 2 sequences).

79 BLASTN: Esempio con BCL2 Selezioniamo nucleotide blast Inseriamo la sequenza (o scegliamo un file da uploadare) Scegliamo database e organismo Scegliamo il programma giusto (blastn)

80 BLASTN: Esempio BCL2 BLAST fornisce in output la distribuzione dei matches trovati, assegnando a colori diversi i diversi scores: ovviamente uno score maggiore indica un match più significativo. Cliccando sulle barre colorate si ottiene l allineamento corrispondente.

81 BLASTN: Esempio BCL2 L allineamento migliore mostra un match del 1%: abbiamo ritrovato lo stesso BCL2 nel database. Abbiamo il link alla sequenza trovata ed alla pagina corrispondente in Gene. Un trattino indica il match dei caratteri delle due sequenze.

82 BLASTN: Esempio BCL2 L assenza del trattino invece indica un mismatch:

83

84 Punteggio sequenze random Numero Sequenzec 7 asuali 6 5 Opt = Punteggio OPT

85 Punteggio sequenze random Numero Sequenzec 7 asuali 6 5 Opt = Punteggio OPT

86 Significatività statistica Numero Sequenzec 7 asuali 6 5 Opt = Punteggio OPT

87 Significatività statistica Numero Sequenzec 7 asuali 6 5 E = E value = Numero atteso per caso di sequenze con punteggio > opt Punteggio OPT

Algoritmi di Allineamento

Algoritmi di Allineamento Algoritmi di Allineamento CORSO DI BIOINFORMATICA Corso di Laurea in Biotecnologie Università Magna Graecia Catanzaro Outline Similarità Allineamento Omologia Allineamento di Coppie di Sequenze Allineamento

Dettagli

BLAST. W = word size T = threshold X = elongation S = HSP threshold

BLAST. W = word size T = threshold X = elongation S = HSP threshold BLAST Blast (Basic Local Aligment Search Tool) è un programma che cerca similarità locali utilizzando l algoritmo di Altschul et al. Anche Blast, come FASTA, funziona: 1. scomponendo la sequenza query

Dettagli

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST Quarta lezione 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST Ricerca di omologhe in banche dati Proteina vs. proteine Gene (traduzione in aa) vs. proteine Gene vs. geni

Dettagli

FASTA. Lezione del

FASTA. Lezione del FASTA Lezione del 10.03.2016 Omologia vs Similarità Quando si confrontano due sequenze o strutture si usano spesso indifferentemente i termini somiglianza o omologia per indicare che esiste un rapporto

Dettagli

Allineamenti di sequenze: concetti e algoritmi

Allineamenti di sequenze: concetti e algoritmi Allineamenti di sequenze: concetti e algoritmi 1 globine: a- b- mioglobina Precoce esempio di allineamento di sequenza: globine (1961) H.C. Watson and J.C. Kendrew, Comparison Between the Amino-Acid Sequences

Dettagli

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento Algoritmi EURISTICI di allineamento Sono nati insieme alle banche dati, con lo scopo di permettere una ricerca per similarità rapida anche se meno accurata contro le migliaia di sequenze depositate. Attualmente

Dettagli

Le sequenze consenso

Le sequenze consenso Le sequenze consenso Si definisce sequenza consenso una sequenza derivata da un multiallineamento che presenta solo i residui più conservati per ogni posizione riassume un multiallineamento. non è identica

Dettagli

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random Z-score lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random è una misura di quanto il valore di opt si discosta dalla deviazione standard media. indica di quante dev.

Dettagli

Bioinformatics more basic notions

Bioinformatics more basic notions Bioinformatics more basic notions Alcune slides provengono dal materiale rilasciato da: Dr Sergio Marin Vargas - Verona Prof. Riccardo Percudari - Parma Bioinformatics Bio-inspired Computer science Gli

Dettagli

Lezione 7. Allineamento di sequenze biologiche

Lezione 7. Allineamento di sequenze biologiche Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra

Dettagli

Allineamenti a coppie

Allineamenti a coppie Laboratorio di Bioinformatica I Allineamenti a coppie Dott. Sergio Marin Vargas (2014 / 2015) ExPASy Bioinformatics Resource Portal (SIB) http://www.expasy.org/ Il sito http://myhits.isb-sib.ch/cgi-bin/dotlet

Dettagli

Ricerche con BLAST (Laboratorio)

Ricerche con BLAST (Laboratorio) Laboratorio di Bioinformatica I Ricerche con BLAST (Laboratorio) Dott. Sergio Marin Vargas (2014 / 2015) NCBI BLAST BLAST: Basic Local Alignment Search Tool http://blast.ncbi.nlm.nih.gov/blast.cgi NCBI

Dettagli

Bioinformatica ed applicazioni di bioinformatica strutturale!

Bioinformatica ed applicazioni di bioinformatica strutturale! Bioinformatica ed applicazioni di bioinformatica strutturale! Bioinformatica! Le banche dati! Programmi per estrarre ed analizzare i dati! I numeri! Cellule nell uomo! Geni nell uomo! Genoma umano Il dogma

Dettagli

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche)

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche) Docente: Matteo Re UNIVERSITÀ DEGLI STUDI DI MILANO C.d.l. Informatica Bioinformatica A.A. 2013-2014 semestre I 3 Allineamento veloce (euristiche) Banche dati primarie e secondarie Esistono due categorie

Dettagli

ALLINEAMENTO DI SEQUENZE

ALLINEAMENTO DI SEQUENZE ALLINEAMENTO DI SEQUENZE Procedura per comparare due o piu sequenze, volta a stabilire un insieme di relazioni biunivoche tra coppie di residui delle sequenze considerate che massimizzino la similarita

Dettagli

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0;

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0; Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p1 p6 p i >0; 6! i=1 p i =1 Sequenza di dna/proteine x con probabilita q x Probabilita dell intera sequenza n " i!1 q xi Massima verosimiglianza

Dettagli

Organizzazione del genoma umano

Organizzazione del genoma umano Organizzazione del genoma umano Famiglie di geni o geniche Copie multiple di geni, tutte con sequenza identica o simile. La famiglia multigenica corrisponde a un insieme di geni correlati che si sono evoluti

Dettagli

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche InfoBioLab I ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche Esercizio 1 - obiettivi: Ricerca di 2 proteine in ENTREZ Salva i flat file che descrivono le 2 proteine in formato testo Importa

Dettagli

Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni:

Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni: Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni: antonella.meloni@ifc.cnr.it Sequenza A= stringa formata da N simboli, dove i simboli apparterranno ad un certo alfabeto. A

Dettagli

La ricerca di similarità: i metodi

La ricerca di similarità: i metodi La ricerca di similarità: i metodi Pairwise alignment allineamenti a coppie 1. Analisi della matrice a punti (dot matrix) 2. Programmazione dinamica (dynamic programming) allineamenti locale e globale.

Dettagli

Lezione 6. Analisi di sequenze biologiche e ricerche in database

Lezione 6. Analisi di sequenze biologiche e ricerche in database Lezione 6 Analisi di sequenze biologiche e ricerche in database Schema della lezione Allinemento: definizioni Allineamento di due sequenze Ricerca di singola sequenza in banche dati (Alignment-based database

Dettagli

Lezione 7. Allineamento di sequenze biologiche

Lezione 7. Allineamento di sequenze biologiche Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra

Dettagli

Allineamento multiplo

Allineamento multiplo Allineamento multiplo Allineamenti multipli Il modo migliore per conoscere le caratteristiche di una determinata famiglia è allineare molte proteine a funzione analoga. I siti funzionalmente o strutturalmente

Dettagli

Bioinformatica e Biologia Computazionale per la Medicina Molecolare

Bioinformatica e Biologia Computazionale per la Medicina Molecolare Facoltà di Ingegneria dell Informazione Laurea Specialistica e Magistrale in Ingegneria Informatica Facoltà di Ingegneria dei Sistemi Laurea Magistrale in Ingegneria Biomedica Dipartimento di Elettronica

Dettagli

Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini)

Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini) Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini) Collegatevi al sito www.ncbi.nlm.nih.gov/blast. Apparirà una pagina nella quale le versioni

Dettagli

La ricerca di similarità in banche dati

La ricerca di similarità in banche dati La ricerca di similarità in banche dati Uno dei problemi più comunemente affrontati con metodi bioinformatici è quello di trovare omologie di sequenza interrogando una banca dati. L idea di base è che

Dettagli

A W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I

A W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I COME CALCOLARE IL PUNTEIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi che, però, sono le due facce di una stessa medaglia al

Dettagli

Omologia di sequenze: allineamento e ricerca

Omologia di sequenze: allineamento e ricerca Omologia di sequenze: allineamento e ricerca Genomi (organismi) e geni hanno un evoluzione divergente Sequenze imparentate per evoluzione divergente sono omologhe Le sequenze sono confrontabili tramite

Dettagli

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA. Il progetto Genoma Umano è iniziato nel 1990. E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA. Progetto internazionale finanziato da vari paesi, affidato

Dettagli

Bioinformatica. Analisi del genoma

Bioinformatica. Analisi del genoma Bioinformatica Analisi del genoma GABRIELLA TRUCCO CREMA, 5 APRILE 2017 Cosa è il genoma? Insieme delle informazioni biologiche, depositate nella sequenza di DNA, necessarie alla costruzione e mantenimento

Dettagli

Lezione 2: Allineamento di sequenze. BLAST e CLUSTALW

Lezione 2: Allineamento di sequenze. BLAST e CLUSTALW Lezione 2: Allineamento di sequenze BLAST e CLUSTALW Allineamento di sequenze Allineamenti L avvento della genomica moderna permette di analizzare le similitudini e le differenze tra organismi a livello

Dettagli

Ricerca di omologia di sequenza

Ricerca di omologia di sequenza Ricerca di omologia di sequenza RICERCA DI OMOLOGIA DI SEQUENZA := Data una sequenza (query), una banca dati, un sistema per il confronto e una soglia statistica trovare le sequenze della banca più somiglianti

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Filogenesi Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Introduzione alla

Dettagli

Relazione sequenza-struttura e funzione

Relazione sequenza-struttura e funzione Biotecnologie applicate alla progettazione e sviluppo di molecole biologicamente attive A.A. 2010-2011 Modulo di Biologia Strutturale Relazione sequenza-struttura e funzione Marco Nardini Dipartimento

Dettagli

Corso di Bioinformatica

Corso di Bioinformatica Corso di Bioinformatica Cortona - Novembre 2002 Metodi Computazionali per l'analisi delle sequenze Dr. Sabino Liuni Istituto di Tecnologie Biomediche- CNR Sezione di Bioinformatica e Genomica - Bari Sabino@area.ba

Dettagli

Come si sceglie l algoritmo di allineamento? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione?

Come si sceglie l algoritmo di allineamento? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione? Come si sceglie l algoritmo di allineamento? Domande: le due proteine hanno domini simili? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione? hanno un antenato

Dettagli

COME CALCOLARE IL PUNTEGGIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi

COME CALCOLARE IL PUNTEGGIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi COME CALCOLARE IL PUNTEGGIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi che, però, sono le due facce di una stessa medaglia al

Dettagli

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I 1 INTRODUZIONE

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I 1 INTRODUZIONE Docente: Matteo Re UNIVERSITÀ DEGLI STUDI DI MILANO C.d.l. Informatica Bioinformatica A.A. 2013-2014 semestre I 1 INTRODUZIONE Motivazioni dell esistenza della biologia computazionale: Biologia Computazionale

Dettagli

Programmazione dinamica

Programmazione dinamica Programmazione dinamica Fornisce l allineamento ottimale tra due sequenze semplici variazioni dell algoritmo producono allineamenti globali o locali l allineamento calcolato dipende dalla scelta di alcuni

Dettagli

scaricato da I peptidi risultano dall unione di due o più aminoacidi mediante un legame COVALENTE

scaricato da  I peptidi risultano dall unione di due o più aminoacidi mediante un legame COVALENTE Legame peptidico I peptidi risultano dall unione di due o più aminoacidi mediante un legame COVALENTE tra il gruppo amminico di un aminoacido ed il gruppo carbossilico di un altro. 1 Catene contenenti

Dettagli

Esercizi di statistica

Esercizi di statistica Esercizi di statistica Test a scelta multipla (la risposta corretta è la prima) [1] Il seguente campione è stato estratto da una popolazione distribuita normalmente: -.4, 5.5,, -.5, 1.1, 7.4, -1.8, -..

Dettagli

ALLINEAMENTO DI SEQUENZE

ALLINEAMENTO DI SEQUENZE ALLINEAMENTO DI SEQUENZE Gli obiettivi degli algoritmi di allineamento di sequenze di acidi nucleici o proteine sono molteplici. Possiamo ricordare la ricerca di similarità nelle banche dati, la costruzione

Dettagli

Lezione 1. Le molecole di base che costituiscono la vita

Lezione 1. Le molecole di base che costituiscono la vita Lezione 1 Le molecole di base che costituiscono la vita Le molecole dell ereditarietà 5 3 L informazione ereditaria di tutti gli organismi viventi, con l eccezione di alcuni virus, è a carico della molecola

Dettagli

Corso di Bioinformatica. Docente: Dr. Antinisca DI MARCO

Corso di Bioinformatica. Docente: Dr. Antinisca DI MARCO Corso di Bioinformatica Docente: Dr. Antinisca DI MARCO Email: antinisca.dimarco@univaq.it Analisi Filogenetica Gene Ancestrale duplicazione genica La filogenesi è lo studio delle relazioni evolutive tra

Dettagli

Alberi filogenetici. File: alberi_filogenetici.odp. Riccardo Percudani 02/03/04

Alberi filogenetici. File: alberi_filogenetici.odp. Riccardo Percudani 02/03/04 Alberi filogenetici The tree of life Albero filogenetico costruito con le sequenze della subunità piccola dell RNA ribosomale. Tutte le forme viventi condividono un comune ancestore (LCA, last common ancestor

Dettagli

Biologia Molecolare Computazionale

Biologia Molecolare Computazionale Biologia Molecolare Computazionale Paolo Provero - paolo.provero@unito.it 2008-2009 Argomenti Allineamento di sequenze Ricostruzione di alberi filogenetici Gene prediction Allineamento Allineamento di

Dettagli

Informatica e biotecnologie II parte

Informatica e biotecnologie II parte Informatica e biotecnologie II parte Analisi di sequenze: allineamenti CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC CGAAATCGCATCAGCATACGATCGCATGC Bioinformatica La Bioinformatica è una disciplina

Dettagli

Edit distance. v intner RIMDMDMMI wri t ers

Edit distance. v intner RIMDMDMMI wri t ers L'allineamento Edit distance Le operazioni permesse sono: I: insert (inserimento, inserzione) D: delete (cancellazione, delezione, rimozione) R: replacement (substition, sostituzione) M: match (corrispondenza,

Dettagli

Materiale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna).

Materiale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna). Materiale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna). Date due o più sequenze, inizialmente potremmo volere: misurarne il grado di similarità;

Dettagli

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente

i dati escludono vi sia una relazione tra variabile indipendente e variabile dipendente (rispettivamente TEST DI AUTOVALUTAZIONE - SETTIMANA 6 I diritti d autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito. Metodi statistici per la biologia Parte A. La retta di regressione.2

Dettagli

Allineamenti multipli

Allineamenti multipli Allineamenti multipli Finora ci siamo occupati di allineamenti a coppie (pairwise), ma il modo migliore per conoscere le caratteristiche di una determinata famiglia è allineare molte proteine a funzione

Dettagli

Metodo della matrice a punti

Metodo della matrice a punti Metodo della matrice a punti proposto da Gibbs and McIntyre (1970) consente di evidenziare ripetizioni dirette o inverse nelle sequenze prevedere regioni complementari nell RNA che possano potenzialmente

Dettagli

Perché considerare la struttura 3D di una proteina

Perché considerare la struttura 3D di una proteina Modelling Perché considerare la struttura 3D di una proteina Implicazioni in vari campi : biologia, evoluzione, biotecnologie, medicina, chimica farmaceutica... Metodi di studio della struttura di una

Dettagli

Trascrizione e sue regolazioni

Trascrizione e sue regolazioni Corso di Laurea in Chimica e Tecnologie Farmaceu0che a.a. 2011-2012 Università di Catania Trascrizione e sue regolazioni Trascrizione nei procario0 Stefano Forte Le tre fasi della trascrizione Trascrizione

Dettagli

Allineamenti Multipli di Sequenze

Allineamenti Multipli di Sequenze Allineamenti Multipli di Sequenze 1 Allineamento multiplo di sequenze: obiettivi di oggi Definire un allineamento multiplo di sequenze; com è generato; comprendere i principali metodi. Introdurre i database

Dettagli

Metodi di Distanza. G.Allegrucci riproduzione vietata

Metodi di Distanza. G.Allegrucci riproduzione vietata Metodi di Distanza La misura più semplice della distanza tra due sequenze nucleotidiche è contare il numero di siti nucleotidici che differiscono tra le due sequenze Quando confrontiamo siti omologhi in

Dettagli

BLAST: Basic Local Alignment Search Tool

BLAST: Basic Local Alignment Search Tool BLAST: Basic Local Alignment Search Tool 1 Outline della lezione di oggi BLAST Uso pratico Algoritmo Strategie Trovare proteine lontanamente legate: PSI-BLAST 2 Problema con gli algoritmi dinamici Gli

Dettagli

Laboratorio di Bioinformatica I. Filogenesi. Dott. Sergio Marin Vargas (2014 / 2015)

Laboratorio di Bioinformatica I. Filogenesi. Dott. Sergio Marin Vargas (2014 / 2015) Laboratorio di Bioinformatica I Filogenesi Dott. Sergio Marin Vargas (2014 / 2015) Evoluzione Selezione Naturale Selezione Artificiale Variazione casuale Risultato Variazioni Casuali Mutazioni favorite

Dettagli

Analisi della varianza

Analisi della varianza Analisi della varianza Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona ANALISI DELLA VARIANZA - 1 Abbiamo k gruppi, con un numero variabile di unità statistiche.

Dettagli

Modello computazionale per la predizione di siti di legame per fattori di trascrizione

Modello computazionale per la predizione di siti di legame per fattori di trascrizione Modello computazionale per la predizione di siti di legame per fattori di trascrizione Attività di tirocinio svolto presso il Telethon Institute of Genetics and Medicine Relatori Prof. Giuseppe Trautteur

Dettagli

Esempi di ricerca-dati con Total Materia

Esempi di ricerca-dati con Total Materia www.totalmateria.com/it Esempi di ricerca-dati con Total Materia 1 Forniamo di seguito esempi applicativi riguardanti Total Materia in Edizione WEB, che rappresenta la più complete e avanzata Banca-Dati

Dettagli

Introduzione al Calcolo Scientifico A.A Lab. 11

Introduzione al Calcolo Scientifico A.A Lab. 11 Introduzione al Calcolo Scientifico A.A. 2009-2010 - Lab. 11 Si consideri il problema dell allineamento di sequenze di proteine in biologia, legato per esempio all annotamento di genomi Si realizzi con

Dettagli

Determinare la sequenza del DNA

Determinare la sequenza del DNA Corso di Laurea in Chimica e Tecnologie Farmaceu9che a.a. 2014-2015 Università di Catania Determinare la sequenza del DNA Sequenziamento Sanger, NGS e Bioinforma9ca Stefano Forte Sequenziare significa

Dettagli

Ricevimento Studenti: Lunedì previa prenotazione. Cenci lab

Ricevimento Studenti: Lunedì previa prenotazione. Cenci lab Cenci lab Giovanni Cenci Dip.to Biologia e Biotecnologie C. Darwin Sezione Genetica Piano 2 -Citofono 3/4 0649912-655 (office) 0649912-843 (lab) giovanni.cenci@uniroma1.it Ricevimento Studenti: Lunedì

Dettagli

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi

Dettagli

ESERCITAZIONE 3. OBIETTIVO: Ricerca di omologhe mediante i programmi FASTA e BLAST

ESERCITAZIONE 3. OBIETTIVO: Ricerca di omologhe mediante i programmi FASTA e BLAST ESERCITAZIONE 3 OBIETTIVO: Ricerca di omologhe mediante i programmi FASTA e BLAST L'esercitazione prevede l'utilizzo di risorse web per effettuare ricerche di similarità con la proteina GRB2 (growth factor

Dettagli

PROGRAMMAZIONE DINAMICA. Prof. Reho Gabriella Olimpiadi di Informatica

PROGRAMMAZIONE DINAMICA. Prof. Reho Gabriella Olimpiadi di Informatica PROGRAMMAZIONE DINAMICA Quando si usa P.D.? La programmazione dinamica si usa nei casi in cui esista una definizione ricorsiva del problema, ma la trasformazione diretta di tale definizione in un algoritmo

Dettagli

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE

STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE STATISTICA esercizi svolti su: INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 2 1 INTERPOLAZIONE PONDERATA, REGRESSIONE E CORRELAZIONE 1.1

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: introduzione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Una definizione

Dettagli

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i BLAND-ALTMAN PLOT Il metodo di J. M. Bland e D. G. Altman è finalizzato alla verifica se due tecniche di misura sono comparabili. Resta da comprendere cosa si intenda con il termine metodi comparabili

Dettagli

RELAZIONE di BIOLOGIA MOLECOLARE

RELAZIONE di BIOLOGIA MOLECOLARE NOME: Marini Selena MATRICOLA: 592330 RELAZIONE di BIOLOGIA MOLECOLARE CHE ORGANISMO MODELLO È DICTYOSTELIUM? CHE RISORSE BIOINFORMATICHE AGEVOLANO I RICERCATORI CHE LO STUDIANO? Dictyostelium è un genere

Dettagli

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII

Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Corso integrato di informatica, statistica e analisi dei dati sperimentali Esercitazione VII Un breve richiamo sul test t-student Siano A exp (a 1, a 2.a n ) e B exp (b 1, b 2.b m ) due set di dati i cui

Dettagli

Allineamenti multipli

Allineamenti multipli Allineamenti multipli Allineamenti multipli Finora ci siamo occupati di allineamenti a coppie (pairwise), ma il modo migliore per conoscere le caratteristiche di una determinata famiglia è allineare molte

Dettagli

Filogenesi molecolare

Filogenesi molecolare Filogenesi molecolare Geni ortologhi e geni paraloghi Geni ortologhi: geni simili riscontrabili in organismi correlati tra loro. Il fenomeno della speciazione porta alla divergenza dei geni e quindi delle

Dettagli

FACOLTA DI INGEGNERIA INGEGNERIA INFORMATICA A.A. 2008/2009. Corso VISIONE E PERCEZIONE. Docente. Prof. FIORA PIRRI. Tutor MATIA PIZZOLI

FACOLTA DI INGEGNERIA INGEGNERIA INFORMATICA A.A. 2008/2009. Corso VISIONE E PERCEZIONE. Docente. Prof. FIORA PIRRI. Tutor MATIA PIZZOLI FACOLTA DI INGEGNERIA INGEGNERIA INFORMATICA A.A. 2008/2009 Corso VISIONE E PERCEZIONE Docente Prof. FIORA PIRRI Tutor MATIA PIZZOLI MAPPA DI DISPARITA Studente Redjan Shabani (1013173) 0 Definizione di

Dettagli

ALLINEAMENTO DI SEQUENZE

ALLINEAMENTO DI SEQUENZE ALLINEAMENTO DI SEQUENZE 1 DATABASE DI SEQUENZE RICERCA TESTUALE Ricerca dei record i cui campi soddisfano determinati criteri (hanno certi valori) Abbiamo già visto nelle lezioni precedenti SIMILARITA

Dettagli

Informatica e Bioinformatica: Basi di Dati

Informatica e Bioinformatica: Basi di Dati Informatica e Bioinformatica: Date TBD Bioinformatica I costi di sequenziamento e di hardware descrescono vertiginosamente si hanno a disposizione sempre più dati e hardware sempre più potente e meno costoso...

Dettagli

Sommario. Presentazione dell opera Ringraziamenti

Sommario. Presentazione dell opera Ringraziamenti Sommario Presentazione dell opera Ringraziamenti XI XII Capitolo 1 Introduzione alla bioinformatica 1 1.1 Cenni introduttivi 1 1.2 Pietre miliari della bioinformatica 2 1.3 Infrastrutture bioinformatiche

Dettagli

05. Errore campionario e numerosità campionaria

05. Errore campionario e numerosità campionaria Statistica per le ricerche di mercato A.A. 01/13 05. Errore campionario e numerosità campionaria Gli schemi di campionamento condividono lo stesso principio di fondo: rappresentare il più fedelmente possibile,

Dettagli

Array e Oggetti. Corso di Laurea Ingegneria Informatica Fondamenti di Informatica 1. Dispensa 12. A. Miola Dicembre 2006

Array e Oggetti. Corso di Laurea Ingegneria Informatica Fondamenti di Informatica 1. Dispensa 12. A. Miola Dicembre 2006 Corso di Laurea Ingegneria Informatica Fondamenti di Informatica 1 Dispensa 12 Array e Oggetti A. Miola Dicembre 2006 http://www.dia.uniroma3.it/~java/fondinf1/ Array e Oggetti 1 Contenuti Array paralleli

Dettagli

Laboratorio di Bioinformatica I. Parte 2. Dott. Sergio Marin Vargas (2014 / 2015)

Laboratorio di Bioinformatica I. Parte 2. Dott. Sergio Marin Vargas (2014 / 2015) Laboratorio di Bioinformatica I Banche dati Parte 2 Dott. Sergio Marin Vargas (2014 / 2015) Google Scholar https://scholar.google.it/ E un motore di ricerca di Google, specializzato nella ricerca di articoli

Dettagli

la edit distance tra X e Y è la distanza relativa all allineamento (o agli allineamenti) che minimizza tale distanza.

la edit distance tra X e Y è la distanza relativa all allineamento (o agli allineamenti) che minimizza tale distanza. Algoritmica 14/15 EDIT DISTANCE Il problema della edit distance (distanza di edizione, in una versione in italiano scarsamente usata) è alla base dei problemi di confronto fra sequenze perché il meccanismo

Dettagli

27 Marzo (a) Formulare una ipotesi sul modello tempo di vita di questa valvola e sottoporla a verifica.

27 Marzo (a) Formulare una ipotesi sul modello tempo di vita di questa valvola e sottoporla a verifica. Prova scritta di Affidabilità dei sistemi e Controllo statistico di qualità 27 Marzo 20 Tempo di lavoro: 2 ore. Gli esercizi vanno svolti in un file word. Riportare su questo file sia i grafici che eventuali

Dettagli

Statistica Applicata all edilizia: il modello di regressione

Statistica Applicata all edilizia: il modello di regressione Statistica Applicata all edilizia: il modello di regressione E-mail: orietta.nicolis@unibg.it 27 aprile 2009 Indice Il modello di Regressione Lineare 1 Il modello di Regressione Lineare Analisi di regressione

Dettagli

Genomica Evoluzione e cambiamenti dei genomi. Dott.ssa Inga Prokopenko

Genomica Evoluzione e cambiamenti dei genomi. Dott.ssa Inga Prokopenko Genomica Evoluzione e cambiamenti dei genomi Dott.ssa Inga Prokopenko Sistematica in biologia La varietà degli organismi viventi richiede organizzaione delle nostre osservazioni Tassonomia in biologia

Dettagli

Quesiti. 1. Un numero primo Qual è il più grande numero primo minore di 30 che può essere espresso come somma di due numeri primi?

Quesiti. 1. Un numero primo Qual è il più grande numero primo minore di 30 che può essere espresso come somma di due numeri primi? Quesiti 1. Un numero primo Qual è il più grande numero primo minore di 30 che può essere espresso come somma di due numeri primi? 2. La calcolatrice Elena ha una calcolatrice con 15 tasti: 10 sono bianchi

Dettagli

3. Confronto tra due sequenze

3. Confronto tra due sequenze 3. Confronto tra due sequenze Esercizio 1: uso di DotLet Il programma DotLet è accessibile dal sito http://myhits.isb-sib.ch/cgi-bin/dotlet, dove può essere utilizzato attraverso un interfaccia utente

Dettagli

Algoritmi 2 - Dr. Simone Faro - Esercizi sulle Tabelle Hash 1

Algoritmi 2 - Dr. Simone Faro - Esercizi sulle Tabelle Hash 1 Algoritmi 2 - Dr. Simone Faro - Esercizi sulle Tabelle Hash 1 1. Supponete di effettuare una ricerca in una lista concatenata di lunghezza n, dove ogni elemento contiene una chiave k ed un valore hash

Dettagli

Strategie di annotazione di geni e genomi

Strategie di annotazione di geni e genomi Strategie di annotazione di geni e genomi Dr. Giovanni Emiliani giovanni.emiliani@unifi.it Bioinformatica A.A. 2011-1012 Concetti generali Le nuove tecnologie consentono l ottenimento di una grande mole

Dettagli

Progettazione di Algoritmi

Progettazione di Algoritmi Corso di laurea in Informatica Prova scritta del: Progettazione di Algoritmi 29/01/2016 Prof. De Prisco Inserire i propri dati nell apposito spazio. Non voltare la finché non sarà dato il via. Dal via

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego Riconoscimento e recupero dell informazione per bioinformatica Clustering: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizione

Dettagli

Cognome e Nome:... Matricola e corso di laurea:...

Cognome e Nome:... Matricola e corso di laurea:... Statistica - corso base Prof. B. Liseo Prova di esame dell 8 gennaio 2014 Cognome e Nome:................................................................... Matricola e corso di laurea:...................................................

Dettagli

Distanza di Edit. Speaker: Antinisca Di Marco Data:

Distanza di Edit. Speaker: Antinisca Di Marco Data: Distanza di Edit Speaker: Antinisca Di Marco Data: 14-04-2016 Confronto di sequenze Il confronto tra sequenze in biologia computazionale è la base per: misurare la similarità tra le sequenze allineamento

Dettagli

CAPITOLO 2 RAPPRESENTAZIONI GRAFICHE DEI DATI

CAPITOLO 2 RAPPRESENTAZIONI GRAFICHE DEI DATI VERO FALSO CAPITOLO 2 RAPPRESENTAZIONI GRAFICHE DEI DATI V F 1. Una tabella base di frequenza contiene 2 colonne: una per i valori delle variabili d interesse e un altra per il numero delle volte che i

Dettagli

Relazione Laboratorio di bioinformatica

Relazione Laboratorio di bioinformatica Relazione Laboratorio di bioinformatica Davide Cittaro La predizione della struttura tridimensionale di una proteina sulla base della sequenza è un risultato ambito. L utilizzo di sole considerazioni fisico-chimiche

Dettagli

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre R - Esercitazione 6 Andrea Fasulo fasulo.andrea@yahoo.it Università Roma Tre Venerdì 22 Dicembre 2017 Il modello di regressione lineare semplice (I) Esempi tratti da: Stock, Watson Introduzione all econometria

Dettagli

Un approccio informatico per lo studio

Un approccio informatico per lo studio UNIVERSITA' DEGLI STUDI DI NAPOLI Federico II Facoltà di Medicina Veterinaria DOTTORATO DI RICERCA IN Produzione e Sanità degli alimenti di origine animale Indirizzo: Scienze dell allevamento animale -

Dettagli

Nel codice genetico, una tripletta di nucleotidi codifica per un aminoacido

Nel codice genetico, una tripletta di nucleotidi codifica per un aminoacido Il codice genetico: Come triplette dei quattro nucleotidi specificano 20 aminoacidi, rendendo possibile la traduzione dell informazione da catena nucleotidica a sequenza di aminoacidi. Come le mutazioni

Dettagli

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli.

Variabili indipendenti qualitative. In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli. Variabili indipendenti qualitative Di solito le variabili nella regressione sono variabili continue In molte applicazioni si rende necessario l introduzione di un fattore a due o più livelli Ad esempio:

Dettagli

Linguaggi Regolari e Linguaggi Liberi

Linguaggi Regolari e Linguaggi Liberi Linguaggi Regolari e Linguaggi Liberi Linguaggi regolari Potere espressivo degli automi Costruzione di una grammatica equivalente a un automa Grammatiche regolari Potere espressivo delle grammatiche 1

Dettagli