Informatica e Bioinformatica A. A

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Informatica e Bioinformatica A. A"

Transcript

1 Purtroppo non esiste un modo univoco per indicare un gene. Ad esempio abbiamo visto che il gene tcap a seconda del record è riportato come titin-cap protein o telethonin. Questo crea confusione e non facilita la ricerca informatica. The Human Genome Organisation (HUGO) ha istituito un comitato allo scopo di dare un unico nome significativo a tutti i geni umani. Con questo intento è stato costruito il database HGNC. Informatica e Bioinformatica A. A

2 Oltre che esistere differenti nomi per lo stesso gene/proteina, possono esistere o essere adottati anche differenti modi per descrivere le loro funzioni e le loro localizzazioni. A volte è corretto assegnare diverse funzioni ad una molecola biologica (una proteina che svolge più di una funzione): per non generare confusioni è però necessario usare una terminologia univoca per ogni funzione. Per questo motivo è stato fondato il database Gene Ontology: fornisce una definizione precisa del ruolo svolto dalle singole proteine tramite un vocabolario (le ontologie) che consenta di definire in modo corretto e non arbitrario il o i processi biologici cui una proteina partecipa, la/e sue funzioni molecolari e la/e sue localizzazioni cellulare. Nota: i link con la sigla GO rimandano al database della gene ontology Informatica e Bioinformatica A. A

3 ALLINEAMENTO DI SEQUENZE Informatica e Bioinformatica A. A

4 DATABASE DI SEQUENZE RICERCA TESTUALE Ricerca dei record i cui campi soddisfano determinati criteri. già vista nelle precedenti lezioni SIMILARITÀ Ricerca dei record che hanno le sequenze più simili ad una sequenza fornita come query. ora ci occuperemo di questa. Informatica e Bioinformatica A. A

5 CONSIDERAZIONI GENERALI Acidi nucleici e proteine sono costituiti da sequenze lineari rispettivamente di nucleotidi e di aminoacidi; entrambi possono essere rappresentati da singole lettere o stringhe di caratteri. >gi ref NM_ Homo sapiens colipase, pancreatic (CLPS), mrna CTGTCTCCCGCCACCCACACCAGCTGTCCCACTCACCATGGAGAAGATCCTGATCCTCCTGCTTGTCGCCCTC TCTGTGGCCTATGCAGCTCCTGGCCCCCGGGGGATCATTATCAACCTGGAGAACGGTGAGCTCTGCATGAA TAGTGCCCAGTGTAAGAGCAATTGCTGCCAGCATTCAAGTGCGCTGGGCCTGGCCCGCTGCACATCCATGG CCAGCGAGAACAGCGAGTGCTCTGTCAAGACGCTCTATGGGATTTACTACAAGTGTCCCTGTGAGCGTGGC CTGACCTGTGAGGGAGACAAGACCATCGTGGGCTCCATCACCAACACCAACTTTGGCATCTGCCATGACGCT GGACGCTCCAAGCAGTGAGACTGCCCACCCACTCCCACACCTAGCCCAGAATGCTGTAGGCCACTAGGCGC AGGGGCATCTCTCCCCTGCTCCAGCGCATCTCCCGGGCTGGCCACCTCCTTGACCAGCATATCTGTTTTCTG ATTGCGCTCTTCACAATTAAAGGCCTCCTGCAAACCTT Un acido nucleico rappresentato come stringa di caratteri, formato FASTA. >colipase-protein MEKILILLLVALSVAYAAPGPRGIIINLENGELCMNSAQCKSNCCQH SSALGLARCTSMASENSECSVKTLYGIYYKCPCERGLTCEGDKTIVG SITNTNFG ICHDAGRSKQ La corrispondente proteina rappresentata come stringa di caratteri, formato FASTA. La stringa di caratteri è soltanto una rappresentazione semplificata del corrispondente acido nucleico o proteina, ma permette di gestire ed analizzare le sequenze mediante opportuni programmi informatici. Informatica e Bioinformatica A. A

6 Ricerca di similarità tra sequenze Quando viene ottenuta una sequenza nucleotidica o proteica si cerca innanzitutto di individuarne la funzione. Come? Viene subito in mente di cercare tra le sequenze già esistenti in database, alla ricerca di una o più sequenze che siano confrontabili alla nostra. Da questa ricerca cosa possiamo ottenere? Sequenza query Confronti Database di sequenze Nel caso più semplice, potremmo trovare una sequenza identica alla nostra, magari a funzione già nota. Potremo quasi sicuramente trasferire la funzione della sequenza target (subject) anche alla nostra sequenza query. Potrebbe non esserci alcuna sequenza identica alla nostra. Dovremo in questo caso cercare le sequenze più simili alla nostra: in questo caso potremo formulare delle ipotesi sull ipotetica funzione della nostra sequenza query. Più alto sarà il livello di similarità tra le sequenze, più attendibili saranno le nostre ipotesi. L allineamento di sequenze basato sulla similarità è un metodo che ci permette di assegnare una probabile funzione a sequenze prima sconosciute. Informatica e Bioinformatica A. A

7 Quando inferire la funzione! Se le sequenze di due proteine o di DNA sono molto simili, allora lo saranno anche le loro strutture e le funzioni. SEQUENZA SIMILE STRUTTURA SIMILE FUNZIONE SIMILE Non è però vero il contrario. Infatti, proteine con funzione e struttura simili non hanno necessariamente sequenze simili (ad esempio i trasportatori di membrana). Ci possono essere proteine con la stessa funzione, ma con struttura e soprattutto sequenza nucleotidica corrispondente diversa. Es. mutazioni silenti che interessano la terza base di un codone: l aminoacido rimane lo stesso ma è cambiato il DNA! Informatica e Bioinformatica A. A

8 Analisi comparata Un aspetto importante della biologia è capire come si siano originate le strutture biologiche nel corso dell'evoluzione: evoluzione biologica e filogenesi. Analisi comparata classica: confrontando l'anatomia dei vertebrati, si può dedurre che i mammiferi si sono originati da un gruppo di rettili originati a loro volta da un gruppo di anfibi, originati a loro volta da un gruppo di pesci. Analisi comparata a livello molecolare: confrontando sequenze proteiche in organismi diversi è possibile ricostruire passo dopo passo l'evoluzione delle proteine nel corso della filogenesi e capire come esse abbiano affinato le loro funzioni; oppure come siano nate funzioni nuove da proteine ancestrali con funzioni diverse. l allineamento di sequenze è oggi alla base di molti studi di filogenesi molecolare. Set di geni/proteine Organismo A Set di geni/proteine Organismo B Set di geni/proteine Organismo C Set di geni/proteine Organismo D Set di geni/proteine Organismo E Allineamento delle sequenze Analisi comparata delle similarità Costruzione dell albero filogenetico degli organismi A C E B D Informatica e Bioinformatica A. A

9 Alcune definizioni: Similarità, omologia ed analogia Spesso si fa confusione tra similarità ed omologia. La similarità è un aspetto quantitativo che indica un livello di somiglianza tra le sequenze: prevede che venga fissato un criterio comparativo (% identità, % mutazioni conservative ecc.). L omologia è un aspetto qualitativo che riguarda più propriamente la funzione delle sequenze ed indica un origine filogenetica comune. L'omologia presuppone l'esistenza di un organismo ancestrale comune da cui le strutture omologhe si sono evolute. Ad esempio l'ala di un uccello e la pinna anteriore di una foca sono omologhi perché si suppone che si siano entrambi evoluti dall'arto anteriore di un rettile ancestrale. Invece, il termine analogia indica che due strutture hanno una funzione simile, ma che si sono evolute indipendentemente. Ad esempio l'ala di un uccello e quella di una farfalla: la similarità in questo caso è determinata da una convergenza adattativa e non dalla stessa origine evolutiva. Informatica e Bioinformatica A. A

10 Il termine omologia si applica anche a sequenze di acidi nucleici e proteine: due geni sono omologhi se hanno un gene ancestrale da cui sono originati entrambi. La similarità tra due sequenze è generalmente dovuta ad una origine evolutiva comune per cui molto spesso i termini "similarità" e "omologia" si confondono. Quando non si è certi di un origine evolutiva comune si dovrebbe parlare di similarità. Un errore ancora più grave è di parlare di percentuale di omologia, che non ha nessun senso. Informatica e Bioinformatica A. A

11 Evoluzione genica ed omologia speciazione: origine di una nuova specie da una già esistente (A) Quando due geni omologhi derivano dalla speciazione si parla di geni ortologhi. (B) Quando due geni omologhi derivano dalla duplicazione genica, si parla di geni paraloghi. Deve essere chiaro che sia i geni paraloghi che i geni ortologhi sono omologhi perchè il termine omologia si riferisce all esistenza di un comune ancestor. Informatica e Bioinformatica A. A

12 ESEMPIO Nel corso dell'evoluzione dei vertebrati (prima della evoluzione degli anfibi), si è verificato un evento di duplicazione del gene della globina (globina alfa e beta). Oggi alcuni pesci hanno un singolo gene, mentre altri ne hanno due: uno simile alla globina alfa e uno alla globina beta. Dai pesci con due globine si sono evoluti gli anfibi, e da questi rettili, uccelli e mammiferi. Tutti i geni della globina sono omologhi in quanto derivano da un unico gene ancestrale: - i geni delle globine alfa sono ortologhi tra loro così come i geni delle globine beta; - i geni dell alfa e beta globina sono paraloghi tra loro in quanto derivano da un processo di duplicazione genica. Globina di uomo Vertebrati Pesci con un solo gene per la globina Pesci con un solo gene per la globina Pesci con alfa e beta globine Anfibi Pesci con alfa e beta globine Anfibi Rettili Mammiferi Rettili Informatica e Bioinformatica A. A

13 Cominciamo ad allineare tra loro le sequenze: la DOT MATRIX Il primo semplice sistema di visualizzazione di allineamenti risale al 1970 e si chiama metodo della Dot Matrix (matrice a punti). Le due sequenze da confrontare sono inserite ai margini di una matrice. Se le due lettere corrispondenti ad una casella sono uguali, allora la casella viene colorata di nero ed apparirà come un punto (dot) all interno della matrice. Gli allineamenti di una certa lunghezza appariranno come segmenti diagonali e saranno distinguibili visivamente. Informatica e Bioinformatica A. A

14 Analisi della matrice Confrontando due sequenze identiche (la stessa sequenza sia in orizzontale che verticale) otterremo una diagonale continua che parte dall'angolo in alto a sinistra per arrivare a quello in basso a destra. NOTA: statisticamente parlando, dal confronto tra sequenze proteiche ci possiamo aspettare una casella positiva ogni 20. Ancor di più, dal confronto di sequenze di acidi nucleici potremmo avere una casella positiva ogni 4: si crea un notevole rumore di fondo. Un modo per ridurre il rumore di fondo è di considerare la media dei valori presenti sulla diagonale all interno di una determinata finestra (window) invece che considerare le singole caselle della matrice. Variazione del rumore di fondo con diversi valori del parametro window. Informatica e Bioinformatica A. A

15 Osservazioni Significato della diagonale posta in prossimità dell'angolo in alto a destra: la parte finale della sequenza orizzontale è simile alla parte iniziale della sequenza verticale. In altre parole, la sequenza verticale è simile alla sequenza orizzontale in due porzioni distinte, possibilmente generate da parziale duplicazione del gene. Una diagonale parallela quella principale indica una parziale duplicazione genica o la presenza di domini multipli. Informatica e Bioinformatica A. A

16 La diagonale principale della figura mostra un'evidente interruzione nella parte centrale per poi continuare su una diagonale diversa, un po' più bassa. Questi salti di diagonale sono dovuti ad alcuni segmenti di sequenza che sono presenti in una sequenza, ma non nell'altra. In altre parole, una sequenza possiede un gap (discontinuità, buco) rispetto all altra. Nel caso del nostro esempio abbiamo un gap (delezione) nella sequenza orizzontale o, se si preferisce, un segmento di sequenza aggiuntivo (inserzione) nella sequenza verticale. Esempio di gap tra due sequenze Informatica e Bioinformatica A. A

17 Schema per l interpretazione della Dot Matrix Informatica e Bioinformatica A. A

18 Con l'approccio della dot matrix viene semplicemente mostrata una matrice, la quale viene in seguito interpretata visivamente ed in modo soggettivo. Abbiamo bisogno di un sistema che sia anche in grado di estrarre i dati dalla matrice e trovare automaticamente gli allineamenti migliori, cioè di identificare il "percorso" migliore all'interno della matrice. Occorre individuare un metodo per confrontare sequenze che utilizzi un criterio per quantificare il grado di similarità tra sequenze. servono dei programmi informatici capaci di utilizzare appositi algoritmi di allineamento (metodo di allineamento) e che sfruttino un criterio di similarità capace di stimare la bontà di un certo allineamento. Informatica e Bioinformatica A. A

19 RICERCA DELLE SIMILARITÀ TRA 2 SEQUENZE Per determinare la similarità tra due sequenze dobbiamo quindi definire: 1. l algoritmo di allineamento 2. il criterio di similarità 1. ALGORITMO DI ALLINEAMENTO Un algoritmo è caratterizzato da l insieme di tutte le operazioni da eseguire per risolvere un problema (determinazione di tutti i possibili allineamenti); la complessità, cioè da come varia il numero delle operazioni da effettuare al variare della dimensione del problema: il tempo di esecuzione del programma che implementa l algoritmo è infatti proporzionale alla complessità dell algoritmo! Esempio: algoritmo di scorrimento. Si fa scorrere una sequenza sull altra contando le identità tra le due sequenze 4 identità Informatica e Bioinformatica A. A

20 2. CRITERIO DI SIMILARITÀ Funzione di score L allineamento delle sequenze dovrebbe essere caratterizzato da un punteggio (score), col quale è possibile valutare (secondo i criteri impostati) il grado di similarità. Ad esempio, con l algoritmo di scorrimento e una semplice funzione di score che assegni 1 se le lettere tra le due sequenze sono uguali; 0 se le lettere sono diverse, per ogni allineamento si ricava uno score dato dalla somma ottenuta da tutti gli appaiamenti. Il miglior allineamento potrebbe essere quello che ha ottenuto il maggior punteggio. Questo esempio di funzione di score potrebbe non rappresentare un criterio molto valido: non ha senso penalizzare tutte le differenze (i mismatch) allo stesso modo! in genere nelle proteine la sostituzione tra aminoacidi carichi non comporta grandi cambiamenti strutturali, mentre la sostituzione di aminoacidi aromatici con altri carichi comporta spesso pesanti cambiamenti conformazionali. Per questo sono state introdotte le matrici di sostituzione (vedi prossima slide). Inoltre possono essere adottate particolari penalità (score) per l apertura o l estensione di un gap che si sommano allo score totale. Adozione di criteri differenti funzioni di score differenti score finali differenti Informatica e Bioinformatica A. A

21 LE MATRICI DI SOSTITUZIONE Nel caso dell allineamento di aminoacidi è opportuno applicare dei criteri di similarità che non si limitino a verificare l identità assoluta, ma tengano conto del fatto che gli aminoacidi possono essere più o meno simili tra loro: aminoacidi molto simili possono essere indifferentemente sostituiti in una proteina senza una variazione apprezzabile nella struttura (e quindi funzione) della proteina. Per esempio acido aspartico (D) e acido glutammico (E) sono molto simili e nel corso dell evoluzione prendono facilmente il posto l uno dell altro nelle proteine. Viceversa acido aspartico (D) e triptofano (W) sono molto diversi e non sono interscambiabili. E ragionevole valutare differentemente la sostituzione di D con E e di D con W. Questa tipologia di confronti viene descritta in matrici quadrate di 20x20 caselle in cui si attribuisce un punteggio ad ogni possibile coppia di aminoacidi: - più alto è il punteggio tanto più interscambiabili sono gli aminoacidi; - punteggi negativi penalizzano invece aminoacidi molto differenti. Approfondiamo brevemente le matrici di sostituzione più diffuse, le matrici PAM e le matrici BLOSUM. Informatica e Bioinformatica A. A

22 MATRICI PAM (point accepted mutation) Le matrici PAM (mutazioni puntiformi accettate) elencano la probabilità di cambiamento da un aminoacido ad un altro in sequenze proteiche omologhe nel corso dell evoluzione. Sono basate su uno studio di filogenesi molecolare condotto su 71 famiglie di proteine nel 1978 da Margareth Dayhoff e collaboratori. E stata effettuata una ricostruzione dell evoluzione molecolare delle proteine, in cui ad ogni passaggio evolutivo si presuppone una sostituzione aminoacidica. PAM1 rappresenta un singolo passaggio evolutivo (il primo) che tiene conto della probabilità di sostituzione di ogni aminoacido con ciascun altro e tale da prevedere una mutazione ogni 100 aminoacidi. Informatica e Bioinformatica A. A

23 I passi evolutivi successivi vengono simulati applicando nuovamente le probabilità di sostituzione definite in PAM 1 per ricalcolare, ad ogni nuovo passo, nuove probabilità di sostituzione. Una distanza evolutiva di 100 PAM non corrisponde alla sostituzione del 100% degli aminoacidi, ma a 100 passi evolutivi. Possiamo simulare qualsivoglia distanza evolutiva e calcolarne la corrispondente PAM. Alla fine della simulazione otteniamo dei punteggi che ci indicano quanto più probabile è che l appaiamento tra gli aminoacidi sia dovuto ad omologia piuttosto che al caso. Nota: il modello prevede che le sostituzioni aminoacidiche osservate a grandi distanze evolutive derivino esclusivamente dalla somma di tante mutazioni indipendenti. Informatica e Bioinformatica A. A

24 MATRICI BLOSUM (1992, Henikoff and Henikoff) Sono basate sulla banca dati BLOCKS, la quale contiene una collezione di allineamenti multipli di segmenti proteici (senza gap). I blocchi sono derivati da osservazione diretta, cioè non viene fatta nessun tipo di assunzione di omologia. Ogni blocco di allineamenti contiene sequenze con un numero di aminoacidi identici superiore ad una certa percentuale (P). Ad esempio, una BLOSUM60 corrisponde ad un 60 % di identità minima (più alto è l indice, tanto più ci si avvicina alla matrice di identità). Da ognuno di questi blocchi è possibile (reiterando il calcolo in modalità simili al metodo PAM) ricavare la frequenza relativa di sostituzione degli aminoacidi e costruire delle matrici di sostituzione. Informatica e Bioinformatica A. A

25 Le tabelle (o matrici) di sostituzione dei 20 aminoacidi comprendono: 190 valori di relazione tra aminoacidi diversi, più 20 valori di identità, per un totale di 210 valori. Spesso queste matrici sono riportate anche nella loro parte speculare per un totale di altri 190 valori, uguali ai primi. Il tutto si può facilmente rappresentare con una matrice di 20x20, 400 valori. Questa tabella corrisponde alla matrice PAM240, una delle più comunemente usate per allineare tra loro sequenze di aminoacidi. In genere, per ogni coppia: valori alti aa. identici; medi aa. simili ; bassi aa. molto differenti (ad esempio W & G = -7). Informatica e Bioinformatica A. A

26 In sintesi Matrici PAM: si basano sulla frequenza con cui ciascun aminoacido può subire un evento di sostituzione calcolato mediante uno studio di filogenesi molecolare (esistono matrici PAM1, PAM10, ecc. che si differenziano per i passi evolutivi considerati nel loro calcolo) Matrici BLOSUM: sono invece basate su una banca dati (BLOCKS) di allineamenti multipli di segmenti proteici senza gap. (anche in questo caso esistono differenti matrici BLOSUM adatte per allineamenti tra sequenze con differenti distanze filogenetica) Esistono diverse matrici PAM e BLOSUM, che servono per confrontare sequenze simili oppure molto divergenti. Questo perché si basano sulle frequenze di sostituzione osservate in famiglie di proteine simili, che variano in base alla distanza evolutiva delle stesse famiglie di proteine. PAM80 PAM120 PAM200 PAM250: aumento distanza evolutiva. BLOSUM80 BLOSUM62 BLOSUM45: aumento distanza evolutiva. Perché le BLOSUM vanno all opposto? Informatica e Bioinformatica A. A

27 I principali programmi di allineamento tra sequenze usano le matrici PAM e BLOSUM per assegnare i punteggi di allineamento (funzione di score). Esistono altre matrici di sostituzione basate su differenti criteri di similarità chimica, oppure sul numero minimo di mutazioni necessarie per sostituire il codone di un aminoacido in un altro. Esistono matrici di sostituzione anche per le sequenze di DNA. Queste matrici contengono informazioni sull'occorrenza di transizioni (purina a purina, pirimidina a pirimidina) e transversioni (purina a pirimidina, e viceversa). Informatica e Bioinformatica A. A

28 Proviamo a confrontare due sequenze allineandole tra loro 1. Le due sequenze sono entrambe formate da 11 A, 9 T, 13 C, 7 G: sono simili? ACTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA CAGCACGTGGCTTACTCACTACCAGTTCTCACAGAATGCA 2. Due sequenze di 39 basi hanno lo stesso contenuto in basi. Se allineate, notiamo 22 basi identiche: più del 50%. Possiamo considerarle simili o no? ACTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA ATTCCCCACGATCGTTTCCTAGTCCGGAAACACAACCGGA 3. Anche queste due sequenze hanno 22 basi allineate ed identiche. Come le consideriamo? Come nel caso precedente o in altro modo? ACTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA TAGTAGCCGACCATTTCTCGACTGCAGACCTTAATTAGTT 4a. Date le due sequenze sovrapposte: ACTTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA CAAAGCGCGAAAACTTTCACCCTAGCTTTCTCGACTGCAGAG è sufficiente traslare una delle sequenze per ottenere: ACTTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA CAAAGCGCGAAAACTTTCACCCTAGCTTTCTCGACTGCAGAG Informatica e Bioinformatica A. A

29 ALLINEAMENTI GLOBALI E LOCALI Consideriamo i seguenti due differenti allineamenti delle stesse sequenze. Nel primo caso si hanno 14 identità (evidenziate dalle linee verticali) e tre sostituzioni conservative (evidenziate dai punti) distribuite su tutta la lunghezza della sequenza. Nel secondo caso si hanno 13 identità ed una sostituzione conservativa su una regione di 14 aminoacidi. Quale dei due allineamenti è da considerarsi migliore? Informatica e Bioinformatica A. A

30 ALLINEAMENTI GLOBALI O LOCALI? Dal punto di vista biologico generalmente vengono privilegiati gli allineamenti locali, che riguardano regioni limitate delle proteine o di acidi nucleici. Abbiamo già parlato di domini delle proteine o anche degli acidi nucleici. Se ad esempio siamo interessati a trovare tutte le sequenze di proteine di una banca dati che contengono un certo dominio, allora sicuramente si cercheranno similarità locali. Gli allineamenti globali vengono applicati quando si vogliono confrontare accuratamente due sequenze in cui la similarità sia estesa per tutta la lunghezza. N.B. Un allineamento locale non è necessariamente limitato ad una piccola regione della sequenza, ma potrebbe estendersi anche all intera lunghezza della sequenza. Informatica e Bioinformatica A. A

31 Ricerca di similarità di sequenza in banche dati La ricerca di similarità di sequenze in banche dati è diventata una operazione molto importante in diversi settori della biologia. I programmi che effettuano questa operazione si basano sul confronto sistematico di una sequenza di partenza (la query) con ognuna delle sequenze del database (dette subject). Sequenza query Confronti Database di sequenze Alcuni programmi, come BLAST, sono estremamente efficienti e sono in grado di portare a termine una ricerca di similarità in pochi secondi. Questi programmi si basano essenzialmente su procedure che, per ogni sequenza del database: * effettua l'allineamento; * attribuisce un punteggio; * se il punteggio è alto lo memorizza; * ripete fino alla fine delle sequenze; * mostra la lista dei migliori allineamenti trovati. Informatica e Bioinformatica A. A

32 BLAST Basic Local Alignment Search Tool Il programma più usato per fare ricerche di similarità in banche dati è BLAST. In questo corso ci limiteremo a descriverne alcune applicazioni e a capire il significato dei risultati. BLAST può essere installato e fatto funzionare in un PC locale (nel proprio PC) oppure è accessibile dalla rete ad esempio al sito: dove può essere direttamente utilizzato per effettuare ricerche di similarità in banche dati. E' inoltre disponibile un dettagliato "Blast tutorial" dove possono essere trovate informazioni approfondite sull'uso del programma e sull'algoritmo. Informatica e Bioinformatica A. A

33 All NCBI sono reperibili numerosi tutorial e questo vale anche per BLAST Sono introdotti concetti molto generali fino alla definizione di terminologie molto tecniche e fondamentali Informatica e Bioinformatica A. A

34 Sono state sviluppate diverse applicazioni base del programma BLAST che consentono di ricercare sequenze sia a livello di acidi nucleici che di proteine: BLASTP cerca similarità in una banca dati di sequenze di aminoacidi a partire da una sequenza query di aminoacidi; BLASTN cerca similarità in una banca dati di sequenze nucleotidiche a partire da una sequenza query di nucleotidi; BLASTX cerca similarità in una banca dati di sequenze di aminoacidi a partire da una sequenza query di nucleotidi, dopo aver tradotto automaticamente la query in aminoacidi utilizzando tutti i possibili frame di lettura* (cosa sono??); TBLASTN cerca similarità in una banca dati di sequenze di nucleotidi a partire da una sequenza query di aminoacidi, traducendo automaticamente ogni sequenza della banca dati utilizzando tutti i possibili frame di lettura; TBLASTX cerca similarità in una banca dati di sequenze di nucleotidi a partire da una sequenza query di nucleotidi, traducendo sia la query che le sequenze subject in aminoacidi, in tutte le possibili fasi di lettura (fasi=frame). Informatica e Bioinformatica A. A

35 * Riguardo al BLASTX (ma anche al TBLASTN e TBLASTX), cosa può significare la frase: dopo aver tradotto automaticamente la query (subject) in amminoacidi utilizzando tutti i possibili frame di lettura? Questi concetti sono già stati introdotti nel corso: fateli vostri! Informatica e Bioinformatica A. A

Algoritmi di Allineamento

Algoritmi di Allineamento Algoritmi di Allineamento CORSO DI BIOINFORMATICA Corso di Laurea in Biotecnologie Università Magna Graecia Catanzaro Outline Similarità Allineamento Omologia Allineamento di Coppie di Sequenze Allineamento

Dettagli

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2.

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2. Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti patti@di.unito.it Esercitazione 7 1 Info&Bio Bio@Lab Allineamento di sequenze Esercitazione 7 2 1 Es2: Allineamento

Dettagli

Esempio di utilizzo del programma BLAST disponibile all NCBI Form di Nucleotide BLAST

Esempio di utilizzo del programma BLAST disponibile all NCBI   Form di Nucleotide BLAST Esempio di utilizzo del programma BLAST disponibile all NCBI www.ncbi.nlm.nih.gov/blast Form di Nucleotide BLAST Per un uso più avanzato, si possono impostare parametri particolari (es. cost to open gap,

Dettagli

BLAST. W = word size T = threshold X = elongation S = HSP threshold

BLAST. W = word size T = threshold X = elongation S = HSP threshold BLAST Blast (Basic Local Aligment Search Tool) è un programma che cerca similarità locali utilizzando l algoritmo di Altschul et al. Anche Blast, come FASTA, funziona: 1. scomponendo la sequenza query

Dettagli

Pairwise Sequence Alignment BIOINFORMATICA. Corso di Laurea in Ingegneria Informatica e Biomedica. Università Magna Graecia Catanzaro

Pairwise Sequence Alignment BIOINFORMATICA. Corso di Laurea in Ingegneria Informatica e Biomedica. Università Magna Graecia Catanzaro Pairwise Sequence Alignment BIOINFORMATICA Corso di Laurea in Ingegneria Informatica e Biomedica Università Magna Graecia Catanzaro Outline Similarità Allineamento Omologia Allineamento Esatto di Coppie

Dettagli

FASTA. Lezione del

FASTA. Lezione del FASTA Lezione del 10.03.2016 Omologia vs Similarità Quando si confrontano due sequenze o strutture si usano spesso indifferentemente i termini somiglianza o omologia per indicare che esiste un rapporto

Dettagli

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST Quarta lezione 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST Ricerca di omologhe in banche dati Proteina vs. proteine Gene (traduzione in aa) vs. proteine Gene vs. geni

Dettagli

ALLINEAMENTO DI SEQUENZE

ALLINEAMENTO DI SEQUENZE ALLINEAMENTO DI SEQUENZE 1 DATABASE DI SEQUENZE RICERCA TESTUALE Ricerca dei record i cui campi soddisfano determinati criteri (hanno certi valori) Abbiamo già visto nelle lezioni precedenti SIMILARITA

Dettagli

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing SAGA: sequence alignment by genetic algorithm ALESSANDRO PIETRELLI Soft Computing Bologna, 25 Maggio 2007 Multi Allineamento di Sequenze (MSAs) Cosa sono? A cosa servono? Come vengono calcolati Multi Allineamento

Dettagli

Descrizione generale dell esame

Descrizione generale dell esame Descrizione generale dell esame Ci saranno 15 domande a risposta multipla: le risposte corrette aggiungono punti le risposte sbagliate tolgono punti Ciascuna domanda avrà 2 risposte corrette e due sbagliate

Dettagli

Allineamento e similarità di sequenze

Allineamento e similarità di sequenze Allineamento e similarità di sequenze Allineamento di Sequenze L allineamento tra due o più sequenza può aiutare a trovare regioni simili per le quali si può supporre svolgano la stessa funzione; La similarità

Dettagli

Le sequenze consenso

Le sequenze consenso Le sequenze consenso Si definisce sequenza consenso una sequenza derivata da un multiallineamento che presenta solo i residui più conservati per ogni posizione riassume un multiallineamento. non è identica

Dettagli

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random Z-score lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random è una misura di quanto il valore di opt si discosta dalla deviazione standard media. indica di quante dev.

Dettagli

Bioinformatica ed applicazioni di bioinformatica strutturale!

Bioinformatica ed applicazioni di bioinformatica strutturale! Bioinformatica ed applicazioni di bioinformatica strutturale! Bioinformatica! Le banche dati! Programmi per estrarre ed analizzare i dati! I numeri! Cellule nell uomo! Geni nell uomo! Genoma umano Il dogma

Dettagli

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento Algoritmi EURISTICI di allineamento Sono nati insieme alle banche dati, con lo scopo di permettere una ricerca per similarità rapida anche se meno accurata contro le migliaia di sequenze depositate. Attualmente

Dettagli

Bioinformatica. Analisi del genoma

Bioinformatica. Analisi del genoma Bioinformatica Analisi del genoma GABRIELLA TRUCCO CREMA, 5 APRILE 2017 Cosa è il genoma? Insieme delle informazioni biologiche, depositate nella sequenza di DNA, necessarie alla costruzione e mantenimento

Dettagli

Ricerche con BLAST (Laboratorio)

Ricerche con BLAST (Laboratorio) Laboratorio di Bioinformatica I Ricerche con BLAST (Laboratorio) Dott. Sergio Marin Vargas (2014 / 2015) NCBI BLAST BLAST: Basic Local Alignment Search Tool http://blast.ncbi.nlm.nih.gov/blast.cgi NCBI

Dettagli

ALLINEAMENTO DI SEQUENZE

ALLINEAMENTO DI SEQUENZE ALLINEAMENTO DI SEQUENZE Procedura per comparare due o piu sequenze, volta a stabilire un insieme di relazioni biunivoche tra coppie di residui delle sequenze considerate che massimizzino la similarita

Dettagli

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche)

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche) Docente: Matteo Re UNIVERSITÀ DEGLI STUDI DI MILANO C.d.l. Informatica Bioinformatica A.A. 2013-2014 semestre I 3 Allineamento veloce (euristiche) Banche dati primarie e secondarie Esistono due categorie

Dettagli

Allineamenti di sequenze: concetti e algoritmi

Allineamenti di sequenze: concetti e algoritmi Allineamenti di sequenze: concetti e algoritmi 1 globine: a- b- mioglobina Precoce esempio di allineamento di sequenza: globine (1961) H.C. Watson and J.C. Kendrew, Comparison Between the Amino-Acid Sequences

Dettagli

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche InfoBioLab I ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche Esercizio 1 - obiettivi: Ricerca di 2 proteine in ENTREZ Salva i flat file che descrivono le 2 proteine in formato testo Importa

Dettagli

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 8 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 8 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

Lezione 1. Le molecole di base che costituiscono la vita

Lezione 1. Le molecole di base che costituiscono la vita Lezione 1 Le molecole di base che costituiscono la vita Le molecole dell ereditarietà 5 3 L informazione ereditaria di tutti gli organismi viventi, con l eccezione di alcuni virus, è a carico della molecola

Dettagli

Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni:

Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni: Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni: antonella.meloni@ifc.cnr.it Sequenza A= stringa formata da N simboli, dove i simboli apparterranno ad un certo alfabeto. A

Dettagli

Omologia di sequenze: allineamento e ricerca

Omologia di sequenze: allineamento e ricerca Omologia di sequenze: allineamento e ricerca Genomi (organismi) e geni hanno un evoluzione divergente Sequenze imparentate per evoluzione divergente sono omologhe Le sequenze sono confrontabili tramite

Dettagli

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA. Il progetto Genoma Umano è iniziato nel 1990. E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA. Progetto internazionale finanziato da vari paesi, affidato

Dettagli

Organizzazione del genoma umano

Organizzazione del genoma umano Organizzazione del genoma umano Famiglie di geni o geniche Copie multiple di geni, tutte con sequenza identica o simile. La famiglia multigenica corrisponde a un insieme di geni correlati che si sono evoluti

Dettagli

Alberi filogenetici. File: alberi_filogenetici.odp. Riccardo Percudani 02/03/04

Alberi filogenetici. File: alberi_filogenetici.odp. Riccardo Percudani 02/03/04 Alberi filogenetici The tree of life Albero filogenetico costruito con le sequenze della subunità piccola dell RNA ribosomale. Tutte le forme viventi condividono un comune ancestore (LCA, last common ancestor

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: introduzione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Una definizione

Dettagli

Corso di Bioinformatica

Corso di Bioinformatica Corso di Bioinformatica Cortona - Novembre 2002 Metodi Computazionali per l'analisi delle sequenze Dr. Sabino Liuni Istituto di Tecnologie Biomediche- CNR Sezione di Bioinformatica e Genomica - Bari Sabino@area.ba

Dettagli

Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli. Esercizi ricerche in banche dati

Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli. Esercizi ricerche in banche dati Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli Esercizi ricerche in banche dati 1) Nel romanzo fantasy Jurassic Park di Michael Crichton sulla possibilità di clonare i dinosauri,

Dettagli

Allineamenti a coppie

Allineamenti a coppie Laboratorio di Bioinformatica I Allineamenti a coppie Dott. Sergio Marin Vargas (2014 / 2015) ExPASy Bioinformatics Resource Portal (SIB) http://www.expasy.org/ Il sito http://myhits.isb-sib.ch/cgi-bin/dotlet

Dettagli

RELAZIONE DI BIOLOGIA MOLECOLARE

RELAZIONE DI BIOLOGIA MOLECOLARE RELAZIONE DI BIOLOGIA MOLECOLARE 2 BRUNO FRANCESCA mat.576193 Analisi di proteine. Descrivi un database di interazioni proteiche e mostra con quali proteine interagisce la proteina KEN di Drosophila. Uno

Dettagli

A W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I

A W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I COME CALCOLARE IL PUNTEIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi che, però, sono le due facce di una stessa medaglia al

Dettagli

Lezione 7. Allineamento di sequenze biologiche

Lezione 7. Allineamento di sequenze biologiche Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra

Dettagli

Informatica e biotecnologie

Informatica e biotecnologie Informatica e biotecnologie Ricerca di informazioni e analisi di sequenze CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC CGAAATCGCATCAGCATACGATCGCATGC Informatica e biotecnologie Strumenti per raccogliere

Dettagli

Come si sceglie l algoritmo di allineamento? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione?

Come si sceglie l algoritmo di allineamento? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione? Come si sceglie l algoritmo di allineamento? Domande: le due proteine hanno domini simili? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione? hanno un antenato

Dettagli

Laboratorio di Bioinformatica I. Parte 2. Dott. Sergio Marin Vargas (2014 / 2015)

Laboratorio di Bioinformatica I. Parte 2. Dott. Sergio Marin Vargas (2014 / 2015) Laboratorio di Bioinformatica I Banche dati Parte 2 Dott. Sergio Marin Vargas (2014 / 2015) Google Scholar https://scholar.google.it/ E un motore di ricerca di Google, specializzato nella ricerca di articoli

Dettagli

UTILIZZO DI BLAST PER ALCUNE SEMPLICI APPLICAZIONI IN STUDI GENOMICI

UTILIZZO DI BLAST PER ALCUNE SEMPLICI APPLICAZIONI IN STUDI GENOMICI UTILIZZO DI BLAST PER ALCUNE SEMPLICI APPLICAZIONI IN STUDI GENOMICI Come prima cosa diamo un occhiata alla nostra sequenza di interesse, chiamata «unknown sequence» Con un doppio click possiamo visualizzarla

Dettagli

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0;

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0; Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p1 p6 p i >0; 6! i=1 p i =1 Sequenza di dna/proteine x con probabilita q x Probabilita dell intera sequenza n " i!1 q xi Massima verosimiglianza

Dettagli

RELAZIONE di BIOLOGIA MOLECOLARE

RELAZIONE di BIOLOGIA MOLECOLARE NOME: Marini Selena MATRICOLA: 592330 RELAZIONE di BIOLOGIA MOLECOLARE CHE ORGANISMO MODELLO È DICTYOSTELIUM? CHE RISORSE BIOINFORMATICHE AGEVOLANO I RICERCATORI CHE LO STUDIANO? Dictyostelium è un genere

Dettagli

L organizzazione del genoma. Prof. Savino; dispense di Biologia Molecolare, Corso di Laurea in Biotecnologie

L organizzazione del genoma. Prof. Savino; dispense di Biologia Molecolare, Corso di Laurea in Biotecnologie L organizzazione del genoma L organizzazione del genoma Fino ad ora abiamo studiato la regolazione dell espressione genica prendendo come esempio singoli geni dei batteri. Ma quanti geni ci sono in un

Dettagli

Analisi della struttura primaria delle proteine

Analisi della struttura primaria delle proteine Analisi della struttura primaria delle proteine Strumenti on-line La maggior parte degli strumenti per l analisi della struttura primaria si trovano on-line all indirizzo www.expasy.org Ottenere la sequenza

Dettagli

scaricato da I peptidi risultano dall unione di due o più aminoacidi mediante un legame COVALENTE

scaricato da  I peptidi risultano dall unione di due o più aminoacidi mediante un legame COVALENTE Legame peptidico I peptidi risultano dall unione di due o più aminoacidi mediante un legame COVALENTE tra il gruppo amminico di un aminoacido ed il gruppo carbossilico di un altro. 1 Catene contenenti

Dettagli

Bioinformatics more basic notions

Bioinformatics more basic notions Bioinformatics more basic notions Alcune slides provengono dal materiale rilasciato da: Dr Sergio Marin Vargas - Verona Prof. Riccardo Percudari - Parma Bioinformatics Bio-inspired Computer science Gli

Dettagli

Obiettivi della genomica

Obiettivi della genomica Obiettivi della genomica Stabilire database ed interfaccie di ricerca per le analisi genomiche. Ottenere e combinare mappe fisiche e genetiche del genoma Generare ed ordinare sequenze genomiche e sequenze

Dettagli

Lezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 6 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

LA MUTAZIONE GENETICA

LA MUTAZIONE GENETICA LA MUTAZIONE GENETICA Il termini mutazione, termine introdotto da Hugo de Vries nel 1901, indica una o più modifiche stabili ed ereditabili nella sequenza nucleotidica di un genoma o più generalmente di

Dettagli

Lezione 6. Analisi di sequenze biologiche e ricerche in database

Lezione 6. Analisi di sequenze biologiche e ricerche in database Lezione 6 Analisi di sequenze biologiche e ricerche in database Schema della lezione Allinemento: definizioni Allineamento di due sequenze Ricerca di singola sequenza in banche dati (Alignment-based database

Dettagli

Jay Phelan, Maria Cristina Pignocchino. Scopriamo la biologia

Jay Phelan, Maria Cristina Pignocchino. Scopriamo la biologia Jay Phelan, Maria Cristina Pignocchino Scopriamo la biologia Capitolo 6 Il DNA in azione 3 1. Il DNA è il materiale genetico Il DNA è composto da una sequenza di nucleotidi. Ogni nucleotide comprende:

Dettagli

Progetto Lars-Biotec

Progetto Lars-Biotec Unità didattiche: prima fase: Progetto Lars-Biotec Laboratorio di Ricerca sperimentale nel settore delle Biotecnologie Bioinformatica: vengono scelti e analizzati geni appartenente al genoma umano conosciuti

Dettagli

CAPITOLO V. DATABASE: Il modello relazionale

CAPITOLO V. DATABASE: Il modello relazionale CAPITOLO V DATABASE: Il modello relazionale Il modello relazionale offre una rappresentazione matematica dei dati basata sul concetto di relazione normalizzata. I principi del modello relazionale furono

Dettagli

Liceo Classico Statale Vittorio Emanuele II Matematica in analisi

Liceo Classico Statale Vittorio Emanuele II Matematica in analisi Liceo Classico Statale Vittorio Emanuele II Matematica in analisi Le funzioni Definizione di funzione Dati due insiemi A e B, si definisce funzione una relazione che associa ad ogni elemento di A uno e

Dettagli

La ricerca di similarità: i metodi

La ricerca di similarità: i metodi La ricerca di similarità: i metodi Pairwise alignment allineamenti a coppie 1. Analisi della matrice a punti (dot matrix) 2. Programmazione dinamica (dynamic programming) allineamenti locale e globale.

Dettagli

Allineamento dei 2 RNA

Allineamento dei 2 RNA La traduzione 2 codone Allineamento dei 2 RNA anticodone Studi Molecolari hanno dimostrato che: 3 residui nucleotidici del mrna sono necessari per codificare ciascun amminoacido Il linguaggio contenuto

Dettagli

Lezione 7. Allineamento di sequenze biologiche

Lezione 7. Allineamento di sequenze biologiche Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra

Dettagli

LA BIOLOGIA MOLECOLARE E UNA BRANCA DELLA BIOLOGIA CHE STUDIA LE BASI MOLECOLARI DELLE FUNZIONI BIOLOGICHE, PONENDO UNA PARTICOLARE ATTENZIONE A QUEI

LA BIOLOGIA MOLECOLARE E UNA BRANCA DELLA BIOLOGIA CHE STUDIA LE BASI MOLECOLARI DELLE FUNZIONI BIOLOGICHE, PONENDO UNA PARTICOLARE ATTENZIONE A QUEI CONCETTI DI BASE LA BIOLOGIA MOLECOLARE E UNA BRANCA DELLA BIOLOGIA CHE STUDIA LE BASI MOLECOLARI DELLE FUNZIONI BIOLOGICHE, PONENDO UNA PARTICOLARE ATTENZIONE A QUEI PROCESSI CHE COINVOLGONO GLI ACIDI

Dettagli

Relazione sequenza-struttura e funzione

Relazione sequenza-struttura e funzione Biotecnologie applicate alla progettazione e sviluppo di molecole biologicamente attive A.A. 2010-2011 Modulo di Biologia Strutturale Relazione sequenza-struttura e funzione Marco Nardini Dipartimento

Dettagli

Nel codice genetico, una tripletta di nucleotidi codifica per un aminoacido

Nel codice genetico, una tripletta di nucleotidi codifica per un aminoacido Il codice genetico: Come triplette dei quattro nucleotidi specificano 20 aminoacidi, rendendo possibile la traduzione dell informazione da catena nucleotidica a sequenza di aminoacidi. Come le mutazioni

Dettagli

Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini)

Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini) Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini) Collegatevi al sito www.ncbi.nlm.nih.gov/blast. Apparirà una pagina nella quale le versioni

Dettagli

Filogenesi molecolare

Filogenesi molecolare Filogenesi molecolare Geni ortologhi e geni paraloghi Geni ortologhi: geni simili riscontrabili in organismi correlati tra loro. Il fenomeno della speciazione porta alla divergenza dei geni e quindi delle

Dettagli

Lezione 2. Le molecole di base che costituiscono la vita

Lezione 2. Le molecole di base che costituiscono la vita Lezione 2 Le molecole di base che costituiscono la vita Graur and Li: Capitolo 1 5 3 Le molecole dell ereditarietà L informazione ereditaria di tutti gli organismi viventi, con l eccezione di alcuni virus,

Dettagli

Corso di Genetica -Lezione 12- Cenci

Corso di Genetica -Lezione 12- Cenci Corso di Genetica -Lezione 12- Cenci Il codice genetico: Come triplette dei quattro nucleotidi specificano 20 aminoacidi, rendendo possibile la traduzione dell informazione da catena nucleotidica a sequenza

Dettagli

Informatica e Bioinformatica: Basi di Dati

Informatica e Bioinformatica: Basi di Dati Informatica e Bioinformatica: Date TBD Bioinformatica I costi di sequenziamento e di hardware descrescono vertiginosamente si hanno a disposizione sempre più dati e hardware sempre più potente e meno costoso...

Dettagli

Materiale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna).

Materiale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna). Materiale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna). Date due o più sequenze, inizialmente potremmo volere: misurarne il grado di similarità;

Dettagli

GENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi

GENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi GENOMA EVOLUZIONE CONTENUTO FUNZIONE STRUTTURA Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine Progetti genoma in centinaia di organismi Importante la sintenia tra i genomi The

Dettagli

Metodi di Distanza. G.Allegrucci riproduzione vietata

Metodi di Distanza. G.Allegrucci riproduzione vietata Metodi di Distanza La misura più semplice della distanza tra due sequenze nucleotidiche è contare il numero di siti nucleotidici che differiscono tra le due sequenze Quando confrontiamo siti omologhi in

Dettagli

Lezione 7. Allineamento di sequenze biologiche

Lezione 7. Allineamento di sequenze biologiche Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Filogenesi Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Introduzione alla

Dettagli

Lezione Sistemi di equazioni lineari

Lezione Sistemi di equazioni lineari Lezione. Sistemi di equazioni lineari Definizione. (Sistemi di equazioni lineari e loro soluzioni). Un equazione lineare nelle n incognite x,,...,x n acoefficientiink = R, èun equazionedellaforma a x +

Dettagli

Sperimenta il BioLab. Introduzione alla Bioinformatica. Università degli Studi di Milano Settore Didattico, via Celoria 20, Milano Laboratorio 105

Sperimenta il BioLab. Introduzione alla Bioinformatica. Università degli Studi di Milano Settore Didattico, via Celoria 20, Milano Laboratorio 105 Sperimenta il BioLab Introduzione alla Bioinformatica Università degli Studi di Milano Settore Didattico, via Celoria 20, Milano Laboratorio 105 1. L ANALISI DEL GENOMA UMANO CON STRUMENTI BIOINFORMATICI

Dettagli

Evoluzione delle molecole biologiche

Evoluzione delle molecole biologiche Evoluzione delle molecole biologiche Un video (in inglese): clic Evoluzione delle emoglobine (I) Un esempio classico di evoluzione delle macromolecole biologiche è dato dall emoglobina(hb), la molecola

Dettagli

Allineamento multiplo di sequenze

Allineamento multiplo di sequenze Allineamento multiplo di sequenze Bioinformatica a.a. 2008/2009 Letterio Galletta Università di Pisa 22 Maggio 2009 Letterio Galletta (Università di Pisa) Allineamento multiplo di sequenze 22 Maggio 2009

Dettagli

Tesina di Biologia Molecolare II

Tesina di Biologia Molecolare II MELATO GIULIA 595033 Tesina di Biologia Molecolare II Mostra un albero filogenetico con la relazione tra Uomo, Topo e Ratto. Che banca dati è disponibile per quest'ultimo organismo? Descrivi alcune caratteristiche

Dettagli

Lezione 6. Lo string matching

Lezione 6. Lo string matching Lezione 6 Lo string matching String matching Date due stringhe (sequenze di caratteri) vogliamo stabilire se sono uguali Nel caso dello string matching, due stringhe sono uguali se... sono uguali ( DNA

Dettagli

Corso di Bioinformatica. Docente: Dr. Antinisca DI MARCO

Corso di Bioinformatica. Docente: Dr. Antinisca DI MARCO Corso di Bioinformatica Docente: Dr. Antinisca DI MARCO Email: antinisca.dimarco@univaq.it Analisi Filogenetica Gene Ancestrale duplicazione genica La filogenesi è lo studio delle relazioni evolutive tra

Dettagli

Programmazione dinamica

Programmazione dinamica rogrammazione dinamica Fornisce l allineamento ottimale tra due sequenze semplici variazioni dell algoritmo producono allineamenti globali o locali l allineamento calcolato dipende dalla scelta di alcuni

Dettagli

Sommario. Presentazione dell opera Ringraziamenti

Sommario. Presentazione dell opera Ringraziamenti Sommario Presentazione dell opera Ringraziamenti XI XII Capitolo 1 Introduzione alla bioinformatica 1 1.1 Cenni introduttivi 1 1.2 Pietre miliari della bioinformatica 2 1.3 Infrastrutture bioinformatiche

Dettagli

Ricerca di omologia di sequenza

Ricerca di omologia di sequenza Ricerca di omologia di sequenza RICERCA DI OMOLOGIA DI SEQUENZA := Data una sequenza (query), una banca dati, un sistema per il confronto e una soglia statistica trovare le sequenze della banca più somiglianti

Dettagli

Strategie di annotazione di geni e genomi

Strategie di annotazione di geni e genomi Strategie di annotazione di geni e genomi Dr. Giovanni Emiliani giovanni.emiliani@unifi.it Bioinformatica A.A. 2011-1012 Concetti generali Le nuove tecnologie consentono l ottenimento di una grande mole

Dettagli

Genomica Evoluzione e cambiamenti dei genomi. Dott.ssa Inga Prokopenko

Genomica Evoluzione e cambiamenti dei genomi. Dott.ssa Inga Prokopenko Genomica Evoluzione e cambiamenti dei genomi Dott.ssa Inga Prokopenko Sistematica in biologia La varietà degli organismi viventi richiede organizzaione delle nostre osservazioni Tassonomia in biologia

Dettagli

MODULO 5 - USO DELLE BASI DI DATI 2 FINALITÁ

MODULO 5 - USO DELLE BASI DI DATI 2 FINALITÁ PATENTE EUROPEA DEL COMPUTER 5.0 MODULO 5 Database (Microsoft Access 2007) Parte 3 A cura di Mimmo Corrado Gennaio 2012 MODULO 5 - USO DELLE BASI DI DATI 2 FINALITÁ Il Modulo 5, richiede che il candidato

Dettagli

Lezione 2. costituiscono la vita

Lezione 2. costituiscono la vita Lezione 2 Le molecole di base che costituiscono la vita Graur Gau and Li: Capitolo o 1 Graur lectures 5 6 7 5 3 Le molecole dell ereditarietà L informazione i ereditaria i di tutti ttigli organismi iviventi,

Dettagli

Esercizio da portare all orale

Esercizio da portare all orale Laboratorio di Informatica 2004/05 Corso di laurea in biotecnologie Esercizio da portare all orale Create subito una cartella che porti il vostro cognome. Fate attenzione a salvare tutti i vostri file

Dettagli

Banche Dati proteiche

Banche Dati proteiche Banche Dati proteiche Un altro grande database è UniProt, The Universal Protein Resource (http://www.uniprot.org/) nel quale sono radunate le sequenze proteiche, e le annotazione delle stesse, ottenute

Dettagli

TASSONOMIA O SISTEMATICA

TASSONOMIA O SISTEMATICA TASSONOMIA O SISTEMATICA È la branca della batteriologia responsabile della caratterizzazione degli organismi ed organizzazione in gruppi affini (TAXA). NOMENCLATURA CLASSIFICAZIONE IDENTIFICAZIONE taxon

Dettagli

LA SINTESI PROTEICA LE MOLECOLE CHE INTERVENGONO IN TALE PROCESSO SONO:

LA SINTESI PROTEICA LE MOLECOLE CHE INTERVENGONO IN TALE PROCESSO SONO: LA SINTESI PROTEICA La sintesi proteica è il processo che porta alla formazione delle proteine utilizzando le informazioni contenute nel DNA. Nelle sue linee fondamentali questo processo è identico in

Dettagli

Patologie da analizzare

Patologie da analizzare Fasi cruciali Scelta della patologia da analizzare Scelta del campione da analizzare Scelta dell approccio da utilizzare Scelta della tecnica da utilizzare Analisi statistica del dati Conferme con approcci

Dettagli

Allineamenti Multipli di Sequenze

Allineamenti Multipli di Sequenze Allineamenti Multipli di Sequenze 1 Allineamento multiplo di sequenze: obiettivi di oggi Definire un allineamento multiplo di sequenze; com è generato; comprendere i principali metodi. Introdurre i database

Dettagli

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I 1 INTRODUZIONE

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I 1 INTRODUZIONE Docente: Matteo Re UNIVERSITÀ DEGLI STUDI DI MILANO C.d.l. Informatica Bioinformatica A.A. 2013-2014 semestre I 1 INTRODUZIONE Motivazioni dell esistenza della biologia computazionale: Biologia Computazionale

Dettagli

Provate rispondere alle domande, se ci riuscirete, sarete pronti a superare l esame per quanto riguarda la parte di bioinformatica.

Provate rispondere alle domande, se ci riuscirete, sarete pronti a superare l esame per quanto riguarda la parte di bioinformatica. Per aiutarvi ho elaborato (frettolosamente) questi quesiti che dovrebbero aiutarvi ad individuare gli argomenti importanti del corso ed a darvi un idea delle domande che potrebbero esservi poste all esame.

Dettagli

Modello computazionale per la predizione di siti di legame per fattori di trascrizione

Modello computazionale per la predizione di siti di legame per fattori di trascrizione Modello computazionale per la predizione di siti di legame per fattori di trascrizione Attività di tirocinio svolto presso il Telethon Institute of Genetics and Medicine Relatori Prof. Giuseppe Trautteur

Dettagli

Esempi di ricerca-dati con Total Materia

Esempi di ricerca-dati con Total Materia www.totalmateria.com/it Esempi di ricerca-dati con Total Materia 1 Forniamo di seguito esempi applicativi riguardanti Total Materia in Edizione WEB, che rappresenta la più complete e avanzata Banca-Dati

Dettagli

Database biologici (banche di dati biologici)

Database biologici (banche di dati biologici) 1 Lo sviluppo di tecnologie strumentali sempre più sofisticate ha portato ad una enorme produzione di dati biologici. Per la gestione di questi dati è quindi necessario disporre di potenti sistemi di archiviazione

Dettagli

Informatica e biotecnologie II parte

Informatica e biotecnologie II parte Informatica e biotecnologie II parte Analisi di sequenze: allineamenti CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC CGAAATCGCATCAGCATACGATCGCATGC Bioinformatica La Bioinformatica è una disciplina

Dettagli

BLAST: Basic Local Alignment Search Tool

BLAST: Basic Local Alignment Search Tool BLAST: Basic Local Alignment Search Tool 1 Outline della lezione di oggi BLAST Uso pratico Algoritmo Strategie Trovare proteine lontanamente legate: PSI-BLAST 2 Problema con gli algoritmi dinamici Gli

Dettagli

Università degli studi di Pisa

Università degli studi di Pisa Università degli studi di Pisa Nicola Guido PATTERNHUNTER: Faster and More Sensitive. Homology Search Seminario: Bioinformatica a.a. 2008/2009 Contenuto della presentazione Introduzione Scenario PatternHunter

Dettagli

SISTEMI LINEARI. x y + 2t = 0 2x + y + z t = 0 x z t = 0 ; S 3 : ; S 5x 2y z = 1 4x 7y = 3

SISTEMI LINEARI. x y + 2t = 0 2x + y + z t = 0 x z t = 0 ; S 3 : ; S 5x 2y z = 1 4x 7y = 3 SISTEMI LINEARI. Esercizi Esercizio. Verificare se (,, ) è soluzione del sistema x y + z = x + y z = 3. Trovare poi tutte le soluzioni del sistema. Esercizio. Scrivere un sistema lineare di 3 equazioni

Dettagli