Lezione 6. Analisi di sequenze biologiche e ricerche in database
|
|
- Albano Simone
- 6 anni fa
- Visualizzazioni
Transcript
1 Lezione 6 Analisi di sequenze biologiche e ricerche in database
2 Schema della lezione Allinemento: definizioni Allineamento di due sequenze Ricerca di singola sequenza in banche dati (Alignment-based database searching) FASTA, BLAST
3 Allinemento: definizioni Allineamento di due sequenze Ricerca di singola sequenza in banche dati (Alignment-based database searching) FASTA, BLAST
4 Allineamento di sequenze Determinare la similarità e dedurre l omologia
5 Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra utilizzando passaggi mutazionali come -sostituzione -inserzione/delezione mismatch 1 LA CASA È NUOVA 2 LA CASSA È VUOTA 1 LA CAS-A È NUO-VA 2 LA CASSA È V-UOT-A 5 indels gap 1 LA CASA È NUOVA 2 LA CASSA È VUOTA 1 LA CAS-A È NUOVA 2 LA CASSA È VUOTA match 1 indels + 2 sostituzioni Tra le due soluzioni mostrate (ce ne sono altre!), quale scegliamo? Esistono criteri e algoritmi che ci possono aiutare
6 Perchè allineare? Per fornire una misura di quanto sequenze nucleotidiche o aminoacidiche siano imparentate, abbiano in comune Questa parentela ci permette di fare inferenze biologiche in termini di relazioni strutturali relazioni funzionali relazioni evolutive Alignment-based database searching
7 Terminologia La misura QUANTITATIVA: Similarità Si esprime in genere come % di identità, quantifica i cambiamenti che sono avvenuti dal momento della divergenza tra due specie (sostituzioni, Indels) Identifica i residui cruciali per mantenere la struttura o la funzione di una proteina Alti livelli di similarità possono indicare una divergenza recente tra le sequenze, una storia evolutiva comune, simile funzione biologica
8 Terminologia Una valutazione di STATO: Omologia Implica l esistenza di relazioni evolutive Geni omologi: geni che si sono originati per divergenza da un antenato comune I geni SONO o NON SONO omologhi, non esiste una misura quantitativa dell omologia
9 Eyeless ha un ruolo importante nel dirigere lo sviluppo dell occhio in drosofila; Pax6 lo stesso nel topo Eyeless e Pax6 sono decisamente simili in sequenza e funzione probably > 500 MYA
10 Terminologia Ortologhi: Geni che si sono separati in seguito ad un evento di speciazione Le sequenze discendono da un antenato comune Molto probabilmente codificano per proteine con domini simili e simili strutture tridimensionali Spesso mantengono funzioni simili Possono essere usati per predire funzioni geniche in genomi nuovi Paraloghi: Geni che si sono evoluti per duplicazione in una specifica linea evolutiva E meno probabile che mantengano funzioni simili, più comunemente evolvono nuove funzioni
11
12 Globale Allineamenti globali e locali trova l allineamento ottimale sul totale della lunghezza delle sequenze È la soluzione migliore per sequenze di lunghezza simile ed omologhe Al dimiuire del grado di similarità (es. aumento distanza evolutiva, alto tasso di ricombinazione) i metodi di allineamento globale tendono a peggiorare molto in efficienza
13 Locale Allineamenti globali e locali Ha lo scopo di trovare regioni simili (es. domini) in due sequenze ( paired subsequences ) Le regioni fuori dalle aree di allineamento locale vengono escluse Può essere generato più di un allineamento locale per ogni coppia di sequenze confrontate Scelta indicata nel caso di due sequenze a similarità ridotta o di differenti lunghezze
14 Local vs. Global Alignment Global Alignment --T -CC-C-AGT -TATGT-CAGGGGACACG A-GCATGCAGA-GAC AATTGCCGCC-GTCGT-T-TTCAG----CA-GTTATG T-CAGAT--C Local Alignment migliore per trovare regioni conservate tcccagttatgtcaggggacacgagcatgcagagac aattgccgccgtcgttttcagcagttatgtcagatc
15 Allineamenti locali: perchè? Due geni in specie diverse possono essere simili in corte regioni conservate e diversi nel resto della sequenza. Esempio: I geni Homeobox (chiaramente omologhi) hanno corte regioni chiamate omeodomini altamente conservate tra specie. Un allineamento globale non troverebbe gli omeodomini perchè cercherebbe di allineare l INTERA sequenza
16 Allinemento: definizioni Allineamento di due sequenze Ricerca di singola sequenza in banche dati (Alignment-based database searching) FASTA, BLAST
17 Allineamento: ipotesi circa l omologia posizionale (discendenza da antenato comune) di due residui in due (o più) sequenze
18 Un allineamento a coppie consiste di una serie di residui o basi accoppiati, una per sequenza. Ci sono tre tipi di coppie: (1) match = stesso nucleotide (o AA) in entrambe le sequenze (2) mismatch = diverso nucleotide (o AA) in una delle sequenze (3) gap = una base (o AA) in una sequenza e niente nell altra GCGGCCCATCAGGTAGTTGGTG-G GCGTTCCATC--CTGGTTGGTGTG Come si può fare in modo non manuale??
19 Dot plot: matrici a punti Gibbs and McIntyre 1970 Non produce direttamente un allineamento, ma una mappa delle zone di somiglianza Le due sequenze vengono scritte come colonne e righe di una matrice Si inserisce un punto dove le due sequenze sono identiche Sequenza 2: inversione
20 Dot plot: matrici a punti Vantaggi: visivamente si intuisce che cosa è successo Sequenza 2: delezione (potrebbe essere anche un inserzione in seq1) Passo in diagonale verso una casella con un punto= match. Diagonale verso una casella vuota = mismatch. Orizzontale = gap nella sequenza2. Verticale = gap nella sequenza1.
21 Svantaggi: Non è possibile identificare l allineamento migliore. Le matrici di nucleotidi sono spesso confuse per via dell alta ripetitività dei simboli (sono solo 4!) 23
22 Come si può migliorare il metodo dot plot eliminando un po di rumore di fondo? Ad esempio pesando i diversi cambiamenti usando dei criteri
23 Matrici di punteggio e penalità per i gap Il vero allineamento tra due sequenze è quello che riflette in modo accurato le loro relazioni evolutive. Poichè il vero allineamento non è conosciuto in pratica si cerca l allineamento ottimale: minimizza i mismatches e i gaps secondo certi criteri.purtroppo mms gaps gaps mms
24 ( ( ( Matches Mismatches Gaps (1 terminal) Matches Mismatches Gaps Matches Mismatches Gaps (both terminal)
25 Matrici di punteggio e penalità per i gap Lo schema di punteggio include una penalizzazione per le in-del (gap penalty) e una matrice di punteggio (scoring matrix) M(a,b), che specifica ogni tipo di match (a = b) o di mismatch (a b). Le unità nella matrice di punteggio possono essere nucleotidi nelle sequenze di DNA o RNA, i codoni nelle regioni codificanti, o gli aminoacidi nelle sequenze proteiche.
26 Cos è una matrice di punteggio? Matrice che associa un punteggio ad ogni coppia di entità che troviamo in un allineamento Ogni linea e ogni colonna rappresentano un residuo (4 nucleotidi o 20 aminoacidi) La diagonale è l identità Il triangolo inferiore corrisponde alle sostituzioni e il superiore è simmetrico (non necessario) I valori negativi indicano penalità per certe sostituzioni, l algoritmo di allineamento cercherà di evitarle I valori positivi indicano sostituzioni accettate in termini evoolutivi, strutturali o funzionali
27 Perché è importante capire le matrici di punteggio? Compaiono in ogni analisi che implichi un confronto tra sequenze Implicano un determinato percorso evolutivo Possono influenzare fortemente il risultato delle analisi
28 DNA scoring matrices Di solito sono semplici. La più semplice: M(a,b) assegna valori positivi se a = b (match), altrimenti negativi (mismatch) M(a,b) 0 if a b 0 if a b
29 DNA scoring matrices Matrici più complesse possono distinguere ad esempio tra transizioni e trasversioni (le prime avvengono più facilmente trattandosi di molecole più simili, però ci sono 4 possibili trasversioni e solo 2 transizioni)
30 Amino acid/protein scoring matrices Margareth Dayhoff 1965: Atlas of potein sequences contenente le sequenze aminoacidiche di 65 proteine Inizio delle collezioni di dati da cui avranno origine le banche dati elettroniche Dayhoff et al. nel decennio hanno proposto una procedura per il calcolo di matrici di punteggio per quantificare la propensione di AA a mutare l uno nell altro durante l evoluzione (matrici 20 x 20). Alla base c è l osservazione delle proteine note: MATRICI DI SOSTITUZIONI EMPIRICHE
31 Amino acid/protein scoring matrices Empirical substitution matrices PAM matrix (Percent/Point Accepted Mutation Matrix) BLOSUM (BLOcks SUbstitution Matrix)
32 PAM (Percent/Point Accepted Mutation) Una point accepted mutation PAM è la sostituzione di un AA nella struttura primaria di una proteina con un altro AA, che viene tollerata dalla selezione naturale. Dalle PAM sono escluse le mutazioni sinonime, le letali, o non tollerate dalla selezione naturale in qualche maniera (l esclusione è ovvia: non si osserveranno!).
33 Costruzione di una matrice PAM Per costruire le matrici PAM ( ) sono stati identificati tra le sequenze proteiche conosciute in quegli anni, 71 gruppi di sequenze con almeno l 85% di identità (poca distanza evolutiva > allineamento semplice> bassa possibilità di mutazioni multiple ad un sito). Le sequenze sono state allineate: 1572 cambiamenti osservati Gruppi di proteine > 85% identità Sono state stimate le mutabilità dei diversi AA (propensione di un certo AA ad essere sostituito) > OSSERVAZIONE!!
34 Gruppi di proteine > 85% identità I dati sono stati combinati per produrre una Mutation Probability Matrix in cui ogni valore indica la probabilità che l AAx sia sostituito con l AAy attraverso una o più mutazioni accettate in uno specifico intervallo evolutivo, rispetto alla probabilità che i due aminoacidi siano stati allineati per caso (calcolata come freq AAx * freqaay).
35 1 PAM è la quantità di cambiamenti evolutivi che porta, in media, ad una sostituzione ogni 100 residui aminoacidici (1%) Moltiplicando la matrice PAM01 per se stessa N volte ottengo matrici per distanze evolutive sempre maggiori PAM60: mi aspetto in media 60 cambiamenti ogni 100 AA PAM250: 250 cambiamenti ogni 100 AA (un AA può mutare più volte) Gruppi di proteine > 85% identità PAM N matrix
36 ogni valore indica la probabilità che l AAx sia sostituito con l AAy attraverso una o più mutazioni accettate in uno specifico intervallo evolutivo, rispetto alla probabilità che i due aminoacidi siano stati allineati per caso P > 0 P = 0 P < 0 lo scambio AAx AAy si osserva più frequentemente di quanto atteso per caso la frequenza della sostituzione è indistinguibile da quella casuale lo scambio AAx AAy è più raro di quanto atteso per caso
37 BLOSUM (BLOcks SUbstitution Matrix) Henikoff and Henikoff (1992): matrice basata su molte più osservazioni della PAM: scambi aminoacidici calcolati su circa 2000 «blocchi» Blocco: regione conservata di una famiglia di proteine senza indels Direttamente calcolate sulla base di allineamenti locali Probabilità di sostituzione (conservazione) Frequenza degli aminoacidi
38 Cosa rapprsenta il numero dopo BLOSUM? Esempio: BLOSUM n include nei blocchi sequenze con MASSIMO n% di identità Sequenze con > n% di dientità vengono clusterizzate e sostituite da un unica sequenza che rappresenti il cluster (vedi ad esempio le ultime due dello schema)
39 Default in BLAST E: Asp D: Glu
40
41 Equivalenze Non esiste la matrice perfetta, dipende dal dataset che stiamo analizzando e da quanto le sequenze da allineare sono conservate
42 Gap penalties Quanto è probabile una Costo delle indels (GAP) certa sostituzione (matrici) Costo dell introduzione di un gap (Gap opening penalty: G) Costo dell estensione di un gap (Gap extension penalty: L*n) Costo complessivo: G+Ln Questi sono valori usati spesso, ma si possono cambiare!
43 Algoritmi di allineamento Obiettivo: trovare il miglior allineamento, cioè il massimo numero di simboli identici e il minor numero di gap (=minor numero di mutazioni = più breve percorso evolutivo) Per due sequenze di DNA di 200 basi ci sono possibili allineamenti.meglio non farli a mano!
44 46
45 Algoritmi di allineamento Esausitivi o esatti: esplorano tutte le possibili soluzioni e scelgono la migliore (lenti, computazionalmente intensi, precisi) Euristici: prendono scorciatoie e cercano di arrivare ad una soluzione ottimale basandosi su ipotesi plausibili Algoritmi di allineamento comuni Algoritmo Esaustivo? Gaps? Loc/Glo Mul align Db searches Needleman -Wunsch Smith- Waterman Si Si Global Si No Si Si Local Si Si FASTA No Si Local Si Si BLAST No No Local No Si
46 Needleman-Wunsch Exact global alignment method Non molto buono in molti casi (es. db searches, ricerca di piccole regioni di similarità, allinemanti tra sequenze con grosse differenze di lunghezza) Il più rigoroso e completo se lo scopo è di allineare sequenze che non si sono evolute per exon shuffling, inserzione/delezione di domini, etc. Il metodo migliore se le sequenze sono di lunghezze simili e si sono evolute da un antenato comune attraverso mutazioni di punto, piccole ind/dels
47 Smith-Waterman Exact local alignment method Modifica del N-W che permette di allineare in locale (non serve allineare tutta la seq) Allineamento molto buono per db searching, allineamento multiplo e a coppie Esaustivo, quindi può essere molto lento. A differenza del N-W considera qualunque allineamento che parta da qualunque posizione della sequenza, non solo quelli che cominciano all inizio e terminano alla fine
48 Allinemento: definizioni Allineamento di due sequenze Ricerca di singola sequenza in banche dati (Alignment-based database searching) FASTA, BLAST
49 L algoritmo deve identificare le sequenze omologhe e non omologhe separate da un valore soglia Ricerche in database Query (sequenza sonda) ricerca Sequenze nelle banche dati FP: falsi positivi Caso 1: buon lavoro dell algoritmo Sequenze non omologhe Sequenze omologhe VP: veri positivi FN: falsi negativi VN: veri negativi Caso 2: c è una zona in cui non è possibile discriminare omologhe e non VN Regione di sovrapposizione FN FP VP Punteggio soglia
50 FASTA: Pearson WR (1996) Effective protein sequence comparison. Academic Press Inc Pearson WR and Lipman DJ (1998) Improved tools for biological sequence comparison. PNAS 85:2444 Euristico locale Prima identifica regioni di identità tra la sequenza sonda ( query ) e le sequenze in db. (KTUP) I geni o proteine con la densità maggiore di segnale vengono riesaminati L allineamento viene esteso ad entrambi i lati delle regioni di match aggiungendo gaps e mismatches sulla base di matrici di punteggio L allineamento ottiene un punteggio NB: leggere l HELP del programma
51 FASTA algoritm Trova sottosequenze identiche Le rivaluta assegnando nuovi punteggi con le matrici di punteggio (PAM, BLOSUM etc)
52 FASTA algoritm Unisce segmenti usando i gaps, elimina gli altri Usa programmi dinamici (simili agli algoritmi NW e SM visti in precedenza) per creare l allineamento ottimale: ottiene un punteggio «S opt»
53 FASTA algoritm Assegnazione di un «S opt» a ciascuna sequenza della banca dati Le sequenze con punteggi superiori ad una certa soglia sono riportate in ordine decrescente Possiamo guardarle per vedere se hanno un senso biologico ( > omologia) Se non lo identifichiamo guardiamo l E value (significatività statistica)
54 E value: significatività statistica Attesa (Expectation) di trovare PER CASO uno Score come quello osservato
55 E value: significatività statistica Non si interpretano come p values dove p < 0.05 sono generalmente considerati significativi Regola generale E values < 10-6 sono molto probabilmente significativi < E values < 10-3 meritano una seconda occhiata. E values < 10-3 andrebbero scartati (ci aspettiamo di trovare sequenze non correlate alla nostra-falsi positivi- che ottengono un punteggio superiore a quell S).
56 BLAST Prossimo gruppo di diapositive
Lezione 7. Allineamento di sequenze biologiche
Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra
DettagliLezione 7. Allineamento di sequenze biologiche
Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra
DettagliAlgoritmi di Allineamento
Algoritmi di Allineamento CORSO DI BIOINFORMATICA Corso di Laurea in Biotecnologie Università Magna Graecia Catanzaro Outline Similarità Allineamento Omologia Allineamento di Coppie di Sequenze Allineamento
DettagliQuarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST
Quarta lezione 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST Ricerca di omologhe in banche dati Proteina vs. proteine Gene (traduzione in aa) vs. proteine Gene vs. geni
DettagliFASTA. Lezione del
FASTA Lezione del 10.03.2016 Omologia vs Similarità Quando si confrontano due sequenze o strutture si usano spesso indifferentemente i termini somiglianza o omologia per indicare che esiste un rapporto
DettagliBLAST. W = word size T = threshold X = elongation S = HSP threshold
BLAST Blast (Basic Local Aligment Search Tool) è un programma che cerca similarità locali utilizzando l algoritmo di Altschul et al. Anche Blast, come FASTA, funziona: 1. scomponendo la sequenza query
DettagliFASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento
Algoritmi EURISTICI di allineamento Sono nati insieme alle banche dati, con lo scopo di permettere una ricerca per similarità rapida anche se meno accurata contro le migliaia di sequenze depositate. Attualmente
DettagliOmologia di sequenze: allineamento e ricerca
Omologia di sequenze: allineamento e ricerca Genomi (organismi) e geni hanno un evoluzione divergente Sequenze imparentate per evoluzione divergente sono omologhe Le sequenze sono confrontabili tramite
DettagliAllineamento e similarità di sequenze
Allineamento e similarità di sequenze Allineamento di Sequenze L allineamento tra due o più sequenza può aiutare a trovare regioni simili per le quali si può supporre svolgano la stessa funzione; La similarità
DettagliLe sequenze consenso
Le sequenze consenso Si definisce sequenza consenso una sequenza derivata da un multiallineamento che presenta solo i residui più conservati per ogni posizione riassume un multiallineamento. non è identica
DettagliAllineamenti di sequenze: concetti e algoritmi
Allineamenti di sequenze: concetti e algoritmi 1 globine: a- b- mioglobina Precoce esempio di allineamento di sequenza: globine (1961) H.C. Watson and J.C. Kendrew, Comparison Between the Amino-Acid Sequences
DettagliLa ricerca di similarità in banche dati
La ricerca di similarità in banche dati Uno dei problemi più comunemente affrontati con metodi bioinformatici è quello di trovare omologie di sequenza interrogando una banca dati. L idea di base è che
DettagliInfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche
InfoBioLab I ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche Esercizio 1 - obiettivi: Ricerca di 2 proteine in ENTREZ Salva i flat file che descrivono le 2 proteine in formato testo Importa
DettagliRicerca di omologia di sequenza
Ricerca di omologia di sequenza RICERCA DI OMOLOGIA DI SEQUENZA := Data una sequenza (query), una banca dati, un sistema per il confronto e una soglia statistica trovare le sequenze della banca più somiglianti
Dettagliq xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0;
Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p1 p6 p i >0; 6! i=1 p i =1 Sequenza di dna/proteine x con probabilita q x Probabilita dell intera sequenza n " i!1 q xi Massima verosimiglianza
DettagliZ-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random
Z-score lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random è una misura di quanto il valore di opt si discosta dalla deviazione standard media. indica di quante dev.
DettagliOrganizzazione del genoma umano
Organizzazione del genoma umano Famiglie di geni o geniche Copie multiple di geni, tutte con sequenza identica o simile. La famiglia multigenica corrisponde a un insieme di geni correlati che si sono evoluti
DettagliAllineamenti a coppie
Laboratorio di Bioinformatica I Allineamenti a coppie Dott. Sergio Marin Vargas (2014 / 2015) ExPASy Bioinformatics Resource Portal (SIB) http://www.expasy.org/ Il sito http://myhits.isb-sib.ch/cgi-bin/dotlet
DettagliLa ricerca di similarità: i metodi
La ricerca di similarità: i metodi Pairwise alignment allineamenti a coppie 1. Analisi della matrice a punti (dot matrix) 2. Programmazione dinamica (dynamic programming) allineamenti locale e globale.
DettagliCome si sceglie l algoritmo di allineamento? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione?
Come si sceglie l algoritmo di allineamento? Domande: le due proteine hanno domini simili? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione? hanno un antenato
DettagliALLINEAMENTO DI SEQUENZE
ALLINEAMENTO DI SEQUENZE Procedura per comparare due o piu sequenze, volta a stabilire un insieme di relazioni biunivoche tra coppie di residui delle sequenze considerate che massimizzino la similarita
DettagliLezione 2: Allineamento di sequenze. BLAST e CLUSTALW
Lezione 2: Allineamento di sequenze BLAST e CLUSTALW Allineamento di sequenze Allineamenti L avvento della genomica moderna permette di analizzare le similitudini e le differenze tra organismi a livello
DettagliLezione 1. Le molecole di base che costituiscono la vita
Lezione 1 Le molecole di base che costituiscono la vita Le molecole dell ereditarietà 5 3 L informazione ereditaria di tutti gli organismi viventi, con l eccezione di alcuni virus, è a carico della molecola
DettagliA W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I
COME CALCOLARE IL PUNTEIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi che, però, sono le due facce di una stessa medaglia al
DettagliUNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche)
Docente: Matteo Re UNIVERSITÀ DEGLI STUDI DI MILANO C.d.l. Informatica Bioinformatica A.A. 2013-2014 semestre I 3 Allineamento veloce (euristiche) Banche dati primarie e secondarie Esistono due categorie
DettagliProgrammazione dinamica
Programmazione dinamica Fornisce l allineamento ottimale tra due sequenze semplici variazioni dell algoritmo producono allineamenti globali o locali l allineamento calcolato dipende dalla scelta di alcuni
DettagliBioinformatica e Biologia Computazionale per la Medicina Molecolare
Facoltà di Ingegneria dell Informazione Laurea Specialistica e Magistrale in Ingegneria Informatica Facoltà di Ingegneria dei Sistemi Laurea Magistrale in Ingegneria Biomedica Dipartimento di Elettronica
DettagliBioinformatica ed applicazioni di bioinformatica strutturale!
Bioinformatica ed applicazioni di bioinformatica strutturale! Bioinformatica! Le banche dati! Programmi per estrarre ed analizzare i dati! I numeri! Cellule nell uomo! Geni nell uomo! Genoma umano Il dogma
DettagliAllineamento multiplo
Allineamento multiplo Allineamenti multipli Il modo migliore per conoscere le caratteristiche di una determinata famiglia è allineare molte proteine a funzione analoga. I siti funzionalmente o strutturalmente
DettagliInformatica e biotecnologie II parte
Informatica e biotecnologie II parte Analisi di sequenze: allineamenti CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC CGAAATCGCATCAGCATACGATCGCATGC Bioinformatica La Bioinformatica è una disciplina
DettagliMetodo della matrice a punti
Metodo della matrice a punti proposto da Gibbs and McIntyre (1970) consente di evidenziare ripetizioni dirette o inverse nelle sequenze prevedere regioni complementari nell RNA che possano potenzialmente
DettagliCOME CALCOLARE IL PUNTEGGIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi
COME CALCOLARE IL PUNTEGGIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi che, però, sono le due facce di una stessa medaglia al
DettagliCorso di Bioinformatica
Corso di Bioinformatica Cortona - Novembre 2002 Metodi Computazionali per l'analisi delle sequenze Dr. Sabino Liuni Istituto di Tecnologie Biomediche- CNR Sezione di Bioinformatica e Genomica - Bari Sabino@area.ba
DettagliEVOLUZIONE MOLECOLARE. Silvia Fuselli
EVOLUZIONE MOLECOLARE Silvia Fuselli silvia.fuselli@unife.it TESTI Organizzazione del corso Graur and Li, Fundamentals of molecular evolution, Sinauer 2000 Michael Lynch, The Origins of Genome Architecture,
DettagliUNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I 1 INTRODUZIONE
Docente: Matteo Re UNIVERSITÀ DEGLI STUDI DI MILANO C.d.l. Informatica Bioinformatica A.A. 2013-2014 semestre I 1 INTRODUZIONE Motivazioni dell esistenza della biologia computazionale: Biologia Computazionale
DettagliAllineamenti Multipli di Sequenze
Allineamenti Multipli di Sequenze 1 Allineamento multiplo di sequenze: obiettivi di oggi Definire un allineamento multiplo di sequenze; com è generato; comprendere i principali metodi. Introdurre i database
DettagliBioinformatica. Analisi del genoma
Bioinformatica Analisi del genoma GABRIELLA TRUCCO CREMA, 5 APRILE 2017 Cosa è il genoma? Insieme delle informazioni biologiche, depositate nella sequenza di DNA, necessarie alla costruzione e mantenimento
DettagliLezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni:
Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni: antonella.meloni@ifc.cnr.it Sequenza A= stringa formata da N simboli, dove i simboli apparterranno ad un certo alfabeto. A
DettagliIl progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.
Il progetto Genoma Umano è iniziato nel 1990. E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA. Progetto internazionale finanziato da vari paesi, affidato
DettagliRelazione sequenza-struttura e funzione
Biotecnologie applicate alla progettazione e sviluppo di molecole biologicamente attive A.A. 2010-2011 Modulo di Biologia Strutturale Relazione sequenza-struttura e funzione Marco Nardini Dipartimento
DettagliMateriale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna).
Materiale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna). Date due o più sequenze, inizialmente potremmo volere: misurarne il grado di similarità;
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Filogenesi Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Introduzione alla
DettagliFilogenesi molecolare
Filogenesi molecolare Geni ortologhi e geni paraloghi Geni ortologhi: geni simili riscontrabili in organismi correlati tra loro. Il fenomeno della speciazione porta alla divergenza dei geni e quindi delle
DettagliBiologia Molecolare Computazionale
Biologia Molecolare Computazionale Paolo Provero - paolo.provero@unito.it 2008-2009 Argomenti Allineamento di sequenze Ricostruzione di alberi filogenetici Gene prediction Allineamento Allineamento di
DettagliAlberi filogenetici. File: alberi_filogenetici.odp. Riccardo Percudani 02/03/04
Alberi filogenetici The tree of life Albero filogenetico costruito con le sequenze della subunità piccola dell RNA ribosomale. Tutte le forme viventi condividono un comune ancestore (LCA, last common ancestor
DettagliMetodi di Distanza. G.Allegrucci riproduzione vietata
Metodi di Distanza La misura più semplice della distanza tra due sequenze nucleotidiche è contare il numero di siti nucleotidici che differiscono tra le due sequenze Quando confrontiamo siti omologhi in
DettagliModello computazionale per la predizione di siti di legame per fattori di trascrizione
Modello computazionale per la predizione di siti di legame per fattori di trascrizione Attività di tirocinio svolto presso il Telethon Institute of Genetics and Medicine Relatori Prof. Giuseppe Trautteur
DettagliAllineamenti multipli
Allineamenti multipli Finora ci siamo occupati di allineamenti a coppie (pairwise), ma il modo migliore per conoscere le caratteristiche di una determinata famiglia è allineare molte proteine a funzione
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Clustering: introduzione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Una definizione
DettagliPerché considerare la struttura 3D di una proteina
Modelling Perché considerare la struttura 3D di una proteina Implicazioni in vari campi : biologia, evoluzione, biotecnologie, medicina, chimica farmaceutica... Metodi di studio della struttura di una
DettagliALLINEAMENTO DI SEQUENZE
ALLINEAMENTO DI SEQUENZE Gli obiettivi degli algoritmi di allineamento di sequenze di acidi nucleici o proteine sono molteplici. Possiamo ricordare la ricerca di similarità nelle banche dati, la costruzione
DettagliSommario. Presentazione dell opera Ringraziamenti
Sommario Presentazione dell opera Ringraziamenti XI XII Capitolo 1 Introduzione alla bioinformatica 1 1.1 Cenni introduttivi 1 1.2 Pietre miliari della bioinformatica 2 1.3 Infrastrutture bioinformatiche
DettagliBLAST: Basic Local Alignment Search Tool
BLAST: Basic Local Alignment Search Tool 1 Outline della lezione di oggi BLAST Uso pratico Algoritmo Strategie Trovare proteine lontanamente legate: PSI-BLAST 2 Problema con gli algoritmi dinamici Gli
DettagliEvoluzione delle molecole biologiche
Evoluzione delle molecole biologiche Un video (in inglese): clic Evoluzione delle emoglobine (I) Un esempio classico di evoluzione delle macromolecole biologiche è dato dall emoglobina(hb), la molecola
DettagliLezione 5. Cambiamenti evolutivi nelle sequenze nucleotidiche Distanze
Lezione 5 Cambiamenti evolutivi nelle sequenze nucleotidiche Distanze Graur and Li ch 3 materiale La lezione 5 ci permetterà di capire 1. come possa evolvere una sequenza di nucleotidi 2. quanto due sequenze
DettagliRicerche con BLAST (Laboratorio)
Laboratorio di Bioinformatica I Ricerche con BLAST (Laboratorio) Dott. Sergio Marin Vargas (2014 / 2015) NCBI BLAST BLAST: Basic Local Alignment Search Tool http://blast.ncbi.nlm.nih.gov/blast.cgi NCBI
DettagliCorso di Genetica -Lezione 12- Cenci
Corso di Genetica -Lezione 12- Cenci Il codice genetico: Come triplette dei quattro nucleotidi specificano 20 aminoacidi, rendendo possibile la traduzione dell informazione da catena nucleotidica a sequenza
DettagliFORMAZIONE DEL LEGAME PEPTIDICO
AMINOACIDI FORMAZIONE DEL LEGAME PEPTIDICO SEQUENZA AMINOACIDICA DELL INSULINA STRUTTURA SECONDARIA DELLE PROTEINE STRUTTURA TERZIARIA DELLE PROTEINE STRUTTURA QUATERNARIA DELLE PROTEINE Definizione Processi
DettagliLezione 12. Origine degli introni
Lezione 12 Origine degli introni Nature Reviews Genetics 2006 Introni di gruppo I batteri, organelli identificati circa 1500 Introni di gruppo II identificati circa 200 Introni con spliceosomi genoma nucleare
DettagliIntroduzione al Calcolo Scientifico A.A Lab. 11
Introduzione al Calcolo Scientifico A.A. 2009-2010 - Lab. 11 Si consideri il problema dell allineamento di sequenze di proteine in biologia, legato per esempio all annotamento di genomi Si realizzi con
DettagliNel codice genetico, una tripletta di nucleotidi codifica per un aminoacido
Il codice genetico: Come triplette dei quattro nucleotidi specificano 20 aminoacidi, rendendo possibile la traduzione dell informazione da catena nucleotidica a sequenza di aminoacidi. Come le mutazioni
DettagliEsercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini)
Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini) Collegatevi al sito www.ncbi.nlm.nih.gov/blast. Apparirà una pagina nella quale le versioni
DettagliImportanza della genetica dei microrganismi
Importanza della genetica dei microrganismi 1.I microrganismi rappresentano un mezzo essenziale per comprendere la genetica di tutti gli organismi. 2.Vengono usati per isolare e duplicare specifici geni
DettagliRicevimento Studenti: Lunedì previa prenotazione. Cenci lab
Cenci lab Giovanni Cenci Dip.to Biologia e Biotecnologie C. Darwin Sezione Genetica Piano 2 -Citofono 3/4 0649912-655 (office) 0649912-843 (lab) giovanni.cenci@uniroma1.it Ricevimento Studenti: Lunedì
DettagliGENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi
GENOMA EVOLUZIONE CONTENUTO FUNZIONE STRUTTURA Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine Progetti genoma in centinaia di organismi Importante la sintenia tra i genomi The
DettagliAllineamento di sequenze proteiche
Allineamento di sequenze proteiche Sequenze proteiche - definizioni Una proteina è composta da diversi amino acidi uniti da legami peptidici. Si definisce: struttura primaria: la sequenza dei residui struttura
DettagliLe L z e io i ne n 6 Co C n o f n ro r n o t n i i fra r a se s q e u q e u n e z n e z : e di d s i t s a t nz n e z, e allineamenti
Lezione 6 Confronti fra sequenze: distanze, Confronti fra sequenze: distanze, allineamenti Distanze fra sequenze Per N siti ed n differenze: grado di divergenza = n/n AATGAAAGAA 10 siti; 3 differenze ACTGGAGGAA
DettagliL A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010
L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi
DettagliGenomica Evoluzione e cambiamenti dei genomi. Dott.ssa Inga Prokopenko
Genomica Evoluzione e cambiamenti dei genomi Dott.ssa Inga Prokopenko Sistematica in biologia La varietà degli organismi viventi richiede organizzaione delle nostre osservazioni Tassonomia in biologia
DettagliLuigi Piroddi
Automazione industriale dispense del corso (a.a. 2008/2009) 10. Reti di Petri: analisi strutturale Luigi Piroddi piroddi@elet.polimi.it Analisi strutturale Un alternativa all analisi esaustiva basata sul
DettagliCorso di Bioinformatica. Docente: Dr. Antinisca DI MARCO
Corso di Bioinformatica Docente: Dr. Antinisca DI MARCO Email: antinisca.dimarco@univaq.it Analisi Filogenetica Gene Ancestrale duplicazione genica La filogenesi è lo studio delle relazioni evolutive tra
DettagliCorso di Genetica -Lezione 8- Cenci
Corso di Genetica -Lezione 8- Cenci Mappatura mediante ricombinazione corpo nero; fenotipo dominante N(ero)/N(ero) Su quale cromosoma? Y; N/N X w/w; Cy/Sco; Sb/Ser Tutti maschi occhio bianco sono normali
DettagliDef. 1. Si chiamano operazioni elementari sulle righe di A le tre seguenti operazioni:
Facoltà di Scienze Statistiche, Algebra Lineare 1 A, G.Parmeggiani LEZIONE 5 Operazioni elementari sulle righe di una matrice Sia A una matrice m n. Def. 1. Si chiamano operazioni elementari sulle righe
DettagliUNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre II. 4 Evoluzione e filogenesi
Docente: Matteo Re UNIVERSITÀ DEGLI STUDI DI MILANO C.d.l. Informatica Bioinformatica A.A. 2013-2014 semestre II 4 Evoluzione e filogenesi FILOGENETICA CS Definzione Studio delle relazioni evolutive tra
DettagliCENTRALITA nella RETE
CENTRALITA nella RETE Nozione di Centralità Nozione introdotta dai sociologi nel dopoguerra (Bavelas 1948) L ipotesi è che la centralità strutturale sia un elemento in grado di motivare l importanza di
DettagliSequence alignment... in parallel!!
Sequence alignment... in parallel!! Diego Puppin Oggi parliamo di... Introduzione: Allineamento di sequenze Algoritmi basati su Programmazione Dinamica Algoritmo Smith-Waterman Micro-parallelismo Parallelismo
DettagliDNA E PROTEINE IL DNA E RACCHIUSO NEL NUCLEO, MENTRE LA SINTESI PROTEICA SI SVOLGE NEL CITOPLASMA: COME VIENE TRASPORTATA L INFORMAZIONE?
DNA E PROTEINE NUMEROSI DATI SUGGERISCONO CHE IL DNA SVOLGA IL SUO RUOLO GENETICO CONTROLLANDO LA SINTESI DELLE PROTEINE, IN PARTICOLARE DETERMINANDONE LA SEQUENZA IN AMINOACIDI E NECESSARIO RISPONDERE
DettagliMatrici di Raven (PM47)
Matrici di Raven (PM47) Matrici di Raven (PM47) Matrici di Raven (PM47) Matrici di Raven (PM38) TRA I TEST DI TIPICA PERFORMANCE Test proiettivi Test self-report di personalità Questionari psichiatrici
DettagliFILE E INDICI Architettura DBMS
FILE E INDICI Architettura DBMS Giorgio Giacinto 2010 Database 2 Dati su dispositivi di memorizzazione esterni! Dischi! si può leggere qualunque pagina a costo medio fisso! Nastri! si possono leggere le
DettagliLa mappatura dei geni umani. SCOPO conoscere la localizzazione dei geni per identificarne la struttura e la funzione
La mappatura dei geni umani SCOPO conoscere la localizzazione dei geni per identificarne la struttura e la funzione Un grande impulso alla costruzione di mappe genetiche è stato dato da le tecniche della
Dettagli1 se k = r i. 0 altrimenti. = E ij (c)
Facoltà di Scienze Statistiche, Algebra Lineare A, G.Parmeggiani LEZIONE 5 Matrici elementari e loro inverse Si fissi m un numero naturale. Per ogni i, j m con i j siano E ij (c) (ove c è uno scalare )
Dettagli1 Prodotto cartesiano di due insiemi 1. 5 Soluzioni degli esercizi 6
1 PRODOTTO CARTESIANO DI DUE INSIEMI 1 I-4 R 2 ed R 3 Piano e spazio cartesiani Indice 1 Prodotto cartesiano di due insiemi 1 2 Rappresentazione di R 2 sul piano cartesiano 2 3 Sottoinsiemi di R 2 e regioni
Dettagliscaricato da I peptidi risultano dall unione di due o più aminoacidi mediante un legame COVALENTE
Legame peptidico I peptidi risultano dall unione di due o più aminoacidi mediante un legame COVALENTE tra il gruppo amminico di un aminoacido ed il gruppo carbossilico di un altro. 1 Catene contenenti
DettagliIL CODICE GENETICO E I CARATTERI EREDITARI
IL CODICE GENETICO E I CARATTERI EREDITARI Il DNA porta le informazioni genetiche scritte nella sequenza di basi. Qualunque sequenza è possibile. Il DNA virus più semplici: 5000 basi appaiate; 46 cromosomi
Dettagli07/01/2015. Come si ferma una macchina in corsa? Il terminatore. Terminazione intrinseca (rho-indipendente)
Come si ferma una macchina in corsa? Il terminatore Terminazione intrinseca (rho-indipendente) Terminazione dipendente dal fattore Rho (r) 1 Operoni: gruppi di geni parte di una unica unità trascrizionale
DettagliAllineamenti multipli
Allineamenti multipli Allineamenti multipli Finora ci siamo occupati di allineamenti a coppie (pairwise), ma il modo migliore per conoscere le caratteristiche di una determinata famiglia è allineare molte
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Clustering: similarità Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizioni
DettagliElementi di Epidemiologia per la Valutazione Comparativa di Esito
Elementi di Epidemiologia per la Valutazione Comparativa di Esito La valutazione della qualità dell assistenza: quali domande? L incidenza di alcuni esiti negativi dell assistenza ospedaliera (come la
DettagliLuigi Piroddi
Automazione industriale dispense del corso (a.a. 2008/2009) 9. Reti di Petri: analisi dinamica e metodi di riduzione Luigi Piroddi piroddi@elet.polimi.it Metodi di analisi di Reti di Petri Ci sono 2 modi
DettagliEdit distance. v intner RIMDMDMMI wri t ers
L'allineamento Edit distance Le operazioni permesse sono: I: insert (inserimento, inserzione) D: delete (cancellazione, delezione, rimozione) R: replacement (substition, sostituzione) M: match (corrispondenza,
DettagliLaboratorio di Algoritmi e Strutture Dati
Laboratorio di Algoritmi e Strutture Dati Docente: Camillo Fiorentini 8 gennaio 8 Il problema è simile all esercizio 5.6 del libro di testo di algoritmi (Introduzione agli algoritmi e strutture dati, T.
DettagliProtein folding. Un gran numero di interazioni deboli + ΔH
Protein folding -ΔS Un gran numero di interazioni deboli +ΔS + ΔH E r Protein structure modelling: A digression I polimeri (inclusi quelli di amino acidi) in generale non hanno una struttura unica. Le
Dettaglipiccoli e semplici procarioti, distinti dal punto di vista fenotipico (dagli
1. INTRODUZIONE 1.1 Generalità sui micoplasmi I micoplasmi (dal greco muces, fungo; plasma, forma ) sono i più piccoli e semplici procarioti, distinti dal punto di vista fenotipico (dagli altri procarioti)
DettagliRegressione Lineare Semplice e Correlazione
Regressione Lineare Semplice e Correlazione 1 Introduzione La Regressione è una tecnica di analisi della relazione tra due variabili quantitative Questa tecnica è utilizzata per calcolare il valore (y)
Dettagli0 altimenti 1 soggetto trova lavoroentro 6 mesi}
Lezione n. 16 (a cura di Peluso Filomena Francesca) Oltre alle normali variabili risposta che presentano una continuità almeno all'interno di un certo intervallo di valori, esistono variabili risposta
DettagliNucleotide / aminoacido? 4 aa. 2 Nucleotide / aminoacido? 4 2 = 16 aa. 3 Nucleotide / aminoacido? 4 3 = 64 aa. UNIVERSALE e DEGENERATO
La#scoperta#della#stru.ura#a#doppia#elica# nel#1953#ha#fa.o#immediatamente# sorgere#una#domanda:## come#l informazione#gene;ca#può#essere# codificata#dal#dna?# Nucleotide / aminoacido? 4 aa 2 Nucleotide
DettagliEsplorazione grafica di dati multivariati. N. Del Buono
Esplorazione grafica di dati multivariati N. Del Buono Scatterplot Scatterplot permette di individuare graficamente le possibili associazioni tra due variabili Variabile descrittiva (explanatory variable)
DettagliFREQUENZE GENOTIPICHE E GENICHE
FREQUENZE GENOTIPICHE E GENICHE Questo documento è pubblicato sotto licenza Creative Commons Attribuzione Non commerciale Condividi allo stesso modo http://creativecommons.org/licenses/by-nc-sa/2.5/deed.it
Dettagli1) Hamming bound, coset, codici equivalenti
Argomenti della Lezione ) Hamming bound, coset, codici equivalenti 2) Esercizi sui codici lineari a blocchi Osservazione () Per effettuare la decodifica a rivelazione di errore si può seguire una delle
DettagliIn alternativa all intervallo di riferimento. VALORI o LIVELLI DECISIONALI
In alternativa all intervallo di riferimento VALORI o LIVELLI DECISIONALI Valori sopra o sotto i quali è raccomandabile seguire un determinato comportamento clinico: - Instaurare o modificare un regime
Dettagli