Corso di Bioinformatica

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Corso di Bioinformatica"

Transcript

1 Corso di Bioinformatica Cortona - Novembre 2002 Metodi Computazionali per l'analisi delle sequenze Dr. Sabino Liuni Istituto di Tecnologie Biomediche- CNR Sezione di Bioinformatica e Genomica - Bari Sabino@area.ba ba.cnr.it

2 Metodi Comparativi Con il procedere dei progetti di sequenziamento stiamo assistendo ad una crescita esponenziale nel numero delle sequenze ma con poca conoscenza circa la loro struttura e funzione. La determinazione della struttura e funzione di una sequenza non e' un compito facile quindi la via migliore per arrivare alla comprensione della funzione e struttura delle sequenze è quella di mettere in relazione queste sequenze con altre sequenze conosciute utilizzando metodi comparativi Le relazioni tra le sequenze possono variare da casi in cui abbiamo una quasi Identità completa ad una apparente relazione in quanto condividono solo alcune strutture, questa situazione pone una grande difficoltà nell'utilizzo degli algoritmi idonei all'analisi I metodi di confronto delle sequenze rappresentano quindi il primo passo verso la caratterizzazione funzionale delle sequenze il cui compito è determinare la relazione esistente tra struttura e funzione. I metodi comparativi di analisi possono essere applicati a diversi livelli: sequenza primaria struttura 3D Le metodologie più utilizzate nei metodi di analisi comparativi sono: allineamento ricerca in banca dati

3 Allineamento L'allineamento è un problema difficile. Questa metodologia è molto diffusa nell'analisi computazionale poiché sulla base delle posizioni individuate in comune nelle varie colonne delle sequenze è possibile ipotizzare una relazione evolutiva o funzionale. E' molto importante nell uso di queste metodologie l applicazione di una corretta terminologia.

4 L allineamento può essere FACILE e DIFFICILE GCGGCCCA TCAGGTAGTT GGTGG GCGGCCCA TCAGGTAGTT GGTGG GCGTTCCA TCAGCTGGTT GGTGG GCGTCCCA TCAGCTAGTT GGTGG GCGGCGCA TTAGCTAGTT GGTGA ******** ********** ***** TTGACATG CCGGGG---A AACCG TTGACATG CCGGTG--GT AAGCC TTGACATG -CTAGG---A ACGCG TTGACATG -CTAGGGAAC ACGCG TTGACATC -CTCTG---A ACGCG ********?????????? ***** FACILE DIFFICILE

5 OMOLOGHI Il termine si riferisce a sequenze che condividono un ancestore comune e si divide in due sottoclassi: Ortologhi - Speciazione Sono gli stessi geni (e.s. cythocrome C) in differenti specie. Due geni nello stesso organismo non possono essere ortologhi. Paraloghi - Duplicazione Sono il risultato di una duplicazione genica (e.s. hemoglobin beta e delta). Se due geni/proteine sono omologhi nello stesso organismo questi sono Paraloghi

6 Analoghi Termine raramente utilizzato, sono sequenze che non condividono un ancestore comune, ma hanno alcune funzioni simili, quindi appartengono ad una stessa classe. Ad esempio la Trypsin like serine proteinase e Subtilismis, non sono in relazione, la loro struttura al di fuori del sito attivo è completamente differente. Sito Attivo Il sito attivo in una proteina è costituito da tre residui i quali sono spaziati attraverso tutta la lunghezza della sequenza proteica.

7 Omologia e Similarità Questi due termini sono molto spesso intercambiabili ma hanno un significato defferente. Omologia Due sequenze sono omologhe se derivano da un ancestore comune mediante un processo di speciazione o duplicazione. L omologia e un carattere qualitativo poggiato su una misura oggettiva della similarità. Similarità Rappresenta un parametro quantitativo in quanto esprime il grado di omologia tra le due sequenze.

8 Similarità La similarità, nei metodi di allineamento viene evidenziate come: Sequence Identity: Si riferisce ai match esatti dei residui di acidi nucleici o proteine tra due sequenze allineate ed espressa in termini percentuli. Es. due sequenze allineate lunghe 150 residui con 66 matches hanno una S.I pari a 66/150*100 = 44% Sequence Similarity: applicato alle sequenze proteiche e si riferisce agli aminoacidi che hanno proprietà chimiche simili. Il punteggio in questo caso viene assegnato alla probabilità di sostituzione di un aminoacido in un altro e viene calcolato sulla base di matrici di sostituzioni.

9 Allineamento Nei processi di allineamento, si cerca di individuare il minimo numero di cambi (Sostituzione, Inserzione, Delezione) per convertire una sequenza in un'altra. L'utilizzazione di questi criteri porta alla definizione di MISMATCHES (similarità negative) e MATCHES (similarità positive) e GAPS (similarità negative). Un allineamento dipende oltre dai parametri utilizzati e dal peso assegnato ai parametri anche dall'esperienza. In un processo di allineamento molte sono le questioni che necessitano di una risposta: Come è possibile assegnare un punteggio all'allineamento? Quale è il miglior schema per assegnare i punteggi ai dati? Possono essere inseriti gaps al fine di facilitare altrove i matches tra le sequenze? Se i gaps sono permessi, come è possibile assegnare i punteggi? Una volta individuato un corretto schema, per l'assegnazione dei parametri, qual è il miglior algoritmo per cercare un ottimo allineamento? Quando un allineamento è prodotto esso è significativo?

10 Allineamento - Matrici Quando si guarda un allineamento, quello che ci si chiede è se questo allineamento è significativo oppure è un evento casuale. La risposta a questa domanda viene fornita dall'utilizzo delle matrici. La costruzione delle matrici è un processo complesso in quanto bisogna tenere presente molti fattori quali ad esempio: la natura chimica del residuo, la frequenza del verificarsi di un evento di sostituzione etc. Ci sono molte matrici di sostituzione attualmente in uso, e molti dei programmi di allineamento e Database Searches ne usano una di default. Le matrici hanno un ruolo fondamentale nei processi di allineamento e database searches.

11 Allineamento - Matrici PAM Per un lungo periodo sono state utilizzate le matrici di sostituzione della Dayhoff e precisamente la PAM250. Questa matrice è fondata sull osservazione del contegio del cambio degli aminoacidi in un gruppo di proteine fortemente in relazione tra di loro (85% identità). Queste matrici sono costruite sulla base di relazioni evolutive. Esse evidenziano la probabilità di cambio di un aminoacido in un altro in proteine omologhe durante l evoluzione. Se consideriamo un gruppo di proteine omologhe, che evolutivamente si sono allontanate minimamente e presentano un 50% di similarità, esiste una tipica matrice PAM che in questa situazione mi indica la frequenza dei cambi che mi aspetto. Se le proteine omologhe presentano un 20% di similarità (quindi più distanti evolutivamnete) esiste un altra matrice PAM. Queste matrici sono utilizzate per produrre un alineamento e definire i punteggi di similarità nell allineamento.

12 Costruzione delle Matrici BLOSUM Allineamento - Matrici Blosum Queste matrici sono ottenute partendo dalla banca dati BLOCKS. Questa banca dati contiene un insieme di proteine allineate che sono n relazioni tra di loro e l'allineamento è relativo a regioni di sequenze prive di gap. Ogni blocco si riferisce normalmente ad un insieme di proteine in relazioni tra di loro. Mediante delle tecniche di clustering, tutte le sequenze contenute in un blocco, vengono messe insieme in gruppi. All'interno di una famiglia, clusterizzata in gruppi, viene determinata la FREQUENZA di SOSTITUZIONE e quindi le sostituzioni significative. Il valore numerico associato alle matrici (es. BLOSUM62) rappresenta il valore di soglia applicato dal metodo di clustering. Un valore di 62 indica che le sequenze sono messe insieme nello stesso cluster, se hanno un valore di identità uguale o maggiore al 62%. Valori molto bassi di soglia (es. BLOSUM 45) stanno ad indicare che sono state clusterizzate sequenze che sono più distanti evolutivamente. Tabella di Utilizzo delle Matrici

13 Allineamento - Matrici

14 Allineamento - Matrici I valori riportati nelle matrici sono calcolati considerando due probabilità: P 1 la probabilità che l'evento di accoppiamento dei residui nell'allineamento è random P 2 la probabilità che l'accoppiamento dei residui nell'allineamento è significativo. Il valore nella matrice è dato come log del rapporto P 2 /P 1 Se i valori sono positivi, significa che l'evento non è casuale. Il punteggio dell'allineamento è calcolato sulla base dei valori contenuti nelle matrici. Nella matrice possiamo notare che l'acido Glutamico (E) ha un punteggio positivo con la sostituzione di D (acido aspartico) o Q (Glutamine). Se andiamo a guardare le sostituzioni possiamo notare che sono residui con proprietà chimiche simili. Sempre lo stesso residuo (E) ha valori negativi di sostituzione con altri aminoacidi Isoleucine (I) e Leucine (L). Il triptofano (W) sostituito con un altro Triptofano ha un valore di 11, difficilmente si puo' affermare che la probabilità di appaiamento sia casuale

15 Matrici PAM o Blosum? Ci sono delle differenze molto rilevanti tra le due matrici, e queste condizionano l interpretazione del risultato dell allineamento delle sequenze proteiche. Prima considerazione Le matrici PAM sono poggiate su un modello evolutivo dove il cambio di un aminoacido in un sito è indipendente dai cambi che sono avvenuti nello stesso sito. I cambi sono calcolati considerando gruppi di sequenze omologhe all 85% dopo la produzione di un alero evolutivo. Le matrici utilizzate per confrontare sequenze proteiche molto distanti evolutivamente sono ESTRAPOLATE partendo da questa matrice. Le matrici Blosum non sono poggiate su un modello evolutivo. Esse derivano considerando i cambi aminoacidi osservati nelle REGIONI ALLINEATE di famiglie proteiche i n relazione. Il modello evolutivo implicito in queste matrici è rappresentato dal fatto che le proteine di ciascuna famiglia condividono un ancestore comune in quanto hanno tutte una stessa attività biochimica

16 Matrici PAM o Blosum? Seconda considerazione Il punteggio delle matrici PAM si riferisce al conteggio di ogni posizione dell aminoacido nella sequenza completa, mentre le BLOSUM si riferiscono all analisi delle sostituzioni e posizioni conservate nei blocchi i quali rappresentano le regioni comuni più simili nelle sequenze in relazione. Qiindi: La PAM sono disegnate per seguire le tracce dell origine evolutiva delle proteine Le Blosum sono designate per trovare domini conservati.

17 Allineamento Quando parliamo di allineamento, le sequenze possono essere rappresentate mediante un allineamento globale o locale, che dipende dalle finalità del confronto. Il metodo usato dipende se le sequenze sono presumibilmente in relazione sull'intera sequenza oppure se condividono delle isolate regioni di similarità. I programmi di database searching nel mostrare un allineamento applicano l'algoritmo di Smith-Waterman che è un allineamento locale. Per valutare il significato di un allineamento locale (e non globale) tra due sequenze una procedura è quella di generare molte sequenze random delle stesse sequenze e verificare che il punteggio di similarità più o meno una deviazione standard non si discosti molto. Allineamento Globale Allineamento Locale

18 Multiallineamento Al fine di condurre un analisi evolutiva o strutturale è necessario allineare contemporaneamente tutte le sequenze omologhe in esame. Si ottiene cosi un multiallineamento in modo che tutte le sequenze considerate abbiamo la stessa lunghezza comprendendo anche le eventuali inserzioni e delezioni. In termini generali l'allineamento multiplo ha come obiettivo quello di allineare un set di sequenze al fine di individuare le similarità strutturali, che stanno alla base (che caratterizzano)di una famiglia di sequenze funzionali o evolutivamente in relazione. L'allineamento multiplo mette in evidenza pattern conservati che possono essere a loro volta sfruttati utilizzando il metodo dei profili, per ricercare nel database. Utilizzando il sistema del multiallineamento e la ricerca nel database mediante profili è possibile rilevare delle omologie remote con sequenze di altri organismi. Questo tipo di analisi permette di definire delle famiglie complete di nuovi geni. Il profilo rappresenta un punteggio informativo dei vari residui che è ottenuto dalla frequenza che hanno sulle colonne allineate. Utilizzando il profilo, sulla base del multiallineamento, come ricerca nella banca dati è possibile individuare sequenze che sono evolutivamente più distanti.

19 I concetti essenziali per un multiallineamento sono: Ci sono famiglie di sequenze che condividono delle caratteristiche comuni da un punto di vista strutturale, funzionale o entrambi. Questo non è altro che il riflesso di regioni conservate nel multiallineamento delle sequenze. Le variazioni osservate nell'allineamento delle sequenze omologhe rappresentano le variazioni esistenti nella famiglia delle proteine da queste codificate. L'allineamento di una famiglia di proteine fornisce molta più informazione di quanto viene fornito da un accoppiamento a coppie.

20 Qual è la funzione di un Multiallineamento Normalmente si procede ad un allineamento multiplo per: Evoluzione molecolare e filogenia; Ricerca nei database mediante i profili; Disegno di primer per PCR; Definizione di una consensus

21 MULTIALLINEAMENTO - CLUSTALW LINK

22 Quale metodologia scegliere?

23 Risorse Web dei Programmi di allineamento Dialign Clustalw SIM4 Il programma affronta il problema di allineare sequenze trascritte (mrna, EST) in modo efficiente con le sequenze genomiche. DBClustal Il programma dopo avere effettuato il db-searching, mostra tutti i risultati. Selezionando le sequenze migliori e' in grado di eseguire un multiallineamento.

24 DATABASE SEARCHING I programmi di ricerca nella banca dati apparentemente possono sembrare semplici da utilizzare, in realtà questi programmi devono essere trattati con lo stesso rigore con la quale si utilizzano le procedure di laboratorio e i dati richiedono la stessa attenzione dei risultati del laboratorio. Il risultato che si ottiene mediante la ricerca in banca dati è una similarità con altre sequenze, l'omologia intesa come relazione evolutiva con le sequenze può essere solo dedotta e da questa deduzione arrivare alla eventuale funzione.

25 DATABASE SEARCHING Le linee guida per una corretta analisi di ricerca in banca dati sono: Utilizzare una banca dati aggiornata; Confrontare con proteine piuttosto che con DNA; Filtrare le sequenze a bassa complessità; Interpretare correttamente i risultati mediante E_value Riconoscere che molte omologie non sono trovate mediante il confronto delle sequenze Tener presente che ci sono sistemi di ricerca più lenti ma più potenti (SSEARCH E' stato inoltre osservato una forte caduta di performance della ricerca in DB, quando la sequenza da ricercare è più corta di 200bp Da studi fatti è stato visto che se le sequenze Proteiche sono >80 residui diventa significativo l'allineamento se la % di identità è > 25%.

26 DATABASE SEARCHING La formulazione dell'esperimento di ricerca in banca dati inizia con un primo quesito: quale tipo di sequenza bisogna confrontare: DNA, Proteina oppure DNA come Proteina? Se la sequenza è una proteina oppure è una sequenza di DNA che codifica per una proteina, la ricerca deve essere fatta a livello di proteina in quanto è possibile evidenziare delle omologie molto più distanti rispetto alle sequenze di acidi nucleici. Per esempio nel DNA c'è un forte rumore dovuto ad un rapido cambiamento nella terza base dei codoni. Un altro vantaggio nella ricerca mediante proteina è che gli aminoacidi a differenza dei nucleotidi oltre a presentare il confronto identità/non-identità possegono delle caratteristiche chimiche in comune. In breve la ricerca a livello di proteina aiuta a individuare geni in relazione da un punto di vista evolutivo, mentre la ricerca con il DNA aiuta nella ricerca di regioni identiche.

27 DATABASE SEARCHING I programmi classici che eseguono ricerca di sequenze nelle banche dati sono FASTA e Blast. Il principo euristico che questi programmi usano è la ricerca di "Words" nelle banche dati. Una parola "Word" è rappresentata da diversi caratteri disposti in qualsiasi modo nelle proteine o acidi nucleici. Normalmente queste parole sono individuate con il termine K-Tuple. La grande assunzione in un metodo basato sulla ricerca è che le sequenze in relazioni tra di loro condividono molte parole.

28 DATABASE SEARCHING L'utilizzo di parole lunghe porta ad una riduzione della sensibilità, in quanto se due sequenze si sono allontanate molto da un punto di vista evolutivo queste non condividono più parole lunghe ma bensì parole più corte. Nei processi di database searching bisogna sempre cercare un compromesso tra SENSIBILITA' e SELETTIVITA': Sensibilità : rappresenta la capacità di identificare sequenze in relazione ma distanti evolutivamente. Aumentando la sensibilità aumenta il numero di match osservati, ma diminuisce la velocità di ricerca. Selettività : è la capacità di evitare falsi positivi (es. sequenze non in relazione ma che presentano un'alto valore di similarità).

29 DATABASE SEARCHING - Blast Un aspetto rilevante nel database searching è la presenza nella sequenza di corti elementi ripetuti che sono definite regioni a bassa complessità. Come risultato due sequenze che presentano queste regioni ripetute possono ottenere un alto valore di similarità che riflette solo questo comportamento. La presenza di queste regioni ripetute può inoltre oscurare altre regioni importanti. I programmi di Blast presso l'ncbi rimuovono automaticamente queste regioni sostituendole con le X mediante un programma chiamato SEG (proteine) e DUST (acidi nucleici). Algoritmo Blast

30 DATABASE SEARCHING - Blast La famiglia dei programmi Blast sono: blastp: confronta la sequenza di una proteina contro una banca dati di proteine; balstn: confronta la sequenza di acidi nucleici, contro la banca dati di acidi nucleici blastx: traduce una sequenza di acidi nucleici, nelle sue sei frames e confronta ogniuna di queste con la banca dti di proteine; tblastn: confronta una sequenza proteica contro una banca dati di acidi nucleici, dove ogni sequenza viene tradotta nelle sei frames; tblastx: confronta le sei frames di una sequenza di acidi nucleici contro le sei frames di ogniuna delle sequenze della banca dati di acidi nucleici;

31 DATABASE SEARCHING - Fasta L'algoritmo Fasta utilizza il metodo di Pearson e Lipman. La ricerca viene effettuata in quattro fasi successive. Algoritmo Prima fase : vengono prese in considerazione solo i segmenti identici tra le due coppie di sequenze sulla base del valore di k-tuple (6 per DNA). Seconda fase : tra tutte le regioni di similarità (diagonali) vengono individuate le migliori regioni di similarità locale, anche su diagonali diverse. Tra tutte le regioni viene individuata la regione che presenta la massima similarità. Questa regione viene chiamata "Regione primaria di Similarità" e viene indicata con INIT1. Terza Fase : Il programma verifica che le regioni (diagonali) precedentemente individuate, possono essere unite per ottenere un unico allineamento. Queste regioni sono unite se il costo da pagare è inferiore rispetto al punteggio che si ottiene nella ricongiunzione. Il punteggio di similarità relativo che si ottiene, mediante l'unione delle regioni viene indicato con INITN. Quarta Fase : Viene ottimizzato l'allineamento e viene calcolato o score complessivo (Opt). output

32 DATABASE SEARCHING Considerazioni Utilizzando un set di sequenze di differente lunghezza > di 200 bp mediante i diversi programmi di analisi sono stati ottenuti i seguenti risultati: Metodo individuate % di sequenze in relazione BLASTN default 21.6 BLASTN w= Fasta default 43.4 SSEARCH 58.2 Questi valori indicano la sensibilità degli algoritmi. L'algoritmo di Smith -Waterman presenta la migliore sensibilità i quanto trova più sequenze degli altri metodi. Il BLASTN con w=6 e Fasta con i valori di default sono paragonabili. Per quanto riguarda il significato statistico dato dai programmi all'analisi, in questo caso troviamo al primo posto i programmi Blast e Fasta e poi SSEARCH.

33 DATABASE SEARCHING Considerazioni Tabella di significatività dei risultati Metodo Valore BLASTN default P value 0,01 BLASTN w=6 P value 0,01 Fasta E_value 0,005 SSEARCH Z-score 5

34

35

36 PatSearch Una delle maggiori sfide nella biologia molecolare è comprendere i meccanismi di regolazione dell espressione genica, in quanto molti dei meccanismi di base della vita: crescita cellulare, differenziamento ecc. sono dipendenti dalla differente regolazione dell espressione genica. La regolazione dell espressione genica è un meccanismo che avviene sia a livello Trascrizionale che Post-trascrizionale, mediante rei piccoli tratti di DNA o RNA chiamati Binding Protein, dove chiaramente si legano le proteine. Il programma PatSearch è in grado di analizzare una sequenza oppure una collezione di sequenze alla ricerca di pattern complessi che vengono costruiti mediante delle Regular Expression.

37 PatSearch Regole di costruzione dei pattern Un pattern è definito come una sequenza di Pattern Unit indicati come: p1 p2 p3 pn Ad esempio il pattern: GGCC 3 8 GAACC è costituito da tre pattern unit p1 p2 p3 Consideriamo ora il pattern : p1=4 4 p1 p1 questa sintassi va letta come, ricercare un pattern di qualsiasi carattere di quattro elementi che siano seguiti per due volte dallo stesso Pattern Unit (p1). Il risultato: ACGT ACGT ACGT p1 p1 p1 Similarmente: p1=4 4 p1 p2=3 3 p1 p2 p1 p1 p2 risultato AAAA AAAA CCC AAAA CCC AAAA AAAA CCC p1 p1 p2 p1 p2 p1 p1 p2

38 PatSearch Il pattern unit può accettare :[Mismatches, Delezioni, Inserzioni] Es: TTTATTT[1,0,0] troverà la sequenza TTTGTTT TTTATTT[0,1,0] troverà la sequenza TTTTTT TTTATTT[0,0,1] trovera la sequenza TTTACTTT Pattern Unit: Palindromi Viene utilizzata l espressione <p1 Es: p1=4 4 <p1 trovami qualsiasi carattere che letto nell altra direzione è identico SAPRRPAS Ricerca di strutture Quando si ricercano delle regioni nucleotidiche molte volte, c è la necessità di ricercare regioni che formano dei loop. La sintassi per rappresentare questo è: p1 Es: p1= p1 Questa è una tipica struttura STEM-LOOP

BLAST. W = word size T = threshold X = elongation S = HSP threshold

BLAST. W = word size T = threshold X = elongation S = HSP threshold BLAST Blast (Basic Local Aligment Search Tool) è un programma che cerca similarità locali utilizzando l algoritmo di Altschul et al. Anche Blast, come FASTA, funziona: 1. scomponendo la sequenza query

Dettagli

Algoritmi di Allineamento

Algoritmi di Allineamento Algoritmi di Allineamento CORSO DI BIOINFORMATICA Corso di Laurea in Biotecnologie Università Magna Graecia Catanzaro Outline Similarità Allineamento Omologia Allineamento di Coppie di Sequenze Allineamento

Dettagli

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento Algoritmi EURISTICI di allineamento Sono nati insieme alle banche dati, con lo scopo di permettere una ricerca per similarità rapida anche se meno accurata contro le migliaia di sequenze depositate. Attualmente

Dettagli

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2.

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2. Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti patti@di.unito.it Esercitazione 7 1 Info&Bio Bio@Lab Allineamento di sequenze Esercitazione 7 2 1 Es2: Allineamento

Dettagli

Esempio di utilizzo del programma BLAST disponibile all NCBI Form di Nucleotide BLAST

Esempio di utilizzo del programma BLAST disponibile all NCBI   Form di Nucleotide BLAST Esempio di utilizzo del programma BLAST disponibile all NCBI www.ncbi.nlm.nih.gov/blast Form di Nucleotide BLAST Per un uso più avanzato, si possono impostare parametri particolari (es. cost to open gap,

Dettagli

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST Quarta lezione 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST Ricerca di omologhe in banche dati Proteina vs. proteine Gene (traduzione in aa) vs. proteine Gene vs. geni

Dettagli

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random Z-score lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random è una misura di quanto il valore di opt si discosta dalla deviazione standard media. indica di quante dev.

Dettagli

FASTA. Lezione del

FASTA. Lezione del FASTA Lezione del 10.03.2016 Omologia vs Similarità Quando si confrontano due sequenze o strutture si usano spesso indifferentemente i termini somiglianza o omologia per indicare che esiste un rapporto

Dettagli

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 8 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 8 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

Le sequenze consenso

Le sequenze consenso Le sequenze consenso Si definisce sequenza consenso una sequenza derivata da un multiallineamento che presenta solo i residui più conservati per ogni posizione riassume un multiallineamento. non è identica

Dettagli

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing SAGA: sequence alignment by genetic algorithm ALESSANDRO PIETRELLI Soft Computing Bologna, 25 Maggio 2007 Multi Allineamento di Sequenze (MSAs) Cosa sono? A cosa servono? Come vengono calcolati Multi Allineamento

Dettagli

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche)

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche) Docente: Matteo Re UNIVERSITÀ DEGLI STUDI DI MILANO C.d.l. Informatica Bioinformatica A.A. 2013-2014 semestre I 3 Allineamento veloce (euristiche) Banche dati primarie e secondarie Esistono due categorie

Dettagli

La ricerca di similarità in banche dati

La ricerca di similarità in banche dati La ricerca di similarità in banche dati Uno dei problemi più comunemente affrontati con metodi bioinformatici è quello di trovare omologie di sequenza interrogando una banca dati. L idea di base è che

Dettagli

Ricerca di omologia di sequenza

Ricerca di omologia di sequenza Ricerca di omologia di sequenza RICERCA DI OMOLOGIA DI SEQUENZA := Data una sequenza (query), una banca dati, un sistema per il confronto e una soglia statistica trovare le sequenze della banca più somiglianti

Dettagli

La ricerca di similarità: i metodi

La ricerca di similarità: i metodi La ricerca di similarità: i metodi Pairwise alignment allineamenti a coppie 1. Analisi della matrice a punti (dot matrix) 2. Programmazione dinamica (dynamic programming) allineamenti locale e globale.

Dettagli

Pairwise Sequence Alignment BIOINFORMATICA. Corso di Laurea in Ingegneria Informatica e Biomedica. Università Magna Graecia Catanzaro

Pairwise Sequence Alignment BIOINFORMATICA. Corso di Laurea in Ingegneria Informatica e Biomedica. Università Magna Graecia Catanzaro Pairwise Sequence Alignment BIOINFORMATICA Corso di Laurea in Ingegneria Informatica e Biomedica Università Magna Graecia Catanzaro Outline Similarità Allineamento Omologia Allineamento Esatto di Coppie

Dettagli

Informatica e Bioinformatica A. A

Informatica e Bioinformatica A. A Purtroppo non esiste un modo univoco per indicare un gene. Ad esempio abbiamo visto che il gene tcap a seconda del record è riportato come titin-cap protein o telethonin. Questo crea confusione e non facilita

Dettagli

Lezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 6 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

Allineamenti a coppie

Allineamenti a coppie Laboratorio di Bioinformatica I Allineamenti a coppie Dott. Sergio Marin Vargas (2014 / 2015) ExPASy Bioinformatics Resource Portal (SIB) http://www.expasy.org/ Il sito http://myhits.isb-sib.ch/cgi-bin/dotlet

Dettagli

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche InfoBioLab I ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche Esercizio 1 - obiettivi: Ricerca di 2 proteine in ENTREZ Salva i flat file che descrivono le 2 proteine in formato testo Importa

Dettagli

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA. Il progetto Genoma Umano è iniziato nel 1990. E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA. Progetto internazionale finanziato da vari paesi, affidato

Dettagli

Università degli studi di Pisa

Università degli studi di Pisa Università degli studi di Pisa Nicola Guido PATTERNHUNTER: Faster and More Sensitive. Homology Search Seminario: Bioinformatica a.a. 2008/2009 Contenuto della presentazione Introduzione Scenario PatternHunter

Dettagli

Allineamento e similarità di sequenze

Allineamento e similarità di sequenze Allineamento e similarità di sequenze Allineamento di Sequenze L allineamento tra due o più sequenza può aiutare a trovare regioni simili per le quali si può supporre svolgano la stessa funzione; La similarità

Dettagli

Descrizione generale dell esame

Descrizione generale dell esame Descrizione generale dell esame Ci saranno 15 domande a risposta multipla: le risposte corrette aggiungono punti le risposte sbagliate tolgono punti Ciascuna domanda avrà 2 risposte corrette e due sbagliate

Dettagli

Bioinformatica. Analisi del genoma

Bioinformatica. Analisi del genoma Bioinformatica Analisi del genoma GABRIELLA TRUCCO CREMA, 5 APRILE 2017 Cosa è il genoma? Insieme delle informazioni biologiche, depositate nella sequenza di DNA, necessarie alla costruzione e mantenimento

Dettagli

Metodi euristici di allineamento

Metodi euristici di allineamento Metodi euristici di allineamento Algoritmi euristici di allineamento Sono nati insieme alle banche dati, con lo scopo di permettere una ricerca rapida, anche se meno accurata, utilizzando la similarità

Dettagli

Lezione 6. Analisi di sequenze biologiche e ricerche in database

Lezione 6. Analisi di sequenze biologiche e ricerche in database Lezione 6 Analisi di sequenze biologiche e ricerche in database Schema della lezione Allinemento: definizioni Allineamento di due sequenze Ricerca di singola sequenza in banche dati (Alignment-based database

Dettagli

Lezione 7. Allineamento di sequenze biologiche

Lezione 7. Allineamento di sequenze biologiche Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: introduzione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Una definizione

Dettagli

Bioinformatica ed applicazioni di bioinformatica strutturale!

Bioinformatica ed applicazioni di bioinformatica strutturale! Bioinformatica ed applicazioni di bioinformatica strutturale! Bioinformatica! Le banche dati! Programmi per estrarre ed analizzare i dati! I numeri! Cellule nell uomo! Geni nell uomo! Genoma umano Il dogma

Dettagli

Organizzazione del genoma umano

Organizzazione del genoma umano Organizzazione del genoma umano Famiglie di geni o geniche Copie multiple di geni, tutte con sequenza identica o simile. La famiglia multigenica corrisponde a un insieme di geni correlati che si sono evoluti

Dettagli

ALLINEAMENTO DI SEQUENZE

ALLINEAMENTO DI SEQUENZE ALLINEAMENTO DI SEQUENZE Procedura per comparare due o piu sequenze, volta a stabilire un insieme di relazioni biunivoche tra coppie di residui delle sequenze considerate che massimizzino la similarita

Dettagli

Sommario. Presentazione dell opera Ringraziamenti

Sommario. Presentazione dell opera Ringraziamenti Sommario Presentazione dell opera Ringraziamenti XI XII Capitolo 1 Introduzione alla bioinformatica 1 1.1 Cenni introduttivi 1 1.2 Pietre miliari della bioinformatica 2 1.3 Infrastrutture bioinformatiche

Dettagli

Alberi filogenetici. File: alberi_filogenetici.odp. Riccardo Percudani 02/03/04

Alberi filogenetici. File: alberi_filogenetici.odp. Riccardo Percudani 02/03/04 Alberi filogenetici The tree of life Albero filogenetico costruito con le sequenze della subunità piccola dell RNA ribosomale. Tutte le forme viventi condividono un comune ancestore (LCA, last common ancestor

Dettagli

Programmazione dinamica

Programmazione dinamica Programmazione dinamica Fornisce l allineamento ottimale tra due sequenze semplici variazioni dell algoritmo producono allineamenti globali o locali l allineamento calcolato dipende dalla scelta di alcuni

Dettagli

Allineamenti Multipli di Sequenze

Allineamenti Multipli di Sequenze Allineamenti Multipli di Sequenze 1 Allineamento multiplo di sequenze: obiettivi di oggi Definire un allineamento multiplo di sequenze; com è generato; comprendere i principali metodi. Introdurre i database

Dettagli

Progetto Lars-Biotec

Progetto Lars-Biotec Unità didattiche: prima fase: Progetto Lars-Biotec Laboratorio di Ricerca sperimentale nel settore delle Biotecnologie Bioinformatica: vengono scelti e analizzati geni appartenente al genoma umano conosciuti

Dettagli

Allineamento multiplo

Allineamento multiplo Allineamento multiplo Allineamenti multipli Il modo migliore per conoscere le caratteristiche di una determinata famiglia è allineare molte proteine a funzione analoga. I siti funzionalmente o strutturalmente

Dettagli

Obiettivi della genomica

Obiettivi della genomica Obiettivi della genomica Stabilire database ed interfaccie di ricerca per le analisi genomiche. Ottenere e combinare mappe fisiche e genetiche del genoma Generare ed ordinare sequenze genomiche e sequenze

Dettagli

Ricerche con BLAST (Laboratorio)

Ricerche con BLAST (Laboratorio) Laboratorio di Bioinformatica I Ricerche con BLAST (Laboratorio) Dott. Sergio Marin Vargas (2014 / 2015) NCBI BLAST BLAST: Basic Local Alignment Search Tool http://blast.ncbi.nlm.nih.gov/blast.cgi NCBI

Dettagli

Informatica e biotecnologie

Informatica e biotecnologie Informatica e biotecnologie Ricerca di informazioni e analisi di sequenze CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC CGAAATCGCATCAGCATACGATCGCATGC Informatica e biotecnologie Strumenti per raccogliere

Dettagli

RELAZIONE DI BIOLOGIA MOLECOLARE

RELAZIONE DI BIOLOGIA MOLECOLARE RELAZIONE DI BIOLOGIA MOLECOLARE 2 BRUNO FRANCESCA mat.576193 Analisi di proteine. Descrivi un database di interazioni proteiche e mostra con quali proteine interagisce la proteina KEN di Drosophila. Uno

Dettagli

RELAZIONE di BIOLOGIA MOLECOLARE

RELAZIONE di BIOLOGIA MOLECOLARE NOME: Marini Selena MATRICOLA: 592330 RELAZIONE di BIOLOGIA MOLECOLARE CHE ORGANISMO MODELLO È DICTYOSTELIUM? CHE RISORSE BIOINFORMATICHE AGEVOLANO I RICERCATORI CHE LO STUDIANO? Dictyostelium è un genere

Dettagli

Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni:

Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni: Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni: antonella.meloni@ifc.cnr.it Sequenza A= stringa formata da N simboli, dove i simboli apparterranno ad un certo alfabeto. A

Dettagli

Lezione 7. Allineamento di sequenze biologiche

Lezione 7. Allineamento di sequenze biologiche Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra

Dettagli

Bioinformatics more basic notions

Bioinformatics more basic notions Bioinformatics more basic notions Alcune slides provengono dal materiale rilasciato da: Dr Sergio Marin Vargas - Verona Prof. Riccardo Percudari - Parma Bioinformatics Bio-inspired Computer science Gli

Dettagli

Perché considerare la struttura 3D di una proteina

Perché considerare la struttura 3D di una proteina Modelling Perché considerare la struttura 3D di una proteina Implicazioni in vari campi : biologia, evoluzione, biotecnologie, medicina, chimica farmaceutica... Metodi di studio della struttura di una

Dettagli

Analisi della struttura primaria delle proteine

Analisi della struttura primaria delle proteine Analisi della struttura primaria delle proteine Strumenti on-line La maggior parte degli strumenti per l analisi della struttura primaria si trovano on-line all indirizzo www.expasy.org Ottenere la sequenza

Dettagli

Lezione 1. Le molecole di base che costituiscono la vita

Lezione 1. Le molecole di base che costituiscono la vita Lezione 1 Le molecole di base che costituiscono la vita Le molecole dell ereditarietà 5 3 L informazione ereditaria di tutti gli organismi viventi, con l eccezione di alcuni virus, è a carico della molecola

Dettagli

BIOLOGIA MOLECOLARE CON ELEMENTI DI BIOINFORMATICA

BIOLOGIA MOLECOLARE CON ELEMENTI DI BIOINFORMATICA DIPARTIMENTO DI SCIENZE BIOLOGICHE, GEOLOGICHE E AMBIENTALI Corso di laurea magistrale in Biologia sanitaria e cellularemolecolare Anno accademico 2017/2018-1 anno - Curriculum Biologia cellulare e molecolare

Dettagli

Omologia di sequenze: allineamento e ricerca

Omologia di sequenze: allineamento e ricerca Omologia di sequenze: allineamento e ricerca Genomi (organismi) e geni hanno un evoluzione divergente Sequenze imparentate per evoluzione divergente sono omologhe Le sequenze sono confrontabili tramite

Dettagli

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0;

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0; Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p1 p6 p i >0; 6! i=1 p i =1 Sequenza di dna/proteine x con probabilita q x Probabilita dell intera sequenza n " i!1 q xi Massima verosimiglianza

Dettagli

Relazione sequenza-struttura e funzione

Relazione sequenza-struttura e funzione Biotecnologie applicate alla progettazione e sviluppo di molecole biologicamente attive A.A. 2010-2011 Modulo di Biologia Strutturale Relazione sequenza-struttura e funzione Marco Nardini Dipartimento

Dettagli

UTILIZZO DI BLAST PER ALCUNE SEMPLICI APPLICAZIONI IN STUDI GENOMICI

UTILIZZO DI BLAST PER ALCUNE SEMPLICI APPLICAZIONI IN STUDI GENOMICI UTILIZZO DI BLAST PER ALCUNE SEMPLICI APPLICAZIONI IN STUDI GENOMICI Come prima cosa diamo un occhiata alla nostra sequenza di interesse, chiamata «unknown sequence» Con un doppio click possiamo visualizzarla

Dettagli

Lezione 7. Allineamento di sequenze biologiche

Lezione 7. Allineamento di sequenze biologiche Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra

Dettagli

ALLINEAMENTO DI SEQUENZE

ALLINEAMENTO DI SEQUENZE ALLINEAMENTO DI SEQUENZE 1 DATABASE DI SEQUENZE RICERCA TESTUALE Ricerca dei record i cui campi soddisfano determinati criteri (hanno certi valori) Abbiamo già visto nelle lezioni precedenti SIMILARITA

Dettagli

GENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi

GENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi GENOMA EVOLUZIONE CONTENUTO FUNZIONE STRUTTURA Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine Progetti genoma in centinaia di organismi Importante la sintenia tra i genomi The

Dettagli

A W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I

A W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I COME CALCOLARE IL PUNTEIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi che, però, sono le due facce di una stessa medaglia al

Dettagli

BLAST: Basic Local Alignment Search Tool

BLAST: Basic Local Alignment Search Tool BLAST: Basic Local Alignment Search Tool 1 Outline della lezione di oggi BLAST Uso pratico Algoritmo Strategie Trovare proteine lontanamente legate: PSI-BLAST 2 Problema con gli algoritmi dinamici Gli

Dettagli

COMPETENZE ABILITÀ/CAPACITÀ CONOSCENZE TEMPI

COMPETENZE ABILITÀ/CAPACITÀ CONOSCENZE TEMPI PROGRAMMAZIONE DISCIPLINARE PROGRAMMAZIONE DISCIPLINARE LICEO SCIENTIFICO ORDINARIO NOME DISCIPLINA SCIENZE NATURALI CLASSE TERZA 1. 1. Competenze: le specifiche competenze di base disciplinari previste

Dettagli

Lezione 6. Lo string matching

Lezione 6. Lo string matching Lezione 6 Lo string matching String matching Date due stringhe (sequenze di caratteri) vogliamo stabilire se sono uguali Nel caso dello string matching, due stringhe sono uguali se... sono uguali ( DNA

Dettagli

Modello computazionale per la predizione di siti di legame per fattori di trascrizione

Modello computazionale per la predizione di siti di legame per fattori di trascrizione Modello computazionale per la predizione di siti di legame per fattori di trascrizione Attività di tirocinio svolto presso il Telethon Institute of Genetics and Medicine Relatori Prof. Giuseppe Trautteur

Dettagli

Programmazione dinamica

Programmazione dinamica rogrammazione dinamica Fornisce l allineamento ottimale tra due sequenze semplici variazioni dell algoritmo producono allineamenti globali o locali l allineamento calcolato dipende dalla scelta di alcuni

Dettagli

Interazioni proteina-dna

Interazioni proteina-dna Interazioni proteina-dna 1) Proteine che legano la doppia elica del DNA in maniera non sequenza-specifica: histone-like proteins (HU protein) 2) Proteine che legano strutture particolari del DNA: - single

Dettagli

Database di sequenze. Dati di sequenza. Caratteristiche dei dati della biologia molecolare. I dati ed i problemi della bioinformatica

Database di sequenze. Dati di sequenza. Caratteristiche dei dati della biologia molecolare. I dati ed i problemi della bioinformatica I dati ed i problemi della bioinformatica Giorgio Valentini DSI Università degli Studi di Milano 1 Caratteristiche dei dati della biologia molecolare Diverse tipologie di dati bio-molecolari Per ogni tipo

Dettagli

Ottimizzazione del protocollo bioinformatico per l annotazione di geni codificanti proteine in genomi complessi. Marin Vargas, Sergio Paul

Ottimizzazione del protocollo bioinformatico per l annotazione di geni codificanti proteine in genomi complessi. Marin Vargas, Sergio Paul Ottimizzazione del protocollo bioinformatico per l annotazione di geni codificanti proteine in genomi complessi Marin Vargas, Sergio Paul 2012 Con l avvento del sequenziamento NGS a costi sempre più contenuti,

Dettagli

MODELLO SCHEDA INSEGNAMENTO. II II Luigi Cerulo

MODELLO SCHEDA INSEGNAMENTO. II II Luigi Cerulo Corso di L/LM/LMCU Denominazione insegnamento: MODELLO SCHEDA INSEGNAMENTO Numero di Crediti: 6 Anno: Semestre: Docente Titolare: Scienze e Tecnologie Genetiche Bioinformatica II II Luigi Cerulo Dottorandi/assegnisti

Dettagli

Allineamenti di sequenze: concetti e algoritmi

Allineamenti di sequenze: concetti e algoritmi Allineamenti di sequenze: concetti e algoritmi 1 globine: a- b- mioglobina Precoce esempio di allineamento di sequenza: globine (1961) H.C. Watson and J.C. Kendrew, Comparison Between the Amino-Acid Sequences

Dettagli

Come si sceglie l algoritmo di allineamento? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione?

Come si sceglie l algoritmo di allineamento? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione? Come si sceglie l algoritmo di allineamento? Domande: le due proteine hanno domini simili? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione? hanno un antenato

Dettagli

Ricerca di outlier. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

Ricerca di outlier. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli. Esercizi ricerche in banche dati

Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli. Esercizi ricerche in banche dati Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli Esercizi ricerche in banche dati 1) Nel romanzo fantasy Jurassic Park di Michael Crichton sulla possibilità di clonare i dinosauri,

Dettagli

Banche Dati proteiche

Banche Dati proteiche Banche Dati proteiche Un altro grande database è UniProt, The Universal Protein Resource (http://www.uniprot.org/) nel quale sono radunate le sequenze proteiche, e le annotazione delle stesse, ottenute

Dettagli

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi

Dettagli

Il Corso sarà tenuto nei giorni di Lunedì, Mercoledì e Venerdì dalle ore 17 alle ore 19.

Il Corso sarà tenuto nei giorni di Lunedì, Mercoledì e Venerdì dalle ore 17 alle ore 19. Docente: Prof. Alfredo Ferro Il Corso sarà tenuto nei giorni di Lunedì, Mercoledì e Venerdì dalle ore 17 alle ore 19. Programma del Corso DATA ARGOMENTO 09/03/2011 Introduzione al corso. Slides Panoramica

Dettagli

Filogenesi molecolare

Filogenesi molecolare Filogenesi molecolare Geni ortologhi e geni paraloghi Geni ortologhi: geni simili riscontrabili in organismi correlati tra loro. Il fenomeno della speciazione porta alla divergenza dei geni e quindi delle

Dettagli

Bioinformatica. :studio dei problemi biologici attraverso le metodologie dell'informatica

Bioinformatica. :studio dei problemi biologici attraverso le metodologie dell'informatica Bioinformatica :studio dei problemi biologici attraverso le metodologie dell'informatica Sinomimi: biochimica computazionale, biologia molecolare computazionale Viceversa: Biocomputazione, algoritmi genetici,

Dettagli

Allineamento di sequenze di DNA e proteine: possibilità, limiti ed interpretazione

Allineamento di sequenze di DNA e proteine: possibilità, limiti ed interpretazione Allineamento di sequenze di DNA e proteine: possibilità, limiti ed interpretazione Database e motori di ricerca consentono il deposito ordinato, la gestione e il recupero delle sequenze di DNA o proteine,

Dettagli

IL GENOMA DELLA CELLULA VEGETALE

IL GENOMA DELLA CELLULA VEGETALE IL GENOMA DELLA CELLULA VEGETALE I GENOMI DELLE CELLULE VEGETALI Genoma nucleare Geni per il funzionamento globale della cellula vegetale Condivisi o specifici per la cellula vegetale Genoma plastidiale

Dettagli

Applicazione della biologia molecolare nella valutazione del benessere del cavallo

Applicazione della biologia molecolare nella valutazione del benessere del cavallo UNIVERSITA DEGLI STUDI DI PERUGIA FACOLTA DI MEDICINA VETERINARIA Centro di Studio del Cavallo Sportivo Applicazione della biologia molecolare nella valutazione del benessere del cavallo Andrea Verini

Dettagli

Lezione 5. Cambiamenti evolutivi nelle sequenze nucleotidiche

Lezione 5. Cambiamenti evolutivi nelle sequenze nucleotidiche Lezione 5 Cambiamenti evolutivi nelle sequenze nucleotidiche materiale Graur and Li ch 3 Graur Lectures 16 17 Sostituzioni nucleotidiche Processo base nell evoluzione molecolare Essenziale per comprendere

Dettagli

Materiale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna).

Materiale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna). Materiale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna). Date due o più sequenze, inizialmente potremmo volere: misurarne il grado di similarità;

Dettagli

Regolazione dell espressione genica

Regolazione dell espressione genica Regolazione dell espressione genica definizioni Gene attivato quando viene trascritto in RNA e il suo messaggio tradotto in molecole proteiche specifiche Espressione genica processo complessivo con cui

Dettagli

E POSSIBILE FAR EVOLVERE LE PROTEINE IN LABORATORIO

E POSSIBILE FAR EVOLVERE LE PROTEINE IN LABORATORIO E POSSIBILE FAR EVOLVERE LE PROTEINE IN LABORATORIO EVOLUZIONE GUIDATA PROTEINE CON FUNZIONI OTTIMIZZATE O NUOVE L EVOLUZIONE NATURALE RICHIEDE TEMPO VARIABILITA GENETICA Ricombinazione Mutazione Selezione

Dettagli

La regolazione genica negli eucarioti

La regolazione genica negli eucarioti La regolazione genica negli eucarioti neuroni globuli rossi globulo bianco fibroblasti adipociti Sezione di testicolo Surrene Come mai alcuni geni sono trascritti e tradotti in alcune cellule ma non in

Dettagli

Sintenia e colinearità

Sintenia e colinearità Sintenia e colinearità I genomi degli eucarioti differiscono nel grado in cui i geni rimangono sullo stesso cromosoma nel grado in cui l ordine dei geni viene mantenuto sul cromosoma sintenia colinearità

Dettagli

Genomica Evoluzione e cambiamenti dei genomi. Dott.ssa Inga Prokopenko

Genomica Evoluzione e cambiamenti dei genomi. Dott.ssa Inga Prokopenko Genomica Evoluzione e cambiamenti dei genomi Dott.ssa Inga Prokopenko Sistematica in biologia La varietà degli organismi viventi richiede organizzaione delle nostre osservazioni Tassonomia in biologia

Dettagli

Informatica e biotecnologie II parte

Informatica e biotecnologie II parte Informatica e biotecnologie II parte Analisi di sequenze: allineamenti CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC CGAAATCGCATCAGCATACGATCGCATGC Bioinformatica La Bioinformatica è una disciplina

Dettagli

La chimica della vita

La chimica della vita La chimica della vita Ogni organismo vivente è una macchina sofisticata, risultato di un complesso insieme di reazioni chimiche. La costruzione e il funzionamento di questa macchina si devono all'esistenza

Dettagli

Indice generale. Nozioni fondamentali. Prefazione XIII

Indice generale. Nozioni fondamentali. Prefazione XIII Prefazione XIII A Nozioni fondamentali CAPITOLO 1 La biologia essenziale 3 1.1 Genomi, genomica e avvento della Bioinformatica 3 1.2 Genoma dei procarioti 5 1.2.1 Struttura e dimensioni 5 1.2.2 Proprietà

Dettagli

La distribuzione dei veri e falsi positivi la ricerca della giusta soglia

La distribuzione dei veri e falsi positivi la ricerca della giusta soglia La distribuzione dei veri e falsi positivi la ricerca della giusta soglia BLAST Blast (Basic Local Aligment Search Tool) è un programma che cerca similarità locali utilizzando l algoritmo di Altschul et

Dettagli

DOGMA CENTRALE DELLA BIOLOGIA. Secondo il dogma centrale della biologia, il DNA dirige la. sintesi del RNA che a sua volta guida la sintesi delle

DOGMA CENTRALE DELLA BIOLOGIA. Secondo il dogma centrale della biologia, il DNA dirige la. sintesi del RNA che a sua volta guida la sintesi delle DOGMA CENTRALE DELLA BIOLOGIA Secondo il dogma centrale della biologia, il DNA dirige la sintesi del RNA che a sua volta guida la sintesi delle proteine. Tuttavia il flusso unidirezionale di informazioni

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego Riconoscimento e recupero dell informazione per bioinformatica Clustering: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizione

Dettagli

LA BIOLOGIA MOLECOLARE E UNA BRANCA DELLA BIOLOGIA CHE STUDIA LE BASI MOLECOLARI DELLE FUNZIONI BIOLOGICHE, PONENDO UNA PARTICOLARE ATTENZIONE A QUEI

LA BIOLOGIA MOLECOLARE E UNA BRANCA DELLA BIOLOGIA CHE STUDIA LE BASI MOLECOLARI DELLE FUNZIONI BIOLOGICHE, PONENDO UNA PARTICOLARE ATTENZIONE A QUEI CONCETTI DI BASE LA BIOLOGIA MOLECOLARE E UNA BRANCA DELLA BIOLOGIA CHE STUDIA LE BASI MOLECOLARI DELLE FUNZIONI BIOLOGICHE, PONENDO UNA PARTICOLARE ATTENZIONE A QUEI PROCESSI CHE COINVOLGONO GLI ACIDI

Dettagli

Pattern recognition. III Parte. Intelligenza Artificiale - Pattern Recognition 3

Pattern recognition. III Parte. Intelligenza Artificiale - Pattern Recognition 3 Pattern recognition III Parte 1 QUANTIZZAZIONE VETTORIALE Si può pensare come un algoritmo derivato da K-MEANS e da ISODATA. 1.All inizio tutti i vettori sono attribuiti ad un unico cluster. Si calcola

Dettagli

La mappatura dei geni umani. SCOPO conoscere la localizzazione dei geni per identificarne la struttura e la funzione

La mappatura dei geni umani. SCOPO conoscere la localizzazione dei geni per identificarne la struttura e la funzione La mappatura dei geni umani SCOPO conoscere la localizzazione dei geni per identificarne la struttura e la funzione Un grande impulso alla costruzione di mappe genetiche è stato dato da le tecniche della

Dettagli

Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini)

Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini) Esercizio: Ricerca di sequenze in banche dati e allineamento multiplo (adattato da una lezione del Prof. Paiardini) Collegatevi al sito www.ncbi.nlm.nih.gov/blast. Apparirà una pagina nella quale le versioni

Dettagli

Gli rrnas sono gli RNAs più abbondanti nelle cellule. Nelle cellule in attiva proliferazione rappresentano l 80% dell RNA totale

Gli rrnas sono gli RNAs più abbondanti nelle cellule. Nelle cellule in attiva proliferazione rappresentano l 80% dell RNA totale Gli rrnas sono gli RNAs più abbondanti nelle cellule. Nelle cellule in attiva proliferazione rappresentano l 80% dell RNA totale I geni che codificano gli rrna sono presenti in copia multipla nel genoma

Dettagli