PARTE I: Bioinfo Sequenze. a) Allineamenti b) Multiallineamenti c) Alberi filogenetici d) Analisi di sequenze genomiche

Documenti analoghi

Applicazioni biotecnologiche in systems biology

3. Confronto tra due sequenze

Prestazioni CPU Corso di Calcolatori Elettronici A 2007/2008 Sito Web: Prof. G. Quarella prof@quarella.

ISTITUTO COMPRENSIVO MONTEGROTTO TERME SCUOLA PRIMARIA DISCIPLINA: MATEMATICA - CLASSE PRIMA OBIETTIVI DI APPRENDIMENTO

Elementi di Psicometria con Laboratorio di SPSS 1

Lezione 2: Allineamento di sequenze. BLAST e CLUSTALW

PROBABILITA CONDIZIONALE

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

PROBABILITA CONDIZIONALE

MATEMATICA CLASSE PRIMA

Capitolo 13. Interrogare una base di dati

Informatica e biotecnologie II parte

SERVIZIO NAZIONALE DI VALUTAZIONE

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo

Tecniche di analisi multivariata

MINIMI QUADRATI. REGRESSIONE LINEARE

Metodi per la Ricostruzione Filogenetica. Giuliana Allegrucci riproduzione vietata

Siamo così arrivati all aritmetica modulare, ma anche a individuare alcuni aspetti di come funziona l aritmetica del calcolatore come vedremo.

I marcatori molecolari. Dipartimento di Scienze Agronomiche e Genetica Vegetale Agraria Corso di Genetica Agraria Giovanna Attene

Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi

4. Ricerca di sequenze in banche dati e allineamento multiplo

Sistema operativo. Sommario. Sistema operativo...1 Browser...1. Convenzioni adottate

Join in SQL (primo modo) Informatica. Tabella Dipartimento. Interrogazione 4a. Interrogazione 4b. Interrogazione 4a

ALGEBRA DELLE PROPOSIZIONI

Riconoscimento e recupero dell informazione per bioinformatica

AND NON CAP WEIGHTED PORTFOLIO

Probabilità Calcolo combinatorio, probabilità elementare, probabilità condizionata, indipendenza, th delle probabilità totali, legge di Bayes

Excel. A cura di Luigi Labonia. luigi.lab@libero.it

OSSERVAZIONI TEORICHE Lezione n. 4

Analisi dei requisiti e casi d uso

strutture di Proteine

Sia data la rete di fig. 1 costituita da tre resistori,,, e da due generatori indipendenti ideali di corrente ed. Fig. 1

Reti sequenziali sincrone

15 febbraio Soluzione esame di geometria - 12 crediti Ingegneria gestionale - a.a COGNOME... NOME... N. MATRICOLA...

Il genoma dinamico: gli elementi trasponibili

Ipertesti e Internet. Ipertesto. Ipertesto. Prof.ssa E. Gentile. a.a

Capitolo 4 Probabilità

A.S CLASSE PRIMA SCUOLA PRIMARIA D ISTITUTO COMPETENZA CHIAVE EUROPEA DISCIPLINA

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini.

Algoritmi di clustering

GENOMA. c varia da pochi kb nei virus a milioni di kb in piante e animali

Test d ipotesi. Statistica e biometria. D. Bertacchi. Test d ipotesi

Elementi di Psicometria con Laboratorio di SPSS 1

~ Copyright Ripetizionando - All rights reserved ~ STUDIO DI FUNZIONE

Con il termine Sistema operativo si fa riferimento all insieme dei moduli software di un sistema di elaborazione dati dedicati alla sua gestione.

Cluster. Vicino alla temperatura critica gli spin formano grandi gruppi (cluster)

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

Laboratorio di Pedagogia Sperimentale. Indice

Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY.

Scheduling della CPU. Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux

Capitolo 13: L offerta dell impresa e il surplus del produttore

Metodi Computazionali

Entropia. Motivazione. ? Quant è l informazione portata dalla sequenza? Abbiamo una sequenza S di N simboli (campioni audio, pixel, caratteri,...

Banche Dati Secondarie. geni trascritti proteine profili strutture

Automazione Industriale (scheduling+mms) scheduling+mms.

Parte I. Prima Parte

RICLASSIFICAZIONE ECONOMICA DELLO S.P. E DEL C.E.

e-dva - eni-depth Velocity Analysis

1. PRIME PROPRIETÀ 2

Macchine a stati finiti G. MARSELLA UNIVERSITÀ DEL SALENTO

Slide Cerbara parte1 5. Le distribuzioni teoriche

Corso di Matematica per la Chimica

matematica probabilmente

LINGUAGGI DI PROGRAMMAZIONE

Convertitori numerici in Excel

LA CORRELAZIONE LINEARE

Raccomandazione del Parlamento europeo 18/12/2006 CLASSE PRIMA COMPETENZE ABILITÀ CONOSCENZE. Operare con i numeri

La memoria - generalità

Tecniche di riconoscimento statistico

La Metodologia adottata nel Corso

Computazione per l interazione naturale: Modelli dinamici

Programmazione dinamica

15. Antico gioco russo

LABORATORIO DI SISTEMI

CURRICULUM SCUOLA PRIMARIA MATEMATICA

Capitolo 4.2. Analisi tecnica: Fibonacci

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI)

Il file seme o file modello del disegno

Macchine a stati finiti. Sommario. Sommario. M. Favalli. Le macchine a stati si utilizzano per modellare di sistemi fisici caratterizzabili mediante:

Dispensa di database Access

Il sapere tende oggi a caratterizzarsi non più come un insieme di contenuti ma come un insieme di metodi e di strategie per risolvere problemi.

Architettura hardware

Più processori uguale più velocità?

Classificazione. Dispensa per istruttori di primo Livello parte seconda

I quattro ordini di scuola a confronto Elisabetta Malaguti

Cos è l ISC (Indicatore Sintetico del Conto Corrente) e cosa sono i Profili tipo d utilizzo

Ricerca di outlier. Ricerca di Anomalie/Outlier

Tecniche di riconoscimento statistico

Nuova funzione di ricerca del sito WIKA.

Valutazione delle Prestazioni. Valutazione delle Prestazioni. Architetture dei Calcolatori (Lettere. Tempo di risposta e throughput

La memoria centrale (RAM)

I sistemi di numerazione

Abilità Informatiche A.A. 2010/2011 Lezione 9: Query Maschere Report. Facoltà di Lingue e Letterature Straniere

Circuiti amplificatori

C. P. U. MEMORIA CENTRALE

(a cura di Francesca Godioli)

( x) ( x) 0. Equazioni irrazionali

Cenni su algoritmi, diagrammi di flusso, strutture di controllo

LA GENETICA: DNA e RNA LA GENETICA. DNA e RNA. Prof. Daniele Verri

Transcript:

PARTE I: Bioinfo Sequenze a) Allineamenti b) Multiallineamenti c) Alberi filogenetici d) Analisi di sequenze genomiche

Distanza di Hamming Su stringhe binarie di uguale lunghezza. S= 010011011101011100 T= 010111000110011000 ----------------------------- H(S,T)= 1 11 11 1 = 6 Utile per quantificare il rumore di trasmissione NON molto utile in biologia necessità dei gap

Edit distance distanza algoritmica Determinare lo script di minima lunghezza che, iterando poche operazioni elementari, edita la stringa T a partire dalla stringa S Ogni operazione ha un costo ricerca del costo minimo globale Operazioni elementari: E(a,a) conservazione del carattere, di solito costo = 0; E(a,b) sostituzione del carattere, possibili costi differenziati a seconda dei caratteri a e b; E(a, _) costo dell inserzione di gap nella stringa T; E(_, a) costo dell inserzione di gap nella stringa S; di solito E(a, _) = E(_, a).

Nel contesto generale Allineamenti a coppie Allineamenti multipli Estrazione di sottosequenze comuni Ricostruzione di filogenesi

Nell allineamento Allineare quale allineamento considerare quale sistema di punteggio adottare quale algoritmo usare per trovare un buon allineamento Valutare la significativita` quale test statistico impiegare

Assegnazione di punteggi Sistema a log-odds: punteggi positivi per identita` o sostituzioni compatibili punteggi negativi per sostituzioni incompatibili Gap (inserzioni & delezioni) punteggi negativi

biological remarks additivita` --> indipendenza dei loci buona per DNA e proteine pessima per RNA a causa delle interazioni long-range costo dei gap indipendente dal contenuto (ma in realta` piu` probabili nei tratti idrofilici) problema della dipendenza dalla lunghezza

numericamente probabilita` di sostituzione --> matrici di sostituzione PAM, Percent Accepted Mutation (Dayhoff) BLOSUM, Block Substitution Matrix Gap apertura allungamento

Problema di computabilità Quanti casi considerare nell allineamento di 2 sequenze lunghe n? senza gap: 1 solo caso con gap: 2n ( 2n)! 2 2n = n ( n!) 2 2π n

Algoritmi Esatti Needelman-Wunsch (allineamento globale) Smith-Waterman (allineamento locale) Euristici Fasta (Pearson & Lipman) Blast (Altschul et al.)

Il dot-plot Il dot-plot permette di individuare: -Identita -Duplicazioni -Inversioni -Palindromi

Fasta (Pearson & Lipman)

Blast (Altschul et al.)

Significativita degli allineamenti Punteggio Z: dove S = punteggio dell'allineamento Z S S = S = punteggio medio σ S σ S = variazione standard Probabilita' P : P= f( Z) Attenzione: f NON e' Normale!! Espettazione E : E = PN dove N indica la dimensione del database

Allineamenti multipli passare da allineamento a coppie ad allineamenti a gruppi concetto di profilo --> caratterizzazione topologica allineamenti: sequenza-sequenza sequenza-profilo profilo-profilo

ClustalW Thompson, Higgins & Gibson, 1994 tre passi fondamentali: costruzione di una matrice distanza valutata su tutte le coppie di sequenze costruzione di un albero base mediante il metodo del neighbor-joining (nj) clustering allineamento progressivo sui nodi in ordine decrescente di similarita`

il programma ClustalW disponibile come servizio on-line allo EBI disponibile come programma autonomo su molte piattaforme output sensibile ai parametri stabiliti dall utente.

due problemi generali: evoluzione temporale delle sequenze (metodi per collegare similarita` tra stringhe e distanza evolutiva) clustering (metodi e applicazioni)

Alberi filogenetici

Le parti dell albero Foglie: specie attuali problemi nella definizione di specie nodi: specie ancestrali quante metterne (numerical taxonomy) dove metterne (topologia) quale clustering usare (distanza)

Quale filogenesi? Per caratteristiche matrice degli stati per distanze matrice distanza

Usando le caratteristiche Dati non ordinati (qualitativi) dati ordinati (cladistici) dati diretti (polari) determinazione a priori dell ancestrale e del derivato

La filogenia perfetta Filogenia perfetta = per ogni stato s di un carattere C, l insieme degli oggetti che mostrano il carattere C nello stato s devono formare un sotto-albero il cui ramo e deve esprimere una transizione da un qualche stato w allo stato s. Data una matrice degli stati, esiste sempre un albero di filogenia perfetta?

problemi Reversals convergenze o ambedue biologicamente rilevanti ma difficilmente trattabili

Usando le distanze Proprietà della distanza additività delle distanze sull albero: la distanza tra due foglie misurata sull albero deve essere uguale alla distanza tra le foglie data nella matrice incertezza nella distanza: alberi ultrametrici

Metodi di clustering Come raggruppare dati affini in modo progressivo? Clustering gerarchico Neighbor-joining UPGMA (Unweighted Pair Group Method with Arithmetic mean) Massima Parsimonia Massima verosimiglianza Problemi comuni ai clustering: dipendenza dal metodo di generazione (concetto di bootstrapping)

Confronto tra filogenie Comparazioni di alberi, sottoalberi e distanze tra diverse ricostruzioni di filogenie Quale e il clock molecolare opportuno??

Analisi di sequenze genomiche

Propagazione delle mutazioni: le catene di Markov finite Metodo probabilistico Concetto di sistema a n stati e probabilita di transizione Costanza della probabilita di transizione (x(t) e funzione del solo x(t-1)) Matrice di transizione Calcolo dell evoluzione del sistema

Matrici di transizione Sistema a n stati s: Matrice di transizione: n n elementi p : i, j p = Ps ( ( t+ 1) s( t)) i, j j i i Stati assorbenti: quelli che bloccano l evoluzione del sistema una volta che questo ci entra: Ps ( ( t+ 1) s()) t = 1 Stati riflettenti: quelli che rimandano il sistema in altri stati Quando esiste un ciclo chiuso di stati riflettenti si crea un circuito ergodico i i

La formula di Bayes Detta anche probabilita a posteriori: se B e una possibile causa di un effetto A osservabile, la formula di Bayes mi dice quale e la causa piu probabile che ha scatenato quell effetto Dalla formula della probabilita di due eventi A e B abbiamo: P( A& B) = PAPB ( ) ( A) = PBPA ( ) ( B) Da cui, ricavando P(B A) otteniamo la formula di Bayes: PB ( A) = P( BPA ) ( B) PA ( )

Hidden Markov Models (HMM) Approccio di statistica bayesiana, ideato negli anni 60 ma applicato alla bioinformatica dagli anni 90. Il termine hidden (=nascosto) si riferisce al fatto che gli stati del sistema non sono direttamente osservabili ma lo sono le azioni che essi esplicano. Osservando le azioni del sistema, quindi, si sfrutta una procedura inferenziale di tipo bayesiano per determinare quale sia lo stato piu probabilmente responsabile dell attivita del sistema.

HMM / 2 Esempio pratico: un volume e stato scritto a piu mani, ma non si sa quale autore abbia scritto quale capitolo. Il nostro osservabile e il testo, gli stati del sistema corrispondono ai diversi autori. Se abbiamo esempi di scrittura dei vari autori possiamo definire lo stile di ciascun autore (parole utilizzate prevalentemente, tipo di costruzione della frase, ecc.). Su questa base, l approccio bayesiano consiste nell inferire qual e l autore (=causa) piu probabile per quel determinato testo (=effetto).

HMM /3 Definire quanti sono i possibili stati del sistema e quali azioni determinano Metodi adattativi: lasciare scegliere al sistema se creare nuovi stati sulla base di soglie di probabilita di attribuzione predefinite

HMM /4 Applicazioni biologiche: Predizione di sequenze coding (il sistema e il DNA genomico e gli stati sono due: coding e non-coding, ciascuno con associata una probabilita di impiego delle basi) Predizione di segmenti transmembrana in proteine di membrana Predizione di sequenze regolatrici della trascrizione Molteplici altri ambiti

Analisi di sequenze genomiche Forte differenza tra genomi procarioti (strutturalmente piu semplici) e eucarioti (molto piu complicati) Presenza, nei genomi eucarioti, di grandi quantita di elementi difficilmente classificabili: pseudogeni, elementi esogeni (e.g. trasposoni) sequenze ripetute di vario significato funzionale, ecc.

Il reverse engineering Consider the 3.2 gigabytes of a human genome as equivalent to 3.2 gigabytes of files on the mass-storage device of some computer system of unknown design. Obtaining the sequence is equivalent to obtaining an image of the contents of that mass-storage device. Understanding the sequence is equivalent to reverse engineering that unknown computer system (both the hardware and the 3.2 gigabytes of software) all the way back to a full set of design and maintenance specifications. Reverse engineering the sequence is complicated by the fact that the resulting image of the mass-storage device will not be a file-by-file copy, but rather a streaming dump of the bytes in the order they were entered into the device. Furthermore, the files are known to be fragmented. In addition, some of the device contains erased files or other garbage. Once the garbage has been recognized and discarded and the fragmented files reassembled, the reverse engineering of the codes can be undertaken with only a partial, and sometimes incorrect, understanding of the CPU on which the codes run. In fact, deducing the structure and function of the CPU is part of the project, since some of the 3.2 gigabytes are the binary specifications for the computer-assisted-manufacturing process that fabricates the CPU. In addition, one must also consider that the huge database also contains code generated from the result of literally millions of maintenance revisions performed by the worst possible set of kludge-using, spaghetti-coding, opportunistic hackers who delight in clever tricks like writing self-modifying code and relying upon undocumented system quirks. Robbins, R. J. Challenges in the Human genome project, IEEE Engineering in Medicine and Biology, 11, 25 34 (1992)

Analisi di sequenze genomiche: un primo approccio Studiare l andamento dell entropia: Regioni ad elevata complessita (= con alto valore di entropia, solitamente coding o collegate alle coding) Regioni a bassa complessita (= con basso valore di entropia, solitamente non-coding ma di significato funzionale non del tutto chiaro. Identificate correlazioni long-range.)

HMM e individuazione delle sequenze coding Piu fini del semplice calcolo entropico Nella predizione di sequenze coding rappresentano il motore dei seguenti metodi (tra i molti altri): Glimmer (genomi procarioti) GeneFinder e GeneHunter (genoma umano)

Predizione di ORF Una volta predetta una regione come coding, si generano le 6 possibili ORF e si cercano match di queste con banche dati proteiche: se un match viene significativo si prende quella come proteina putativa (classificazione: similar to o putative protein ) Attenzione ai possibili splicing alternativi!

Disegno di primer per PCR Combinazione di metodi di multiallineamento e analisi di sequenze genomiche Per disegnare primer per verificare la presenza di un gene in organismo a genoma non noto occorre, in generale: Scaricare le sequenze genomiche del gene in studio in organismi affini Multiallinearle ed estrarre le zone conservate (lunghezza da 10 a 30 bp) Selezionare una coppia di tratti conservati tale che: La loro posizione sia piu possibile vicina agli estremi del gene da amplificare, ma non distino oltre 1000 bp. La temperatura di appaiamento (Tm) sia la stessa (o quasi) per entrambi La probabilita che i due primer si appaino tra loro sia bassa Una volta scelta una coppia di primer occorre cercare le loro sequenze sui genomi affini in modo da individuare possibili siti di attacco erroneo

Ricerca di elementi regolatori nel genoma Fondamentale per l avanzamento della genomica funzionale Ricerca per sequenze consenso: dal database di fattori di trascrizione e loro siti di attacco (TFBS) si estraggono le sequenze note e le si cerca nella regione upstream del gene in studio Per motivi strutturati

Tra coding e non-coding: elementi regolatori La sequenza a -35 permette di assumere conformazioni strutturali peculiari

Ripetizioni invertite, palindromi, TFBS ed elementi di regolazione

Cercando motivi strutturati SMILE: structured motifs inference localization and evaluation (sviluppato da Nadia Pisanti e gruppo di Marie Sagot, istituto Pasteur, estensione dell algoritmo presentato in: Marsan L., Sagot M.-F., Algorithms for extracting structured motifs using a suffix tree with application to promoter and regulatory site consensus identification, J. Comp. Biol., 7, 345-362, 2002) Motivi strutturati, TFBSs, palindromie e logiche combinatorie (nell uomo: 1850 TF che legano in modo combinatorio a molteplici TFBS)

SMILE / esempio di applicazione ngaannttcnngaan HSE ACA_TGT_ACA GTT_AAC_GTT Motif Score WGATAR ATG_CAT_ATG Initation of ACA_TGT_ACA 1.01 ATC_GAT_ATC translation ATG_CAT_ATG GAA_TTC_GAA 0.70 (HSE motif) GTT_AAC_GTT 0.70 ATG ATC_GAT_ATCInitation 0.55 hsp70 * of TGA_TCA_TGA GATA transcription 0.44 hsp70 div1 CTA_TAG_CTA 0.38 TAG_CTA_TAG 0.34 hsp70 div2 TTG_CAA_TTG 0.25 CAA_TTG_CAA 0.22 hsp70 div3 AGA_TCT_AGA 0.22 TCT_AGA_TCT 0.21 hsp70 div4 GAA_TTC_GAA 0.12 TTC_GAA_TTC 0.11 CTT_AAG_CTT 0.10 5 3 * Gene characterized by experimental analysis Fig. 2