PARTE I: Bioinfo Sequenze a) Allineamenti b) Multiallineamenti c) Alberi filogenetici d) Analisi di sequenze genomiche
Distanza di Hamming Su stringhe binarie di uguale lunghezza. S= 010011011101011100 T= 010111000110011000 ----------------------------- H(S,T)= 1 11 11 1 = 6 Utile per quantificare il rumore di trasmissione NON molto utile in biologia necessità dei gap
Edit distance distanza algoritmica Determinare lo script di minima lunghezza che, iterando poche operazioni elementari, edita la stringa T a partire dalla stringa S Ogni operazione ha un costo ricerca del costo minimo globale Operazioni elementari: E(a,a) conservazione del carattere, di solito costo = 0; E(a,b) sostituzione del carattere, possibili costi differenziati a seconda dei caratteri a e b; E(a, _) costo dell inserzione di gap nella stringa T; E(_, a) costo dell inserzione di gap nella stringa S; di solito E(a, _) = E(_, a).
Nel contesto generale Allineamenti a coppie Allineamenti multipli Estrazione di sottosequenze comuni Ricostruzione di filogenesi
Nell allineamento Allineare quale allineamento considerare quale sistema di punteggio adottare quale algoritmo usare per trovare un buon allineamento Valutare la significativita` quale test statistico impiegare
Assegnazione di punteggi Sistema a log-odds: punteggi positivi per identita` o sostituzioni compatibili punteggi negativi per sostituzioni incompatibili Gap (inserzioni & delezioni) punteggi negativi
biological remarks additivita` --> indipendenza dei loci buona per DNA e proteine pessima per RNA a causa delle interazioni long-range costo dei gap indipendente dal contenuto (ma in realta` piu` probabili nei tratti idrofilici) problema della dipendenza dalla lunghezza
numericamente probabilita` di sostituzione --> matrici di sostituzione PAM, Percent Accepted Mutation (Dayhoff) BLOSUM, Block Substitution Matrix Gap apertura allungamento
Problema di computabilità Quanti casi considerare nell allineamento di 2 sequenze lunghe n? senza gap: 1 solo caso con gap: 2n ( 2n)! 2 2n = n ( n!) 2 2π n
Algoritmi Esatti Needelman-Wunsch (allineamento globale) Smith-Waterman (allineamento locale) Euristici Fasta (Pearson & Lipman) Blast (Altschul et al.)
Il dot-plot Il dot-plot permette di individuare: -Identita -Duplicazioni -Inversioni -Palindromi
Fasta (Pearson & Lipman)
Blast (Altschul et al.)
Significativita degli allineamenti Punteggio Z: dove S = punteggio dell'allineamento Z S S = S = punteggio medio σ S σ S = variazione standard Probabilita' P : P= f( Z) Attenzione: f NON e' Normale!! Espettazione E : E = PN dove N indica la dimensione del database
Allineamenti multipli passare da allineamento a coppie ad allineamenti a gruppi concetto di profilo --> caratterizzazione topologica allineamenti: sequenza-sequenza sequenza-profilo profilo-profilo
ClustalW Thompson, Higgins & Gibson, 1994 tre passi fondamentali: costruzione di una matrice distanza valutata su tutte le coppie di sequenze costruzione di un albero base mediante il metodo del neighbor-joining (nj) clustering allineamento progressivo sui nodi in ordine decrescente di similarita`
il programma ClustalW disponibile come servizio on-line allo EBI disponibile come programma autonomo su molte piattaforme output sensibile ai parametri stabiliti dall utente.
due problemi generali: evoluzione temporale delle sequenze (metodi per collegare similarita` tra stringhe e distanza evolutiva) clustering (metodi e applicazioni)
Alberi filogenetici
Le parti dell albero Foglie: specie attuali problemi nella definizione di specie nodi: specie ancestrali quante metterne (numerical taxonomy) dove metterne (topologia) quale clustering usare (distanza)
Quale filogenesi? Per caratteristiche matrice degli stati per distanze matrice distanza
Usando le caratteristiche Dati non ordinati (qualitativi) dati ordinati (cladistici) dati diretti (polari) determinazione a priori dell ancestrale e del derivato
La filogenia perfetta Filogenia perfetta = per ogni stato s di un carattere C, l insieme degli oggetti che mostrano il carattere C nello stato s devono formare un sotto-albero il cui ramo e deve esprimere una transizione da un qualche stato w allo stato s. Data una matrice degli stati, esiste sempre un albero di filogenia perfetta?
problemi Reversals convergenze o ambedue biologicamente rilevanti ma difficilmente trattabili
Usando le distanze Proprietà della distanza additività delle distanze sull albero: la distanza tra due foglie misurata sull albero deve essere uguale alla distanza tra le foglie data nella matrice incertezza nella distanza: alberi ultrametrici
Metodi di clustering Come raggruppare dati affini in modo progressivo? Clustering gerarchico Neighbor-joining UPGMA (Unweighted Pair Group Method with Arithmetic mean) Massima Parsimonia Massima verosimiglianza Problemi comuni ai clustering: dipendenza dal metodo di generazione (concetto di bootstrapping)
Confronto tra filogenie Comparazioni di alberi, sottoalberi e distanze tra diverse ricostruzioni di filogenie Quale e il clock molecolare opportuno??
Analisi di sequenze genomiche
Propagazione delle mutazioni: le catene di Markov finite Metodo probabilistico Concetto di sistema a n stati e probabilita di transizione Costanza della probabilita di transizione (x(t) e funzione del solo x(t-1)) Matrice di transizione Calcolo dell evoluzione del sistema
Matrici di transizione Sistema a n stati s: Matrice di transizione: n n elementi p : i, j p = Ps ( ( t+ 1) s( t)) i, j j i i Stati assorbenti: quelli che bloccano l evoluzione del sistema una volta che questo ci entra: Ps ( ( t+ 1) s()) t = 1 Stati riflettenti: quelli che rimandano il sistema in altri stati Quando esiste un ciclo chiuso di stati riflettenti si crea un circuito ergodico i i
La formula di Bayes Detta anche probabilita a posteriori: se B e una possibile causa di un effetto A osservabile, la formula di Bayes mi dice quale e la causa piu probabile che ha scatenato quell effetto Dalla formula della probabilita di due eventi A e B abbiamo: P( A& B) = PAPB ( ) ( A) = PBPA ( ) ( B) Da cui, ricavando P(B A) otteniamo la formula di Bayes: PB ( A) = P( BPA ) ( B) PA ( )
Hidden Markov Models (HMM) Approccio di statistica bayesiana, ideato negli anni 60 ma applicato alla bioinformatica dagli anni 90. Il termine hidden (=nascosto) si riferisce al fatto che gli stati del sistema non sono direttamente osservabili ma lo sono le azioni che essi esplicano. Osservando le azioni del sistema, quindi, si sfrutta una procedura inferenziale di tipo bayesiano per determinare quale sia lo stato piu probabilmente responsabile dell attivita del sistema.
HMM / 2 Esempio pratico: un volume e stato scritto a piu mani, ma non si sa quale autore abbia scritto quale capitolo. Il nostro osservabile e il testo, gli stati del sistema corrispondono ai diversi autori. Se abbiamo esempi di scrittura dei vari autori possiamo definire lo stile di ciascun autore (parole utilizzate prevalentemente, tipo di costruzione della frase, ecc.). Su questa base, l approccio bayesiano consiste nell inferire qual e l autore (=causa) piu probabile per quel determinato testo (=effetto).
HMM /3 Definire quanti sono i possibili stati del sistema e quali azioni determinano Metodi adattativi: lasciare scegliere al sistema se creare nuovi stati sulla base di soglie di probabilita di attribuzione predefinite
HMM /4 Applicazioni biologiche: Predizione di sequenze coding (il sistema e il DNA genomico e gli stati sono due: coding e non-coding, ciascuno con associata una probabilita di impiego delle basi) Predizione di segmenti transmembrana in proteine di membrana Predizione di sequenze regolatrici della trascrizione Molteplici altri ambiti
Analisi di sequenze genomiche Forte differenza tra genomi procarioti (strutturalmente piu semplici) e eucarioti (molto piu complicati) Presenza, nei genomi eucarioti, di grandi quantita di elementi difficilmente classificabili: pseudogeni, elementi esogeni (e.g. trasposoni) sequenze ripetute di vario significato funzionale, ecc.
Il reverse engineering Consider the 3.2 gigabytes of a human genome as equivalent to 3.2 gigabytes of files on the mass-storage device of some computer system of unknown design. Obtaining the sequence is equivalent to obtaining an image of the contents of that mass-storage device. Understanding the sequence is equivalent to reverse engineering that unknown computer system (both the hardware and the 3.2 gigabytes of software) all the way back to a full set of design and maintenance specifications. Reverse engineering the sequence is complicated by the fact that the resulting image of the mass-storage device will not be a file-by-file copy, but rather a streaming dump of the bytes in the order they were entered into the device. Furthermore, the files are known to be fragmented. In addition, some of the device contains erased files or other garbage. Once the garbage has been recognized and discarded and the fragmented files reassembled, the reverse engineering of the codes can be undertaken with only a partial, and sometimes incorrect, understanding of the CPU on which the codes run. In fact, deducing the structure and function of the CPU is part of the project, since some of the 3.2 gigabytes are the binary specifications for the computer-assisted-manufacturing process that fabricates the CPU. In addition, one must also consider that the huge database also contains code generated from the result of literally millions of maintenance revisions performed by the worst possible set of kludge-using, spaghetti-coding, opportunistic hackers who delight in clever tricks like writing self-modifying code and relying upon undocumented system quirks. Robbins, R. J. Challenges in the Human genome project, IEEE Engineering in Medicine and Biology, 11, 25 34 (1992)
Analisi di sequenze genomiche: un primo approccio Studiare l andamento dell entropia: Regioni ad elevata complessita (= con alto valore di entropia, solitamente coding o collegate alle coding) Regioni a bassa complessita (= con basso valore di entropia, solitamente non-coding ma di significato funzionale non del tutto chiaro. Identificate correlazioni long-range.)
HMM e individuazione delle sequenze coding Piu fini del semplice calcolo entropico Nella predizione di sequenze coding rappresentano il motore dei seguenti metodi (tra i molti altri): Glimmer (genomi procarioti) GeneFinder e GeneHunter (genoma umano)
Predizione di ORF Una volta predetta una regione come coding, si generano le 6 possibili ORF e si cercano match di queste con banche dati proteiche: se un match viene significativo si prende quella come proteina putativa (classificazione: similar to o putative protein ) Attenzione ai possibili splicing alternativi!
Disegno di primer per PCR Combinazione di metodi di multiallineamento e analisi di sequenze genomiche Per disegnare primer per verificare la presenza di un gene in organismo a genoma non noto occorre, in generale: Scaricare le sequenze genomiche del gene in studio in organismi affini Multiallinearle ed estrarre le zone conservate (lunghezza da 10 a 30 bp) Selezionare una coppia di tratti conservati tale che: La loro posizione sia piu possibile vicina agli estremi del gene da amplificare, ma non distino oltre 1000 bp. La temperatura di appaiamento (Tm) sia la stessa (o quasi) per entrambi La probabilita che i due primer si appaino tra loro sia bassa Una volta scelta una coppia di primer occorre cercare le loro sequenze sui genomi affini in modo da individuare possibili siti di attacco erroneo
Ricerca di elementi regolatori nel genoma Fondamentale per l avanzamento della genomica funzionale Ricerca per sequenze consenso: dal database di fattori di trascrizione e loro siti di attacco (TFBS) si estraggono le sequenze note e le si cerca nella regione upstream del gene in studio Per motivi strutturati
Tra coding e non-coding: elementi regolatori La sequenza a -35 permette di assumere conformazioni strutturali peculiari
Ripetizioni invertite, palindromi, TFBS ed elementi di regolazione
Cercando motivi strutturati SMILE: structured motifs inference localization and evaluation (sviluppato da Nadia Pisanti e gruppo di Marie Sagot, istituto Pasteur, estensione dell algoritmo presentato in: Marsan L., Sagot M.-F., Algorithms for extracting structured motifs using a suffix tree with application to promoter and regulatory site consensus identification, J. Comp. Biol., 7, 345-362, 2002) Motivi strutturati, TFBSs, palindromie e logiche combinatorie (nell uomo: 1850 TF che legano in modo combinatorio a molteplici TFBS)
SMILE / esempio di applicazione ngaannttcnngaan HSE ACA_TGT_ACA GTT_AAC_GTT Motif Score WGATAR ATG_CAT_ATG Initation of ACA_TGT_ACA 1.01 ATC_GAT_ATC translation ATG_CAT_ATG GAA_TTC_GAA 0.70 (HSE motif) GTT_AAC_GTT 0.70 ATG ATC_GAT_ATCInitation 0.55 hsp70 * of TGA_TCA_TGA GATA transcription 0.44 hsp70 div1 CTA_TAG_CTA 0.38 TAG_CTA_TAG 0.34 hsp70 div2 TTG_CAA_TTG 0.25 CAA_TTG_CAA 0.22 hsp70 div3 AGA_TCT_AGA 0.22 TCT_AGA_TCT 0.21 hsp70 div4 GAA_TTC_GAA 0.12 TTC_GAA_TTC 0.11 CTT_AAG_CTT 0.10 5 3 * Gene characterized by experimental analysis Fig. 2