Confronto di sequenze: allineamento

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Confronto di sequenze: allineamento"

Transcript

1 Confronto di sequenze: allineamento TTCCCCTTCCTC TCCTTT-CT ** * *** ** ***** 1/11/15

2 Omologia Omologia e e Somiglianza Somiglianza Reeck et al, "Homology" in Proteins and Nucleic cids. Cell (1987) Quando si confrontano due sequenze o strutture si usano spesso indifferentemente i termini somiglianza o omologia per indicare che esiste un rapporto di vicinanza tra gli oggetti del confronto. Tuttavia i due termini si riferiscono ad aspetti diversi del confronto. Somiglianza Omologia L omologia è una proprietà qualitativa del confronto La somiglianza è una proprietà quantitativa del confronto 1/11/15

3 Errori Errori comuni comuni nel nel confronto confronto di di sequenza sequenza La sequenza X ha l 8% di omologia con la sequenza Y La sequenza X ha una omologia significativa con la sequenza Y La sequenza X ha l 8% di residui identici alla sequenza Y La sequenza X ha 16 residui su 2 identici alla sequenza Y Le sequenze X e Y hanno una somiglianza dell 8% maize gene, encoding a NDPH-binding enzyme highly homologous to Petrucco, S., Percudani, R., and Ottonello, S. Plant Cell, /11/15

4 Le Le sequenze sequenze sono sono confrontate confrontate mediante mediante allineamento allineamento Sequenze allineate Osservazione TTCCCCTTCCTC TCCTTT-CT ** * *** ** ***** Sequenza ancestrale TCCCCTTTCCTC? Ipotesi TTCCCCTTCCTC TCCTTT-CT 1/11/15

5 Soluzione grafica: dot plots ibbs and McInttyre, 197 Una sequenza nella riga superiore Una sequenza nella colonna sinistra Inserire un pallino (dot) ogni volta che si incontrano due lettere uguali tra righe e colonne Unire le diagonali per identificare le aree di sovrapposizione C T C C T T gaps C T C C C C I gaps sono rappresentati da interruzioni verticali (nella sequenza della riga) o orizzontali (nella sequenza della colonna)

6 Dot plots: filtraggio Migliora il rapporto segnale/rumore nei dot plots W =1, S = 1 W =11, S = 7 W = 23, S = 15 Una finestra di confronto W Un valore di stringenza S Confrontare due segmenti di lunghezza W tra righe e colonne e inserire un pallino se il numero di match è > di S vanzare di una lettera la finestra W e ripetere il confronto

7 Dot plots: interpretazioni Self dot-plot, alta stringenza Inserzione o delezione Self dot-plot, bassa stringenza Duplicazione in tandem Due sequenze parzialmente simili Inversione

8 Self dot plots: identificazione di ripetizioni Il confronto di una sequenza con se stessa può evidenziare la presenza di regioni ripetute. Le ripetizioni sono evidenti come zone di somiglianza esterne alla diagonale principale Ripetizioni complesse danno un pattern a segmenti Ripetizioni semplici (es. poli) danno un pattern a macchie Pattern caratteristico della ripetizione di due motivi complessi nella proteina FIS2 (fattore di trascrizione) di. thaliana. Luo et al PNS 96:

9 Dot plots: Dotter Programma: Dotter (Sonnhammer & Durbin) Dotter è un programma per il confronto grafico di sequenze che utilizza una scala di grigio dinamica per la stringenza

10 enome dot plot: analisi della sintenia Sintenia := conservazione dell'ordine dei geni sul cromosoma Confronto di due ceppi di Escherichia coli Confronto di due specie di Pyrococcus

11 Limitazioni dei dot plot Si basano sull analisi visiva Non forniscono una misura quantitativa dell allineamento Non permettono di misurare la significatività statistica di un allineamento Per ovviare a queste limitazioni occorre avere una funzione oggettiva per l allineamento

12 llineamento llineamento di di sequenze sequenze biologiche biologiche DN: alfabeto di 4 lettere + gaps TTC C-T Proteine: alfabeto di 2 lettere + gaps SPRRNQ-CTCC NPR-NQSCCC 1/11/15

13 Definizione Definizione di di allineamento allineamento : La sovrapposizione ottimale tra le lettere delle due sequenze senza modificarne l ordine DTE 2 sequenze un sistema di punteggio per le sovrapposizioni un sistema di penalità per i gaps OTTENERE Un appaiamento ottimale che conservi l ordine delle lettere ammettendo l'introduzione di elementi vuoti in modo da produrre un punteggio totale più alto 1/11/15

14 Il Il punteggio punteggio di di un un allineamento allineamento è è la la somma somma del del punteggio punteggio dei dei singoli singoli elementi elementi Sequenze da allineare 1)C 2)C Sequenze allineate Punteggio = 2 C -C Contributi individuali al punteggio C - C Trovare la sovrapposizione ottimale tra sequenze equivale a trovare il massimo valore per l'espressione: Punteggio totale= somiglianze penalità gap 1/11/15

15 Criteri Criteri per per la la somiglianza somiglianza di di nucleotidi nucleotidi e e amninoacidi amninoacidi Nucleotidi: identità CTCCTCTCTCCCT TCT-T-CTCTCCT *** *** ** ******* ** ******** *** minoacidi: identità + somiglianza VLSSDKTNVKWKVHEYELERMFL VLSDKNIKW-KVQDHELERMPL ***:*** *:**** ***: **: ******** * 1/11/15

16 Come Come quantificare quantificare la la somiglianza somiglianza degli degli aminoacidi? aminoacidi? Venn diagram of the proteinogenic amino acids according to their physicochemical properties Difficile stabilire criteri oggettivi per le somiglianze fisico-chimiche degli amino acidi. Non è possibile sapere a priori quali delle varie caratteristiche fisico-chimiche sono più importanti per le proteine 1/11/15

17 Matrici Matrici empiriche empiriche di di somiglianza somiglianza Margaret Dayhoff (1978) 1/11/15

18 Matrici Matrici empiriche empiriche di di somiglianza somiglianza Margaret Dayhoff (1978) Calcolo Calcolodiditutte tuttelelesostituzioni sostituzioniosservate osservatetra traset setdidiproteine proteine altamente altamentesimili simili(identità (identità>85%) >85%) 1/11/15

19 Matrici Matrici empiriche empiriche di di somiglianza somiglianza Margaret Dayhoff (1978) Calcolo Calcolodiditutte tuttelelesostituzioni sostituzioniosservate osservatetra traset setdidiproteine proteine altamente altamentesimili simili(identità (identità>85%) >85%) Costruzione Costruzionedidiuna unamatrice matricedidisostituzione sostituzione( (i,ji,j))con conleleprobabilità probabilità che cheun unaminoacido aminoacidoj jmuti mutiininun unaminoacido aminoacidoi iininuna unaunità unità evolutiva evolutiva(1(1pm PM)) 1/11/15

20 Matrici Matrici empiriche empiriche di di somiglianza somiglianza Margaret Dayhoff (1978) Calcolo Calcolodiditutte tuttelelesostituzioni sostituzioniosservate osservatetra traset setdidiproteine proteine altamente altamentesimili simili(identità (identità>85%) >85%) Costruzione Costruzionedidiuna unamatrice matricedidisostituzione sostituzione( (i,ji,j))con conleleprobabilità probabilità che cheun unaminoacido aminoacidoj jmuti mutiininun unaminoacido aminoacidoi iininuna unaunità unità evolutiva evolutiva(1(1pm PM)) Derivazione Derivazionedelle dellematrici matricididisostituzioni sostituzioniper perdiverse diverseintervalli intervalli evolutivi evolutivitramite tramitemoltiplicazione moltiplicazionedella dellamatrice matriceunitaria unitaria 1/11/15

21 Matrice Matrice PM1 PM1 PM: Una mutazione accettata su 1 residui R N D C R N D C MTRICE. PM 1 Probabilità che un aminoacido di una colonna j sia sostituito da un aminoacido di una riga i in un intervallo evolutivo di una singola mutazione su 1 residui 1/11/15

22 Matrici Matrici della della serie serie PM PM Tutte le matrici della serie sono derivate per moltiplicazione della matrice unitaria (PM1): PM1 X PM1 = PM2 PM3 = 3 sostituzioni su 1 siti (~ 75% identità) PM12 = 12 sostituzioni su 1 siti (~ 4% identità) PM25 = 25 sostituzioni su 1 siti (~ 2% identità) 1/11/15

23 Log-odds Log-odds PM25 PM25 Frequenza osservata sostituzione i j Log lo g o d d s s c o r e Frequenza attesa (Fi x Fj) f(o s s e rv a te )/f(a tte s e ) 5 Le matrici PM attualmente usate sono simmetriche e nella forma log odds. I valori esprimono il rapporto tra le probabilità di sostituzione date dall'evoluzione e le probabilità di sostituzione date dal caso. 1/11/15

24 BLOSUM: BLOSUM: BLOck BLOck SUbstitution SUbstitution Matrix Matrix Henikoff and Henikoff, 1992 Blocchi conservati > 45% identici Blosum45 > 62% identici Blosum62 > 8% identici Blosum8 1/11/15

25 Log-odds Log-odds Blosum62 Blosum62 1/11/15

26 Confronto Confronto Blosum Blosum -- PM PM PM Media score idrofilici = 4 Media score idrofobici =8.1 BLOSUM Media score idrofilici = 5 Media score idrofobici =5.2 1/11/15

27 Matrici per proteine transmembrana 4 L H D P D N M F N Y V P L V P R K N F P T F D S L T Q T Y W I N L D H E S S N F out V L W M YS W W V L T Q F S F V T L S V V L L M T M I M L S W P V I F S L Y F L S L S K II I in R R +3 I N L D N F F P Y L L K F Q S V I S F L I L E C M T W S F R M S S L N 18 D 192 D T F V M III R R +1 V W P L V V L T W I I W F P Y M C H L L V S S P S Y L F T I S M K V L R E N R H Y T H +3 S L S N 25 N M R F V V IV V V F L T W L H N VI H P R F W T T I C M V W I V V L V T P C N S I W L S Y V T L V F S V I C S V V T E R T L E V Y D Y F E L E D D I V K VIII VII L Q D E Y R L Y N P S Y C T IX K L K F V I L I N I E T S D L L Y I S E K I P D 128 W I V H D F I I H L Y F L V V I T 2 W Y Q V L N L D Q S H K Y V N I I F F C F Y S T I L M XI N L F I I P D 2 L V D D L E E E T R L S E X I S D D D T V P K M S S E N N S V E L P E R E K S 12 TbMT1 NH4+ transporter Barbarina et. al

28 Substitution Matrix for transmembrane proteins Jones et al Media score idrofilici (S,T,D,E,Q,H,R,K) = 9.2 Media score idrofobici (M,I,L,V,F,Y,W) = 5.2

29 Matrice Matrice BLOSUM BLOSUM di di sostituzione sostituzione nucleotidica nucleotidica C T C T Per i nucleotidi sono utilizzati valori arbitrari assegnati sulla base dei valori medi delle matrici aminoacidici. Permette di utilizzare gli stessi valori di penalità per i gaps. 1/11/15

30 II valori valori nelle nelle matrici matrici di di sostituzione sostituzione determinano determinano il il punteggio punteggio di di un un allineamento allineamento Score allineamento: 15 Seq1 Seq2 V D S V E S L Score 4 2 C Y C Y Blosum62 1/11/15

31 Scelta Scelta delle delle penalità penalità per per ii gap gap Punteggio totale= somiglianze penalità gap La scelta della penalità risponde alla domanda: Qual'è il guadagno di punteggio necessario per poter inserire un gap? d esempio: se la penalità scelta è di 1 e la matrice usata è la blosum62 un gap sarà inserito vengono sovrapposte: due alanine (punteggio=5) + due proline (punteggio=7) oppure due triptofani (punteggio=11)...wttp......wt-p......wttp......wtp... Penalità gap < 12 Penalità gap > 12 1/11/15

32 Penalità Penalità per per apertura apertura gap gap e e penalità penalità per per allungamento allungamento gap gap La penalità per i gap è dstinta in due termini. 1) Penalità apertura gap 2) Penalità estensione gap (inferiore) Eventi di delezione/inserzione possono interessare interi segmenti di DN Regioni diverse delle sequenze biologiche hanno tolleranza diversa alle inserzioni/delezioni 1/11/15

33 Regioni Regioni diverse diverse delle delle sequenze sequenze hanno hanno tolleranza tolleranza diversa diversa alle alle inserzioni/delezioni inserzioni/delezioni Loop: una o più inserzioni/delezioni tollerate lpha eliche: inserzioni/delezioni difficilmente tollerate 1/11/15

34 Casi Casi critici critici per per la la scelta scelta delle delle penalità penalità per per ii gap gap mrn vs ene: penalità apertura gap alta penalità allungamento ~ mrn ene Frammenti di sequenziamento: penalità apertura gap bassa penalità allungamento alta -C-TTCCCCCTT-TTCCCCCCC-CCTT-CCgCCTTTTTCCCCCCC- 1/11/15

35 Formula Formula generale generale dello dello score score di di un un allineamento allineamento Score = S somiglianze S penalità gap (Sapertura + Sestensione) 1/11/15

36 La La ricerca ricerca combinatoriale combinatoriale dell'allineamento dell'allineamento ottimale ottimale non non è è un un strategia strategia efficiente efficiente I programmi di allineamento non esplorano tutte le combinazioni possibili per trovare la sovrapposizione ottimale Combinazioni possibili = = = = = = = = = = Il numero di combinazioni possibili per sequenze di n*m lunghezza n e m è proporzionale a 2. [O(2n*m)] Questa soluzione avrebbe tempi di calcolo elevatissimi anche per sequenze di lunghezza modesta 1/11/15

37 (lgoritmo) dal matematico arabo l Khworismi LORITMO := Una completa, non ambigua procedura per risolvere un problema in un definito numero di passi. Un algoritmo non lascia nulla di indefinito e non richiede intuizioni per raggiungere lo scopo Esempi di algoritmi: un programma al computer un protocollo sperimentale una ricetta di cucina

38 lgoritmo: Diagramma di flusso che risolve tutti i problemi.html

39 lgoritmi lgoritmi efficienti efficienti per per la la ricerca ricerca di di allineamenti allineamenti ottimali ottimali Per la ricerca dell'allineamento ottimale si usano algoritmi di programmazione dinamica llineamento globale (Needleman and Wunsch, JMB 197) llineamento locale (Smith and Waterman, JMB 1981) Il numero di calcoli per trovare un allineamento con questi algoritmi è proporzionale a n*m. [ O(n*m)] 1/11/15

40 IlIl dotplot dotplot contiene contiene implicitamente implicitamente tutti tutti gli gli allineamenti allineamenti possibili possibili C T C C C T C T C - C C T C C C T C T C T C C C T * * * * * * * * * Il miglior percorso nella matrice dotplot costituisce l'allineamento ottimale 1/11/15

41 L'allineamento L'allineamento può può essere essere scomposto scomposto in in parti parti Seq1 Seq2 W D - F S V Y W E F S L V Y 11 Score Seq1 Seq = 13 W D - F S - V Y W E F S L V Y 11 Score = 14 Il punteggio di un allineamento è la somma del punteggio di una parte dell'allineamento + il punteggio della parte rimanente 1/11/15

42 Calcolo Calcolo del del miglior miglior percorso percorso Milano Roma Napoli Il percorso più breve da a C passando per B è la somma dei percorsi più brevi tra e B e tra B e C 1/11/15

43 Calcolo Calcolo dell'allineamento dell'allineamento con con algoritmo algoritmo di di programmazione programmazione dinamica dinamica llineamento globale: step 1 Inizializzazione Schema di punteggio : match=1 mismatch= gap = P W H E E H E W H E E 1/11/15

44 Calcolo Calcolo dell'allineamento dell'allineamento con con algoritmo algoritmo di di programmazione programmazione dinamica dinamica llineamento globale: step 2 Riempimento L'inserimento del valore M(i,j) richiede i valori: M(i 1,j 1) M(i 1,j) M(i,j 1) P W H E E H E W H E E 1/11/15

45 Calcolo Calcolo dell'allineamento dell'allineamento con con algoritmo algoritmo di di programmazione programmazione dinamica dinamica llineamento globale: step 2 Riempimento H E W H E E P W H E E M(i,j) M(i-1,j-1)+s(xi,yj) = max M(i-1,j) M(i,j-1) s(xi,yj) è il punteggio della coppia di residui i,j Schema di punteggio usato: match=1; mismatch=; gap =; 1/11/15

46 Calcolo Calcolo dell'allineamento dell'allineamento con con algoritmo algoritmo di di programmazione programmazione dinamica dinamica llineamento globale: step 3 Traceback Il percorso a ritroso definisce l'allineamento HEWHE-E P---W-HEE H E W H E E P W H E E /11/15

47 llineamento globale Needleman and Wunsch, JMB 197 Matrice costruita con Blosum62 e penalità per i gap. Ogni movimento in orizzontale o in verticale è penalizzato (penalità = -8). La riga e le colonne aggiunte tengono conto della penalità per i gaps.

48 Vari tipi di allineamento a coppie lobale Locale Es. proteine o sequenze di DN omologhe Es. proteine che condividono un dominio. Un esone rispetto all intero gene ccavallato Es. frammenti di un sequenziamento Ripetuto Es. una sequenza di un promotore rispetto ad una porzione genomica.

49 llineamento accavallato llineamento globale che non penalizza i gap terminali. Il massimo per il traceback è identificato nella riga o nella colonna terminali

50 llineamento locale (SW) Smith & Waterman,JMB 1981 Identifica la miglior sottosequenza in comune tra due sequenze. Il traceback parte dal miglior punteggio (dovunque nella matrice) e si ferma quando si raggiunge lo zero. I valori negativi sono considerati uguali a zero

51 llineamento ripetuto llineamento locale che considera diversi massimi al di sopra di una determinata soglia (T) e diversi traceback. La matrice è modificata in funzione della soglia fissata (in questo caso 2).

52 llineamenti llineamenti globali globali e e allineamenti allineamenti locali locali 1) CTCTTCCTT 2) TTTTTT Un algoritmo di allineamento globale costringe le sequenze a sovrapporsi per l'intera estensione indipendentemente dalla somiglianza. Es: CTCTTCCTT TT---TT---TT Un algoritmo di allineamento locale riporta la sovrapposizione solo per la porzione più somigliante. Es: CTT -TT 1/11/15

53 llineamento globale Vs allineamento locale llineamento locale llineamenti globali possibili

54 llineamenti llineamenti di di sequenze sequenze nucleotidiche nucleotidiche e e aminoacidiche aminoacidiche a) b) UUC UCU UUU CC ** * ** F F * S T : * Somiglianza (Identità) = 55% Somiglianza = 1% llineamento delle stesse sequenze utilizzando le sequenze nucleotidiche codificanti (a) o la traduzione in amino acidi (b) 1/11/15

55 Significatività Significatività di di un un allineamento allineamento Sequenze allineate Osservazione TTCCCCTTCCTC TCCTTT-CT ** * *** ** ***** Ipotesi OMOLOI? CSO? P (omologia) + P (caso) = 1 [solo quando P (caso) ] 1/11/15

56 Significatività Significatività statistica statistica e e omologia omologia Se le probabilità casuali di un punteggio di un allineamento sono molto basse (< 1 5), l'allineamento è significativo llora si accetta l'ipotesi contraria: La somiglianza tra le sequenze deriva da omologia 1/11/15

57 Calcolo Calcolo della della probabilità probabilità casuale casuale di di un un allineamento allineamento Sequenze originali llineamento Seq1 Seq2 Seq1 Seq2 V D C - C Y V E C L C Y Score 4 (matrice Blosum62, gap= 11) V D C C Y V E C L C Y 2 Score = Sequenze randomizzate llineamento Seq1 Seq2 Seq1 Seq2 (matrice Blosum62, gap= 11) Score = 9 Frequenza C D V Y C C V E Y L C Score C D V Y - C C V E Y L C Distribuzione score casuali Ripetere (es. 1. volte) salvando tutti i punteggi Score allineamento Score 1/11/15

58 llineamenti llineamenti significativi significativi e e casuali casuali Human hemoglobin (141 aa). Human myoglobin (153 aa) VLSPDKTNVKWKVHEYELERMFLSFPTTKTYFPHF-DLS-----HSQ ::.. :..::::.:...:.:.: :.:. :.:. :.:.:...:.. LSDEWQLVLNVWKVEDIPHQEVLIRLFKHPETLEKFDKFKHLKSEDEMKSED VKHKKVDLTNVHVDDMPNLSLSDLHHKLRVDPVNFKLLSHCLLVTLHLP.: ::.:.:: :.. :: :.....:.:...:... : LKKHTVLTLILKKKHHEEIKPLQSHTKHKIPVKYLEFISECIIQVLQSKHP EFTPVHSLDKFLSVSTVLTSKYR :...: :.....:.:. DFDQMNKLELFRKDMSNYKELFQ random score dist. alignment score Punteggio allineamento = 176 Chicken lysozyme (129 aa) Bovine ribonuclease (124 aa) alignment score KVFRCELMKRHLDNYRYSLNWVCKFESNFNTQTNRNTDSTDYILQINS :. ::..:..:..... :...:. : KET----KFERQHMDSSTSSSSNYCNQMMKSRNLTKDRCKPVNTFVHESLDVQ RWWCNDRTP--SRNLCNIPCSLLSSDITSVNCKKIVSDDMNWVWRNRCKT : :..:...:.....:.....: :.:. V--CSQKNVCKNQTNCYQSYSTMSITDCRET-SSKYPNCYKTTQNKHIIVCEN DVQWIRCRL.... PYVPVHFDSV random score dist. Punteggio allineamento = 3 1/11/15

59 Statistica Statistica parametrica parametrica degli degli score score casuali casuali Inizialmente la distribuzione dei punteggi casuali veniva approssimata con una curva gaussiana (Dayhoff et al.). In realtà la distribuzione dei punteggi casuali segue una curva detta dei valori estremi (EVD, Extreme value distribution), che è asimmetrica verso i valori più alti (ltschul et al.) Probabilità casuali di un allineamento con score S 1/11/15

60 Calcolo Calcolo della della significatività significatività secondo secondo la la E.V.D E.V.D E=Kmne S E: Numero di segmenti attesi con un punteggio maggiore di un dato score S Dove n e m sono le lunghezze delle due sequenze e K e sono parametri stimati con fitting da allineamenti di sequenze casuali per una determinata matrice di somiglianza e penalità di gap. Questa statistica è pienamente valida solo per gli allineamenti locali K=.1; =.3; m,n=1 P 1 e E Se E è grande P 1 Se E è piccolo (E<.1) P E significance S i g n i f i c a n c e (Log ( L o g scale) s c a le ) 1 -E X P (-.1 * 1 * 1 * E X P (-.3 * X )) 1 EE 1 P 1 P S c o re 1/11/15

61 llineamenti llineamenti lunghi lunghi producono producono somiglianze somiglianze più più significative significative zona sicura zona crepuscolare zona di mezzanotte Significatività dell'allineamento di proteine in base alla identità% e alla lunghezza dell'allineamento. llineamenti lunghi risultano significativi anche in presenza di identità basse. Tuttavia al di sotto del 2% di identità diventa difficile la distinzione tra somiglianze casuali e somiglianze per omologia. dattata da B. Rost, /11/15

62 Somiglianza Somiglianza in in sequenza sequenza e e in in struttura struttura Relationship between sequence and structural divergence of proteins 1/11/15

63 Sequenze Sequenze molto molto diverse, diverse, strutture strutture sovrapponibili sovrapponibili benzoylformate decarboxylase (BFD) PDB code: 1bfd Bassa somiglianza di sequenza (2% Id). Strutture altamente somiglianti (<3 Å r.m.s.d.) pyruvate decarboxylase (PDC) PDB code: 1pvd 1/11/15

64 Strutture Strutture simili, simili, funzioni funzioni molto molto diverse diverse enerale somiglianza di struttura (r.m.s.d 1Å) Differenze al sito attivo HIU idrolase enzima della degradazione delle purine Transtiretina trasportatore dell'ormone tiroideo Cendron et al. JMB, 26 1/11/15

65 Strutture Strutture (origini) (origini) diverse, diverse, stessa stessa funzione funzione N H H N O 2 O (S ) O N H N H H S - a lla n t o in PuuE DL1 O N H O 4 O N H N H N H 3 2 O H a lla n to a t e llantoinasi DL1 (metallo-dipendente) llantoinasi PuuE Ramazzina et al. JBC, 28 1/11/15

66 Implicazioni Implicazioni della della somiglianza somiglianza Una somiglianza significativa di sequenza omologia - evoluzione convergente delle sequenze inesistente Una somiglianza significativa di struttura (omologia) - evoluzione convergente delle strutture molto rara Una somiglianza di funzione! omologia - evoluzione convergente delle funzioni piuttosto frequente 1/11/15

67 Implicazioni Implicazioni dell'omologia dell'omologia L'omologia conservazione di struttura (fold). - Sequenze che hanno strutture diverse possono essere considerate non omologhe L'omologia! conservazione di sequenza - Sequenze che non hanno allineamenti significativi possono essere omologhe. L'omologia! conservazione di funzione - Sequenze omologhe possono avere funzioni differenti. 1/11/15

Omologia di sequenze: allineamento e ricerca

Omologia di sequenze: allineamento e ricerca Omologia di sequenze: allineamento e ricerca Genomi (organismi) e geni hanno un evoluzione divergente Sequenze imparentate per evoluzione divergente sono omologhe Le sequenze sono confrontabili tramite

Dettagli

ALLINEAMENTO DI SEQUENZE

ALLINEAMENTO DI SEQUENZE ALLINEAMENTO DI SEQUENZE Procedura per comparare due o piu sequenze, volta a stabilire un insieme di relazioni biunivoche tra coppie di residui delle sequenze considerate che massimizzino la similarita

Dettagli

Algoritmi di Allineamento

Algoritmi di Allineamento Algoritmi di Allineamento CORSO DI BIOINFORMATICA Corso di Laurea in Biotecnologie Università Magna Graecia Catanzaro Outline Similarità Allineamento Omologia Allineamento di Coppie di Sequenze Allineamento

Dettagli

Pairwise Sequence Alignment BIOINFORMATICA. Corso di Laurea in Ingegneria Informatica e Biomedica. Università Magna Graecia Catanzaro

Pairwise Sequence Alignment BIOINFORMATICA. Corso di Laurea in Ingegneria Informatica e Biomedica. Università Magna Graecia Catanzaro Pairwise Sequence Alignment BIOINFORMATICA Corso di Laurea in Ingegneria Informatica e Biomedica Università Magna Graecia Catanzaro Outline Similarità Allineamento Omologia Allineamento Esatto di Coppie

Dettagli

FASTA. Lezione del

FASTA. Lezione del FASTA Lezione del 10.03.2016 Omologia vs Similarità Quando si confrontano due sequenze o strutture si usano spesso indifferentemente i termini somiglianza o omologia per indicare che esiste un rapporto

Dettagli

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST Quarta lezione 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST Ricerca di omologhe in banche dati Proteina vs. proteine Gene (traduzione in aa) vs. proteine Gene vs. geni

Dettagli

Programmazione dinamica

Programmazione dinamica rogrammazione dinamica Fornisce l allineamento ottimale tra due sequenze semplici variazioni dell algoritmo producono allineamenti globali o locali l allineamento calcolato dipende dalla scelta di alcuni

Dettagli

Allineamenti a coppie

Allineamenti a coppie Laboratorio di Bioinformatica I Allineamenti a coppie Dott. Sergio Marin Vargas (2014 / 2015) ExPASy Bioinformatics Resource Portal (SIB) http://www.expasy.org/ Il sito http://myhits.isb-sib.ch/cgi-bin/dotlet

Dettagli

Ricerca di omologia di sequenza

Ricerca di omologia di sequenza Ricerca di omologia di sequenza RICERCA DI OMOLOGIA DI SEQUENZA := Data una sequenza (query), una banca dati, un sistema per il confronto e una soglia statistica trovare le sequenze della banca più somiglianti

Dettagli

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0;

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0; Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p1 p6 p i >0; 6! i=1 p i =1 Sequenza di dna/proteine x con probabilita q x Probabilita dell intera sequenza n " i!1 q xi Massima verosimiglianza

Dettagli

BLAST. W = word size T = threshold X = elongation S = HSP threshold

BLAST. W = word size T = threshold X = elongation S = HSP threshold BLAST Blast (Basic Local Aligment Search Tool) è un programma che cerca similarità locali utilizzando l algoritmo di Altschul et al. Anche Blast, come FASTA, funziona: 1. scomponendo la sequenza query

Dettagli

Allineamenti di sequenze: concetti e algoritmi

Allineamenti di sequenze: concetti e algoritmi Allineamenti di sequenze: concetti e algoritmi 1 globine: a- b- mioglobina Precoce esempio di allineamento di sequenza: globine (1961) H.C. Watson and J.C. Kendrew, Comparison Between the Amino-Acid Sequences

Dettagli

Le sequenze consenso

Le sequenze consenso Le sequenze consenso Si definisce sequenza consenso una sequenza derivata da un multiallineamento che presenta solo i residui più conservati per ogni posizione riassume un multiallineamento. non è identica

Dettagli

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2.

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2. Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti patti@di.unito.it Esercitazione 7 1 Info&Bio Bio@Lab Allineamento di sequenze Esercitazione 7 2 1 Es2: Allineamento

Dettagli

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing SAGA: sequence alignment by genetic algorithm ALESSANDRO PIETRELLI Soft Computing Bologna, 25 Maggio 2007 Multi Allineamento di Sequenze (MSAs) Cosa sono? A cosa servono? Come vengono calcolati Multi Allineamento

Dettagli

Come si sceglie l algoritmo di allineamento? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione?

Come si sceglie l algoritmo di allineamento? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione? Come si sceglie l algoritmo di allineamento? Domande: le due proteine hanno domini simili? hanno pezzi di struttura simili? appartengono alla stessa famiglia? svolgono la stessa funzione? hanno un antenato

Dettagli

Bioinformatica ed applicazioni di bioinformatica strutturale!

Bioinformatica ed applicazioni di bioinformatica strutturale! Bioinformatica ed applicazioni di bioinformatica strutturale! Bioinformatica! Le banche dati! Programmi per estrarre ed analizzare i dati! I numeri! Cellule nell uomo! Geni nell uomo! Genoma umano Il dogma

Dettagli

A W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I

A W T V A S A V R T S I A Y T V A A A V R T S I A Y T V A A A V L T S I COME CALCOLARE IL PUNTEIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi che, però, sono le due facce di una stessa medaglia al

Dettagli

Programmazione dinamica

Programmazione dinamica Programmazione dinamica Fornisce l allineamento ottimale tra due sequenze semplici variazioni dell algoritmo producono allineamenti globali o locali l allineamento calcolato dipende dalla scelta di alcuni

Dettagli

Bioinformatics more basic notions

Bioinformatics more basic notions Bioinformatics more basic notions Alcune slides provengono dal materiale rilasciato da: Dr Sergio Marin Vargas - Verona Prof. Riccardo Percudari - Parma Bioinformatics Bio-inspired Computer science Gli

Dettagli

Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni:

Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni: Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni: antonella.meloni@ifc.cnr.it Sequenza A= stringa formata da N simboli, dove i simboli apparterranno ad un certo alfabeto. A

Dettagli

Lezione 7. Allineamento di sequenze biologiche

Lezione 7. Allineamento di sequenze biologiche Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra

Dettagli

Lezione 6. Analisi di sequenze biologiche e ricerche in database

Lezione 6. Analisi di sequenze biologiche e ricerche in database Lezione 6 Analisi di sequenze biologiche e ricerche in database Schema della lezione Allinemento: definizioni Allineamento di due sequenze Ricerca di singola sequenza in banche dati (Alignment-based database

Dettagli

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 8 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 8 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

La ricerca di similarità in banche dati

La ricerca di similarità in banche dati La ricerca di similarità in banche dati Uno dei problemi più comunemente affrontati con metodi bioinformatici è quello di trovare omologie di sequenza interrogando una banca dati. L idea di base è che

Dettagli

Allineamento e similarità di sequenze

Allineamento e similarità di sequenze Allineamento e similarità di sequenze Allineamento di Sequenze L allineamento tra due o più sequenza può aiutare a trovare regioni simili per le quali si può supporre svolgano la stessa funzione; La similarità

Dettagli

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche InfoBioLab I ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche Esercizio 1 - obiettivi: Ricerca di 2 proteine in ENTREZ Salva i flat file che descrivono le 2 proteine in formato testo Importa

Dettagli

Perché considerare la struttura 3D di una proteina

Perché considerare la struttura 3D di una proteina Modelling Perché considerare la struttura 3D di una proteina Implicazioni in vari campi : biologia, evoluzione, biotecnologie, medicina, chimica farmaceutica... Metodi di studio della struttura di una

Dettagli

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random Z-score lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random è una misura di quanto il valore di opt si discosta dalla deviazione standard media. indica di quante dev.

Dettagli

Lezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 6 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento Algoritmi EURISTICI di allineamento Sono nati insieme alle banche dati, con lo scopo di permettere una ricerca per similarità rapida anche se meno accurata contro le migliaia di sequenze depositate. Attualmente

Dettagli

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I 1 INTRODUZIONE

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I 1 INTRODUZIONE Docente: Matteo Re UNIVERSITÀ DEGLI STUDI DI MILANO C.d.l. Informatica Bioinformatica A.A. 2013-2014 semestre I 1 INTRODUZIONE Motivazioni dell esistenza della biologia computazionale: Biologia Computazionale

Dettagli

UNIVERSITÀ DEGLI STUDI DI MILANO. Giorgio Valentini. Bioinformatica. A.A semestre I 1 INTRODUZIONE

UNIVERSITÀ DEGLI STUDI DI MILANO. Giorgio Valentini. Bioinformatica. A.A semestre I 1 INTRODUZIONE Docenti: Matteo Re Giorgio Valentini UNIVERSITÀ DEGLI STUDI DI MILANO C.d.l. Informatica Bioinformatica A.A. 2014-2015 semestre I 1 INTRODUZIONE Motivazioni dell esistenza della biologia computazionale:

Dettagli

Lezione 6. Lo string matching

Lezione 6. Lo string matching Lezione 6 Lo string matching String matching Date due stringhe (sequenze di caratteri) vogliamo stabilire se sono uguali Nel caso dello string matching, due stringhe sono uguali se... sono uguali ( DNA

Dettagli

GENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi

GENOMA. Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine CONTENUTO FUNZIONE. Progetti genoma in centinaia di organismi GENOMA EVOLUZIONE CONTENUTO FUNZIONE STRUTTURA Analisi di sequenze -- Analisi di espressione -- Funzione delle proteine Progetti genoma in centinaia di organismi Importante la sintenia tra i genomi The

Dettagli

La ricerca di similarità: i metodi

La ricerca di similarità: i metodi La ricerca di similarità: i metodi Pairwise alignment allineamenti a coppie 1. Analisi della matrice a punti (dot matrix) 2. Programmazione dinamica (dynamic programming) allineamenti locale e globale.

Dettagli

Corso di Bioinformatica

Corso di Bioinformatica Corso di Bioinformatica Cortona - Novembre 2002 Metodi Computazionali per l'analisi delle sequenze Dr. Sabino Liuni Istituto di Tecnologie Biomediche- CNR Sezione di Bioinformatica e Genomica - Bari Sabino@area.ba

Dettagli

Bioinformatica e Biologia Computazionale per la Medicina Molecolare

Bioinformatica e Biologia Computazionale per la Medicina Molecolare Facoltà di Ingegneria dell Informazione Laurea Specialistica e Magistrale in Ingegneria Informatica Facoltà di Ingegneria dei Sistemi Laurea Magistrale in Ingegneria Biomedica Dipartimento di Elettronica

Dettagli

Materiale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna).

Materiale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna). Materiale accessorio al Power Point ALLINEAMENTI DI SEQUENZE_2008. Corso di Bioinformatica per Biotecnologie (G. Colonna). Date due o più sequenze, inizialmente potremmo volere: misurarne il grado di similarità;

Dettagli

Lezione 7. Allineamento di sequenze biologiche

Lezione 7. Allineamento di sequenze biologiche Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra

Dettagli

Cerca la tua sequenza ed analizzala. 4-Utilizzando l intera sequenza NM_ quante ORF trovate nella ORF +3?

Cerca la tua sequenza ed analizzala. 4-Utilizzando l intera sequenza NM_ quante ORF trovate nella ORF +3? Ferlito Valentina Esercizio 1 Cerca la tua sequenza ed analizzala 1-Ricerca in Genbank la sequenza dell adenine nucleotide translocator umano 2-Quante sequenze proteiche di riferimento vi sono? 3-Quante

Dettagli

Metodi di Distanza. G.Allegrucci riproduzione vietata

Metodi di Distanza. G.Allegrucci riproduzione vietata Metodi di Distanza La misura più semplice della distanza tra due sequenze nucleotidiche è contare il numero di siti nucleotidici che differiscono tra le due sequenze Quando confrontiamo siti omologhi in

Dettagli

17. LA DISTRIBUZIONE NORMALE E LA FUNZIONE DI GAUSS

17. LA DISTRIBUZIONE NORMALE E LA FUNZIONE DI GAUSS 17. LA DISTRIBUZIONE NORMALE E LA FUNZIONE DI GAUSS 17.1 LA DISTRIBUZIONE DEI DATI Nel trattare gli errori casuali abbiamo utilizzato il concetto di media aritmetica ed il concetto di deviazione standard

Dettagli

COME CALCOLARE IL PUNTEGGIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi

COME CALCOLARE IL PUNTEGGIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi COME CALCOLARE IL PUNTEGGIO DI UN ALLINEAMENTO? Il problema del calcolo del punteggio di un allineamento può essere considerato in due modi diversi che, però, sono le due facce di una stessa medaglia al

Dettagli

Codice Genetico (segue)

Codice Genetico (segue) CODICE GENETICO Nucleotidi, acidi nucleici CODICE GENETICO Codice mediante il quale la sequenza nucleotidica di una molecola di DNA o di RNA specifica la sequenza amminoacidica di un polipeptide. Consiste

Dettagli

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1 Introduzione...xi Argomenti trattati in questo libro... xi Dotazione software necessaria... xii A chi è rivolto questo libro... xii Convenzioni utilizzate... xiii Scarica i file degli esempi... xiii Capitolo

Dettagli

Edit distance. v intner RIMDMDMMI wri t ers

Edit distance. v intner RIMDMDMMI wri t ers L'allineamento Edit distance Le operazioni permesse sono: I: insert (inserimento, inserzione) D: delete (cancellazione, delezione, rimozione) R: replacement (substition, sostituzione) M: match (corrispondenza,

Dettagli

Metodo della matrice a punti

Metodo della matrice a punti Metodo della matrice a punti proposto da Gibbs and McIntyre (1970) consente di evidenziare ripetizioni dirette o inverse nelle sequenze prevedere regioni complementari nell RNA che possano potenzialmente

Dettagli

Dipartimento di Fisica a.a. 2004/2005 Fisica Medica 2 Test di ipotesi 2/5/2005

Dipartimento di Fisica a.a. 2004/2005 Fisica Medica 2 Test di ipotesi 2/5/2005 Dipartimento di Fisica a.a. 2004/2005 Fisica Medica 2 Test di ipotesi 2/5/2005 Test di significatività Nei lavori di statistica medica si citano sempre i livelli di significatività (ovvero la probabilità)

Dettagli

la edit distance tra X e Y è la distanza relativa all allineamento (o agli allineamenti) che minimizza tale distanza.

la edit distance tra X e Y è la distanza relativa all allineamento (o agli allineamenti) che minimizza tale distanza. Algoritmica 14/15 EDIT DISTANCE Il problema della edit distance (distanza di edizione, in una versione in italiano scarsamente usata) è alla base dei problemi di confronto fra sequenze perché il meccanismo

Dettagli

Informatica e Bioinformatica A. A

Informatica e Bioinformatica A. A Purtroppo non esiste un modo univoco per indicare un gene. Ad esempio abbiamo visto che il gene tcap a seconda del record è riportato come titin-cap protein o telethonin. Questo crea confusione e non facilita

Dettagli

Informatica e biotecnologie

Informatica e biotecnologie Informatica e biotecnologie Ricerca di informazioni e analisi di sequenze CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC CGAAATCGCATCAGCATACGATCGCATGC Informatica e biotecnologie Strumenti per raccogliere

Dettagli

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i

BLAND-ALTMAN PLOT. + X 2i 2 la differenza ( d ) tra le due misure per ognuno degli n campioni; d i. X i. = X 1i. X 2i BLAND-ALTMAN PLOT Il metodo di J. M. Bland e D. G. Altman è finalizzato alla verifica se due tecniche di misura sono comparabili. Resta da comprendere cosa si intenda con il termine metodi comparabili

Dettagli

Lezione 7. Allineamento di sequenze biologiche

Lezione 7. Allineamento di sequenze biologiche Lezione 7 Allineamento di sequenze biologiche Allineamento di sequenze Determinare la similarità e dedurre l omologia Allineare Definire il numero di passi necessari per trasformare una sequenza nell altra

Dettagli

Biologia Molecolare Computazionale

Biologia Molecolare Computazionale Biologia Molecolare Computazionale Paolo Provero - paolo.provero@unito.it 2008-2009 Argomenti Allineamento di sequenze Ricostruzione di alberi filogenetici Gene prediction Allineamento Allineamento di

Dettagli

ALLINEAMENTO DI SEQUENZE

ALLINEAMENTO DI SEQUENZE ALLINEAMENTO DI SEQUENZE Gli obiettivi degli algoritmi di allineamento di sequenze di acidi nucleici o proteine sono molteplici. Possiamo ricordare la ricerca di similarità nelle banche dati, la costruzione

Dettagli

Prova scritta di Complementi di Probabilità e Statistica. 7 Dicembre 2012

Prova scritta di Complementi di Probabilità e Statistica. 7 Dicembre 2012 Prova scritta di Complementi di Probabilità e Statistica 7 Dicembre. Un ingegnere vuole investigare se le caratteristiche di una superficie metallica sono influenzate dal tipo di pittura usata e dal tempo

Dettagli

Allineamenti Multipli di Sequenze

Allineamenti Multipli di Sequenze Allineamenti Multipli di Sequenze 1 Allineamento multiplo di sequenze: obiettivi di oggi Definire un allineamento multiplo di sequenze; com è generato; comprendere i principali metodi. Introdurre i database

Dettagli

Lezione 1. Le molecole di base che costituiscono la vita

Lezione 1. Le molecole di base che costituiscono la vita Lezione 1 Le molecole di base che costituiscono la vita Le molecole dell ereditarietà 5 3 L informazione ereditaria di tutti gli organismi viventi, con l eccezione di alcuni virus, è a carico della molecola

Dettagli

Interazioni proteina-dna

Interazioni proteina-dna Interazioni proteina-dna 1) Proteine che legano la doppia elica del DNA in maniera non sequenza-specifica: histone-like proteins (HU protein) 2) Proteine che legano strutture particolari del DNA: - single

Dettagli

Probabilità congiunta

Probabilità congiunta Una vera matrice di sostituzione F K M N P Q 4 5 5 4 3 3 5 6 5 4 3 5 4 4 3 6 4 3 4 5 3 F 8 5 5 4 5 5 4 5 3 4 3 3 6 3 5 K 5 3 3 6 4 3 3 3 M 6 N P 6 Q 4 6 V Y 3 3 3 3 V 4 4 6 8 6 6 6 3 5 3 4 4 6 5 5 6 7

Dettagli

6) Descrivere con un diagramma a blocchi un algoritmo che legga da input due numeri ne calcoli il prodotto in termini di somme ripetute.

6) Descrivere con un diagramma a blocchi un algoritmo che legga da input due numeri ne calcoli il prodotto in termini di somme ripetute. I due esercizi seguenti su un esempio semplice (trovare il massimo tra due o tra tre numeri) introducono la descrizione di algoritmi con diagrammi a blocchi, le strutture di controllo sequenza e condizione,

Dettagli

Sintenia e colinearità

Sintenia e colinearità Sintenia e colinearità I genomi degli eucarioti differiscono nel grado in cui i geni rimangono sullo stesso cromosoma nel grado in cui l ordine dei geni viene mantenuto sul cromosoma sintenia colinearità

Dettagli

MODELLO SCHEDA INSEGNAMENTO. II II Luigi Cerulo

MODELLO SCHEDA INSEGNAMENTO. II II Luigi Cerulo Corso di L/LM/LMCU Denominazione insegnamento: MODELLO SCHEDA INSEGNAMENTO Numero di Crediti: 6 Anno: Semestre: Docente Titolare: Scienze e Tecnologie Genetiche Bioinformatica II II Luigi Cerulo Dottorandi/assegnisti

Dettagli

Organizzazione del genoma umano

Organizzazione del genoma umano Organizzazione del genoma umano Famiglie di geni o geniche Copie multiple di geni, tutte con sequenza identica o simile. La famiglia multigenica corrisponde a un insieme di geni correlati che si sono evoluti

Dettagli

SCHEDA DIDATTICA N 7

SCHEDA DIDATTICA N 7 FACOLTA DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA CIVILE CORSO DI IDROLOGIA PROF. PASQUALE VERSACE SCHEDA DIDATTICA N 7 LA DISTRIBUZIONE NORMALE A.A. 01-13 La distribuzione NORMALE Uno dei più importanti

Dettagli

27 Marzo (a) Formulare una ipotesi sul modello tempo di vita di questa valvola e sottoporla a verifica.

27 Marzo (a) Formulare una ipotesi sul modello tempo di vita di questa valvola e sottoporla a verifica. Prova scritta di Affidabilità dei sistemi e Controllo statistico di qualità 27 Marzo 20 Tempo di lavoro: 2 ore. Gli esercizi vanno svolti in un file word. Riportare su questo file sia i grafici che eventuali

Dettagli

Genetica dei caratteri quantitativi

Genetica dei caratteri quantitativi PAS Percorsi Abilitanti Speciali Classe di abilitazione A057 Scienza degli alimenti Tracciabilità genetica degli alimenti Genetica dei caratteri quantitativi 1 Concetti di base in genetica L informazione

Dettagli

HI-TECH IN SANITA'. MINI-INVASIVITA' 2.0: nuove tecnologie al servizio dell'appropriatezza e della bioetica professionale

HI-TECH IN SANITA'. MINI-INVASIVITA' 2.0: nuove tecnologie al servizio dell'appropriatezza e della bioetica professionale HI-TECH IN SANITA'. MINI-INVASIVITA' 2.0: nuove tecnologie al servizio dell'appropriatezza e della bioetica professionale Analisi dell esoma e la medicina predittiva Domenico Coviello Direttore Medico

Dettagli

1. Si scriva una function Matlab che implementa il seguente metodo di punto fisso

1. Si scriva una function Matlab che implementa il seguente metodo di punto fisso Domanda 1 1. Si scriva una function Matlab che implementa il seguente metodo di punto fisso x n+1 = x n f(x n), n = 0, 1, 2,... K dove x 0 è il punto iniziale, f(x) = x 3 cos(x) e K è una costante assegnata.

Dettagli

Corso di Bioinformatica. Docente: Dr. Antinisca DI MARCO

Corso di Bioinformatica. Docente: Dr. Antinisca DI MARCO Corso di Bioinformatica Docente: Dr. Antinisca DI MARCO Email: antinisca.dimarco@univaq.it Analisi Filogenetica Gene Ancestrale duplicazione genica La filogenesi è lo studio delle relazioni evolutive tra

Dettagli

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA. Il progetto Genoma Umano è iniziato nel 1990. E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA. Progetto internazionale finanziato da vari paesi, affidato

Dettagli

Allineamento multiplo

Allineamento multiplo Allineamento multiplo Allineamenti multipli Il modo migliore per conoscere le caratteristiche di una determinata famiglia è allineare molte proteine a funzione analoga. I siti funzionalmente o strutturalmente

Dettagli

MODELLI QUANTITATIVI. f x r = c

MODELLI QUANTITATIVI. f x r = c MODELLI QUANTITATIVI Qualunque sia il modello di estrazione di regolarità o di conoscenze dai dati empirici, esiste sempre una base statistica da cui occorre partire. Un fenomeno linguistico specifico

Dettagli

Analisi della struttura primaria delle proteine

Analisi della struttura primaria delle proteine Analisi della struttura primaria delle proteine Strumenti on-line La maggior parte degli strumenti per l analisi della struttura primaria si trovano on-line all indirizzo www.expasy.org Ottenere la sequenza

Dettagli

Ulteriori Conoscenze di Informatica e Statistica

Ulteriori Conoscenze di Informatica e Statistica Ulteriori Conoscenze di Informatica e Statistica Carlo Meneghini Dip. di fisica via della Vasca Navale 84, st. 83 (I piano) tel.: 06 55 17 72 17 meneghini@fis.uniroma3.it Indici di forma Descrivono le

Dettagli

Allineamento multiplo di sequenze

Allineamento multiplo di sequenze Allineamento multiplo di sequenze Bioinformatica a.a. 2008/2009 Letterio Galletta Università di Pisa 22 Maggio 2009 Letterio Galletta (Università di Pisa) Allineamento multiplo di sequenze 22 Maggio 2009

Dettagli

IL PALLINOMETRO SCOPO

IL PALLINOMETRO SCOPO IL PALLINOMETRO SCOPO Verifica del fatto che gli errori casuali nella misura di una grandezza fisica ripetuta molte volte nelle stesse condizioni sperimentali seguono la distribuzione normale di Gauss.

Dettagli

La distribuzione normale

La distribuzione normale La distribuzione La distribuzione normale La curva normale (o curva di gauss) è una distribuzione teorica di probabilità che si applica a variabili continue Molti fenomeni di cui si occupano le scienze

Dettagli

Progetto Tandem Biologia saperi minimi Anno accademico Marzo 2012 COGNOME...

Progetto Tandem Biologia saperi minimi Anno accademico Marzo 2012 COGNOME... Progetto Tandem Biologia saperi minimi Anno accademico 2011-2012 2 Marzo 2012 COGNOME... NOME 1) Quali delle seguenti affermazioni sulla struttura primaria delle proteine è falsa? a) può essere ramificata

Dettagli

La mappatura dei geni umani. SCOPO conoscere la localizzazione dei geni per identificarne la struttura e la funzione

La mappatura dei geni umani. SCOPO conoscere la localizzazione dei geni per identificarne la struttura e la funzione La mappatura dei geni umani SCOPO conoscere la localizzazione dei geni per identificarne la struttura e la funzione Un grande impulso alla costruzione di mappe genetiche è stato dato da le tecniche della

Dettagli

LE MUTAZIONI. MUTAZIONE: MODIFICAZIONE DEL MESSAGGIO GENETICO, cambiamento raro, casuale, permanente ed EREDITABILE del DNA RIMESCOLAMENTO!!

LE MUTAZIONI. MUTAZIONE: MODIFICAZIONE DEL MESSAGGIO GENETICO, cambiamento raro, casuale, permanente ed EREDITABILE del DNA RIMESCOLAMENTO!! LE MUTAZIONI MUTAZIONE: MODIFICAZIONE DEL MESSAGGIO GENETICO, cambiamento raro, casuale, permanente ed EREDITABILE del DNA RIMESCOLAMENTO!! NUOVI GENOTIPI LE MUTAZIONI POLIMORFISMO: un cambiamento presente

Dettagli

La GENETICA DELLE POPOLAZIONI. studia con modelli matematici, a livello di gruppi di individui, variabilità genetica

La GENETICA DELLE POPOLAZIONI. studia con modelli matematici, a livello di gruppi di individui, variabilità genetica La GENETICA DELLE POPOLAZIONI studia con modelli matematici, a livello di gruppi di individui, la variabilità genetica che è l unico tipo di variabilità rilevante per l evoluzione La variabilità genetica

Dettagli

Laboratorio di Matematica e Informatica 1

Laboratorio di Matematica e Informatica 1 Laboratorio di Matematica e Informatica 1 Matteo Mondini Antonio E. Porreca matteo.mondini@gmail.com porreca@disco.unimib.it Dipartimento di Informatica, Sistemistica e Comunicazione Università degli Studi

Dettagli

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza

Indice. centrale, dispersione e forma Introduzione alla Statistica Statistica descrittiva per variabili quantitative: tendenza XIII Presentazione del volume XV L Editore ringrazia 3 1. Introduzione alla Statistica 5 1.1 Definizione di Statistica 6 1.2 I Rami della Statistica Statistica Descrittiva, 6 Statistica Inferenziale, 6

Dettagli

Bioinformatica. Analisi del genoma

Bioinformatica. Analisi del genoma Bioinformatica Analisi del genoma GABRIELLA TRUCCO CREMA, 5 APRILE 2017 Cosa è il genoma? Insieme delle informazioni biologiche, depositate nella sequenza di DNA, necessarie alla costruzione e mantenimento

Dettagli

Altrimenti, il M.C.D. di a e b è anche divisore di r (e.g. a=15,b=6,r=3 che è il M.C.D.)

Altrimenti, il M.C.D. di a e b è anche divisore di r (e.g. a=15,b=6,r=3 che è il M.C.D.) Elaboratore Un elaboratore o computer è una macchina digitale, elettronica, automatica capace di effettuare trasformazioni o elaborazioni sui dati digitale l informazione è rappresentata in forma numerica

Dettagli

FOGLIO ELETTRONICO. Microsoft Office EXCEL. LibreOffice CALC CALC. E' un software che assegna come estensione ai propri file (foglio elettronico).ods.

FOGLIO ELETTRONICO. Microsoft Office EXCEL. LibreOffice CALC CALC. E' un software che assegna come estensione ai propri file (foglio elettronico).ods. FOGLIO ELETTRONICO Microsoft Office EXCEL LibreOffice CALC Viene anche definito: FOGLIO DI CALCOLO; CARTELLA DI LAVORO (perché è un file che può contenere più FOGLI DI LAVORO). FOGLIO ELETTRONICO o FOGLIO

Dettagli

Parte 1 : Inferenza. Varianza nota test Z. Distribuzioni asintotiche dei test. Varianza ignota test t ad un campione

Parte 1 : Inferenza. Varianza nota test Z. Distribuzioni asintotiche dei test. Varianza ignota test t ad un campione ! Test d'ipotesi Parte 1 : Inferenza! Intervalli di confidenza! Test parametrici! Calcoli di potenza! Test non parametrici Distribuzioni asintotiche dei test A seconda dei casi il nostro test può convergere

Dettagli

Allineamento di sequenze proteiche

Allineamento di sequenze proteiche Allineamento di sequenze proteiche Sequenze proteiche - definizioni Una proteina è composta da diversi amino acidi uniti da legami peptidici. Si definisce: struttura primaria: la sequenza dei residui struttura

Dettagli

TASSONOMIA O SISTEMATICA

TASSONOMIA O SISTEMATICA TASSONOMIA O SISTEMATICA È la branca della batteriologia responsabile della caratterizzazione degli organismi ed organizzazione in gruppi affini (TAXA). NOMENCLATURA CLASSIFICAZIONE IDENTIFICAZIONE taxon

Dettagli

INFERENZA STATISTICA I (CANALE B)

INFERENZA STATISTICA I (CANALE B) INFERENZA STATISTICA I (CANALE B) FORMULE E TAVOLE PER L ESAME a.a. 2003/04 Indice A. Formule 2 B. Quantili di una distribuzione normale standard 4 C. Quantili di una distribuzione t di Student 5 D. Quantili

Dettagli

Calcolo dell n-esimo numero di Fibonacci

Calcolo dell n-esimo numero di Fibonacci Calcolo dell n-esimo numero di Fibonacci Formulazione F n F F F 0 1 n 0 1 F, n 2 1 n2 Algoritmo numerico F n 1 5 n n 1 2 5 1 2 5, 1 Algoritmo ricorsivo Complessità T ( n) 2 T ( n 1) T ( n 2) T ( n) 3F

Dettagli

L organizzazione del genoma. Prof. Savino; dispense di Biologia Molecolare, Corso di Laurea in Biotecnologie

L organizzazione del genoma. Prof. Savino; dispense di Biologia Molecolare, Corso di Laurea in Biotecnologie L organizzazione del genoma L organizzazione del genoma Fino ad ora abiamo studiato la regolazione dell espressione genica prendendo come esempio singoli geni dei batteri. Ma quanti geni ci sono in un

Dettagli

Metodi statistici per le ricerche di mercato

Metodi statistici per le ricerche di mercato Metodi statistici per le ricerche di mercato Prof.ssa Isabella Mingo A.A. 2017-2018 Facoltà di Scienze Politiche, Sociologia, Comunicazione Corso di laurea Magistrale in «Organizzazione e marketing per

Dettagli

Relazione sequenza-struttura e funzione

Relazione sequenza-struttura e funzione Biotecnologie applicate alla progettazione e sviluppo di molecole biologicamente attive A.A. 2010-2011 Modulo di Biologia Strutturale Relazione sequenza-struttura e funzione Marco Nardini Dipartimento

Dettagli

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25

Sommario. Capitolo 1 I dati e la statistica 1. Capitolo 2 Statistica descrittiva: tabelle e rappresentazioni grafiche 25 Sommario Presentazione dell edizione italiana Prefazione xv xiii Capitolo 1 I dati e la statistica 1 Statistica in pratica: BusinessWeek 1 1.1 Le applicazioni in ambito aziendale ed economico 3 Contabilità

Dettagli