ALLINEAMENTI MULTIPLI

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "ALLINEAMENTI MULTIPLI"

Transcript

1 ALLINEAMENTI MULTIPLI Allineamento progressivo (Clustal) Metodi iterativi (Multalin) Metodi basati su zone comuni di sequenza conservate (Profili) Metodi statistici e modelli probabilistici (HMM)

2 Motivazione Data una famiglia di proteine, come si può fissare al meglio l informazione contenuta nell allineamento multiplo per cercare altre sequenze ancora sconosciute??? I metodi di allineamento classici, anche se usano profili, p.es. non tengono in considerazione le posizioni di indels. Idea: crea un modello che rappresenti nel modo più esatto possibile la realtà. NSEQ 12 LEN 161 1YEA 1YCC 2PCBB 5CYTR 1CCR 1CRY 1HROA 1CXC 1C2RA 155C 2C2C 2mtac 1YEA 1YCC 2PCBB 5CYTR 1CCR 1CRY 1HROA 1CXC 1C2RA 155C 2C2C 2mtac AKESTGFKPGSAKKGATLFKTRCQQCHTIEE GGPNKVGPNLHGIFGRHSGQVK ----TEFKAGSAKKGATLFKTRCLQCHTVEK GGPHKVGPNLHGIFGRHSGQAE GDVEKGKKIFVQKCAQCHTVEK GGKHKTGPNLHGLFGRKTGQAP GDVAKGKKTFVQKCAQCHTVEN GGKHKVGPNLWGLFGRKTGQAE -ASFSEAPPGNPKAGEKIFKTKCAQCHTVDK GAGHKQGPNLNGLFGRQSGTTP QDAASGEQVFK-QCLVCHSIGP GAKNKVGPVLNGLFGRHSGTIE -----SAPPGDPVEGKHLFHTICITCHTDIK G-ANKVGPSLYGVVGRHSGIEP QEGDPEAGAKAFN-QCQTCHVIVDDSGTTIAGRNAKTGPNLYGVVGRTAGTQA GDAAKGEKEFN-KCKTCHSIIAPDGTEIVKG-AKTGPNLYGVVGRTAGTYP NEGDAAKGEKEFN-KCKACHMIQAPD-GTDIKG-GKTGPNLYGVVGRKIASEE EGDAAAGEKVSK-KCLACHTFDQ GGANKVGPNLFGVFENTAAHKD -----APQFFNIIDGSPLNFDD-----AMEEGRDTEAVKHFLETGENVYNEDPEILPEAE. * : * :.. GYS-YTDANINK-----NVKWDEDSMSEYLTNPKKYIP GTKMAFAGLKKEKD GYS-YTDANIKK-----NVLWDENNMSEYLTNPKKYIP GTKMAFGGLKKEKD GFT-YTDANKNK-----GITWKEETLMEYLENPKKYIP GTKMIFAGIKKKTE GYS-YTDANKSK-----GIVWNNDTLMEYLENPKKYIP GTKMIFAGIKKKGE GYS-YSTADKNM-----AVIWEENTLYDYLLNPKKYIP GTKMVFPGLKKPQE GFA-YSDANKNS-----GITWTEEVFREYIRDPKAKIP GTKMIFAGVKDEQK GYN-YSEANIKS-----GIVWTPDVLFKYIEHPQKIVP GTKMGYPGQPDPQK DFKGYGEGMKEAGAK--GLAWDEEHFVQYVQDPTKFLKEYTGDAKAKGKMTF-KLKKEAD EFK-YKDSIVALGAS--GFAWTEEDIATYVKDPGAFLKEKLDDKKAKTGMAF-KLAK--G GFK-YGEGILEVAEKNPDLTWTEANLIEYVTDPKPLVKKMTDDKGAKTKMTF-KMGK--N NYA-YSESYTEMKAK--GLTWTEANLAAYVKNPKAFVLEKSGDPKAKSKMTF-KLTKDDE EL--YAGMCSGCHGHYAEGKIGPGLNDAYWTYPGNETDVGLFSTLYGG--ATGQMGPMWG * * * Questo viene fatto p.es. dal database Pfam di domini proteici. Il programma più conosciuto per questo è HMMER. (Eddy 1995)

3 CATENE DI MARKOV Nelle matrici sito-specifiche e nei profili classici le probabilità di avere un AA in una certa posizione non dipende dall AA che lo precede ma potrebbe essere interessante calcolare la dipendenza, ad esempio, di coppie di AA e la loro frequenza. S = [s1, s2, s3,., sn] Una sequenza S di amminoacidi può essere considerata una catena di Markov (Markov chain) di ordine k se è vero che la probabilità di avere l elemento X nella i-esima posizione dipende solo dai k elementi che lo precedono P(ai ai-1 ai-2 a1 ) = P(ai ai-1 ai-2 ai-k ) Se k=0 allora la probabilità è il prodotto delle frequenze dei singoli AA se k=1 dipende dalla frequenza delle coppie di AA e così via. inizio transizione fine stato

4 probabilità di transizione CATENE DI MARKOV A ogni sequenza di stati può essere associata una probabilità di transizione. Rappresentano transizioni tra stati che avvengono in modo probabilistico. Le probabilità di transizione non dipendono dal numero di transizioni effettuate (proprietà di omogeneità). Le probabilità di transizione dipendono unicamente dallo stato attuale (proprietà memoryless, o di assenza di memoria).

5 HIDDEN MARKOV MODEL (catene nascoste di Markov) A differenza delle catene di Markov in cui c è un solo modo per rappresentare un amminoacido (o un simbolo qualsiasi) in un modello nascosto può essere rappresentato da più stati. Il risultato è che siamo in grado di valutare solo il prodotto finale ovvero la sequenza finale di stati, che è in effetti una catena di Markov, ma non siamo in grado di valutare qual è stato il passaggio ovvero la transizione tra i vari stati. I vari stati sono interconnessi ed ognuno emette simboli.

6

7 Semplice HMM a due stati che rappresenta una sequenza di DNA con una composizione eterogenea di basi (una regione ricca in basi AT - stato 1 ed una ricca in basi GC - stato 2). Le transizioni di stato e le probabilità associate sono indicate dalle frecce mentre le probabilità di A, C G e T per ogni stato (1 e 2) sono indicate sotto i corrispondenti stati. In (b) c è la sequenza (nascosta) degli stati 1 e 2 che è una catena di Markov che emette una base in accordo con la sua probabilità per quello stato (c). La probabilità della sequenza è il prodotto delle transizioni di stato (b) e delle probabilità di emissione (c). Per una data sequenza osservata siamo interessati a inferire la sequenza degli stati nascosti che l hanno generata ovvero sapere se la sequenza generata appartiene ad una regione ricca in AT o GC.

8

9 Il profilo (senza gap) precedente può essere visto come un HMM banale con uno stato per ogni colonna (più uno stato iniziale e uno finale): Gli M i sono detti match states. Le probabilità di emissione in M i sono date dall i-esima colonna del profilo. Le probabilità di transizione sono pari a uno. Si può modificare questo profilo HMM in modo da trattare la presenza di gap. Esempio: AVFDFRT M 1 M 2... M 7

10 Gli inserimenti sono porzioni di x che non hanno corrispondenza nel modello. Gli I j sono detti insert states. Ciascun I j modella l allineamento del/dei carattere/i di x successivi a x j con un gap. AVFDFRT Esempio: AV-DYKT I 3

11 Le delezioni sono segmenti dell allineamento multiplo (modellato dall HMM) che non hanno corrispondenza in posizione x del modello. I D j sono detti delete states. Stati silenziosi : non emettono alcun simbolo. D 3 Esempio: AV-DYKT AAFDSRT

12 Ciascuna tripla (M j, I j, D j ) è un modulo. Un HMM con M moduli ha 3M + 3 stati.

13 Cammini più probabili di cinque sequenze attraverso un HMM con undici moduli. Gli inserimenti non sono allineati: intesi come atipicità, parti non conservate di una famiglia.

14 Allineamento con HMM: lo spessore delle frecce è proporzionale alla probabilità di transizione AVFDFRT AV-DYKT AAFDSRT

15 COSTRUZIONE DI UNA HMM Dato un numero di sequenze come si costruisce una HMM? Se non è noto a priori un modello, allineamento multiplo e stima del modello avvengono simultaneamente come segue: 1. si sceglie la lunghezza del profilo HMM (usando una regola euristica o un sistema più sofisticato) e si inizializzano i parametri; (costruzione) 2. si fornisce una stima dei parametri del modello usando l algoritmo di Baum-Welch o altri; (fitting) 3. si decodificano (determinazione della sequenza di stati o percorso più probabile attraverso la rete) tutte le sequenze secondo il modello così determinato e si costruisce l allineamento multiplo (tipo Viterbi). (utilizzo)

16 ALGORITMO DI BAUM-WELCH per il calcolo del percorso più probabile (CENNI) 1) Si inizializza il modello con dei parametri casuali o ad hoc e si calcola il punteggio, attraverso il modello con l algoritmo di forward e backward delle sequenze dell allineamento (si basano sul fatto che la probabilità di osservare una determinata sequenza è data dalla somma di tutti i possibili percorsi, o quasi, attraverso la rete) 2) In questa fase si devono approssimare i punteggi dei vari stati e delle transizioni e modificarli affinchè il modello risponda bene alle sequenze. Idealmente si deve raggiungere il punteggio massimo possibile per ciascuna sequenza del set. Il modello deve risultare la migliore rappresentazione possibile. Si procede fino a convergenza o ad un valore soglia imposto. 3) È un approccio di machine learning come le reti neurali. Ottimizzazione di tipo stocastico. (esiste anche il Viterbi Training)

17 ALGORITMO DI VITERBI per il calcolo del percorso più probabile (CENNI) Avendo un modello che rappresenta un allineamento multiplo di sequenze possono esserci più percorsi che generano la stessa sequenza ma bisogna trovare quello giusto ovvero che massimizza il punteggio. A tale proposito si usa l algoritmo di Viterbi: 1) Si crea una matrice composta da colonne che sono gli stati del modello e da righe che contengono gli AA della sequenza così come è stata emessa dal modello. 2) Si calcolano i valori di probabilità per i vari stati con programmazione dinamica scegliendo sempre quello con punteggio maggiore. 3) Riempita la matrice si ripercorre all indietro per il percorso tracciato lungo i punteggi più alti fino all inizio. 4) Il concetto è simile alle matrici degli allineamenti globali. Ottimizzazione deterministica, che però non garantisce l ottimo globale.

18 VANTAGGI 1. Fondamenti statistici solidi e metodi di apprendimento efficienti. 2. Trattamento consistente delle penalizzazioni per inserzioni e delezioni sotto forma di probabilità locali apprendibili. Quindi una migliore modellizzazione dei siti più frequenti di indels. 3. Le HMM possono essere considerate la generalizzazione più flessibile dei profili di sequenza che soffrono della limitazione del trial and error. 4. Possono partire da sequenze grezze per costruire un allineamento multiplo e possono essere utilizzate in numerevoli compiti che vanno dal data mining alla classificazione, analisi strutturale e scoperta di pattern.

19 LIMITI 1. Gli HMM, in quanto modelli lineari, non sono in grado di catturare correlazioni di grado più elevato tra gli aminoacidi di una proteina. Queste correlazioni comprendono ponti di idrogeno e ponti salini tra aminoacidi non adiacenti della catena polipeptidica, così come ponti disolfuro tra cisteine. In pratica, questi residui distanti in sequenza possono essere in contatto nella molecola. Le interazioni di questo tipo non possono essere predette con un modello lineare. 2. Un numero elevato di parametri da fittare. Tipicamente per una proteina di N aminoacidi esistono 49*N parametri (40 emissioni e 9 transizioni). Questo risulta in modelli con molti parametri da ottimizzare. Per avere buoni risultati un HMM deve essere creato e allenato con una famiglia di almeno 25 sequenze simili.

20 Proteine transmembrana

21 Un esempio diverso di HMM...

22 Proteine transmembrana La determinazione sperimentale è difficoltosa (NMR difficile, X-ray non cristallizzano). Esistono poche strutture determinate a causa di questo fatto. La predizione diventa, quindi, un obbligo anche perché è semplificata dal fatto che: 1. Constraint della membrana riducono i gradi di libertà 2. Due tipi di proteine: 1. Ad alfa-elica: caratteristiche ben definite essendo immerse nella membrana plasmatica che ne limita le possibili conformazioni. Consentono l analisi strutturale e topologica. 2. Beta-strand: conformazione delle porine. Scarsi dati sperimentali. Difficile prevedere l accuratezza della predizione. Oltre il 20% delle proteine codificate da un genoma sono generalmente proteine transmembrana.

23 Proteine transmembrana Accuratezza Si può distinguere tra la predizione di segmenti di membrana, che richiedono solo il contesto locale e la predizione di topologia. Predire correttamente la topologia significa: 1. Identificare correttamente tutti i segmenti di membrana; out 2. Predire l orientamento dei loop (interni o esterni). in

24 Proteine transmembrana Alfa eliche hanno l orientazione o topologia basata sull N-terminale (IN se N-terminale è intracellulare OUT viceversa). Si distinguono le seguenti caratteristiche: 1. Lunghe residui e tipicamente molto idrofobiche, quindi facile da predire; 2. Loop esterni tipicamente inferiori ai 60 AA; 3. Positive-inside-rule : distribuzione specifica degli AA carichi + (ARG e LYS) (vonheijne, 1986). I loop di connessione sono maggiormente carichi + se sono interni; 4. Regioni globulari > 60 non soddisfano le regole della positive-inside-rule.

25 METODI BASATI SUL CALCOLO DELL IDROFOBICITÀ I metodi si basano sul calcolo dell idrofobicità locale di parti della proteina basandosi su scale che valutano la propensione all idrofobicità di ogni singolo AA. Queste scale sono ad esempio quelle di Kyte e Doolittle (1982) o Hopp e Woods (1983). I problemi di questi metodi sono: 1. Non discriminano bene le regioni idrofobiche transmembrana da quelle idrofobiche di proteine globulari. 2. La scelta accurata della finestra di intorno locale per il calcolo della media dei valori di idrofobicità dei singoli AA ed il valore soglia oltre il quale determinare la idrofobicità.

26 PHDhtm (Rost et al., 1995) Applicazione di rete neurale per la predizione di segmenti transmembrana. Problema: Come si può predire la topologia?

27 METODI DI ULTIMA GENERAZIONE BASATI SU HMM Le HMM si adattano bene allo scopo perché: 1. Calcolano le dipendenze di blocchi consecutivi di AA adiacenti che hanno caratteristiche diverse a seconda che si trovino in una zona loop IN o OUT oppure transmembrana. 2. Quindi ci sono delle transizioni di stato ben definite con blocchi di AA consecutivi ben distinti. 3. In generale non occorre trovare dipendenze tra AA lontani in sequenza della catena polipeptidica.

28 HMMTOP Uno dei migliori metodi per predire i segmenti e la topologia di proteine transmembrana è HMMTOP. (Tusnády & Simon, 1998) I segmenti transmembrana sono predetti correttamente nel 98% dei casi, la topologia nel 78%. Utilizza un HMM (hidden Markov model) come metodo di machine learning per imparare la realtà delle proteine transmembrana e dedurre delle regole. Anche in questo caso gli autori sfruttano la diversa distribuzione AA lungo i vari tratti delle proteine transmembrana e hanno allenato l HMM sulla base di queste propensioni. Log likelihood ovvero una distribuzione preferenziale in certe regioni di certi AA. Sulla base di questo è possibile ricavare la topologia delle proteine TM. In questo senso le HMM possono essere un modello formale preciso e adatto allo scopo in quanto per attribuire ad una regione della proteina una sua locazione TM o loop IN o loop OUT quest ultima deve massimizzare il punteggio di propensione.

29

30 HMMTOP Gli autori hanno notato una prevalenza di loop compresi tra 5 e 30 AA in lunghezza nei tratti esterni alla membrana in confronto ad una distribuzione casuale (hanno simulato i tratti di transmembrana come se fossero inseriti a caso all interno della catena polipeptidica della proteina per effettuare il calcolo). In figura si nota la distribuzione regolare della linea tratteggiata (distribuzione casuale) con quella reale. Hanno quindi suddiviso la struttura HMM in due categorie di stati: NFL (non-fixed length): gli stati dei loop esterni > 30 AA che hanno un andamento simile alla distribuzione casuale. FL (fixed length): gli stati dei loop tra 5 e 30 AA che sono più frequenti si ha un Max e un Min. Questo si traduce in una architettura della HMM più semplice per i NFL rispetto a quella FL che ha dei confini precisi (arrivano alle stesse conclusione di TMHMM ma hanno dei limiti diversi per le varie regioni).

31 HMMTOP Regione NFL Regione FL Parametri: Helix: MIN h = 17 MAX h = 25 Loop: MIN L = 1 MAX L = 15

32 TMHMM (TransMembrane HMM) (Krogh et al.2001) Suddivisione della HMM: 1. 5 stati regione cap citopl. e non-citopl. Parte della regione trans. Con proprietà leggermente polari per la presenza dei fosfati del bilayer. 2. Regione TM vera e propria a 25 stati: transizione tali che tale regione può variare da 5 a 25 AA. Insieme alle regioni cap a 5 AA fissi otteniamo regioni TM da 15 AA min a 35 AA max. 3. Regione loop citopl. e non-citopl. A 10 stati. Segue la regola del positive-inside rule per cui la distribuzione AA è diversa. 4. Regione globulare ricorsiva senza preferenze di composizione AA self-loop. 5. Regione non-citopl ha due path diversi a seconda della presenza di loop lunghi < 60 AA o lunghi. Accuratezza (topologia) intorno all 80%.

33 STRUTTURA TM IN PRATICA 1. L affidabilità di metodi TM è difficile da valutare poiché esistono pochi casi sperimentali risolti di strutture transmembrana. Quindi se da un lato la struttura TM sembra dover sottostare a delle regole rigide, da l altro lato i pochi casi sperimentali noti possono non essere sufficienti a creare un valido metodo di predizione. 2. Visto che i metodi come TMHMM e HMMTOP si basano su un ridotto numero di sequenze come training-set allora potrebbero essere stati over-trained su questi ultimi. Significa che simulano bene solo quei casi particolari per i quali raggiungono alti livelli di precisione e non i casi più generali che potrebbero essere più eterogenei e sfuggire all analisi. In pratica la loro affidabilità potrebbe essere sovrastimata. 3. La distinzione tra proteine globulari e di membrana sembra comunque funzionare. 4. Anche per la predizione TM formare un consensus (= voto a maggioranza) di più metodi (nella pubblicazione sono 5) migliora i risultati (Nilsson et al., 2000).

34 PREFERENZE DI TOPOLOGIA Generalmente è più diffusa la topologia N in nelle sequenze genomiche. (Krogh et al., 2001)

35 DISTRIBUZIONE NEI GENOMI La percentuale di proteine con segmenti transmembrana codificata nei genomi varia tra il 15% e il 30%, con una media del 25%. (Liu & Rost, 2001)

36 BANCHE DATI PER LA RICERCA DI DOMINI FUNZIONALI E PATTERN

37

38 PROSITE Istituita nel 1988 nella stessa sede di SwissProt Banca dati di siti e motivi di sequenze biologicamente importanti Formulazione orientata al trattamento computazionale Metodo per determinare la funzione di sequenze non caratterizzate tradotte da geni I motivi strutturali sono presi dalla letteratura e/o sviluppati e estesi dagli autori Contiene oltre 1400 motivi

39 PROSITE I motivi sono riportati in files di documentazione e descrizione contenente la lista dei veri positivi e falsi negativi Dal 1994 viene aggiunto un profilo come ulteriore descrittore del motivo. Altro esempio di profilo

40 PROSITE Manuale di prosite Esempio di ricerca con il programma scanprosite: Home risultato

41 motivo Matrici BLOSUM HMM

42 PRINTS Contiene gruppi di motivi di sequenze (fingerprints) allineate Contiene circa 1000 raggruppamenti contenenti ~5700 motivi individuali Fornisce strumenti per l interrogazione della banca dati

43 Manuale di PRINTS Esempio di un record di PRINTS

44 BLOCKS database Database di blocchi conservati di sequenze derivanti dall analisi di allineamenti multipli proteici. I blocchi sono creati automaticamente ricercando le regioni più altamente conservate e senza gap. Il metodo alla base della creazione dei blocchi parte dalla identificazione di tre aminoacidi conservati nell allineamento (possono non essere consecutivi). Home-page del Server BLOCKS tutorial su BLOCKS esempio di una entry

45

46 Pfam Collezione di allineamenti multipli di sequenza basati sui modelli di Markov nascosti (HMM) Comprende due sezioni: Pfam-A contenente allineamenti mantenuti manualmente Pfam-B in cui le sequenze non incluse in Pfam-A sono raggruppate automaticamente Contiene oltre 1500 famiglie

47 Pfam Include sequenze da SwissProt e Tr-EMBL Esempio di una scheda di una famiglia proteica e del relativo allineamento Help di Pfam Record in formato testo

48 ProDom Consiste di una compilazione automatica di domini omologhi Sistema per analizzare la disposizione di domini in proteine e famiglie di proteine Viene utilizzato il programma PSI-BLAST con un profilo preso da Pfam ed arricchita la famiglia di appartenenza delle sequenze Home-page e help e interfaccia di ricerca

49 InterPro Tentativo di creare una singola risorsa per la diagnosi e documentazione di famiglie proteiche Integrazione di banche dati di motivi di sequenza Interfaccia amichevole per la ricerca dell informazione Sorgente dell informazione: PRINTS; PROSITE; Pfam; ProDom

50 Manuale utente di InterPro Form di ricerca Scheda di un file di InterPro Formato grafico di una ricerca

51 EXPASY La sede centrale è in Svizzera e gestisce la banca dati SWISSPROT oltre ad una serie di innumerevoli tool per la proteomica e link alle banche dati esterne e alle risorse di programmi La home-page dei tool per la proteomica

ALLINEAMENTI MULTIPLI

ALLINEAMENTI MULTIPLI ALLINEAMENTI MULTIPLI Allineamento progressivo (Clustal) Metodi iterativi (Multalin) Metodi basati su zone comuni di sequenza conservate (Profili) Metodi statistici e modelli probabilistici (HMM) Motivazione

Dettagli

Metodi predittivi di accessibilità

Metodi predittivi di accessibilità Metodi predittivi di accessibilità ACCESSIBILITÀ AL SOLVENTE Una caratteristica interessante da predire, visto la forte dipendenza dalla sequenza, è l accessibilità al solvente dei residui che compongono

Dettagli

Computazione per l interazione naturale: Modelli dinamici

Computazione per l interazione naturale: Modelli dinamici Computazione per l interazione naturale: Modelli dinamici Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it

Dettagli

Le sequenze consenso

Le sequenze consenso Le sequenze consenso Si definisce sequenza consenso una sequenza derivata da un multiallineamento che presenta solo i residui più conservati per ogni posizione riassume un multiallineamento. non è identica

Dettagli

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST Quarta lezione 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST Ricerca di omologhe in banche dati Proteina vs. proteine Gene (traduzione in aa) vs. proteine Gene vs. geni

Dettagli

Allineamento con HMM: lo spessore delle frecce è proporzionale alla probabilità di transizione AVFDFRT AV-DYKT AAFDSRT

Allineamento con HMM: lo spessore delle frecce è proporzionale alla probabilità di transizione AVFDFRT AV-DYKT AAFDSRT Allineamento con HMM: lo spessore delle frecce è proporzionale alla probabilità di transizione AVFDFRT AV-DYKT AAFDSRT Un esempio diverso di HMM... COSTRUZIONE DI UNA HMM Dato un numero di sequenze come

Dettagli

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing SAGA: sequence alignment by genetic algorithm ALESSANDRO PIETRELLI Soft Computing Bologna, 25 Maggio 2007 Multi Allineamento di Sequenze (MSAs) Cosa sono? A cosa servono? Come vengono calcolati Multi Allineamento

Dettagli

Analisi della struttura primaria delle proteine

Analisi della struttura primaria delle proteine Analisi della struttura primaria delle proteine Strumenti on-line La maggior parte degli strumenti per l analisi della struttura primaria si trovano on-line all indirizzo www.expasy.org Ottenere la sequenza

Dettagli

BLAST. W = word size T = threshold X = elongation S = HSP threshold

BLAST. W = word size T = threshold X = elongation S = HSP threshold BLAST Blast (Basic Local Aligment Search Tool) è un programma che cerca similarità locali utilizzando l algoritmo di Altschul et al. Anche Blast, come FASTA, funziona: 1. scomponendo la sequenza query

Dettagli

Allineamento multiplo di sequenze

Allineamento multiplo di sequenze Allineamento multiplo di sequenze Bioinformatica a.a. 2008/2009 Letterio Galletta Università di Pisa 22 Maggio 2009 Letterio Galletta (Università di Pisa) Allineamento multiplo di sequenze 22 Maggio 2009

Dettagli

Perché considerare la struttura 3D di una proteina

Perché considerare la struttura 3D di una proteina Modelling Perché considerare la struttura 3D di una proteina Implicazioni in vari campi : biologia, evoluzione, biotecnologie, medicina, chimica farmaceutica... Metodi di studio della struttura di una

Dettagli

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2.

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2. Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti patti@di.unito.it Esercitazione 7 1 Info&Bio Bio@Lab Allineamento di sequenze Esercitazione 7 2 1 Es2: Allineamento

Dettagli

Programmazione dinamica

Programmazione dinamica rogrammazione dinamica Fornisce l allineamento ottimale tra due sequenze semplici variazioni dell algoritmo producono allineamenti globali o locali l allineamento calcolato dipende dalla scelta di alcuni

Dettagli

Multi classificatori. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

Multi classificatori. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Multi classificatori Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Combinazione di classificatori Idea: costruire più classificatori di base e predire la classe di appartenza di

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Hidden Markov Models Manuele Bicego orso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Processi

Dettagli

Bioinformatica. Analisi del genoma

Bioinformatica. Analisi del genoma Bioinformatica Analisi del genoma GABRIELLA TRUCCO CREMA, 5 APRILE 2017 Cosa è il genoma? Insieme delle informazioni biologiche, depositate nella sequenza di DNA, necessarie alla costruzione e mantenimento

Dettagli

Algoritmi di classificazione supervisionati

Algoritmi di classificazione supervisionati Corso di Bioinformatica Algoritmi di classificazione supervisionati Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di apprendimento supervisionato per problemi di biologia computazionale

Dettagli

Chimica Biologica A.A α-elica foglietto β reverse turn

Chimica Biologica A.A α-elica foglietto β reverse turn Chimica Biologica A.A. 2010-2011 α-elica foglietto β reverse turn Str. Secondaria sperimentalmente osservata: Si distinguono fondamentalmente tre tipi di strutture secondarie: α elica foglietto β reverse

Dettagli

Tecniche di Apprendimento Automatico in Applicazioni Bio-Mediche

Tecniche di Apprendimento Automatico in Applicazioni Bio-Mediche Tecniche di Apprendimento Automatico in Applicazioni Bio-Mediche Marco Botta Dipartimento di Informatica Università di Torino www.di.unito.it/~botta/didattica/ botta@di.unito.it Sommario Caratterizzazione

Dettagli

Riconoscimento automatico di oggetti (Pattern Recognition)

Riconoscimento automatico di oggetti (Pattern Recognition) Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi

Dettagli

Le proteine sono polimeri lineari costituiti da unità base formate da oltre 40 amminoacidi. Possono assumere forme diverse a seconda della funzione

Le proteine sono polimeri lineari costituiti da unità base formate da oltre 40 amminoacidi. Possono assumere forme diverse a seconda della funzione Le proteine sono polimeri lineari costituiti da unità base formate da oltre 40 amminoacidi Hanno elevato PM Possono assumere forme diverse a seconda della funzione svolgono molteplici funzioni Tra le proteine

Dettagli

Apprendimento Automatico

Apprendimento Automatico Apprendimento Automatico Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Rappresentazione dei dati con i kernel Abbiamo una serie di oggetti S

Dettagli

Algoritmi di Allineamento

Algoritmi di Allineamento Algoritmi di Allineamento CORSO DI BIOINFORMATICA Corso di Laurea in Biotecnologie Università Magna Graecia Catanzaro Outline Similarità Allineamento Omologia Allineamento di Coppie di Sequenze Allineamento

Dettagli

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random Z-score lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random è una misura di quanto il valore di opt si discosta dalla deviazione standard media. indica di quante dev.

Dettagli

Classificazione Mario Guarracino Data Mining a.a. 2010/2011

Classificazione Mario Guarracino Data Mining a.a. 2010/2011 Classificazione Mario Guarracino Data Mining a.a. 2010/2011 Introduzione I modelli di classificazione si collocano tra i metodi di apprendimento supervisionato e si rivolgono alla predizione di un attributo

Dettagli

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 8 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 8 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Corso di Bioinformatica Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di machine learning I metodi

Dettagli

UTILIZZO DELL ANALISI DELLE COMPONENTI PRINCIPALI (PCA) DI DATI HVSR FINALIZZATO ALLA ZONAZIONE SISMICA

UTILIZZO DELL ANALISI DELLE COMPONENTI PRINCIPALI (PCA) DI DATI HVSR FINALIZZATO ALLA ZONAZIONE SISMICA UTILIZZO DELL ANALISI DELLE COMPONENTI PRINCIPALI (PCA) DI DATI HVSR FINALIZZATO ALLA ZONAZIONE SISMICA Terremoto de L Aquila, 2009 Gallipoli et al., 2011 Lo scopo di questo lavoro è quello di indagare

Dettagli

Banche Dati proteiche

Banche Dati proteiche Banche Dati proteiche Un altro grande database è UniProt, The Universal Protein Resource (http://www.uniprot.org/) nel quale sono radunate le sequenze proteiche, e le annotazione delle stesse, ottenute

Dettagli

Pre-elaborazione dei dati (Data pre-processing)

Pre-elaborazione dei dati (Data pre-processing) Pre-elaborazione dei dati (Data pre-processing) I dati nel mondo reale sono sporchi incompleti: mancano valori per gli attributi, mancano attributi importanti, solo valori aggregati rumorosi: contengono

Dettagli

Corso di Intelligenza Artificiale A.A. 2016/2017

Corso di Intelligenza Artificiale A.A. 2016/2017 Università degli Studi di Cagliari Corsi di Laurea Magistrale in Ing. Elettronica Corso di Intelligenza rtificiale.. 26/27 Esercizi sui metodi di apprendimento automatico. Si consideri la funzione ooleana

Dettagli

Esercizio: apprendimento di congiunzioni di letterali

Esercizio: apprendimento di congiunzioni di letterali input: insieme di apprendimento istemi di Elaborazione dell Informazione 18 Esercizio: apprendimento di congiunzioni di letterali Algoritmo Find-S /* trova l ipotesi più specifica consistente con l insieme

Dettagli

Macromolecole Biologiche. La struttura secondaria (II)

Macromolecole Biologiche. La struttura secondaria (II) La struttura secondaria (II) Nello stesso anno (1951) in cui proposero l α elica, Pauling e Corey postularono anche l esistenza di un altra struttura secondaria: il foglietto β (β-sheet). Dopo l α elica,

Dettagli

Luigi Piroddi

Luigi Piroddi Automazione industriale dispense del corso (a.a. 2008/2009) 10. Reti di Petri: analisi strutturale Luigi Piroddi piroddi@elet.polimi.it Analisi strutturale Un alternativa all analisi esaustiva basata sul

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Hidden Markov Models Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Processi

Dettagli

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA. Il progetto Genoma Umano è iniziato nel 1990. E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA. Progetto internazionale finanziato da vari paesi, affidato

Dettagli

Fondamenti d Informatica: linguaggi formali. Barbara Re, Phd

Fondamenti d Informatica: linguaggi formali. Barbara Re, Phd Fondamenti d Informatica: linguaggi formali Barbara Re, Phd Agenda } Introdurremo } La nozione di linguaggio } Strumenti per definire un linguaggio } Espressioni Regolari 2 Linguaggio } Da un punto di

Dettagli

Markov Chains and Markov Chain Monte Carlo (MCMC)

Markov Chains and Markov Chain Monte Carlo (MCMC) Markov Chains and Markov Chain Monte Carlo (MCMC) Alberto Garfagnini Università degli studi di Padova December 11, 2013 Catene di Markov Discrete dato un valore x t del sistema ad un istante di tempo fissato,

Dettagli

Cenni di apprendimento in Reti Bayesiane

Cenni di apprendimento in Reti Bayesiane Sistemi Intelligenti 216 Cenni di apprendimento in Reti Bayesiane Esistono diverse varianti di compiti di apprendimento La struttura della rete può essere nota o sconosciuta Esempi di apprendimento possono

Dettagli

LE PROTEINE. SONO Polimeri formati dall unione di AMMINOACIDI (AA) Rende diversi i 20 AA l uno dall altro UN ATOMO DI C AL CENTRO

LE PROTEINE. SONO Polimeri formati dall unione di AMMINOACIDI (AA) Rende diversi i 20 AA l uno dall altro UN ATOMO DI C AL CENTRO LE PROTEINE SONO Polimeri formati dall unione di ATOMI DI C, H, N, O CHE SONO AMMINOACIDI (AA) Uniti tra loro dal Legame peptidico 20 TIPI DIVERSI MA HANNO STESSA STRUTTURA GENERALE CON Catene peptidiche

Dettagli

Statistica multivariata 27/09/2016. D.Rodi, 2016

Statistica multivariata 27/09/2016. D.Rodi, 2016 Statistica multivariata 27/09/2016 Metodi Statistici Statistica Descrittiva Studio di uno o più fenomeni osservati sull INTERA popolazione di interesse (rilevazione esaustiva) Descrizione delle caratteristiche

Dettagli

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento Algoritmi EURISTICI di allineamento Sono nati insieme alle banche dati, con lo scopo di permettere una ricerca per similarità rapida anche se meno accurata contro le migliaia di sequenze depositate. Attualmente

Dettagli

MODELLISTICA E SIMULAZIONE cred.: 5 7,5 Recupero 2 prova: 25 luglio 2005

MODELLISTICA E SIMULAZIONE cred.: 5 7,5 Recupero 2 prova: 25 luglio 2005 Politecnico di Milano I a Facoltà di Ingegneria C.S. in Ing. per l Ambiente e il Territorio MODELLISTICA E SIMULAZIONE cred.: 5 7,5 Recupero prova: 5 luglio 005 COGNOME NOME FIRMA: : : : [7,5 crediti]

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: introduzione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Una definizione

Dettagli

Sintesi Sequenziale Sincrona Sintesi Comportamentale di reti Sequenziali Sincrone

Sintesi Sequenziale Sincrona Sintesi Comportamentale di reti Sequenziali Sincrone Sintesi Sequenziale Sincrona Sintesi Comportamentale di reti Sequenziali Sincrone Il problema dell assegnamento degli stati versione del 9/1/03 Sintesi: Assegnamento degli stati La riduzione del numero

Dettagli

30/10/2015 LIVELLI DI ORGANIZZAZIONE STRUTTURALE DELLE PROTEINE

30/10/2015 LIVELLI DI ORGANIZZAZIONE STRUTTURALE DELLE PROTEINE LIVELLI DI ORGANIZZAZIONE STRUTTURALE DELLE PROTEINE 1 CARATTERISTICHE DEL LEGAME PEPTIDICO lunghezza intermedia tra un legame singolo e uno doppio ibrido di risonanza per il parziale carattere di doppio

Dettagli

a. incubi per i traduttori in quanto complicano immensamente il lavoro.

a. incubi per i traduttori in quanto complicano immensamente il lavoro. 1 Ormai i moderni sistemi di memoria di traduzione (TM) sono diventati veri e propri: a. incubi per i traduttori in quanto complicano immensamente il lavoro. b. sistemi di traduzione automatica (MT). c.

Dettagli

Bellini Lara matricola: Tesina di Biologia Molecolare 2

Bellini Lara matricola: Tesina di Biologia Molecolare 2 Bellini Lara matricola: 594736 Tesina di Biologia Molecolare 2 Argomento: Scegli una proteina di Drosophila e trovala in Uniprot.Descrivi le informazioni presenti nel record ed i collegamenti a risorse

Dettagli

RETI DI CALCOLATORI II

RETI DI CALCOLATORI II RETI DI CALCOLATORI II Facoltà di Ingegneria Università degli Studi di Udine Ing. DANIELE DE CANEVA a.a. 2009/2010 ARGOMENTI DELLA LEZIONE TEORIA DEL ROUTING ROUTING STATICO ROUTING DINAMICO o PROTOCOLLI

Dettagli

Parallel Frequent Set Counting

Parallel Frequent Set Counting Parallel Frequent Set Counting Progetto del corso di Calcolo Parallelo AA 2001-02 Salvatore Orlando 1 Cosa significa association mining? Siano dati un insieme di item un insieme di transazioni, ciascuna

Dettagli

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine

e applicazioni al dominio del Contact Management Andrea Brunello Università degli Studi di Udine al e applicazioni al dominio del Contact Management Parte I: Il Processo di, Principali tipologie di al Cos è il Il processo di Università degli Studi di Udine Unsupervised In collaborazione con dott.

Dettagli

Ricerca di omologia di sequenza

Ricerca di omologia di sequenza Ricerca di omologia di sequenza RICERCA DI OMOLOGIA DI SEQUENZA := Data una sequenza (query), una banca dati, un sistema per il confronto e una soglia statistica trovare le sequenze della banca più somiglianti

Dettagli

Bioinformatica ed applicazioni di bioinformatica strutturale!

Bioinformatica ed applicazioni di bioinformatica strutturale! Bioinformatica ed applicazioni di bioinformatica strutturale! Bioinformatica! Le banche dati! Programmi per estrarre ed analizzare i dati! I numeri! Cellule nell uomo! Geni nell uomo! Genoma umano Il dogma

Dettagli

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011 Intelligenza Artificiale Clustering Francesco Uliana 14 gennaio 2011 Definizione Il Clustering o analisi dei cluster (dal termine inglese cluster analysis) è un insieme di tecniche di analisi multivariata

Dettagli

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0;

q xi Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p i >0; Modelli probabilis-ci Lanciando un dado abbiamo sei parametri p1 p6 p i >0; 6! i=1 p i =1 Sequenza di dna/proteine x con probabilita q x Probabilita dell intera sequenza n " i!1 q xi Massima verosimiglianza

Dettagli

Alberi di Regressione

Alberi di Regressione lberi di Regressione Caso di studio di Metodi vanzati di Programmazione 2015-2016 Corso Data Mining Lo scopo del data mining è l estrazione (semi) automatica di conoscenza nascosta in voluminose basi di

Dettagli

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche

InfoBioLab I ENTREZ. ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche InfoBioLab I ES 1: Ricerca di sequenze di aminoacidi in banche dati biologiche Esercizio 1 - obiettivi: Ricerca di 2 proteine in ENTREZ Salva i flat file che descrivono le 2 proteine in formato testo Importa

Dettagli

1 Esercizio - caso particolare di ottimalità

1 Esercizio - caso particolare di ottimalità Corso: Gestione ed elaborazione grandi moli di dati Lezione del: 5 giugno 2006 Argomento: Compressione aritmetica e Tecniche di compressione basate su dizionario Scribes: Andrea Baldan, Michele Ruvoletto

Dettagli

Corso di Visione Artificiale. Texture. Samuel Rota Bulò

Corso di Visione Artificiale. Texture. Samuel Rota Bulò Corso di Visione Artificiale Texture Samuel Rota Bulò Texture Le texture sono facili da riconoscere ma difficili da definire. Texture Il fatto di essere una texture dipende dal livello di scala a cui si

Dettagli

La struttura terziaria delle proteine

La struttura terziaria delle proteine La struttura terziaria delle proteine 1 La struttura terziaria L arrangiamento spaziale degli aminoacidi di una singola catena polipeptidica a formare la sua struttura tridimensionale a domini viene chiamata

Dettagli

Ricerca di outlier. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

Ricerca di outlier. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: macchine che apprendono Computazione per l interazione naturale: macchine che apprendono Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it

Dettagli

Apprendimento Automatico

Apprendimento Automatico Apprendimento Automatico Metodi Bayesiani Fabio Aiolli 11 Dicembre 2017 Fabio Aiolli Apprendimento Automatico 11 Dicembre 2017 1 / 19 Metodi Bayesiani I metodi Bayesiani forniscono tecniche computazionali

Dettagli

sono le unità monomeriche che costituiscono le proteine hanno tutti una struttura comune

sono le unità monomeriche che costituiscono le proteine hanno tutti una struttura comune AMINO ACIDI sono le unità monomeriche che costituiscono le proteine sono 20 hanno tutti una struttura comune sono asimmetrici La carica di un amino acido dipende dal ph Classificazione amino acidi Glicina

Dettagli

moli OH - /mole amminoacido

moli OH - /mole amminoacido ) ) Di seguito è riportata la curva di titolazione di un amminoacido. Osservando il grafico: a) stabilire il valore dei pka dell aminoacido b) calcolare il valore del pi e individuarlo sul grafico. c)

Dettagli

GENE PREDICTION AND ANNOTATION

GENE PREDICTION AND ANNOTATION GENE PREDICTION AND ANNOTATION ...AGGATGACGATGGAGTACGATCGTGATGTCTAGCTGATGTCAGTAAGGATGACGATGGAGTACGATCGTGATGTCTAGCTGATGTCAGTAAGGATGACGATGGAGTACGATCGTG ATGTCTAGCTGATGTCAGTAAGGATGACGATGGAGTACGATCGTGATGTCTAGCTGATGTCAGTAAGGATGACGATGGAGTACGATCGTGATGTCTAGCTGATGTCAGTAAGGATGAC

Dettagli

Macromolecole Biologiche. La struttura secondaria (III)

Macromolecole Biologiche. La struttura secondaria (III) La struttura secondaria (III) Reverse turn Le proteine globulari hanno una forma compatta, dovuta a numerose inversioni della direzione della catena polipeptidica che le compone. Molte di queste inversioni

Dettagli

scaricato da I peptidi risultano dall unione di due o più aminoacidi mediante un legame COVALENTE

scaricato da  I peptidi risultano dall unione di due o più aminoacidi mediante un legame COVALENTE Legame peptidico I peptidi risultano dall unione di due o più aminoacidi mediante un legame COVALENTE tra il gruppo amminico di un aminoacido ed il gruppo carbossilico di un altro. 1 Catene contenenti

Dettagli

Luigi Piroddi

Luigi Piroddi Automazione industriale dispense del corso (a.a. 2008/2009) 8. Reti di Petri: rappresentazione algebrica Luigi Piroddi piroddi@elet.polimi.it Rappresentazione matriciale o algebrica E possibile analizzare

Dettagli

Metodi supervisionati di classificazione

Metodi supervisionati di classificazione Metodi supervisionati di classificazione Giorgio Valentini e-mail: valentini@dsi.unimi.it DSI - Dipartimento di Scienze dell'informazione Classificazione bio-molecolare di tessuti e geni Diagnosi a livello

Dettagli

Lezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 6 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

Patologie da analizzare

Patologie da analizzare Fasi cruciali Scelta della patologia da analizzare Scelta del campione da analizzare Scelta dell approccio da utilizzare Scelta della tecnica da utilizzare Analisi statistica del dati Conferme con approcci

Dettagli

Regole associative Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Regole associative Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Regole associative Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 26/27 Introduzione Le regole associative si collocano tra i metodi di apprendimento non supervisionato e sono volte

Dettagli

Analisi dei Dati. Lezione 9 - Preprocessing dei dati

Analisi dei Dati. Lezione 9 - Preprocessing dei dati Analisi dei Dati Lezione 9 - Preprocessing dei dati Motivazioni I dati nel mondo reale sono sporchi incompleti: mancano valori per gli attributi, mancano attributi importanti, solo valori aggregati rumorosi:

Dettagli

RICERCA DI PATTERN E DI MOTIVI DEFINIZIONE DI MOTIVO

RICERCA DI PATTERN E DI MOTIVI DEFINIZIONE DI MOTIVO RICERCA DI PATTERN E DI MOTIVI Uno dei primi scopi della biologia computazionale consiste nel rispondere alla domanda: data una nuova sequenza, cosa si può dire sulla funzione, o sulle funzioni, in essa

Dettagli

Algoritmi e Strutture Dati

Algoritmi e Strutture Dati Elementi di Programmazione Dinamica Maria Rita Di Berardini, Emanuela Merelli 1 1 Dipartimento di Matematica e Informatica Università di Camerino Tecniche di Programmazione Tecniche di progettazione e

Dettagli

Organizzazione Fisica dei Dati (Parte II)

Organizzazione Fisica dei Dati (Parte II) Modello Fisico dei Dati Basi di Dati / Complementi di Basi di Dati 1 Organizzazione Fisica dei Dati (Parte II) Angelo Montanari Dipartimento di Matematica e Informatica Università di Udine Modello Fisico

Dettagli

I Linguaggi di Programmazione

I Linguaggi di Programmazione I Linguaggi di Programmazione 1 Linguaggio naturale e linguaggio macchina La comunicazione uomo-macchina avviene attraverso formalismi che assumono la forma di un linguaggio. Caratteristiche del Linguaggio

Dettagli

La mappatura dei geni umani. SCOPO conoscere la localizzazione dei geni per identificarne la struttura e la funzione

La mappatura dei geni umani. SCOPO conoscere la localizzazione dei geni per identificarne la struttura e la funzione La mappatura dei geni umani SCOPO conoscere la localizzazione dei geni per identificarne la struttura e la funzione Un grande impulso alla costruzione di mappe genetiche è stato dato da le tecniche della

Dettagli

CENNI SUL TIPO DI FORZE

CENNI SUL TIPO DI FORZE CENNI SUL TIPO DI FORZE Forze deboli che influenzano la struttura delle proteine: le interazioni di van der Waals repulsione attrazione Forze attrattive dovute a interazioni istantanee che si generano

Dettagli

Proprietà comuni. Il gruppo α-carbossilico b è un acido più forte del gruppo carbossilico degli acidi alifatici

Proprietà comuni. Il gruppo α-carbossilico b è un acido più forte del gruppo carbossilico degli acidi alifatici Gli aminoacidi Proprietà comuni Il gruppo α-carbossilico b è un acido più forte del gruppo carbossilico degli acidi alifatici paragonabili Il gruppo α-aminico è un acido più forte (o una base più debole

Dettagli

REGOLAZIONE DELLA TRASCRIZIONE NEGLI EUCARIOTI

REGOLAZIONE DELLA TRASCRIZIONE NEGLI EUCARIOTI LEZIONE XI REGOLAZIONE DELLA TRASCRIZIONE NEGLI EUCARIOTI Dott. Paolo Cascio IL PROMOTORE DEL VIRUS SV 40 PRESENTA 1 SEQUENZA TATA E 3 CG BOX. PIU LONTANO, PERO, SONO SITUATE ALTRE 2 REGIONI PIUTTOSTO

Dettagli

ITI INFORMATICA: STATISTICA

ITI INFORMATICA: STATISTICA ITI INFORMATICA: STATISTICA INDICE:.INFERENZA STATISTICA.IL CAMPIONAMENTO CASUALE.LA PROGRAMMAZIONE LINEARE.IL CAMPIONAMENTO STATISTICO.DISTRIBUZIONI CAMPIONARIE.L ALGORITMO DEL SIMPLESSO INFERENZA STATISTICA

Dettagli

R. Cusani, F. Cuomo: Telecomunicazioni - DataLinkLayer: Gestione degli errori, Aprile 2010

R. Cusani, F. Cuomo: Telecomunicazioni - DataLinkLayer: Gestione degli errori, Aprile 2010 1 11. Data link layer: codici di rilevazione di errore, gestione degli errori La rilevazione di errore Un codice a rilevazione di errore ha lo scopo di permettere al ricevente di determinare se vi sono

Dettagli

Data Science A.A. 2018/2019

Data Science A.A. 2018/2019 Corso di Laurea Magistrale in Economia Data Science A.A. 2018/2019 Lez. 5 Data Mining Data Science 2018/2019 1 Data Mining Processo di esplorazione e analisi di un insieme di dati, generalmente di grandi

Dettagli

Misura della performance di ciascun modello: tasso di errore sul test set

Misura della performance di ciascun modello: tasso di errore sul test set Confronto fra modelli di apprendimento supervisionato Dati due modelli supervisionati M 1 e M costruiti con lo stesso training set Misura della performance di ciascun modello: tasso di errore sul test

Dettagli

RELAZIONE DI BIOLOGIA MOLECOLARE

RELAZIONE DI BIOLOGIA MOLECOLARE RELAZIONE DI BIOLOGIA MOLECOLARE 2 BRUNO FRANCESCA mat.576193 Analisi di proteine. Descrivi un database di interazioni proteiche e mostra con quali proteine interagisce la proteina KEN di Drosophila. Uno

Dettagli

UNIVERSITÀ DEGLI STUDI DI PAVIA FACOLTÀ DI INGEGNERIA. Algoritmi

UNIVERSITÀ DEGLI STUDI DI PAVIA FACOLTÀ DI INGEGNERIA. Algoritmi UNIVERSITÀ DEGLI STUDI DI PAVIA FACOLTÀ DI INGEGNERIA Algoritmi Algoritmi classici Alcuni problemi si presentano con elevata frequenza e sono stati ampiamente studiati Ricerca di un elemento in un vettore

Dettagli

FASTA. Lezione del

FASTA. Lezione del FASTA Lezione del 10.03.2016 Omologia vs Similarità Quando si confrontano due sequenze o strutture si usano spesso indifferentemente i termini somiglianza o omologia per indicare che esiste un rapporto

Dettagli

Apprendimento Automatico (Feature Selection e Kernel Learning)

Apprendimento Automatico (Feature Selection e Kernel Learning) Apprendimento Automatico (Feature Selection e Kernel Learning) Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Servono tutti gli attributi? Gli

Dettagli

Corso di Matematica per la Chimica

Corso di Matematica per la Chimica Dott.ssa Maria Carmela De Bonis a.a. 2013-14 Il best fitting In molte applicazioni accade di avere una certa quantità di dati (solitamente elevata) e di voler descrivere l andamento del fenomeno che ha

Dettagli

Allineamenti Multipli di Sequenze

Allineamenti Multipli di Sequenze Allineamenti Multipli di Sequenze 1 Allineamento multiplo di sequenze: obiettivi di oggi Definire un allineamento multiplo di sequenze; com è generato; comprendere i principali metodi. Introdurre i database

Dettagli

strutture di Proteine

strutture di Proteine Laboratorio di Bioinformatica I Database di strutture di Proteine Dott. Sergio Marin Vargas (2014 / 2015) Dal gene alla proteina La funzione della proteina è nella sua struttura 3D. Struttura delle proteine

Dettagli

La struttura delle proteine

La struttura delle proteine La struttura delle proteine Funzioni delle proteine Strutturali Contrattili Trasporto Riserva Ormonali Enzimatiche Protezione Struttura della proteina Struttura secondaria: ripiegamento locale della catena

Dettagli

3 CENNI DI TEORIA DELLA COMPLESSITA COMPUTAZIONALE. E. Amaldi Fondamenti di R.O. Politecnico di Milano 1

3 CENNI DI TEORIA DELLA COMPLESSITA COMPUTAZIONALE. E. Amaldi Fondamenti di R.O. Politecnico di Milano 1 3 CENNI DI TEORIA DELLA COMPLESSITA COMPUTAZIONALE E. Amaldi Fondamenti di R.O. Politecnico di Milano 1 Scopo: Stimare l onere computazionale per risolvere problemi di ottimizzazione e di altra natura

Dettagli

1) Codici convoluzionali. 2) Circuito codificatore. 3) Diagramma a stati e a traliccio. 4) Distanza libera. 5) Algoritmo di Viterbi

1) Codici convoluzionali. 2) Circuito codificatore. 3) Diagramma a stati e a traliccio. 4) Distanza libera. 5) Algoritmo di Viterbi Argomenti della Lezione 1) Codici convoluzionali 2) Circuito codificatore 3) Diagramma a stati e a traliccio 4) Distanza libera 5) Algoritmo di Viterbi 1 Codici convoluzionali I codici convoluzionali sono

Dettagli

Elaborazione statistica di dati

Elaborazione statistica di dati Elaborazione statistica di dati CONCETTI DI BASE DI STATISTICA ELEMENTARE Taratura strumenti di misura IPOTESI: grandezza da misurare identica da misura a misura Collaudo sistemi di produzione IPOTESI:

Dettagli

Le biomolecole si trovano negli organismi viventi

Le biomolecole si trovano negli organismi viventi Le biomolecole si trovano negli organismi viventi I viventi sono formati per la maggior parte da acqua e molecole, chiamate biomolecole. Le biomolecole sono sostanze contenenti carbonio. I composti del

Dettagli