Riconoscimento e recupero dell informazione per bioinformatica
|
|
- Brigida Zani
- 5 anni fa
- Visualizzazioni
Transcript
1 Riconoscimento e recupero dell informazione per bioinformatica Clustering Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona
2 Una definizione possibile [Jain et al., ACM Computing Surveys, 1999] Il clustering rappresenta l organizzazione di un insieme di patterns (entità) in gruppi (clusters) sulla base della similarità Pattern: entità di interesse, come sequenze di geni, spettri di risonanza, i pattern in un gruppo sono tutti simili tra loro, i pattern di gruppi diversi sono invece differenti tra di loro I cluster sono insiemi di pattern simili Il processo è completamente non supervisionato Non è data nessuna informazione a priori sui gruppi 2
3 Nota Il termine data clustering rappresenta un concetto utilizzato in molte comunità: Pattern Recognition, Statistical Data Analysis, Machine Learning, Knowledge and Data Engineering, Psychology, Geology In ogni contesto ci sono diverse terminologie, assunzioni, ipotesi In generale, il significato comune è quello di metodi per raggruppare dati non etichettati (dati di cui non si conosce la categoria/la classe) In questo corso: il punto di visto della Pattern recognition Il più vicino alla bioinformatica / il più utilizzato in questo contesto 3
4 Intrinsecamente un problema mal posto Il clustering rappresenta l organizzazione di un insieme di patterns (entità) in gruppi (clusters) sulla base della similarità Qual è la similarità più appropriata? Cambiare la similarità cambia il risultato Cosa deve rappresentare un buon gruppo? Il concetto di gruppo è definito in modo vago e assolutamente soggettivo Il processo è non supervisionato: non sappiamo se facciamo giusto! (differentemente dalla classificazione) 4
5 Esempio: Oggetti da clusterizzare
6 Ci sono 2 gruppi: mele e pere
7 Altra possibilità: frutta rossa e frutta verde
8 Quindi Il concetto di cluster è vago Dipendentemente dalle misure di similarità utilizzate cambia il risultato La scelta della misura di similarità è cruciale. Dovrebbe essere fatta in modo da inglobare la maggior quantità possibile di informazione a priori. Il risultato può cambiare anche a seconda della metodologia utilizzata per fare clustering 8
9 Un tipico sistema di clustering
10 Un tipico sistema di clustering Data samples Pattern Representation Definition of similarity Results interpretation Clusters Validation Clustering Algorithm Design feedback 10 Clusters
11 Esempio guida: la filogenesi Filogenesi: inferire le relazioni genealogiche tra gli organismi clustering di sequenze geniche o proteiche 11
12 Rappresentazione dei Pattern Descrizione digitale del pattern (già vista) Concetti di tipo di pattern, tipo di dato, preprocessing, estrazione di features, selezione di features... 12
13 Esempio Insetti da clusterizzare Dati grezzi: le sequenze di DNA relative ad un determinato gene CAGATCTTGACGATCCCAAGTGGTTCATTGGCTTTAGATGAAG TACCGATCTTGACGATCCCAAGTCATTGGCTTTAGATGAAG CAGATCTTGACGATCCCAAGTGGTTCATTGGCTTTAGATGAAG CAGATCTTCACGATCCCAAGTGGTTCATTGGCTTTAGAT Pre-processing: allineamento delle sequenze CA--GATCTTGACGATCCCAAGTGGTTCATTGGCTTTAGATGAAG TACCGATCTTGACGATCCCAAG----TCATTGGCTTTAGATGAAG CA--GATCTTGACGATCCCAAGTGGTTCATTGGCTTTAGATGAAG CA -GATCTTCACGATCCCAAGTGGTTCATTGGCTTTAGAT
14 Similarità Il concetto di similarità è strettamente incapsulato nella definizione di cluster la maggior parte degli algoritmi di clustering dipendono strettamente dalla definizione di questa misura Esistono molte definizioni diverse dipendentemente dal dominio dipendentemente dal tipo di feature dipendentemente dalla conoscenza a priori similarità / distanza 14
15 Esempio Misura di similarità: la distanza tra due sequenze è rappresentata dal numero di sostituzioni che ci sono, pesate in un certo modo ESEMPIO: misura di Jukes-Cantor (p = proporzione di nucleotidi dove le due sequenze differiscono) d S 1, S 2 = log p Si calcola la distanza tra tutte le coppie di sequenze Matrice di distanza 4 4 Distanza tra la prima e la seconda sequenza 15
16 Metodologie di Clustering Obiettivo: trovare i gruppi data la definizione di similarità Non esiste un unica metodologia appropriata per tutti i problemi la scelta di un algoritmo appropriato dipende dal dominio, dal processo di acquisizione, dalla conoscenza a priori, dalla quantità di dati a disposizione Ci sono molti metodi in letteratura Diversi criteri di ottimizzazione, assunzioni, modelli, requisiti computazionali Principale suddivisione: metodi partizionali o gerarchici 16
17 Metodi partizionali il risultato è una singola partizione del dataset (il numero di cluster è dato a priori) x 2 F G x 2 F G D E D E A C B A C B x 1 x 1 Esempi: K-means (e le sue varianti), ISODATA, PAM,... 17
18 Metodi gerarchici il risultato è una serie di partizioni innestate (un albero binario detto dendrogramma ) x 2 F G A C B D E x 1 Esempi: Complete Link, Single Link, Ward,... 18
19 Esempio Clustering 4 4 Similarity matrix Clustering gerarchico Albero filogenetico 19
20 Validazione del clustering Ogni algoritmo di clustering genera SEMPRE un risultato Approcci differenti tipicamente portano a differenti clusters Non c è il ground truth, il processo è non supervisionato La validazione dei cluster è fondamentale Domande: I dati sono casuali o esiste qualche giustificazione per il clustering? I cluster che determino sono ottimali? E in che senso? 20
21 Esempio Validazione del clustering Analisi della robustezza del clustering: BOOTSTRAP Vengono creati N nuovi data set (per esempio 1000) campionando casualmente N colonne (con rimpiazzo) in questo modo in ogni dataset generato contiene lo stesso insieme di specie, con alcuni dei nucleotidi duplicati e con altri rimossi Per ogni data set viene costruito l albero (clustering) Viene calcolata la frequenza con cui ogni sottogruppo dell albero viene ripetuta Questa indica la robustezza di un raggruppamento 21
22 22
23 Interpretazione dei risultati L obiettivo finale è quella di estrarre / recuperare conoscenza ottenere intuizioni dal data set Il fuoco deve essere sulla interpretabilità dei prodotti interpretabilità dei metodi mette a proprio agio l utente interpretabilità delle soluzioni permette di capire gli errori 23
24 Esempio D. simulans and D. sechellia sono più simili tra di loro che rispetto agli altri divergenza evolutiva più recente 24
25 Clustering: misure di similarità 25
26 Definizioni Coefficiente di similarità: indica la forza della relazione tra due oggetti maggiore è la somiglianza tra questi oggetti, più alto è il coefficiente di similarità Dissimilarità (distanza): concetto simile ma che misura le differenze tra due oggetti In generale si può parlare di misure di prossimità 26
27 Definizioni Concetto di metrica (già vista nella lezione sulla rappresentazione): misura di prossimità con particolari caratteristiche Definizione: (dissimilarità/distanza metrica): misura di dissimilarità che soddisfa le seguenti proprietà: 27
28 Altra rappresentazione Matrice di prossimità: matrice che descrive i valori della funzione per tutte le possibili coppie simmetrica / asimmetrica, dissimilarità / similarità,... 28
29 Una distanza asimmetrica Esempio: distanza tra sequenze di DNA Distanza= inverso dell'alignment score basato sulla matrice di sostituzione Distanza simmetrica se la matrice di sostituzione è simmetrica ( A T è uguale a T A ) Jukes-Cantor 29
30 Una distanza asimmetrica Se la matrice di sostituzione non è simmetrica, allora non è la stessa cosa allineare la sequenza 1 su 2 o allineare la sequenza 2 su 1 Esempio: Distanza Tajima-Nei per sequenze di DNA Pesa in modo diverso le sostituzioni tenendo conto della frequenza che i nucleotidi hanno all interno delle sequenze α ga α gc 30
31 Commenti La scelta della misura di similarità/distanza è cruciale e influenza enormemente l uscita del clustering Informazione a priori: contesto applicativo tipo di pattern (vettore, sequenza, dati mancanti) dimensionalità del pattern scala cardinalità dell insieme requisiti (velocità vs precisione): e.g. retrieval by content (esperienza del ricercatore) 31
32 Trasformazione Similarità e dissimilarità misurano la stessa quantità da due punti di vista differenti Trasformazione: 32
33 Misure per pattern vettoriali Campo molto investigato: esistono molte misure diverse! vettori numerici vettori categorici vettori binari Distanze tra vettori numerici distanza euclidea distanza di Manhattan distanza Maximum distanza di Mahalanobis distanza di Minkowski misura coseno (similarità) 33
34 Vettori numerici Nozioni preliminari: vettori x = [x 1 x d ], y = [y 1 y d ] distanza euclidea Molto utilizzata distanza di Manhattan (city block distance) Tutti i percorsi più brevi hanno la stessa lunghezza Utilizzata nei circuiti dove i fili possono andare solo orizzontalmente o verticalmente 34
35 Vettori numerici Maximum distance (distanza sup ) Distanza di Mahalanobis Scalamento degli assi Pro: invariante alle rotazioni/traslazioni/trasformazioni affini Contro: calcolo della matrice di covarianza 35
36 Vettori numerici Distanza di Minkowsky Generalizzazione della distanza euclidea (p=2) e di quella di manhattan (p=1) Similarità coseno Similarità (non distanza) Tiene conto della lunghezza dei vettori 36
37 Misure per dati categorici Dati discreti (exe DNA) simple matching dissimilarity measure 37
38 Misure per dati binari Dati binari: 0 o 1 Distanza di Hamming: numero di posizioni dove i due vettori differiscono Esempio: la distanza di Hamming tra e è 2 38
39 Misure per dati binari Similarità di Jaccard: misura del grado di overlap fra 2 insiemi A e B L intersezione di A e B divisa per l unione di A e B La distanza di Jaccard si ottiene facilmente facendo JD(A,B) = 1 J(A,B) 39
40 Misure per dati binari Da questa misura si puà ricavare la versione per dati binari: Date 2 stringhe binarie A e B: JD (A, B) bin =1 M 11 + M 00 M 11 +M 01 + M 00 = M 10 +M 10 M 11 +M 01 +M 00 M 11 n. di simboli dove sia A che B valgono 1. M 00 n. di simboli dove sia A che B valgono 0. M 01 n. di simboli dove A vale 0 e B vale 1. M 10 n. di simboli dove A vale 1 e B vale 0. Molto utilizzata in bioinformatica 40
41 Distanza geodesica Tiene conto del supporto : il percorso che effettivamente occorre fare per raggiungere B partendo da A - Misura più realistica, quindi più accurata - Molto più difficile da misurare, occorre conoscere il supporto 41
42 Misure per pattern non vettoriali In caso di pattern non vettoriali occorre disegnare specifiche distanze Dipendendono dal tipo di pattern Una possibilità è quella di misurare il costo passare da un pattern all'altro Esempio: Edit distance per sequenze 42
43 Edit Distance Edit distance: misura quante modifiche occorre effettuare su una sequenza per ottenerne un'altra Sostituzioni, inserzioni, cancellazioni In altre parole, il costo che si deve pagare per convertire un pattern nell altro ESEMPIO: i simboli sono lettere, i pattern sono parole di un testo scritto. Possibili editing : sostituzioni: pattern pastern inserzioni: pattern patterns cancellazioni: pattern pttern 43
44 Edit distance Edit distance j varia tra tutte le possibili variazioni necessarie per ottenere B da A Soluzione algoritmica: programmazione dinamica (dettagli nel cap del Theodoridis) Molto utilizzato per automatic editing e text retrieval (trovare il best match tra un pattern e un database di patterns) Utilizzabile per trovare la distanza tra due sequenze di geni 44
45 Un esempio biologico: BLAST Basic Local Alignment Search Tool algoritmo per confrontare sequenze biologiche (nucleotidiche o aminoacidiche) confronta una sequenza di test con un database di sequenze, ritornando le più simili uno degli algoritmi più famosi di bioinformatica affronta un problema molto importante è computazionalmente efficiente -- la ricerca effettuata con algoritmi di programmazione dinamica è assolutamente inefficiente, vista la mole di dati presente oggigiorno BLAST è 50 volte più veloce 45
46 Un esempio biologico: BLAST IDEA: cerca di allineare due sequenze, lo score di allineamento rappresenta la misura della bontà del match Assunzioni / Idee per velocizzare l approccio non cercare l allineamento ottimale non effettuare la ricerca in tutto lo spazio delle sequenze utilizzare una serie di euristiche per velocizzare l approccio Input dell algoritmo: sequenza query (sequenza sconosciuta) sequenza target (o database) 46
47 Un esempio biologico: BLAST PASSI dell ALGORITMO 1. Rimuovere le regioni di bassa complessità della sequenza query regioni della sequenza con ripetizioni di pochi tipi di simbolo possono confondere il programma nello trovare regioni significative 2. Creare una lista delle word di K lettere della sequenza query 47
48 Un esempio biologico: BLAST 1. cercare, in tutte le sequenze del database, tutte le word di lunghezza K che hanno un buon match con le word della sequenza query buon match = score di allineamento sopra una certa soglia utilizzo della substitution matrix per calcolare lo score lo score considera l allineamento senza gap ogni word trovata si chiama hit (o hotspot ) allineamento senza gap è molto veloce: possibilità di memorizzare una volta per tutte le posizioni delle word in tutto il database 1. utilizzare ogni hit come seme per allargare la regione di similarità cercare di estendere la coppia di similarità a dx e a sx fino a quando lo score di similarità non diminuisce il risultato si chiama HSP (High Scoring segment pair) 48
49 Un esempio biologico: BLAST 1. visualizzare tutti gli HSP con uno score sufficientemente alto vengono listati in ordine di score 2. fornire un analisi statistica degli score risultanti: l Evalue misura il numero di hit che si potrebbero vedere per caso, in un database di sequenze casuali dipende dalla dimensionalità del database e dalla lunghezza della sequenza di query la significatività statistica è proporzionale al valore di tale indice (valori attorno allo zero supportano fortemente i risultati) 49
50 Un esempio biologico: BLAST Note: Eventualmente si può gestire anche la presenza di più HSP in una stessa sequenza del database si può utilizzare on line: utilizzatissimo per il buon compromesso tra accuratezza e velocità (negli anni sono state presentate molte varianti) l articolo dove viene presentato è il più citato degli anni 90 Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990). "Basic local alignment search tool". J Mol Biol 215 (3):
Riconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Clustering: introduzione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Una definizione
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Clustering: similarità Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizioni
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Clustering: similarità Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Definizioni preliminari
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Filogenesi Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Introduzione alla
DettagliRiconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego
Riconoscimento e recupero dell informazione per bioinformatica Clustering: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizione
DettagliBLAST. W = word size T = threshold X = elongation S = HSP threshold
BLAST Blast (Basic Local Aligment Search Tool) è un programma che cerca similarità locali utilizzando l algoritmo di Altschul et al. Anche Blast, come FASTA, funziona: 1. scomponendo la sequenza query
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Clustering: metodologie Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Tassonomia
DettagliQuarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST
Quarta lezione 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST Ricerca di omologhe in banche dati Proteina vs. proteine Gene (traduzione in aa) vs. proteine Gene vs. geni
DettagliIntelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011
Intelligenza Artificiale Clustering Francesco Uliana 14 gennaio 2011 Definizione Il Clustering o analisi dei cluster (dal termine inglese cluster analysis) è un insieme di tecniche di analisi multivariata
DettagliSAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing
SAGA: sequence alignment by genetic algorithm ALESSANDRO PIETRELLI Soft Computing Bologna, 25 Maggio 2007 Multi Allineamento di Sequenze (MSAs) Cosa sono? A cosa servono? Come vengono calcolati Multi Allineamento
DettagliZ-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random
Z-score lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random è una misura di quanto il valore di opt si discosta dalla deviazione standard media. indica di quante dev.
DettagliAlgoritmi di Allineamento
Algoritmi di Allineamento CORSO DI BIOINFORMATICA Corso di Laurea in Biotecnologie Università Magna Graecia Catanzaro Outline Similarità Allineamento Omologia Allineamento di Coppie di Sequenze Allineamento
DettagliLezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni:
Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni: antonella.meloni@ifc.cnr.it Sequenza A= stringa formata da N simboli, dove i simboli apparterranno ad un certo alfabeto. A
DettagliLezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST
Lezione 8 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere
DettagliLezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST
Lezione 8 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere
DettagliLaboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2.
Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti patti@di.unito.it Esercitazione 7 1 Info&Bio Bio@Lab Allineamento di sequenze Esercitazione 7 2 1 Es2: Allineamento
DettagliTeoria e Tecniche del Riconoscimento Clustering
Facoltà di Scienze MM. FF. NN. Università di Verona A.A. 2010-11 Teoria e Tecniche del Riconoscimento Clustering Sommario Tassonomia degli algoritmi di clustering Algoritmi partizionali: clustering sequenziale
DettagliPiù nel dettaglio...
Più nel dettaglio. Rappresentazione Obiettivo: trovare una rappresentazione digitale per gli oggetti del problema in esame Tipicamente si effettuano una serie di misure sull'oggetto, utilizzando dei sensori
DettagliAllineamento multiplo di sequenze
Allineamento multiplo di sequenze Bioinformatica a.a. 2008/2009 Letterio Galletta Università di Pisa 22 Maggio 2009 Letterio Galletta (Università di Pisa) Allineamento multiplo di sequenze 22 Maggio 2009
DettagliFASTA. Lezione del
FASTA Lezione del 10.03.2016 Omologia vs Similarità Quando si confrontano due sequenze o strutture si usano spesso indifferentemente i termini somiglianza o omologia per indicare che esiste un rapporto
DettagliCluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare!
La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. Le tecniche di cluster analysis vengono usate per esplorare i dati e non per modellare! La cluster analysis
DettagliIntroduzione all analisi di arrays: clustering.
Statistica per la Ricerca Sperimentale Introduzione all analisi di arrays: clustering. Lezione 2-14 Marzo 2006 Stefano Moretti Dipartimento di Matematica, Università di Genova e Unità di Epidemiologia
DettagliPattern recognition. III Parte. Intelligenza Artificiale - Pattern Recognition 3
Pattern recognition III Parte 1 QUANTIZZAZIONE VETTORIALE Si può pensare come un algoritmo derivato da K-MEANS e da ISODATA. 1.All inizio tutti i vettori sono attribuiti ad un unico cluster. Si calcola
DettagliRicerca di outlier. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna
Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla
DettagliRiconoscimento automatico di oggetti (Pattern Recognition)
Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi
DettagliMetodologie di Clustering
Metodologie di Clustering Nota preliminare Esistono moltissimi algoritmi di clustering Questi algoritmi possono essere analizzati da svariati punti di vista La suddivisione principale tuttavia è quella
DettagliRicerca di omologia di sequenza
Ricerca di omologia di sequenza RICERCA DI OMOLOGIA DI SEQUENZA := Data una sequenza (query), una banca dati, un sistema per il confronto e una soglia statistica trovare le sequenze della banca più somiglianti
DettagliLezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST
Lezione 6 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Classificazione: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Introduzione
DettagliLe sequenze consenso
Le sequenze consenso Si definisce sequenza consenso una sequenza derivata da un multiallineamento che presenta solo i residui più conservati per ogni posizione riassume un multiallineamento. non è identica
DettagliPairwise Sequence Alignment BIOINFORMATICA. Corso di Laurea in Ingegneria Informatica e Biomedica. Università Magna Graecia Catanzaro
Pairwise Sequence Alignment BIOINFORMATICA Corso di Laurea in Ingegneria Informatica e Biomedica Università Magna Graecia Catanzaro Outline Similarità Allineamento Omologia Allineamento Esatto di Coppie
DettagliUNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche)
Docente: Matteo Re UNIVERSITÀ DEGLI STUDI DI MILANO C.d.l. Informatica Bioinformatica A.A. 2013-2014 semestre I 3 Allineamento veloce (euristiche) Banche dati primarie e secondarie Esistono due categorie
DettagliApprendimento Automatico
Apprendimento Automatico Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Rappresentazione dei dati con i kernel Abbiamo una serie di oggetti S
DettagliStatistica per l Impresa
Statistica per l Impresa a.a. 207/208 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 2 maggio 208 Indice Analisi dei Gruppi: Introduzione Misure di distanza e indici di similarità 3. Metodi gerarchici
DettagliFASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento
Algoritmi EURISTICI di allineamento Sono nati insieme alle banche dati, con lo scopo di permettere una ricerca per similarità rapida anche se meno accurata contro le migliaia di sequenze depositate. Attualmente
DettagliInformatica per la Comunicazione/ Verdicchio/ 22/05/2014/ Domande / VERSIONE 1
Informatica per la Comunicazione/ Verdicchio/ 22/05/2014/ Domande / VERSIONE 1 1) In che senso i brani di Bach by Design sono originali? a) Hanno uno stile musicale nuovo b) Hanno una sequenza di note
DettagliTecniche di riconoscimento statistico
On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 9 Alberi di decisione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr
DettagliApprendimento Automatico (Feature Selection e Kernel Learning)
Apprendimento Automatico (Feature Selection e Kernel Learning) Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Servono tutti gli attributi? Gli
DettagliLa ricerca di similarità: i metodi
La ricerca di similarità: i metodi Pairwise alignment allineamenti a coppie 1. Analisi della matrice a punti (dot matrix) 2. Programmazione dinamica (dynamic programming) allineamenti locale e globale.
DettagliCluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca
Cluster Analysis Distanze ed estrazioni M Q Marco Perugini Milano-Bicocca 1 Scopi Lo scopo dell analisi dei Clusters è di raggruppare casi od oggetti sulla base delle loro similarità in una serie di caratteristiche
DettagliL A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010
L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi
DettagliBioinformatica. Analisi del genoma
Bioinformatica Analisi del genoma GABRIELLA TRUCCO CREMA, 5 APRILE 2017 Cosa è il genoma? Insieme delle informazioni biologiche, depositate nella sequenza di DNA, necessarie alla costruzione e mantenimento
DettagliAnalisi di dati Microarray: Esercitazione Matlab
Analisi di dati Microarray: Esercitazione Matlab Laboratorio di Bioinformatica II Pietro Lovato Anno Accademico 2011/2012 Contenuti 1 Introduzione Introduzione a Matlab Bioinformatics Toolbox DNA Microarray
DettagliIndice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1
Introduzione...xi Argomenti trattati in questo libro... xi Dotazione software necessaria... xii A chi è rivolto questo libro... xii Convenzioni utilizzate... xiii Scarica i file degli esempi... xiii Capitolo
DettagliSistemi di Elaborazione dell Informazione 170. Caso Non Separabile
Sistemi di Elaborazione dell Informazione 170 Caso Non Separabile La soluzione vista in precedenza per esempi non-linearmente separabili non garantisce usualmente buone prestazioni perchè un iperpiano
DettagliUTILIZZO DELL ANALISI DELLE COMPONENTI PRINCIPALI (PCA) DI DATI HVSR FINALIZZATO ALLA ZONAZIONE SISMICA
UTILIZZO DELL ANALISI DELLE COMPONENTI PRINCIPALI (PCA) DI DATI HVSR FINALIZZATO ALLA ZONAZIONE SISMICA Terremoto de L Aquila, 2009 Gallipoli et al., 2011 Lo scopo di questo lavoro è quello di indagare
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Rappresentazione dei dati Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Rappresentazione
DettagliRiconoscimento e recupero dell informazione per bioinformatica
Riconoscimento e recupero dell informazione per bioinformatica Clustering: metodologie Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Tassonomia
DettagliTraining Set Test Set Find-S Dati Training Set Def: Errore Ideale Training Set Validation Set Test Set Dati
" #!! Suddivisione tipica ( 3 5 6 & ' ( ) * 3 5 6 = > ; < @ D Sistemi di Elaborazione dell Informazione Sistemi di Elaborazione dell Informazione Principali Paradigmi di Apprendimento Richiamo Consideriamo
DettagliAlgoritmi di classificazione supervisionati
Corso di Bioinformatica Algoritmi di classificazione supervisionati Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di apprendimento supervisionato per problemi di biologia computazionale
DettagliGestione e modellazione di dati bioinformatici
Gestione e modellazione di dati bioinformatici MODULO: Riconoscimento e Recupero dell informazione per Bioinformatica Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università
DettagliLaboratorio di Programmazione II Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona
Laboratorio di Programmazione II Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Algoritmo a ed Analisi del DNA : sequenze di basi di particolare interesse
DettagliMachine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione
Corso di Bioinformatica Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di machine learning I metodi
DettagliReti Neurali in Generale
istemi di Elaborazione dell Informazione 76 Reti Neurali in Generale Le Reti Neurali Artificiali sono studiate sotto molti punti di vista. In particolare, contributi alla ricerca in questo campo provengono
DettagliInformatica 3. Informatica 3. LEZIONE 21: Ricerca su liste e tecniche di hashing. Lezione 21 - Modulo 1. Introduzione (1) Introduzione (2) Ricerca:
Informatica 3 Informatica 3 LEZIONE 21: Ricerca su liste e tecniche di hashing Modulo 1: Algoritmi sequenziali e basati su liste Modulo 2: Hashing Lezione 21 - Modulo 1 Algoritmi sequenziali e basati su
DettagliIl progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.
Il progetto Genoma Umano è iniziato nel 1990. E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA. Progetto internazionale finanziato da vari paesi, affidato
DettagliComputazione per l interazione naturale: macchine che apprendono
Computazione per l interazione naturale: macchine che apprendono Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it
DettagliSDE Marco Riani
SDE 2017 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis (analisi dei gruppi) ANALISI DISCRIMINANTE
DettagliApprendimento basato sulle istanze
Apprendimento basato sulle istanze Apprendimento basato sulle istanze Apprendimento: semplice memorizzazione di tutti gli esempi Classificazione di una nuova istanza x j : reperimento degli
DettagliData Science A.A. 2018/2019
Corso di Laurea Magistrale in Economia Data Science A.A. 2018/2019 Lez. 5 Data Mining Data Science 2018/2019 1 Data Mining Processo di esplorazione e analisi di un insieme di dati, generalmente di grandi
DettagliLaboratorio di Calcolo Numerico Laboratorio 3: Algoritmi stabili e instabili, Bisezione
Laboratorio di Calcolo Numerico Laboratorio 3: Algoritmi stabili e instabili, Bisezione Claudia Zoccarato E-mail: claudia.zoccarato@unipd.it Dispense: Moodle Dipartimento ICEA 22 Marzo 2017 Vettori in
DettagliUniversità degli studi di Pisa
Università degli studi di Pisa Nicola Guido PATTERNHUNTER: Faster and More Sensitive. Homology Search Seminario: Bioinformatica a.a. 2008/2009 Contenuto della presentazione Introduzione Scenario PatternHunter
DettagliProblemi algoritmici e Complessità degli algoritmi
Problemi algoritmici e Complessità degli algoritmi Università degli Studi di Salerno Corso di Laurea in Scienze della comunicazione Informatica generale Docente: Angela Peduto A.A. 2005/2006 Problemi algoritmici!
DettagliBioinformatica ed applicazioni di bioinformatica strutturale!
Bioinformatica ed applicazioni di bioinformatica strutturale! Bioinformatica! Le banche dati! Programmi per estrarre ed analizzare i dati! I numeri! Cellule nell uomo! Geni nell uomo! Genoma umano Il dogma
DettagliQuery Languages. R. Basili. a.a
Query Languages R. Basili a.a. 2004-5 1 Interrogazioni Booleane Keywords e operatori logici: OR: (e 1 OR e 2 ) AND: (e 1 AND e 2 ) BUT: (e 1 BUT e 2 ) int: e 1 ma non e 2 Negazione e ammessa solo utilizzando
DettagliMODELLO SCHEDA INSEGNAMENTO. II II Luigi Cerulo
Corso di L/LM/LMCU Denominazione insegnamento: MODELLO SCHEDA INSEGNAMENTO Numero di Crediti: 6 Anno: Semestre: Docente Titolare: Scienze e Tecnologie Genetiche Bioinformatica II II Luigi Cerulo Dottorandi/assegnisti
DettagliMisura della performance di ciascun modello: tasso di errore sul test set
Confronto fra modelli di apprendimento supervisionato Dati due modelli supervisionati M 1 e M costruiti con lo stesso training set Misura della performance di ciascun modello: tasso di errore sul test
DettagliAlberi filogenetici. File: alberi_filogenetici.odp. Riccardo Percudani 02/03/04
Alberi filogenetici The tree of life Albero filogenetico costruito con le sequenze della subunità piccola dell RNA ribosomale. Tutte le forme viventi condividono un comune ancestore (LCA, last common ancestor
DettagliANALISI DEI DATI PER IL MARKETING 2014
ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it MISURE DI DISTANZA E SIMILARITA 1 SCOPI DEL CALCOLO Problema: misurare la diversità (ovvero la rassomiglianza) tra
DettagliObiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che:
Cluster Analysis Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che: le unità appartenenti ad uno di essi sono il più possibile omogenee i gruppi sono
DettagliMaria Brigida Ferraro + Luca Tardella
Cluster Maria Brigida Ferraro + Luca Tardella e-mail: mariabrigida.ferraro@uniroma1.it, ferraromb@gmail.com Lezione #3: Cluster Obiettivi del modulo Cluster 1 Introduzione ai problemi di classificazione
DettagliAllineamenti a coppie
Laboratorio di Bioinformatica I Allineamenti a coppie Dott. Sergio Marin Vargas (2014 / 2015) ExPASy Bioinformatics Resource Portal (SIB) http://www.expasy.org/ Il sito http://myhits.isb-sib.ch/cgi-bin/dotlet
DettagliMusic Information Retrieval
: Manipolazione del segnale audio e Music Information Retrieval Music Information Retrieval lezione 9: 11/04/2016 Sound and Music Computing Definizione e scopo Studio della catena di comunicazione relativa
DettagliTeoria e Tecniche del Riconoscimento
Facoltà di Scienze MM. FF. NN. Università di Verona A.A. 2010-11 Teoria e Tecniche del Riconoscimento Introduzione alla Pattern Recognition Marco Cristani 1 Inquadramento Sistemi di Pattern Recognition
DettagliApplicazioni della SVD
Applicazioni della SVD Gianna M. Del Corso Dipartimento di Informatica, Università di Pisa, Italy 28 Marzo 2014 1 Le applicazioni presentate 2 Text Mining 3 Algoritmo di riconoscimento di volti Le Applicazioni
DettagliRELAZIONE DI BIOLOGIA MOLECOLARE
RELAZIONE DI BIOLOGIA MOLECOLARE 2 BRUNO FRANCESCA mat.576193 Analisi di proteine. Descrivi un database di interazioni proteiche e mostra con quali proteine interagisce la proteina KEN di Drosophila. Uno
DettagliData mining: attività di scoperta di informazione latente all interno di un certo insieme di dati (tipicamente molto grande) Information retrieval
Filippo Geraci Data mining: attività di scoperta di informazione latente all interno di un certo insieme di dati (tipicamente molto grande) Information retrieval (IR): insieme delle tecnologie utilizzate
Dettagli1) Codici convoluzionali. 2) Circuito codificatore. 3) Diagramma a stati e a traliccio. 4) Distanza libera. 5) Algoritmo di Viterbi
Argomenti della Lezione 1) Codici convoluzionali 2) Circuito codificatore 3) Diagramma a stati e a traliccio 4) Distanza libera 5) Algoritmo di Viterbi 1 Codici convoluzionali I codici convoluzionali sono
DettagliProgrammazione dinamica
Programmazione dinamica Violetta Lonati Università degli studi di Milano Dipartimento di Informatica Laboratorio di algoritmi e strutture dati Corso di laurea in Informatica Violetta Lonati Programmazione
DettagliModelli di recupero. Modello di recupero booleano
Modelli di recupero L obiettivo è recuperare i documenti che sono verosimilmente rilevanti all interrogazione. Vi sono vari modelli di recupero, che possono essere suddivisi in due grandi famiglie: exact
DettagliCorso di Laurea di Scienze biomolecolari e ambientali Laurea magistrale
UNIVERSITA DEGLI STUDI DI PERUGIA Dipartimento di Chimica, Biologia e Biotecnologie Via Elce di Sotto, 06123 Perugia Corso di Laurea di Scienze biomolecolari e ambientali Laurea magistrale Corso di ANALISI
DettagliTeoria e Tecniche del Riconoscimento
Facoltà di Scienze MM. FF. NN. Università di Verona A.A. 2010-11 Teoria e Tecniche del Riconoscimento Notizie preliminari Introduzione Marco Cristani Teoria e Tecniche del Riconoscimento 1 Il docente Prof.
DettagliClustering Mario Guarracino Data Mining a.a. 2010/2011
Clustering Introduzione Il raggruppamento di popolazioni di oggetti (unità statistiche) in base alle loro caratteristiche (variabili) è da sempre oggetto di studio: classificazione delle specie animali,
DettagliData Mining and Machine Learning Lab. Lezione 8 Master in Data Science for Economics, Business and Finance 2018
Data Mining and Machine Learning Lab. Lezione 8 Master in Data Science for Economics, Business and Finance 2018 18.05.18 Marco Frasca Università degli Studi di Milano SVM - Richiami La Support Vector Machine
DettagliAnalisi esplorativa di dati multidimensionali
io e Luigi Fabbris Analisi esplorativa di dati multidimensionali 'CENTRO " G. ASTENGO» cleup editore INVENTARIO 2B6 c., INDICE DEI CONTENUTI -~ Cap. 1 L'analisi dei dati nella ricerca sociale pag. I 1.1.
DettagliModello computazionale per la predizione di siti di legame per fattori di trascrizione
Modello computazionale per la predizione di siti di legame per fattori di trascrizione Attività di tirocinio svolto presso il Telethon Institute of Genetics and Medicine Relatori Prof. Giuseppe Trautteur
DettagliBioinformatics more basic notions
Bioinformatics more basic notions Alcune slides provengono dal materiale rilasciato da: Dr Sergio Marin Vargas - Verona Prof. Riccardo Percudari - Parma Bioinformatics Bio-inspired Computer science Gli
DettagliAllineamento e similarità di sequenze
Allineamento e similarità di sequenze Allineamento di Sequenze L allineamento tra due o più sequenza può aiutare a trovare regioni simili per le quali si può supporre svolgano la stessa funzione; La similarità
DettagliComputazione per l interazione naturale: macchine che apprendono
Comput per l inter naturale: macchine che apprendono Corso di Inter uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it http://boccignone.di.unimi.it/ium2_2014.html
DettagliDistanza di Edit. Speaker: Antinisca Di Marco Data:
Distanza di Edit Speaker: Antinisca Di Marco Data: 14-04-2016 Confronto di sequenze Il confronto tra sequenze in biologia computazionale è la base per: misurare la similarità tra le sequenze allineamento
DettagliSottosequenza comune piu' lunga (programmazione dinamica)
piu' (programmazione Laboratorio di Programmazione II Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario piu' piu' Il problema del turista a manhattan piu' Problema
DettagliData mining: attività di scoperta di informazione latente all interno di un certo insieme di dati (tipicamente molto grande) Information retrieval
Filippo Geraci 1 Data mining: attività di scoperta di informazione latente all interno di un certo insieme di dati (tipicamente molto grande) Information retrieval (IR): insieme delle tecnologie utilizzate
DettagliCorso di Laurea Specialistica in Ingegneria Informatica
UNIVERSITÀ DEGLI STUDI DI PADOVA FACOLTÀ DI INGEGNERIA Corso di Laurea Specialistica in Ingegneria Informatica Ragionamento Qualitativo e Apprendimento Automatico per l'analisi di Dati di Genomica RELATORE:
DettagliI metodi di Classificazione automatica
L Analisi Multidimensionale dei Dati Una Statistica da vedere I metodi di Classificazione automatica Matrici e metodi Strategia di AMD Anal Discrimin Segmentazione SI Per riga SI Matrice strutturata NO
DettagliLinguistica Computazionale 2004 Presentazione del Corso
13 febbraio 2004 1 Informazioni generali Docente Marco Baroni Email baroni@sslmit.unibo.it Telefono 0453/374744 Homepage del corso http://www.e-learning.sslmit.unibo.it/compling04/ Orario lezioni Lunedì
DettagliComputazione per l interazione naturale: macchine che apprendono
Computazione per l interazione naturale: macchine che apprendono Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it
DettagliAPPUNTI DI CLUSTER ANALYSIS (Paola Vicard)
APPUNTI DI CLUSTER ANALYSIS (Paola Vicard) Obiettivi della cluster analysis La cluster analysis è una delle principali tecniche di analisi statistica multivariata per raggruppare le unità osservate in
DettagliEsercizio: apprendimento di congiunzioni di letterali
input: insieme di apprendimento istemi di Elaborazione dell Informazione 18 Esercizio: apprendimento di congiunzioni di letterali Algoritmo Find-S /* trova l ipotesi più specifica consistente con l insieme
Dettagli