Riconoscimento e recupero dell informazione per bioinformatica

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Riconoscimento e recupero dell informazione per bioinformatica"

Transcript

1 Riconoscimento e recupero dell informazione per bioinformatica Clustering Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona

2 Una definizione possibile [Jain et al., ACM Computing Surveys, 1999] Il clustering rappresenta l organizzazione di un insieme di patterns (entità) in gruppi (clusters) sulla base della similarità Pattern: entità di interesse, come sequenze di geni, spettri di risonanza, i pattern in un gruppo sono tutti simili tra loro, i pattern di gruppi diversi sono invece differenti tra di loro I cluster sono insiemi di pattern simili Il processo è completamente non supervisionato Non è data nessuna informazione a priori sui gruppi 2

3 Nota Il termine data clustering rappresenta un concetto utilizzato in molte comunità: Pattern Recognition, Statistical Data Analysis, Machine Learning, Knowledge and Data Engineering, Psychology, Geology In ogni contesto ci sono diverse terminologie, assunzioni, ipotesi In generale, il significato comune è quello di metodi per raggruppare dati non etichettati (dati di cui non si conosce la categoria/la classe) In questo corso: il punto di visto della Pattern recognition Il più vicino alla bioinformatica / il più utilizzato in questo contesto 3

4 Intrinsecamente un problema mal posto Il clustering rappresenta l organizzazione di un insieme di patterns (entità) in gruppi (clusters) sulla base della similarità Qual è la similarità più appropriata? Cambiare la similarità cambia il risultato Cosa deve rappresentare un buon gruppo? Il concetto di gruppo è definito in modo vago e assolutamente soggettivo Il processo è non supervisionato: non sappiamo se facciamo giusto! (differentemente dalla classificazione) 4

5 Esempio: Oggetti da clusterizzare

6 Ci sono 2 gruppi: mele e pere

7 Altra possibilità: frutta rossa e frutta verde

8 Quindi Il concetto di cluster è vago Dipendentemente dalle misure di similarità utilizzate cambia il risultato La scelta della misura di similarità è cruciale. Dovrebbe essere fatta in modo da inglobare la maggior quantità possibile di informazione a priori. Il risultato può cambiare anche a seconda della metodologia utilizzata per fare clustering 8

9 Un tipico sistema di clustering

10 Un tipico sistema di clustering Data samples Pattern Representation Definition of similarity Results interpretation Clusters Validation Clustering Algorithm Design feedback 10 Clusters

11 Esempio guida: la filogenesi Filogenesi: inferire le relazioni genealogiche tra gli organismi clustering di sequenze geniche o proteiche 11

12 Rappresentazione dei Pattern Descrizione digitale del pattern (già vista) Concetti di tipo di pattern, tipo di dato, preprocessing, estrazione di features, selezione di features... 12

13 Esempio Insetti da clusterizzare Dati grezzi: le sequenze di DNA relative ad un determinato gene CAGATCTTGACGATCCCAAGTGGTTCATTGGCTTTAGATGAAG TACCGATCTTGACGATCCCAAGTCATTGGCTTTAGATGAAG CAGATCTTGACGATCCCAAGTGGTTCATTGGCTTTAGATGAAG CAGATCTTCACGATCCCAAGTGGTTCATTGGCTTTAGAT Pre-processing: allineamento delle sequenze CA--GATCTTGACGATCCCAAGTGGTTCATTGGCTTTAGATGAAG TACCGATCTTGACGATCCCAAG----TCATTGGCTTTAGATGAAG CA--GATCTTGACGATCCCAAGTGGTTCATTGGCTTTAGATGAAG CA -GATCTTCACGATCCCAAGTGGTTCATTGGCTTTAGAT

14 Similarità Il concetto di similarità è strettamente incapsulato nella definizione di cluster la maggior parte degli algoritmi di clustering dipendono strettamente dalla definizione di questa misura Esistono molte definizioni diverse dipendentemente dal dominio dipendentemente dal tipo di feature dipendentemente dalla conoscenza a priori similarità / distanza 14

15 Esempio Misura di similarità: la distanza tra due sequenze è rappresentata dal numero di sostituzioni che ci sono, pesate in un certo modo ESEMPIO: misura di Jukes-Cantor (p = proporzione di nucleotidi dove le due sequenze differiscono) d S 1, S 2 = log p Si calcola la distanza tra tutte le coppie di sequenze Matrice di distanza 4 4 Distanza tra la prima e la seconda sequenza 15

16 Metodologie di Clustering Obiettivo: trovare i gruppi data la definizione di similarità Non esiste un unica metodologia appropriata per tutti i problemi la scelta di un algoritmo appropriato dipende dal dominio, dal processo di acquisizione, dalla conoscenza a priori, dalla quantità di dati a disposizione Ci sono molti metodi in letteratura Diversi criteri di ottimizzazione, assunzioni, modelli, requisiti computazionali Principale suddivisione: metodi partizionali o gerarchici 16

17 Metodi partizionali il risultato è una singola partizione del dataset (il numero di cluster è dato a priori) x 2 F G x 2 F G D E D E A C B A C B x 1 x 1 Esempi: K-means (e le sue varianti), ISODATA, PAM,... 17

18 Metodi gerarchici il risultato è una serie di partizioni innestate (un albero binario detto dendrogramma ) x 2 F G A C B D E x 1 Esempi: Complete Link, Single Link, Ward,... 18

19 Esempio Clustering 4 4 Similarity matrix Clustering gerarchico Albero filogenetico 19

20 Validazione del clustering Ogni algoritmo di clustering genera SEMPRE un risultato Approcci differenti tipicamente portano a differenti clusters Non c è il ground truth, il processo è non supervisionato La validazione dei cluster è fondamentale Domande: I dati sono casuali o esiste qualche giustificazione per il clustering? I cluster che determino sono ottimali? E in che senso? 20

21 Esempio Validazione del clustering Analisi della robustezza del clustering: BOOTSTRAP Vengono creati N nuovi data set (per esempio 1000) campionando casualmente N colonne (con rimpiazzo) in questo modo in ogni dataset generato contiene lo stesso insieme di specie, con alcuni dei nucleotidi duplicati e con altri rimossi Per ogni data set viene costruito l albero (clustering) Viene calcolata la frequenza con cui ogni sottogruppo dell albero viene ripetuta Questa indica la robustezza di un raggruppamento 21

22 22

23 Interpretazione dei risultati L obiettivo finale è quella di estrarre / recuperare conoscenza ottenere intuizioni dal data set Il fuoco deve essere sulla interpretabilità dei prodotti interpretabilità dei metodi mette a proprio agio l utente interpretabilità delle soluzioni permette di capire gli errori 23

24 Esempio D. simulans and D. sechellia sono più simili tra di loro che rispetto agli altri divergenza evolutiva più recente 24

25 Clustering: misure di similarità 25

26 Definizioni Coefficiente di similarità: indica la forza della relazione tra due oggetti maggiore è la somiglianza tra questi oggetti, più alto è il coefficiente di similarità Dissimilarità (distanza): concetto simile ma che misura le differenze tra due oggetti In generale si può parlare di misure di prossimità 26

27 Definizioni Concetto di metrica (già vista nella lezione sulla rappresentazione): misura di prossimità con particolari caratteristiche Definizione: (dissimilarità/distanza metrica): misura di dissimilarità che soddisfa le seguenti proprietà: 27

28 Altra rappresentazione Matrice di prossimità: matrice che descrive i valori della funzione per tutte le possibili coppie simmetrica / asimmetrica, dissimilarità / similarità,... 28

29 Una distanza asimmetrica Esempio: distanza tra sequenze di DNA Distanza= inverso dell'alignment score basato sulla matrice di sostituzione Distanza simmetrica se la matrice di sostituzione è simmetrica ( A T è uguale a T A ) Jukes-Cantor 29

30 Una distanza asimmetrica Se la matrice di sostituzione non è simmetrica, allora non è la stessa cosa allineare la sequenza 1 su 2 o allineare la sequenza 2 su 1 Esempio: Distanza Tajima-Nei per sequenze di DNA Pesa in modo diverso le sostituzioni tenendo conto della frequenza che i nucleotidi hanno all interno delle sequenze α ga α gc 30

31 Commenti La scelta della misura di similarità/distanza è cruciale e influenza enormemente l uscita del clustering Informazione a priori: contesto applicativo tipo di pattern (vettore, sequenza, dati mancanti) dimensionalità del pattern scala cardinalità dell insieme requisiti (velocità vs precisione): e.g. retrieval by content (esperienza del ricercatore) 31

32 Trasformazione Similarità e dissimilarità misurano la stessa quantità da due punti di vista differenti Trasformazione: 32

33 Misure per pattern vettoriali Campo molto investigato: esistono molte misure diverse! vettori numerici vettori categorici vettori binari Distanze tra vettori numerici distanza euclidea distanza di Manhattan distanza Maximum distanza di Mahalanobis distanza di Minkowski misura coseno (similarità) 33

34 Vettori numerici Nozioni preliminari: vettori x = [x 1 x d ], y = [y 1 y d ] distanza euclidea Molto utilizzata distanza di Manhattan (city block distance) Tutti i percorsi più brevi hanno la stessa lunghezza Utilizzata nei circuiti dove i fili possono andare solo orizzontalmente o verticalmente 34

35 Vettori numerici Maximum distance (distanza sup ) Distanza di Mahalanobis Scalamento degli assi Pro: invariante alle rotazioni/traslazioni/trasformazioni affini Contro: calcolo della matrice di covarianza 35

36 Vettori numerici Distanza di Minkowsky Generalizzazione della distanza euclidea (p=2) e di quella di manhattan (p=1) Similarità coseno Similarità (non distanza) Tiene conto della lunghezza dei vettori 36

37 Misure per dati categorici Dati discreti (exe DNA) simple matching dissimilarity measure 37

38 Misure per dati binari Dati binari: 0 o 1 Distanza di Hamming: numero di posizioni dove i due vettori differiscono Esempio: la distanza di Hamming tra e è 2 38

39 Misure per dati binari Similarità di Jaccard: misura del grado di overlap fra 2 insiemi A e B L intersezione di A e B divisa per l unione di A e B La distanza di Jaccard si ottiene facilmente facendo JD(A,B) = 1 J(A,B) 39

40 Misure per dati binari Da questa misura si puà ricavare la versione per dati binari: Date 2 stringhe binarie A e B: JD (A, B) bin =1 M 11 + M 00 M 11 +M 01 + M 00 = M 10 +M 10 M 11 +M 01 +M 00 M 11 n. di simboli dove sia A che B valgono 1. M 00 n. di simboli dove sia A che B valgono 0. M 01 n. di simboli dove A vale 0 e B vale 1. M 10 n. di simboli dove A vale 1 e B vale 0. Molto utilizzata in bioinformatica 40

41 Distanza geodesica Tiene conto del supporto : il percorso che effettivamente occorre fare per raggiungere B partendo da A - Misura più realistica, quindi più accurata - Molto più difficile da misurare, occorre conoscere il supporto 41

42 Misure per pattern non vettoriali In caso di pattern non vettoriali occorre disegnare specifiche distanze Dipendendono dal tipo di pattern Una possibilità è quella di misurare il costo passare da un pattern all'altro Esempio: Edit distance per sequenze 42

43 Edit Distance Edit distance: misura quante modifiche occorre effettuare su una sequenza per ottenerne un'altra Sostituzioni, inserzioni, cancellazioni In altre parole, il costo che si deve pagare per convertire un pattern nell altro ESEMPIO: i simboli sono lettere, i pattern sono parole di un testo scritto. Possibili editing : sostituzioni: pattern pastern inserzioni: pattern patterns cancellazioni: pattern pttern 43

44 Edit distance Edit distance j varia tra tutte le possibili variazioni necessarie per ottenere B da A Soluzione algoritmica: programmazione dinamica (dettagli nel cap del Theodoridis) Molto utilizzato per automatic editing e text retrieval (trovare il best match tra un pattern e un database di patterns) Utilizzabile per trovare la distanza tra due sequenze di geni 44

45 Un esempio biologico: BLAST Basic Local Alignment Search Tool algoritmo per confrontare sequenze biologiche (nucleotidiche o aminoacidiche) confronta una sequenza di test con un database di sequenze, ritornando le più simili uno degli algoritmi più famosi di bioinformatica affronta un problema molto importante è computazionalmente efficiente -- la ricerca effettuata con algoritmi di programmazione dinamica è assolutamente inefficiente, vista la mole di dati presente oggigiorno BLAST è 50 volte più veloce 45

46 Un esempio biologico: BLAST IDEA: cerca di allineare due sequenze, lo score di allineamento rappresenta la misura della bontà del match Assunzioni / Idee per velocizzare l approccio non cercare l allineamento ottimale non effettuare la ricerca in tutto lo spazio delle sequenze utilizzare una serie di euristiche per velocizzare l approccio Input dell algoritmo: sequenza query (sequenza sconosciuta) sequenza target (o database) 46

47 Un esempio biologico: BLAST PASSI dell ALGORITMO 1. Rimuovere le regioni di bassa complessità della sequenza query regioni della sequenza con ripetizioni di pochi tipi di simbolo possono confondere il programma nello trovare regioni significative 2. Creare una lista delle word di K lettere della sequenza query 47

48 Un esempio biologico: BLAST 1. cercare, in tutte le sequenze del database, tutte le word di lunghezza K che hanno un buon match con le word della sequenza query buon match = score di allineamento sopra una certa soglia utilizzo della substitution matrix per calcolare lo score lo score considera l allineamento senza gap ogni word trovata si chiama hit (o hotspot ) allineamento senza gap è molto veloce: possibilità di memorizzare una volta per tutte le posizioni delle word in tutto il database 1. utilizzare ogni hit come seme per allargare la regione di similarità cercare di estendere la coppia di similarità a dx e a sx fino a quando lo score di similarità non diminuisce il risultato si chiama HSP (High Scoring segment pair) 48

49 Un esempio biologico: BLAST 1. visualizzare tutti gli HSP con uno score sufficientemente alto vengono listati in ordine di score 2. fornire un analisi statistica degli score risultanti: l Evalue misura il numero di hit che si potrebbero vedere per caso, in un database di sequenze casuali dipende dalla dimensionalità del database e dalla lunghezza della sequenza di query la significatività statistica è proporzionale al valore di tale indice (valori attorno allo zero supportano fortemente i risultati) 49

50 Un esempio biologico: BLAST Note: Eventualmente si può gestire anche la presenza di più HSP in una stessa sequenza del database si può utilizzare on line: utilizzatissimo per il buon compromesso tra accuratezza e velocità (negli anni sono state presentate molte varianti) l articolo dove viene presentato è il più citato degli anni 90 Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990). "Basic local alignment search tool". J Mol Biol 215 (3):

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: introduzione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Una definizione

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: similarità Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizioni

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: similarità Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Definizioni preliminari

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Filogenesi Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Introduzione alla

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego

Riconoscimento e recupero dell informazione per bioinformatica. Clustering: validazione. Manuele Bicego Riconoscimento e recupero dell informazione per bioinformatica Clustering: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Definizione

Dettagli

BLAST. W = word size T = threshold X = elongation S = HSP threshold

BLAST. W = word size T = threshold X = elongation S = HSP threshold BLAST Blast (Basic Local Aligment Search Tool) è un programma che cerca similarità locali utilizzando l algoritmo di Altschul et al. Anche Blast, come FASTA, funziona: 1. scomponendo la sequenza query

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: metodologie Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Tassonomia

Dettagli

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST

Quarta lezione. 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST Quarta lezione 1. Ricerca di omologhe in banche dati. 2. Programmi per la ricerca: FASTA BLAST Ricerca di omologhe in banche dati Proteina vs. proteine Gene (traduzione in aa) vs. proteine Gene vs. geni

Dettagli

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011

Intelligenza Artificiale. Clustering. Francesco Uliana. 14 gennaio 2011 Intelligenza Artificiale Clustering Francesco Uliana 14 gennaio 2011 Definizione Il Clustering o analisi dei cluster (dal termine inglese cluster analysis) è un insieme di tecniche di analisi multivariata

Dettagli

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing

SAGA: sequence alignment by genetic algorithm. ALESSANDRO PIETRELLI Soft Computing SAGA: sequence alignment by genetic algorithm ALESSANDRO PIETRELLI Soft Computing Bologna, 25 Maggio 2007 Multi Allineamento di Sequenze (MSAs) Cosa sono? A cosa servono? Come vengono calcolati Multi Allineamento

Dettagli

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random

Z-score. lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random Z-score lo Z-score è definito come: Z-score = (opt query - M random)/ deviazione standard random è una misura di quanto il valore di opt si discosta dalla deviazione standard media. indica di quante dev.

Dettagli

Algoritmi di Allineamento

Algoritmi di Allineamento Algoritmi di Allineamento CORSO DI BIOINFORMATICA Corso di Laurea in Biotecnologie Università Magna Graecia Catanzaro Outline Similarità Allineamento Omologia Allineamento di Coppie di Sequenze Allineamento

Dettagli

Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni:

Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni: Lezione 2 (10/03/2010): Allineamento di sequenze (parte 1) Antonella Meloni: antonella.meloni@ifc.cnr.it Sequenza A= stringa formata da N simboli, dove i simboli apparterranno ad un certo alfabeto. A

Dettagli

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 8 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 8. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 8 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2.

Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti Esercitazione 7 2. Laboratorio di Informatica 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti patti@di.unito.it Esercitazione 7 1 Info&Bio Bio@Lab Allineamento di sequenze Esercitazione 7 2 1 Es2: Allineamento

Dettagli

Teoria e Tecniche del Riconoscimento Clustering

Teoria e Tecniche del Riconoscimento Clustering Facoltà di Scienze MM. FF. NN. Università di Verona A.A. 2010-11 Teoria e Tecniche del Riconoscimento Clustering Sommario Tassonomia degli algoritmi di clustering Algoritmi partizionali: clustering sequenziale

Dettagli

Più nel dettaglio...

Più nel dettaglio... Più nel dettaglio. Rappresentazione Obiettivo: trovare una rappresentazione digitale per gli oggetti del problema in esame Tipicamente si effettuano una serie di misure sull'oggetto, utilizzando dei sensori

Dettagli

Allineamento multiplo di sequenze

Allineamento multiplo di sequenze Allineamento multiplo di sequenze Bioinformatica a.a. 2008/2009 Letterio Galletta Università di Pisa 22 Maggio 2009 Letterio Galletta (Università di Pisa) Allineamento multiplo di sequenze 22 Maggio 2009

Dettagli

FASTA. Lezione del

FASTA. Lezione del FASTA Lezione del 10.03.2016 Omologia vs Similarità Quando si confrontano due sequenze o strutture si usano spesso indifferentemente i termini somiglianza o omologia per indicare che esiste un rapporto

Dettagli

Cluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare!

Cluster Analysis. La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. per modellare! La Cluster Analysis è il processo attraverso il quale vengono individuati raggruppamenti dei dati. Le tecniche di cluster analysis vengono usate per esplorare i dati e non per modellare! La cluster analysis

Dettagli

Introduzione all analisi di arrays: clustering.

Introduzione all analisi di arrays: clustering. Statistica per la Ricerca Sperimentale Introduzione all analisi di arrays: clustering. Lezione 2-14 Marzo 2006 Stefano Moretti Dipartimento di Matematica, Università di Genova e Unità di Epidemiologia

Dettagli

Pattern recognition. III Parte. Intelligenza Artificiale - Pattern Recognition 3

Pattern recognition. III Parte. Intelligenza Artificiale - Pattern Recognition 3 Pattern recognition III Parte 1 QUANTIZZAZIONE VETTORIALE Si può pensare come un algoritmo derivato da K-MEANS e da ISODATA. 1.All inizio tutti i vettori sono attribuiti ad un unico cluster. Si calcola

Dettagli

Ricerca di outlier. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna

Ricerca di outlier. Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

Riconoscimento automatico di oggetti (Pattern Recognition)

Riconoscimento automatico di oggetti (Pattern Recognition) Riconoscimento automatico di oggetti (Pattern Recognition) Scopo: definire un sistema per riconoscere automaticamente un oggetto data la descrizione di un oggetto che può appartenere ad una tra N classi

Dettagli

Metodologie di Clustering

Metodologie di Clustering Metodologie di Clustering Nota preliminare Esistono moltissimi algoritmi di clustering Questi algoritmi possono essere analizzati da svariati punti di vista La suddivisione principale tuttavia è quella

Dettagli

Ricerca di omologia di sequenza

Ricerca di omologia di sequenza Ricerca di omologia di sequenza RICERCA DI OMOLOGIA DI SEQUENZA := Data una sequenza (query), una banca dati, un sistema per il confronto e una soglia statistica trovare le sequenze della banca più somiglianti

Dettagli

Lezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST

Lezione 6. Ricerche in banche dati (databases) attraverso l uso di BLAST Lezione 6 Ricerche in banche dati (databases) attraverso l uso di BLAST BLAST: Basic Local Alignment Search Tool Basic Local Alignment Search Tool. Altschul et al. 1990,1994,1997 Sviluppato per rendere

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Classificazione: validazione Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Introduzione

Dettagli

Le sequenze consenso

Le sequenze consenso Le sequenze consenso Si definisce sequenza consenso una sequenza derivata da un multiallineamento che presenta solo i residui più conservati per ogni posizione riassume un multiallineamento. non è identica

Dettagli

Pairwise Sequence Alignment BIOINFORMATICA. Corso di Laurea in Ingegneria Informatica e Biomedica. Università Magna Graecia Catanzaro

Pairwise Sequence Alignment BIOINFORMATICA. Corso di Laurea in Ingegneria Informatica e Biomedica. Università Magna Graecia Catanzaro Pairwise Sequence Alignment BIOINFORMATICA Corso di Laurea in Ingegneria Informatica e Biomedica Università Magna Graecia Catanzaro Outline Similarità Allineamento Omologia Allineamento Esatto di Coppie

Dettagli

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche)

UNIVERSITÀ DEGLI STUDI DI MILANO. Bioinformatica. A.A semestre I. Allineamento veloce (euristiche) Docente: Matteo Re UNIVERSITÀ DEGLI STUDI DI MILANO C.d.l. Informatica Bioinformatica A.A. 2013-2014 semestre I 3 Allineamento veloce (euristiche) Banche dati primarie e secondarie Esistono due categorie

Dettagli

Apprendimento Automatico

Apprendimento Automatico Apprendimento Automatico Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Rappresentazione dei dati con i kernel Abbiamo una serie di oggetti S

Dettagli

Statistica per l Impresa

Statistica per l Impresa Statistica per l Impresa a.a. 207/208 Tecniche di Analisi Multidimensionale Analisi dei Gruppi 2 maggio 208 Indice Analisi dei Gruppi: Introduzione Misure di distanza e indici di similarità 3. Metodi gerarchici

Dettagli

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento

FASTA: Lipman & Pearson (1985) BLAST: Altshul (1990) Algoritmi EURISTICI di allineamento Algoritmi EURISTICI di allineamento Sono nati insieme alle banche dati, con lo scopo di permettere una ricerca per similarità rapida anche se meno accurata contro le migliaia di sequenze depositate. Attualmente

Dettagli

Informatica per la Comunicazione/ Verdicchio/ 22/05/2014/ Domande / VERSIONE 1

Informatica per la Comunicazione/ Verdicchio/ 22/05/2014/ Domande / VERSIONE 1 Informatica per la Comunicazione/ Verdicchio/ 22/05/2014/ Domande / VERSIONE 1 1) In che senso i brani di Bach by Design sono originali? a) Hanno uno stile musicale nuovo b) Hanno una sequenza di note

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 9 Alberi di decisione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

Apprendimento Automatico (Feature Selection e Kernel Learning)

Apprendimento Automatico (Feature Selection e Kernel Learning) Apprendimento Automatico (Feature Selection e Kernel Learning) Fabio Aiolli www.math.unipd.it/~aiolli Sito web del corso www.math.unipd.it/~aiolli/corsi/1516/aa/aa.html Servono tutti gli attributi? Gli

Dettagli

La ricerca di similarità: i metodi

La ricerca di similarità: i metodi La ricerca di similarità: i metodi Pairwise alignment allineamenti a coppie 1. Analisi della matrice a punti (dot matrix) 2. Programmazione dinamica (dynamic programming) allineamenti locale e globale.

Dettagli

Cluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca

Cluster Analysis Distanze ed estrazioni Marco Perugini Milano-Bicocca Cluster Analysis Distanze ed estrazioni M Q Marco Perugini Milano-Bicocca 1 Scopi Lo scopo dell analisi dei Clusters è di raggruppare casi od oggetti sulla base delle loro similarità in una serie di caratteristiche

Dettagli

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010

L A B C di R. Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 L A B C di R 0 20 40 60 80 100 2 3 4 5 6 7 8 Stefano Leonardi c Dipartimento di Scienze Ambientali Università di Parma Parma, 9 febbraio 2010 La scelta del test statistico giusto La scelta della analisi

Dettagli

Bioinformatica. Analisi del genoma

Bioinformatica. Analisi del genoma Bioinformatica Analisi del genoma GABRIELLA TRUCCO CREMA, 5 APRILE 2017 Cosa è il genoma? Insieme delle informazioni biologiche, depositate nella sequenza di DNA, necessarie alla costruzione e mantenimento

Dettagli

Analisi di dati Microarray: Esercitazione Matlab

Analisi di dati Microarray: Esercitazione Matlab Analisi di dati Microarray: Esercitazione Matlab Laboratorio di Bioinformatica II Pietro Lovato Anno Accademico 2011/2012 Contenuti 1 Introduzione Introduzione a Matlab Bioinformatics Toolbox DNA Microarray

Dettagli

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1

Indice generale. Introduzione. Capitolo 1 Essere uno scienziato dei dati... 1 Introduzione...xi Argomenti trattati in questo libro... xi Dotazione software necessaria... xii A chi è rivolto questo libro... xii Convenzioni utilizzate... xiii Scarica i file degli esempi... xiii Capitolo

Dettagli

Sistemi di Elaborazione dell Informazione 170. Caso Non Separabile

Sistemi di Elaborazione dell Informazione 170. Caso Non Separabile Sistemi di Elaborazione dell Informazione 170 Caso Non Separabile La soluzione vista in precedenza per esempi non-linearmente separabili non garantisce usualmente buone prestazioni perchè un iperpiano

Dettagli

UTILIZZO DELL ANALISI DELLE COMPONENTI PRINCIPALI (PCA) DI DATI HVSR FINALIZZATO ALLA ZONAZIONE SISMICA

UTILIZZO DELL ANALISI DELLE COMPONENTI PRINCIPALI (PCA) DI DATI HVSR FINALIZZATO ALLA ZONAZIONE SISMICA UTILIZZO DELL ANALISI DELLE COMPONENTI PRINCIPALI (PCA) DI DATI HVSR FINALIZZATO ALLA ZONAZIONE SISMICA Terremoto de L Aquila, 2009 Gallipoli et al., 2011 Lo scopo di questo lavoro è quello di indagare

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Rappresentazione dei dati Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Rappresentazione

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: metodologie Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Tassonomia

Dettagli

Training Set Test Set Find-S Dati Training Set Def: Errore Ideale Training Set Validation Set Test Set Dati

Training Set Test Set Find-S Dati Training Set Def: Errore Ideale Training Set Validation Set Test Set Dati " #!! Suddivisione tipica ( 3 5 6 & ' ( ) * 3 5 6 = > ; < @ D Sistemi di Elaborazione dell Informazione Sistemi di Elaborazione dell Informazione Principali Paradigmi di Apprendimento Richiamo Consideriamo

Dettagli

Algoritmi di classificazione supervisionati

Algoritmi di classificazione supervisionati Corso di Bioinformatica Algoritmi di classificazione supervisionati Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di apprendimento supervisionato per problemi di biologia computazionale

Dettagli

Gestione e modellazione di dati bioinformatici

Gestione e modellazione di dati bioinformatici Gestione e modellazione di dati bioinformatici MODULO: Riconoscimento e Recupero dell informazione per Bioinformatica Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università

Dettagli

Laboratorio di Programmazione II Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona

Laboratorio di Programmazione II Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Laboratorio di Programmazione II Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario Algoritmo a ed Analisi del DNA : sequenze di basi di particolare interesse

Dettagli

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione

Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Corso di Bioinformatica Machine Learning: apprendimento, generalizzazione e stima dell errore di generalizzazione Giorgio Valentini DI Università degli Studi di Milano 1 Metodi di machine learning I metodi

Dettagli

Reti Neurali in Generale

Reti Neurali in Generale istemi di Elaborazione dell Informazione 76 Reti Neurali in Generale Le Reti Neurali Artificiali sono studiate sotto molti punti di vista. In particolare, contributi alla ricerca in questo campo provengono

Dettagli

Informatica 3. Informatica 3. LEZIONE 21: Ricerca su liste e tecniche di hashing. Lezione 21 - Modulo 1. Introduzione (1) Introduzione (2) Ricerca:

Informatica 3. Informatica 3. LEZIONE 21: Ricerca su liste e tecniche di hashing. Lezione 21 - Modulo 1. Introduzione (1) Introduzione (2) Ricerca: Informatica 3 Informatica 3 LEZIONE 21: Ricerca su liste e tecniche di hashing Modulo 1: Algoritmi sequenziali e basati su liste Modulo 2: Hashing Lezione 21 - Modulo 1 Algoritmi sequenziali e basati su

Dettagli

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA.

Il progetto Genoma Umano è iniziato nel E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA. Il progetto Genoma Umano è iniziato nel 1990. E stato possibile perchè nel 1986 era stato sviluppato il sequenziamento automatizzato del DNA. Progetto internazionale finanziato da vari paesi, affidato

Dettagli

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: macchine che apprendono Computazione per l interazione naturale: macchine che apprendono Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it

Dettagli

SDE Marco Riani

SDE Marco Riani SDE 2017 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis (analisi dei gruppi) ANALISI DISCRIMINANTE

Dettagli

Apprendimento basato sulle istanze

Apprendimento basato sulle istanze Apprendimento basato sulle istanze Apprendimento basato sulle istanze Apprendimento: semplice memorizzazione di tutti gli esempi Classificazione di una nuova istanza x j : reperimento degli

Dettagli

Data Science A.A. 2018/2019

Data Science A.A. 2018/2019 Corso di Laurea Magistrale in Economia Data Science A.A. 2018/2019 Lez. 5 Data Mining Data Science 2018/2019 1 Data Mining Processo di esplorazione e analisi di un insieme di dati, generalmente di grandi

Dettagli

Laboratorio di Calcolo Numerico Laboratorio 3: Algoritmi stabili e instabili, Bisezione

Laboratorio di Calcolo Numerico Laboratorio 3: Algoritmi stabili e instabili, Bisezione Laboratorio di Calcolo Numerico Laboratorio 3: Algoritmi stabili e instabili, Bisezione Claudia Zoccarato E-mail: claudia.zoccarato@unipd.it Dispense: Moodle Dipartimento ICEA 22 Marzo 2017 Vettori in

Dettagli

Università degli studi di Pisa

Università degli studi di Pisa Università degli studi di Pisa Nicola Guido PATTERNHUNTER: Faster and More Sensitive. Homology Search Seminario: Bioinformatica a.a. 2008/2009 Contenuto della presentazione Introduzione Scenario PatternHunter

Dettagli

Problemi algoritmici e Complessità degli algoritmi

Problemi algoritmici e Complessità degli algoritmi Problemi algoritmici e Complessità degli algoritmi Università degli Studi di Salerno Corso di Laurea in Scienze della comunicazione Informatica generale Docente: Angela Peduto A.A. 2005/2006 Problemi algoritmici!

Dettagli

Bioinformatica ed applicazioni di bioinformatica strutturale!

Bioinformatica ed applicazioni di bioinformatica strutturale! Bioinformatica ed applicazioni di bioinformatica strutturale! Bioinformatica! Le banche dati! Programmi per estrarre ed analizzare i dati! I numeri! Cellule nell uomo! Geni nell uomo! Genoma umano Il dogma

Dettagli

Query Languages. R. Basili. a.a

Query Languages. R. Basili. a.a Query Languages R. Basili a.a. 2004-5 1 Interrogazioni Booleane Keywords e operatori logici: OR: (e 1 OR e 2 ) AND: (e 1 AND e 2 ) BUT: (e 1 BUT e 2 ) int: e 1 ma non e 2 Negazione e ammessa solo utilizzando

Dettagli

MODELLO SCHEDA INSEGNAMENTO. II II Luigi Cerulo

MODELLO SCHEDA INSEGNAMENTO. II II Luigi Cerulo Corso di L/LM/LMCU Denominazione insegnamento: MODELLO SCHEDA INSEGNAMENTO Numero di Crediti: 6 Anno: Semestre: Docente Titolare: Scienze e Tecnologie Genetiche Bioinformatica II II Luigi Cerulo Dottorandi/assegnisti

Dettagli

Misura della performance di ciascun modello: tasso di errore sul test set

Misura della performance di ciascun modello: tasso di errore sul test set Confronto fra modelli di apprendimento supervisionato Dati due modelli supervisionati M 1 e M costruiti con lo stesso training set Misura della performance di ciascun modello: tasso di errore sul test

Dettagli

Alberi filogenetici. File: alberi_filogenetici.odp. Riccardo Percudani 02/03/04

Alberi filogenetici. File: alberi_filogenetici.odp. Riccardo Percudani 02/03/04 Alberi filogenetici The tree of life Albero filogenetico costruito con le sequenze della subunità piccola dell RNA ribosomale. Tutte le forme viventi condividono un comune ancestore (LCA, last common ancestor

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it MISURE DI DISTANZA E SIMILARITA 1 SCOPI DEL CALCOLO Problema: misurare la diversità (ovvero la rassomiglianza) tra

Dettagli

Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che:

Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che: Cluster Analysis Obiettivo: assegnazione di osservazioni a gruppi di unità statistiche non definiti a priori e tali che: le unità appartenenti ad uno di essi sono il più possibile omogenee i gruppi sono

Dettagli

Maria Brigida Ferraro + Luca Tardella

Maria Brigida Ferraro + Luca Tardella Cluster Maria Brigida Ferraro + Luca Tardella e-mail: mariabrigida.ferraro@uniroma1.it, ferraromb@gmail.com Lezione #3: Cluster Obiettivi del modulo Cluster 1 Introduzione ai problemi di classificazione

Dettagli

Allineamenti a coppie

Allineamenti a coppie Laboratorio di Bioinformatica I Allineamenti a coppie Dott. Sergio Marin Vargas (2014 / 2015) ExPASy Bioinformatics Resource Portal (SIB) http://www.expasy.org/ Il sito http://myhits.isb-sib.ch/cgi-bin/dotlet

Dettagli

Music Information Retrieval

Music Information Retrieval : Manipolazione del segnale audio e Music Information Retrieval Music Information Retrieval lezione 9: 11/04/2016 Sound and Music Computing Definizione e scopo Studio della catena di comunicazione relativa

Dettagli

Teoria e Tecniche del Riconoscimento

Teoria e Tecniche del Riconoscimento Facoltà di Scienze MM. FF. NN. Università di Verona A.A. 2010-11 Teoria e Tecniche del Riconoscimento Introduzione alla Pattern Recognition Marco Cristani 1 Inquadramento Sistemi di Pattern Recognition

Dettagli

Applicazioni della SVD

Applicazioni della SVD Applicazioni della SVD Gianna M. Del Corso Dipartimento di Informatica, Università di Pisa, Italy 28 Marzo 2014 1 Le applicazioni presentate 2 Text Mining 3 Algoritmo di riconoscimento di volti Le Applicazioni

Dettagli

RELAZIONE DI BIOLOGIA MOLECOLARE

RELAZIONE DI BIOLOGIA MOLECOLARE RELAZIONE DI BIOLOGIA MOLECOLARE 2 BRUNO FRANCESCA mat.576193 Analisi di proteine. Descrivi un database di interazioni proteiche e mostra con quali proteine interagisce la proteina KEN di Drosophila. Uno

Dettagli

Data mining: attività di scoperta di informazione latente all interno di un certo insieme di dati (tipicamente molto grande) Information retrieval

Data mining: attività di scoperta di informazione latente all interno di un certo insieme di dati (tipicamente molto grande) Information retrieval Filippo Geraci Data mining: attività di scoperta di informazione latente all interno di un certo insieme di dati (tipicamente molto grande) Information retrieval (IR): insieme delle tecnologie utilizzate

Dettagli

1) Codici convoluzionali. 2) Circuito codificatore. 3) Diagramma a stati e a traliccio. 4) Distanza libera. 5) Algoritmo di Viterbi

1) Codici convoluzionali. 2) Circuito codificatore. 3) Diagramma a stati e a traliccio. 4) Distanza libera. 5) Algoritmo di Viterbi Argomenti della Lezione 1) Codici convoluzionali 2) Circuito codificatore 3) Diagramma a stati e a traliccio 4) Distanza libera 5) Algoritmo di Viterbi 1 Codici convoluzionali I codici convoluzionali sono

Dettagli

Programmazione dinamica

Programmazione dinamica Programmazione dinamica Violetta Lonati Università degli studi di Milano Dipartimento di Informatica Laboratorio di algoritmi e strutture dati Corso di laurea in Informatica Violetta Lonati Programmazione

Dettagli

Modelli di recupero. Modello di recupero booleano

Modelli di recupero. Modello di recupero booleano Modelli di recupero L obiettivo è recuperare i documenti che sono verosimilmente rilevanti all interrogazione. Vi sono vari modelli di recupero, che possono essere suddivisi in due grandi famiglie: exact

Dettagli

Corso di Laurea di Scienze biomolecolari e ambientali Laurea magistrale

Corso di Laurea di Scienze biomolecolari e ambientali Laurea magistrale UNIVERSITA DEGLI STUDI DI PERUGIA Dipartimento di Chimica, Biologia e Biotecnologie Via Elce di Sotto, 06123 Perugia Corso di Laurea di Scienze biomolecolari e ambientali Laurea magistrale Corso di ANALISI

Dettagli

Teoria e Tecniche del Riconoscimento

Teoria e Tecniche del Riconoscimento Facoltà di Scienze MM. FF. NN. Università di Verona A.A. 2010-11 Teoria e Tecniche del Riconoscimento Notizie preliminari Introduzione Marco Cristani Teoria e Tecniche del Riconoscimento 1 Il docente Prof.

Dettagli

Clustering Mario Guarracino Data Mining a.a. 2010/2011

Clustering Mario Guarracino Data Mining a.a. 2010/2011 Clustering Introduzione Il raggruppamento di popolazioni di oggetti (unità statistiche) in base alle loro caratteristiche (variabili) è da sempre oggetto di studio: classificazione delle specie animali,

Dettagli

Data Mining and Machine Learning Lab. Lezione 8 Master in Data Science for Economics, Business and Finance 2018

Data Mining and Machine Learning Lab. Lezione 8 Master in Data Science for Economics, Business and Finance 2018 Data Mining and Machine Learning Lab. Lezione 8 Master in Data Science for Economics, Business and Finance 2018 18.05.18 Marco Frasca Università degli Studi di Milano SVM - Richiami La Support Vector Machine

Dettagli

Analisi esplorativa di dati multidimensionali

Analisi esplorativa di dati multidimensionali io e Luigi Fabbris Analisi esplorativa di dati multidimensionali 'CENTRO " G. ASTENGO» cleup editore INVENTARIO 2B6 c., INDICE DEI CONTENUTI -~ Cap. 1 L'analisi dei dati nella ricerca sociale pag. I 1.1.

Dettagli

Modello computazionale per la predizione di siti di legame per fattori di trascrizione

Modello computazionale per la predizione di siti di legame per fattori di trascrizione Modello computazionale per la predizione di siti di legame per fattori di trascrizione Attività di tirocinio svolto presso il Telethon Institute of Genetics and Medicine Relatori Prof. Giuseppe Trautteur

Dettagli

Bioinformatics more basic notions

Bioinformatics more basic notions Bioinformatics more basic notions Alcune slides provengono dal materiale rilasciato da: Dr Sergio Marin Vargas - Verona Prof. Riccardo Percudari - Parma Bioinformatics Bio-inspired Computer science Gli

Dettagli

Allineamento e similarità di sequenze

Allineamento e similarità di sequenze Allineamento e similarità di sequenze Allineamento di Sequenze L allineamento tra due o più sequenza può aiutare a trovare regioni simili per le quali si può supporre svolgano la stessa funzione; La similarità

Dettagli

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: macchine che apprendono Comput per l inter naturale: macchine che apprendono Corso di Inter uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it http://boccignone.di.unimi.it/ium2_2014.html

Dettagli

Distanza di Edit. Speaker: Antinisca Di Marco Data:

Distanza di Edit. Speaker: Antinisca Di Marco Data: Distanza di Edit Speaker: Antinisca Di Marco Data: 14-04-2016 Confronto di sequenze Il confronto tra sequenze in biologia computazionale è la base per: misurare la similarità tra le sequenze allineamento

Dettagli

Sottosequenza comune piu' lunga (programmazione dinamica)

Sottosequenza comune piu' lunga (programmazione dinamica) piu' (programmazione Laboratorio di Programmazione II Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario piu' piu' Il problema del turista a manhattan piu' Problema

Dettagli

Data mining: attività di scoperta di informazione latente all interno di un certo insieme di dati (tipicamente molto grande) Information retrieval

Data mining: attività di scoperta di informazione latente all interno di un certo insieme di dati (tipicamente molto grande) Information retrieval Filippo Geraci 1 Data mining: attività di scoperta di informazione latente all interno di un certo insieme di dati (tipicamente molto grande) Information retrieval (IR): insieme delle tecnologie utilizzate

Dettagli

Corso di Laurea Specialistica in Ingegneria Informatica

Corso di Laurea Specialistica in Ingegneria Informatica UNIVERSITÀ DEGLI STUDI DI PADOVA FACOLTÀ DI INGEGNERIA Corso di Laurea Specialistica in Ingegneria Informatica Ragionamento Qualitativo e Apprendimento Automatico per l'analisi di Dati di Genomica RELATORE:

Dettagli

I metodi di Classificazione automatica

I metodi di Classificazione automatica L Analisi Multidimensionale dei Dati Una Statistica da vedere I metodi di Classificazione automatica Matrici e metodi Strategia di AMD Anal Discrimin Segmentazione SI Per riga SI Matrice strutturata NO

Dettagli

Linguistica Computazionale 2004 Presentazione del Corso

Linguistica Computazionale 2004 Presentazione del Corso 13 febbraio 2004 1 Informazioni generali Docente Marco Baroni Email baroni@sslmit.unibo.it Telefono 0453/374744 Homepage del corso http://www.e-learning.sslmit.unibo.it/compling04/ Orario lezioni Lunedì

Dettagli

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: macchine che apprendono Computazione per l interazione naturale: macchine che apprendono Corso di Interazione uomo-macchina II Prof. Giuseppe Boccignone Dipartimento di Scienze dell Informazione Università di Milano boccignone@dsi.unimi.it

Dettagli

APPUNTI DI CLUSTER ANALYSIS (Paola Vicard)

APPUNTI DI CLUSTER ANALYSIS (Paola Vicard) APPUNTI DI CLUSTER ANALYSIS (Paola Vicard) Obiettivi della cluster analysis La cluster analysis è una delle principali tecniche di analisi statistica multivariata per raggruppare le unità osservate in

Dettagli

Esercizio: apprendimento di congiunzioni di letterali

Esercizio: apprendimento di congiunzioni di letterali input: insieme di apprendimento istemi di Elaborazione dell Informazione 18 Esercizio: apprendimento di congiunzioni di letterali Algoritmo Find-S /* trova l ipotesi più specifica consistente con l insieme

Dettagli