Classificazione di pattern genomici e strutture proteiche mediante Clustering e Reti Neurali in Mathematica

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Classificazione di pattern genomici e strutture proteiche mediante Clustering e Reti Neurali in Mathematica"

Transcript

1 Classificazione di pattern genomici e strutture proteiche mediante Clustering e Reti Neurali in Mathematica (Classification of genomic patterns and protein structures using Clustering and Neural Networks in Mathematica) Prof. Crescenzio Gallo, Ing. Michelangelo De Bonis {c.gallo, Laboratorio per l'analisi Quantitativa dei Dati Dipartimento di Scienze Economiche, Matematiche e Statistiche Università di Foggia, Italy

2 2 Gallo-DeBonis-UGM2010.nb Abstract Le possibili applicazioni della modellizzazione e simulazione nel campo della Bioinformatica sono molto ampie. Le applicazioni spaziano dalla comprensione dei "percorsi" metabolici di base all'esplorazione della variabilità genetica. I biologi molecolari necessitano di robusti strumenti di calcolo per definire modelli in grado di imparare a riconoscere sequenze di DNA ed amminoacidi ed assegnare strutture proteiche a determinate sequenze. Questi modelli, ed in particolare quelli relativi allo studio dei risultati sperimentali effettuati con microarray DNA, possono essere creati nel potente ambiente di calcolo offerto da Mathematica ed il modulo Neural Networks.

3 Gallo-DeBonis-UGM2010.nb 3 Introduzione Nell'analisi dell'espressione genica, particolare interesse riveste la ricerca di pattern correlati, che viene tipicamente effettuata mediante analisi di clustering. Le tecnologie di microarray DNA (Lockhart DJ et al., 1996) consentono il monitoraggio di migliaia di geni in modo rapido ed efficiente. Queste tecnologie hanno introdotto nuove modalità di esplorazione di un organismo con una visione genomica ad ampio raggio. In particolare, lo studio dell'espressione dei geni di un genoma completo (come quello del Saccharomyces cerevisiae) è ora possibile; sono stati sviluppati anche studi sul genoma umano (Perou CM et al., 1999) tramite l'impiego di microarray DNA, sino alla mappatura completa del genoma umano. La produzione di farmaci mirati e l'individuazione di droghe sono altri campi che possono beneficiare significativamente di tali tecniche. Un problema inerente l'uso delle tecnologie di microarray DNA risiede nell'enorme quantità di dati prodotti, la cui analisi di per sé costituisce un problema non trascurabile. Svariati approcci vengono impiegati all'analisi dei dati di espressione genica, come ad es. il clustering gerarchico (Sneath and Sokal, 1973), l'analisi multivariata e le reti neurali; l'individuazione del metodo ottimale per l'analisi di tali dati è tutt'ora argomento di discussione. Il clustering gerarchico è il metodo più utilizzato, e produce una rappresentazione dei dati con i pattern più simili raggruppati in una gerarchia di sottoinsiemi. Questo metodo presenta però notevoli problemi quando viene applicato a dati contenenti una non trascurabile quantità di "rumore", rivelandosi poco robusto. In tal caso le soluzioni possono non essere univoche ed essere dipendenti dall'ordinamento dei dati. Questi argomenti portano allo studio ed all'impiego di metodi alternativi, quali i grafi di correlazione e le reti neurali che saranno affrontati ed applicati nel presente lavoro.

4 4 Gallo-DeBonis-UGM2010.nb Analisi di dati da microarray DNA mediante grafi di correlazione Background L'interpretazione della grande quantità di dati prodotta dall'impiego di tecniche microarray DNA per l'analisi dell'espressione dei geni richiede nuove efficienti strategie per la riduzione delle dimensioni coinvolte. Gli algoritmi di clustering in genere raggruppano i geni (o i campioni) in cluster di profili di espressione similari per l'individuazione di possibili relazioni funzionali tra di essi. Particolare importanza rivestono le rappresentazioni grafiche dei cluster e la loro "annotazione" automatica dalle banche dati genomiche presenti. Analoghi problematiche si riscontrano nell'analisi di grandi reti, dove si tenta di estrarre sottoreti che soddisfino determinati criteri (come ad es. la ricerca delle pagine web relative allo stesso argomento). In (Rougemont and Hingamp, 2003) viene proposto un metodo che combina una tecnica di analisi di reti con il classico clustering basato sui coefficienti di correlazione per lo studio dei dati di microarray DNA. L'algoritmo di clustering si basa su due soli parametri (la soglia di correlazione e la soglia di curvatura, che saranno discusse in seguito), con una conseguente efficace possibilità di analizzare la sensitività dei risultati in reazione a particolari configurazioni scelte per i parametri in gioco. L'algoritmo è basato sul concetto di curvatura (Eckmann and Moses, 2002) che viene applicato alla rete (grafo di correlazione) di geni co-espressi dove i nodi sono i geni (o i campioni) e gli archi rappresentano la co-espressione tra i geni collegati. In tale grafo vengono quindi individuati dei cluster che corrispondono a componenti connesse del grafo con alto indice di curvatura, definito come densità locale di relazioni triangolari. I cluster di geni (o campioni) sono le regioni più dense del grafo di correlazione; cluster con alto indice di curvatura sono strutture a bassa entropia, con ovvia rilevanza biologica. L'algoritmo è stato implementato in Mathematica 7.0 con l'impiego dei package Combinatorica e GraphUtilities, ed è stato applicato ai dati relativi all'espressione genica del Saccharomyces cerevisiae (Eisen et al., 1998) e del linfoma DLBCL (Alizadeh et al., 2000). I dati originari (disponibili all'indirizzo ftp://tagc.univ-mrs.fr/public/trixy/testfiles/) sono stati riadattati in matrici per l'elaborazione con Mathematica in ambiente Mac OS X Snow Leopard su workstation MacPro Quad Xeon; le prestazioni computazionali ottenute sono comparabili a quelle richieste dal metodo di clustering gerarchico.

5 Gallo-DeBonis-UGM2010.nb 5 Algoritmo di analisi Un set di dati da microarray DNA consiste dei livelli di espressione di N geni in M differenti condizioni sperimentali (campioni RNA). L' algoritmo è basato sullo studio pubblicato da (Rougemont and Hingamp, 2003) e si sviluppa secondo i seguenti passi. 1) Viene letta la matrice di input X. 2) Per ogni coppia di geni x k,l si definisce la matrice quadrata di correlazione C di dimensione N µn i cui elementi sono calcolati secondo l'indice di Pearson: M Ixk,j -m k M Ix l,j -m l M c k,l = 1D s j=1 k s l 3) Prefissata una soglia T cor, che definisce un intervallo di confronto simmetrico H-T cor, T cor L, si costruisce la matrice quadrata di adiacenza A tra i geni di dimensione N µn i cui elementi sono definiti come segue: 0 se c a k,l œd-t cor,t k,l =81 altrimenti 4) Dalla matrice di adiacenza viene costruito il grafo (non orientato) di correlazione G con i pesi degli archi pari ai coefficienti di correlazione c k,l 5) Per ogni nodo n appartenente al grafo di correlazione si definisce un indice di curvatura: dove t è il numero di triangoli per il nodo n e v è il numero di nodi "vicini" ad n. 6) Definita una soglia di curvatura T curv 1D si genera un nuovo grafo curvhnl = t 1D vhv-1lê2 H = 8nodi n œ G ed archi collegati e curvhnl T curv < 7) Da tale grafo vengono estratte le componenti connesse (con almeno due nodi collegati) che rappresentano le classi (cluster) individuate in base ai valori dei due parametri T cor e T curv.

6 6 Gallo-DeBonis-UGM2010.nb Implementazione in Mathematica: Analisi dei profili di espressione dei geni del Saccharomyces cerevisiae Inizializzazione ü Packages e funzioni H* Il coefficiente di clustering di un nodo è il rapporto tra i link che collegano i nodi vicini ad esso ed il massimo possibile di tali link. Per i nodi con meno di due vicini il coefficiente non è definito. *L g_graphd := 8nbrs, subgraph<, nbrs = v, 1D, 8v<D; < 2, subgraph = nbrsd; * ê * - 1LLD, ê * - 1LLD D; D; Dati di input: un vettore di campioni per ogni gene << yeast_ann.txt; << yeast_data.txt; ü Costanti = " geni"d = " campioni"d di correlazione: ", Tcor = 0.90D

7 Gallo-DeBonis-UGM2010.nb geni 80 campioni Soglia di correlazione: 0.9 ü Variabili di lavoro n, 1.. md : matrice dei dati geniêcampioni nd : annotazioni dei geni n, 1.. nd : matrice di correlazione dei geni fa : funzione di adiacenza Hper la costruzione della matrice di adiacenza A del grafo d i correlazione GL fc : funzione di curvatura Hper il calcolo degli indici di curvatura dei nodil n, 1.. nd : matrice di adiacenza del grafo dei geni correlati G : grafo di correlazione nd : indici di curvatura dei nodi H : grafo di curvatura nd : array delle classi di appartenenza dei geni, con annotazioni cd : array delle classi HclusterL con relativi indici dei nodi Calcolo della matrice di correlazione =

8 8 Gallo-DeBonis-UGM2010.nb Calcolo della matrice di adiacenza e del relativo grafo dalla matrice di correlazione ü Definizione della funzione di adiacenza e calcolo della matrice funzione di adiacenza *L j_d := jdd < Tcor && jdd > -Tcor, 0, 1 D; "Tempo impiegato per la matrice di adiacenza: ", A = ¹ j, jd, 0D, 8i, n<, 8j, n<dd " secondi." D Tempo impiegato per la matrice di adiacenza: secondi. ü Costruzione del grafo dalla matrice di adiacenza = grafo di correlazione ha ", " archi e ", " nodi."d Il grafo di correlazione ha 1917 archi e 6221 nodi. Calcolo degli indici di curvatura dei nodi funzione di curvatura *L := GD; impiegato per calcolare gli indici di curvatura: ", = " secondi."d sono ", x_ ê; x > 0D, " indici di curvatura positivi."d Tempo impiegato per calcolare gli indici di curvatura: secondi. Vi sono 237 indici di curvatura positivi. Costruzione del grafo di curvatura per rimozione dei nodi/archi sotto soglia (Tcor = 0.90, Tcurv=0.70)

9 Gallo-DeBonis-UGM2010.nb 9 Costruzione del grafo di curvatura per rimozione dei nodi/archi sotto soglia (Tcor = 0.90, Tcurv=0.70) ü Determinazione della lista dei nodi da rimuovere di curvatura: ", Tcurv = 0.70DH* soglia per la costruzione del HsottoLgrafo di curvatura *L ll = 8<; = 1, i n, i++, < Tcurv, ll = sono ", " nodi su ", n, " da rimuovere."d Soglia di curvatura: 0.7 Vi sono 6120 nodi su 6221 da rimuovere. ü Costruzione del grafo di curvatura H = grafo di curvatura ha ", " archi e ", " nodi."d Il grafo di curvatura ha 147 archi e 101 nodi.

10 10 Gallo-DeBonis-UGM2010.nb ü Lista delle annotazioni dei geni residui selezionati nel grafo di curvatura le annotazioni dei geni residui presenti in H *L Hann = lld; 101

11 Gallo-DeBonis-UGM2010.nb 11 ü Lista annotata delle classi (cluster con almeno due nodi) componenti il grafo di curvatura CC = Z = 8<;H* vettore delle classi e relativi indici dei nodi di H *L = 1, i i++, > 1, Z = Y = 8<;H* le classi finali ottenute, con annotazione dei geni *L = 1, i i++, Y = individuate ", " classi, così strutturate:"d = 1, i i++, i, " ", " H", " elementil "DD HannD, Method Ø "SpiralEmbedding", VertexRenderingFunction Ø 0.03D, Black, FontFamily Ø "Arial Narrow", Antialiasing Ø True, FontSize Ø 9, FontWeight Ø NormalD, Ò1D< &LD Sono individuate 14 classi, così strutturate: Ò1 8YHR124W, YAL018C, YNL128W, YDL187C, YOL047C, YFR032C, YGL138C, YDR523C, YOR313C, YLR307W, YPL130W, YOR339C, YOL091W, YER106W< H14 elementil Ò2 8YLR196W, YLR222C< H2 elementil Ò3 8YLR197W, YLR198C, YLR175W< H3 elementil Ò4 8YER115C, YNL033W, YPR027C< H3 elementil Ò5 8YDR285W, YMR133W< H2 elementil Ò6 8YCR012W, YCR013C, YKL060C, YKL152C, YKL153W, YGR192C, YHR174W, YJR009C, YDR050C, YJL052W, YLR044C< H11 elementil Ò7 8YBL003C, YDR224C, YDR225W, YNL031C, YBR010W< H5 elementil Ò8 8YKL006C, YEL076W, YMR273C, YFL011W, YAR002C, YMR006C, YMR085W, YDL045W< H8 elementil Ò9 8YMR046C, YMR051C< H2 elementil Ò10 8YOL127W, YGR027C, YGL147C, YOR096W, YGR034W, YLR448W, YLR167W, YDL082W, YLR325C, YGL102C, YPL079W, YGL103W, YGL189C, YPL081W< H14 elementil Ò11 8YHR150W, YHR166C, YLR030W< H3 elementil Ò12 8YHR092C, YDR342C, YDR343C< H3 elementil Ò13 8YGL081W, YHR079BC, YGL033W< H3 elementil Ò14 8YLR314C, YML065W< H2 elementil

12 12 Gallo-DeBonis-UGM2010.nb

13 Gallo-DeBonis-UGM2010.nb 13 Costruzione del grafo di curvatura per rimozione dei nodi/archi sotto soglia (Tcor = 0.80, Tcurv=0.64) ü Determinazione della lista dei nodi da rimuovere di curvatura: ", Tcurv = 0.64D H* soglia per la costruzione del HsottoLgrafo di curvatura *L ll = 8<; = 1, i n, i++, < Tcurv, ll = sono ", " nodi su ", n, " da rimuovere."d Soglia di curvatura: 0.64 Vi sono 6094 nodi su 6221 da rimuovere.

14 14 Gallo-DeBonis-UGM2010.nb ü Costruzione del grafo di curvatura H = grafo di curvatura ha ", " archi e ", " nodi."d Il grafo di curvatura ha 270 archi e 127 nodi. ü Lista delle annotazioni dei geni residui selezionati nel grafo di curvatura le annotazioni dei geni residui presenti in H *L Hann = lld; 127

15 Gallo-DeBonis-UGM2010.nb 15 ü Lista annotata delle classi (cluster con almeno due nodi) componenti il grafo di curvatura CC = Z = 8<;H* vettore delle classi e relativi indici dei nodi di H *L = 1, i i++, > 1, Z = Y = 8<;H* le classi finali ottenute, con annotazione dei geni *L = 1, i i++, Y = individuate ", " classi, così strutturate:"d = 1, i i++, i, " ", " H", " elementil "DD HannD, Method Ø "SpiralEmbedding", VertexRenderingFunction Ø 0.03D, Black, FontFamily Ø "Arial Narrow", Antialiasing Ø True, FontSize Ø 9, FontWeight Ø NormalD, Ò1D< &LD

16 16 Gallo-DeBonis-UGM2010.nb Sono individuate 15 classi, così strutturate: Ò1 8YHR124W, YAL018C, YNL128W, YER115C, YLR341W, YLR343W, YDL187C, YOR214C, YNL205C, YOL047C, YDR218C, YDL114W, YFR032C, YIL099W, YGL138C, YDR523C, YOR313C, YLR307W, YLR308W, YGL015C, YBR148W, YPL130W, YJL037W, YNL033W, YOL015W, YPR027C, YGL170C, YDR042C, YHR185C, YOR339C, YOL091W, YLL005C, YER106W< H33 elementil Ò2 8YLR196W, YLR222C< H2 elementil Ò3 8YLR197W, YLR198C, YLR175W< H3 elementil Ò4 8YOR351C, YDR446W, YIL031W, YER179W< H4 elementil Ò5 8YLR340W, YGL135W< H2 elementil Ò6 8YDR285W, YMR133W< H2 elementil Ò7 8YHR203C, YLR344W, YGR085C, YLR061W, YLR062C, YOL127W, YGR027C, YOR234C, YGL147C, YOR096W, YGR034W, YLR441C, YLR448W, YGR118W, YLR167W, YPL131W, YDL082W, YLR325C, YGL102C, YPL079W, YGL103W, YLR185W, YHL015W, YGL189C, YPL081W< H25 elementil Ò8 8YCR012W, YCR013C, YKL060C, YKL152C, YKL153W, YGR192C, YHR174W, YJR009C, YDR050C, YJL052W, YLR044C< H11 elementil Ò9 8YBL003C, YDR224C, YDR225W, YNL031C, YBR010W< H5 elementil Ò10 8YKL006C, YEL076W, YMR273C, YFL011W, YAR002C, YMR006C, YMR085W, YDL045W< H8 elementil Ò11 8YMR046C, YMR051C, YML040W, YCL020W< H4 elementil Ò12 8YHR150W, YHR166C, YLR030W< H3 elementil Ò13 8YHR092C, YDR342C, YDR343C< H3 elementil Ò14 8YGL081W, YHR079BC, YGL033W< H3 elementil Ò15 8YLR314C, YML065W< H2 elementil

17 Gallo-DeBonis-UGM2010.nb 17

18 18 Gallo-DeBonis-UGM2010.nb Risultati Nei due grafi precedenti sono rappresentati i risultati dell'elaborazione basata sui profili di espressione dei 6221 geni del Saccharomyces cerevisiae, incrociati sugli 80 campioni disponibili. Anche con valori relativamente elevati di correlazione e di curvatura si ottengono classi ben delineate, come si evince dalle figure. Nel grafo con soglia di correlazione T cor = 0.90 e di curvatura T curv = 0.70 si osserva che solo 237 dei 6221 geni hanno curvatura positiva (3.8096%), con 1917 link iniziali; nel grafo con soglia di correlazione T cor = 0.80 e di curvatura T curv = 0.64 abbiamo 1112 geni con curvatura positiva ( %) e link. Molte delle classi ottenute hanno una base biologica accettabile. Ad esempio, la classe #7 del primo grafo e la classe #13 del secondo contengono (con le ovvie differenze) quasi tutti i geni per la produzione degli istoni: questo cluster è alquanto stabile al variare dei parametri di soglia. Classi più ampie sono anche state rilevate, come ad esempio il cluster di sintesi proteica (classe #10 del primo grafo e #2 del secondo): quest'ultimo è suscettibile di notevoli variazioni al variare delle soglie, e può arrivare ad includere centinaia di geni.

19 Gallo-DeBonis-UGM2010.nb 19 Implementazione in Mathematica: Analisi dei profili di espressione dei geni del linfoma Inizializzazione ü Packages e funzioni H* Il coefficiente di clustering di un nodo è il rapporto tra il numero di collegamenti dei nodi vicini ed il numero massimo possibile di tali link. Per i nodi con meno di due vicini il coefficiente di clustering coefficient non è definito.. *L g_graphd := 8nbrs, subgraph<, nbrs = v, 1D, 8v<D; < 2, subgraph = nbrsd; * ê * - 1LLD, ê * - 1LLD D; D; Dati di input: un vettore per ogni gene << lymph_ann.txt; << lymph_data.txt; ü Costanti = " geni"d = " campioni"d di correlazione: ", Tcor = 0.80D

20 20 Gallo-DeBonis-UGM2010.nb 4026 geni 96 campioni Soglia di correlazione: 0.8 ü Variabili di lavoro n, 1.. md : matrice dei dati geniêcampioni n,d : annotazioni dei geni n, 1.. nd : m atrice di correlazione dei geni fa : funzione di adiacenza fc : funzione di curvatura n, 1.. nd : matrice di adiacenza del grafo dei geni correlati G : grafo di correlazione nd : indici di curvatura dei nodi H : grafo di curvatura nd : array delle classi di appartenenza dei geni, con annotazioni cd : array delle classi HclusterL con relativi indici dei nodi Calcolo della matrice di correlazione = " secondi necessari per il calcolo della matrice di correlazione."d secondi necessari per il calcolo della matrice di correlazione.

21 Gallo-DeBonis-UGM2010.nb 21 Calcolo della matrice di adiacenza e del relativo grafo dalla matrice di correlazione ü Definizione della funzione di adiacenza j_d := jdd < Tcor && jdd > -Tcor, 0, 1 D; H* Calcolo della matrice di adiacenza *L "Tempo impiegato per la matrice di adiacenza: ", A = ¹ j, jd, 0D, 8i, n<, 8j, n<dd " secondi." D Tempo impiegato per la matrice di adiacenza: secondi. ü Costruzione del grafo dalla matrice di adiacenza G = grafo di correlazione ha ", " archi e ", " nodi."d Il grafo di correlazione ha 1872 archi e 4026 nodi. Calcolo degli indici di curvatura dei nodi := GD; impiegato per calcolare gli indici di curvatura: ", = " secondi."d Tempo impiegato per calcolare gli indici di curvatura: secondi. pcurv = x_ ê; x > 0D; sono ", pcurv, " indici di curvatura positivi H", ê n * 100D, "%L"D Vi sono 568 indici di curvatura positivi H %L Costruzione del grafo di curvatura per rimozione dei nodi/archi sotto soglia (Tcor = 0.80,Tcurv = 0.40)

22 22 Gallo-DeBonis-UGM2010.nb Costruzione del grafo di curvatura per rimozione dei nodi/archi sotto soglia (Tcor = 0.80,Tcurv = 0.40) ü Determinazione della lista dei nodi da rimuovere di curvatura: ", Tcurv = 0.40D ll = 8<; = 1, i n, i++, < Tcurv, ll = sono ", " nodi su ", n, " da rimuovere."d Soglia di curvatura: 0.4 Vi sono 3571 nodi su 4026 da rimuovere. ü Costruzione del grafo di curvatura H = grafo di curvatura ha ", " archi e ", " nodi."d Il grafo di curvatura ha 805 archi e 455 nodi.

23 Gallo-DeBonis-UGM2010.nb 23

24 24 Gallo-DeBonis-UGM2010.nb ü Lista delle annotazioni dei geni residui selezionati nel grafo di curvatura le annotazioni dei geni residui presenti in H *L Hann = lld; 455 ü Lista annotata delle classi (cluster con almeno due nodi) componenti il grafo di curvatura CC = Z = 8<;H* vettore delle classi e relativi indici dei nodi di H *L = 1, i i++, > 1, Z = Y = 8<;H* le classi finali ottenute, con annotazione dei geni *L = 1, i i++, Y = grafo di curvatura ha ", " classi, così strutturate:"d = 1, i i++, i, " ", " H", " elementil "DD grafo finale di classificazione è:"d HannD, Method Ø "SpiralEmbedding", VertexRenderingFunction Ø 0.1D, Black, FontFamily Ø "Arial Narrow", Antialiasing Ø True, FontSize Ø Medium, FontWeight Ø BoldD, Ò1D< &LD Il grafo di curvatura ha 110 classi, così strutturate: Ò1 8GENE4006X, GENE4007X, GENE4008X< H3 elementil Ò2 8GENE4012X, GENE4013X, GENE4014X, GENE4015X< H4 elementil Ò3 8GENE2536X, GENE2537X, GENE2538X< H3 elementil Ò4 8GENE2540X, GENE2541X, GENE2542X, GENE2543X< H4 elementil Ò5 8GENE3880X, GENE3881X, GENE3882X< H3 elementil Ò6 8GENE3450X, GENE3451X, GENE3452X< H3 elementil Ò7 8GENE3796X, GENE3794X< H2 elementil Ò8 8GENE3687X, GENE3766X, GENE3764X, GENE3762X, GENE3761X, GENE3760X< H6 elementil Ò9 8GENE3789X, GENE3788X, GENE3787X, GENE3786X< H4 elementil

25 Gallo-DeBonis-UGM2010.nb 25 Ò10 8GENE3782X, GENE3781X, GENE3780X< H3 elementil Ò11 8GENE3778X, GENE3777X, GENE3776X< H3 elementil Ò12 8GENE3775X, GENE3774X, GENE3773X, GENE3772X< H4 elementil Ò13 8GENE3771X, GENE3770X< H2 elementil Ò14 8GENE3769X, GENE3767X< H2 elementil Ò15 8GENE3757X, GENE3756X< H2 elementil Ò16 8GENE3755X, GENE3754X, GENE3753X, GENE3751X, GENE3750X< H5 elementil Ò17 8GENE3749X, GENE3748X, GENE3747X, GENE3746X, GENE3745X, GENE3744X, GENE3743X, GENE3742X, GENE3741X, GENE3740X< H10 elementil Ò18 8GENE3739X, GENE3738X, GENE3737X< H3 elementil Ò19 8GENE3710X, GENE3711X, GENE3712X, GENE3713X< H4 elementil Ò20 8GENE3716X, GENE3717X< H2 elementil Ò21 8GENE3724X, GENE3725X, GENE3726X, GENE3727X< H4 elementil Ò22 8GENE3690X, GENE3689X, GENE3688X< H3 elementil Ò23 8GENE3678X, GENE3657X, GENE3658X, GENE3659X, GENE3660X, GENE3677X, GENE3662X, GENE3676X, GENE3675X, GENE3680X, GENE3679X, GENE3674X, GENE3673X, GENE3666X, GENE3667X, GENE3668X, GENE3669X, GENE3670X, GENE3671X, GENE3672X, GENE3665X, GENE3664X, GENE3663X, GENE3656X, GENE3655X, GENE3654X< H26 elementil Ò24 8GENE3641X, GENE3643X< H2 elementil Ò25 8GENE3648X, GENE3649X, GENE3650X, GENE3651X< H4 elementil Ò26 8GENE3547X, GENE3546X, GENE3545X, GENE3544X, GENE3543X< H5 elementil Ò27 8GENE3555X, GENE3554X< H2 elementil Ò28 8GENE3419X, GENE3420X, GENE3421X, GENE3422X, GENE3423X, GENE3424X, GENE3425X, GENE3426X, GENE3427X, GENE3428X, GENE3429X, GENE3430X< H12 elementil Ò29 8GENE3839X, GENE3838X, GENE3837X, GENE3836X, GENE3835X< H5 elementil Ò30 8GENE2486X, GENE2487X, GENE2488X, GENE2489X, GENE2490X< H5 elementil Ò31 8GENE2052X, GENE2053X, GENE2054X< H3 elementil Ò32 8GENE2301X, GENE2300X, GENE2299X, GENE2298X< H4 elementil

26 26 Gallo-DeBonis-UGM2010.nb Ò33 8GENE2318X, GENE2317X, GENE2316X< H3 elementil Ò34 8GENE2429X, GENE2428X< H2 elementil Ò35 8GENE2357X, GENE2356X< H2 elementil Ò36 8GENE2366X, GENE2367X, GENE2368X, GENE2369X, GENE2370X, GENE2371X, GENE2372X, GENE2373X, GENE2374X< H9 elementil Ò37 8GENE2383X, GENE2384X, GENE2385X< H3 elementil Ò38 8GENE2410X, GENE2409X, GENE2408X, GENE2407X< H4 elementil Ò39 8GENE2404X, GENE2403X, GENE2402X, GENE2401X, GENE2400X, GENE2399X< H6 elementil Ò40 8GENE2380X, GENE2379X, GENE2378X< H3 elementil Ò41 8GENE2471X, GENE2472X, GENE2475X, GENE2474X< H4 elementil Ò42 8GENE2274X, GENE2273X, GENE2272X< H3 elementil Ò43 8GENE2183X, GENE2182X, GENE2181X< H3 elementil Ò44 8GENE2110X, GENE2109X, GENE2108X, GENE2107X< H4 elementil Ò45 8GENE2094X, GENE2093X, GENE2092X< H3 elementil Ò46 8GENE2090X, GENE2089X, GENE2088X< H3 elementil Ò47 8GENE2553X, GENE2554X, GENE2555X< H3 elementil Ò48 8GENE3230X, GENE3231X, GENE3232X< H3 elementil Ò49 8GENE3365X, GENE3364X, GENE3363X< H3 elementil Ò50 8GENE3351X, GENE3350X, GENE3349X, GENE3348X< H4 elementil Ò51 8GENE3317X, GENE3318X, GENE3319X< H3 elementil Ò52 8GENE3326X, GENE3327X, GENE3328X, GENE3329X, GENE3330X, GENE3331X< H6 elementil Ò53 8GENE3245X, GENE3244X, GENE3243X, GENE3242X< H4 elementil Ò54 8GENE3241X, GENE3240X, GENE3239X< H3 elementil Ò55 8GENE3955X, GENE3956X, GENE3957X, GENE3958X< H4 elementil Ò56 8GENE1472X, GENE1473X, GENE1474X< H3 elementil

27 Gallo-DeBonis-UGM2010.nb 27 Ò57 8GENE2675X, GENE2676X, GENE2677X, GENE2678X< H4 elementil Ò58 8GENE2765X, GENE2764X, GENE2763X< H3 elementil Ò59 8GENE2760X, GENE2759X, GENE2758X< H3 elementil Ò60 8GENE2600X, GENE2599X, GENE2598X< H3 elementil Ò61 8GENE1309X, GENE1310X, GENE1311X, GENE1313X< H4 elementil Ò62 8GENE3924X, GENE3923X, GENE3922X< H3 elementil Ò63 8GENE1371X, GENE1370X, GENE1369X, GENE1368X< H4 elementil Ò64 8GENE1188X, GENE1189X, GENE1190X< H3 elementil Ò65 8GENE1208X, GENE1209X, GENE1210X< H3 elementil Ò66 8GENE1244X, GENE1245X, GENE1246X< H3 elementil Ò67 8GENE1185X, GENE1186X, GENE1187X< H3 elementil Ò68 8GENE1294X, GENE1293X, GENE1292X< H3 elementil Ò69 8GENE889X, GENE890X, GENE891X< H3 elementil Ò70 8GENE948X, GENE949X, GENE950X, GENE951X< H4 elementil Ò71 8GENE1175X, GENE1174X, GENE1173X, GENE1171X, GENE1170X< H5 elementil Ò72 8GENE1135X, GENE1136X< H2 elementil Ò73 8GENE60X, GENE61X, GENE62X< H3 elementil Ò74 8GENE3987X, GENE3986X, GENE3985X< H3 elementil Ò75 8GENE3965X, GENE3966X, GENE3967X, GENE3968X< H4 elementil Ò76 8GENE218X, GENE217X< H2 elementil Ò77 8GENE841X, GENE840X, GENE838X< H3 elementil Ò78 8GENE809X, GENE808X, GENE807X< H3 elementil Ò79 8GENE542X, GENE541X, GENE539X, GENE538X, GENE537X< H5 elementil Ò80 8GENE532X, GENE531X< H2 elementil

28 28 Gallo-DeBonis-UGM2010.nb Ò81 8GENE603X, GENE602X< H2 elementil Ò82 8GENE628X, GENE661X< H2 elementil Ò83 8GENE686X, GENE716X< H2 elementil Ò84 8GENE680X, GENE679X< H2 elementil Ò85 8GENE741X, GENE740X< H2 elementil Ò86 8GENE578X, GENE577X, GENE576X, GENE575X, GENE574X< H5 elementil Ò87 8GENE567X, GENE569X, GENE566X< H3 elementil Ò88 8GENE1322X, GENE1321X, GENE1320X, GENE1319X< H4 elementil Ò89 8GENE878X, GENE877X, GENE876X, GENE875X< H4 elementil Ò90 8GENE125X, GENE124X, GENE123X, GENE122X, GENE121X, GENE120X< H6 elementil Ò91 8GENE106X, GENE105X, GENE104X< H3 elementil Ò92 8GENE1003X, GENE1004X, GENE1005X< H3 elementil Ò93 8GENE73X, GENE74X, GENE75X, GENE76X< H4 elementil Ò94 8GENE3200X, GENE3199X, GENE3198X< H3 elementil Ò95 8GENE3845X, GENE3846X, GENE3847X, GENE3848X, GENE3849X, GENE3850X, GENE3851X, GENE3852X< H8 elementil Ò96 8GENE3974X, GENE3975X, GENE3976X< H3 elementil Ò97 8GENE1779X, GENE1778X, GENE1777X< H3 elementil Ò98 8GENE1123X, GENE1124X, GENE1125X, GENE1126X, GENE1127X, GENE1128X, GENE1129X, GENE1130X< H8 elementil Ò99 8GENE1598X, GENE1599X, GENE1600X, GENE1601X< H4 elementil Ò100 8GENE1613X, GENE1612X, GENE1611X< H3 elementil Ò101 8GENE1610X, GENE1646X, GENE1644X, GENE1643X, GENE1642X< H5 elementil Ò102 8GENE1616X, GENE1617X, GENE1618X, GENE1619X< H4 elementil Ò103 8GENE1633X, GENE1651X, GENE1650X, GENE1641X, GENE1640X, GENE1639X, GENE1638X, GENE1654X, GENE1653X< H9 elementil Ò104 8GENE1657X, GENE1658X, GENE1659X< H3 elementil

29 Gallo-DeBonis-UGM2010.nb 29 Ò105 8GENE1660X, GENE1662X< H2 elementil Ò106 8GENE1693X, GENE1695X, GENE1696X, GENE1697X, GENE1698X< H5 elementil Ò107 8GENE1746X, GENE1747X, GENE1748X< H3 elementil Ò108 8GENE1727X, GENE1726X, GENE1725X< H3 elementil Ò109 8GENE1569X, GENE1570X, GENE1571X< H3 elementil Ò110 8GENE1548X, GENE1547X, GENE1546X< H3 elementil Il grafo finale di classificazione è:

30 30 Gallo-DeBonis-UGM2010.nb Costruzione del grafo di curvatura per rimozione dei nodi/archi sotto soglia (Tcor = 0.80,Tcurv = 0.24)

31 Gallo-DeBonis-UGM2010.nb 31 Costruzione del grafo di curvatura per rimozione dei nodi/archi sotto soglia (Tcor = 0.80,Tcurv = 0.24) ü Determinazione della lista dei nodi da rimuovere di curvatura: ", Tcurv = 0.24D H* soglia per la costruzione del HsottoLgrafo di curvatura *L ll = 8<; = 1, i n, i++, < Tcurv, ll = sono ", " nodi su ", n, " da rimuovere."d Soglia di curvatura: 0.24 Vi sono 3571 nodi su 4026 da rimuovere. ü Costruzione del grafo di curvatura H = grafo di curvatura ha ", " archi e ", " nodi."d Il grafo di curvatura ha 805 archi e 455 nodi.

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da

Dettagli

Regressione non lineare con un modello neurale feedforward

Regressione non lineare con un modello neurale feedforward Reti Neurali Artificiali per lo studio del mercato Università degli studi di Brescia - Dipartimento di metodi quantitativi Marco Sandri (sandri.marco@gmail.com) Regressione non lineare con un modello neurale

Dettagli

Algoritmi di clustering

Algoritmi di clustering Algoritmi di clustering Dato un insieme di dati sperimentali, vogliamo dividerli in clusters in modo che: I dati all interno di ciascun cluster siano simili tra loro Ciascun dato appartenga a uno e un

Dettagli

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: macchine che apprendono Computazione per l interazione naturale: macchine che apprendono Corso di Interazione Naturale! Prof. Giuseppe Boccignone! Dipartimento di Informatica Università di Milano! boccignone@di.unimi.it boccignone.di.unimi.it/in_2015.html

Dettagli

La tecnologia dei microarray

La tecnologia dei microarray La tecnologia dei microarray I microarray I progetti di sequenziamento (progetti permesso di identificare migliaia di geni genoma) ) hanno Migliaia di geni (ed i loro prodotti, le proteine) operano in

Dettagli

Analisi di dati Microarray: Esercitazione Matlab

Analisi di dati Microarray: Esercitazione Matlab Analisi di dati Microarray: Esercitazione Matlab Laboratorio di Bioinformatica II Pietro Lovato Anno Accademico 2010/2011 Contenuti 1 Introduzione DNA Microarray 2 Lavorare con una singola ibridazione

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Data Mining. Introduzione La crescente popolarità

Dettagli

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it Data Mining Gabriella Trucco gabriella.trucco@unimi.it Perché fare data mining La quantità dei dati memorizzata su supporti informatici è in continuo aumento Pagine Web, sistemi di e-commerce Dati relativi

Dettagli

Data Mining in SAP. Alessandro Ciaramella

Data Mining in SAP. Alessandro Ciaramella UNIVERSITÀ DI PISA Corsi di Laurea Specialistica in Ingegneria Informatica per la Gestione d Azienda e Ingegneria Informatica Data Mining in SAP A cura di: Alessandro Ciaramella La Business Intelligence

Dettagli

Bioinformatica (1) Introduzione. Dott. Alessandro Laganà

Bioinformatica (1) Introduzione. Dott. Alessandro Laganà Bioinformatica (1) Introduzione Dott. Alessandro Laganà Dott. Alessandro Laganà Martedi 15.30 16.30 Studio Assegnisti - 1 Piano (Davanti biblioteca) Dipartimento di Matematica e Informatica (Città Universitaria)

Dettagli

Tecniche di Clustering basate sul Machine Learning

Tecniche di Clustering basate sul Machine Learning UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II Scuola Politecnica e delle Scienze di base Area didattica Scienze Matematiche Fisiche e Naturali Corso di Laurea in Informatica Tecniche di Clustering basate

Dettagli

Reti Neurali Artificiali per la Finanza (7 CFU)

Reti Neurali Artificiali per la Finanza (7 CFU) Reti Neurali Artificiali per la Finanza (7 CFU) Facoltà di Economia - Università di Foggia CdLM in Finanza a.a. 2011/2012 Prof. Crescenzio Gallo c.gallo@unifg.it Premessa Le tecniche adottate per l'analisi

Dettagli

CAPITOLO 1 INTRODUZIONE ALLE RETI COMPLESSE

CAPITOLO 1 INTRODUZIONE ALLE RETI COMPLESSE CAPITOLO 1 INTRODUZIONE ALLE RETI COMPLESSE Negli ultimi anni si è compreso che sistemi anche molto diversi tra loro possono essere efficacemente descritti in termini di cosiddetti "networks" o reti complesse.

Dettagli

Introduzione al Pattern Recognition Statistico

Introduzione al Pattern Recognition Statistico Introduzione al Pattern Recognition Statistico Roberto Tagliaferri Dipartimento di Informatica Università di Salerno ( Sa ) 84084 Fisciano e-mail robtag@unisa.it Statistical Pattern Recognition Introduzione

Dettagli

Uno standard per il processo KDD

Uno standard per il processo KDD Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo

Dettagli

Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY.

Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY. Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY. Lezioni Lincee Palermo, 26 Febbraio 2015 Alla base della vita degli

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: similarità Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Definizioni preliminari

Dettagli

PROFILAZIONE AUTOMATICA DI CARATTERISTICHE D UTENZA MEDIANTE CLASSIFICATORI NEURALI

PROFILAZIONE AUTOMATICA DI CARATTERISTICHE D UTENZA MEDIANTE CLASSIFICATORI NEURALI UNIVERSITÀ POLITECNICA DELLE MARCHE FACOLTÀ DI INGEGNERIA Corso di laurea in Ingegneria Informatica e dell Automazione Dipartimento di Ingegneria Informatica, Gestionale e dell Automazione PROFILAZIONE

Dettagli

online La situazione operativa. In ambito aziendale i processi decisionali richiedono assunzioni di responsabilità a vari LABORATORIO 1

online La situazione operativa. In ambito aziendale i processi decisionali richiedono assunzioni di responsabilità a vari LABORATORIO 1 LABORATORIO 1 Scelta tra preventivi per l acquisto di un impianto di Luca CAGLIERO Materie: Informatica, Matematica, Economia aziendale (Triennio IT) L attività da svolgere in laboratorio, di carattere

Dettagli

Tecniche di DM: Link analysis e Association discovery

Tecniche di DM: Link analysis e Association discovery Tecniche di DM: Link analysis e Association discovery Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Architettura di un generico algoritmo di DM. 2 2 Regole di associazione:

Dettagli

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Concetti preliminari: struttura del dataset negli

Dettagli

Analisi dei gruppi (Cluster analysis)

Analisi dei gruppi (Cluster analysis) Capitolo 10 Analisi dei gruppi (Cluster analysis) Partendo da un collettivo multidimensionale, l analisi dei gruppi mira ad assegnarne le unità a categorie non definite a priori, formando dei gruppi di

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis

Dettagli

Data mining e rischi aziendali

Data mining e rischi aziendali Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento

Dettagli

Pro e contro delle RNA

Pro e contro delle RNA Pro e contro delle RNA Pro: - flessibilità: le RNA sono approssimatori universali; - aggiornabilità sequenziale: la stima dei pesi della rete può essere aggiornata man mano che arriva nuova informazione;

Dettagli

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali DIPARTIMENTO DI INGEGNERIA INFORMATICA AUTOMATICA E GESTIONALE ANTONIO RUBERTI Cenni al Data Mining 1 Data Mining nasce prima del Data Warehouse collezione di tecniche derivanti da Intelligenza Artificiale,

Dettagli

Clustering. Utilizziamo per la realizzazione dell'esempio due tipologie di software:

Clustering. Utilizziamo per la realizzazione dell'esempio due tipologie di software: Esercizio Clustering Utilizziamo per la realizzazione dell'esempio due tipologie di software: - XLSTAT.xls - Cluster.exe XLSTAT.xls XLSTAT.xls è una macro di Excel che offre la possibilità di effettuare

Dettagli

DNA sequence alignment

DNA sequence alignment DNA sequence alignment - Introduzione: un possibile modello per rappresentare il DNA. Il DNA (Acido desossiribonucleico) è una sostanza presente nei nuclei cellulari, sia vegetali che animali; a questo

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 4 Reti neurali per la classificazione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com

Dettagli

Una proteina nella rete: Introduzione alla bioinformatica

Una proteina nella rete: Introduzione alla bioinformatica Una proteina nella rete: Introduzione alla bioinformatica L era genomica ha assistito ad una crescita esponenziale delle informazioni biologiche rese disponibili dai progressi nel campo della biologia

Dettagli

INTRODUZIONE A EXCEL ESERCITAZIONE I

INTRODUZIONE A EXCEL ESERCITAZIONE I 1 INTRODUZIONE A EXCEL ESERCITAZIONE I Corso di Idrologia e Infrastrutture Idrauliche Prof. Roberto Guercio Cos è Excel 2 Foglio di calcolo o foglio elettronico è formato da: righe e colonne visualizzate

Dettagli

Metodi basati sugli autovettori per il Web Information Retrieval

Metodi basati sugli autovettori per il Web Information Retrieval Metodi basati sugli autovettori per il Web Information Retrieval HITS, PageRank e il metodo delle potenze LSI e SVD LSI è diventato famoso per la sua abilità nel permettere di manipolare i termini (all

Dettagli

Metodi Statistici di Analisi dei Dati Ambientali

Metodi Statistici di Analisi dei Dati Ambientali Metodi Statistici di Analisi dei Dati Ambientali Arianna Azzellino Politecnico di Milano D.I.I.A.R. Dipartimento di Ingegneria Idraulica, Ambientale, Rilevamento e Infrastrutture Viarie Problematica La

Dettagli

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale Esperienze di Apprendimento Automatico per il corso di lippi@dsi.unifi.it Dipartimento Sistemi e Informatica Università di Firenze Dipartimento Ingegneria dell Informazione Università di Siena Introduzione

Dettagli

Lezione 8. Data Mining

Lezione 8. Data Mining Lezione 8 Data Mining Che cos'è il data mining? Data mining (knowledge discovery from data) Estrazione di pattern interessanti (non banali, impliciti, prima sconosciuti e potenzialmente utili) da enormi

Dettagli

Bioinformatica Analisi del trascrittoma. Dott. Alessandro Laganà

Bioinformatica Analisi del trascrittoma. Dott. Alessandro Laganà Bioinformatica Analisi del trascrittoma Dott. Alessandro Laganà Analisi del trascrittoma Regolazione dell espressione genica I microarray cdna microarray Oligo microarray Affymetrix Chip Analisi dei dati

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 8 Support Vector Machines Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

I Modelli della Ricerca Operativa

I Modelli della Ricerca Operativa Capitolo 1 I Modelli della Ricerca Operativa 1.1 L approccio modellistico Il termine modello è di solito usato per indicare una costruzione artificiale realizzata per evidenziare proprietà specifiche di

Dettagli

ESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI. (Visione 3D)

ESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI. (Visione 3D) ESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI () Calcolo delle corrispondenze Affrontiamo il problema centrale della visione stereo, cioè la ricerca automatica di punti corrispondenti tra immagini Chiamiamo

Dettagli

KNOWLEDGE DISCOVERY E DATA MINING

KNOWLEDGE DISCOVERY E DATA MINING KNOWLEDGE DISCOVERY E DATA MINING Prof. Dipartimento di Elettronica e Informazione Politecnico di Milano LE TECNOLOGIE DI GESTIONE DELL INFORMAZIONE DATA WAREHOUSE SUPPORTO ALLE DECISIONI DATA MINING ANALISI

Dettagli

CONTROLLI AUTOMATICI E AZIONAMENTI ELETTRICI Ingegneria Meccatronica

CONTROLLI AUTOMATICI E AZIONAMENTI ELETTRICI Ingegneria Meccatronica CONTROLLI AUTOMATICI E AZIONAMENTI ELETTRICI Ingegneria Meccatronica CONTROLLI AUTOMATICI e AZIONAMENTI ELETTRICI INTRODUZIONE A MATLAB Ing. Alberto Bellini Tel. 0522 522626 e-mail: alberto.bellini@unimore.it

Dettagli

Alcuni Preliminari. Prodotto Cartesiano

Alcuni Preliminari. Prodotto Cartesiano Alcuni Preliminari Prodotto Cartesiano Dati due insiemi A e B, si definisce il loro prodotto cartesiano A x B come l insieme di tutte le coppie ordinate (a,b) con a! A e b! B. Es: dati A= {a,b,c} e B={,2,3}

Dettagli

Minimizzazione di Reti Logiche Combinatorie Multi-livello

Minimizzazione di Reti Logiche Combinatorie Multi-livello Minimizzazione di Reti Logiche Combinatorie Multi-livello Maurizio Palesi Maurizio Palesi 1 Introduzione Obiettivo della sintesi logica: ottimizzazione delle cifre di merito area e prestazioni Prestazioni:

Dettagli

Ricerca di outlier. Ricerca di Anomalie/Outlier

Ricerca di outlier. Ricerca di Anomalie/Outlier Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

Cluster gerarchica. Capitolo

Cluster gerarchica. Capitolo Cluster gerarchica Capitolo 33 Questa procedura consente di identificare gruppi di casi relativamente omogenei in base alle caratteristiche selezionate, utilizzando un algoritmo che inizia con ciascun

Dettagli

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche DATA MINING datamining Data mining Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche Una materia interdisciplinare: - statistica, algoritmica, reti neurali

Dettagli

Sequence Alignment Algorithms

Sequence Alignment Algorithms Sequence Alignment Algorithms Algoritmi per l Allineamento di Sequenze Relatore: Prof. Giancarlo Mauri Correlatore: Prof. Gianluca Della Vedova Tesi di Laurea di: Mauro Baluda Matricola 038208 Part of

Dettagli

DATA MINING IN TIME SERIES

DATA MINING IN TIME SERIES Modellistica e controllo dei sistemi ambientali DATA MINING IN TIME SERIES 01 Dicembre 2009 Dott. Ing.. Roberto Di Salvo Dipartimento di Ingegneria Elettrica Elettronica e dei Sistemi Anno Accademico 2009-2010

Dettagli

STRUMENTO DI SUPPORTO PER L ANALISI DEL RISCHIO-RAPINA

STRUMENTO DI SUPPORTO PER L ANALISI DEL RISCHIO-RAPINA Convegno ABI BANCHE E SICUREZZA 2007 STRUMENTO DI SUPPORTO PER L ANALISI DEL RISCHIO-RAPINA Fabrizio Capobianco Responsabile Ufficio Gestione Sicurezza - SGS Gruppo Banco Popolare di Verona e Novara Caratteristiche

Dettagli

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo Evoluzione In ogni popolazione si verificano delle mutazioni. Intelligenza Artificiale In un ambiente che varia, le mutazioni possono generare individui che meglio si adattano alle nuove condizioni. Questi

Dettagli

Mining Positive and Negative Association Rules:

Mining Positive and Negative Association Rules: Mining Positive and Negative Association Rules: An Approach for Confined Rules Alessandro Boca Alessandro Cislaghi Premesse Le regole di associazione positive considerano solo gli item coinvolti in una

Dettagli

Brain architecture: A design for natural computation

Brain architecture: A design for natural computation Brain architecture: A design for natural computation Autore: Marcus Kaiser Oratore: Vincenzo Lomonaco Indice Introduzione Organizzazione della rete corticale Robustezza e capacità di recupero Elaborazione

Dettagli

CIRCUITI INTELLIGENTI Parte 5: PCA e ICA

CIRCUITI INTELLIGENTI Parte 5: PCA e ICA Ing. Simone SCARDAPANE Circuiti e Algoritmi per l Elaborazione dei Segnali Anno Accademico 2012/2013 Indice della Lezione 1. Analisi delle Componenti Principali 2. Auto-Associatori 3. Analisi delle Componenti

Dettagli

6.2 Modelli per il monossido di carbonio

6.2 Modelli per il monossido di carbonio 6.2 Modelli per il monossido di carbonio La serie temporale scelta per l addestramento è quella rilevata in via Piave poiché tra le stazioni idonee, per legge, al controllo di questo inquinante essa presenta

Dettagli

Un sistema di Vision Inspection basato su reti neurali

Un sistema di Vision Inspection basato su reti neurali Un sistema di Vision Inspection basato su reti neurali Ludovico Buffon 1, Evelina Lamma 1, Fabrizio Riguzzi 1, Davide Formenti 2 1 Dipartimento di Ingegneria, Via Saragat 1, 44122 Ferrara (FE), Italia

Dettagli

TO61: Applicazione di metodi della fisica teorica a sistemi biologici

TO61: Applicazione di metodi della fisica teorica a sistemi biologici TO61: Applicazione di metodi della fisica teorica a sistemi biologici Obiettivi: Offrire l opportunita ai vari gruppi che in questi ultimi anni, all interno dell INFN, hanno cominciato a lavorare al confine

Dettagli

INDICE INTRODUZIONE... 1. Capitolo 1: RETI WIRELESS... 5. 1.1 Reti Wireless... 5. 1.2 Lo standard IEEE 802.11... 10. 1.3 Le Vanet...

INDICE INTRODUZIONE... 1. Capitolo 1: RETI WIRELESS... 5. 1.1 Reti Wireless... 5. 1.2 Lo standard IEEE 802.11... 10. 1.3 Le Vanet... Indice INDICE INTRODUZIONE... 1 Capitolo 1: RETI WIRELESS... 5 1.1 Reti Wireless... 5 1.2 Lo standard IEEE 802.11... 10 1.3 Le Vanet... 14 1.4 LTE (Long Term Evolution)... 19 1.5 5G... 21 Capitolo 2: RETI

Dettagli

Laboratorio di Apprendimento Automatico. Fabio Aiolli Università di Padova

Laboratorio di Apprendimento Automatico. Fabio Aiolli Università di Padova Laboratorio di Apprendimento Automatico Fabio Aiolli Università di Padova Esempi di Applicazioni Web page Ranking Quali documenti sono rilevanti per una determinata query? Quali sorgenti di informazione

Dettagli

Sistemi Operativi mod. B. Sistemi Operativi mod. B A B C A B C P 1 2 0 0 P 1 1 2 2 3 3 2 P 2 3 0 2 P 2 6 0 0 P 3 2 1 1 P 3 0 1 1 < P 1, >

Sistemi Operativi mod. B. Sistemi Operativi mod. B A B C A B C P 1 2 0 0 P 1 1 2 2 3 3 2 P 2 3 0 2 P 2 6 0 0 P 3 2 1 1 P 3 0 1 1 < P 1, > Algoritmo del banchiere Permette di gestire istanze multiple di una risorsa (a differenza dell algoritmo con grafo di allocazione risorse). Ciascun processo deve dichiarare a priori il massimo impiego

Dettagli

Annotazione automatica di immagini con sistemi desktop grid

Annotazione automatica di immagini con sistemi desktop grid Annotazione automatica di immagini con sistemi desktop grid Marco Ferrante (ferrante@csita.unige.it) Laura Lo Gerfo (logerfo@disi.unige.it) DISI - Università di Genova Tagging e retrieval di immagini Nell'annotazione

Dettagli

Opportunità e rischi derivanti dall'impiego massivo dell'informatica in statistica. Francesco Maria Sanna Roma, 3 maggio 2012

Opportunità e rischi derivanti dall'impiego massivo dell'informatica in statistica. Francesco Maria Sanna Roma, 3 maggio 2012 Opportunità e rischi derivanti dall'impiego massivo dell'informatica in statistica Francesco Maria Sanna Roma, 3 maggio 2012 Procedere alla misura, al rilevamento e al trattamento dei dati è sempre stato

Dettagli

Sorgenti autorevoli in ambienti hyperlinkati.

Sorgenti autorevoli in ambienti hyperlinkati. Sorgenti autorevoli in ambienti hyperlinkati. La qualità di un metodo di ricerca richiede la valutazione umana dovuta alla soggettività inerente alla nozione di rilevanza. I motori di ricerca correnti,

Dettagli

Verifica e Validazione (V & V) Software e difetti. Processo di V & V. Test

Verifica e Validazione (V & V) Software e difetti. Processo di V & V. Test Software e difetti Il software con difetti è un grande problema I difetti nel software sono comuni Come sappiamo che il software ha qualche difetto? Conosciamo tramite qualcosa, che non è il codice, cosa

Dettagli

Neural Network Toolbox

Neural Network Toolbox Neural Network Toolbox In questa sede verrà presentata una trattazione esauriente delle caretteristiche fondamentali del Neuron Network Toolbox presente come pacchetto supplementare al software Matlab

Dettagli

Suggerimenti per l approccio all analisi dei dati multivariati

Suggerimenti per l approccio all analisi dei dati multivariati Suggerimenti per l approccio all analisi dei dati multivariati Definizione degli obbiettivi Il primo passo è la definizione degli obbiettivi. Qual è l obbiettivo della sperimentazione i cui dati dovete

Dettagli

Note del Corso di Modelli Biologici Discreti: Un paio di algoritmi DNA per risolvere SAT

Note del Corso di Modelli Biologici Discreti: Un paio di algoritmi DNA per risolvere SAT Note del Corso di Modelli Biologici Discreti: Un paio di algoritmi DNA per risolvere SAT Giuditta Franco Corso di Laurea in Bioinformatica - AA 2012/2013 Uno dei più grossi risultati nell informatica degli

Dettagli

Il Clustering. 13.1 Introduzione al Clustering

Il Clustering. 13.1 Introduzione al Clustering 13 Il Clustering In questo capitolo illustreremo quel task di Data Mining noto come clustering. Il capitolo si apre con una introduzione al clustering; successivamente vengono esaminati i tipi di dati

Dettagli

di4g: Uno strumento di clustering per l analisi integrata di dati geologici

di4g: Uno strumento di clustering per l analisi integrata di dati geologici di4g: Uno strumento di clustering per l analisi integrata di dati geologici Alice Piva 1, Giacomo Gamberoni 1, Denis Ferraretti 1, Evelina Lamma 2 1 intelliware snc, via J.F.Kennedy 15, 44122 Ferrara,

Dettagli

La statistica multivariata

La statistica multivariata Cenni di Statistica Multivariata Dr Corrado Costa La statistica multivariata La statistica multivariata è quella parte della statistica in cui l'oggetto dell'analisi è per sua natura formato da almeno

Dettagli

Progetto Cluster. Sottoprogetto Bioinformatica

Progetto Cluster. Sottoprogetto Bioinformatica Progetto Cluster Sottoprogetto Bioinformatica CRS4 (Centro di Ricerca, Sviluppo e Studi Superiori in Sardegna) Società costituita nel 1990 svolge attività di ricerca e sviluppo basate sulle tecnologie

Dettagli

Informatica e biotecnologie II parte

Informatica e biotecnologie II parte Informatica e biotecnologie II parte Analisi di sequenze: allineamenti CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC CGAAATCGCATCAGCATACGATCGCATGC Bioinformatica La Bioinformatica è una disciplina

Dettagli

Università degli Studi di Napoli Federico II

Università degli Studi di Napoli Federico II Università degli Studi di Napoli Federico II Facoltà di Scienze MM.FF.NN. Corso di Laurea in Informatica Tesi sperimentale di Laurea Triennale Calcolo ad alte prestazioni basato su GPU Un modello ibrido

Dettagli

Analisi dei dati di traffico esistenti per la definizione dei profili temporali: metodologia ed esempio di applicazione.

Analisi dei dati di traffico esistenti per la definizione dei profili temporali: metodologia ed esempio di applicazione. XIII Expert panel emissioni da trasporto su strada Roma, 4 ottobre 27 Analisi dei dati di traffico esistenti per la definizione dei profili temporali: metodologia ed esempio di applicazione. C. Lavecchia*;

Dettagli

METODI NON SUPERVISIONATI NELL'ANALISI ESPLORATIVA DI DATI DA DNA MICROARRAY

METODI NON SUPERVISIONATI NELL'ANALISI ESPLORATIVA DI DATI DA DNA MICROARRAY METODI NON SUPERVISIONATI NELL'ANALISI ESPLORATIVA DI DATI DA DNA MICROARRAY Stefano Rovetta Dipartimento di Informatica e Scienze dell Informazione, Università di Genova Istituto Nazionale di Fisica della

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 1 - Introduzione generale Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

UNIVERSITA DEGLI STUDI DI PADOVA

UNIVERSITA DEGLI STUDI DI PADOVA UNIVERSITA DEGLI STUDI DI PADOVA FACOLTA DI SCIENZE STATISTICHE CORSO DI LAUREA STATISTICA E GESTIONE DELLE IMPRESE TESI DI LAUREA Algoritmo DEDS: un analisi mediante studi di simulazione. Relatore: Ch.ma

Dettagli

aided content analysis)

aided content analysis) T-Lab Stefano Nobile L analisi del contenuto computerizzata (computer aided content analysis) I software in commercio per l analisi l del contenuto computerassistita possono essere distinti in due grandi

Dettagli

Miglioramento dell analisi di immagine in GRASS tramite segmentazione

Miglioramento dell analisi di immagine in GRASS tramite segmentazione Segmentazione in GRASS Miglioramento dell analisi di immagine in GRASS tramite segmentazione Alfonso Vitti e Paolo Zatelli Dipartimento di Ingegneria Civile ed Ambientale Università di Trento Italy FOSS4G-it

Dettagli

Analisi del Rischio Rapina

Analisi del Rischio Rapina G. Bruno Ronsivalle Analisi del Rischio Rapina Il nuovo modello di valutazione e simulazione mediante algoritmi neuronali Verso una visione integrata del rischio rapina I tre livelli del modello di analisi

Dettagli

Introduzione alla tecnica di Programmazione Dinamica

Introduzione alla tecnica di Programmazione Dinamica Universitá degli Studi di Salerno Corso di Algoritmi Prof. Ugo Vaccaro Anno Acc. 2014/15 p. 1/37 Sommario della lezione Introduzione alla tecnica di Programmazione Dinamica Esempio di applicazione n. 1:

Dettagli

DoE - Design of Experiment

DoE - Design of Experiment 3 Tecniche di DoE DoE - Design of Experiment Sequenza di Prove Sperimentali da Effettuare per Studiare e Ottimizzare un Processo Un esperimento programmato è una prova o una serie di prove in cui vengono

Dettagli

Strumenti statistici per l analisi di dati genetici

Strumenti statistici per l analisi di dati genetici Strumenti statistici per l analisi di dati genetici Luca Tardella + Maria Brigida Ferraro 1 email: luca.tardella@uniroma1.it Lezione #1 Introduzione al software R al suo utilizzo per l implementazione

Dettagli

TSP con eliminazione di sottocicli

TSP con eliminazione di sottocicli TSP con eliminazione di sottocicli Un commesso viaggiatore deve visitare 7 clienti in modo da minimizzare la distanza percorsa. Le distanze (in Km) tra ognuno dei clienti sono come segue: 7-8 9 7 9-8 79

Dettagli

METODI DI MARCATURA DEGLI ACIDI NUCLEICI

METODI DI MARCATURA DEGLI ACIDI NUCLEICI METODI DI MARCATURA DEGLI ACIDI NUCLEICI Marcatura di acidi nucleici Una sonda per ibridazione è una molecola di DNA marcata, con una sequenza complementare al DNA bersaglio da individuare. Poiché la sonda

Dettagli

ROCK. A Robust Clustering Algorithm for Categorical Attributes. Sudipto Guha, Rajeev Rastogi, Kyuseok Shim

ROCK. A Robust Clustering Algorithm for Categorical Attributes. Sudipto Guha, Rajeev Rastogi, Kyuseok Shim ROCK A Robust Clustering Algorithm for Categorical Attributes Sudipto Guha, Rajeev Rastogi, Kyuseok Shim Presentazione di Sara Liparesi e Francesco Nonni Sistemi Informativi per le Decisioni a.a. 2005/2006

Dettagli

matematicamente.it Numero 9 Maggio 2009

matematicamente.it Numero 9 Maggio 2009 112. Data ining: esplorando le miniere alla ricerca della conoscenza nascosta Clustering con l algoritmo k-means di Gaetano Zazzaro 1 L uomo è confinato nei limiti angusti del corpo, come in una prigione,

Dettagli

ID55/2005 PROGETTO R&S Lo sviluppo di nuovi inibitori delle istone deacetilasi per un approccio epigenetico alla terapia dei tumori.

ID55/2005 PROGETTO R&S Lo sviluppo di nuovi inibitori delle istone deacetilasi per un approccio epigenetico alla terapia dei tumori. SCHEDE TECNICHE INTERVENTI CONCLUSI ATI CONGENIA - CONGENIA Srl Milano - DAC Srl Milano - NIKEM RESEARCH Srl Bollate MI - ISTITUTO EUROPEO DI ONCOLOGIA Milano - ISTITUTO FIRC DI ONCOLOGIA MOLECOLARE Milano

Dettagli

LEZIONE DI MATLAB 2.0. Ing.Irene Tagliente E-mail: irene.tagliente@opbg.net

LEZIONE DI MATLAB 2.0. Ing.Irene Tagliente E-mail: irene.tagliente@opbg.net LEZIONE DI MATLAB 2.0 Ing.Irene Tagliente E-mail: irene.tagliente@opbg.net Cos è Matlab Il programma MATLAB si è imposto in ambiente ingegneristico come strumento per la simulazione e l'analisi dei sistemi

Dettagli

Laboratorio di Programmazione II Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona

Laboratorio di Programmazione II Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona e e Laboratorio di Programmazione II Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario e ed implementazione in Java Visita di un grafo e e Concetti di base Struttura

Dettagli

3. Piano di lavoro: - applicazione di alcune semplici procedure, con il confronto tra le diverse soluzioni possibili nell ambito del programma SPSS

3. Piano di lavoro: - applicazione di alcune semplici procedure, con il confronto tra le diverse soluzioni possibili nell ambito del programma SPSS Per utilizzare SPSS sui PC dell aula informatica occorre accedere come: ID: SPSS Password: winidams Testo rapido di consultazione: Fideli R. Come analizzare i dati al computer. ed. Carocci, Urbino, 2002.

Dettagli

Algebra booleana e circuiti logici. a cura di: Salvatore Orlando

Algebra booleana e circuiti logici. a cura di: Salvatore Orlando lgebra booleana e circuiti logici a cura di: Salvatore Orlando rch. Elab. - S. Orlando lgebra & Circuiti Elettronici I calcolatori operano con segnali elettrici con valori di potenziale discreti sono considerati

Dettagli

DATA MINING PER IL MARKETING

DATA MINING PER IL MARKETING DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Algoritmi di classificazione Zani-Cerioli, Cap. XI CHAID: Chi-square Automatic Interaction

Dettagli

TSP con eliminazione di sottocicli

TSP con eliminazione di sottocicli TSP con eliminazione di sottocicli Un commesso viaggiatore deve visitare 7 clienti in modo da minimizzare la distanza percorsa. Le distanze (in Km) tra ognuno dei clienti sono come segue: 3 5 7-8 9 57

Dettagli

Modelli per variabili dipendenti qualitative

Modelli per variabili dipendenti qualitative SEMINARIO GRUPPO TEMATICO METODI e TECNICHE La valutazione degli incentivi industriali: aspetti metodologici Università di Brescia, 17 gennaio 2012 Modelli per variabili dipendenti qualitative Paola Zuccolotto

Dettagli

ESERCITAZIONE 1. ALGORTIMO DI WAGNER-WHITIN

ESERCITAZIONE 1. ALGORTIMO DI WAGNER-WHITIN ESERCITAZIONE 1. ALGORTIMO DI WAGNER-WHITIN Alla base di questo algoritmo (e di quasi tutte le tecniche di lot sizing) si sono molte ipotesi, tra le quali le seguenti: 1. La domanda è assunta nota in ciascun

Dettagli

Il risolutore. Docente: M. Sechi - Elementi di informatica e programmazione Università degli studi di Brescia D.I.M.I - A.A.

Il risolutore. Docente: M. Sechi - Elementi di informatica e programmazione Università degli studi di Brescia D.I.M.I - A.A. Università degli Studi di Brescia Elementi di informatica e Dipartimento di Ingegneria Meccanica e Industriale Dipartimento di Ingegneria Meccanica e Industriale Programmazione EXCEL Docente: Marco Sechi

Dettagli

Dispersion centrality: applicazione della dispersione in casi di studio reali

Dispersion centrality: applicazione della dispersione in casi di studio reali Dispersion centrality: applicazione della dispersione in casi di studio reali Amedeo Leo Alessio Petrozziello Simone Romano amedeo.leo92@gmail.com alessio92p@gmail.com s.romano1992@gmail.com Università

Dettagli

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,

Dettagli

Feature Selection per la Classificazione

Feature Selection per la Classificazione 1 1 Dipartimento di Informatica e Sistemistica Sapienza Università di Roma Corso di Algoritmi di Classificazione e Reti Neurali 20/11/2009, Roma Outline Feature Selection per problemi di Classificazione

Dettagli

MovieShot Motore Di Ricerca Per Film Basato Sul Riconoscimento Della Locandina

MovieShot Motore Di Ricerca Per Film Basato Sul Riconoscimento Della Locandina MovieShot Motore Di Ricerca Per Film Basato Sul Riconoscimento Della Locandina Giorgio Iacoboni Matricola 1099585 Anno Accademico 2010/2011 Outline Introduzione Image Matching Architettura di MovieShot

Dettagli