Classificazione di pattern genomici e strutture proteiche mediante Clustering e Reti Neurali in Mathematica

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Classificazione di pattern genomici e strutture proteiche mediante Clustering e Reti Neurali in Mathematica"

Transcript

1 Classificazione di pattern genomici e strutture proteiche mediante Clustering e Reti Neurali in Mathematica (Classification of genomic patterns and protein structures using Clustering and Neural Networks in Mathematica) Prof. Crescenzio Gallo, Ing. Michelangelo De Bonis {c.gallo, Laboratorio per l'analisi Quantitativa dei Dati Dipartimento di Scienze Economiche, Matematiche e Statistiche Università di Foggia, Italy

2 2 Gallo-DeBonis-UGM2010.nb Abstract Le possibili applicazioni della modellizzazione e simulazione nel campo della Bioinformatica sono molto ampie. Le applicazioni spaziano dalla comprensione dei "percorsi" metabolici di base all'esplorazione della variabilità genetica. I biologi molecolari necessitano di robusti strumenti di calcolo per definire modelli in grado di imparare a riconoscere sequenze di DNA ed amminoacidi ed assegnare strutture proteiche a determinate sequenze. Questi modelli, ed in particolare quelli relativi allo studio dei risultati sperimentali effettuati con microarray DNA, possono essere creati nel potente ambiente di calcolo offerto da Mathematica ed il modulo Neural Networks.

3 Gallo-DeBonis-UGM2010.nb 3 Introduzione Nell'analisi dell'espressione genica, particolare interesse riveste la ricerca di pattern correlati, che viene tipicamente effettuata mediante analisi di clustering. Le tecnologie di microarray DNA (Lockhart DJ et al., 1996) consentono il monitoraggio di migliaia di geni in modo rapido ed efficiente. Queste tecnologie hanno introdotto nuove modalità di esplorazione di un organismo con una visione genomica ad ampio raggio. In particolare, lo studio dell'espressione dei geni di un genoma completo (come quello del Saccharomyces cerevisiae) è ora possibile; sono stati sviluppati anche studi sul genoma umano (Perou CM et al., 1999) tramite l'impiego di microarray DNA, sino alla mappatura completa del genoma umano. La produzione di farmaci mirati e l'individuazione di droghe sono altri campi che possono beneficiare significativamente di tali tecniche. Un problema inerente l'uso delle tecnologie di microarray DNA risiede nell'enorme quantità di dati prodotti, la cui analisi di per sé costituisce un problema non trascurabile. Svariati approcci vengono impiegati all'analisi dei dati di espressione genica, come ad es. il clustering gerarchico (Sneath and Sokal, 1973), l'analisi multivariata e le reti neurali; l'individuazione del metodo ottimale per l'analisi di tali dati è tutt'ora argomento di discussione. Il clustering gerarchico è il metodo più utilizzato, e produce una rappresentazione dei dati con i pattern più simili raggruppati in una gerarchia di sottoinsiemi. Questo metodo presenta però notevoli problemi quando viene applicato a dati contenenti una non trascurabile quantità di "rumore", rivelandosi poco robusto. In tal caso le soluzioni possono non essere univoche ed essere dipendenti dall'ordinamento dei dati. Questi argomenti portano allo studio ed all'impiego di metodi alternativi, quali i grafi di correlazione e le reti neurali che saranno affrontati ed applicati nel presente lavoro.

4 4 Gallo-DeBonis-UGM2010.nb Analisi di dati da microarray DNA mediante grafi di correlazione Background L'interpretazione della grande quantità di dati prodotta dall'impiego di tecniche microarray DNA per l'analisi dell'espressione dei geni richiede nuove efficienti strategie per la riduzione delle dimensioni coinvolte. Gli algoritmi di clustering in genere raggruppano i geni (o i campioni) in cluster di profili di espressione similari per l'individuazione di possibili relazioni funzionali tra di essi. Particolare importanza rivestono le rappresentazioni grafiche dei cluster e la loro "annotazione" automatica dalle banche dati genomiche presenti. Analoghi problematiche si riscontrano nell'analisi di grandi reti, dove si tenta di estrarre sottoreti che soddisfino determinati criteri (come ad es. la ricerca delle pagine web relative allo stesso argomento). In (Rougemont and Hingamp, 2003) viene proposto un metodo che combina una tecnica di analisi di reti con il classico clustering basato sui coefficienti di correlazione per lo studio dei dati di microarray DNA. L'algoritmo di clustering si basa su due soli parametri (la soglia di correlazione e la soglia di curvatura, che saranno discusse in seguito), con una conseguente efficace possibilità di analizzare la sensitività dei risultati in reazione a particolari configurazioni scelte per i parametri in gioco. L'algoritmo è basato sul concetto di curvatura (Eckmann and Moses, 2002) che viene applicato alla rete (grafo di correlazione) di geni co-espressi dove i nodi sono i geni (o i campioni) e gli archi rappresentano la co-espressione tra i geni collegati. In tale grafo vengono quindi individuati dei cluster che corrispondono a componenti connesse del grafo con alto indice di curvatura, definito come densità locale di relazioni triangolari. I cluster di geni (o campioni) sono le regioni più dense del grafo di correlazione; cluster con alto indice di curvatura sono strutture a bassa entropia, con ovvia rilevanza biologica. L'algoritmo è stato implementato in Mathematica 7.0 con l'impiego dei package Combinatorica e GraphUtilities, ed è stato applicato ai dati relativi all'espressione genica del Saccharomyces cerevisiae (Eisen et al., 1998) e del linfoma DLBCL (Alizadeh et al., 2000). I dati originari (disponibili all'indirizzo ftp://tagc.univ-mrs.fr/public/trixy/testfiles/) sono stati riadattati in matrici per l'elaborazione con Mathematica in ambiente Mac OS X Snow Leopard su workstation MacPro Quad Xeon; le prestazioni computazionali ottenute sono comparabili a quelle richieste dal metodo di clustering gerarchico.

5 Gallo-DeBonis-UGM2010.nb 5 Algoritmo di analisi Un set di dati da microarray DNA consiste dei livelli di espressione di N geni in M differenti condizioni sperimentali (campioni RNA). L' algoritmo è basato sullo studio pubblicato da (Rougemont and Hingamp, 2003) e si sviluppa secondo i seguenti passi. 1) Viene letta la matrice di input X. 2) Per ogni coppia di geni x k,l si definisce la matrice quadrata di correlazione C di dimensione N µn i cui elementi sono calcolati secondo l'indice di Pearson: M Ixk,j -m k M Ix l,j -m l M c k,l = 1D s j=1 k s l 3) Prefissata una soglia T cor, che definisce un intervallo di confronto simmetrico H-T cor, T cor L, si costruisce la matrice quadrata di adiacenza A tra i geni di dimensione N µn i cui elementi sono definiti come segue: 0 se c a k,l œd-t cor,t k,l =81 altrimenti 4) Dalla matrice di adiacenza viene costruito il grafo (non orientato) di correlazione G con i pesi degli archi pari ai coefficienti di correlazione c k,l 5) Per ogni nodo n appartenente al grafo di correlazione si definisce un indice di curvatura: dove t è il numero di triangoli per il nodo n e v è il numero di nodi "vicini" ad n. 6) Definita una soglia di curvatura T curv 1D si genera un nuovo grafo curvhnl = t 1D vhv-1lê2 H = 8nodi n œ G ed archi collegati e curvhnl T curv < 7) Da tale grafo vengono estratte le componenti connesse (con almeno due nodi collegati) che rappresentano le classi (cluster) individuate in base ai valori dei due parametri T cor e T curv.

6 6 Gallo-DeBonis-UGM2010.nb Implementazione in Mathematica: Analisi dei profili di espressione dei geni del Saccharomyces cerevisiae Inizializzazione ü Packages e funzioni H* Il coefficiente di clustering di un nodo è il rapporto tra i link che collegano i nodi vicini ad esso ed il massimo possibile di tali link. Per i nodi con meno di due vicini il coefficiente non è definito. *L g_graphd := 8nbrs, subgraph<, nbrs = v, 1D, 8v<D; < 2, subgraph = nbrsd; * ê * - 1LLD, ê * - 1LLD D; D; Dati di input: un vettore di campioni per ogni gene << yeast_ann.txt; << yeast_data.txt; ü Costanti = " geni"d = " campioni"d di correlazione: ", Tcor = 0.90D

7 Gallo-DeBonis-UGM2010.nb geni 80 campioni Soglia di correlazione: 0.9 ü Variabili di lavoro n, 1.. md : matrice dei dati geniêcampioni nd : annotazioni dei geni n, 1.. nd : matrice di correlazione dei geni fa : funzione di adiacenza Hper la costruzione della matrice di adiacenza A del grafo d i correlazione GL fc : funzione di curvatura Hper il calcolo degli indici di curvatura dei nodil n, 1.. nd : matrice di adiacenza del grafo dei geni correlati G : grafo di correlazione nd : indici di curvatura dei nodi H : grafo di curvatura nd : array delle classi di appartenenza dei geni, con annotazioni cd : array delle classi HclusterL con relativi indici dei nodi Calcolo della matrice di correlazione =

8 8 Gallo-DeBonis-UGM2010.nb Calcolo della matrice di adiacenza e del relativo grafo dalla matrice di correlazione ü Definizione della funzione di adiacenza e calcolo della matrice funzione di adiacenza *L j_d := jdd < Tcor && jdd > -Tcor, 0, 1 D; "Tempo impiegato per la matrice di adiacenza: ", A = ¹ j, jd, 0D, 8i, n<, 8j, n<dd " secondi." D Tempo impiegato per la matrice di adiacenza: secondi. ü Costruzione del grafo dalla matrice di adiacenza = grafo di correlazione ha ", " archi e ", " nodi."d Il grafo di correlazione ha 1917 archi e 6221 nodi. Calcolo degli indici di curvatura dei nodi funzione di curvatura *L := GD; impiegato per calcolare gli indici di curvatura: ", = " secondi."d sono ", x_ ê; x > 0D, " indici di curvatura positivi."d Tempo impiegato per calcolare gli indici di curvatura: secondi. Vi sono 237 indici di curvatura positivi. Costruzione del grafo di curvatura per rimozione dei nodi/archi sotto soglia (Tcor = 0.90, Tcurv=0.70)

9 Gallo-DeBonis-UGM2010.nb 9 Costruzione del grafo di curvatura per rimozione dei nodi/archi sotto soglia (Tcor = 0.90, Tcurv=0.70) ü Determinazione della lista dei nodi da rimuovere di curvatura: ", Tcurv = 0.70DH* soglia per la costruzione del HsottoLgrafo di curvatura *L ll = 8<; = 1, i n, i++, < Tcurv, ll = sono ", " nodi su ", n, " da rimuovere."d Soglia di curvatura: 0.7 Vi sono 6120 nodi su 6221 da rimuovere. ü Costruzione del grafo di curvatura H = grafo di curvatura ha ", " archi e ", " nodi."d Il grafo di curvatura ha 147 archi e 101 nodi.

10 10 Gallo-DeBonis-UGM2010.nb ü Lista delle annotazioni dei geni residui selezionati nel grafo di curvatura le annotazioni dei geni residui presenti in H *L Hann = lld; 101

11 Gallo-DeBonis-UGM2010.nb 11 ü Lista annotata delle classi (cluster con almeno due nodi) componenti il grafo di curvatura CC = Z = 8<;H* vettore delle classi e relativi indici dei nodi di H *L = 1, i i++, > 1, Z = Y = 8<;H* le classi finali ottenute, con annotazione dei geni *L = 1, i i++, Y = individuate ", " classi, così strutturate:"d = 1, i i++, i, " ", " H", " elementil "DD HannD, Method Ø "SpiralEmbedding", VertexRenderingFunction Ø 0.03D, Black, FontFamily Ø "Arial Narrow", Antialiasing Ø True, FontSize Ø 9, FontWeight Ø NormalD, Ò1D< &LD Sono individuate 14 classi, così strutturate: Ò1 8YHR124W, YAL018C, YNL128W, YDL187C, YOL047C, YFR032C, YGL138C, YDR523C, YOR313C, YLR307W, YPL130W, YOR339C, YOL091W, YER106W< H14 elementil Ò2 8YLR196W, YLR222C< H2 elementil Ò3 8YLR197W, YLR198C, YLR175W< H3 elementil Ò4 8YER115C, YNL033W, YPR027C< H3 elementil Ò5 8YDR285W, YMR133W< H2 elementil Ò6 8YCR012W, YCR013C, YKL060C, YKL152C, YKL153W, YGR192C, YHR174W, YJR009C, YDR050C, YJL052W, YLR044C< H11 elementil Ò7 8YBL003C, YDR224C, YDR225W, YNL031C, YBR010W< H5 elementil Ò8 8YKL006C, YEL076W, YMR273C, YFL011W, YAR002C, YMR006C, YMR085W, YDL045W< H8 elementil Ò9 8YMR046C, YMR051C< H2 elementil Ò10 8YOL127W, YGR027C, YGL147C, YOR096W, YGR034W, YLR448W, YLR167W, YDL082W, YLR325C, YGL102C, YPL079W, YGL103W, YGL189C, YPL081W< H14 elementil Ò11 8YHR150W, YHR166C, YLR030W< H3 elementil Ò12 8YHR092C, YDR342C, YDR343C< H3 elementil Ò13 8YGL081W, YHR079BC, YGL033W< H3 elementil Ò14 8YLR314C, YML065W< H2 elementil

12 12 Gallo-DeBonis-UGM2010.nb

13 Gallo-DeBonis-UGM2010.nb 13 Costruzione del grafo di curvatura per rimozione dei nodi/archi sotto soglia (Tcor = 0.80, Tcurv=0.64) ü Determinazione della lista dei nodi da rimuovere di curvatura: ", Tcurv = 0.64D H* soglia per la costruzione del HsottoLgrafo di curvatura *L ll = 8<; = 1, i n, i++, < Tcurv, ll = sono ", " nodi su ", n, " da rimuovere."d Soglia di curvatura: 0.64 Vi sono 6094 nodi su 6221 da rimuovere.

14 14 Gallo-DeBonis-UGM2010.nb ü Costruzione del grafo di curvatura H = grafo di curvatura ha ", " archi e ", " nodi."d Il grafo di curvatura ha 270 archi e 127 nodi. ü Lista delle annotazioni dei geni residui selezionati nel grafo di curvatura le annotazioni dei geni residui presenti in H *L Hann = lld; 127

15 Gallo-DeBonis-UGM2010.nb 15 ü Lista annotata delle classi (cluster con almeno due nodi) componenti il grafo di curvatura CC = Z = 8<;H* vettore delle classi e relativi indici dei nodi di H *L = 1, i i++, > 1, Z = Y = 8<;H* le classi finali ottenute, con annotazione dei geni *L = 1, i i++, Y = individuate ", " classi, così strutturate:"d = 1, i i++, i, " ", " H", " elementil "DD HannD, Method Ø "SpiralEmbedding", VertexRenderingFunction Ø 0.03D, Black, FontFamily Ø "Arial Narrow", Antialiasing Ø True, FontSize Ø 9, FontWeight Ø NormalD, Ò1D< &LD

16 16 Gallo-DeBonis-UGM2010.nb Sono individuate 15 classi, così strutturate: Ò1 8YHR124W, YAL018C, YNL128W, YER115C, YLR341W, YLR343W, YDL187C, YOR214C, YNL205C, YOL047C, YDR218C, YDL114W, YFR032C, YIL099W, YGL138C, YDR523C, YOR313C, YLR307W, YLR308W, YGL015C, YBR148W, YPL130W, YJL037W, YNL033W, YOL015W, YPR027C, YGL170C, YDR042C, YHR185C, YOR339C, YOL091W, YLL005C, YER106W< H33 elementil Ò2 8YLR196W, YLR222C< H2 elementil Ò3 8YLR197W, YLR198C, YLR175W< H3 elementil Ò4 8YOR351C, YDR446W, YIL031W, YER179W< H4 elementil Ò5 8YLR340W, YGL135W< H2 elementil Ò6 8YDR285W, YMR133W< H2 elementil Ò7 8YHR203C, YLR344W, YGR085C, YLR061W, YLR062C, YOL127W, YGR027C, YOR234C, YGL147C, YOR096W, YGR034W, YLR441C, YLR448W, YGR118W, YLR167W, YPL131W, YDL082W, YLR325C, YGL102C, YPL079W, YGL103W, YLR185W, YHL015W, YGL189C, YPL081W< H25 elementil Ò8 8YCR012W, YCR013C, YKL060C, YKL152C, YKL153W, YGR192C, YHR174W, YJR009C, YDR050C, YJL052W, YLR044C< H11 elementil Ò9 8YBL003C, YDR224C, YDR225W, YNL031C, YBR010W< H5 elementil Ò10 8YKL006C, YEL076W, YMR273C, YFL011W, YAR002C, YMR006C, YMR085W, YDL045W< H8 elementil Ò11 8YMR046C, YMR051C, YML040W, YCL020W< H4 elementil Ò12 8YHR150W, YHR166C, YLR030W< H3 elementil Ò13 8YHR092C, YDR342C, YDR343C< H3 elementil Ò14 8YGL081W, YHR079BC, YGL033W< H3 elementil Ò15 8YLR314C, YML065W< H2 elementil

17 Gallo-DeBonis-UGM2010.nb 17

18 18 Gallo-DeBonis-UGM2010.nb Risultati Nei due grafi precedenti sono rappresentati i risultati dell'elaborazione basata sui profili di espressione dei 6221 geni del Saccharomyces cerevisiae, incrociati sugli 80 campioni disponibili. Anche con valori relativamente elevati di correlazione e di curvatura si ottengono classi ben delineate, come si evince dalle figure. Nel grafo con soglia di correlazione T cor = 0.90 e di curvatura T curv = 0.70 si osserva che solo 237 dei 6221 geni hanno curvatura positiva (3.8096%), con 1917 link iniziali; nel grafo con soglia di correlazione T cor = 0.80 e di curvatura T curv = 0.64 abbiamo 1112 geni con curvatura positiva ( %) e link. Molte delle classi ottenute hanno una base biologica accettabile. Ad esempio, la classe #7 del primo grafo e la classe #13 del secondo contengono (con le ovvie differenze) quasi tutti i geni per la produzione degli istoni: questo cluster è alquanto stabile al variare dei parametri di soglia. Classi più ampie sono anche state rilevate, come ad esempio il cluster di sintesi proteica (classe #10 del primo grafo e #2 del secondo): quest'ultimo è suscettibile di notevoli variazioni al variare delle soglie, e può arrivare ad includere centinaia di geni.

19 Gallo-DeBonis-UGM2010.nb 19 Implementazione in Mathematica: Analisi dei profili di espressione dei geni del linfoma Inizializzazione ü Packages e funzioni H* Il coefficiente di clustering di un nodo è il rapporto tra il numero di collegamenti dei nodi vicini ed il numero massimo possibile di tali link. Per i nodi con meno di due vicini il coefficiente di clustering coefficient non è definito.. *L g_graphd := 8nbrs, subgraph<, nbrs = v, 1D, 8v<D; < 2, subgraph = nbrsd; * ê * - 1LLD, ê * - 1LLD D; D; Dati di input: un vettore per ogni gene << lymph_ann.txt; << lymph_data.txt; ü Costanti = " geni"d = " campioni"d di correlazione: ", Tcor = 0.80D

20 20 Gallo-DeBonis-UGM2010.nb 4026 geni 96 campioni Soglia di correlazione: 0.8 ü Variabili di lavoro n, 1.. md : matrice dei dati geniêcampioni n,d : annotazioni dei geni n, 1.. nd : m atrice di correlazione dei geni fa : funzione di adiacenza fc : funzione di curvatura n, 1.. nd : matrice di adiacenza del grafo dei geni correlati G : grafo di correlazione nd : indici di curvatura dei nodi H : grafo di curvatura nd : array delle classi di appartenenza dei geni, con annotazioni cd : array delle classi HclusterL con relativi indici dei nodi Calcolo della matrice di correlazione = " secondi necessari per il calcolo della matrice di correlazione."d secondi necessari per il calcolo della matrice di correlazione.

21 Gallo-DeBonis-UGM2010.nb 21 Calcolo della matrice di adiacenza e del relativo grafo dalla matrice di correlazione ü Definizione della funzione di adiacenza j_d := jdd < Tcor && jdd > -Tcor, 0, 1 D; H* Calcolo della matrice di adiacenza *L "Tempo impiegato per la matrice di adiacenza: ", A = ¹ j, jd, 0D, 8i, n<, 8j, n<dd " secondi." D Tempo impiegato per la matrice di adiacenza: secondi. ü Costruzione del grafo dalla matrice di adiacenza G = grafo di correlazione ha ", " archi e ", " nodi."d Il grafo di correlazione ha 1872 archi e 4026 nodi. Calcolo degli indici di curvatura dei nodi := GD; impiegato per calcolare gli indici di curvatura: ", = " secondi."d Tempo impiegato per calcolare gli indici di curvatura: secondi. pcurv = x_ ê; x > 0D; sono ", pcurv, " indici di curvatura positivi H", ê n * 100D, "%L"D Vi sono 568 indici di curvatura positivi H %L Costruzione del grafo di curvatura per rimozione dei nodi/archi sotto soglia (Tcor = 0.80,Tcurv = 0.40)

22 22 Gallo-DeBonis-UGM2010.nb Costruzione del grafo di curvatura per rimozione dei nodi/archi sotto soglia (Tcor = 0.80,Tcurv = 0.40) ü Determinazione della lista dei nodi da rimuovere di curvatura: ", Tcurv = 0.40D ll = 8<; = 1, i n, i++, < Tcurv, ll = sono ", " nodi su ", n, " da rimuovere."d Soglia di curvatura: 0.4 Vi sono 3571 nodi su 4026 da rimuovere. ü Costruzione del grafo di curvatura H = grafo di curvatura ha ", " archi e ", " nodi."d Il grafo di curvatura ha 805 archi e 455 nodi.

23 Gallo-DeBonis-UGM2010.nb 23

24 24 Gallo-DeBonis-UGM2010.nb ü Lista delle annotazioni dei geni residui selezionati nel grafo di curvatura le annotazioni dei geni residui presenti in H *L Hann = lld; 455 ü Lista annotata delle classi (cluster con almeno due nodi) componenti il grafo di curvatura CC = Z = 8<;H* vettore delle classi e relativi indici dei nodi di H *L = 1, i i++, > 1, Z = Y = 8<;H* le classi finali ottenute, con annotazione dei geni *L = 1, i i++, Y = grafo di curvatura ha ", " classi, così strutturate:"d = 1, i i++, i, " ", " H", " elementil "DD grafo finale di classificazione è:"d HannD, Method Ø "SpiralEmbedding", VertexRenderingFunction Ø 0.1D, Black, FontFamily Ø "Arial Narrow", Antialiasing Ø True, FontSize Ø Medium, FontWeight Ø BoldD, Ò1D< &LD Il grafo di curvatura ha 110 classi, così strutturate: Ò1 8GENE4006X, GENE4007X, GENE4008X< H3 elementil Ò2 8GENE4012X, GENE4013X, GENE4014X, GENE4015X< H4 elementil Ò3 8GENE2536X, GENE2537X, GENE2538X< H3 elementil Ò4 8GENE2540X, GENE2541X, GENE2542X, GENE2543X< H4 elementil Ò5 8GENE3880X, GENE3881X, GENE3882X< H3 elementil Ò6 8GENE3450X, GENE3451X, GENE3452X< H3 elementil Ò7 8GENE3796X, GENE3794X< H2 elementil Ò8 8GENE3687X, GENE3766X, GENE3764X, GENE3762X, GENE3761X, GENE3760X< H6 elementil Ò9 8GENE3789X, GENE3788X, GENE3787X, GENE3786X< H4 elementil

25 Gallo-DeBonis-UGM2010.nb 25 Ò10 8GENE3782X, GENE3781X, GENE3780X< H3 elementil Ò11 8GENE3778X, GENE3777X, GENE3776X< H3 elementil Ò12 8GENE3775X, GENE3774X, GENE3773X, GENE3772X< H4 elementil Ò13 8GENE3771X, GENE3770X< H2 elementil Ò14 8GENE3769X, GENE3767X< H2 elementil Ò15 8GENE3757X, GENE3756X< H2 elementil Ò16 8GENE3755X, GENE3754X, GENE3753X, GENE3751X, GENE3750X< H5 elementil Ò17 8GENE3749X, GENE3748X, GENE3747X, GENE3746X, GENE3745X, GENE3744X, GENE3743X, GENE3742X, GENE3741X, GENE3740X< H10 elementil Ò18 8GENE3739X, GENE3738X, GENE3737X< H3 elementil Ò19 8GENE3710X, GENE3711X, GENE3712X, GENE3713X< H4 elementil Ò20 8GENE3716X, GENE3717X< H2 elementil Ò21 8GENE3724X, GENE3725X, GENE3726X, GENE3727X< H4 elementil Ò22 8GENE3690X, GENE3689X, GENE3688X< H3 elementil Ò23 8GENE3678X, GENE3657X, GENE3658X, GENE3659X, GENE3660X, GENE3677X, GENE3662X, GENE3676X, GENE3675X, GENE3680X, GENE3679X, GENE3674X, GENE3673X, GENE3666X, GENE3667X, GENE3668X, GENE3669X, GENE3670X, GENE3671X, GENE3672X, GENE3665X, GENE3664X, GENE3663X, GENE3656X, GENE3655X, GENE3654X< H26 elementil Ò24 8GENE3641X, GENE3643X< H2 elementil Ò25 8GENE3648X, GENE3649X, GENE3650X, GENE3651X< H4 elementil Ò26 8GENE3547X, GENE3546X, GENE3545X, GENE3544X, GENE3543X< H5 elementil Ò27 8GENE3555X, GENE3554X< H2 elementil Ò28 8GENE3419X, GENE3420X, GENE3421X, GENE3422X, GENE3423X, GENE3424X, GENE3425X, GENE3426X, GENE3427X, GENE3428X, GENE3429X, GENE3430X< H12 elementil Ò29 8GENE3839X, GENE3838X, GENE3837X, GENE3836X, GENE3835X< H5 elementil Ò30 8GENE2486X, GENE2487X, GENE2488X, GENE2489X, GENE2490X< H5 elementil Ò31 8GENE2052X, GENE2053X, GENE2054X< H3 elementil Ò32 8GENE2301X, GENE2300X, GENE2299X, GENE2298X< H4 elementil

26 26 Gallo-DeBonis-UGM2010.nb Ò33 8GENE2318X, GENE2317X, GENE2316X< H3 elementil Ò34 8GENE2429X, GENE2428X< H2 elementil Ò35 8GENE2357X, GENE2356X< H2 elementil Ò36 8GENE2366X, GENE2367X, GENE2368X, GENE2369X, GENE2370X, GENE2371X, GENE2372X, GENE2373X, GENE2374X< H9 elementil Ò37 8GENE2383X, GENE2384X, GENE2385X< H3 elementil Ò38 8GENE2410X, GENE2409X, GENE2408X, GENE2407X< H4 elementil Ò39 8GENE2404X, GENE2403X, GENE2402X, GENE2401X, GENE2400X, GENE2399X< H6 elementil Ò40 8GENE2380X, GENE2379X, GENE2378X< H3 elementil Ò41 8GENE2471X, GENE2472X, GENE2475X, GENE2474X< H4 elementil Ò42 8GENE2274X, GENE2273X, GENE2272X< H3 elementil Ò43 8GENE2183X, GENE2182X, GENE2181X< H3 elementil Ò44 8GENE2110X, GENE2109X, GENE2108X, GENE2107X< H4 elementil Ò45 8GENE2094X, GENE2093X, GENE2092X< H3 elementil Ò46 8GENE2090X, GENE2089X, GENE2088X< H3 elementil Ò47 8GENE2553X, GENE2554X, GENE2555X< H3 elementil Ò48 8GENE3230X, GENE3231X, GENE3232X< H3 elementil Ò49 8GENE3365X, GENE3364X, GENE3363X< H3 elementil Ò50 8GENE3351X, GENE3350X, GENE3349X, GENE3348X< H4 elementil Ò51 8GENE3317X, GENE3318X, GENE3319X< H3 elementil Ò52 8GENE3326X, GENE3327X, GENE3328X, GENE3329X, GENE3330X, GENE3331X< H6 elementil Ò53 8GENE3245X, GENE3244X, GENE3243X, GENE3242X< H4 elementil Ò54 8GENE3241X, GENE3240X, GENE3239X< H3 elementil Ò55 8GENE3955X, GENE3956X, GENE3957X, GENE3958X< H4 elementil Ò56 8GENE1472X, GENE1473X, GENE1474X< H3 elementil

27 Gallo-DeBonis-UGM2010.nb 27 Ò57 8GENE2675X, GENE2676X, GENE2677X, GENE2678X< H4 elementil Ò58 8GENE2765X, GENE2764X, GENE2763X< H3 elementil Ò59 8GENE2760X, GENE2759X, GENE2758X< H3 elementil Ò60 8GENE2600X, GENE2599X, GENE2598X< H3 elementil Ò61 8GENE1309X, GENE1310X, GENE1311X, GENE1313X< H4 elementil Ò62 8GENE3924X, GENE3923X, GENE3922X< H3 elementil Ò63 8GENE1371X, GENE1370X, GENE1369X, GENE1368X< H4 elementil Ò64 8GENE1188X, GENE1189X, GENE1190X< H3 elementil Ò65 8GENE1208X, GENE1209X, GENE1210X< H3 elementil Ò66 8GENE1244X, GENE1245X, GENE1246X< H3 elementil Ò67 8GENE1185X, GENE1186X, GENE1187X< H3 elementil Ò68 8GENE1294X, GENE1293X, GENE1292X< H3 elementil Ò69 8GENE889X, GENE890X, GENE891X< H3 elementil Ò70 8GENE948X, GENE949X, GENE950X, GENE951X< H4 elementil Ò71 8GENE1175X, GENE1174X, GENE1173X, GENE1171X, GENE1170X< H5 elementil Ò72 8GENE1135X, GENE1136X< H2 elementil Ò73 8GENE60X, GENE61X, GENE62X< H3 elementil Ò74 8GENE3987X, GENE3986X, GENE3985X< H3 elementil Ò75 8GENE3965X, GENE3966X, GENE3967X, GENE3968X< H4 elementil Ò76 8GENE218X, GENE217X< H2 elementil Ò77 8GENE841X, GENE840X, GENE838X< H3 elementil Ò78 8GENE809X, GENE808X, GENE807X< H3 elementil Ò79 8GENE542X, GENE541X, GENE539X, GENE538X, GENE537X< H5 elementil Ò80 8GENE532X, GENE531X< H2 elementil

28 28 Gallo-DeBonis-UGM2010.nb Ò81 8GENE603X, GENE602X< H2 elementil Ò82 8GENE628X, GENE661X< H2 elementil Ò83 8GENE686X, GENE716X< H2 elementil Ò84 8GENE680X, GENE679X< H2 elementil Ò85 8GENE741X, GENE740X< H2 elementil Ò86 8GENE578X, GENE577X, GENE576X, GENE575X, GENE574X< H5 elementil Ò87 8GENE567X, GENE569X, GENE566X< H3 elementil Ò88 8GENE1322X, GENE1321X, GENE1320X, GENE1319X< H4 elementil Ò89 8GENE878X, GENE877X, GENE876X, GENE875X< H4 elementil Ò90 8GENE125X, GENE124X, GENE123X, GENE122X, GENE121X, GENE120X< H6 elementil Ò91 8GENE106X, GENE105X, GENE104X< H3 elementil Ò92 8GENE1003X, GENE1004X, GENE1005X< H3 elementil Ò93 8GENE73X, GENE74X, GENE75X, GENE76X< H4 elementil Ò94 8GENE3200X, GENE3199X, GENE3198X< H3 elementil Ò95 8GENE3845X, GENE3846X, GENE3847X, GENE3848X, GENE3849X, GENE3850X, GENE3851X, GENE3852X< H8 elementil Ò96 8GENE3974X, GENE3975X, GENE3976X< H3 elementil Ò97 8GENE1779X, GENE1778X, GENE1777X< H3 elementil Ò98 8GENE1123X, GENE1124X, GENE1125X, GENE1126X, GENE1127X, GENE1128X, GENE1129X, GENE1130X< H8 elementil Ò99 8GENE1598X, GENE1599X, GENE1600X, GENE1601X< H4 elementil Ò100 8GENE1613X, GENE1612X, GENE1611X< H3 elementil Ò101 8GENE1610X, GENE1646X, GENE1644X, GENE1643X, GENE1642X< H5 elementil Ò102 8GENE1616X, GENE1617X, GENE1618X, GENE1619X< H4 elementil Ò103 8GENE1633X, GENE1651X, GENE1650X, GENE1641X, GENE1640X, GENE1639X, GENE1638X, GENE1654X, GENE1653X< H9 elementil Ò104 8GENE1657X, GENE1658X, GENE1659X< H3 elementil

29 Gallo-DeBonis-UGM2010.nb 29 Ò105 8GENE1660X, GENE1662X< H2 elementil Ò106 8GENE1693X, GENE1695X, GENE1696X, GENE1697X, GENE1698X< H5 elementil Ò107 8GENE1746X, GENE1747X, GENE1748X< H3 elementil Ò108 8GENE1727X, GENE1726X, GENE1725X< H3 elementil Ò109 8GENE1569X, GENE1570X, GENE1571X< H3 elementil Ò110 8GENE1548X, GENE1547X, GENE1546X< H3 elementil Il grafo finale di classificazione è:

30 30 Gallo-DeBonis-UGM2010.nb Costruzione del grafo di curvatura per rimozione dei nodi/archi sotto soglia (Tcor = 0.80,Tcurv = 0.24)

31 Gallo-DeBonis-UGM2010.nb 31 Costruzione del grafo di curvatura per rimozione dei nodi/archi sotto soglia (Tcor = 0.80,Tcurv = 0.24) ü Determinazione della lista dei nodi da rimuovere di curvatura: ", Tcurv = 0.24D H* soglia per la costruzione del HsottoLgrafo di curvatura *L ll = 8<; = 1, i n, i++, < Tcurv, ll = sono ", " nodi su ", n, " da rimuovere."d Soglia di curvatura: 0.24 Vi sono 3571 nodi su 4026 da rimuovere. ü Costruzione del grafo di curvatura H = grafo di curvatura ha ", " archi e ", " nodi."d Il grafo di curvatura ha 805 archi e 455 nodi.

Regressione non lineare con un modello neurale feedforward

Regressione non lineare con un modello neurale feedforward Reti Neurali Artificiali per lo studio del mercato Università degli studi di Brescia - Dipartimento di metodi quantitativi Marco Sandri (sandri.marco@gmail.com) Regressione non lineare con un modello neurale

Dettagli

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da

Dettagli

Algoritmi di clustering

Algoritmi di clustering Algoritmi di clustering Dato un insieme di dati sperimentali, vogliamo dividerli in clusters in modo che: I dati all interno di ciascun cluster siano simili tra loro Ciascun dato appartenga a uno e un

Dettagli

Uno standard per il processo KDD

Uno standard per il processo KDD Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo

Dettagli

Reti Neurali Artificiali per la Finanza (7 CFU)

Reti Neurali Artificiali per la Finanza (7 CFU) Reti Neurali Artificiali per la Finanza (7 CFU) Facoltà di Economia - Università di Foggia CdLM in Finanza a.a. 2011/2012 Prof. Crescenzio Gallo c.gallo@unifg.it Premessa Le tecniche adottate per l'analisi

Dettagli

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: macchine che apprendono Computazione per l interazione naturale: macchine che apprendono Corso di Interazione Naturale! Prof. Giuseppe Boccignone! Dipartimento di Informatica Università di Milano! boccignone@di.unimi.it boccignone.di.unimi.it/in_2015.html

Dettagli

Bioinformatica (1) Introduzione. Dott. Alessandro Laganà

Bioinformatica (1) Introduzione. Dott. Alessandro Laganà Bioinformatica (1) Introduzione Dott. Alessandro Laganà Dott. Alessandro Laganà Martedi 15.30 16.30 Studio Assegnisti - 1 Piano (Davanti biblioteca) Dipartimento di Matematica e Informatica (Città Universitaria)

Dettagli

Una proteina nella rete: Introduzione alla bioinformatica

Una proteina nella rete: Introduzione alla bioinformatica Una proteina nella rete: Introduzione alla bioinformatica L era genomica ha assistito ad una crescita esponenziale delle informazioni biologiche rese disponibili dai progressi nel campo della biologia

Dettagli

Analisi di dati Microarray: Esercitazione Matlab

Analisi di dati Microarray: Esercitazione Matlab Analisi di dati Microarray: Esercitazione Matlab Laboratorio di Bioinformatica II Pietro Lovato Anno Accademico 2010/2011 Contenuti 1 Introduzione DNA Microarray 2 Lavorare con una singola ibridazione

Dettagli

Pro e contro delle RNA

Pro e contro delle RNA Pro e contro delle RNA Pro: - flessibilità: le RNA sono approssimatori universali; - aggiornabilità sequenziale: la stima dei pesi della rete può essere aggiornata man mano che arriva nuova informazione;

Dettagli

Data Mining in SAP. Alessandro Ciaramella

Data Mining in SAP. Alessandro Ciaramella UNIVERSITÀ DI PISA Corsi di Laurea Specialistica in Ingegneria Informatica per la Gestione d Azienda e Ingegneria Informatica Data Mining in SAP A cura di: Alessandro Ciaramella La Business Intelligence

Dettagli

Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY.

Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY. Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY. Lezioni Lincee Palermo, 26 Febbraio 2015 Alla base della vita degli

Dettagli

online La situazione operativa. In ambito aziendale i processi decisionali richiedono assunzioni di responsabilità a vari LABORATORIO 1

online La situazione operativa. In ambito aziendale i processi decisionali richiedono assunzioni di responsabilità a vari LABORATORIO 1 LABORATORIO 1 Scelta tra preventivi per l acquisto di un impianto di Luca CAGLIERO Materie: Informatica, Matematica, Economia aziendale (Triennio IT) L attività da svolgere in laboratorio, di carattere

Dettagli

Tecniche di Clustering basate sul Machine Learning

Tecniche di Clustering basate sul Machine Learning UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II Scuola Politecnica e delle Scienze di base Area didattica Scienze Matematiche Fisiche e Naturali Corso di Laurea in Informatica Tecniche di Clustering basate

Dettagli

CAPITOLO 1 INTRODUZIONE ALLE RETI COMPLESSE

CAPITOLO 1 INTRODUZIONE ALLE RETI COMPLESSE CAPITOLO 1 INTRODUZIONE ALLE RETI COMPLESSE Negli ultimi anni si è compreso che sistemi anche molto diversi tra loro possono essere efficacemente descritti in termini di cosiddetti "networks" o reti complesse.

Dettagli

La tecnologia dei microarray

La tecnologia dei microarray La tecnologia dei microarray I microarray I progetti di sequenziamento (progetti permesso di identificare migliaia di geni genoma) ) hanno Migliaia di geni (ed i loro prodotti, le proteine) operano in

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 4 Reti neurali per la classificazione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com

Dettagli

Ricerca di outlier. Ricerca di Anomalie/Outlier

Ricerca di outlier. Ricerca di Anomalie/Outlier Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

DNA sequence alignment

DNA sequence alignment DNA sequence alignment - Introduzione: un possibile modello per rappresentare il DNA. Il DNA (Acido desossiribonucleico) è una sostanza presente nei nuclei cellulari, sia vegetali che animali; a questo

Dettagli

Metodi basati sugli autovettori per il Web Information Retrieval

Metodi basati sugli autovettori per il Web Information Retrieval Metodi basati sugli autovettori per il Web Information Retrieval HITS, PageRank e il metodo delle potenze LSI e SVD LSI è diventato famoso per la sua abilità nel permettere di manipolare i termini (all

Dettagli

Mining Positive and Negative Association Rules:

Mining Positive and Negative Association Rules: Mining Positive and Negative Association Rules: An Approach for Confined Rules Alessandro Boca Alessandro Cislaghi Premesse Le regole di associazione positive considerano solo gli item coinvolti in una

Dettagli

Clustering. Utilizziamo per la realizzazione dell'esempio due tipologie di software:

Clustering. Utilizziamo per la realizzazione dell'esempio due tipologie di software: Esercizio Clustering Utilizziamo per la realizzazione dell'esempio due tipologie di software: - XLSTAT.xls - Cluster.exe XLSTAT.xls XLSTAT.xls è una macro di Excel che offre la possibilità di effettuare

Dettagli

CONTROLLI AUTOMATICI E AZIONAMENTI ELETTRICI Ingegneria Meccatronica

CONTROLLI AUTOMATICI E AZIONAMENTI ELETTRICI Ingegneria Meccatronica CONTROLLI AUTOMATICI E AZIONAMENTI ELETTRICI Ingegneria Meccatronica CONTROLLI AUTOMATICI e AZIONAMENTI ELETTRICI INTRODUZIONE A MATLAB Ing. Alberto Bellini Tel. 0522 522626 e-mail: alberto.bellini@unimore.it

Dettagli

Introduzione al Pattern Recognition Statistico

Introduzione al Pattern Recognition Statistico Introduzione al Pattern Recognition Statistico Roberto Tagliaferri Dipartimento di Informatica Università di Salerno ( Sa ) 84084 Fisciano e-mail robtag@unisa.it Statistical Pattern Recognition Introduzione

Dettagli

6.2 Modelli per il monossido di carbonio

6.2 Modelli per il monossido di carbonio 6.2 Modelli per il monossido di carbonio La serie temporale scelta per l addestramento è quella rilevata in via Piave poiché tra le stazioni idonee, per legge, al controllo di questo inquinante essa presenta

Dettagli

Data mining e rischi aziendali

Data mining e rischi aziendali Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento

Dettagli

Elaborazione dei dati su PC Regressione Multipla

Elaborazione dei dati su PC Regressione Multipla 21 Elaborazione dei dati su PC Regressione Multipla Analizza Regressione Statistiche Grafici Metodo di selezione Analisi dei dati 21.1 Introduzione 21.2 Regressione lineare multipla con SPSS 21.3 Regressione

Dettagli

STRUMENTO DI SUPPORTO PER L ANALISI DEL RISCHIO-RAPINA

STRUMENTO DI SUPPORTO PER L ANALISI DEL RISCHIO-RAPINA Convegno ABI BANCHE E SICUREZZA 2007 STRUMENTO DI SUPPORTO PER L ANALISI DEL RISCHIO-RAPINA Fabrizio Capobianco Responsabile Ufficio Gestione Sicurezza - SGS Gruppo Banco Popolare di Verona e Novara Caratteristiche

Dettagli

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it Data Mining Gabriella Trucco gabriella.trucco@unimi.it Perché fare data mining La quantità dei dati memorizzata su supporti informatici è in continuo aumento Pagine Web, sistemi di e-commerce Dati relativi

Dettagli

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale Esperienze di Apprendimento Automatico per il corso di lippi@dsi.unifi.it Dipartimento Sistemi e Informatica Università di Firenze Dipartimento Ingegneria dell Informazione Università di Siena Introduzione

Dettagli

Modelli per variabili dipendenti qualitative

Modelli per variabili dipendenti qualitative SEMINARIO GRUPPO TEMATICO METODI e TECNICHE La valutazione degli incentivi industriali: aspetti metodologici Università di Brescia, 17 gennaio 2012 Modelli per variabili dipendenti qualitative Paola Zuccolotto

Dettagli

Sommario. 1 Realizzazione del STG. Introduzione. 1 traduzione delle specifiche informali in specifiche formali (STG o

Sommario. 1 Realizzazione del STG. Introduzione. 1 traduzione delle specifiche informali in specifiche formali (STG o Sommario Sintesi di macchine a stati finiti 1 Realizzazione del ST M. avalli 2 utoma minimo di SM completamente specificate 6th June 2007 3 Ottimizzazione di SM non completamente specificate Sommario ()

Dettagli

Metodi Statistici di Analisi dei Dati Ambientali

Metodi Statistici di Analisi dei Dati Ambientali Metodi Statistici di Analisi dei Dati Ambientali Arianna Azzellino Politecnico di Milano D.I.I.A.R. Dipartimento di Ingegneria Idraulica, Ambientale, Rilevamento e Infrastrutture Viarie Problematica La

Dettagli

Sistemi Informativi Territoriali. Map Algebra

Sistemi Informativi Territoriali. Map Algebra Paolo Mogorovich Sistemi Informativi Territoriali Appunti dalle lezioni Map Algebra Cod.735 - Vers.E57 1 Definizione di Map Algebra 2 Operatori locali 3 Operatori zonali 4 Operatori focali 5 Operatori

Dettagli

CIRCUITI INTELLIGENTI Parte 5: PCA e ICA

CIRCUITI INTELLIGENTI Parte 5: PCA e ICA Ing. Simone SCARDAPANE Circuiti e Algoritmi per l Elaborazione dei Segnali Anno Accademico 2012/2013 Indice della Lezione 1. Analisi delle Componenti Principali 2. Auto-Associatori 3. Analisi delle Componenti

Dettagli

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL 1 RAPPRESENTAZIONE GRAFICA Per l analisi dati con Excel si fa riferimento alla versione 2007 di Office, le versioni successive non differiscono

Dettagli

TSP con eliminazione di sottocicli

TSP con eliminazione di sottocicli TSP con eliminazione di sottocicli Un commesso viaggiatore deve visitare 7 clienti in modo da minimizzare la distanza percorsa. Le distanze (in Km) tra ognuno dei clienti sono come segue: 3 5 7-8 9 57

Dettagli

Minimizzazione di Reti Logiche Combinatorie Multi-livello

Minimizzazione di Reti Logiche Combinatorie Multi-livello Minimizzazione di Reti Logiche Combinatorie Multi-livello Maurizio Palesi Maurizio Palesi 1 Introduzione Obiettivo della sintesi logica: ottimizzazione delle cifre di merito area e prestazioni Prestazioni:

Dettagli

TSP con eliminazione di sottocicli

TSP con eliminazione di sottocicli TSP con eliminazione di sottocicli Un commesso viaggiatore deve visitare 7 clienti in modo da minimizzare la distanza percorsa. Le distanze (in Km) tra ognuno dei clienti sono come segue: 7-8 9 7 9-8 79

Dettagli

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali DIPARTIMENTO DI INGEGNERIA INFORMATICA AUTOMATICA E GESTIONALE ANTONIO RUBERTI Cenni al Data Mining 1 Data Mining nasce prima del Data Warehouse collezione di tecniche derivanti da Intelligenza Artificiale,

Dettagli

Sequence Alignment Algorithms

Sequence Alignment Algorithms Sequence Alignment Algorithms Algoritmi per l Allineamento di Sequenze Relatore: Prof. Giancarlo Mauri Correlatore: Prof. Gianluca Della Vedova Tesi di Laurea di: Mauro Baluda Matricola 038208 Part of

Dettagli

3. Piano di lavoro: - applicazione di alcune semplici procedure, con il confronto tra le diverse soluzioni possibili nell ambito del programma SPSS

3. Piano di lavoro: - applicazione di alcune semplici procedure, con il confronto tra le diverse soluzioni possibili nell ambito del programma SPSS Per utilizzare SPSS sui PC dell aula informatica occorre accedere come: ID: SPSS Password: winidams Testo rapido di consultazione: Fideli R. Come analizzare i dati al computer. ed. Carocci, Urbino, 2002.

Dettagli

DoE - Design of Experiment

DoE - Design of Experiment 3 Tecniche di DoE DoE - Design of Experiment Sequenza di Prove Sperimentali da Effettuare per Studiare e Ottimizzare un Processo Un esperimento programmato è una prova o una serie di prove in cui vengono

Dettagli

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo Evoluzione In ogni popolazione si verificano delle mutazioni. Intelligenza Artificiale In un ambiente che varia, le mutazioni possono generare individui che meglio si adattano alle nuove condizioni. Questi

Dettagli

Statistica descrittiva: prime informazioni dai dati sperimentali

Statistica descrittiva: prime informazioni dai dati sperimentali SECONDO APPUNTAMENTO CON LA SPERIMENTAZIONE IN AGRICOLTURA Statistica descrittiva: prime informazioni dai dati sperimentali La statistica descrittiva rappresenta la base di partenza per le applicazioni

Dettagli

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda Premessa Con l analisi di sensitività il perito valutatore elabora un range di valori invece di un dato

Dettagli

Analisi dei gruppi (Cluster analysis)

Analisi dei gruppi (Cluster analysis) Capitolo 10 Analisi dei gruppi (Cluster analysis) Partendo da un collettivo multidimensionale, l analisi dei gruppi mira ad assegnarne le unità a categorie non definite a priori, formando dei gruppi di

Dettagli

Linguaggi e Paradigmi di Programmazione

Linguaggi e Paradigmi di Programmazione Linguaggi e Paradigmi di Programmazione Cos è un linguaggio Definizione 1 Un linguaggio è un insieme di parole e di metodi di combinazione delle parole usati e compresi da una comunità di persone. È una

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Data Mining. Introduzione La crescente popolarità

Dettagli

Laboratorio di Apprendimento Automatico. Fabio Aiolli Università di Padova

Laboratorio di Apprendimento Automatico. Fabio Aiolli Università di Padova Laboratorio di Apprendimento Automatico Fabio Aiolli Università di Padova Esempi di Applicazioni Web page Ranking Quali documenti sono rilevanti per una determinata query? Quali sorgenti di informazione

Dettagli

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Concetti preliminari: struttura del dataset negli

Dettagli

Cluster gerarchica. Capitolo

Cluster gerarchica. Capitolo Cluster gerarchica Capitolo 33 Questa procedura consente di identificare gruppi di casi relativamente omogenei in base alle caratteristiche selezionate, utilizzando un algoritmo che inizia con ciascun

Dettagli

Brain architecture: A design for natural computation

Brain architecture: A design for natural computation Brain architecture: A design for natural computation Autore: Marcus Kaiser Oratore: Vincenzo Lomonaco Indice Introduzione Organizzazione della rete corticale Robustezza e capacità di recupero Elaborazione

Dettagli

Miglioramento dell analisi di immagine in GRASS tramite segmentazione

Miglioramento dell analisi di immagine in GRASS tramite segmentazione Segmentazione in GRASS Miglioramento dell analisi di immagine in GRASS tramite segmentazione Alfonso Vitti e Paolo Zatelli Dipartimento di Ingegneria Civile ed Ambientale Università di Trento Italy FOSS4G-it

Dettagli

I Modelli della Ricerca Operativa

I Modelli della Ricerca Operativa Capitolo 1 I Modelli della Ricerca Operativa 1.1 L approccio modellistico Il termine modello è di solito usato per indicare una costruzione artificiale realizzata per evidenziare proprietà specifiche di

Dettagli

Analisi del Rischio Rapina

Analisi del Rischio Rapina G. Bruno Ronsivalle Analisi del Rischio Rapina Il nuovo modello di valutazione e simulazione mediante algoritmi neuronali Verso una visione integrata del rischio rapina I tre livelli del modello di analisi

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Algebra booleana e circuiti logici. a cura di: Salvatore Orlando

Algebra booleana e circuiti logici. a cura di: Salvatore Orlando lgebra booleana e circuiti logici a cura di: Salvatore Orlando rch. Elab. - S. Orlando lgebra & Circuiti Elettronici I calcolatori operano con segnali elettrici con valori di potenziale discreti sono considerati

Dettagli

ANALISI GRAFICHE PER IL CONTROLLO DELLA QUALITA : ESEMPI DI APPLICAZIONI

ANALISI GRAFICHE PER IL CONTROLLO DELLA QUALITA : ESEMPI DI APPLICAZIONI ANALISI GRAFICHE PER IL CONTROLLO DELLA QUALITA : ESEMPI DI APPLICAZIONI (sintesi da Prof.ssa Di Nardo, Università della Basilicata, http://www.unibas.it/utenti/dinardo/home.html) ISTOGRAMMA/DIAGRAMMA

Dettagli

PROFILAZIONE AUTOMATICA DI CARATTERISTICHE D UTENZA MEDIANTE CLASSIFICATORI NEURALI

PROFILAZIONE AUTOMATICA DI CARATTERISTICHE D UTENZA MEDIANTE CLASSIFICATORI NEURALI UNIVERSITÀ POLITECNICA DELLE MARCHE FACOLTÀ DI INGEGNERIA Corso di laurea in Ingegneria Informatica e dell Automazione Dipartimento di Ingegneria Informatica, Gestionale e dell Automazione PROFILAZIONE

Dettagli

Dai dati al modello teorico

Dai dati al modello teorico Dai dati al modello teorico Analisi descrittiva univariata in R 1 Un po di terminologia Popolazione: (insieme dei dispositivi che verranno messi in produzione) finito o infinito sul quale si desidera avere

Dettagli

Breve introduzione al Calcolo Evoluzionistico

Breve introduzione al Calcolo Evoluzionistico Breve introduzione al Calcolo Evoluzionistico Stefano Cagnoni Dipartimento di Ingegneria dell Informazione, Università di Parma cagnoni@ce.unipr.it 1 Introduzione Il mondo fisico ed i fenomeni naturali

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: similarità Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Definizioni preliminari

Dettagli

INTRODUZIONE A EXCEL ESERCITAZIONE I

INTRODUZIONE A EXCEL ESERCITAZIONE I 1 INTRODUZIONE A EXCEL ESERCITAZIONE I Corso di Idrologia e Infrastrutture Idrauliche Prof. Roberto Guercio Cos è Excel 2 Foglio di calcolo o foglio elettronico è formato da: righe e colonne visualizzate

Dettagli

Tecniche di DM: Link analysis e Association discovery

Tecniche di DM: Link analysis e Association discovery Tecniche di DM: Link analysis e Association discovery Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Architettura di un generico algoritmo di DM. 2 2 Regole di associazione:

Dettagli

Laboratorio di Programmazione II Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona

Laboratorio di Programmazione II Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona e e Laboratorio di Programmazione II Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Sommario e ed implementazione in Java Visita di un grafo e e Concetti di base Struttura

Dettagli

Esercitazione di riepilogo 23 Aprile 2013

Esercitazione di riepilogo 23 Aprile 2013 Esercitazione di riepilogo 23 Aprile 2013 Grafici Grafico a barre Servono principalmente per rappresentare variabili (caratteri) qualitative, quantitative e discrete. Grafico a settori circolari (torta)

Dettagli

Prof.ssa Paola Vicard

Prof.ssa Paola Vicard Questa nota consiste perlopiù nella traduzione (con alcune integrazioni) da Descriptive statistics di J. Shalliker e C. Ricketts, 2000, University of Plymouth Consideriamo i dati nel file esercizio10_dati.xls.

Dettagli

40 Algoritmi sui Grafi

40 Algoritmi sui Grafi Università degli Studi di Napoli Parthenope Corso di Laurea in Informatica A.A 2014/15 PROGETTO PROGRAMMAZIONE III 40 Algoritmi sui Grafi Relatore: Prof. Raffaele Montella Studente: Diego Parlato Matricola:

Dettagli

ESERCITAZIONE 1. ALGORTIMO DI WAGNER-WHITIN

ESERCITAZIONE 1. ALGORTIMO DI WAGNER-WHITIN ESERCITAZIONE 1. ALGORTIMO DI WAGNER-WHITIN Alla base di questo algoritmo (e di quasi tutte le tecniche di lot sizing) si sono molte ipotesi, tra le quali le seguenti: 1. La domanda è assunta nota in ciascun

Dettagli

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2.

Statistica multivariata. Statistica multivariata. Analisi multivariata. Dati multivariati. x 11 x 21. x 12 x 22. x 1m x 2m. x nm. x n2. Analisi multivariata Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Cercare di capire le relazioni

Dettagli

Capitolo 2 Distribuzioni di frequenza

Capitolo 2 Distribuzioni di frequenza Edizioni Simone - Vol. 43/1 Compendio di statistica Capitolo 2 Distribuzioni di frequenza Sommario 1. Distribuzioni semplici. - 2. Distribuzioni doppie. - 3. Distribuzioni parziali: condizionate e marginali.

Dettagli

Feature Selection per la Classificazione

Feature Selection per la Classificazione 1 1 Dipartimento di Informatica e Sistemistica Sapienza Università di Roma Corso di Algoritmi di Classificazione e Reti Neurali 20/11/2009, Roma Outline Feature Selection per problemi di Classificazione

Dettagli

Alcune persone guardano le cose accadere. Altre fanno in modo che accadano!

Alcune persone guardano le cose accadere. Altre fanno in modo che accadano! 2013 Alcune persone guardano le cose accadere. Altre fanno in modo che accadano! Nel mondo economico dei nostri tempi, la maggior parte delle organizzazioni spende migliaia (se non milioni) di euro per

Dettagli

SAGE: Serial Analysis of Gene Expression

SAGE: Serial Analysis of Gene Expression SAGE: Serial Analysis of Gene Expression L insieme di tutti gli mrna presenti in una cellula si definisce trascrittoma. Ogni trascrittoma ha una composizione complessa, con migliaia di mrna diversi, ciascuno

Dettagli

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche DATA MINING datamining Data mining Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche Una materia interdisciplinare: - statistica, algoritmica, reti neurali

Dettagli

Annotazione automatica di immagini con sistemi desktop grid

Annotazione automatica di immagini con sistemi desktop grid Annotazione automatica di immagini con sistemi desktop grid Marco Ferrante (ferrante@csita.unige.it) Laura Lo Gerfo (logerfo@disi.unige.it) DISI - Università di Genova Tagging e retrieval di immagini Nell'annotazione

Dettagli

Ing. Simone Giovannetti

Ing. Simone Giovannetti Università degli Studi di Firenze Dipartimento di Elettronica e Telecomunicazioni Ing. Simone Giovannetti Firenze, 29 Maggio 2012 1 Incertezza di Misura (1/3) La necessità di misurare nasce dall esigenza

Dettagli

Corso di Visual Basic (Parte 8)

Corso di Visual Basic (Parte 8) Corso di Visual Basic (Parte 8) di MAURIZIO CRESPI Questo mese il corso di programmazione in Visual Basic focalizza la propria attenzione sulle procedure, talvolta dette subroutine L oggetto dell ottava

Dettagli

Neural Network Toolbox

Neural Network Toolbox Neural Network Toolbox In questa sede verrà presentata una trattazione esauriente delle caretteristiche fondamentali del Neuron Network Toolbox presente come pacchetto supplementare al software Matlab

Dettagli

Prof.ssa Paola Vicard

Prof.ssa Paola Vicard Questa nota consiste perlopiù nella traduzione da Descriptive statistics di J. Shalliker e C. Ricketts, 2000, University of Plymouth Consideriamo come esempio il data set contenuto nel foglio excel esercizio2_dati.xls.

Dettagli

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it

Analisi bivariata. Dott. Cazzaniga Paolo. Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Dip. di Scienze Umane e Sociali paolo.cazzaniga@unibg.it Introduzione : analisi delle relazioni tra due caratteristiche osservate sulle stesse unità statistiche studio del comportamento di due caratteri

Dettagli

CAPITOLO III CONFRONTI TRA DISTRIBUZIONI

CAPITOLO III CONFRONTI TRA DISTRIBUZIONI CAPITOLO III CONFRONTI TRA DISTRIBUZIONI 3.1 CONFRONTI TRA DISTRIBUZIONI OSSERVATE E DISTRIBUZIONI TEORICHE OD ATTESE. Nella teoria statistica e nella pratica sperimentale, è frequente la necessità di

Dettagli

Alcuni Preliminari. Prodotto Cartesiano

Alcuni Preliminari. Prodotto Cartesiano Alcuni Preliminari Prodotto Cartesiano Dati due insiemi A e B, si definisce il loro prodotto cartesiano A x B come l insieme di tutte le coppie ordinate (a,b) con a! A e b! B. Es: dati A= {a,b,c} e B={,2,3}

Dettagli

Analisi dei dati di traffico esistenti per la definizione dei profili temporali: metodologia ed esempio di applicazione.

Analisi dei dati di traffico esistenti per la definizione dei profili temporali: metodologia ed esempio di applicazione. XIII Expert panel emissioni da trasporto su strada Roma, 4 ottobre 27 Analisi dei dati di traffico esistenti per la definizione dei profili temporali: metodologia ed esempio di applicazione. C. Lavecchia*;

Dettagli

Pivot è bello. Principali. misure di variabilità. Il contesto è di tipo matematico, in particolare riguarda l uso di dati numerici e delle loro

Pivot è bello. Principali. misure di variabilità. Il contesto è di tipo matematico, in particolare riguarda l uso di dati numerici e delle loro Pivot è bello Livello scolare: 1 biennio Abilità Conoscenze interessate Predisporre la struttura della Distribuzioni delle matrice dei dati grezzi con frequenze a seconda del riguardo a una rilevazione

Dettagli

Esame di Ricerca Operativa - 20 settembre 2007 Facoltà di Architettura - Udine - CORREZIONE -

Esame di Ricerca Operativa - 20 settembre 2007 Facoltà di Architettura - Udine - CORREZIONE - Esame di Ricerca Operativa - settembre 7 Facoltà di rchitettura - Udine - CORREZIONE - Problema ( punti): Un azienda pubblicitaria deve svolgere un indagine di mercato per lanciare un nuovo prodotto. L

Dettagli

Sintesi di Reti Sequenziali Sincrone

Sintesi di Reti Sequenziali Sincrone LABORATORIO DI ARCHITETTURA DEI CALCOLATORI lezione n 9 Prof. Rosario Cerbone rosario.cerbone@uniparthenope.it a.a. 2007-2008 http://digilander.libero.it/rosario.cerbone Sintesi di Reti Sequenziali Sincrone

Dettagli

Carte Laurea triennale in Comunicazione Digitale Laboratorio di Informatica Generale

Carte Laurea triennale in Comunicazione Digitale Laboratorio di Informatica Generale Appelli di gennaio, febbraio e aprile 2005 Carte Laurea triennale in Comunicazione Digitale Laboratorio di Informatica Generale 1 Descrizione Il progetto consiste nel realizzare un programma per gestire

Dettagli

Metodi e Modelli per l Ottimizzazione Combinatoria Il problema del flusso di costo minimo

Metodi e Modelli per l Ottimizzazione Combinatoria Il problema del flusso di costo minimo Metodi e Modelli per l Ottimizzazione Combinatoria Il problema del flusso di costo minimo L. De Giovanni G. Zambelli 1 Problema del flusso a costo minimo Il problema del flusso a costo minimo é definito

Dettagli

Algoritmo per il rilevamento di targhe

Algoritmo per il rilevamento di targhe Algoritmo per il rilevamento di targhe 19 maggio 2008 Nell affrontare il problema del riconoscimento delle targhe sono stati sviluppati due algoritmi che basano la loro ricerca su criteri differenti. Lo

Dettagli

ID55/2005 PROGETTO R&S Lo sviluppo di nuovi inibitori delle istone deacetilasi per un approccio epigenetico alla terapia dei tumori.

ID55/2005 PROGETTO R&S Lo sviluppo di nuovi inibitori delle istone deacetilasi per un approccio epigenetico alla terapia dei tumori. SCHEDE TECNICHE INTERVENTI CONCLUSI ATI CONGENIA - CONGENIA Srl Milano - DAC Srl Milano - NIKEM RESEARCH Srl Bollate MI - ISTITUTO EUROPEO DI ONCOLOGIA Milano - ISTITUTO FIRC DI ONCOLOGIA MOLECOLARE Milano

Dettagli

Sorgenti autorevoli in ambienti hyperlinkati.

Sorgenti autorevoli in ambienti hyperlinkati. Sorgenti autorevoli in ambienti hyperlinkati. La qualità di un metodo di ricerca richiede la valutazione umana dovuta alla soggettività inerente alla nozione di rilevanza. I motori di ricerca correnti,

Dettagli

Testing: basato su analisi dinamica del codice. Metodi Formali: basato su analisi statica del codice.

Testing: basato su analisi dinamica del codice. Metodi Formali: basato su analisi statica del codice. Convalida: attività volta ad assicurare che il SW sia conforme ai requisiti dell utente. Verifica: attività volta ad assicurare che il SW sia conforme alle specifiche dell analista. Goal: determinare malfunzionamenti/anomalie/errori

Dettagli

Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi

Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi Versione 2.0 Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi Corso anno 2011 E. MANUALE UTILIZZO HAZARD MAPPER Il programma Hazard Mapper è stato realizzato per redarre,

Dettagli

Di testi ed immagini

Di testi ed immagini Università Cattolica del Sacro Cuore - Brescia 23/5/2005 Parte I: Richiami di algebra lineare Parte II: Applicazioni Sommario della Parte I 1 Diagonalizzabilità di una matrice Autovalori ed autovettori

Dettagli

Corso di. Dott.ssa Donatella Cocca

Corso di. Dott.ssa Donatella Cocca Corso di Statistica medica e applicata Dott.ssa Donatella Cocca 1 a Lezione Cos'è la statistica? Come in tutta la ricerca scientifica sperimentale, anche nelle scienze mediche e biologiche è indispensabile

Dettagli

Funzioni in due variabili Raccolta di FAQ by Andrea Prevete

Funzioni in due variabili Raccolta di FAQ by Andrea Prevete Funzioni in due variabili Raccolta di FAQ by Andrea Prevete 1) Cosa intendiamo, esattamente, quando parliamo di funzione reale di due variabili reali? Quando esiste una relazione fra tre variabili reali

Dettagli

Modelli di Ottimizzazione

Modelli di Ottimizzazione Capitolo 2 Modelli di Ottimizzazione 2.1 Introduzione In questo capitolo ci occuperemo più nel dettaglio di quei particolari modelli matematici noti come Modelli di Ottimizzazione che rivestono un ruolo

Dettagli