KNOWLEDGE DATA DISCOVERY

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "KNOWLEDGE DATA DISCOVERY"

Transcript

1 KNOWLEDGE DATA DISCOVERY Corso di Bionforma;ca Corso di Laurea in Scienze Biologiche Prof. R. Oliveto - A.A. 2011/2012

2 Introduzione L informazione è un bene a valore crescente, necessario per pianificare e controllare akvità produkve: Cos;tuisce la materia prima che viene trasformata dai sistemi informa;vi Come è noto ai Web navigator l equazione da# = informazione non è sempre correpa Spesso la disponibilità di troppi da; rende arduo, se non impossibile, estrarre informazioni significa;ve Sistemi per l estrazione, l analisi e l organizzazione automa;ca di queste enormi moli di da; possono fornire un supporto nei processi decisionali umani Sistemi di Supporto alle Decisioni (DSS)

3 Sistemi di Supporto alle Decisioni Nascono a seguito dell enorme accumulo di da; registrato nell ul;mo ventennio in forma elepronica, e dalla pressante richiesta di u;lizzo di tali da; per scopi che superano quelli lega; all elaborazione giornaliera Aiutano il decisore umano sia nelle decisioni opera;ve, sia nelle decisioni strategiche, a più lungo termine ed a più ampio respiro

4 Applicazioni L u;lizzo dei DSS non è ristrepo in ambito aziendale e d impresa Spazia dall area medico- epidemiologica a quella demografica, dalle scienze naturali alla didakca CaraPeris;ca comune ai diversi ambi; è la necessità di strumen; di archiviazione e di interrogazione, per openere, dall enorme quan;tà di da; contenu; nei database o resi disponibili da Internet Informazioni di sintesi che permepano la valutazione di un fenomeno La scoperta di correlazioni significa;ve L acquisizione di conoscenza u;le a stabilire una strategia decisionale

5 Un po di storia (1) La funzione svolta dalle basi di da; in ambito aziendale è stata, fino a tempi recen;, quella di memorizzare da; operazionali, ossia da; genera; da operazioni, in genere di carapere amministra;vo, svolte all interno dei processi ges;onali (ges;one acquis;, ges;one vendite, fapurazione) TuPavia, per ogni azienda, è fondamentale poter disporre in maniera rapida e completa delle informazioni necessarie al processo decisionale: le indicazioni strategiche sono estrapolate dalla mole dei da; operazionali, apraverso un procedimento di selezione e sintesi progressiva

6 Un po di storia (2) L aumento esponenziale del volume dei da; operazionali ha reso il calcolatore l unico supporto adapo al processo decisionale Il ruolo delle basi di da; è sensibilmente cambiato, dalla fine degli anni `80, con la nascita dei DSS Nasce il data warehouse: una raccolta di da; integrata, subject oriented, variabile nel tempo e non vola#le di supporto ai processi decisionali

7 Integrazione Data Warehouse (1) Nel data warehouse confluiscono da; provenien; da più sistemi transazionali e da fon; esterne L obiekvo dell integrazione viene raggiunto mediante l u;lizzo di metodi di codifica uniformi Orientamento al sogge>o I da; vengono archivia; per poter essere facilmente reperi; ed analizza; dagli uten; Non si mira a minimizzare la ridondanza, ma piuposto a fornire da; che abbiano una strupura in grado di favorire la produzione di informazioni

8 Data Warehouse (2) Variabilità nel tempo Nel DW sono contenute informazioni rela;ve alle aree di interesse che colgono la situazione rela;va ad un dato fenomeno in un determinato intervallo temporale (generalmente antecedente all interrogazione) Non vola#lità Non modificabilità dei da; contenu; nel DW, che consente accessi in sola lepura Semplicità di progepazione: non si ricorre a strumen; complessi per ges;re l integrità referenziale o per bloccare record cui possono accedere più uten; in fase di aggiornamento

9 Sistema informa;vo vs. DSS Un sistema informa#vo converte da; in informazioni, ed ha lo scopo di collezionare, trasformare e distribuire informazione (e.g., search engine) Un sistema di supporto alle decisioni è un sistema informa;vo intelligente che aiuta l utente a prendere decisioni, senza sos;tuirsi ad esso

10 Vantaggi dei DSS Il DSS, apraverso procedure interabve, fornisce al decisore: la disponibilità di tupe le informazioni necessarie per la comprensione del problema la possibilità di esplorare i da; secondo diversi pun; di vista, in base alle esigenze dello stesso utente la possibilità di valutare gli scenari conseguen; alle scelte compiute I DSS si adapano al trapamento di problemi strupura; o semistrupura;, per i quali non è possibile fornire una soluzione algoritmica

11 Problema;che Tra le problema;che da affrontare per la realizzazione di un sistema di supporto alle decisioni ricordiamo la necessità di... ges;re grandi moli di da; accedere a diverse fon; di da; su piapaforme eterogenee garan;re l accesso a più uten; con compi; differenzia; per interrogazioni, analisi in tempo reale e simulazioni ges;re versioni storiche dei da;

12 ObieKvi di un DSS PermePere l estrazione di informazione da grandi database, in tempi brevi ed in modo flessibile, per supportare e migliorare il processo decisionale Necessità di separare i da; genera; dalle operazioni di ges;one (opera#onal database) dai da; u;li ai processi decisionali (data warehouse) Data warehouse con;ene un sopoinsieme dei da; mantenu; nell opera;onal database, okmizzato per analisi focalizzate ai processi decisionali Nell opera;onal database e nel data warehouse i da; sono memorizza; a livelli diversi di aggregazione Capacità di analisi dei da; contenu; nel data warehouse in tempo reale e da diversi pun; di vista

13 Riassumendo... Pertanto, il DW con;ene i da; necessari ai processi decisionali L opera;onal database è aggiornato costantemente: deve fotografare l istante corrente Il DW con;ene i da; aggrega; in par;colari istan; di tempo (es. da; sekmanali, mensili, trimestrali) Nel DW, i da; che provengono dall opera;onal database devono essere integra; con i da; rela;vi all ambiente esterno (che condizionano il processo decisionale) Il DW è una sorta di storico che raccoglie istantanee significa;ve dell opera;onal database, o meglio è una collezione di metodi, tecnologie e strumen; di ausilio al knowledge worker (amministratore, gestore, analista, dirigente) per condurre analisi dei da; finalizzate all apuazione di processi decisionali e al miglioramento del patrimonio informa;vo

14 Knowledge Data Discovery (1) Il processo KDD prevede in input da; grezzi e fornisce in output informazioni u;li openute apraverso diverse fasi

15 Knowledge Data Discovery (2) Gli stadi che caraperizzano un processo KDD sono sta; iden;fica; da Fayyad, Piatetsky- Shapiro, Smyth e Uthurusamy (1996) Nell elencare e descrivere le fasi del KDD, tale ricerca ha posto par;colare accento sulla fase di Data Mining (DM), cioè sulle tecniche per l esplorazione e lo studio dei da; Il DM è ritenuta la fase più importante dell intero processo KDD e tale importanza rende sempre più difficile, soprapupo in termini pra;ci, dis;nguere il processo KDD dal DM

16 Selezione I da; grezzi (raw data) vengono segmenta; e seleziona; secondo criteri predefini;, per pervenire ad un sopoinsieme di da; che rappresentano i target data o da; obiekvo Il database operazionale può contenere informazioni inu;li per il problema specifico Esempio: se l obiekvo è lo studio delle associazioni tra i prodok di una catena di supermerca;, non ha senso conservare i da; rela;vi alla professione dei clien;; tali da; potrebbero invece fornire informazioni d interesse rela;ve al comportamento di determinate fasce di clien;, per effepuare un analisi discriminante

17 Pre- processing Spesso, pur avendo a disposizione i da; obiekvo non è conveniente, né necessario, analizzarne l intero contenuto Occorre prima campionare le tabelle e, successivamente, effepuare un analisi su base campionaria Fa inoltre parte dello stadio di preprocessing la fase di pulizia dei da;, o data cleaning, che prevede l eliminazione dei possibili errori e la definizione dei meccanismi di comportamento in caso di da; mancan;

18 Trasformazione dei da; Dopo il preprocessing, i da;, per essere u;lizzabili, devono essere trasforma; Si possono effepuare conversioni di ;po o definizioni di nuovi da; openu; apraverso l uso di operazioni matema;che e logiche sulle variabili Inoltre, quando i da; provengono da fon; diverse, è necessario codificarli omogeneamente, per garan;rne la consistenza

19 Data Mining Ai da; trasforma; vengono applicate tecniche per l estrazione di informazione non banale I ;pi di da; a disposizione e gli obiekvi da raggiungere indicano implicitamente il ;po di algoritmo DM da scegliere Il processo KDD è: InteraBvo, presuppone infak un dialogo costante tra l utente e il sonware u;lizzato Itera#vo, nel senso che la fase di DM può prevedere un ulteriore trasformazione dei da; originali o un ulteriore pulizia dei da;, ovvero una riesecuzione delle fasi preliminari

20 Interpretazione e valutazione Il DM crea dei papern, ovvero dei modelli, che possono cos;tuire un valido supporto alle decisioni Non è sufficiente, tupavia, interpretare i risulta; openu;, ma occorre u;lizzarli per validare i modelli (da; e algoritmi) È dunque possibile, alla luce di risulta; non perfepamente soddisfacen;, intervenire (in maniera sia adakva sia perfekva) su una o più fasi del processo KDD

21 Regole derivate Le relazioni scoperte sono valide se valgono, con un grado di certezza prefissato, anche su da; diversi da quelli usa; per la scoperta delle stesse Individuare un grado di certezza è essenziale per stabilire quanta fiducia si può riporre nel sistema e nella relazione estrapa Le relazioni scoperte devono essere nuove almeno per il sistema, devono cioè aumentare la conoscenza necessaria ad affrontare il problema decisionale Le relazioni dovrebbero potenzialmente condurre a delle azioni u#li Per esempio, la scoperta di una dipendenza fra ar;coli acquista; da uno stesso cliente in un supermercato potrebbe akvare opportune strategie di marke;ng I papern devono essere comprensibili agli uten; per facilitare una migliore conoscenza dei fak coinvol; Poiché è difficile misurare la comprensibilità di un papern spesso si ricorre a misure surrogate di semplicità sintakca/seman;ca

22 Esempio di DM Mancato pagamento Pagamento avvenuto regolarmente 10 Prestito Stipendio

23 Esempio di DM Mancato pagamento Pagamento avvenuto regolarmente 10 Prestito IF Stipendio < 10 THEN Mancato Pagamento Stipendio

24 Tecniche di DM (1) La scelta del par;colare algoritmo di data mining dipende dall obiekvo da raggiungere e dal ;po di da; da analizzare Regole di associazione Classificazione Clustering Similarity search

25 Tecniche di DM (1) Le tecniche di analisi delle associazioni consentono di individuare regole nelle occorrenze concomitan; di due o più even; Le tecniche di clustering e le re; neurali non supervisionate consentono il raggruppamento di da;, cioè l individuazione di gruppi omogenei, che presentano delle regolarità al loro interno, in grado di caraperizzarli e differenziarli dagli altri gruppi Le re# neurali supervisionate, le support vector machine e gli alberi di decisione consentono di effepuare operazioni di classificazione, fanno cioè uso della conoscenza acquisita in fase di addestramento per classificare nuovi oggek o prevedere nuovi even; Le tecniche di similarity search consentono, data un base di da; di sequenze temporali o oggek, di determinare sequenze/oggek simili ad una sequenza/oggepo data/o, o tupe le coppie di sequenze/oggek simili

26 Applicazioni del DM (1) Indagini di mercato (Database Marke#ng): applicazione di tecniche di clustering per individuare gruppi omogenei in termini di comportamento d acquisto e di caraperis;che sociodemografiche; l individuazione delle diverse ;pologie di clien;......permepe di effepuare campagne di marke;ng mirate e di valutarne gli effek...permepe di openere indicazioni su come modificare la propria offerta...rende possibile monitorare nel tempo l evoluzione della propria clientela e l emergenza di nuove ;pologie Analisi testuale (Text Mining): applicazione di tecniche di clustering per individuare gruppi omogenei di documen; in termini di argomento trapato; consente di accedere più velocemente all argomento di interesse e di individuarne i legami con argomen; correla;

27 Applicazioni del DM (2) Analisi del paniere (Basket Analysis): applicazione di tecniche di individuazione di associazioni a da; di vendita per conoscere quali prodok vengono acquista; congiuntamente Consente di migliorare l offerta dei prodok (disposizione sugli scaffali) e di incrementare le vendite di par;colari prodok tramite offerte su generi associa; Technology Watch (Compe##ve Intelligence): applicazione di tecniche di clustering a banche da; di ;po tecnicoscien;fico al fine di individuare i gruppi tema;ci principali, le loro relazioni, l evoluzione temporale, le persone o le aziende coinvolte

28 CLUSTERING ANALYSIS Knowledge Data Discovery Prof. R. Oliveto - A.A. 2011/2012

29 Cos è la clustering analysis Clustering: l azione che mira a raggruppare oggek simili in insiemi In generale, un problema di clustering consiste nel trovare il par;zionamento okmo dei da; in K cluster (esclusivi)

30 Perchè è u;le in Bionforma;ca Ecologia delle piante e degli animali E usata per descrivere e effepurare comparazioni spaziali e temporali di comunità di organismi in ambien; eterogenei. Trascri>omica E usata per costruire gruppi di geni con papern espressivi collega; (coexpressed genes). Spesso tali gruppi contengono proteine dipenden; dal punto di vista funzionale, quali enzimi per uno specifico sen;ero metabolico. Analisi delle sequenze E usata per raggruppare sequenze omologhe in famiglie di geni. ConcePo fondamentale in bioinforma;ca, e biologia evolu;va in generale. Huma Gene#c Clustering La somiglianza tra data gene;ci è usata per clusterizzare e quindi inferire strupure delle popolazioni.

31 Esempio (1) DNA Chips/Microarrays Consentono di misurare il levello espressivo di un numero elva;ssimo di geni all interno di diversi condizioni/campioni sperimentali Il campionamento può essere effepuato considerando Diversi istan; temporali Diverse condizioni ambientali Diversi organismi Tessu; sani e affek da cancro Diversi individui

32 Esempio (2) Microarray data (gene expression data) sono rappresenta; apraverso una matrice, dove Ciascun gene corrisponde ad una riga Ciascuna condizione sperimentale corrisponde ad una colonna Il generico elemento (i,j) della matrice rappresenta il livello espressivo del gene i nella condizione sperimentale j Generalemente è un numero reale che rappresenta il logoritmo del valore dell mrna del gene sopo par;colari condizioni sperimentali

33 Clustering (1) Un problema di clustering può essere visto come una classificazione non supervisionata A tal proposito il clustering è appropriato quando non c è alcuna conoscenza dei da; Assenza di label: necessario classificare i dati Exp. e1 e2 e3 e4 L g ? g2? Genes g3? g4? g5? Exp. Genes g1 g2 g3 g4 g5 L e1 0.76? e2 3.2? e3? e4-0.45? Il clustering è una metodologia di analisi dei da; molto usato al fine di verificare ipotesi intui;ve rela;ve a grandi basi di da; effepuare un pre- processing dei da; per prepararli ad analisi successive (e.g., iden;ficazione di geni predipori per la classificazione di tumori) iden;ficare biomarker (i.e., indicatore di uno stato biologico)

34 Clustering (2) Il clustering è soggettivo Le label sono determinate da un umano I Simpson Impiegati Donne Maschi Il clustering dipende da una misura di somiglianza (relational criterion) che sarà espresso attraverso una funzione di distanza 7

35 Il clustering può essere effepuato su ogni ;po di da; Geni, campioni, ;me points in una ;me series, etc. Gli algoritmi di clustering traperanno tuk gli input come un set di n numeri o come un vepore n- dimensionale Il clustering consente di esplorare da; in maniera efficace La visualizzazione dei da; può aiutare a controllare la qualità dei da; Clustering (3) Si basa sull assunzione Guilt by associa#on Geni che hanno simili papern espressivi possono indicare una relazione biologica

36 Il Clustering e la Biologia In trascri>omica, il clustering è usato per costruire gruppi di geni con papern espressivi (osserva; in diversi esperimen;) tra loro collega; (co- expressed genes) Nell analisi delle sequenze, il clustering è usato per raggruppare sequenze omologhe in famiglie di geni Nella diagnosi di tumori e trapamen;: Iden;ficare nuove classi di campioni biologici (e.g., sopo;pi di tumori) TraPamen; individuali Lo stesso ;po di tumore (in diversi pazien;) non necessariamente risponde allo stesso modo alla terapia NCI- 60 Cancer Cell Line Muta;on Data Con;ene i livelli espressivi di circa 1400 geni e la farmo- resistenza rispepo a 1400 medicinali forni; dal Na;onal Cancer Ins;tute per 60 cellule tumorali

37 Expression Vectors I Gene Expression Vectors sono usa; per rappresentare l espressione di un gene in diverse condizioni sperimentali o ;pi di campionamento

38 Interpretazione geometrica t 1 t 2 t 3 G G G Similar Expression G G Experiment 3 Experiment 2 Experiment 1

39 Distanza Intra e Inter- cluster La distanza intracluster è minimizzata La distanza intercluster è massimizzata

40 Cos è la somiglianza Similarity is hard to define, but We know it when we see it Determinare la somiglianza tra oggetti è un tipico task di machine learning 15

41 Analisi dei cluster (1) Per raggruppare insieme oggek è necessario definere: 1. Misura di Distanza tra oggeb: definisce il significato della somiglianza/diversità degli oggek Two conditions and n genes Two genes and n conditions

42 Analisi dei cluster (2) 2. Algoritmo di clustering: definisce le operazioni per openere un insieme di cluster Considerare tupe le possibili soluzioni e prendere quella che ha il migliore inter e intra distanza è impra;cabile... Possibili soluzioni dove k rappresenta il numero di cluster e n il numero di punti

43 Proprietà della distanza Un misura di distanza d è una funzione che prende come argomento due pun; x e y in uno spazio n- dimenzionale Rn e ha le seguen; proprietà: Simmetria: la distanza deve essere simmetrica, ovvero d(x,y) = d(y,x) Posi#vità: la distanza tra due pun; deve essere un numero reale maggiore o uguale a zero d(x,y) 0 per ogni x e y. L uguaglianza è vera solo e solo se x = y, i.e., d(x,x) = 0 Disuguaglianza triangolare: la distanza tra due pun; x e y deve essere minore o iguale della somma delle distanze da x e un terzo punto z e da z a y: d(x,y) d(x,z) + d(z,y) Tale proprietà riflepe il fapo che la distanza tra due pun; dovrebbe essere calcolata considerando il cammino più breve

44 Misure di distanza Da; due vepori n- dimensionali x=(x1, x2,,xn) e y=(y1, y2,,yn), la distanza tra x e y può essere calcolata usando diverse misure: Euclidean distance squared standardized ManhaPan distance Chebychev distance Cosine similarity (Angle) Correla;on distance Mahalanobis distance Minkowski distance

45 Euclidean Distance La distanza Euclidea prende in considerazione sia la direzione che il magnitudo di due vepori La distanza Euclidea tra due vepori n- dimensionali x=(x1,x2,,xn) e y=(y1,y2,,yn) è data da: Ciascun asse rappresenta un esperimento La coordinata di ciascun asse è l espressività del gene nell esperimento (n = 2)

46 Squared Euclidean Distance La distanza Euclidea quadra;ca tra due vepori n- dimensionali x=(x1,x2,,xn) and y=(y1,y2,,yn) è: A differenza della distanza Euclidea, quella quadra;ca tende a date più peso agli outliers (geni con livelli espressivi molto diversi in ciascuna condizione, o due condizioni che causano livelli espressivi molto diversi in ciascun gene) a causa della mancanza della radice quadrata

47 Standardized Euclidean Distance L idea chiave è che non tupe le direzioni hanno la stessa importanza. La distanza Euclidea standardizzata tra due vepori n- dimensionali x=(x1,x2,,xn) e y=(y1,y2,,yn) è: Exp. Dove s 2 1 è la varianza della prima dimensione nello spazio n- dimensionale e 1 e 2 e 3 e n x x 1 x 2 x n y y 1 y 2 y n Genes Usa l idea di pesare ciascuna dimensione con una quan;à inversamente proporzionale alla variabilità dei valori lungo ciascuna dimensione

48 ManhaPan Distance La distanza di ManhaPan rappresenta la distanza misurata lungo direzioni parallele agli assi La distanza di ManhaPan tra due vepori n- dimensionali x=(x1,x2,,xn) e y=(y1,y2,,yn) è:

49 Chebychev Distance La distanza di Chebychev considera semplicemente la maggiore distanza tra due coordinate di due vepori. Ad esempio, se i vepori x=(x1,x2,,xn) e y=(y1,y2,,yn) sono due geni misura; in n esperimen;, la distanza di Chebychev prenderà in considerazione il solo esperimento in cui i due geni hanno la massima differenza espressiva e considererà tale differenza come distanza tra i due geni. Generalmente usata per evidenziare le differenze maggiori tra coordinate corrisponden;. La distanza di Chebychev tra due vepori n- dimensionali x=(x1,x2,,xn) and y=(y1,y2,,yn) è: Da notare che tale misura di distanza è molto sensible ad outlier e poco resistente ad errori di misurazione

50 Cosine Similarity (Angle) The Cosine Similarity takes into account only the angle and discards the magnitude. The Cosine Similarity distance between two n- dimensional vectors x=(x1,x2,,xn) and y=(y1,y2,,yn) is: x x dα ( x, y) = cos( θ) = y = 2 2 x1 + x2 + = x x i= 1 x1 y1 + x2 y2 + + n y y 2 + x n = x i x n 2 y n = n i= 1 x i y i Gene2 Expression Level Gene1 Expression Level θ xy

51 Correla;on Distance La Pearson correla;on distance calcola la distanza tra ciascun punto e la repa di regressione La Pearson correla;on distance tra due vepori n- dimensionali x=(x1,x2,,xn) e y=(y1,y2,,yn) è: dove rappresenta il coefficiente di correlazione di Pearson

52 Mahalanobis Distance La distanza di Mahalanobis tra due vepori n- dimensionali x=(x1,x2,,xn) e y=(y1,y2,,yn) è: La matrice S serve a distorcere lo spazio veporiale. Generalmente S è rappresentata dalla matrice della covarianza. Se invece S è la matrice iden;tà la distanza di Mahalanobis si riduce a quella Euclidea:

53 Minkowski Distance La distanza di Minkowski è una generalizzazione della distanza Euclidea e di ManhaPan. La distanza di Minkowski tra due vepori n- dimensionali x=(x1,x2,,xn) e y=(y1,y2,,yn) è: d M k( x, y) = { } m m m x y + x y + + x y n n 1 m = n i= 1 x i y i m 1 m Ricordando che per m = 1 la distanza si riduce a quella di ManhaPan distance, mentre per m = 2 la distanza di Minkowski si riduce a quella Euclidea

54 Come scegliere la misura? La scelta della misura di distanza è legata al dominio applica;vo, i.e., che ;po di somiglianza si è interessa; a capurare? Euclidean distance: prende in considerazione il magnitudo delle differenze tra i livelli espressivi Distance Correla#on: insensibile all ampiezza delle espressioni, considera solo il trend del cambiamento

55 Confronto tra distanze (1) Euclidean Distance: la più conosciuta ed anche più usata Squared Euclidean Distance: tende ad enfa;zzare le distanze. Gli stessi da; clusterizza; con una distanza euclidea quadra;ca potrebbero apparire più sparsi e meno compak Standardized Euclidean: elimina l influenza di diversi range di variazione. TuPe le direzioni saranno ugualmente imporan; Manha>an Distance: l insieme di geni o esperimen; alla stessa distanza da un punto di riferimento non coincide con l insieme di geni o esperimen; costruito con la distanza Euclidea

56 Confronto tra distanze (2) Cosine Distance (angle): considera solo l angolo e non il magnitudo. Ad esempio: un gene g1 misurato in due esperimen;: g1=(1,1) un gene g2 misurato in due esperimen;: g2 =(100,100) avranno la sequente distanza cos( θ ) = x x y y = 100 [ ] = = 1 l angolo tra i due vepori è zero. Il clustering con questa misura di distanza posizionerà g1 e g2 nello stesso cluster anche se il loro livello espressivo è molto diverso!

57 Confronto tra distanze (3) Correla#on distance: considera simili variazioni e non simili valori numerici. Ad esempio, si consideri un insieme di 5 esperimen; e un gene g1 che ha la seguente espressività g1=(1,2,3,4,5) nei 5 esperimen;. un gene g2 che ha la seguente espressività g2=(100,200,300,400,500) nei 5 esperimen;. un gene g3 che ha la seguente espressività g3=(5,4,3,2,1) nei 5 esperimen;. La correla;on distance meperà g1 e g2 nello stesso cluster e g3 in un cluster diverso, poichè: g1= (1,2,3,4,5) e g2=(100,200,300,400,500) hanno un alta correlazione (1) d(g1,g2) = 1- r = 1-1 = 0 g1= (1,2,3,4,5) e g3= (5,4,3,2,1) sono correla; inversamente (- 1) d(g1,g3) = 1- r = 1- (- 1) = 2

58 Confronto tra distanze (4) Chebychev distance: si focalizza sulle differenze più importan;. I vepori (1,2,3,4) e (2,3,4,5) hanno distanza Euclidea 2 e 1 come distanza di Chebychev. I vepori (1,2,3,4) e (1,2,3,6) hanno distanza Euclidea e 2 come distanza di Chebychev. Mahalanobis distance: può deformare lo spazio nel modo più conviente. Generalmente, lo spazio è deformato usando la matrice di covarianza.

59 Osservazioni Tu>o può essere clusterizzato Il clustering è altamente dipendente dalla misura di distanza ado>ata. Cambiare la misura di distanza può influenzare dramma;camente il numero e la composizione dei cluster, così come le relazioni tra loro Lo stesso algor#mo di clustering applicato allo stesso dataset può produrre risulta# diversi. Mol; algor;mi di clustering hanno una componente non- determinis;ca intrinseca Un insieme di cluster che include tuk i geni o gli esperimen; considera; forma un clustering, albero di cluster o dendogramma

60 Algoritmi di clustering I tradizionali algoritmi di clustering posso essere divisi in tre principali categorie: Clustering par;zionale Clustering gerarchico Model- based clustering

61 Par;;onal Clustering Il clustering par;zionale ha l obiekvo di dirivare par;zioni (cluster) da una collezione di oggek Mol; di ques; metodi sono basa; sull okmizzazione itera;va di un criterio (funzione obiebvo) che riflepe l agreement tra i da; e la par;zione Un esempio di funzione obiekvo: minimizzare la distanza intra- cluster e massimizzare quella inter- cluster Uno degli algor;mi di clustering par;zionale più usato è il k- means

62 Par;;onal Clustering: k- Means 1. Specificare il numero di cluster desidera; (K) 2. Selezionare il maniera random K elemen; rappresenta;vi, chiama; centroidi 3. Calcolare la distanza di ciascun papern (punto) dal tuk i centroidi 4. Asssegnare i pun; a centroide con la minima distanza 5. Aggiornare i centroidi con la media degli elemen; appartenen; a ciascun cluster e calcolare la nuova composizione dei cluster 6. Controllare la condizione di convergenza Se tuk i pun; sono sta; assegna; agli stessi cluster rispepo all iterazione precedente e quindi tuk i centroidi restano invaria;, fermare il processo Altrimen;, ripar;re dal punto 3

63 K- means clustering (k=3)

64 CaraPeris;che del K- means Una diversa inizializzazione potrebbe produrre cluster diversi. Quindi, diversi run dell algor;mo potrebbero portare a clustering diversi Inizializzazione 1 Inizializzazione II L algoritmo ha una bassa seman;ca: il labelling e l interpretazione dei cluster è una fase successiva

65 Nearest Neighbor Clustering Il numero di cluster (k) non è fissato a priori Una soglia (t) è usata per determinare se un nuovo oggepo deve essere aggiunto ad un cluster esistente oppure è necessario crearne uno nuovo Gli oggek sono aggiun; (in maniera incrementale) ai cluster esisten; più vicini E un algor;mo incrementale

66 Nearest Neighbor Clustering (1) Si sepa una soglia t t

67 Nearest Neighbor Clustering (2) Arriva un nuovo dato Si controlla la soglia t 8 7 Poichè il nuovo dato è 6 all interno della soglia 5 per il cluster 1, il nuovo dato è aggiunto a tale cluster. Si aggiorna il 1 2 centroide Metodi numerici per la bioinformatica 46 Francesco Archetti

68 Nearest Neighbor Clustering 10 Arriva un nuovo dato Si controlla la soglia t 7 6 Poichè il nuovo dato è al 5 di fuori della soglia per il cluster 1, si crea un nuovo cluster Metodi numerici per la bioinformatica 47 Francesco Archetti

69 Nearest Neighbor Clustering Arriva un nuovo dato... Difficile determinare t a priori Si controlla la soglia t Poichè il nuovo dato è al di fuori della soglia per il cluster 1, si crea un Un diverso valore di t implica un diverso nuovo cluster. 10 valore per la distanza intra/inter cluster Metodi numerici per la bioinformatica 47 Francesco Archetti

70 Hierarchical Clustering Il clustering gerarchio mira a un obiekvo più ambizioso, ovvero quello di openere una gerarchia di cluster (dendogramma) che mostra come i cluster sono collega; gli uni agli altri L altezza di un nodo nel dendogramma rappresenta la somiglianza dei due cluster figli

71 Il dendogramma Similarity threshold : 60% Similarity threshold : 70%

72 Euris;che Poichè non è possibile provare tuk i possibili alberi, è necessario definire delle euris;che per costruire il dendogramma Il clustering gerarchico è determinis;co e si okene in due modi: Bo>om- Up (Agglomera#ve): si parte mepeno ciascun oggepo nel proprio cluster, dopodicchè si cerca la migliore coppia e si crea un nuovo cluster. Si con;nua così fino ad arrivare a mepere tuk gli oggek in un unico cluster Top- Down (divisive): si parte mependo tuk gli oggek in un unico cluster, dopodicchè si considerano tupe le possibili strade per dividere il cluster in due. Si sceglie la migliore divisione e si con;nua ad operare in maniera ricorsiva su entrambe le par;zioni create

73 Agglomera;ve Hierarchical Clustering (1) 1. Calcola la distanza tra tuk i data point (geni o esperimen;) 2. Clusterizza i data point in cluster iniziali 3. Calcola la distanza tra tuk i cluster 4. Fondi le coppie di cluster più simili 5. Ripe; 3 e 4 finchè tuk gli elemen; non sono raggruppa; in un unico cluster

74 Agglomera;ve Hierarchical Clustering (2)

75 Varian; del AHC (1) Esistono diversi modi per determinare la somiglianza tra cluster complete-link -max dist.- single-link -min dist.- Group-average -avg dist.-

76 Varian; del AHC (2) Il clustering gerarchico agglomera;vo dipende molto dalla scelta della misura di somiglianza tra cluster Single linkage: distanza tra i meno distan; vicini Complete linkage: distanza tra i più distan; vicini Central linkage: distanza tra i centroidi Average linkage: distanza media tra tuk i pun; Single e Complete linkage usano distanze già calcolate, mentre l average linkage è il più onoreso

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis

Dettagli

Data mining e rischi aziendali

Data mining e rischi aziendali Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento

Dettagli

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Data Mining. Introduzione La crescente popolarità

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: similarità Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Definizioni preliminari

Dettagli

Università degli Studi Roma Tre - Corso di Laurea in Matema9ca. Corso di Laurea in Matema1ca Dipar9mento di Matema9ca e Fisica

Università degli Studi Roma Tre - Corso di Laurea in Matema9ca. Corso di Laurea in Matema1ca Dipar9mento di Matema9ca e Fisica Corso di Laurea in Matema1ca Dipar9mento di Matema9ca e Fisica Sistemi per l elaborazione delle informazioni 6. Data warehouse Dispense del corso IN530 prof. Marco Liverani Sistemi operazionali e informazionali

Dettagli

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it Data Mining Gabriella Trucco gabriella.trucco@unimi.it Perché fare data mining La quantità dei dati memorizzata su supporti informatici è in continuo aumento Pagine Web, sistemi di e-commerce Dati relativi

Dettagli

Uno standard per il processo KDD

Uno standard per il processo KDD Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo

Dettagli

SAP Business Objects XI R3.1

SAP Business Objects XI R3.1 SAP Business Objects XI R3.1 Sistemi Informa;vi Avanza; Anno Accademico 2012/2013 Corso di Laurea Magistrale in Ingegneria Ges3onale Reggio Emilia, 12 aprile 2013 UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO

Dettagli

KNOWLEDGE DISCOVERY E DATA MINING

KNOWLEDGE DISCOVERY E DATA MINING KNOWLEDGE DISCOVERY E DATA MINING Prof. Dipartimento di Elettronica e Informazione Politecnico di Milano LE TECNOLOGIE DI GESTIONE DELL INFORMAZIONE DATA WAREHOUSE SUPPORTO ALLE DECISIONI DATA MINING ANALISI

Dettagli

Sistemi Informativi Multimediali Indicizzazione multidimensionale

Sistemi Informativi Multimediali Indicizzazione multidimensionale Indicizzazione nei sistemi di IR (1) Sistemi Informativi Multimediali Indicizzazione multidimensionale ugusto elentano Università a Foscari Venezia La struttura fondamentale di un sistema di information

Dettagli

Data Mining e Analisi dei Dati

Data Mining e Analisi dei Dati e Analisi dei Dati Rosaria Lombardo Dipartimento di Economia, Seconda Università di Napoli La scienza che estrae utili informazioni da grandi databases è conosciuta come E una disciplina nuova che interseca

Dettagli

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Concetti preliminari: struttura del dataset negli

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Elementi di Statistica

Elementi di Statistica Elementi di Statistica Contenuti Contenuti di Statistica nel corso di Data Base Elementi di statistica descrittiva: media, moda, mediana, indici di dispersione Introduzione alle variabili casuali e alle

Dettagli

UNIVERSITA DEGLI STUDI DI PADOVA TESI DI LAUREA TRIENNALE

UNIVERSITA DEGLI STUDI DI PADOVA TESI DI LAUREA TRIENNALE UNIVERSITA DEGLI STUDI DI PADOVA FACOLTA DI SCIENZE STATISTICHE CORSO DI LAUREA IN STATISTICA E GESTIONE DELLE IMPRESE TESI DI LAUREA TRIENNALE Cluster Analysis per la segmentazione della clientela utilizzando

Dettagli

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni Data warehouse Data warehouse La crescita dell importanza dell analisi dei dati ha portato ad una separazione architetturale dell ambiente transazionale (OLTP on-line transaction processing) da quello

Dettagli

matematicamente.it Numero 9 Maggio 2009

matematicamente.it Numero 9 Maggio 2009 112. Data ining: esplorando le miniere alla ricerca della conoscenza nascosta Clustering con l algoritmo k-means di Gaetano Zazzaro 1 L uomo è confinato nei limiti angusti del corpo, come in una prigione,

Dettagli

Il DataMining. Susi Dulli dulli@math.unipd.it

Il DataMining. Susi Dulli dulli@math.unipd.it Il DataMining Susi Dulli dulli@math.unipd.it Il Data Mining Il Data Mining è il processo di scoperta di relazioni, pattern, ed informazioni precedentemente sconosciute e potenzialmente utili, all interno

Dettagli

Clustering. Cos è un analisi di clustering

Clustering. Cos è un analisi di clustering Clustering Salvatore Orlando Data Mining. - S. Orlando Cos è un analisi di clustering Cluster: collezione di oggetti/dati Simili rispetto a ciascun oggetto nello stesso cluster Dissimili rispetto agli

Dettagli

AIR MILES un case study di customer segmentation

AIR MILES un case study di customer segmentation AIR MILES un case study di customer segmentation Da: G. Saarenvirta, Mining customer data, DB2 magazine on line, 1998 http://www.db2mag.com/db_area/archives/1998/q3/ 98fsaar.shtml Customer clustering &

Dettagli

Tecniche di DM: Link analysis e Association discovery

Tecniche di DM: Link analysis e Association discovery Tecniche di DM: Link analysis e Association discovery Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Architettura di un generico algoritmo di DM. 2 2 Regole di associazione:

Dettagli

Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008

Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008 Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008 Dott. Chiara Cornalba COMUNICAZIONI La lezione del 30 ottobre è sospesa per missione all estero del Prof. Giudici. Dal 6 Novembre

Dettagli

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011 Data warehousing Introduzione A partire dagli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa lezione vedremo

Dettagli

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testuali Il text mining: una definizione Data mining per dati destrutturati ovvero documenti codificati in linguaggio

Dettagli

Lezione 8. Data Mining

Lezione 8. Data Mining Lezione 8 Data Mining Che cos'è il data mining? Data mining (knowledge discovery from data) Estrazione di pattern interessanti (non banali, impliciti, prima sconosciuti e potenzialmente utili) da enormi

Dettagli

Una miniera di dati sul comportamento degli utenti del Web

Una miniera di dati sul comportamento degli utenti del Web Una miniera di dati sul comportamento degli utenti del Web Organizzare le informazioni sull'utilizzo della rete in PostgreSQL utilizzando ht://miner, un sistema open-source di data mining e data warehousing

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Sistemi informazionali La crescente diffusione dei

Dettagli

Introduzione al Data Mining Parte 1

Introduzione al Data Mining Parte 1 Introduzione al Data Mining Parte 1 Corso di Laurea Specialistica in Ingegneria Informatica II Facoltà di Ingegneria, sede di Cesena (a.a. 2009/2010) Prof. Gianluca Moro Dipartimento di Elettronica, Informatica

Dettagli

Relazione sul data warehouse e sul data mining

Relazione sul data warehouse e sul data mining Relazione sul data warehouse e sul data mining INTRODUZIONE Inquadrando il sistema informativo aziendale automatizzato come costituito dall insieme delle risorse messe a disposizione della tecnologia,

Dettagli

Apprendimento Automatico

Apprendimento Automatico Metodologie per Sistemi Intelligenti Apprendimento Automatico Prof. Pier Luca Lanzi Laurea in Ingegneria Informatica Politecnico di Milano Polo regionale di Como Intelligenza Artificiale "making a machine

Dettagli

I sistemi informa-vi operazionali

I sistemi informa-vi operazionali I sistemi informa-vi operazionali Sistemi informativi aziendali struttura e applicazioni Cap.3, 4 e 5 - I sistemi operazionali di base: concetti generali Maurizio Pighin, Anna Marzona Finalità dei sistemi

Dettagli

Regressione non lineare con un modello neurale feedforward

Regressione non lineare con un modello neurale feedforward Reti Neurali Artificiali per lo studio del mercato Università degli studi di Brescia - Dipartimento di metodi quantitativi Marco Sandri (sandri.marco@gmail.com) Regressione non lineare con un modello neurale

Dettagli

Gestione della produzione e della supply chain Logistica distributiva. Paolo Detti Dipartimento di Ingegneria dell Informazione Università di Siena

Gestione della produzione e della supply chain Logistica distributiva. Paolo Detti Dipartimento di Ingegneria dell Informazione Università di Siena Gestione della produzione e della supply chain Logistica distributiva Paolo Detti Dipartimento di Ingegneria dell Informazione Università di Siena Problemi di Distribuzione: Il problema del Vehicle Rou:ng

Dettagli

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche DATA MINING datamining Data mining Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche Una materia interdisciplinare: - statistica, algoritmica, reti neurali

Dettagli

CPU Performance: Regressione multipla e Analisi Cluster in Matlab

CPU Performance: Regressione multipla e Analisi Cluster in Matlab CPU Performance: Regressione multipla e Analisi Cluster in Matlab Alberto Lusoli Abstract Il seguente documento, illustra le tecniche utilizzate nell analisi del dataset CPU Performance. Gli scopi dello

Dettagli

ESEMPIO: RITARDI & BIGLIETTI

ESEMPIO: RITARDI & BIGLIETTI ESEMPIO: RITARDI & BIGLIETTI Fatto Ritardi: l analisi a livello volo giornaliero, considerando l aeroporto di partenza, la città e lo stato di arrivo e la compagnia Fatto Biglietti: l analisi deve considerare

Dettagli

LA RICERCA NEI SOCIAL MEDIA

LA RICERCA NEI SOCIAL MEDIA LA RICERCA NEI SOCIAL MEDIA La RICERCA è fondamentale per prendere decisioni e individaure linee strategiche per gli operatori di marke>ng. Cosa monitorare? Tu/o ciò che è PUBBLICO Da# Primari: metodi

Dettagli

Di testi ed immagini

Di testi ed immagini Università Cattolica del Sacro Cuore - Brescia 23/5/2005 Parte I: Richiami di algebra lineare Parte II: Applicazioni Sommario della Parte I 1 Diagonalizzabilità di una matrice Autovalori ed autovettori

Dettagli

Introduzione al Datamining. Francesco Passantino francesco@iteam5.net www.iteam5.net/francesco

Introduzione al Datamining. Francesco Passantino francesco@iteam5.net www.iteam5.net/francesco Introduzione al Datamining Francesco Passantino francesco@iteam5net wwwiteam5net/francesco Cos è il datamining Processo di selezione, esplorazione e modellazione di grandi masse di dati, al fine di scoprire

Dettagli

Suggerimenti per l approccio all analisi dei dati multivariati

Suggerimenti per l approccio all analisi dei dati multivariati Suggerimenti per l approccio all analisi dei dati multivariati Definizione degli obbiettivi Il primo passo è la definizione degli obbiettivi. Qual è l obbiettivo della sperimentazione i cui dati dovete

Dettagli

Data Warehousing e Data Mining

Data Warehousing e Data Mining Università degli Studi di Firenze Dipartimento di Sistemi e Informatica A.A. 2011-2012 I primi passi Data Warehousing e Data Mining Parte 2 Docente: Alessandro Gori a.gori@unifi.it OLTP vs. OLAP OLTP vs.

Dettagli

Introduzione a data warehousing e OLAP

Introduzione a data warehousing e OLAP Corso di informatica Introduzione a data warehousing e OLAP La Value chain Information X vive in Z S ha Y anni X ed S hanno traslocato Data W ha del denaro in Z Stile di vita Punto di vendita Dati demografici

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

Introduzione al Data Mining

Introduzione al Data Mining Introduzione al Data Mining Sistemi informativi per le Decisioni Slide a cura di Prof. Claudio Sartori Evoluzione della tecnologia dell informazione (IT) (Han & Kamber, 2001) Percorso evolutivo iniziato

Dettagli

IL VALORE DEL CLIENTE NELLA GESTIONE DEI PROCESSI AZIENDALI. Ing. Andrea Giaconi

IL VALORE DEL CLIENTE NELLA GESTIONE DEI PROCESSI AZIENDALI. Ing. Andrea Giaconi IL VALORE DEL CLIENTE NELLA GESTIONE DEI PROCESSI AZIENDALI Ing. Andrea Giaconi Il cliente chi è? È il giudice ul=mo della mia impresa Stringe relazioni Il suo comportamento varia nel tempo Per ges=rlo

Dettagli

ESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI. (Visione 3D)

ESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI. (Visione 3D) ESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI () Calcolo delle corrispondenze Affrontiamo il problema centrale della visione stereo, cioè la ricerca automatica di punti corrispondenti tra immagini Chiamiamo

Dettagli

REALIZZARE UN MODELLO DI IMPRESA

REALIZZARE UN MODELLO DI IMPRESA REALIZZARE UN MODELLO DI IMPRESA - organizzare e gestire l insieme delle attività, utilizzando una piattaforma per la gestione aziendale: integrata, completa, flessibile, coerente e con un grado di complessità

Dettagli

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale Esperienze di Apprendimento Automatico per il corso di lippi@dsi.unifi.it Dipartimento Sistemi e Informatica Università di Firenze Dipartimento Ingegneria dell Informazione Università di Siena Introduzione

Dettagli

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining Dipartimento di Informatica e Sistemistica I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining Renato Bruni bruni@dis.uniroma1.it Antonio Sassano sassano@dis.uniroma1.it

Dettagli

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE Arricchimento dei dati del sottoscrittore / user Approccio Tradizionale Raccolta dei dati personali tramite contratto (professione, dati sul nucleo familiare, livello

Dettagli

Informatica Documentale

Informatica Documentale Informatica Documentale Ivan Scagnetto (scagnett@dimi.uniud.it) Stanza 3, Nodo Sud Dipartimento di Matematica e Informatica Via delle Scienze, n. 206 33100 Udine Tel. 0432 558451 Ricevimento: giovedì,

Dettagli

La cartella web del dolore cronico non oncologico. Do#. Marco Viscon. Presidente Commissione Informa.ca ANCoM

La cartella web del dolore cronico non oncologico. Do#. Marco Viscon. Presidente Commissione Informa.ca ANCoM La cartella web del dolore cronico non oncologico Do#. Marco Viscon. Presidente Commissione Informa.ca ANCoM Il proge#o IMPACT prevede da parte dei Medici di Famiglia la registrazione di un set di da.

Dettagli

ANALISI DEI DATI BIOLOGICI

ANALISI DEI DATI BIOLOGICI ANALISI DI DATI BIOLOGICI RAPPRSNTAR L COMUNITA tramite descrizioni grafiche e relazioni tra gli organismi presenti nei vari campioni. DISCRIMINAR dei siti sulla base della loro composizione biologica.

Dettagli

Tecniche di Simulazione: Introduzione. N. Del Buono:

Tecniche di Simulazione: Introduzione. N. Del Buono: Tecniche di Simulazione: Introduzione N. Del Buono: 2 Che cosa è la simulazione La SIMULAZIONE dovrebbe essere considerata una forma di COGNIZIONE (COGNIZIONE qualunque azione o processo per acquisire

Dettagli

Filomena Maggino, L analisi dei dati nell indagine statistica. Volume 2: l esplorazione dei dati e la validazione dei risultati, ISBN: 88-8453-351-1

Filomena Maggino, L analisi dei dati nell indagine statistica. Volume 2: l esplorazione dei dati e la validazione dei risultati, ISBN: 88-8453-351-1 Filomena Maggino, L analisi dei dati nell indagine statistica. Volume 2: l esplorazione dei dati e la validazione dei risultati, ISBN: 88-8453-351-1 (print) ISBN: 88-8453-350-3 (online), Firenze University

Dettagli

Esplorazione dei dati

Esplorazione dei dati Esplorazione dei dati Introduzione L analisi esplorativa dei dati evidenzia, tramite grafici ed indicatori sintetici, le caratteristiche di ciascun attributo presente in un dataset. Il processo di esplorazione

Dettagli

Data Mining a.a. 2010-2011

Data Mining a.a. 2010-2011 Data Mining a.a. 2010-2011 Docente: mario.guarracino@cnr.it tel. 081 6139519 http://www.na.icar.cnr.it/~mariog Informazioni logistiche Orario delle lezioni A partire dall 19.10.2010, Martedì h: 09.50 16.00

Dettagli

Data warehouse Introduzione

Data warehouse Introduzione Database and data mining group, Data warehouse Introduzione INTRODUZIONE - 1 Pag. 1 Database and data mining group, Supporto alle decisioni aziendali La maggior parte delle aziende dispone di enormi basi

Dettagli

Costruzione di Modelli Previsionali

Costruzione di Modelli Previsionali Metodologie per Sistemi Intelligenti Costruzione di Modelli Previsionali Ing. Igor Rossini Laurea in Ingegneria Informatica Politecnico di Milano Polo Regionale di Como Agenda Knowledge discovery in database

Dettagli

Cluster gerarchica. Capitolo

Cluster gerarchica. Capitolo Cluster gerarchica Capitolo 33 Questa procedura consente di identificare gruppi di casi relativamente omogenei in base alle caratteristiche selezionate, utilizzando un algoritmo che inizia con ciascun

Dettagli

Mission. Affidabilità Imprese. Supporto Rintraccio Ra?ng /Scoring Report /Dossier Integra?

Mission. Affidabilità Imprese. Supporto Rintraccio Ra?ng /Scoring Report /Dossier Integra? Mission Nata nel 2001 per soddifsfare le esigenze delle agenzia di informazioni commerciali e dei distributori ufficiali di InfoCamere, oggi la suite DataBrain è u?lizzata sia in contes? di analisi di

Dettagli

La tariffazione nel ramo RCA: opera4vita della compagnia e modalita di verifica dell AIRCA, in base alla norma4va vigente

La tariffazione nel ramo RCA: opera4vita della compagnia e modalita di verifica dell AIRCA, in base alla norma4va vigente La tariffazione nel ramo RCA: opera4vita della compagnia e modalita di verifica dell AIRCA, in base alla norma4va vigente Roma, giovedi 13 novembre 2014 dof. Giovanni Sammar4ni, dof.ssa Franca Forster,

Dettagli

Data Warehousing (DW)

Data Warehousing (DW) Data Warehousing (DW) Il Data Warehousing è un processo per estrarre e integrare dati storici da sistemi transazionali (OLTP) diversi e disomogenei, e da usare come supporto al sistema di decisione aziendale

Dettagli

Cluster Analysis. Paese Cereali (Ce) Riso (R) Patate (P) Zucchero (Z) Verdure (Ver) Vino (Vi) Carne (Ca) Latte (L) Burro (B) Uova (U)

Cluster Analysis. Paese Cereali (Ce) Riso (R) Patate (P) Zucchero (Z) Verdure (Ver) Vino (Vi) Carne (Ca) Latte (L) Burro (B) Uova (U) Analysis Esempio Stiamo studiando le abitudini alimentari nei Paesi europei. Sulla base dei dati a disposizione, ci chiediamo se si possano individuare sotto-aree con abitudini alimentari simili. Dati:

Dettagli

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence Introduzione Definizione di Business Intelligence: insieme di processi per raccogliere

Dettagli

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo Distributed P2P Data Mining Autore: (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo A.A. 2005/2006 Il settore del Data Mining Distribuito (DDM): Data Mining: cuore del processo

Dettagli

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Obiettivi. Presentare l evoluzione dei sistemi informativi: da supporto alla operatività a supporto al momento decisionale Definire

Dettagli

Il Clustering. 13.1 Introduzione al Clustering

Il Clustering. 13.1 Introduzione al Clustering 13 Il Clustering In questo capitolo illustreremo quel task di Data Mining noto come clustering. Il capitolo si apre con una introduzione al clustering; successivamente vengono esaminati i tipi di dati

Dettagli

Introduzione alla Business Intelligence

Introduzione alla Business Intelligence SOMMARIO 1. DEFINIZIONE DI BUSINESS INTELLIGENCE...3 2. FINALITA DELLA BUSINESS INTELLIGENCE...4 3. DESTINATARI DELLA BUSINESS INTELLIGENCE...5 4. GLOSSARIO...7 BIM 3.1 Introduzione alla Pag. 2/ 9 1.DEFINIZIONE

Dettagli

ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet

ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet Gabriele Bartolini Comune di Prato Sistema Informativo Servizi di E-government

Dettagli

I sistemi di reporting e i rapporti direzionali

I sistemi di reporting e i rapporti direzionali I sistemi di reporting e i rapporti direzionali Reporting - Sintesi dei fenomeni aziendali secondo modelli preconfezionati e con frequenza e aggiornamento prestabiliti - contabile (dati economici) - extracontabile

Dettagli

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse Introduzione data warehose Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa Data Warehouse Che cosa e un data warehouse? Quali sono i modelli dei dati per data warehouse Come si progetta

Dettagli

Data Mining: Applicazioni

Data Mining: Applicazioni Sistemi Informativi Universitá degli Studi di Milano Facoltá di Scienze Matematiche, Fisiche e Naturali Dipartimento di Tecnologie dell Informazione 1 Giugno 2007 Data Mining Perché il Data Mining Il Data

Dettagli

Data Mining. KDD e Data Mining - Introduzione (1)

Data Mining. KDD e Data Mining - Introduzione (1) 1 Data Mining Corso di Metodi e Modelli per il Supporto alle Decisioni a.a. 2002-03 2 KDD e Data Mining - Introduzione (1) Crescita notevole degli strumenti e delle tecniche per generare e raccogliere

Dettagli

Analisi fattoriale. esplorativa vers. 1.0. Germano Rossi 1 germano.rossi@unimib.it. 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Analisi fattoriale. esplorativa vers. 1.0. Germano Rossi 1 germano.rossi@unimib.it. 1 Dipartimento di Psicologia, Università di Milano-Bicocca Analisi fattoriale esplorativa vers. 1.0 Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2009 Rossi (Dip. Psicologia) Analisi fattoriale 2009 1 / 47 Prima

Dettagli

MANUALE INTRODUTTIVO

MANUALE INTRODUTTIVO MANUALE INTRODUTTIVO Scaricamento da internet e installazione Fenice è liberamente disponibile su internet, all indirizzo h#p://www.fenicex.it/downloads.html, cliccando sul pulsante Download posto sulla

Dettagli

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Data warehousing Introduzione A partire dalla metà degli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa

Dettagli

Tecnopolis CSATA s.c.r.l. APQ in Materia di Ricerca Scientifica nella Regione Puglia

Tecnopolis CSATA s.c.r.l. APQ in Materia di Ricerca Scientifica nella Regione Puglia BANDO ACQUISIZIONI Prodotti Software ALLEGATO 6.1 Capitolato Tecnico Ambiente di Business Intelligence Allegato 6.1: capitolato tecnico Pag. 1 1 La piattaforma di Business Intelligence L informazione è

Dettagli

Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di laurea specialistica in INFORMATICA

Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di laurea specialistica in INFORMATICA Università degli Studi di Perugia Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di laurea specialistica in INFORMATICA Basi di Dati Avanzate e Tecniche di Data Mining Prof. G. Cecconi, Prof.

Dettagli

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali. Sistemi Informativi Aziendali DIPARTIMENTO DI INGEGNERIA INFORMATICA AUTOMATICA E GESTIONALE ANTONIO RUBERTI Introduzione al Data Warehousing per a. Modello Multidimensionale & OLAP 1 Cos è il Data Warehousing Collezione di metodi,

Dettagli

Introduzione al Data Mining

Introduzione al Data Mining Introduzione al Data Mining Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Modalità didattiche e materiale Lezioni in aula e in laboratorio utilizzando il software open source Weka

Dettagli

Sistemi informativi aziendali

Sistemi informativi aziendali Sistemi informativi aziendali Lezione 12 prof. Monica Palmirani Sistemi informativi e informatici Sistemi informativi = informazioni+processi+comunicazione+persone Sistemi informatici = informazioni+hardware+software

Dettagli

IBM SPSS Direct Marketing 19

IBM SPSS Direct Marketing 19 IBM SPSS Direct Marketing 19 Note: Before using this information and the product it supports, read the general information under Notices a pag. 111. This document contains proprietary information of SPSS

Dettagli

Pivot è bello. Principali. misure di variabilità. Il contesto è di tipo matematico, in particolare riguarda l uso di dati numerici e delle loro

Pivot è bello. Principali. misure di variabilità. Il contesto è di tipo matematico, in particolare riguarda l uso di dati numerici e delle loro Pivot è bello Livello scolare: 1 biennio Abilità Conoscenze interessate Predisporre la struttura della Distribuzioni delle matrice dei dati grezzi con frequenze a seconda del riguardo a una rilevazione

Dettagli

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE STATISTICA DESCRITTIVA SCHEDA N. : REGRESSIONE LINEARE Nella Scheda precedente abbiamo visto che il coefficiente di correlazione fra due variabili quantitative X e Y fornisce informazioni sull esistenza

Dettagli

DATA MINING IN TIME SERIES

DATA MINING IN TIME SERIES Modellistica e controllo dei sistemi ambientali DATA MINING IN TIME SERIES 01 Dicembre 2009 Dott. Ing.. Roberto Di Salvo Dipartimento di Ingegneria Elettrica Elettronica e dei Sistemi Anno Accademico 2009-2010

Dettagli

Intelligenza Artificiale

Intelligenza Artificiale Intelligenza Artificiale Anno accademico 2008-2009 Information Retrieval: Text Categorization Una definizione formale Sia D il dominio dei documenti Sia C = {c 1,,c C } un insieme di categorie predefinite

Dettagli

TECNICHE DI COMPRESSIONE DATI

TECNICHE DI COMPRESSIONE DATI TECNICHE DI COMPRESSIONE DATI COMPRESSIONE DATI La compressione produce una rappresentazione più compatta delle informazioni è come se si usassero meno parole per dire la stessa cosa in modo diverso. Esistono

Dettagli

Ingegneria dei Requisiti

Ingegneria dei Requisiti Corso di Laurea Specialistica in Ingegneria Informatica Corso di Ingegneria del Software A. A. 2008 - Ingegneria dei Requisiti E. TINELLI Contenuti I requisiti del software Documento dei requisiti I processi

Dettagli

Il linguaggio SQL. Evoluzione del linguaggio. I linguaggi dentro SQL. I dialeu SQL. U@lizzo di SQL SQL. A. Ferrari 1

Il linguaggio SQL. Evoluzione del linguaggio. I linguaggi dentro SQL. I dialeu SQL. U@lizzo di SQL SQL. A. Ferrari 1 Il linguaggio SQL Structured Query Language SQL è un linguaggio di interrogazione per database proge

Dettagli

Statistical learning Strumenti quantitativi per la gestione

Statistical learning Strumenti quantitativi per la gestione Statistical learning Strumenti quantitativi per la gestione Emanuele Taufer Vendite Simbologia Reddito Statistical learning A cosa ci serve f? 1 Previsione 2 Inferenza Previsione Errore riducibile e errore

Dettagli

MASTER UNIVERSITARIO

MASTER UNIVERSITARIO MASTER UNIVERSITARIO Analisi Dati per la Business Intelligence In collaborazione con II edizione 2013/2014 Dipartimento di Culture, Politica e Società Dipartimento di Informatica gestito da aggiornato

Dettagli

Excel Terza parte. Excel 2003

Excel Terza parte. Excel 2003 Excel Terza parte Excel 2003 TABELLA PIVOT Selezioniamo tutti i dati (con le relative etichette) Dati Rapporto tabella pivot e grafico pivot Fine 2 La tabella pivot viene messa di default in una pagina

Dettagli

Esercizi di Ricerca Operativa I

Esercizi di Ricerca Operativa I Esercizi di Ricerca Operativa I Dario Bauso, Raffaele Pesenti May 10, 2006 Domande Programmazione lineare intera 1. Gli algoritmi per la programmazione lineare continua possono essere usati per la soluzione

Dettagli

L inves(gazione digitale

L inves(gazione digitale L inves(gazione digitale Metodologie di intervento nei casi di incidente informa(co aziendale, come acquisire, preservare e documentare la fonte di prova. Chi sono Ø Digital Forensics Expert. Ø IscriBo

Dettagli

Sistemi Informativi La Modellazione Dimensionale dei Fatti. Obiettivi Concetti Base Operazioni OLAP DFM Casi Modellazione Logica Esercizi

Sistemi Informativi La Modellazione Dimensionale dei Fatti. Obiettivi Concetti Base Operazioni OLAP DFM Casi Modellazione Logica Esercizi Sistemi Informativi La Modellazione Dimensionale dei Fatti Obiettivi Concetti Base Operazioni OLAP DFM Casi Modellazione Logica Esercizi Obiettivi Nelle lezioni precedenti abbiamo modellato i processi

Dettagli

Product Overview. ITI Apps Enterprise apps for mobile devices

Product Overview. ITI Apps Enterprise apps for mobile devices Product Overview ITI Apps Enterprise apps for mobile devices ITI idea, proge2a e sviluppa apps per gli uten6 business/enterprise che nell ipad, e nelle altre pia2aforme mobili, possono trovare un device

Dettagli

Elaborazione dati in Analisi Sensoriale

Elaborazione dati in Analisi Sensoriale Elaborazione dati in Analisi Sensoriale Si è parlato di interpretazione corretta dei risultati ottenuti; a questo concorrono due fattori: affidabilità e validità. Se i test fossero stati ripetuti con lo

Dettagli

CB Renana. Assicurare lo scolo acque. Assicurare la difesa del suolo. Tutelare le risorse idriche e naturali

CB Renana. Assicurare lo scolo acque. Assicurare la difesa del suolo. Tutelare le risorse idriche e naturali Ing. Ilihc Ghinello Resp. Settore Impianti Ing. Elisabetta Giusti Solution Development e.giusti@acmotec.com Telecontrollo Made in Italy: a step forward for a better life, Milano 29-30 settembre 2015 CB

Dettagli