KNOWLEDGE DATA DISCOVERY

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "KNOWLEDGE DATA DISCOVERY"

Transcript

1 KNOWLEDGE DATA DISCOVERY Corso di Bionforma;ca Corso di Laurea in Scienze Biologiche Prof. R. Oliveto - A.A. 2011/2012

2 Introduzione L informazione è un bene a valore crescente, necessario per pianificare e controllare akvità produkve: Cos;tuisce la materia prima che viene trasformata dai sistemi informa;vi Come è noto ai Web navigator l equazione da# = informazione non è sempre correpa Spesso la disponibilità di troppi da; rende arduo, se non impossibile, estrarre informazioni significa;ve Sistemi per l estrazione, l analisi e l organizzazione automa;ca di queste enormi moli di da; possono fornire un supporto nei processi decisionali umani Sistemi di Supporto alle Decisioni (DSS)

3 Sistemi di Supporto alle Decisioni Nascono a seguito dell enorme accumulo di da; registrato nell ul;mo ventennio in forma elepronica, e dalla pressante richiesta di u;lizzo di tali da; per scopi che superano quelli lega; all elaborazione giornaliera Aiutano il decisore umano sia nelle decisioni opera;ve, sia nelle decisioni strategiche, a più lungo termine ed a più ampio respiro

4 Applicazioni L u;lizzo dei DSS non è ristrepo in ambito aziendale e d impresa Spazia dall area medico- epidemiologica a quella demografica, dalle scienze naturali alla didakca CaraPeris;ca comune ai diversi ambi; è la necessità di strumen; di archiviazione e di interrogazione, per openere, dall enorme quan;tà di da; contenu; nei database o resi disponibili da Internet Informazioni di sintesi che permepano la valutazione di un fenomeno La scoperta di correlazioni significa;ve L acquisizione di conoscenza u;le a stabilire una strategia decisionale

5 Un po di storia (1) La funzione svolta dalle basi di da; in ambito aziendale è stata, fino a tempi recen;, quella di memorizzare da; operazionali, ossia da; genera; da operazioni, in genere di carapere amministra;vo, svolte all interno dei processi ges;onali (ges;one acquis;, ges;one vendite, fapurazione) TuPavia, per ogni azienda, è fondamentale poter disporre in maniera rapida e completa delle informazioni necessarie al processo decisionale: le indicazioni strategiche sono estrapolate dalla mole dei da; operazionali, apraverso un procedimento di selezione e sintesi progressiva

6 Un po di storia (2) L aumento esponenziale del volume dei da; operazionali ha reso il calcolatore l unico supporto adapo al processo decisionale Il ruolo delle basi di da; è sensibilmente cambiato, dalla fine degli anni `80, con la nascita dei DSS Nasce il data warehouse: una raccolta di da; integrata, subject oriented, variabile nel tempo e non vola#le di supporto ai processi decisionali

7 Integrazione Data Warehouse (1) Nel data warehouse confluiscono da; provenien; da più sistemi transazionali e da fon; esterne L obiekvo dell integrazione viene raggiunto mediante l u;lizzo di metodi di codifica uniformi Orientamento al sogge>o I da; vengono archivia; per poter essere facilmente reperi; ed analizza; dagli uten; Non si mira a minimizzare la ridondanza, ma piuposto a fornire da; che abbiano una strupura in grado di favorire la produzione di informazioni

8 Data Warehouse (2) Variabilità nel tempo Nel DW sono contenute informazioni rela;ve alle aree di interesse che colgono la situazione rela;va ad un dato fenomeno in un determinato intervallo temporale (generalmente antecedente all interrogazione) Non vola#lità Non modificabilità dei da; contenu; nel DW, che consente accessi in sola lepura Semplicità di progepazione: non si ricorre a strumen; complessi per ges;re l integrità referenziale o per bloccare record cui possono accedere più uten; in fase di aggiornamento

9 Sistema informa;vo vs. DSS Un sistema informa#vo converte da; in informazioni, ed ha lo scopo di collezionare, trasformare e distribuire informazione (e.g., search engine) Un sistema di supporto alle decisioni è un sistema informa;vo intelligente che aiuta l utente a prendere decisioni, senza sos;tuirsi ad esso

10 Vantaggi dei DSS Il DSS, apraverso procedure interabve, fornisce al decisore: la disponibilità di tupe le informazioni necessarie per la comprensione del problema la possibilità di esplorare i da; secondo diversi pun; di vista, in base alle esigenze dello stesso utente la possibilità di valutare gli scenari conseguen; alle scelte compiute I DSS si adapano al trapamento di problemi strupura; o semistrupura;, per i quali non è possibile fornire una soluzione algoritmica

11 Problema;che Tra le problema;che da affrontare per la realizzazione di un sistema di supporto alle decisioni ricordiamo la necessità di... ges;re grandi moli di da; accedere a diverse fon; di da; su piapaforme eterogenee garan;re l accesso a più uten; con compi; differenzia; per interrogazioni, analisi in tempo reale e simulazioni ges;re versioni storiche dei da;

12 ObieKvi di un DSS PermePere l estrazione di informazione da grandi database, in tempi brevi ed in modo flessibile, per supportare e migliorare il processo decisionale Necessità di separare i da; genera; dalle operazioni di ges;one (opera#onal database) dai da; u;li ai processi decisionali (data warehouse) Data warehouse con;ene un sopoinsieme dei da; mantenu; nell opera;onal database, okmizzato per analisi focalizzate ai processi decisionali Nell opera;onal database e nel data warehouse i da; sono memorizza; a livelli diversi di aggregazione Capacità di analisi dei da; contenu; nel data warehouse in tempo reale e da diversi pun; di vista

13 Riassumendo... Pertanto, il DW con;ene i da; necessari ai processi decisionali L opera;onal database è aggiornato costantemente: deve fotografare l istante corrente Il DW con;ene i da; aggrega; in par;colari istan; di tempo (es. da; sekmanali, mensili, trimestrali) Nel DW, i da; che provengono dall opera;onal database devono essere integra; con i da; rela;vi all ambiente esterno (che condizionano il processo decisionale) Il DW è una sorta di storico che raccoglie istantanee significa;ve dell opera;onal database, o meglio è una collezione di metodi, tecnologie e strumen; di ausilio al knowledge worker (amministratore, gestore, analista, dirigente) per condurre analisi dei da; finalizzate all apuazione di processi decisionali e al miglioramento del patrimonio informa;vo

14 Knowledge Data Discovery (1) Il processo KDD prevede in input da; grezzi e fornisce in output informazioni u;li openute apraverso diverse fasi

15 Knowledge Data Discovery (2) Gli stadi che caraperizzano un processo KDD sono sta; iden;fica; da Fayyad, Piatetsky- Shapiro, Smyth e Uthurusamy (1996) Nell elencare e descrivere le fasi del KDD, tale ricerca ha posto par;colare accento sulla fase di Data Mining (DM), cioè sulle tecniche per l esplorazione e lo studio dei da; Il DM è ritenuta la fase più importante dell intero processo KDD e tale importanza rende sempre più difficile, soprapupo in termini pra;ci, dis;nguere il processo KDD dal DM

16 Selezione I da; grezzi (raw data) vengono segmenta; e seleziona; secondo criteri predefini;, per pervenire ad un sopoinsieme di da; che rappresentano i target data o da; obiekvo Il database operazionale può contenere informazioni inu;li per il problema specifico Esempio: se l obiekvo è lo studio delle associazioni tra i prodok di una catena di supermerca;, non ha senso conservare i da; rela;vi alla professione dei clien;; tali da; potrebbero invece fornire informazioni d interesse rela;ve al comportamento di determinate fasce di clien;, per effepuare un analisi discriminante

17 Pre- processing Spesso, pur avendo a disposizione i da; obiekvo non è conveniente, né necessario, analizzarne l intero contenuto Occorre prima campionare le tabelle e, successivamente, effepuare un analisi su base campionaria Fa inoltre parte dello stadio di preprocessing la fase di pulizia dei da;, o data cleaning, che prevede l eliminazione dei possibili errori e la definizione dei meccanismi di comportamento in caso di da; mancan;

18 Trasformazione dei da; Dopo il preprocessing, i da;, per essere u;lizzabili, devono essere trasforma; Si possono effepuare conversioni di ;po o definizioni di nuovi da; openu; apraverso l uso di operazioni matema;che e logiche sulle variabili Inoltre, quando i da; provengono da fon; diverse, è necessario codificarli omogeneamente, per garan;rne la consistenza

19 Data Mining Ai da; trasforma; vengono applicate tecniche per l estrazione di informazione non banale I ;pi di da; a disposizione e gli obiekvi da raggiungere indicano implicitamente il ;po di algoritmo DM da scegliere Il processo KDD è: InteraBvo, presuppone infak un dialogo costante tra l utente e il sonware u;lizzato Itera#vo, nel senso che la fase di DM può prevedere un ulteriore trasformazione dei da; originali o un ulteriore pulizia dei da;, ovvero una riesecuzione delle fasi preliminari

20 Interpretazione e valutazione Il DM crea dei papern, ovvero dei modelli, che possono cos;tuire un valido supporto alle decisioni Non è sufficiente, tupavia, interpretare i risulta; openu;, ma occorre u;lizzarli per validare i modelli (da; e algoritmi) È dunque possibile, alla luce di risulta; non perfepamente soddisfacen;, intervenire (in maniera sia adakva sia perfekva) su una o più fasi del processo KDD

21 Regole derivate Le relazioni scoperte sono valide se valgono, con un grado di certezza prefissato, anche su da; diversi da quelli usa; per la scoperta delle stesse Individuare un grado di certezza è essenziale per stabilire quanta fiducia si può riporre nel sistema e nella relazione estrapa Le relazioni scoperte devono essere nuove almeno per il sistema, devono cioè aumentare la conoscenza necessaria ad affrontare il problema decisionale Le relazioni dovrebbero potenzialmente condurre a delle azioni u#li Per esempio, la scoperta di una dipendenza fra ar;coli acquista; da uno stesso cliente in un supermercato potrebbe akvare opportune strategie di marke;ng I papern devono essere comprensibili agli uten; per facilitare una migliore conoscenza dei fak coinvol; Poiché è difficile misurare la comprensibilità di un papern spesso si ricorre a misure surrogate di semplicità sintakca/seman;ca

22 Esempio di DM Mancato pagamento Pagamento avvenuto regolarmente 10 Prestito Stipendio

23 Esempio di DM Mancato pagamento Pagamento avvenuto regolarmente 10 Prestito IF Stipendio < 10 THEN Mancato Pagamento Stipendio

24 Tecniche di DM (1) La scelta del par;colare algoritmo di data mining dipende dall obiekvo da raggiungere e dal ;po di da; da analizzare Regole di associazione Classificazione Clustering Similarity search

25 Tecniche di DM (1) Le tecniche di analisi delle associazioni consentono di individuare regole nelle occorrenze concomitan; di due o più even; Le tecniche di clustering e le re; neurali non supervisionate consentono il raggruppamento di da;, cioè l individuazione di gruppi omogenei, che presentano delle regolarità al loro interno, in grado di caraperizzarli e differenziarli dagli altri gruppi Le re# neurali supervisionate, le support vector machine e gli alberi di decisione consentono di effepuare operazioni di classificazione, fanno cioè uso della conoscenza acquisita in fase di addestramento per classificare nuovi oggek o prevedere nuovi even; Le tecniche di similarity search consentono, data un base di da; di sequenze temporali o oggek, di determinare sequenze/oggek simili ad una sequenza/oggepo data/o, o tupe le coppie di sequenze/oggek simili

26 Applicazioni del DM (1) Indagini di mercato (Database Marke#ng): applicazione di tecniche di clustering per individuare gruppi omogenei in termini di comportamento d acquisto e di caraperis;che sociodemografiche; l individuazione delle diverse ;pologie di clien;......permepe di effepuare campagne di marke;ng mirate e di valutarne gli effek...permepe di openere indicazioni su come modificare la propria offerta...rende possibile monitorare nel tempo l evoluzione della propria clientela e l emergenza di nuove ;pologie Analisi testuale (Text Mining): applicazione di tecniche di clustering per individuare gruppi omogenei di documen; in termini di argomento trapato; consente di accedere più velocemente all argomento di interesse e di individuarne i legami con argomen; correla;

27 Applicazioni del DM (2) Analisi del paniere (Basket Analysis): applicazione di tecniche di individuazione di associazioni a da; di vendita per conoscere quali prodok vengono acquista; congiuntamente Consente di migliorare l offerta dei prodok (disposizione sugli scaffali) e di incrementare le vendite di par;colari prodok tramite offerte su generi associa; Technology Watch (Compe##ve Intelligence): applicazione di tecniche di clustering a banche da; di ;po tecnicoscien;fico al fine di individuare i gruppi tema;ci principali, le loro relazioni, l evoluzione temporale, le persone o le aziende coinvolte

28 CLUSTERING ANALYSIS Knowledge Data Discovery Prof. R. Oliveto - A.A. 2011/2012

29 Cos è la clustering analysis Clustering: l azione che mira a raggruppare oggek simili in insiemi In generale, un problema di clustering consiste nel trovare il par;zionamento okmo dei da; in K cluster (esclusivi)

30 Perchè è u;le in Bionforma;ca Ecologia delle piante e degli animali E usata per descrivere e effepurare comparazioni spaziali e temporali di comunità di organismi in ambien; eterogenei. Trascri>omica E usata per costruire gruppi di geni con papern espressivi collega; (coexpressed genes). Spesso tali gruppi contengono proteine dipenden; dal punto di vista funzionale, quali enzimi per uno specifico sen;ero metabolico. Analisi delle sequenze E usata per raggruppare sequenze omologhe in famiglie di geni. ConcePo fondamentale in bioinforma;ca, e biologia evolu;va in generale. Huma Gene#c Clustering La somiglianza tra data gene;ci è usata per clusterizzare e quindi inferire strupure delle popolazioni.

31 Esempio (1) DNA Chips/Microarrays Consentono di misurare il levello espressivo di un numero elva;ssimo di geni all interno di diversi condizioni/campioni sperimentali Il campionamento può essere effepuato considerando Diversi istan; temporali Diverse condizioni ambientali Diversi organismi Tessu; sani e affek da cancro Diversi individui

32 Esempio (2) Microarray data (gene expression data) sono rappresenta; apraverso una matrice, dove Ciascun gene corrisponde ad una riga Ciascuna condizione sperimentale corrisponde ad una colonna Il generico elemento (i,j) della matrice rappresenta il livello espressivo del gene i nella condizione sperimentale j Generalemente è un numero reale che rappresenta il logoritmo del valore dell mrna del gene sopo par;colari condizioni sperimentali

33 Clustering (1) Un problema di clustering può essere visto come una classificazione non supervisionata A tal proposito il clustering è appropriato quando non c è alcuna conoscenza dei da; Assenza di label: necessario classificare i dati Exp. e1 e2 e3 e4 L g ? g2? Genes g3? g4? g5? Exp. Genes g1 g2 g3 g4 g5 L e1 0.76? e2 3.2? e3? e4-0.45? Il clustering è una metodologia di analisi dei da; molto usato al fine di verificare ipotesi intui;ve rela;ve a grandi basi di da; effepuare un pre- processing dei da; per prepararli ad analisi successive (e.g., iden;ficazione di geni predipori per la classificazione di tumori) iden;ficare biomarker (i.e., indicatore di uno stato biologico)

34 Clustering (2) Il clustering è soggettivo Le label sono determinate da un umano I Simpson Impiegati Donne Maschi Il clustering dipende da una misura di somiglianza (relational criterion) che sarà espresso attraverso una funzione di distanza 7

35 Il clustering può essere effepuato su ogni ;po di da; Geni, campioni, ;me points in una ;me series, etc. Gli algoritmi di clustering traperanno tuk gli input come un set di n numeri o come un vepore n- dimensionale Il clustering consente di esplorare da; in maniera efficace La visualizzazione dei da; può aiutare a controllare la qualità dei da; Clustering (3) Si basa sull assunzione Guilt by associa#on Geni che hanno simili papern espressivi possono indicare una relazione biologica

36 Il Clustering e la Biologia In trascri>omica, il clustering è usato per costruire gruppi di geni con papern espressivi (osserva; in diversi esperimen;) tra loro collega; (co- expressed genes) Nell analisi delle sequenze, il clustering è usato per raggruppare sequenze omologhe in famiglie di geni Nella diagnosi di tumori e trapamen;: Iden;ficare nuove classi di campioni biologici (e.g., sopo;pi di tumori) TraPamen; individuali Lo stesso ;po di tumore (in diversi pazien;) non necessariamente risponde allo stesso modo alla terapia NCI- 60 Cancer Cell Line Muta;on Data Con;ene i livelli espressivi di circa 1400 geni e la farmo- resistenza rispepo a 1400 medicinali forni; dal Na;onal Cancer Ins;tute per 60 cellule tumorali

37 Expression Vectors I Gene Expression Vectors sono usa; per rappresentare l espressione di un gene in diverse condizioni sperimentali o ;pi di campionamento

38 Interpretazione geometrica t 1 t 2 t 3 G G G Similar Expression G G Experiment 3 Experiment 2 Experiment 1

39 Distanza Intra e Inter- cluster La distanza intracluster è minimizzata La distanza intercluster è massimizzata

40 Cos è la somiglianza Similarity is hard to define, but We know it when we see it Determinare la somiglianza tra oggetti è un tipico task di machine learning 15

41 Analisi dei cluster (1) Per raggruppare insieme oggek è necessario definere: 1. Misura di Distanza tra oggeb: definisce il significato della somiglianza/diversità degli oggek Two conditions and n genes Two genes and n conditions

42 Analisi dei cluster (2) 2. Algoritmo di clustering: definisce le operazioni per openere un insieme di cluster Considerare tupe le possibili soluzioni e prendere quella che ha il migliore inter e intra distanza è impra;cabile... Possibili soluzioni dove k rappresenta il numero di cluster e n il numero di punti

43 Proprietà della distanza Un misura di distanza d è una funzione che prende come argomento due pun; x e y in uno spazio n- dimenzionale Rn e ha le seguen; proprietà: Simmetria: la distanza deve essere simmetrica, ovvero d(x,y) = d(y,x) Posi#vità: la distanza tra due pun; deve essere un numero reale maggiore o uguale a zero d(x,y) 0 per ogni x e y. L uguaglianza è vera solo e solo se x = y, i.e., d(x,x) = 0 Disuguaglianza triangolare: la distanza tra due pun; x e y deve essere minore o iguale della somma delle distanze da x e un terzo punto z e da z a y: d(x,y) d(x,z) + d(z,y) Tale proprietà riflepe il fapo che la distanza tra due pun; dovrebbe essere calcolata considerando il cammino più breve

44 Misure di distanza Da; due vepori n- dimensionali x=(x1, x2,,xn) e y=(y1, y2,,yn), la distanza tra x e y può essere calcolata usando diverse misure: Euclidean distance squared standardized ManhaPan distance Chebychev distance Cosine similarity (Angle) Correla;on distance Mahalanobis distance Minkowski distance

45 Euclidean Distance La distanza Euclidea prende in considerazione sia la direzione che il magnitudo di due vepori La distanza Euclidea tra due vepori n- dimensionali x=(x1,x2,,xn) e y=(y1,y2,,yn) è data da: Ciascun asse rappresenta un esperimento La coordinata di ciascun asse è l espressività del gene nell esperimento (n = 2)

46 Squared Euclidean Distance La distanza Euclidea quadra;ca tra due vepori n- dimensionali x=(x1,x2,,xn) and y=(y1,y2,,yn) è: A differenza della distanza Euclidea, quella quadra;ca tende a date più peso agli outliers (geni con livelli espressivi molto diversi in ciascuna condizione, o due condizioni che causano livelli espressivi molto diversi in ciascun gene) a causa della mancanza della radice quadrata

47 Standardized Euclidean Distance L idea chiave è che non tupe le direzioni hanno la stessa importanza. La distanza Euclidea standardizzata tra due vepori n- dimensionali x=(x1,x2,,xn) e y=(y1,y2,,yn) è: Exp. Dove s 2 1 è la varianza della prima dimensione nello spazio n- dimensionale e 1 e 2 e 3 e n x x 1 x 2 x n y y 1 y 2 y n Genes Usa l idea di pesare ciascuna dimensione con una quan;à inversamente proporzionale alla variabilità dei valori lungo ciascuna dimensione

48 ManhaPan Distance La distanza di ManhaPan rappresenta la distanza misurata lungo direzioni parallele agli assi La distanza di ManhaPan tra due vepori n- dimensionali x=(x1,x2,,xn) e y=(y1,y2,,yn) è:

49 Chebychev Distance La distanza di Chebychev considera semplicemente la maggiore distanza tra due coordinate di due vepori. Ad esempio, se i vepori x=(x1,x2,,xn) e y=(y1,y2,,yn) sono due geni misura; in n esperimen;, la distanza di Chebychev prenderà in considerazione il solo esperimento in cui i due geni hanno la massima differenza espressiva e considererà tale differenza come distanza tra i due geni. Generalmente usata per evidenziare le differenze maggiori tra coordinate corrisponden;. La distanza di Chebychev tra due vepori n- dimensionali x=(x1,x2,,xn) and y=(y1,y2,,yn) è: Da notare che tale misura di distanza è molto sensible ad outlier e poco resistente ad errori di misurazione

50 Cosine Similarity (Angle) The Cosine Similarity takes into account only the angle and discards the magnitude. The Cosine Similarity distance between two n- dimensional vectors x=(x1,x2,,xn) and y=(y1,y2,,yn) is: x x dα ( x, y) = cos( θ) = y = 2 2 x1 + x2 + = x x i= 1 x1 y1 + x2 y2 + + n y y 2 + x n = x i x n 2 y n = n i= 1 x i y i Gene2 Expression Level Gene1 Expression Level θ xy

51 Correla;on Distance La Pearson correla;on distance calcola la distanza tra ciascun punto e la repa di regressione La Pearson correla;on distance tra due vepori n- dimensionali x=(x1,x2,,xn) e y=(y1,y2,,yn) è: dove rappresenta il coefficiente di correlazione di Pearson

52 Mahalanobis Distance La distanza di Mahalanobis tra due vepori n- dimensionali x=(x1,x2,,xn) e y=(y1,y2,,yn) è: La matrice S serve a distorcere lo spazio veporiale. Generalmente S è rappresentata dalla matrice della covarianza. Se invece S è la matrice iden;tà la distanza di Mahalanobis si riduce a quella Euclidea:

53 Minkowski Distance La distanza di Minkowski è una generalizzazione della distanza Euclidea e di ManhaPan. La distanza di Minkowski tra due vepori n- dimensionali x=(x1,x2,,xn) e y=(y1,y2,,yn) è: d M k( x, y) = { } m m m x y + x y + + x y n n 1 m = n i= 1 x i y i m 1 m Ricordando che per m = 1 la distanza si riduce a quella di ManhaPan distance, mentre per m = 2 la distanza di Minkowski si riduce a quella Euclidea

54 Come scegliere la misura? La scelta della misura di distanza è legata al dominio applica;vo, i.e., che ;po di somiglianza si è interessa; a capurare? Euclidean distance: prende in considerazione il magnitudo delle differenze tra i livelli espressivi Distance Correla#on: insensibile all ampiezza delle espressioni, considera solo il trend del cambiamento

55 Confronto tra distanze (1) Euclidean Distance: la più conosciuta ed anche più usata Squared Euclidean Distance: tende ad enfa;zzare le distanze. Gli stessi da; clusterizza; con una distanza euclidea quadra;ca potrebbero apparire più sparsi e meno compak Standardized Euclidean: elimina l influenza di diversi range di variazione. TuPe le direzioni saranno ugualmente imporan; Manha>an Distance: l insieme di geni o esperimen; alla stessa distanza da un punto di riferimento non coincide con l insieme di geni o esperimen; costruito con la distanza Euclidea

56 Confronto tra distanze (2) Cosine Distance (angle): considera solo l angolo e non il magnitudo. Ad esempio: un gene g1 misurato in due esperimen;: g1=(1,1) un gene g2 misurato in due esperimen;: g2 =(100,100) avranno la sequente distanza cos( θ ) = x x y y = 100 [ ] = = 1 l angolo tra i due vepori è zero. Il clustering con questa misura di distanza posizionerà g1 e g2 nello stesso cluster anche se il loro livello espressivo è molto diverso!

57 Confronto tra distanze (3) Correla#on distance: considera simili variazioni e non simili valori numerici. Ad esempio, si consideri un insieme di 5 esperimen; e un gene g1 che ha la seguente espressività g1=(1,2,3,4,5) nei 5 esperimen;. un gene g2 che ha la seguente espressività g2=(100,200,300,400,500) nei 5 esperimen;. un gene g3 che ha la seguente espressività g3=(5,4,3,2,1) nei 5 esperimen;. La correla;on distance meperà g1 e g2 nello stesso cluster e g3 in un cluster diverso, poichè: g1= (1,2,3,4,5) e g2=(100,200,300,400,500) hanno un alta correlazione (1) d(g1,g2) = 1- r = 1-1 = 0 g1= (1,2,3,4,5) e g3= (5,4,3,2,1) sono correla; inversamente (- 1) d(g1,g3) = 1- r = 1- (- 1) = 2

58 Confronto tra distanze (4) Chebychev distance: si focalizza sulle differenze più importan;. I vepori (1,2,3,4) e (2,3,4,5) hanno distanza Euclidea 2 e 1 come distanza di Chebychev. I vepori (1,2,3,4) e (1,2,3,6) hanno distanza Euclidea e 2 come distanza di Chebychev. Mahalanobis distance: può deformare lo spazio nel modo più conviente. Generalmente, lo spazio è deformato usando la matrice di covarianza.

59 Osservazioni Tu>o può essere clusterizzato Il clustering è altamente dipendente dalla misura di distanza ado>ata. Cambiare la misura di distanza può influenzare dramma;camente il numero e la composizione dei cluster, così come le relazioni tra loro Lo stesso algor#mo di clustering applicato allo stesso dataset può produrre risulta# diversi. Mol; algor;mi di clustering hanno una componente non- determinis;ca intrinseca Un insieme di cluster che include tuk i geni o gli esperimen; considera; forma un clustering, albero di cluster o dendogramma

60 Algoritmi di clustering I tradizionali algoritmi di clustering posso essere divisi in tre principali categorie: Clustering par;zionale Clustering gerarchico Model- based clustering

61 Par;;onal Clustering Il clustering par;zionale ha l obiekvo di dirivare par;zioni (cluster) da una collezione di oggek Mol; di ques; metodi sono basa; sull okmizzazione itera;va di un criterio (funzione obiebvo) che riflepe l agreement tra i da; e la par;zione Un esempio di funzione obiekvo: minimizzare la distanza intra- cluster e massimizzare quella inter- cluster Uno degli algor;mi di clustering par;zionale più usato è il k- means

62 Par;;onal Clustering: k- Means 1. Specificare il numero di cluster desidera; (K) 2. Selezionare il maniera random K elemen; rappresenta;vi, chiama; centroidi 3. Calcolare la distanza di ciascun papern (punto) dal tuk i centroidi 4. Asssegnare i pun; a centroide con la minima distanza 5. Aggiornare i centroidi con la media degli elemen; appartenen; a ciascun cluster e calcolare la nuova composizione dei cluster 6. Controllare la condizione di convergenza Se tuk i pun; sono sta; assegna; agli stessi cluster rispepo all iterazione precedente e quindi tuk i centroidi restano invaria;, fermare il processo Altrimen;, ripar;re dal punto 3

63 K- means clustering (k=3)

64 CaraPeris;che del K- means Una diversa inizializzazione potrebbe produrre cluster diversi. Quindi, diversi run dell algor;mo potrebbero portare a clustering diversi Inizializzazione 1 Inizializzazione II L algoritmo ha una bassa seman;ca: il labelling e l interpretazione dei cluster è una fase successiva

65 Nearest Neighbor Clustering Il numero di cluster (k) non è fissato a priori Una soglia (t) è usata per determinare se un nuovo oggepo deve essere aggiunto ad un cluster esistente oppure è necessario crearne uno nuovo Gli oggek sono aggiun; (in maniera incrementale) ai cluster esisten; più vicini E un algor;mo incrementale

66 Nearest Neighbor Clustering (1) Si sepa una soglia t t

67 Nearest Neighbor Clustering (2) Arriva un nuovo dato Si controlla la soglia t 8 7 Poichè il nuovo dato è 6 all interno della soglia 5 per il cluster 1, il nuovo dato è aggiunto a tale cluster. Si aggiorna il 1 2 centroide Metodi numerici per la bioinformatica 46 Francesco Archetti

68 Nearest Neighbor Clustering 10 Arriva un nuovo dato Si controlla la soglia t 7 6 Poichè il nuovo dato è al 5 di fuori della soglia per il cluster 1, si crea un nuovo cluster Metodi numerici per la bioinformatica 47 Francesco Archetti

69 Nearest Neighbor Clustering Arriva un nuovo dato... Difficile determinare t a priori Si controlla la soglia t Poichè il nuovo dato è al di fuori della soglia per il cluster 1, si crea un Un diverso valore di t implica un diverso nuovo cluster. 10 valore per la distanza intra/inter cluster Metodi numerici per la bioinformatica 47 Francesco Archetti

70 Hierarchical Clustering Il clustering gerarchio mira a un obiekvo più ambizioso, ovvero quello di openere una gerarchia di cluster (dendogramma) che mostra come i cluster sono collega; gli uni agli altri L altezza di un nodo nel dendogramma rappresenta la somiglianza dei due cluster figli

71 Il dendogramma Similarity threshold : 60% Similarity threshold : 70%

72 Euris;che Poichè non è possibile provare tuk i possibili alberi, è necessario definire delle euris;che per costruire il dendogramma Il clustering gerarchico è determinis;co e si okene in due modi: Bo>om- Up (Agglomera#ve): si parte mepeno ciascun oggepo nel proprio cluster, dopodicchè si cerca la migliore coppia e si crea un nuovo cluster. Si con;nua così fino ad arrivare a mepere tuk gli oggek in un unico cluster Top- Down (divisive): si parte mependo tuk gli oggek in un unico cluster, dopodicchè si considerano tupe le possibili strade per dividere il cluster in due. Si sceglie la migliore divisione e si con;nua ad operare in maniera ricorsiva su entrambe le par;zioni create

73 Agglomera;ve Hierarchical Clustering (1) 1. Calcola la distanza tra tuk i data point (geni o esperimen;) 2. Clusterizza i data point in cluster iniziali 3. Calcola la distanza tra tuk i cluster 4. Fondi le coppie di cluster più simili 5. Ripe; 3 e 4 finchè tuk gli elemen; non sono raggruppa; in un unico cluster

74 Agglomera;ve Hierarchical Clustering (2)

75 Varian; del AHC (1) Esistono diversi modi per determinare la somiglianza tra cluster complete-link -max dist.- single-link -min dist.- Group-average -avg dist.-

76 Varian; del AHC (2) Il clustering gerarchico agglomera;vo dipende molto dalla scelta della misura di somiglianza tra cluster Single linkage: distanza tra i meno distan; vicini Complete linkage: distanza tra i più distan; vicini Central linkage: distanza tra i centroidi Average linkage: distanza media tra tuk i pun; Single e Complete linkage usano distanze già calcolate, mentre l average linkage è il più onoreso

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis

Dettagli

Algoritmi di clustering

Algoritmi di clustering Algoritmi di clustering Dato un insieme di dati sperimentali, vogliamo dividerli in clusters in modo che: I dati all interno di ciascun cluster siano simili tra loro Ciascun dato appartenga a uno e un

Dettagli

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da

Dettagli

Data mining e rischi aziendali

Data mining e rischi aziendali Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Data Mining. Introduzione La crescente popolarità

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: similarità Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Definizioni preliminari

Dettagli

Analisi di dati Microarray: Esercitazione Matlab

Analisi di dati Microarray: Esercitazione Matlab Analisi di dati Microarray: Esercitazione Matlab Laboratorio di Bioinformatica II Pietro Lovato Anno Accademico 2010/2011 Contenuti 1 Introduzione DNA Microarray 2 Lavorare con una singola ibridazione

Dettagli

SAP Business Objects XI R3.1

SAP Business Objects XI R3.1 SAP Business Objects XI R3.1 Sistemi Informa;vi Avanza; Anno Accademico 2012/2013 Corso di Laurea Magistrale in Ingegneria Ges3onale Reggio Emilia, 12 aprile 2013 UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO

Dettagli

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it Data Mining Gabriella Trucco gabriella.trucco@unimi.it Perché fare data mining La quantità dei dati memorizzata su supporti informatici è in continuo aumento Pagine Web, sistemi di e-commerce Dati relativi

Dettagli

Università degli Studi Roma Tre - Corso di Laurea in Matema9ca. Corso di Laurea in Matema1ca Dipar9mento di Matema9ca e Fisica

Università degli Studi Roma Tre - Corso di Laurea in Matema9ca. Corso di Laurea in Matema1ca Dipar9mento di Matema9ca e Fisica Corso di Laurea in Matema1ca Dipar9mento di Matema9ca e Fisica Sistemi per l elaborazione delle informazioni 6. Data warehouse Dispense del corso IN530 prof. Marco Liverani Sistemi operazionali e informazionali

Dettagli

Uno standard per il processo KDD

Uno standard per il processo KDD Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

KNOWLEDGE DISCOVERY E DATA MINING

KNOWLEDGE DISCOVERY E DATA MINING KNOWLEDGE DISCOVERY E DATA MINING Prof. Dipartimento di Elettronica e Informazione Politecnico di Milano LE TECNOLOGIE DI GESTIONE DELL INFORMAZIONE DATA WAREHOUSE SUPPORTO ALLE DECISIONI DATA MINING ANALISI

Dettagli

La tecnologia dei microarray

La tecnologia dei microarray La tecnologia dei microarray I microarray I progetti di sequenziamento (progetti permesso di identificare migliaia di geni genoma) ) hanno Migliaia di geni (ed i loro prodotti, le proteine) operano in

Dettagli

Informatica corso di laboratorio

Informatica corso di laboratorio Informatica corso di laboratorio 8 ore di laboratorio Due gruppi due turni Argomen0 tra1a0: Microso6 Excell Gruppo 1 cognomi da A a L Ve 6/11 20/11 dalle 9 alle 11 DOCENTE: Federica Mandreoli Riceve su

Dettagli

Introduzione al Pattern Recognition Statistico

Introduzione al Pattern Recognition Statistico Introduzione al Pattern Recognition Statistico Roberto Tagliaferri Dipartimento di Informatica Università di Salerno ( Sa ) 84084 Fisciano e-mail robtag@unisa.it Statistical Pattern Recognition Introduzione

Dettagli

Sistemi Informativi Multimediali Indicizzazione multidimensionale

Sistemi Informativi Multimediali Indicizzazione multidimensionale Indicizzazione nei sistemi di IR (1) Sistemi Informativi Multimediali Indicizzazione multidimensionale ugusto elentano Università a Foscari Venezia La struttura fondamentale di un sistema di information

Dettagli

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011 Data warehousing Introduzione A partire dagli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa lezione vedremo

Dettagli

Data Mining e Analisi dei Dati

Data Mining e Analisi dei Dati e Analisi dei Dati Rosaria Lombardo Dipartimento di Economia, Seconda Università di Napoli La scienza che estrae utili informazioni da grandi databases è conosciuta come E una disciplina nuova che interseca

Dettagli

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni Data warehouse Data warehouse La crescita dell importanza dell analisi dei dati ha portato ad una separazione architetturale dell ambiente transazionale (OLTP on-line transaction processing) da quello

Dettagli

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Concetti preliminari: struttura del dataset negli

Dettagli

Mining Positive and Negative Association Rules:

Mining Positive and Negative Association Rules: Mining Positive and Negative Association Rules: An Approach for Confined Rules Alessandro Boca Alessandro Cislaghi Premesse Le regole di associazione positive considerano solo gli item coinvolti in una

Dettagli

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida Introduzione alle tecniche di Data Mining Prof. Giovanni Giuffrida Programma Contenuti Introduzione al Data Mining Mining pattern frequenti, regole associative Alberi decisionali Clustering Esempio di

Dettagli

Tecniche di DM: Link analysis e Association discovery

Tecniche di DM: Link analysis e Association discovery Tecniche di DM: Link analysis e Association discovery Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Architettura di un generico algoritmo di DM. 2 2 Regole di associazione:

Dettagli

Elementi di Statistica

Elementi di Statistica Elementi di Statistica Contenuti Contenuti di Statistica nel corso di Data Base Elementi di statistica descrittiva: media, moda, mediana, indici di dispersione Introduzione alle variabili casuali e alle

Dettagli

Analisi dei gruppi (Cluster analysis)

Analisi dei gruppi (Cluster analysis) Capitolo 10 Analisi dei gruppi (Cluster analysis) Partendo da un collettivo multidimensionale, l analisi dei gruppi mira ad assegnarne le unità a categorie non definite a priori, formando dei gruppi di

Dettagli

Introduzione al KDD e al DATA MINING

Introduzione al KDD e al DATA MINING Introduzione al KDD e al DATA MINING Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Verso il DM: una breve analisi delle fasi del processo KDD. 1 2 Il DM: Alcune definizioni.

Dettagli

UNIVERSITA DEGLI STUDI DI PADOVA TESI DI LAUREA TRIENNALE

UNIVERSITA DEGLI STUDI DI PADOVA TESI DI LAUREA TRIENNALE UNIVERSITA DEGLI STUDI DI PADOVA FACOLTA DI SCIENZE STATISTICHE CORSO DI LAUREA IN STATISTICA E GESTIONE DELLE IMPRESE TESI DI LAUREA TRIENNALE Cluster Analysis per la segmentazione della clientela utilizzando

Dettagli

Relazione sul data warehouse e sul data mining

Relazione sul data warehouse e sul data mining Relazione sul data warehouse e sul data mining INTRODUZIONE Inquadrando il sistema informativo aziendale automatizzato come costituito dall insieme delle risorse messe a disposizione della tecnologia,

Dettagli

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,

Dettagli

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testuali Il text mining: una definizione Data mining per dati destrutturati ovvero documenti codificati in linguaggio

Dettagli

Data Mining in SAP. Alessandro Ciaramella

Data Mining in SAP. Alessandro Ciaramella UNIVERSITÀ DI PISA Corsi di Laurea Specialistica in Ingegneria Informatica per la Gestione d Azienda e Ingegneria Informatica Data Mining in SAP A cura di: Alessandro Ciaramella La Business Intelligence

Dettagli

matematicamente.it Numero 9 Maggio 2009

matematicamente.it Numero 9 Maggio 2009 112. Data ining: esplorando le miniere alla ricerca della conoscenza nascosta Clustering con l algoritmo k-means di Gaetano Zazzaro 1 L uomo è confinato nei limiti angusti del corpo, come in una prigione,

Dettagli

AIR MILES un case study di customer segmentation

AIR MILES un case study di customer segmentation AIR MILES un case study di customer segmentation Da: G. Saarenvirta, Mining customer data, DB2 magazine on line, 1998 http://www.db2mag.com/db_area/archives/1998/q3/ 98fsaar.shtml Customer clustering &

Dettagli

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali DIPARTIMENTO DI INGEGNERIA INFORMATICA AUTOMATICA E GESTIONALE ANTONIO RUBERTI Cenni al Data Mining 1 Data Mining nasce prima del Data Warehouse collezione di tecniche derivanti da Intelligenza Artificiale,

Dettagli

Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008

Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008 Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008 Dott. Chiara Cornalba COMUNICAZIONI La lezione del 30 ottobre è sospesa per missione all estero del Prof. Giudici. Dal 6 Novembre

Dettagli

Lezione 8. Data Mining

Lezione 8. Data Mining Lezione 8 Data Mining Che cos'è il data mining? Data mining (knowledge discovery from data) Estrazione di pattern interessanti (non banali, impliciti, prima sconosciuti e potenzialmente utili) da enormi

Dettagli

DATA MINING E DATA WAREHOUSE

DATA MINING E DATA WAREHOUSE Reti e sistemi informativi DATA MINING E DATA WAREHOUSE Marco Gottardo FONTI Wikipedia Cineca Università di Udine, Dipartimento di fisica, il data mining scientifico thepcweb.com DATA MINING 1/2 Il Data

Dettagli

Clustering. Cos è un analisi di clustering

Clustering. Cos è un analisi di clustering Clustering Salvatore Orlando Data Mining. - S. Orlando Cos è un analisi di clustering Cluster: collezione di oggetti/dati Simili rispetto a ciascun oggetto nello stesso cluster Dissimili rispetto agli

Dettagli

Il DataMining. Susi Dulli dulli@math.unipd.it

Il DataMining. Susi Dulli dulli@math.unipd.it Il DataMining Susi Dulli dulli@math.unipd.it Il Data Mining Il Data Mining è il processo di scoperta di relazioni, pattern, ed informazioni precedentemente sconosciute e potenzialmente utili, all interno

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Sistemi informazionali La crescente diffusione dei

Dettagli

Regressione non lineare con un modello neurale feedforward

Regressione non lineare con un modello neurale feedforward Reti Neurali Artificiali per lo studio del mercato Università degli studi di Brescia - Dipartimento di metodi quantitativi Marco Sandri (sandri.marco@gmail.com) Regressione non lineare con un modello neurale

Dettagli

Una miniera di dati sul comportamento degli utenti del Web

Una miniera di dati sul comportamento degli utenti del Web Una miniera di dati sul comportamento degli utenti del Web Organizzare le informazioni sull'utilizzo della rete in PostgreSQL utilizzando ht://miner, un sistema open-source di data mining e data warehousing

Dettagli

MACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it

MACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it MACHINE LEARNING e DATA MINING Introduzione a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it Apprendimento Automatico(i) Branca dell AI che si occupa di realizzare dispositivi artificiali capaci di

Dettagli

Flusso e documenti del ciclo attivo. Lis8ni di vendita Offerta Ordine cliente Documento di trasporto (bolla) FaCure

Flusso e documenti del ciclo attivo. Lis8ni di vendita Offerta Ordine cliente Documento di trasporto (bolla) FaCure Ciclo a(vo Ciclo a(vo Insieme delle a(vità con cui i prodo( dell azienda vengono porta8 nelle mani dei clien8 in cambio dell equivalente valore monetario, incluse le a(vità di marke8ng e vendita FUNZIONI:

Dettagli

Gestione della produzione e della supply chain Logistica distributiva. Paolo Detti Dipartimento di Ingegneria dell Informazione Università di Siena

Gestione della produzione e della supply chain Logistica distributiva. Paolo Detti Dipartimento di Ingegneria dell Informazione Università di Siena Gestione della produzione e della supply chain Logistica distributiva Paolo Detti Dipartimento di Ingegneria dell Informazione Università di Siena Problemi di Distribuzione: Il problema del Vehicle Rou:ng

Dettagli

Apprendimento Automatico

Apprendimento Automatico Metodologie per Sistemi Intelligenti Apprendimento Automatico Prof. Pier Luca Lanzi Laurea in Ingegneria Informatica Politecnico di Milano Polo regionale di Como Intelligenza Artificiale "making a machine

Dettagli

Cluster gerarchica. Capitolo

Cluster gerarchica. Capitolo Cluster gerarchica Capitolo 33 Questa procedura consente di identificare gruppi di casi relativamente omogenei in base alle caratteristiche selezionate, utilizzando un algoritmo che inizia con ciascun

Dettagli

Suggerimenti per l approccio all analisi dei dati multivariati

Suggerimenti per l approccio all analisi dei dati multivariati Suggerimenti per l approccio all analisi dei dati multivariati Definizione degli obbiettivi Il primo passo è la definizione degli obbiettivi. Qual è l obbiettivo della sperimentazione i cui dati dovete

Dettagli

Tecniche di Clustering basate sul Machine Learning

Tecniche di Clustering basate sul Machine Learning UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II Scuola Politecnica e delle Scienze di base Area didattica Scienze Matematiche Fisiche e Naturali Corso di Laurea in Informatica Tecniche di Clustering basate

Dettagli

Introduzione al Data Mining Parte 1

Introduzione al Data Mining Parte 1 Introduzione al Data Mining Parte 1 Corso di Laurea Specialistica in Ingegneria Informatica II Facoltà di Ingegneria, sede di Cesena (a.a. 2009/2010) Prof. Gianluca Moro Dipartimento di Elettronica, Informatica

Dettagli

Relazioni statistiche: regressione e correlazione

Relazioni statistiche: regressione e correlazione Relazioni statistiche: regressione e correlazione È detto studio della connessione lo studio si occupa della ricerca di relazioni fra due variabili statistiche o fra una mutabile e una variabile statistica

Dettagli

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche DATA MINING datamining Data mining Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche Una materia interdisciplinare: - statistica, algoritmica, reti neurali

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

Data Warehousing e Data Mining

Data Warehousing e Data Mining Università degli Studi di Firenze Dipartimento di Sistemi e Informatica A.A. 2011-2012 I primi passi Data Warehousing e Data Mining Parte 2 Docente: Alessandro Gori a.gori@unifi.it OLTP vs. OLAP OLTP vs.

Dettagli

Esplorazione dei dati

Esplorazione dei dati Esplorazione dei dati Introduzione L analisi esplorativa dei dati evidenzia, tramite grafici ed indicatori sintetici, le caratteristiche di ciascun attributo presente in un dataset. Il processo di esplorazione

Dettagli

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence Introduzione Definizione di Business Intelligence: insieme di processi per raccogliere

Dettagli

ANALISI DEI DATI BIOLOGICI

ANALISI DEI DATI BIOLOGICI ANALISI DI DATI BIOLOGICI RAPPRSNTAR L COMUNITA tramite descrizioni grafiche e relazioni tra gli organismi presenti nei vari campioni. DISCRIMINAR dei siti sulla base della loro composizione biologica.

Dettagli

I sistemi informa-vi operazionali

I sistemi informa-vi operazionali I sistemi informa-vi operazionali Sistemi informativi aziendali struttura e applicazioni Cap.3, 4 e 5 - I sistemi operazionali di base: concetti generali Maurizio Pighin, Anna Marzona Finalità dei sistemi

Dettagli

Introduzione al Datamining. Francesco Passantino francesco@iteam5.net www.iteam5.net/francesco

Introduzione al Datamining. Francesco Passantino francesco@iteam5.net www.iteam5.net/francesco Introduzione al Datamining Francesco Passantino francesco@iteam5net wwwiteam5net/francesco Cos è il datamining Processo di selezione, esplorazione e modellazione di grandi masse di dati, al fine di scoprire

Dettagli

Ricerca di outlier. Ricerca di Anomalie/Outlier

Ricerca di outlier. Ricerca di Anomalie/Outlier Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

Di testi ed immagini

Di testi ed immagini Università Cattolica del Sacro Cuore - Brescia 23/5/2005 Parte I: Richiami di algebra lineare Parte II: Applicazioni Sommario della Parte I 1 Diagonalizzabilità di una matrice Autovalori ed autovettori

Dettagli

LA RICERCA NEI SOCIAL MEDIA

LA RICERCA NEI SOCIAL MEDIA LA RICERCA NEI SOCIAL MEDIA La RICERCA è fondamentale per prendere decisioni e individaure linee strategiche per gli operatori di marke>ng. Cosa monitorare? Tu/o ciò che è PUBBLICO Da# Primari: metodi

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 8 Support Vector Machines Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo Distributed P2P Data Mining Autore: (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo A.A. 2005/2006 Il settore del Data Mining Distribuito (DDM): Data Mining: cuore del processo

Dettagli

Data Mining a.a. 2010-2011

Data Mining a.a. 2010-2011 Data Mining a.a. 2010-2011 Docente: mario.guarracino@cnr.it tel. 081 6139519 http://www.na.icar.cnr.it/~mariog Informazioni logistiche Orario delle lezioni A partire dall 19.10.2010, Martedì h: 09.50 16.00

Dettagli

ESEMPIO: RITARDI & BIGLIETTI

ESEMPIO: RITARDI & BIGLIETTI ESEMPIO: RITARDI & BIGLIETTI Fatto Ritardi: l analisi a livello volo giornaliero, considerando l aeroporto di partenza, la città e lo stato di arrivo e la compagnia Fatto Biglietti: l analisi deve considerare

Dettagli

Breve introduzione ai data warehouse (per gli allievi che non hanno seguito BD2)

Breve introduzione ai data warehouse (per gli allievi che non hanno seguito BD2) Tecnologie per i sistemi informativi Breve introduzione ai data warehouse (per gli allievi che non hanno seguito BD2) Letizia Tanca lucidi tratti dal libro: Atzeni, Ceri, Paraboschi, Torlone Introduzione

Dettagli

ESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI. (Visione 3D)

ESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI. (Visione 3D) ESTRAZIONE DI DATI 3D DA IMMAGINI DIGITALI () Calcolo delle corrispondenze Affrontiamo il problema centrale della visione stereo, cioè la ricerca automatica di punti corrispondenti tra immagini Chiamiamo

Dettagli

REALIZZARE UN MODELLO DI IMPRESA

REALIZZARE UN MODELLO DI IMPRESA REALIZZARE UN MODELLO DI IMPRESA - organizzare e gestire l insieme delle attività, utilizzando una piattaforma per la gestione aziendale: integrata, completa, flessibile, coerente e con un grado di complessità

Dettagli

Introduzione a data warehousing e OLAP

Introduzione a data warehousing e OLAP Corso di informatica Introduzione a data warehousing e OLAP La Value chain Information X vive in Z S ha Y anni X ed S hanno traslocato Data W ha del denaro in Z Stile di vita Punto di vendita Dati demografici

Dettagli

Informatica Documentale

Informatica Documentale Informatica Documentale Ivan Scagnetto (scagnett@dimi.uniud.it) Stanza 3, Nodo Sud Dipartimento di Matematica e Informatica Via delle Scienze, n. 206 33100 Udine Tel. 0432 558451 Ricevimento: giovedì,

Dettagli

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Obiettivi. Presentare l evoluzione dei sistemi informativi: da supporto alla operatività a supporto al momento decisionale Definire

Dettagli

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Data warehousing Introduzione A partire dalla metà degli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa

Dettagli

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE STATISTICA DESCRITTIVA SCHEDA N. : REGRESSIONE LINEARE Nella Scheda precedente abbiamo visto che il coefficiente di correlazione fra due variabili quantitative X e Y fornisce informazioni sull esistenza

Dettagli

DATABASE SU EXCEL: I FILTRI

DATABASE SU EXCEL: I FILTRI DATABASE SU EXCEL: I FILTRI È possibile mettere in relazione i dati in base a determinati criteri di ricerca e creare un archivio di dati E necessario creare delle categorie di ordinamento in base alle

Dettagli

MASTER UNIVERSITARIO

MASTER UNIVERSITARIO MASTER UNIVERSITARIO Analisi Dati per la Business Intelligence In collaborazione con II edizione 2013/2014 Dipartimento di Culture, Politica e Società Dipartimento di Informatica gestito da aggiornato

Dettagli

Data Warehousing (DW)

Data Warehousing (DW) Data Warehousing (DW) Il Data Warehousing è un processo per estrarre e integrare dati storici da sistemi transazionali (OLTP) diversi e disomogenei, e da usare come supporto al sistema di decisione aziendale

Dettagli

CPU Performance: Regressione multipla e Analisi Cluster in Matlab

CPU Performance: Regressione multipla e Analisi Cluster in Matlab CPU Performance: Regressione multipla e Analisi Cluster in Matlab Alberto Lusoli Abstract Il seguente documento, illustra le tecniche utilizzate nell analisi del dataset CPU Performance. Gli scopi dello

Dettagli

Mission. Affidabilità Imprese. Supporto Rintraccio Ra?ng /Scoring Report /Dossier Integra?

Mission. Affidabilità Imprese. Supporto Rintraccio Ra?ng /Scoring Report /Dossier Integra? Mission Nata nel 2001 per soddifsfare le esigenze delle agenzia di informazioni commerciali e dei distributori ufficiali di InfoCamere, oggi la suite DataBrain è u?lizzata sia in contes? di analisi di

Dettagli

DNA sequence alignment

DNA sequence alignment DNA sequence alignment - Introduzione: un possibile modello per rappresentare il DNA. Il DNA (Acido desossiribonucleico) è una sostanza presente nei nuclei cellulari, sia vegetali che animali; a questo

Dettagli

Introduzione alla Business Intelligence

Introduzione alla Business Intelligence SOMMARIO 1. DEFINIZIONE DI BUSINESS INTELLIGENCE...3 2. FINALITA DELLA BUSINESS INTELLIGENCE...4 3. DESTINATARI DELLA BUSINESS INTELLIGENCE...5 4. GLOSSARIO...7 BIM 3.1 Introduzione alla Pag. 2/ 9 1.DEFINIZIONE

Dettagli

Data warehouse Introduzione

Data warehouse Introduzione Database and data mining group, Data warehouse Introduzione INTRODUZIONE - 1 Pag. 1 Database and data mining group, Supporto alle decisioni aziendali La maggior parte delle aziende dispone di enormi basi

Dettagli

Introduzione al Data Mining

Introduzione al Data Mining Introduzione al Data Mining Sistemi informativi per le Decisioni Slide a cura di Prof. Claudio Sartori Evoluzione della tecnologia dell informazione (IT) (Han & Kamber, 2001) Percorso evolutivo iniziato

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 1 - Introduzione generale Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

Filomena Maggino, L analisi dei dati nell indagine statistica. Volume 2: l esplorazione dei dati e la validazione dei risultati, ISBN: 88-8453-351-1

Filomena Maggino, L analisi dei dati nell indagine statistica. Volume 2: l esplorazione dei dati e la validazione dei risultati, ISBN: 88-8453-351-1 Filomena Maggino, L analisi dei dati nell indagine statistica. Volume 2: l esplorazione dei dati e la validazione dei risultati, ISBN: 88-8453-351-1 (print) ISBN: 88-8453-350-3 (online), Firenze University

Dettagli

Sistemi informativi aziendali

Sistemi informativi aziendali Sistemi informativi aziendali Lezione 12 prof. Monica Palmirani Sistemi informativi e informatici Sistemi informativi = informazioni+processi+comunicazione+persone Sistemi informatici = informazioni+hardware+software

Dettagli

Analisi dei Dati. Lezione 10 Introduzione al Datwarehouse

Analisi dei Dati. Lezione 10 Introduzione al Datwarehouse Analisi dei Dati Lezione 10 Introduzione al Datwarehouse Il Datawarehouse Il Data Warehousing si può definire come il processo di integrazione di basi di dati indipendenti in un singolo repository (il

Dettagli

Gli strumen, social e l usabilità al servizio della scuola. Da MatchPoint a La Buona Scuola

Gli strumen, social e l usabilità al servizio della scuola. Da MatchPoint a La Buona Scuola Gli strumen, social e l usabilità al servizio della scuola Da MatchPoint a La Buona Scuola premessa Social media: tecnologie online che le persone u7lizzano per interagire e condividere contenu7 Potenzialmente

Dettagli

La cartella web del dolore cronico non oncologico. Do#. Marco Viscon. Presidente Commissione Informa.ca ANCoM

La cartella web del dolore cronico non oncologico. Do#. Marco Viscon. Presidente Commissione Informa.ca ANCoM La cartella web del dolore cronico non oncologico Do#. Marco Viscon. Presidente Commissione Informa.ca ANCoM Il proge#o IMPACT prevede da parte dei Medici di Famiglia la registrazione di un set di da.

Dettagli

IL VALORE DEL CLIENTE NELLA GESTIONE DEI PROCESSI AZIENDALI. Ing. Andrea Giaconi

IL VALORE DEL CLIENTE NELLA GESTIONE DEI PROCESSI AZIENDALI. Ing. Andrea Giaconi IL VALORE DEL CLIENTE NELLA GESTIONE DEI PROCESSI AZIENDALI Ing. Andrea Giaconi Il cliente chi è? È il giudice ul=mo della mia impresa Stringe relazioni Il suo comportamento varia nel tempo Per ges=rlo

Dettagli

LO SVILUPPO E LE APPLICAZIONI DEI MODELLI NEURALI

LO SVILUPPO E LE APPLICAZIONI DEI MODELLI NEURALI Per l unità della Scienza: Fisica e Biologia LO SVILUPPO E LE APPLICAZIONI DEI MODELLI NEURALI A. Bazzani ipartimento di Fisica e Centro L.Galvani per la Bio-complessità, Università di Bologna INFN Sezione

Dettagli

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining Dipartimento di Informatica e Sistemistica I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining Renato Bruni bruni@dis.uniroma1.it Antonio Sassano sassano@dis.uniroma1.it

Dettagli

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse Introduzione data warehose Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa Data Warehouse Che cosa e un data warehouse? Quali sono i modelli dei dati per data warehouse Come si progetta

Dettagli

Excel Terza parte. Excel 2003

Excel Terza parte. Excel 2003 Excel Terza parte Excel 2003 TABELLA PIVOT Selezioniamo tutti i dati (con le relative etichette) Dati Rapporto tabella pivot e grafico pivot Fine 2 La tabella pivot viene messa di default in una pagina

Dettagli

IBM SPSS Direct Marketing 20

IBM SPSS Direct Marketing 20 IBM SPSS Direct Marketing 20 Nota: Prima di utilizzare queste informazioni e il relativo prodotto, leggere le informazioni generali disponibili in Note legali a pag. 109. Questa versione si applica a IBM

Dettagli

MASTER UNIVERSITARIO. Analisi Dati per la Business Intelligence e Data Science. IV edizione 2015/2016

MASTER UNIVERSITARIO. Analisi Dati per la Business Intelligence e Data Science. IV edizione 2015/2016 MASTER UNIVERSITARIO Analisi Dati per la Business Intelligence e Data Science In collaborazione con IV edizione 2015/2016 Dipartimento di Culture, Politica e Società Dipartimento di Informatica Dipartimento

Dettagli

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale Esperienze di Apprendimento Automatico per il corso di lippi@dsi.unifi.it Dipartimento Sistemi e Informatica Università di Firenze Dipartimento Ingegneria dell Informazione Università di Siena Introduzione

Dettagli

La Regressione Lineare

La Regressione Lineare La Regressione Lineare. Cos è l Analisi della Regressione Multipla? L analisi della regressione multipla è una tecnica statistica che può essere impiegata per analizzare la relazione tra una variabile

Dettagli

Cluster Analysis. Paese Cereali (Ce) Riso (R) Patate (P) Zucchero (Z) Verdure (Ver) Vino (Vi) Carne (Ca) Latte (L) Burro (B) Uova (U)

Cluster Analysis. Paese Cereali (Ce) Riso (R) Patate (P) Zucchero (Z) Verdure (Ver) Vino (Vi) Carne (Ca) Latte (L) Burro (B) Uova (U) Analysis Esempio Stiamo studiando le abitudini alimentari nei Paesi europei. Sulla base dei dati a disposizione, ci chiediamo se si possano individuare sotto-aree con abitudini alimentari simili. Dati:

Dettagli