KNOWLEDGE DATA DISCOVERY

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "KNOWLEDGE DATA DISCOVERY"

Transcript

1 KNOWLEDGE DATA DISCOVERY Corso di Bionforma;ca Corso di Laurea in Scienze Biologiche Prof. R. Oliveto - A.A. 2011/2012

2 Introduzione L informazione è un bene a valore crescente, necessario per pianificare e controllare akvità produkve: Cos;tuisce la materia prima che viene trasformata dai sistemi informa;vi Come è noto ai Web navigator l equazione da# = informazione non è sempre correpa Spesso la disponibilità di troppi da; rende arduo, se non impossibile, estrarre informazioni significa;ve Sistemi per l estrazione, l analisi e l organizzazione automa;ca di queste enormi moli di da; possono fornire un supporto nei processi decisionali umani Sistemi di Supporto alle Decisioni (DSS)

3 Sistemi di Supporto alle Decisioni Nascono a seguito dell enorme accumulo di da; registrato nell ul;mo ventennio in forma elepronica, e dalla pressante richiesta di u;lizzo di tali da; per scopi che superano quelli lega; all elaborazione giornaliera Aiutano il decisore umano sia nelle decisioni opera;ve, sia nelle decisioni strategiche, a più lungo termine ed a più ampio respiro

4 Applicazioni L u;lizzo dei DSS non è ristrepo in ambito aziendale e d impresa Spazia dall area medico- epidemiologica a quella demografica, dalle scienze naturali alla didakca CaraPeris;ca comune ai diversi ambi; è la necessità di strumen; di archiviazione e di interrogazione, per openere, dall enorme quan;tà di da; contenu; nei database o resi disponibili da Internet Informazioni di sintesi che permepano la valutazione di un fenomeno La scoperta di correlazioni significa;ve L acquisizione di conoscenza u;le a stabilire una strategia decisionale

5 Un po di storia (1) La funzione svolta dalle basi di da; in ambito aziendale è stata, fino a tempi recen;, quella di memorizzare da; operazionali, ossia da; genera; da operazioni, in genere di carapere amministra;vo, svolte all interno dei processi ges;onali (ges;one acquis;, ges;one vendite, fapurazione) TuPavia, per ogni azienda, è fondamentale poter disporre in maniera rapida e completa delle informazioni necessarie al processo decisionale: le indicazioni strategiche sono estrapolate dalla mole dei da; operazionali, apraverso un procedimento di selezione e sintesi progressiva

6 Un po di storia (2) L aumento esponenziale del volume dei da; operazionali ha reso il calcolatore l unico supporto adapo al processo decisionale Il ruolo delle basi di da; è sensibilmente cambiato, dalla fine degli anni `80, con la nascita dei DSS Nasce il data warehouse: una raccolta di da; integrata, subject oriented, variabile nel tempo e non vola#le di supporto ai processi decisionali

7 Integrazione Data Warehouse (1) Nel data warehouse confluiscono da; provenien; da più sistemi transazionali e da fon; esterne L obiekvo dell integrazione viene raggiunto mediante l u;lizzo di metodi di codifica uniformi Orientamento al sogge>o I da; vengono archivia; per poter essere facilmente reperi; ed analizza; dagli uten; Non si mira a minimizzare la ridondanza, ma piuposto a fornire da; che abbiano una strupura in grado di favorire la produzione di informazioni

8 Data Warehouse (2) Variabilità nel tempo Nel DW sono contenute informazioni rela;ve alle aree di interesse che colgono la situazione rela;va ad un dato fenomeno in un determinato intervallo temporale (generalmente antecedente all interrogazione) Non vola#lità Non modificabilità dei da; contenu; nel DW, che consente accessi in sola lepura Semplicità di progepazione: non si ricorre a strumen; complessi per ges;re l integrità referenziale o per bloccare record cui possono accedere più uten; in fase di aggiornamento

9 Sistema informa;vo vs. DSS Un sistema informa#vo converte da; in informazioni, ed ha lo scopo di collezionare, trasformare e distribuire informazione (e.g., search engine) Un sistema di supporto alle decisioni è un sistema informa;vo intelligente che aiuta l utente a prendere decisioni, senza sos;tuirsi ad esso

10 Vantaggi dei DSS Il DSS, apraverso procedure interabve, fornisce al decisore: la disponibilità di tupe le informazioni necessarie per la comprensione del problema la possibilità di esplorare i da; secondo diversi pun; di vista, in base alle esigenze dello stesso utente la possibilità di valutare gli scenari conseguen; alle scelte compiute I DSS si adapano al trapamento di problemi strupura; o semistrupura;, per i quali non è possibile fornire una soluzione algoritmica

11 Problema;che Tra le problema;che da affrontare per la realizzazione di un sistema di supporto alle decisioni ricordiamo la necessità di... ges;re grandi moli di da; accedere a diverse fon; di da; su piapaforme eterogenee garan;re l accesso a più uten; con compi; differenzia; per interrogazioni, analisi in tempo reale e simulazioni ges;re versioni storiche dei da;

12 ObieKvi di un DSS PermePere l estrazione di informazione da grandi database, in tempi brevi ed in modo flessibile, per supportare e migliorare il processo decisionale Necessità di separare i da; genera; dalle operazioni di ges;one (opera#onal database) dai da; u;li ai processi decisionali (data warehouse) Data warehouse con;ene un sopoinsieme dei da; mantenu; nell opera;onal database, okmizzato per analisi focalizzate ai processi decisionali Nell opera;onal database e nel data warehouse i da; sono memorizza; a livelli diversi di aggregazione Capacità di analisi dei da; contenu; nel data warehouse in tempo reale e da diversi pun; di vista

13 Riassumendo... Pertanto, il DW con;ene i da; necessari ai processi decisionali L opera;onal database è aggiornato costantemente: deve fotografare l istante corrente Il DW con;ene i da; aggrega; in par;colari istan; di tempo (es. da; sekmanali, mensili, trimestrali) Nel DW, i da; che provengono dall opera;onal database devono essere integra; con i da; rela;vi all ambiente esterno (che condizionano il processo decisionale) Il DW è una sorta di storico che raccoglie istantanee significa;ve dell opera;onal database, o meglio è una collezione di metodi, tecnologie e strumen; di ausilio al knowledge worker (amministratore, gestore, analista, dirigente) per condurre analisi dei da; finalizzate all apuazione di processi decisionali e al miglioramento del patrimonio informa;vo

14 Knowledge Data Discovery (1) Il processo KDD prevede in input da; grezzi e fornisce in output informazioni u;li openute apraverso diverse fasi

15 Knowledge Data Discovery (2) Gli stadi che caraperizzano un processo KDD sono sta; iden;fica; da Fayyad, Piatetsky- Shapiro, Smyth e Uthurusamy (1996) Nell elencare e descrivere le fasi del KDD, tale ricerca ha posto par;colare accento sulla fase di Data Mining (DM), cioè sulle tecniche per l esplorazione e lo studio dei da; Il DM è ritenuta la fase più importante dell intero processo KDD e tale importanza rende sempre più difficile, soprapupo in termini pra;ci, dis;nguere il processo KDD dal DM

16 Selezione I da; grezzi (raw data) vengono segmenta; e seleziona; secondo criteri predefini;, per pervenire ad un sopoinsieme di da; che rappresentano i target data o da; obiekvo Il database operazionale può contenere informazioni inu;li per il problema specifico Esempio: se l obiekvo è lo studio delle associazioni tra i prodok di una catena di supermerca;, non ha senso conservare i da; rela;vi alla professione dei clien;; tali da; potrebbero invece fornire informazioni d interesse rela;ve al comportamento di determinate fasce di clien;, per effepuare un analisi discriminante

17 Pre- processing Spesso, pur avendo a disposizione i da; obiekvo non è conveniente, né necessario, analizzarne l intero contenuto Occorre prima campionare le tabelle e, successivamente, effepuare un analisi su base campionaria Fa inoltre parte dello stadio di preprocessing la fase di pulizia dei da;, o data cleaning, che prevede l eliminazione dei possibili errori e la definizione dei meccanismi di comportamento in caso di da; mancan;

18 Trasformazione dei da; Dopo il preprocessing, i da;, per essere u;lizzabili, devono essere trasforma; Si possono effepuare conversioni di ;po o definizioni di nuovi da; openu; apraverso l uso di operazioni matema;che e logiche sulle variabili Inoltre, quando i da; provengono da fon; diverse, è necessario codificarli omogeneamente, per garan;rne la consistenza

19 Data Mining Ai da; trasforma; vengono applicate tecniche per l estrazione di informazione non banale I ;pi di da; a disposizione e gli obiekvi da raggiungere indicano implicitamente il ;po di algoritmo DM da scegliere Il processo KDD è: InteraBvo, presuppone infak un dialogo costante tra l utente e il sonware u;lizzato Itera#vo, nel senso che la fase di DM può prevedere un ulteriore trasformazione dei da; originali o un ulteriore pulizia dei da;, ovvero una riesecuzione delle fasi preliminari

20 Interpretazione e valutazione Il DM crea dei papern, ovvero dei modelli, che possono cos;tuire un valido supporto alle decisioni Non è sufficiente, tupavia, interpretare i risulta; openu;, ma occorre u;lizzarli per validare i modelli (da; e algoritmi) È dunque possibile, alla luce di risulta; non perfepamente soddisfacen;, intervenire (in maniera sia adakva sia perfekva) su una o più fasi del processo KDD

21 Regole derivate Le relazioni scoperte sono valide se valgono, con un grado di certezza prefissato, anche su da; diversi da quelli usa; per la scoperta delle stesse Individuare un grado di certezza è essenziale per stabilire quanta fiducia si può riporre nel sistema e nella relazione estrapa Le relazioni scoperte devono essere nuove almeno per il sistema, devono cioè aumentare la conoscenza necessaria ad affrontare il problema decisionale Le relazioni dovrebbero potenzialmente condurre a delle azioni u#li Per esempio, la scoperta di una dipendenza fra ar;coli acquista; da uno stesso cliente in un supermercato potrebbe akvare opportune strategie di marke;ng I papern devono essere comprensibili agli uten; per facilitare una migliore conoscenza dei fak coinvol; Poiché è difficile misurare la comprensibilità di un papern spesso si ricorre a misure surrogate di semplicità sintakca/seman;ca

22 Esempio di DM Mancato pagamento Pagamento avvenuto regolarmente 10 Prestito Stipendio

23 Esempio di DM Mancato pagamento Pagamento avvenuto regolarmente 10 Prestito IF Stipendio < 10 THEN Mancato Pagamento Stipendio

24 Tecniche di DM (1) La scelta del par;colare algoritmo di data mining dipende dall obiekvo da raggiungere e dal ;po di da; da analizzare Regole di associazione Classificazione Clustering Similarity search

25 Tecniche di DM (1) Le tecniche di analisi delle associazioni consentono di individuare regole nelle occorrenze concomitan; di due o più even; Le tecniche di clustering e le re; neurali non supervisionate consentono il raggruppamento di da;, cioè l individuazione di gruppi omogenei, che presentano delle regolarità al loro interno, in grado di caraperizzarli e differenziarli dagli altri gruppi Le re# neurali supervisionate, le support vector machine e gli alberi di decisione consentono di effepuare operazioni di classificazione, fanno cioè uso della conoscenza acquisita in fase di addestramento per classificare nuovi oggek o prevedere nuovi even; Le tecniche di similarity search consentono, data un base di da; di sequenze temporali o oggek, di determinare sequenze/oggek simili ad una sequenza/oggepo data/o, o tupe le coppie di sequenze/oggek simili

26 Applicazioni del DM (1) Indagini di mercato (Database Marke#ng): applicazione di tecniche di clustering per individuare gruppi omogenei in termini di comportamento d acquisto e di caraperis;che sociodemografiche; l individuazione delle diverse ;pologie di clien;......permepe di effepuare campagne di marke;ng mirate e di valutarne gli effek...permepe di openere indicazioni su come modificare la propria offerta...rende possibile monitorare nel tempo l evoluzione della propria clientela e l emergenza di nuove ;pologie Analisi testuale (Text Mining): applicazione di tecniche di clustering per individuare gruppi omogenei di documen; in termini di argomento trapato; consente di accedere più velocemente all argomento di interesse e di individuarne i legami con argomen; correla;

27 Applicazioni del DM (2) Analisi del paniere (Basket Analysis): applicazione di tecniche di individuazione di associazioni a da; di vendita per conoscere quali prodok vengono acquista; congiuntamente Consente di migliorare l offerta dei prodok (disposizione sugli scaffali) e di incrementare le vendite di par;colari prodok tramite offerte su generi associa; Technology Watch (Compe##ve Intelligence): applicazione di tecniche di clustering a banche da; di ;po tecnicoscien;fico al fine di individuare i gruppi tema;ci principali, le loro relazioni, l evoluzione temporale, le persone o le aziende coinvolte

28 CLUSTERING ANALYSIS Knowledge Data Discovery Prof. R. Oliveto - A.A. 2011/2012

29 Cos è la clustering analysis Clustering: l azione che mira a raggruppare oggek simili in insiemi In generale, un problema di clustering consiste nel trovare il par;zionamento okmo dei da; in K cluster (esclusivi)

30 Perchè è u;le in Bionforma;ca Ecologia delle piante e degli animali E usata per descrivere e effepurare comparazioni spaziali e temporali di comunità di organismi in ambien; eterogenei. Trascri>omica E usata per costruire gruppi di geni con papern espressivi collega; (coexpressed genes). Spesso tali gruppi contengono proteine dipenden; dal punto di vista funzionale, quali enzimi per uno specifico sen;ero metabolico. Analisi delle sequenze E usata per raggruppare sequenze omologhe in famiglie di geni. ConcePo fondamentale in bioinforma;ca, e biologia evolu;va in generale. Huma Gene#c Clustering La somiglianza tra data gene;ci è usata per clusterizzare e quindi inferire strupure delle popolazioni.

31 Esempio (1) DNA Chips/Microarrays Consentono di misurare il levello espressivo di un numero elva;ssimo di geni all interno di diversi condizioni/campioni sperimentali Il campionamento può essere effepuato considerando Diversi istan; temporali Diverse condizioni ambientali Diversi organismi Tessu; sani e affek da cancro Diversi individui

32 Esempio (2) Microarray data (gene expression data) sono rappresenta; apraverso una matrice, dove Ciascun gene corrisponde ad una riga Ciascuna condizione sperimentale corrisponde ad una colonna Il generico elemento (i,j) della matrice rappresenta il livello espressivo del gene i nella condizione sperimentale j Generalemente è un numero reale che rappresenta il logoritmo del valore dell mrna del gene sopo par;colari condizioni sperimentali

33 Clustering (1) Un problema di clustering può essere visto come una classificazione non supervisionata A tal proposito il clustering è appropriato quando non c è alcuna conoscenza dei da; Assenza di label: necessario classificare i dati Exp. e1 e2 e3 e4 L g ? g2? Genes g3? g4? g5? Exp. Genes g1 g2 g3 g4 g5 L e1 0.76? e2 3.2? e3? e4-0.45? Il clustering è una metodologia di analisi dei da; molto usato al fine di verificare ipotesi intui;ve rela;ve a grandi basi di da; effepuare un pre- processing dei da; per prepararli ad analisi successive (e.g., iden;ficazione di geni predipori per la classificazione di tumori) iden;ficare biomarker (i.e., indicatore di uno stato biologico)

34 Clustering (2) Il clustering è soggettivo Le label sono determinate da un umano I Simpson Impiegati Donne Maschi Il clustering dipende da una misura di somiglianza (relational criterion) che sarà espresso attraverso una funzione di distanza 7

35 Il clustering può essere effepuato su ogni ;po di da; Geni, campioni, ;me points in una ;me series, etc. Gli algoritmi di clustering traperanno tuk gli input come un set di n numeri o come un vepore n- dimensionale Il clustering consente di esplorare da; in maniera efficace La visualizzazione dei da; può aiutare a controllare la qualità dei da; Clustering (3) Si basa sull assunzione Guilt by associa#on Geni che hanno simili papern espressivi possono indicare una relazione biologica

36 Il Clustering e la Biologia In trascri>omica, il clustering è usato per costruire gruppi di geni con papern espressivi (osserva; in diversi esperimen;) tra loro collega; (co- expressed genes) Nell analisi delle sequenze, il clustering è usato per raggruppare sequenze omologhe in famiglie di geni Nella diagnosi di tumori e trapamen;: Iden;ficare nuove classi di campioni biologici (e.g., sopo;pi di tumori) TraPamen; individuali Lo stesso ;po di tumore (in diversi pazien;) non necessariamente risponde allo stesso modo alla terapia NCI- 60 Cancer Cell Line Muta;on Data Con;ene i livelli espressivi di circa 1400 geni e la farmo- resistenza rispepo a 1400 medicinali forni; dal Na;onal Cancer Ins;tute per 60 cellule tumorali

37 Expression Vectors I Gene Expression Vectors sono usa; per rappresentare l espressione di un gene in diverse condizioni sperimentali o ;pi di campionamento

38 Interpretazione geometrica t 1 t 2 t 3 G G G Similar Expression G G Experiment 3 Experiment 2 Experiment 1

39 Distanza Intra e Inter- cluster La distanza intracluster è minimizzata La distanza intercluster è massimizzata

40 Cos è la somiglianza Similarity is hard to define, but We know it when we see it Determinare la somiglianza tra oggetti è un tipico task di machine learning 15

41 Analisi dei cluster (1) Per raggruppare insieme oggek è necessario definere: 1. Misura di Distanza tra oggeb: definisce il significato della somiglianza/diversità degli oggek Two conditions and n genes Two genes and n conditions

42 Analisi dei cluster (2) 2. Algoritmo di clustering: definisce le operazioni per openere un insieme di cluster Considerare tupe le possibili soluzioni e prendere quella che ha il migliore inter e intra distanza è impra;cabile... Possibili soluzioni dove k rappresenta il numero di cluster e n il numero di punti

43 Proprietà della distanza Un misura di distanza d è una funzione che prende come argomento due pun; x e y in uno spazio n- dimenzionale Rn e ha le seguen; proprietà: Simmetria: la distanza deve essere simmetrica, ovvero d(x,y) = d(y,x) Posi#vità: la distanza tra due pun; deve essere un numero reale maggiore o uguale a zero d(x,y) 0 per ogni x e y. L uguaglianza è vera solo e solo se x = y, i.e., d(x,x) = 0 Disuguaglianza triangolare: la distanza tra due pun; x e y deve essere minore o iguale della somma delle distanze da x e un terzo punto z e da z a y: d(x,y) d(x,z) + d(z,y) Tale proprietà riflepe il fapo che la distanza tra due pun; dovrebbe essere calcolata considerando il cammino più breve

44 Misure di distanza Da; due vepori n- dimensionali x=(x1, x2,,xn) e y=(y1, y2,,yn), la distanza tra x e y può essere calcolata usando diverse misure: Euclidean distance squared standardized ManhaPan distance Chebychev distance Cosine similarity (Angle) Correla;on distance Mahalanobis distance Minkowski distance

45 Euclidean Distance La distanza Euclidea prende in considerazione sia la direzione che il magnitudo di due vepori La distanza Euclidea tra due vepori n- dimensionali x=(x1,x2,,xn) e y=(y1,y2,,yn) è data da: Ciascun asse rappresenta un esperimento La coordinata di ciascun asse è l espressività del gene nell esperimento (n = 2)

46 Squared Euclidean Distance La distanza Euclidea quadra;ca tra due vepori n- dimensionali x=(x1,x2,,xn) and y=(y1,y2,,yn) è: A differenza della distanza Euclidea, quella quadra;ca tende a date più peso agli outliers (geni con livelli espressivi molto diversi in ciascuna condizione, o due condizioni che causano livelli espressivi molto diversi in ciascun gene) a causa della mancanza della radice quadrata

47 Standardized Euclidean Distance L idea chiave è che non tupe le direzioni hanno la stessa importanza. La distanza Euclidea standardizzata tra due vepori n- dimensionali x=(x1,x2,,xn) e y=(y1,y2,,yn) è: Exp. Dove s 2 1 è la varianza della prima dimensione nello spazio n- dimensionale e 1 e 2 e 3 e n x x 1 x 2 x n y y 1 y 2 y n Genes Usa l idea di pesare ciascuna dimensione con una quan;à inversamente proporzionale alla variabilità dei valori lungo ciascuna dimensione

48 ManhaPan Distance La distanza di ManhaPan rappresenta la distanza misurata lungo direzioni parallele agli assi La distanza di ManhaPan tra due vepori n- dimensionali x=(x1,x2,,xn) e y=(y1,y2,,yn) è:

49 Chebychev Distance La distanza di Chebychev considera semplicemente la maggiore distanza tra due coordinate di due vepori. Ad esempio, se i vepori x=(x1,x2,,xn) e y=(y1,y2,,yn) sono due geni misura; in n esperimen;, la distanza di Chebychev prenderà in considerazione il solo esperimento in cui i due geni hanno la massima differenza espressiva e considererà tale differenza come distanza tra i due geni. Generalmente usata per evidenziare le differenze maggiori tra coordinate corrisponden;. La distanza di Chebychev tra due vepori n- dimensionali x=(x1,x2,,xn) and y=(y1,y2,,yn) è: Da notare che tale misura di distanza è molto sensible ad outlier e poco resistente ad errori di misurazione

50 Cosine Similarity (Angle) The Cosine Similarity takes into account only the angle and discards the magnitude. The Cosine Similarity distance between two n- dimensional vectors x=(x1,x2,,xn) and y=(y1,y2,,yn) is: x x dα ( x, y) = cos( θ) = y = 2 2 x1 + x2 + = x x i= 1 x1 y1 + x2 y2 + + n y y 2 + x n = x i x n 2 y n = n i= 1 x i y i Gene2 Expression Level Gene1 Expression Level θ xy

51 Correla;on Distance La Pearson correla;on distance calcola la distanza tra ciascun punto e la repa di regressione La Pearson correla;on distance tra due vepori n- dimensionali x=(x1,x2,,xn) e y=(y1,y2,,yn) è: dove rappresenta il coefficiente di correlazione di Pearson

52 Mahalanobis Distance La distanza di Mahalanobis tra due vepori n- dimensionali x=(x1,x2,,xn) e y=(y1,y2,,yn) è: La matrice S serve a distorcere lo spazio veporiale. Generalmente S è rappresentata dalla matrice della covarianza. Se invece S è la matrice iden;tà la distanza di Mahalanobis si riduce a quella Euclidea:

53 Minkowski Distance La distanza di Minkowski è una generalizzazione della distanza Euclidea e di ManhaPan. La distanza di Minkowski tra due vepori n- dimensionali x=(x1,x2,,xn) e y=(y1,y2,,yn) è: d M k( x, y) = { } m m m x y + x y + + x y n n 1 m = n i= 1 x i y i m 1 m Ricordando che per m = 1 la distanza si riduce a quella di ManhaPan distance, mentre per m = 2 la distanza di Minkowski si riduce a quella Euclidea

54 Come scegliere la misura? La scelta della misura di distanza è legata al dominio applica;vo, i.e., che ;po di somiglianza si è interessa; a capurare? Euclidean distance: prende in considerazione il magnitudo delle differenze tra i livelli espressivi Distance Correla#on: insensibile all ampiezza delle espressioni, considera solo il trend del cambiamento

55 Confronto tra distanze (1) Euclidean Distance: la più conosciuta ed anche più usata Squared Euclidean Distance: tende ad enfa;zzare le distanze. Gli stessi da; clusterizza; con una distanza euclidea quadra;ca potrebbero apparire più sparsi e meno compak Standardized Euclidean: elimina l influenza di diversi range di variazione. TuPe le direzioni saranno ugualmente imporan; Manha>an Distance: l insieme di geni o esperimen; alla stessa distanza da un punto di riferimento non coincide con l insieme di geni o esperimen; costruito con la distanza Euclidea

56 Confronto tra distanze (2) Cosine Distance (angle): considera solo l angolo e non il magnitudo. Ad esempio: un gene g1 misurato in due esperimen;: g1=(1,1) un gene g2 misurato in due esperimen;: g2 =(100,100) avranno la sequente distanza cos( θ ) = x x y y = 100 [ ] = = 1 l angolo tra i due vepori è zero. Il clustering con questa misura di distanza posizionerà g1 e g2 nello stesso cluster anche se il loro livello espressivo è molto diverso!

57 Confronto tra distanze (3) Correla#on distance: considera simili variazioni e non simili valori numerici. Ad esempio, si consideri un insieme di 5 esperimen; e un gene g1 che ha la seguente espressività g1=(1,2,3,4,5) nei 5 esperimen;. un gene g2 che ha la seguente espressività g2=(100,200,300,400,500) nei 5 esperimen;. un gene g3 che ha la seguente espressività g3=(5,4,3,2,1) nei 5 esperimen;. La correla;on distance meperà g1 e g2 nello stesso cluster e g3 in un cluster diverso, poichè: g1= (1,2,3,4,5) e g2=(100,200,300,400,500) hanno un alta correlazione (1) d(g1,g2) = 1- r = 1-1 = 0 g1= (1,2,3,4,5) e g3= (5,4,3,2,1) sono correla; inversamente (- 1) d(g1,g3) = 1- r = 1- (- 1) = 2

58 Confronto tra distanze (4) Chebychev distance: si focalizza sulle differenze più importan;. I vepori (1,2,3,4) e (2,3,4,5) hanno distanza Euclidea 2 e 1 come distanza di Chebychev. I vepori (1,2,3,4) e (1,2,3,6) hanno distanza Euclidea e 2 come distanza di Chebychev. Mahalanobis distance: può deformare lo spazio nel modo più conviente. Generalmente, lo spazio è deformato usando la matrice di covarianza.

59 Osservazioni Tu>o può essere clusterizzato Il clustering è altamente dipendente dalla misura di distanza ado>ata. Cambiare la misura di distanza può influenzare dramma;camente il numero e la composizione dei cluster, così come le relazioni tra loro Lo stesso algor#mo di clustering applicato allo stesso dataset può produrre risulta# diversi. Mol; algor;mi di clustering hanno una componente non- determinis;ca intrinseca Un insieme di cluster che include tuk i geni o gli esperimen; considera; forma un clustering, albero di cluster o dendogramma

60 Algoritmi di clustering I tradizionali algoritmi di clustering posso essere divisi in tre principali categorie: Clustering par;zionale Clustering gerarchico Model- based clustering

61 Par;;onal Clustering Il clustering par;zionale ha l obiekvo di dirivare par;zioni (cluster) da una collezione di oggek Mol; di ques; metodi sono basa; sull okmizzazione itera;va di un criterio (funzione obiebvo) che riflepe l agreement tra i da; e la par;zione Un esempio di funzione obiekvo: minimizzare la distanza intra- cluster e massimizzare quella inter- cluster Uno degli algor;mi di clustering par;zionale più usato è il k- means

62 Par;;onal Clustering: k- Means 1. Specificare il numero di cluster desidera; (K) 2. Selezionare il maniera random K elemen; rappresenta;vi, chiama; centroidi 3. Calcolare la distanza di ciascun papern (punto) dal tuk i centroidi 4. Asssegnare i pun; a centroide con la minima distanza 5. Aggiornare i centroidi con la media degli elemen; appartenen; a ciascun cluster e calcolare la nuova composizione dei cluster 6. Controllare la condizione di convergenza Se tuk i pun; sono sta; assegna; agli stessi cluster rispepo all iterazione precedente e quindi tuk i centroidi restano invaria;, fermare il processo Altrimen;, ripar;re dal punto 3

63 K- means clustering (k=3)

64 CaraPeris;che del K- means Una diversa inizializzazione potrebbe produrre cluster diversi. Quindi, diversi run dell algor;mo potrebbero portare a clustering diversi Inizializzazione 1 Inizializzazione II L algoritmo ha una bassa seman;ca: il labelling e l interpretazione dei cluster è una fase successiva

65 Nearest Neighbor Clustering Il numero di cluster (k) non è fissato a priori Una soglia (t) è usata per determinare se un nuovo oggepo deve essere aggiunto ad un cluster esistente oppure è necessario crearne uno nuovo Gli oggek sono aggiun; (in maniera incrementale) ai cluster esisten; più vicini E un algor;mo incrementale

66 Nearest Neighbor Clustering (1) Si sepa una soglia t t

67 Nearest Neighbor Clustering (2) Arriva un nuovo dato Si controlla la soglia t 8 7 Poichè il nuovo dato è 6 all interno della soglia 5 per il cluster 1, il nuovo dato è aggiunto a tale cluster. Si aggiorna il 1 2 centroide Metodi numerici per la bioinformatica 46 Francesco Archetti

68 Nearest Neighbor Clustering 10 Arriva un nuovo dato Si controlla la soglia t 7 6 Poichè il nuovo dato è al 5 di fuori della soglia per il cluster 1, si crea un nuovo cluster Metodi numerici per la bioinformatica 47 Francesco Archetti

69 Nearest Neighbor Clustering Arriva un nuovo dato... Difficile determinare t a priori Si controlla la soglia t Poichè il nuovo dato è al di fuori della soglia per il cluster 1, si crea un Un diverso valore di t implica un diverso nuovo cluster. 10 valore per la distanza intra/inter cluster Metodi numerici per la bioinformatica 47 Francesco Archetti

70 Hierarchical Clustering Il clustering gerarchio mira a un obiekvo più ambizioso, ovvero quello di openere una gerarchia di cluster (dendogramma) che mostra come i cluster sono collega; gli uni agli altri L altezza di un nodo nel dendogramma rappresenta la somiglianza dei due cluster figli

71 Il dendogramma Similarity threshold : 60% Similarity threshold : 70%

72 Euris;che Poichè non è possibile provare tuk i possibili alberi, è necessario definire delle euris;che per costruire il dendogramma Il clustering gerarchico è determinis;co e si okene in due modi: Bo>om- Up (Agglomera#ve): si parte mepeno ciascun oggepo nel proprio cluster, dopodicchè si cerca la migliore coppia e si crea un nuovo cluster. Si con;nua così fino ad arrivare a mepere tuk gli oggek in un unico cluster Top- Down (divisive): si parte mependo tuk gli oggek in un unico cluster, dopodicchè si considerano tupe le possibili strade per dividere il cluster in due. Si sceglie la migliore divisione e si con;nua ad operare in maniera ricorsiva su entrambe le par;zioni create

73 Agglomera;ve Hierarchical Clustering (1) 1. Calcola la distanza tra tuk i data point (geni o esperimen;) 2. Clusterizza i data point in cluster iniziali 3. Calcola la distanza tra tuk i cluster 4. Fondi le coppie di cluster più simili 5. Ripe; 3 e 4 finchè tuk gli elemen; non sono raggruppa; in un unico cluster

74 Agglomera;ve Hierarchical Clustering (2)

75 Varian; del AHC (1) Esistono diversi modi per determinare la somiglianza tra cluster complete-link -max dist.- single-link -min dist.- Group-average -avg dist.-

76 Varian; del AHC (2) Il clustering gerarchico agglomera;vo dipende molto dalla scelta della misura di somiglianza tra cluster Single linkage: distanza tra i meno distan; vicini Complete linkage: distanza tra i più distan; vicini Central linkage: distanza tra i centroidi Average linkage: distanza media tra tuk i pun; Single e Complete linkage usano distanze già calcolate, mentre l average linkage è il più onoreso

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis

Dettagli

Data mining e rischi aziendali

Data mining e rischi aziendali Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento

Dettagli

Algoritmi di clustering

Algoritmi di clustering Algoritmi di clustering Dato un insieme di dati sperimentali, vogliamo dividerli in clusters in modo che: I dati all interno di ciascun cluster siano simili tra loro Ciascun dato appartenga a uno e un

Dettagli

Uno standard per il processo KDD

Uno standard per il processo KDD Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo

Dettagli

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Sistemi informazionali La crescente diffusione dei

Dettagli

Regressione non lineare con un modello neurale feedforward

Regressione non lineare con un modello neurale feedforward Reti Neurali Artificiali per lo studio del mercato Università degli studi di Brescia - Dipartimento di metodi quantitativi Marco Sandri (sandri.marco@gmail.com) Regressione non lineare con un modello neurale

Dettagli

REALIZZARE UN MODELLO DI IMPRESA

REALIZZARE UN MODELLO DI IMPRESA REALIZZARE UN MODELLO DI IMPRESA - organizzare e gestire l insieme delle attività, utilizzando una piattaforma per la gestione aziendale: integrata, completa, flessibile, coerente e con un grado di complessità

Dettagli

LA STATISTICA E IL CALCOLO DELLE PROBABILITÀ

LA STATISTICA E IL CALCOLO DELLE PROBABILITÀ LA STATISTICA E IL CALCOLO DELLE PROBABILITÀ Prof. Francesco Tottoli Versione 3 del 20 febbraio 2012 DEFINIZIONE È una scienza giovane e rappresenta uno strumento essenziale per la scoperta di leggi e

Dettagli

Analisi di dati Microarray: Esercitazione Matlab

Analisi di dati Microarray: Esercitazione Matlab Analisi di dati Microarray: Esercitazione Matlab Laboratorio di Bioinformatica II Pietro Lovato Anno Accademico 2010/2011 Contenuti 1 Introduzione DNA Microarray 2 Lavorare con una singola ibridazione

Dettagli

Mining Positive and Negative Association Rules:

Mining Positive and Negative Association Rules: Mining Positive and Negative Association Rules: An Approach for Confined Rules Alessandro Boca Alessandro Cislaghi Premesse Le regole di associazione positive considerano solo gli item coinvolti in una

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Data Mining e Analisi dei Dati

Data Mining e Analisi dei Dati e Analisi dei Dati Rosaria Lombardo Dipartimento di Economia, Seconda Università di Napoli La scienza che estrae utili informazioni da grandi databases è conosciuta come E una disciplina nuova che interseca

Dettagli

Gestione della produzione e della supply chain Logistica distributiva. Paolo Detti Dipartimento di Ingegneria dell Informazione Università di Siena

Gestione della produzione e della supply chain Logistica distributiva. Paolo Detti Dipartimento di Ingegneria dell Informazione Università di Siena Gestione della produzione e della supply chain Logistica distributiva Paolo Detti Dipartimento di Ingegneria dell Informazione Università di Siena Problemi di Distribuzione: Il problema del Vehicle Rou:ng

Dettagli

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE

STATISTICA DESCRITTIVA SCHEDA N. 5: REGRESSIONE LINEARE STATISTICA DESCRITTIVA SCHEDA N. : REGRESSIONE LINEARE Nella Scheda precedente abbiamo visto che il coefficiente di correlazione fra due variabili quantitative X e Y fornisce informazioni sull esistenza

Dettagli

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testuali Il text mining: una definizione Data mining per dati destrutturati ovvero documenti codificati in linguaggio

Dettagli

CAPITOLO 4 LA CREAZIONE DI TABELLE D ATTIVITÀ E SCHEDE DI SPESA

CAPITOLO 4 LA CREAZIONE DI TABELLE D ATTIVITÀ E SCHEDE DI SPESA CAPITOO 4 A CREAZIONE DI TABEE D ATTIVITÀ E SCHEDE DI SPESA 55 A CREAZIONE DI TABEE D ATTIVITÀ E SCHEDE DI SPESA 57 Questo capitolo descrive l uso del Q per sviluppare budget e piani di lavoro basati sul

Dettagli

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Obiettivi. Presentare l evoluzione dei sistemi informativi: da supporto alla operatività a supporto al momento decisionale Definire

Dettagli

Data Mining a.a. 2010-2011

Data Mining a.a. 2010-2011 Data Mining a.a. 2010-2011 Docente: mario.guarracino@cnr.it tel. 081 6139519 http://www.na.icar.cnr.it/~mariog Informazioni logistiche Orario delle lezioni A partire dall 19.10.2010, Martedì h: 09.50 16.00

Dettagli

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Data warehousing Introduzione A partire dalla metà degli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa

Dettagli

Data Warehousing (DW)

Data Warehousing (DW) Data Warehousing (DW) Il Data Warehousing è un processo per estrarre e integrare dati storici da sistemi transazionali (OLTP) diversi e disomogenei, e da usare come supporto al sistema di decisione aziendale

Dettagli

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it Data Mining Gabriella Trucco gabriella.trucco@unimi.it Perché fare data mining La quantità dei dati memorizzata su supporti informatici è in continuo aumento Pagine Web, sistemi di e-commerce Dati relativi

Dettagli

Pianificazione del data warehouse

Pianificazione del data warehouse Pianificazione del data warehouse Dalla pianificazione emergono due principali aree d interesse: area commerciale focalizzata sulle agenzie di vendita e area marketing concentrata sulle vendite dei prodotti.

Dettagli

Altri metodi di indicizzazione

Altri metodi di indicizzazione Organizzazione a indici su più livelli Altri metodi di indicizzazione Al crescere della dimensione del file l organizzazione sequenziale a indice diventa inefficiente: in lettura a causa del crescere del

Dettagli

Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008

Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008 Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008 Dott. Chiara Cornalba COMUNICAZIONI La lezione del 30 ottobre è sospesa per missione all estero del Prof. Giudici. Dal 6 Novembre

Dettagli

Informatica Documentale

Informatica Documentale Informatica Documentale Ivan Scagnetto (scagnett@dimi.uniud.it) Stanza 3, Nodo Sud Dipartimento di Matematica e Informatica Via delle Scienze, n. 206 33100 Udine Tel. 0432 558451 Ricevimento: giovedì,

Dettagli

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni Data warehouse Data warehouse La crescita dell importanza dell analisi dei dati ha portato ad una separazione architetturale dell ambiente transazionale (OLTP on-line transaction processing) da quello

Dettagli

IL VALORE DEL CLIENTE NELLA GESTIONE DEI PROCESSI AZIENDALI. Ing. Andrea Giaconi

IL VALORE DEL CLIENTE NELLA GESTIONE DEI PROCESSI AZIENDALI. Ing. Andrea Giaconi IL VALORE DEL CLIENTE NELLA GESTIONE DEI PROCESSI AZIENDALI Ing. Andrea Giaconi Il cliente chi è? È il giudice ul=mo della mia impresa Stringe relazioni Il suo comportamento varia nel tempo Per ges=rlo

Dettagli

LA RICERCA NEI SOCIAL MEDIA

LA RICERCA NEI SOCIAL MEDIA LA RICERCA NEI SOCIAL MEDIA La RICERCA è fondamentale per prendere decisioni e individaure linee strategiche per gli operatori di marke>ng. Cosa monitorare? Tu/o ciò che è PUBBLICO Da# Primari: metodi

Dettagli

Modelli matematici avanzati per l azienda a.a. 2010-2011

Modelli matematici avanzati per l azienda a.a. 2010-2011 Modelli matematici avanzati per l azienda a.a. 2010-2011 Docente: Pasquale L. De Angelis deangelis@uniparthenope.it tel. 081 5474557 http://www.economia.uniparthenope.it/siti_docenti P.L.DeAngelis Modelli

Dettagli

Tecniche di Simulazione: Introduzione. N. Del Buono:

Tecniche di Simulazione: Introduzione. N. Del Buono: Tecniche di Simulazione: Introduzione N. Del Buono: 2 Che cosa è la simulazione La SIMULAZIONE dovrebbe essere considerata una forma di COGNIZIONE (COGNIZIONE qualunque azione o processo per acquisire

Dettagli

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo Distributed P2P Data Mining Autore: (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo A.A. 2005/2006 Il settore del Data Mining Distribuito (DDM): Data Mining: cuore del processo

Dettagli

Relazione sul data warehouse e sul data mining

Relazione sul data warehouse e sul data mining Relazione sul data warehouse e sul data mining INTRODUZIONE Inquadrando il sistema informativo aziendale automatizzato come costituito dall insieme delle risorse messe a disposizione della tecnologia,

Dettagli

ANALISI DEI DATI BIOLOGICI

ANALISI DEI DATI BIOLOGICI ANALISI DI DATI BIOLOGICI RAPPRSNTAR L COMUNITA tramite descrizioni grafiche e relazioni tra gli organismi presenti nei vari campioni. DISCRIMINAR dei siti sulla base della loro composizione biologica.

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: similarità Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Definizioni preliminari

Dettagli

Di testi ed immagini

Di testi ed immagini Università Cattolica del Sacro Cuore - Brescia 23/5/2005 Parte I: Richiami di algebra lineare Parte II: Applicazioni Sommario della Parte I 1 Diagonalizzabilità di una matrice Autovalori ed autovettori

Dettagli

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse Introduzione data warehose Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa Data Warehouse Che cosa e un data warehouse? Quali sono i modelli dei dati per data warehouse Come si progetta

Dettagli

Intelligenza Artificiale

Intelligenza Artificiale Intelligenza Artificiale Anno accademico 2008-2009 Information Retrieval: Text Categorization Una definizione formale Sia D il dominio dei documenti Sia C = {c 1,,c C } un insieme di categorie predefinite

Dettagli

Indice. pagina 2 di 10

Indice. pagina 2 di 10 LEZIONE PROGETTAZIONE ORGANIZZATIVA DOTT.SSA ROSAMARIA D AMORE Indice PROGETTAZIONE ORGANIZZATIVA---------------------------------------------------------------------------------------- 3 LA STRUTTURA

Dettagli

Analisi dei Dati. Lezione 10 Introduzione al Datwarehouse

Analisi dei Dati. Lezione 10 Introduzione al Datwarehouse Analisi dei Dati Lezione 10 Introduzione al Datwarehouse Il Datawarehouse Il Data Warehousing si può definire come il processo di integrazione di basi di dati indipendenti in un singolo repository (il

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

Gli strumen, social e l usabilità al servizio della scuola. Da MatchPoint a La Buona Scuola

Gli strumen, social e l usabilità al servizio della scuola. Da MatchPoint a La Buona Scuola Gli strumen, social e l usabilità al servizio della scuola Da MatchPoint a La Buona Scuola premessa Social media: tecnologie online che le persone u7lizzano per interagire e condividere contenu7 Potenzialmente

Dettagli

Ricerca di outlier. Ricerca di Anomalie/Outlier

Ricerca di outlier. Ricerca di Anomalie/Outlier Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

IL PROCESSO TECNICO DI PIANIFICAZIONE: TECNICHE DI SCOMPOSIZIONE DI UN PROJECT (WBS) LABORATORIO INTEGRATO DI COSTRUZIONE E PRODUZIONE LEZIONE 3

IL PROCESSO TECNICO DI PIANIFICAZIONE: TECNICHE DI SCOMPOSIZIONE DI UN PROJECT (WBS) LABORATORIO INTEGRATO DI COSTRUZIONE E PRODUZIONE LEZIONE 3 IL PROCESSO TECNICO DI PIANIFICAZIONE: TECNICHE DI SCOMPOSIZIONE DI UN PROJECT (WBS) IL PROCESSO TECNICO DI PIANIFICAZIONE Un progetto è un insieme complesso di numerose attività finalizzate al raggiungimento

Dettagli

DATABASE SU EXCEL: I FILTRI

DATABASE SU EXCEL: I FILTRI DATABASE SU EXCEL: I FILTRI È possibile mettere in relazione i dati in base a determinati criteri di ricerca e creare un archivio di dati E necessario creare delle categorie di ordinamento in base alle

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Data Mining. Introduzione La crescente popolarità

Dettagli

Introduzione alla Business Intelligence

Introduzione alla Business Intelligence SOMMARIO 1. DEFINIZIONE DI BUSINESS INTELLIGENCE...3 2. FINALITA DELLA BUSINESS INTELLIGENCE...4 3. DESTINATARI DELLA BUSINESS INTELLIGENCE...5 4. GLOSSARIO...7 BIM 3.1 Introduzione alla Pag. 2/ 9 1.DEFINIZIONE

Dettagli

Obiettivo Principale: Aiutare gli studenti a capire cos è la programmazione

Obiettivo Principale: Aiutare gli studenti a capire cos è la programmazione 4 LEZIONE: Programmazione su Carta a Quadretti Tempo della lezione: 45-60 Minuti. Tempo di preparazione: 10 Minuti Obiettivo Principale: Aiutare gli studenti a capire cos è la programmazione SOMMARIO:

Dettagli

WWW.MECDATA.IT P22 P22 : SOFTWARE PER LA PREVENTIVAZIONE. Mecdata Srl www.mecdata.it info@mecdata.it Tel.051.790428

WWW.MECDATA.IT P22 P22 : SOFTWARE PER LA PREVENTIVAZIONE. Mecdata Srl www.mecdata.it info@mecdata.it Tel.051.790428 WWW.MECDATA.IT v.2.7 P22 P22 : SOFTWARE PER LA PREVENTIVAZIONE P22 P22 : SOFTWARE PER LA PREVENTIVAZIONE P22... 2 I valori del preventivo... 3 Header Testata... 3 Materiali M20... 3 Ciclo di Lavoro...

Dettagli

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale Esperienze di Apprendimento Automatico per il corso di lippi@dsi.unifi.it Dipartimento Sistemi e Informatica Università di Firenze Dipartimento Ingegneria dell Informazione Università di Siena Introduzione

Dettagli

MASTER UNIVERSITARIO

MASTER UNIVERSITARIO MASTER UNIVERSITARIO Analisi Dati per la Business Intelligence In collaborazione con II edizione 2013/2014 Dipartimento di Culture, Politica e Società Dipartimento di Informatica gestito da aggiornato

Dettagli

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,

Dettagli

Data Warehousing e Data Mining

Data Warehousing e Data Mining Università degli Studi di Firenze Dipartimento di Sistemi e Informatica A.A. 2011-2012 I primi passi Data Warehousing e Data Mining Parte 2 Docente: Alessandro Gori a.gori@unifi.it OLTP vs. OLAP OLTP vs.

Dettagli

Entropia. Motivazione. ? Quant è l informazione portata dalla sequenza? Abbiamo una sequenza S di N simboli (campioni audio, pixel, caratteri,...

Entropia. Motivazione. ? Quant è l informazione portata dalla sequenza? Abbiamo una sequenza S di N simboli (campioni audio, pixel, caratteri,... Entropia Motivazione Abbiamo una sequenza S di N simboli (campioni audio, pixel, caratteri,... ) s,s 2,s 3,... ognuno dei quali appartiene ad un alfabeto A di M elementi.? Quant è l informazione portata

Dettagli

Analizza/Confronta medie. ELEMENTI DI PSICOMETRIA Esercitazione n. 7-8-9-107. Test t. Test t. t-test test e confronto tra medie chi quadrato

Analizza/Confronta medie. ELEMENTI DI PSICOMETRIA Esercitazione n. 7-8-9-107. Test t. Test t. t-test test e confronto tra medie chi quadrato Analizza/Confronta medie ELEMENTI DI PSICOMETRIA Esercitazione n. 7-8-9-107 t-test test e confronto tra medie chi quadrato C.d.L. Comunicazione e Psicologia a.a. 2008/09 Medie Calcola medie e altre statistiche

Dettagli

Data warehouse Introduzione

Data warehouse Introduzione Database and data mining group, Data warehouse Introduzione INTRODUZIONE - 1 Pag. 1 Database and data mining group, Supporto alle decisioni aziendali La maggior parte delle aziende dispone di enormi basi

Dettagli

Elementi di Statistica

Elementi di Statistica Elementi di Statistica Contenuti Contenuti di Statistica nel corso di Data Base Elementi di statistica descrittiva: media, moda, mediana, indici di dispersione Introduzione alle variabili casuali e alle

Dettagli

Pivot è bello. Principali. misure di variabilità. Il contesto è di tipo matematico, in particolare riguarda l uso di dati numerici e delle loro

Pivot è bello. Principali. misure di variabilità. Il contesto è di tipo matematico, in particolare riguarda l uso di dati numerici e delle loro Pivot è bello Livello scolare: 1 biennio Abilità Conoscenze interessate Predisporre la struttura della Distribuzioni delle matrice dei dati grezzi con frequenze a seconda del riguardo a una rilevazione

Dettagli

Cluster gerarchica. Capitolo

Cluster gerarchica. Capitolo Cluster gerarchica Capitolo 33 Questa procedura consente di identificare gruppi di casi relativamente omogenei in base alle caratteristiche selezionate, utilizzando un algoritmo che inizia con ciascun

Dettagli

Sistemi Informativi Aziendali I

Sistemi Informativi Aziendali I Modulo 6 Sistemi Informativi Aziendali I 1 Corso Sistemi Informativi Aziendali I - Modulo 6 Modulo 6 Integrare verso l alto e supportare Managers e Dirigenti nell Impresa: Decisioni più informate; Decisioni

Dettagli

CURRICOLO MATEMATICA ABILITA COMPETENZE

CURRICOLO MATEMATICA ABILITA COMPETENZE CURRICOLO MATEMATICA 1) Operare con i numeri nel calcolo aritmetico e algebrico, scritto e mentale, anche con riferimento a contesti reali. Per riconoscere e risolvere problemi di vario genere, individuando

Dettagli

Facoltà di Farmacia - Corso di Informatica

Facoltà di Farmacia - Corso di Informatica Basi di dati Riferimenti: Curtin cap. 8 Versione: 13/03/2007 1 Basi di dati (Database, DB) Una delle applicazioni informatiche più utilizzate, ma meno conosciute dai non informatici Avete già interagito

Dettagli

CRM analitico: introduzione. Andrea Farinet

CRM analitico: introduzione. Andrea Farinet CRM analitico: introduzione Andrea Farinet 1 1. Agenda Definizione di Customer Relationship Management (CRM) Le caratteristiche strutturali di un progetto di Customer Relationship Management Il Customer

Dettagli

Università degli Studi Roma Tre - Corso di Laurea in Matema9ca. Corso di Laurea in Matema1ca Dipar9mento di Matema9ca e Fisica

Università degli Studi Roma Tre - Corso di Laurea in Matema9ca. Corso di Laurea in Matema1ca Dipar9mento di Matema9ca e Fisica Corso di Laurea in Matema1ca Dipar9mento di Matema9ca e Fisica Sistemi per l elaborazione delle informazioni 6. Data warehouse Dispense del corso IN530 prof. Marco Liverani Sistemi operazionali e informazionali

Dettagli

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida Introduzione alle tecniche di Data Mining Prof. Giovanni Giuffrida Programma Contenuti Introduzione al Data Mining Mining pattern frequenti, regole associative Alberi decisionali Clustering Esempio di

Dettagli

MACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it

MACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it MACHINE LEARNING e DATA MINING Introduzione a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it Apprendimento Automatico(i) Branca dell AI che si occupa di realizzare dispositivi artificiali capaci di

Dettagli

Introduzione al Pattern Recognition Statistico

Introduzione al Pattern Recognition Statistico Introduzione al Pattern Recognition Statistico Roberto Tagliaferri Dipartimento di Informatica Università di Salerno ( Sa ) 84084 Fisciano e-mail robtag@unisa.it Statistical Pattern Recognition Introduzione

Dettagli

Flusso e documenti del ciclo attivo. Lis8ni di vendita Offerta Ordine cliente Documento di trasporto (bolla) FaCure

Flusso e documenti del ciclo attivo. Lis8ni di vendita Offerta Ordine cliente Documento di trasporto (bolla) FaCure Ciclo a(vo Ciclo a(vo Insieme delle a(vità con cui i prodo( dell azienda vengono porta8 nelle mani dei clien8 in cambio dell equivalente valore monetario, incluse le a(vità di marke8ng e vendita FUNZIONI:

Dettagli

MASTER UNIVERSITARIO. Analisi Dati per la Business Intelligence e Data Science. IV edizione 2015/2016

MASTER UNIVERSITARIO. Analisi Dati per la Business Intelligence e Data Science. IV edizione 2015/2016 MASTER UNIVERSITARIO Analisi Dati per la Business Intelligence e Data Science In collaborazione con IV edizione 2015/2016 Dipartimento di Culture, Politica e Società Dipartimento di Informatica Dipartimento

Dettagli

Offerta tecnica. Allegato III Modelli di documentazione

Offerta tecnica. Allegato III Modelli di documentazione Offerta tecnica Allegato III Modelli di documentazione Gestione, sviluppo e manutenzione dell architettura software di Business Intelligence in uso presso Cestec S.p.A. Redatto da Omnia Service Italia

Dettagli

SAP Business Objects XI R3.1

SAP Business Objects XI R3.1 SAP Business Objects XI R3.1 Sistemi Informa;vi Avanza; Anno Accademico 2012/2013 Corso di Laurea Magistrale in Ingegneria Ges3onale Reggio Emilia, 12 aprile 2013 UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO

Dettagli

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali DIPARTIMENTO DI INGEGNERIA INFORMATICA AUTOMATICA E GESTIONALE ANTONIO RUBERTI Cenni al Data Mining 1 Data Mining nasce prima del Data Warehouse collezione di tecniche derivanti da Intelligenza Artificiale,

Dettagli

Lezione 3. Modello Multidimensionale dei Dati Metadati per il Data Warehousing Accesso ai Data Warehouses Implementazioni per il Data Warehousing

Lezione 3. Modello Multidimensionale dei Dati Metadati per il Data Warehousing Accesso ai Data Warehouses Implementazioni per il Data Warehousing Lezione 3 Modello Multidimensionale dei Dati Metadati per il Data Warehousing Accesso ai Data Warehouses Implementazioni per il Data Warehousing 27/02/2010 1 Modello multidimensionale Nasce dall esigenza

Dettagli

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011 Data warehousing Introduzione A partire dagli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa lezione vedremo

Dettagli

Cosa è un data warehouse?

Cosa è un data warehouse? Argomenti della lezione Data Warehousing Parte I Introduzione al warehousing cosa è un data warehouse classificazione dei processi aziendali sistemi di supporto alle decisioni elaborazione OLTP e OLAP

Dettagli

Informatica (Basi di Dati)

Informatica (Basi di Dati) Corso di Laurea in Biotecnologie Informatica (Basi di Dati) Introduzione alle Basi di Dati Anno Accademico 2009/2010 Da: Atzeni, Ceri, Paraboschi, Torlone - Basi di Dati Lucidi del Corso di Basi di Dati

Dettagli

Introduzione al Datamining. Francesco Passantino francesco@iteam5.net www.iteam5.net/francesco

Introduzione al Datamining. Francesco Passantino francesco@iteam5.net www.iteam5.net/francesco Introduzione al Datamining Francesco Passantino francesco@iteam5net wwwiteam5net/francesco Cos è il datamining Processo di selezione, esplorazione e modellazione di grandi masse di dati, al fine di scoprire

Dettagli

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini Dipartimento di Ingegneria della Informazione Via Diotisalvi, 2 56122 PISA ALGORITMI GENETICI (GA) Sono usati per risolvere problemi di ricerca

Dettagli

Responsabilità sociale d impresa e risparmio energetico. Barbara Pancino

Responsabilità sociale d impresa e risparmio energetico. Barbara Pancino Responsabilità sociale d impresa e risparmio energetico Barbara Pancino Facoltà di Scienze Poli9che Viterbo, 15 dicembre 2010 COSA È LA RESPONSABILITÀ SOCIALE D IMPRESA (RSI) La RSI è la decisione volontaria

Dettagli

I punteggi zeta e la distribuzione normale

I punteggi zeta e la distribuzione normale QUINTA UNITA I punteggi zeta e la distribuzione normale I punteggi ottenuti attraverso una misurazione risultano di difficile interpretazione se presi in stessi. Affinché acquistino significato è necessario

Dettagli

Corso di Informatica (Basi di Dati)

Corso di Informatica (Basi di Dati) Corso di Informatica (Basi di Dati) Lezione 1 (12 dicembre 2008) Introduzione alle Basi di Dati Da: Atzeni, Ceri, Paraboschi, Torlone - Basi di Dati Lucidi del Corso di Basi di Dati 1, Prof. Carlo Batini,

Dettagli

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini Dipartimento di Ingegneria della Informazione Via Diotisalvi, 2 56122 PISA ALGORITMI GENETICI (GA) Sono usati per risolvere problemi di ricerca

Dettagli

Product Overview. ITI Apps Enterprise apps for mobile devices

Product Overview. ITI Apps Enterprise apps for mobile devices Product Overview ITI Apps Enterprise apps for mobile devices ITI idea, proge2a e sviluppa apps per gli uten6 business/enterprise che nell ipad, e nelle altre pia2aforme mobili, possono trovare un device

Dettagli

Informatica corso di laboratorio

Informatica corso di laboratorio Informatica corso di laboratorio 8 ore di laboratorio Due gruppi due turni Argomen0 tra1a0: Microso6 Excell Gruppo 1 cognomi da A a L Ve 6/11 20/11 dalle 9 alle 11 DOCENTE: Federica Mandreoli Riceve su

Dettagli

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca

Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva. Brugnaro Luca Come descrivere un fenomeno in ambito sanitario fondamenti di statistica descrittiva Brugnaro Luca Progetto formativo complessivo Obiettivo: incrementare le competenze degli operatori sanitari nelle metodiche

Dettagli

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva

Università del Piemonte Orientale. Corsi di Laurea Triennale. Corso di Statistica e Biometria. Introduzione e Statistica descrittiva Università del Piemonte Orientale Corsi di Laurea Triennale Corso di Statistica e Biometria Introduzione e Statistica descrittiva Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione

Dettagli

Modello OAIS. Modello di riferimento. Il Modello. Prof.ssa E. Gentile a.a. 2011-2012. Un modello di riferimento dovrebbe descrivere:

Modello OAIS. Modello di riferimento. Il Modello. Prof.ssa E. Gentile a.a. 2011-2012. Un modello di riferimento dovrebbe descrivere: Modello OAIS Prof.ssa E. Gentile a.a. 2011-2012 Prof.ssa E. Gentile Progettazione e Produzione di Contenuti Digitali 1 Modello di riferimento Un modello di riferimento dovrebbe descrivere: le componenti

Dettagli

Fondamenti di Elaborazione di Immagini Estrazione dei Bordi e Segmentazione. Raffaele Cappelli raffaele.cappelli@unibo.it

Fondamenti di Elaborazione di Immagini Estrazione dei Bordi e Segmentazione. Raffaele Cappelli raffaele.cappelli@unibo.it Fondamenti di Elaborazione di Immagini Estrazione dei Bordi e Segmentazione Raffaele Cappelli raffaele.cappelli@unibo.it Contenuti Estrazione dei bordi Calcolo del gradiente Operatori di Roberts Operatori

Dettagli

Xerox 700 Digital Color Press con Integrated Fiery Color Server. Stampa di dati variabili

Xerox 700 Digital Color Press con Integrated Fiery Color Server. Stampa di dati variabili Xerox 700 Digital Color Press con Integrated Fiery Color Server Stampa di dati variabili 2008 Electronics for Imaging, Inc. Per questo prodotto, il trattamento delle informazioni contenute nella presente

Dettagli

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L. DATA WAREHOUSE Un Dataware House può essere definito come una base di dati di database. In molte aziende ad esempio ci potrebbero essere molti DB, per effettuare ricerche di diverso tipo, in funzione del

Dettagli

I sistemi di reporting e i rapporti direzionali

I sistemi di reporting e i rapporti direzionali I sistemi di reporting e i rapporti direzionali Reporting - Sintesi dei fenomeni aziendali secondo modelli preconfezionati e con frequenza e aggiornamento prestabiliti - contabile (dati economici) - extracontabile

Dettagli

Le Basi di dati: generalità. Unità di Apprendimento A1 1

Le Basi di dati: generalità. Unità di Apprendimento A1 1 Le Basi di dati: generalità Unità di Apprendimento A1 1 1 Cosa è una base di dati In ogni modello di organizzazione della vita dell uomo vengono trattate informazioni Una volta individuate e raccolte devono

Dettagli

Cluster Analysis. Paese Cereali (Ce) Riso (R) Patate (P) Zucchero (Z) Verdure (Ver) Vino (Vi) Carne (Ca) Latte (L) Burro (B) Uova (U)

Cluster Analysis. Paese Cereali (Ce) Riso (R) Patate (P) Zucchero (Z) Verdure (Ver) Vino (Vi) Carne (Ca) Latte (L) Burro (B) Uova (U) Analysis Esempio Stiamo studiando le abitudini alimentari nei Paesi europei. Sulla base dei dati a disposizione, ci chiediamo se si possano individuare sotto-aree con abitudini alimentari simili. Dati:

Dettagli

Suggerimenti per l approccio all analisi dei dati multivariati

Suggerimenti per l approccio all analisi dei dati multivariati Suggerimenti per l approccio all analisi dei dati multivariati Definizione degli obbiettivi Il primo passo è la definizione degli obbiettivi. Qual è l obbiettivo della sperimentazione i cui dati dovete

Dettagli

UNIVERSITA DEGLI STUDI DI PADOVA TESI DI LAUREA TRIENNALE

UNIVERSITA DEGLI STUDI DI PADOVA TESI DI LAUREA TRIENNALE UNIVERSITA DEGLI STUDI DI PADOVA FACOLTA DI SCIENZE STATISTICHE CORSO DI LAUREA IN STATISTICA E GESTIONE DELLE IMPRESE TESI DI LAUREA TRIENNALE Cluster Analysis per la segmentazione della clientela utilizzando

Dettagli

ISTITUTO TECNICO ECONOMICO MOSSOTTI

ISTITUTO TECNICO ECONOMICO MOSSOTTI CLASSE III INDIRIZZO S.I.A. UdA n. 1 Titolo: conoscenze di base Conoscenza delle caratteristiche dell informatica e degli strumenti utilizzati Informatica e sistemi di elaborazione Conoscenza delle caratteristiche

Dettagli

La tecnologia dei microarray

La tecnologia dei microarray La tecnologia dei microarray I microarray I progetti di sequenziamento (progetti permesso di identificare migliaia di geni genoma) ) hanno Migliaia di geni (ed i loro prodotti, le proteine) operano in

Dettagli

Progettaz. e sviluppo Data Base

Progettaz. e sviluppo Data Base Progettaz. e sviluppo Data Base! Introduzione ai Database! Tipologie di DB (gerarchici, reticolari, relazionali, oodb) Introduzione ai database Cos è un Database Cos e un Data Base Management System (DBMS)

Dettagli

0.6 Filtro di smoothing Gaussiano

0.6 Filtro di smoothing Gaussiano 2 Figura 7: Filtro trapezoidale passa basso. In questo filtro l rappresenta la frequenza di taglio ed l, l rappresenta un intervallo della frequenza con variazione lineare di H, utile ad evitare le brusche

Dettagli

Elementi di Statistica descrittiva Parte I

Elementi di Statistica descrittiva Parte I Elementi di Statistica descrittiva Parte I Che cos è la statistica Metodo di studio di caratteri variabili, rilevabili su collettività. La statistica si occupa di caratteri (ossia aspetti osservabili)

Dettagli