Data Mining. KDD e Data Mining - Introduzione (1)

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Data Mining. KDD e Data Mining - Introduzione (1)"

Transcript

1 1 Data Mining Corso di Metodi e Modelli per il Supporto alle Decisioni a.a KDD e Data Mining - Introduzione (1) Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da satellite o da sensori remoti, servizi on line..) Sviluppo delle tecnologie per l immagazzinamento dei dati, tecniche di gestione di database e data warehouse, supporti piu capaci piu economici (dischi, CD) hanno consentito l archiviazione di grosse quantita di dati Simili volumi di dati superano di molto la capacità di analisi dei metodi manuali tradizionali, come le query ad hoc. Tali metodi possono creare report informativi sui dati ma non riescono ad analizzare il contenuto dei report per focalizzarsi sulla conoscenza utile.

2 3 KDD e Data Mining - Introduzione (2) Emerge l'esigenza di tecniche e strumenti con la capacità di assistere in modo intelligente e automatico gli utenti decisionali nell'estrazione di elementi di conoscenza dai dati. Queste tecniche e strumenti sono al centro del campo emergente del Knowledge Discovery in Databases (KDD). Il termine knowledge discovery in databases, o KDD, indica l'intero processo di ricerca di nuova conoscenza dai dati Il termine di data mining si riferisce all'applicazione di algoritmi per estrarre pattern dai dati senza considerare gli ulteriori passi che caratterizzano il processo di KDD (come, ad esempio, incorporare appropriata conoscenza a priori e fornire una opportuna interpretazione dei risultati). 4 KDD e Data Mining - Introduzione (3) Pertanto l'intero processo, tipicamente interattivo e iterativo, di ricerca, estrazione ed interpretazione di pattern dai dati, che indichiamo come KDD, coinvolge l'applicazione ripetuta di specifici metodi e algoritmi di data mining e l'interpretazione dei pattern generati da tali algoritmi. Nel seguito forniremo una definizione più dettagliata di KDD e una panoramica sui metodi e gli algoritmi di data mining più usati

3 5 Il processo di KDD (1) Application Domain Prior Knowledge User s Goals Data Mining Interpretation/ Evaluation Knowledge Transformation Patterns Selection Preprocessing Transformed Data Preprocessed Data Metadata Target Data Data 6 Il processo di KDD (2) 1) Sviluppo e approfondimento del dominio di applicazione, della conoscenza disponibile a priori e degli obiettivi dell'utente finale. 2) Creazione di un target data set: selezione del data set o focalizzazione su un sottoinsieme di variabili o di campioni di dati oggetto del processo KDD. 3) Cleaning dei dati e preprocessing: operazioni di base come la rimozione del rumore o degli outliers se è il caso, raccolta delle informazioni necessarie per modellare o tener conto del rumore, messa a punto di strategie per gestire i dati mancanti e per gestire i dati tempo-varianti. 4) Riduzione dei dati e proiezione: rappresentazione dei dati in modo opportuno in relazione agli obiettivi della ricerca. Riduzione delle dimensioni e impiego di metodi di trasformazione per ridurre l'effettivo numero di variabili da sottoporre al processo di ricerca.

4 7 Il processo di KDD (3) 5) Scelta del compito del processo di data mining: identificazione dell'obiettivo del KDD, se si tratti di una classificazione, di una regressione, di un clustering 6) Scelta dell'algoritmo o degli algoritmi di data mining: selezione dei metodi da usare per ricercare pattern nei dati. Questa fase comprende la decisione su quali modelli e parametri potrebbero essere appropriati e il matching di un particolare metodo di data mining con i criteri generali del processo KDD (per es. l'utente finale potrebbe essere maggiormente interessato alla comprensione del modello piuttosto che alle sue capacità predittive). 8 Il processo di KDD (4) 7) Data mining: ricerca di pattern di interesse in una particolare forma di rappresentazione o su un set di rappresentazioni diverse (regole di classificazione, alberi decisionali, regressione, clustering ). Il risultato del processo di data mining è considerevolmente influenzato dalla correttezza delle fasi precedenti. 8) Interpretazione dei pattern trovati e possibile ritorno alle fasi 1-7 per ulteriori iterazioni. 9) Consolidamento della conoscenza estratta: incorporazione di tale conoscenza nel sistema di performance o, semplicemente, documentazione e reporting alle parti interessate. Questa fase include anche il controllo per la risoluzione di potenziali contraddizioni con la conoscenza precedentemente disponibile.

5 9 Data Mining - Introduzione I due principali obiettivi di alto livello del data mining sono la predizione e la descrizione. La predizione implica l'uso di variabili o campi di un database per predire valori ignoti o futuri di altre variabili di interesse. La descrizione si concentra invece sulla ricerca di pattern interpretabili che descrivano i dati. L'importanza relativa di predizione e descrizione nelle diverse applicazioni del data mining può variare considerevolmente. Nel contesto del KDD la descrizione tende ad essere più importante della predizione, mentre nelle applicazioni di pattern recognition e machine learning (per es. speech recognition) la predizione spesso costituisce l'obiettivo principale 10 Principali Funzioni del Data Mining (1) Classificazione: consiste nell'apprendere una funzione che mappa (classifica) un elemento in una tra molte classi predefinite. Regressione: consiste nell'apprendere una funzione che mappa un elemento in una variabile predittiva a valori reali. La classificazione si distingue dalla regressione per il tipo di output che fornisce. Con la classificazione, l output predetto (l appartenenza ad una classe) è di tipo categorico, cioè assume pochi valori, tipo Si o No, oppure Basso, Medio o Alto. La regressione invece prevede come output un valore numerico che può assumere un numero illimitato (o almeno molto grande) di possibili valori. La classificazione costituisce, insieme alla regressione, il tipo di problema più comune a cui viene applicato il data mining.

6 11 Principali Funzioni del Data Mining (2) Clustering: è un task a carattere tipicamente descrittivo in cui si cerca di identificare un numero finito di categorie o cluster per descrivere i dati. Tali categorie possono essere mutuamente esclusive ed esaustive oppure possono fornire una rappresentazione più ricca con categorie gerarchiche o parzialmente sovrapposte. Aggregazione: le tecniche di aggregazione comprendono metodi per la ricerca di descrizioni compatte per sottoinsiemi di dati. Un esempio semplice potrebbe essere la tabulazione della media e della deviazione standard per tutti i campi. Metodi più sofisticati comprendono la derivazione di regole di aggregazione, le tecniche di visualizzazione e l'identificazione di relazioni funzionali tra le variabili 12 Principali Funzioni del Data Mining (3) Dependency Modeling: consiste nella ricerca di un modello che descriva dipendenze significative tra le variabili. I modelli di dipendenza esistono a due livelli: il livello strutturale del modello specifica, spesso in forma grafica, quali variabili sono localmente dipendenti da altre, mentre il livello quantitativo del modello specifica la forza della dipendenza usando una qualche scala numerica. Per esempio, le reti di dipendenza probabilistica usano l'indipendenza condizionale per specificare l'aspetto strutturale del modello e le probabilità o la correlazione per specificare la forza della dipendenza

7 13 Clustering - Introduzione (1) Partizionare un grande insieme di oggetti in clusters omogenei è un operazione fondamentale in data mining L algoritmo cosiddetto k-means è molto adatto per svolgere quest operazione poiché è efficiente L unico problema è che è di limitata applicabilità, in quanto tratta unicamente dati numerici Vedremo brevemente l algoritmo k-means e una sua estensione per dati categorici 14 Clustering - Introduzione (2) L operazione di clustering è necessaria per diverse funzioni del data mining tra cui la classificazione unsupervised, la segmentazione di grossi data set eterogenei in più piccoli sotto-insiemi omogenei che possono essere facilmente gestiti e analizzati separatamente I metodi di clustering dividono un insieme di oggetti in clusters tali che gli oggetti nello stesso cluster sono più simili tra loro rispetto agli oggetti in cluster diversi secondo qualche criterio predefinito I metodi statistici di clustering usano misure di similarità per partizionare gli oggetti, mentre metodi di clustering concettuale partizionano gli oggetti sulla base dei concetti associati agli oggetti La caratteristica del data mining è che tratta grosse quantità di dati

8 15 Clustering - Introduzione (3) La dimensione dei data set richiede che gli algoritmi usati siano scalabili Spesso gli algoritmi correntemente usati nel data mining non offrono grande scalabilità in quanto sono stati originariamente sviluppati per applicazioni diverse che coinvolgevano data set più piccoli Lo studio di algoritmi scalabili per il data mining è recentemente diventato un importante argomento di ricerca Dopo una breve presentazione dell algoritmo k-means, introdurremo la sua variante k-modes per trattare dati categorici Confrontati con altri metodi di clustering, l algoritmo k-means e le sue varianti mostrano efficienza anche applicati a grossi data set 16 Introduzione (4) L algoritmo k-means minimizza una funzione di costo calcolando i valori medi dei cluster e pertanto il suo impiego è limitato a valori numerici Le applicazioni di data mining coinvolgono spesso dati categorici L approccio tradizionale di conversione di dati categorici in dati numerici non è sempre significativo (ad esempio quando i domini categorici non sono ordinati) L algoritmo k-modes elimina questo incoveniente ed estende il concetto dei k-means anche a dati categorici, preservando l efficienza dell algoritmo k-means Esiste una versione più complessa dell algoritmo k-modes che si chiama k-prototypes che tiene conto di attributi misti, categorici e non.

9 17 Introduzione (4) L algoritmo k-prototypes definisce una misura di dissimilarità mista per attributi categorici e numerici Sia s n la dissimilarità per attributi numerici basata sul quadrato della distanza euclidea Sias c la dissimilarità per attributi categorici definita come il numero di categorie diverse tra due oggetti Definiamo la misura di dissimilarità tra due oggetti come s n +ys c dove y è un peso per bilanciare le due parti ed evitare che un tipo di attributo sia più considerato dell altro Il processo di clustering dell algoritmo k-prototypes è simile a k-means Un problema è la scelta opportuna del peso y 18 Introduzione (5) L algoritmo k-modes è una semplificazione del metodo k-prototypes in quanto tiene conto solo degli attributi categorici In questo caso non abbiamo più bisogno di definire un peso y Nel caso in cui comparissero attributi numerici nel problema occorrerebbe renderli categorici Il maggior vantaggio del metodo consiste nella sua grande scalabilità e pertanto nella possibilità di essere applicato a grandi data set Un altro approccio è stato presentato per applicare l algoritmo k-means a dati categorici previa conversione dei dati categorici in dati numerici In questo metodo molteplici attributi categorici vengono trasformati in attributi binari (usando 0 o 1 per indicare se una categoria è assente o presente)

10 19 Introduzione (5) Quindi gli attributi resi binari vengono considerati numerici e sottoposti all algoritmo k-means Se impiegato nel data mining, questo approccio richiede di gestire un numero molto grande di attributi binari, in quanto i data set impiegati nel data mining spesso hanno attributi categorici con centinaia o migliaia di categorie. Questo aumenta inevitabilmente la complessità e il costo dell algoritmo Inoltre i cluster means, dati da valori reali tra 0 e 1 non indicano le caratteristiche del cluster Per contro l algoritmo k-modes lavora direttamente su attributi categorici e produce i cluster modes che descrivono i clusters e pertanto risutano utili nell interpretazione dei risultati 20 Domini e Attributi Categorici (1) Per dati categorici intendiamo dati che descrivono oggetti che hanno solo attributi categorici Consideriamo che tutti gli attributi numerici siano inseriti in categorie SianoA 1, A 2,,A m m attributi che descrivono uno spazio S e DOM(A 1 ), DOM(A 2 ),, DOM(A m ) i domini degli attributi UndominioDOM(A ) è definito categorico se è finito e non ordinato, per es., per ogni a,b DOM(A ) o a=b, o a b A è chiamato attributo categorico S è uno spazio categorico se tutti gli attributi A 1, A 2,,A m che lo descrivono sono categorici Un valore speciale, denotato con ε, è definito su tutti i domini categorici ed è usato per rappresentare valori mancanti

11 21 Domini e Attributi Categorici (2) Per semplificare la misura di dissimilarità non consideriamo le relazioni di inclusione concettuale tra valori in un dominio categorico (ad esempio il fatto che automobile e veicolo sono due valori categorici in un dominio e concettualmente un automobile è anche un veicolo) 22 Oggetti Categorici (1) Un oggetto categorico X S è logicamente rappresentato come una congiunzione di coppie attributo-valore [A 1 =x 1 ] [A 2 =x 2 ] [A m =x m ] dove x DOM(A ) per 1 m Senza ambiguità rappresentiamo X come un vettore [x 1, x 2,,x m ] Consideriamo che ogni oggetto in S abbia esattamente m attributi. Se il valore di un attributo A non è disponibile per un oggetto X, allora A = ε SiaX = {X 1, X 2,..., X n } un insieme di n oggetti categorici e X S L oggetto X i e rappresentato come [x i1, x i2,,x im ] Diciamo chex i =X k se x i =x k per 1 m La relazione X i =X k non significa che X i ex k sono lo stesso oggetto

12 23 Oggetti Categorici (2) Significa che i 2 oggetti hanno gli stessi valori categorici negli attributi A 1,...,A m Ad esempio 2 pazienti in 1 ospedale possono avere gli stessi valori negli attributi: Sesso, Malattia, Trattamento ma avere diverso Nome, Indirizzo, Eta... che sono attributi non selezionati per il clustering Supponiamo che X sia composto da n oggetti di cui p sono distinti Sia N la cardinalita del prodotto cartesiano DOM(A 1 ) x DOM(A 2 ) x DOM(A m ) Abbiamo p N mentre n puo essere maggiore di N, nel caso che contenga duplicati 24 Algoritmo k-means L algoritmo k-means e costruito su 4 operazioni di base: 1) selezione dei k valori medi iniziali per i cluster 2) calcolo della dissimilarita tra un oggetto e la media di un cluster 3) allocazione di un oggetto nel cluster la cui media e piu vicina all oggetto 4) Ri-calcolo della media del cluster dagli oggetti allocati in esso in modo tale che la dissimilarita intra-cluster sia minimizzata Tranne che la prima operazione, le altre 3 vengono ripetute fino a convergenza

13 25 Algoritmo k-means (2) L essenza dell algoritmo e la minimizzazione della funzione di costo: E = k n l= 1 i= 1 y ( X Q ) i, ld i, dove n e il numero degli oggetti in un data set X, X i X, Q l e la media del cluster l, e y i,l e un elemento di una matrice di partizione Y nxk, d e una misura di dissimilarita generalmente definita dal quadrato della distanza euclidea Esistono diverse varianti dell algoritmo che differiscono nella selezione iniziale dei centri dei cluster, nel calcolo della dissimilarita e nelle strategie per calcolare i centri dei cluster l 26 Algoritmo k-means (3) L algoritmo k-means ha le seguenti importanti proprieta : 1. E efficiente nel gestire grosse quantita di dati. La complessita computazionale dell algoritmo e O(tkmn) dove m e il numero di attributi, n il numero di oggetti, k il numero dei cluster, e t e il numero di iterazioni sull intero data set. In genere, k,m,t << n. 2. Spesso l algoritmo termina in un ottimo locale. Per trovare l ottimo globale possono essere adottate altre tecniche (deterministic annealing, algoritmi genetici) da incorporare al k-means 3. Funziona solo su valori numerici in quanto minimizza una funzione di costo calcolando la media dei clusters 4. I cluster hanno forma convessa. Pertanto e difficile usare il k-means per trovare cluster di forma non convessa

14 27 Algoritmo k-means (5) Una difficolta consiste nel determinare il numero dei cluster Alcune varianti dell algoritmo includono una procedura per cercare il k ottimo L algoritmo k-means e il migliore per il data mining per la sua efficienza con i grossi data set Purtroppo, funzionando solo per valori numerici, limita di molto la sua applicabilita Discuteremo alcune modifiche all algoritmo per renderlo adatto a valori categorici 28 Algoritmo k-modes (1) L algoritmo k-modes e una versione semplificata del k-prototypes In questo algoritmo abbiamo 3 differenze principali rispetto al k-means: 1. Usa una diversa misura di dissimilarita 2. Sostituisce i k-means con i k-modes 3. Usa un metodo basato sulla frequenza per aggiornare i modes

15 29 Misure di dissimilarita (1) Siano X e Y due oggetti categorici descritti da m attributi categorici La misura di dissimilarita tra X e Y puo essere definita dal totale delle differenze tra le corrispondenti categorie di attributi dei due oggetti Minore e il numero degli attributi diversi, piu i due oggetti sono simili Formalmente: d δ m ( X, Y ) δ ( x, y ) ( x, y ) = = 1 0 = 1 ( x = y ) ( x y ) (1) 30 Misure di dissimilarita (2) d(x,y) da uguale importanza ad ogni categoria di un attributo Se teniamo in conto le frequenze delle categorie in un data set, possiamo definire la misura di dissimilarita come: d χ m = 1 ( n ) x + ny ( x, y ) 2 ( X, Y ) = δ n n x y (2) n n y dove e sono il numero di oggetti nel data set che hanno le x categorie x e y per l attributo. d χ 2 ( X, Y ) si dice distanza chi-quadro

16 31 Misure di dissimilarita (3) Questa seconda misura di dissimilarita da piu importanza alle categorie rare piuttosto che a quelle frequenti Per questo viene usata per scoprire cluster di oggetti sotto-rappresentati come ad es. i richiami fraudolenti nei database delle assicurazioni 32 Mode di un set SiaX un insieme di oggetti categorici descritti dagli attributi categorici A 1, A 2,..., A m Un mode di X e un vettore Q=[q 1, q 2,..., q m ] S che minimizza: n (,X) = d ( X i, Q) D Q i= 1 dove X={X 1, X 2,..., X n } e d possono essere definiti come nell eq. (1) o nell eq. (2). Q non e necessariamente un elemento di X

17 33 Ricerca di un Mode per un set n c k, c k, Sia il numero di oggetti aventi la categoria nell attributo A e fr( A = c, X) = k n c k, n la frequenza relativa della categoria c k, in X Teorema: la funzione D(Q,X) e minimizzata se e solo se: f r ( A = q X) f ( A = c X) per q r ck, per ogni = 1,..., m k 34 L algoritmo k-modes (1) Sia{S 1, S 2,..., S k } una partizione di X, dove S l Ø per 1 l k e {Q 1,..., Q k } i modi di {S 1,..., S k } Il costo totale della partizione e definito da: k n l= 1 i= 1 i, l ( X Q ) E = y d, dove y i,l e un elemento di una matrice di partizione Y nx1 e d puo essere definito come in 1 o come in 2 Similmente all algoritmo k-means, l obiettivo del clustering di X e trovare un set {Q 1, Q 2,..., Q k } che minimizzi E. i l

18 35 L algoritmo k-modes (2) L algoritmo k-modes consiste nei passi seguenti : 1. Scegliere k modi iniziali, uno per ogni cluster 2. Allocare un oggetto in un cluster il cui modo sia il piu vicino ad esso, secondo la definizione di d. Aggiornare il modo del cluster dopo ogni allocazione secondo il teorema 3. Dopo che tutti gli oggetti sono stati allocati nei cluster, ripetere il test della dissimilarita degli oggetti in relazione ai modi correnti. Se si trova che un oggetto e piu vicino al modo di un altro cluster piuttosto che al proprio corrente, riallocare l oggetto in quel cluster e aggiornare i modi di entrambi 4. Ripetere il passo 3 finche nessun oggetto cambia cluster dopo un ciclo completo di test sull intero data set 36 L algoritmo k-modes (3) Come l algoritmo k-means, l algoritmo k-modes produce soluzioni localmente ottime che sono dipendenti dai modi iniziali e dall ordine degli oggetti nel data set L impiego di opportuni metodi di scelta dei modi iniziali, puo migliorare il risultato del clustering Vediamo un metodo di selezione dei k modi iniziali. Il metodo si sviluppa nei seguenti passi: 1. Calcolare le frequenze di tutte le categorie per tutti gli attributi e immagazzinarli in un array di categorie in ordine discendente di frequenza come in Fig.1. Qui c i, denota la categoria i dell attributo e f(c i, ) f(c i+1, ) dove f(c i, ) e la frequenza della categoria c i,

19 37 L algoritmo k-modes (4) Fig.1 c c c c 1,1 2,1 3,1 4,1 c c 1,2 2,2 c c c c La figura mostra l array di categorie per un data set con 4 attributi aventi rispettivamente 4, 2, 4, 3 categorie 2. Assegnare le categorie piu frequenti uniformemente ai k modi iniziali. Per l esempio in Fig.1 assumiamo k=3. Assegnamo Q 1 =[q 1,1 =c 1,1, q 1,2 =c 2,2, q 1,3 =c 3,3, q 1,4 =c 1,4 ], Q 2 =[q 2,1 =c 2,1, q 2,2 =c 1,2, q 2,3 =c 4,3, q 2,4 =c 2,4 ], Q 3 =[q 3,1 =c 3,1, q 3,2 =c 2,2, q 3,3 =c 1,3, q 3,4 =c 3,4 ] 1,3 2,3 3,3 4,3 c c c 1,4 2,4 3,4 38 L algoritmo k-modes (4) 3. Incominciamo con Q 1. Scegliamo il record piu simile a Q 1 e sostituiamo Q 1 con il record come primo modo iniziale. Poi scegliamo il record piu simile a Q 2 esostituiamoq 2 con il record come secondo modo iniziale. Continuiamo questo processo fino alla sostituzione di Q k In queste selezioni Q l Q t per l t Il passo 3 serve per evitare il caso di cluster vuoti. L obiettivo di questo metodo di selezione e di rendere distanti i modi iniziali il che puo risultare in un miglior clustering.

20 39 Classificazione e Regressione - Introduzione (1) Classificazione e regressione sono problemi a cui comunemente viene applicato il data mining Tipicamente classificazione e regressione vengono usate come supporto decisionale nel marketing e nel CRM (previsione dei comportamenti di acquisto, identificazione dei target per promozioni, nuovi prodotti...) ma anche per l identificazione di frodi, nella credit risk detection, in problemi di diagnostica medica... Esistono diverse tecniche di data mining per affrontare problemi di classificazione e di regressione e generalmente ogni tecnica dispone di diversi algoritmi. Naturalmente queste tecniche producono modelli diversi ma in generale ogni tecnica genera un modello predittivo basato su dati storici che viene poi impiegato per predire l uscita di nuovi casi. Cio che distingue classificazione e regressione e il tipo di output che viene predetto 40 Classificazione e Regressione - Introduzione (2) La classificazione individua l appartenenza ad una classe. Per esempio un modello potrebbe predire che il potenziale cliente X rispondera ad un offerta. Con la classificazione l output predetto (la classe) e categorico ossia puo assumere solo pochi possibili valori come Si, No, Alto, Medio, Basso... La regressione predice un valore numerico specifico. Ad esempio un modello potrebbe predire che il cliente X ci portera un profitto di Y lire nel corso di un determinato periodo di tempo. Le variabili in uscita possono assumere un numero illimitato (o comunque una grande quantita ) di valori. Spesso queste variabili in uscita sono indicate come continue anche se talvolta non lo sono nel senso matematico del termine (ad esempio l eta di una persona)

21 41 Classificazione e Regressione - Introduzione (3) Classificazione e regressione sono comunque strettamente correlate e spesso risulta semplice trasformare un problema di classificazione in una regressione e viceversa In generale un problema di regressione viene trasformato in un problema di classificazione semplicemente raggruppando i valori continui predetti in categorie discrete, mentre un problema di classificazione viene trasformato in una regressione identificando un punteggio o probabilita per ogni categoria ed assegnando un range di punteggi ad ogni categoria Nonostante esista la possibilita di convertire classificazione in regressione e viceversa e importante osservare che, a livello di strumenti, i risultati piu accurati si ottengono con il matching di tool e task 42 Tecniche di predictive modeling (1) Esistono 4 tecniche che attualmente dominano il mercato degli strumenti per classificazione e regressione: 1) Decision Tree: e una tecnica che genera una rappresentazione grafica ad albero del modello che produce. Generalmente e accompagnata da regole della forma IF condition THEN outcome che costutuiscono la versione testuale del modello. Gli algoritmi di Decision Tree comunemente implementati comprendono Chisquared Automatic Interaction Detection (CHAID), Classification and Regression Trees (CART), C4.5 e C5.0. Tutti questi sono estremamente adatti alla classificazione, alcuni sono impiegabili anche per la regressione.

22 43 Tecniche di predictive modeling (2) 2) Neural networks: sono tra i piu complicati algoritmi di classificazione e regressione. Vengono usate comunemente nell identificazione di frodi dove occorre un algoritmo che rilevi accuratamente ogni eccezione e che funzioni in tempo reale. Infatti, sebbene la fase di training di una rete neurale possa essere time consuming, una rete allenata puo effettuare previsioni su nuovi casi molto rapidamente. L output di una rete neurale e puramente predittivo e spesso difficile da comprendere e da impiegare. Queste difficolta spesso scoraggiano l uso di reti neurali nel supporto decisionale. 44 Tecniche di predictive modeling (3) 3) Naive-Bayes: e una tecnica di classificazione sia predittiva che descrittiva. Analizza la relazione tra ogni variabile indipendente e la variabile dipendente per derivare una probabilita condizionata per ogni relazione. Quando si analizza un nuovo caso, viene fatta una previsione combinando gli effetti delle variabili indipendenti sulle variabili dipendenti (l uscita che viene predetta). Per esempio consideriamo il problema di cercare di predire il turnover dei clienti dove è noto che il 75% dei clienti con fatturazioni mensili tra $400 e $500 ha abbandonato e il 68% dei clienti che ha fatto più di 4 chiamate al customer service ha abbandonato. Applicando la tecnica a un cliente con fatturazione mensile di $480 e che ha fatto 5 chiamate al customer service, Naive Bayes predice che il cliente ha una alta probabilità di abbandono.

23 45 Tecniche di predictive modeling (3) In teoria i risultati sarebbero corretti solo se le variabili indipendenti fossero statisticamente indipendenti l una dall altra. Questo spesso non e vero ma la pratica dimostra che Naive Bayes fornisce buoni risultati e la sua semplicita e velocita ne fanno uno strumento ideale per modellare ed investigare relazioni semplici 46 Tecniche di predictive modeling (4) 4) K-nearest neighbor (K-NN): differisce dalle precedenti tecniche nel fatto che i dati di training non sono usati per creare il modello ma costituiscono essi stessi il modello. Quando si presenta un nuovo caso, l algoritmo scandisce tutti i dati per trovare un sottoinsieme di casi che sono piu vicini ad esso e li usa per predire l uscita. Ci sono due aspetti principali nell algoritmo k-nn: il numero di casi piu vicini da usare (k) e la scelta di una metrica per misurare cosa si intende per piu vicini. Per classificare un nuovo caso, l algoritmo calcola la distanza dal nuovo caso ad ogni caso nel training data. L uscita prevista per il nuovo caso corrisponde all uscita predominante nei k casi piu vicini del training set.

24 47 Tecniche di predictive modeling (5) Tutte le tecniche menzionate possono generare modelli predittivi. Alcune di esse forniscono anche modelli descrittivi che consentono di comprendere piu a fondo le relazioni tra i dati, indipendentemente dalla natura predittiva del modello. Ad esempio questa informazione potrebbe essere nella forma: il guadagno e il fattore piu importante per determinare se qualcuno e a un buon livello di credit risk. Tale informazione descrittiva puo essere presentata in forma testuale o attraverso tool di visualizzazione. 48 Esempi di classificazione lineare e non lineare Debito Debito Prestito NON concesso zona di Prestito NON concesso zona di Prestito concesso Prestito concesso CLASSIFICAZIONE LINEARE Introito NEAREST NEIGHBOR Introito Debito Prestito NON concesso x x x x Prestito concesso RETI NEURALI Introito

25 49 Decision Tree I dati in input rappresentano il training set e sono costituiti da molteplici esempi (records), ognuno caratterizzato da diversi attributi (features) Ogni esempio e caratterizzato dall appartenenza ad una classe (class label) Obiettivo della classificazione e di analizzare i dati in input e sviluppare un accurato modello per ogni classe tramite il quale sia possibile classificare i futuri dati di test per cui i class label sono ignoti I decision tree sono relativamente veloci, confrontati con altri metodi di classificazione e sono di semplice interpretazione: essi possono facilmente essere convertiti in insiemi di regole di classificazione e in query SQL per accedere ai database 50 Esempio ETA SALARIO CLASSE ETA <= B C SALARIO <=40 SALARIO <= B C C B C B B Decision rule per la prima foglia a sin: B IF eta <=35 AND salario<=40 THEN classe=c

26 51 Decision Tree Classification La maggior parte dei classificatori ad albero (es. CART, C 4.5) realizzano la classificazione in 2 fasi: Tree Building e Tree Pruning Tree Building: in questa fase si costruisce un primo decision tree partizionando ripetutamente i dati del training set. Il training set e suddiviso in due o piu partizioni usando un attributo (esistono algoritmi che usano anche attributi multipli). Questo processo viene ripetuto ricorsivamente finche tutti gli esempi in una partizione appartengono ad una classe. Tree Pruning: l albero costruito nella prima fase classifica completamente il training data set. Questo implica che vengono creati rami anche per il rumore e le fluttuazioni statistiche. Questi rami possono condurre a errori nella classificazione dei dati di test. La fase di pruning ha l obiettivo di rimuovere questi rami dal decision tree selezionando il sotto-albero con il minimo tasso di errore stimato 52 Tree Building Algorithm MakeTree (Training Data T) Partition (T); Partition (Data S) if (all points in S are in the same class) then return; Evaluate splits for each attribute A Use best split found to partition S into S 1 and S 2 ; Partition (S 1 ); Partition (S 2 );

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da

Dettagli

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it Data Mining Gabriella Trucco gabriella.trucco@unimi.it Perché fare data mining La quantità dei dati memorizzata su supporti informatici è in continuo aumento Pagine Web, sistemi di e-commerce Dati relativi

Dettagli

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Concetti preliminari: struttura del dataset negli

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Data Mining. Introduzione La crescente popolarità

Dettagli

Data mining e rischi aziendali

Data mining e rischi aziendali Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento

Dettagli

Uno standard per il processo KDD

Uno standard per il processo KDD Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo

Dettagli

DATA MINING PER IL MARKETING

DATA MINING PER IL MARKETING DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Algoritmi di classificazione Zani-Cerioli, Cap. XI CHAID: Chi-square Automatic Interaction

Dettagli

AIR MILES un case study di customer segmentation

AIR MILES un case study di customer segmentation AIR MILES un case study di customer segmentation Da: G. Saarenvirta, Mining customer data, DB2 magazine on line, 1998 http://www.db2mag.com/db_area/archives/1998/q3/ 98fsaar.shtml Customer clustering &

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis

Dettagli

Data Mining in SAP. Alessandro Ciaramella

Data Mining in SAP. Alessandro Ciaramella UNIVERSITÀ DI PISA Corsi di Laurea Specialistica in Ingegneria Informatica per la Gestione d Azienda e Ingegneria Informatica Data Mining in SAP A cura di: Alessandro Ciaramella La Business Intelligence

Dettagli

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali DIPARTIMENTO DI INGEGNERIA INFORMATICA AUTOMATICA E GESTIONALE ANTONIO RUBERTI Cenni al Data Mining 1 Data Mining nasce prima del Data Warehouse collezione di tecniche derivanti da Intelligenza Artificiale,

Dettagli

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining Dipartimento di Informatica e Sistemistica I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining Renato Bruni bruni@dis.uniroma1.it Antonio Sassano sassano@dis.uniroma1.it

Dettagli

Data Mining e Analisi dei Dati

Data Mining e Analisi dei Dati e Analisi dei Dati Rosaria Lombardo Dipartimento di Economia, Seconda Università di Napoli La scienza che estrae utili informazioni da grandi databases è conosciuta come E una disciplina nuova che interseca

Dettagli

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida Introduzione alle tecniche di Data Mining Prof. Giovanni Giuffrida Programma Contenuti Introduzione al Data Mining Mining pattern frequenti, regole associative Alberi decisionali Clustering Esempio di

Dettagli

MACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it

MACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it MACHINE LEARNING e DATA MINING Introduzione a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it Apprendimento Automatico(i) Branca dell AI che si occupa di realizzare dispositivi artificiali capaci di

Dettagli

Ricerca di outlier. Ricerca di Anomalie/Outlier

Ricerca di outlier. Ricerca di Anomalie/Outlier Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 1 - Introduzione generale Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

DATA MINING E DATA WAREHOUSE

DATA MINING E DATA WAREHOUSE Reti e sistemi informativi DATA MINING E DATA WAREHOUSE Marco Gottardo FONTI Wikipedia Cineca Università di Udine, Dipartimento di fisica, il data mining scientifico thepcweb.com DATA MINING 1/2 Il Data

Dettagli

Università di Pisa A.A. 2004-2005

Università di Pisa A.A. 2004-2005 Università di Pisa A.A. 2004-2005 Analisi dei dati ed estrazione di conoscenza Corso di Laurea Specialistica in Informatica per l Economia e per l Azienda Tecniche di Data Mining Corsi di Laurea Specialistica

Dettagli

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino DataBase and Data Mining Group of Database and data mining group, Database and data mining group, DataBase and Data Mining Group of DataBase and Data Mining Group of So dati insieme di classi oggetti etichettati

Dettagli

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale Esperienze di Apprendimento Automatico per il corso di lippi@dsi.unifi.it Dipartimento Sistemi e Informatica Università di Firenze Dipartimento Ingegneria dell Informazione Università di Siena Introduzione

Dettagli

Il DataMining. Susi Dulli dulli@math.unipd.it

Il DataMining. Susi Dulli dulli@math.unipd.it Il DataMining Susi Dulli dulli@math.unipd.it Il Data Mining Il Data Mining è il processo di scoperta di relazioni, pattern, ed informazioni precedentemente sconosciute e potenzialmente utili, all interno

Dettagli

Tecniche di DM: Link analysis e Association discovery

Tecniche di DM: Link analysis e Association discovery Tecniche di DM: Link analysis e Association discovery Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Architettura di un generico algoritmo di DM. 2 2 Regole di associazione:

Dettagli

Mining Positive and Negative Association Rules:

Mining Positive and Negative Association Rules: Mining Positive and Negative Association Rules: An Approach for Confined Rules Alessandro Boca Alessandro Cislaghi Premesse Le regole di associazione positive considerano solo gli item coinvolti in una

Dettagli

Introduzione al Data Mining Parte 1

Introduzione al Data Mining Parte 1 Introduzione al Data Mining Parte 1 Corso di Laurea Specialistica in Ingegneria Informatica II Facoltà di Ingegneria, sede di Cesena (a.a. 2009/2010) Prof. Gianluca Moro Dipartimento di Elettronica, Informatica

Dettagli

KNOWLEDGE DISCOVERY E DATA MINING

KNOWLEDGE DISCOVERY E DATA MINING KNOWLEDGE DISCOVERY E DATA MINING Prof. Dipartimento di Elettronica e Informazione Politecnico di Milano LE TECNOLOGIE DI GESTIONE DELL INFORMAZIONE DATA WAREHOUSE SUPPORTO ALLE DECISIONI DATA MINING ANALISI

Dettagli

Introduzione al Data Mining

Introduzione al Data Mining Introduzione al Data Mining Sistemi informativi per le Decisioni Slide a cura di Prof. Claudio Sartori Evoluzione della tecnologia dell informazione (IT) (Han & Kamber, 2001) Percorso evolutivo iniziato

Dettagli

Sistemi Informativi Multimediali Indicizzazione multidimensionale

Sistemi Informativi Multimediali Indicizzazione multidimensionale Indicizzazione nei sistemi di IR (1) Sistemi Informativi Multimediali Indicizzazione multidimensionale ugusto elentano Università a Foscari Venezia La struttura fondamentale di un sistema di information

Dettagli

matematicamente.it Numero 9 Maggio 2009

matematicamente.it Numero 9 Maggio 2009 112. Data ining: esplorando le miniere alla ricerca della conoscenza nascosta Clustering con l algoritmo k-means di Gaetano Zazzaro 1 L uomo è confinato nei limiti angusti del corpo, come in una prigione,

Dettagli

Lezione 8. Data Mining

Lezione 8. Data Mining Lezione 8 Data Mining Che cos'è il data mining? Data mining (knowledge discovery from data) Estrazione di pattern interessanti (non banali, impliciti, prima sconosciuti e potenzialmente utili) da enormi

Dettagli

Reti neurali nel Data Mining, altre tecniche utilizzate nel DM e valutazione dei modelli.

Reti neurali nel Data Mining, altre tecniche utilizzate nel DM e valutazione dei modelli. Reti neurali nel Data Mining, altre tecniche utilizzate nel DM e valutazione dei modelli. Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Utilizzo di reti neurali nel

Dettagli

Feature Selection per la Classificazione

Feature Selection per la Classificazione 1 1 Dipartimento di Informatica e Sistemistica Sapienza Università di Roma Corso di Algoritmi di Classificazione e Reti Neurali 20/11/2009, Roma Outline Feature Selection per problemi di Classificazione

Dettagli

Algoritmi di clustering

Algoritmi di clustering Algoritmi di clustering Dato un insieme di dati sperimentali, vogliamo dividerli in clusters in modo che: I dati all interno di ciascun cluster siano simili tra loro Ciascun dato appartenga a uno e un

Dettagli

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo Distributed P2P Data Mining Autore: (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo A.A. 2005/2006 Il settore del Data Mining Distribuito (DDM): Data Mining: cuore del processo

Dettagli

Introduzione al Pattern Recognition Statistico

Introduzione al Pattern Recognition Statistico Introduzione al Pattern Recognition Statistico Roberto Tagliaferri Dipartimento di Informatica Università di Salerno ( Sa ) 84084 Fisciano e-mail robtag@unisa.it Statistical Pattern Recognition Introduzione

Dettagli

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche DATA MINING datamining Data mining Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche Una materia interdisciplinare: - statistica, algoritmica, reti neurali

Dettagli

Classificazione e Predizione

Classificazione e Predizione Lezione di TDM DM del 16 Aprile 2007 Francesco Bonchi, KDD Lab Pisa, ISTI-C.N.R. 1 Lezione odierna Intuizioni sul concetto di classificazione Alberi di decisione Alberi di decisione con Weka Classificazione:

Dettagli

UNIVERSITA DEGLI STUDI DI PADOVA TESI DI LAUREA TRIENNALE

UNIVERSITA DEGLI STUDI DI PADOVA TESI DI LAUREA TRIENNALE UNIVERSITA DEGLI STUDI DI PADOVA FACOLTA DI SCIENZE STATISTICHE CORSO DI LAUREA IN STATISTICA E GESTIONE DELLE IMPRESE TESI DI LAUREA TRIENNALE Cluster Analysis per la segmentazione della clientela utilizzando

Dettagli

DATA MINING IN TIME SERIES

DATA MINING IN TIME SERIES Modellistica e controllo dei sistemi ambientali DATA MINING IN TIME SERIES 01 Dicembre 2009 Dott. Ing.. Roberto Di Salvo Dipartimento di Ingegneria Elettrica Elettronica e dei Sistemi Anno Accademico 2009-2010

Dettagli

CATALOGO DEI CORSI DI FORMAZIONE

CATALOGO DEI CORSI DI FORMAZIONE CATALOGO DEI CORSI DI FORMAZIONE NextInt Training Center - formazione@nextint.it NextInt Via Nino Oxilia 22 20127 Milano (MI) Tel. +30 02 36572330/332 formazione@nextint.it www.nextint.it CHI SIAMO NextInt

Dettagli

Big Data e Predizione: Teoria, Modelli, Tool e Case Study. Tesi di Laurea

Big Data e Predizione: Teoria, Modelli, Tool e Case Study. Tesi di Laurea Università degli Studi Mediterranea di Reggio Calabria Dipartimento di Ingegneria dell Informazione, delle Infrastrutture e dell Energia Sostenibile Corso di Laurea in Ingegneria dell Informazione Tesi

Dettagli

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence Introduzione Definizione di Business Intelligence: insieme di processi per raccogliere

Dettagli

Indice-sommario INDICE SOMMARIO CAPITOLO I LE MATRICI DEI DATI E LE ANALISI UNIVARIATE

Indice-sommario INDICE SOMMARIO CAPITOLO I LE MATRICI DEI DATI E LE ANALISI UNIVARIATE VII INDICE SOMMARIO Prefazione... xv CAPITOLO I LE MATRICI DEI DATI E LE ANALISI UNIVARIATE 1. Analisi dei dati e data mining... 1 2. La matrice dei dati «unità pervariabili»... 6 3. Idatiricavatidaun

Dettagli

Il guadagno informativo negli alberi decisionali: un nuovo approccio

Il guadagno informativo negli alberi decisionali: un nuovo approccio Il guadagno informativo negli alberi decisionali: un nuovo approccio Sommario Descrizione del problema... 2 Il guadagno informativo di Nanni... 3 Il software Weka... 3 Cos è Weka... 3 Il guadagno Informativo

Dettagli

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE Arricchimento dei dati del sottoscrittore / user Approccio Tradizionale Raccolta dei dati personali tramite contratto (professione, dati sul nucleo familiare, livello

Dettagli

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,

Dettagli

Riconoscimento e recupero dell informazione per bioinformatica

Riconoscimento e recupero dell informazione per bioinformatica Riconoscimento e recupero dell informazione per bioinformatica Clustering: similarità Manuele Bicego Corso di Laurea in Bioinformatica Dipartimento di Informatica - Università di Verona Definizioni preliminari

Dettagli

Statistical learning Strumenti quantitativi per la gestione

Statistical learning Strumenti quantitativi per la gestione Statistical learning Strumenti quantitativi per la gestione Emanuele Taufer Vendite Simbologia Reddito Statistical learning A cosa ci serve f? 1 Previsione 2 Inferenza Previsione Errore riducibile e errore

Dettagli

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino Data mining Vincenzo D Elia vincenzo.delia@polito.it DBDMG - Politecnico di Torino vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 1 Rapid Miner vincenzo.delia@polito.it Archivi Multimediali

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 8 Support Vector Machines Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni Data warehouse Data warehouse La crescita dell importanza dell analisi dei dati ha portato ad una separazione architetturale dell ambiente transazionale (OLTP on-line transaction processing) da quello

Dettagli

PROVINCIA DI LIVORNO Osservatorio trasporti PROGETTO SIRSS

PROVINCIA DI LIVORNO Osservatorio trasporti PROGETTO SIRSS PROVINCIA DI LIVORNO Osservatorio trasporti PROGETTO SIRSS Analisi multivariata degli incidenti su tutte le strade della Provincia di Livorno nell anno 2008, sulla base dei dati pervenuti al 16/11/2009.

Dettagli

Tecniche avanzate di sintesi di algoritmi: Programmazione dinamica Algoritmi greedy

Tecniche avanzate di sintesi di algoritmi: Programmazione dinamica Algoritmi greedy Tecniche avanzate di sintesi di algoritmi: Programmazione dinamica Algoritmi greedy Dr Maria Federico Programmazione dinamica Solitamente usata per risolvere problemi di ottimizzazione il problema ammette

Dettagli

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati Data mining Il consente l informazione processo di Data Mining estrarre automaticamente informazioneda un insieme di dati telefoniche, ènascostaa a causa di fra quantitàdi loro, complessità: non... ci

Dettagli

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011 Data warehousing Introduzione A partire dagli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa lezione vedremo

Dettagli

Analisi di segnali fisiologici mediante reti neurali

Analisi di segnali fisiologici mediante reti neurali POLITECNICO DI TORINO III Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica Tesi di Laurea Specialistica Analisi di segnali fisiologici mediante reti neurali Relatori: Prof.ssa Elena Baralis

Dettagli

Introduzione al Data Mining

Introduzione al Data Mining Introduzione al Data Mining Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Modalità didattiche e materiale Lezioni in aula e in laboratorio utilizzando il software open source Weka

Dettagli

Data Warehousing e Data Mining

Data Warehousing e Data Mining Università degli Studi di Firenze Dipartimento di Sistemi e Informatica A.A. 2011-2012 I primi passi Data Warehousing e Data Mining Parte 2 Docente: Alessandro Gori a.gori@unifi.it OLTP vs. OLAP OLTP vs.

Dettagli

Classificazione di un data set di proteine con Weka

Classificazione di un data set di proteine con Weka MODELLI PROBABILISTICI Classificazione di un data set di proteine con Weka SOFIA CIVIDINI 2 INTRODUZIONE Negli ultimi due decenni si è assistito ad un aumento esponenziale nella quantità dell informazione

Dettagli

Regressione non lineare con un modello neurale feedforward

Regressione non lineare con un modello neurale feedforward Reti Neurali Artificiali per lo studio del mercato Università degli studi di Brescia - Dipartimento di metodi quantitativi Marco Sandri (sandri.marco@gmail.com) Regressione non lineare con un modello neurale

Dettagli

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Data warehousing Introduzione A partire dalla metà degli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa

Dettagli

Lezione 10. La classificazione dell Intelligenza Artificiale

Lezione 10. La classificazione dell Intelligenza Artificiale Lezione 10 Intelligenza Artificiale Cosa è l Intelligenza Artificiale Elaborazione del linguaggio naturale La visione artificiale L apprendimento nelle macchine La classificazione dell Intelligenza Artificiale

Dettagli

Strutture dati efficienti per la ricerca della similarità

Strutture dati efficienti per la ricerca della similarità Strutture dati efficienti per la ricerca della similarità Anche utilizzando i metodi di filtraggio visti in precedenza, il numero di confronti tra query e oggetti presenti nel database rimane alto. L efficienza

Dettagli

Data Mining: Applicazioni

Data Mining: Applicazioni Sistemi Informativi Universitá degli Studi di Milano Facoltá di Scienze Matematiche, Fisiche e Naturali Dipartimento di Tecnologie dell Informazione 1 Giugno 2007 Data Mining Perché il Data Mining Il Data

Dettagli

Laboratorio di Apprendimento Automatico. Fabio Aiolli Università di Padova

Laboratorio di Apprendimento Automatico. Fabio Aiolli Università di Padova Laboratorio di Apprendimento Automatico Fabio Aiolli Università di Padova Esempi di Applicazioni Web page Ranking Quali documenti sono rilevanti per una determinata query? Quali sorgenti di informazione

Dettagli

Basi di dati. Le funzionalità del sistema non vanno però ignorate

Basi di dati. Le funzionalità del sistema non vanno però ignorate Basi di dati La progettazione di una base di dati richiede di focalizzare lo sforzo su analisi, progettazione e implementazione della struttura con cui sono organizzati i dati (modelli di dati) Le funzionalità

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Il data mining. di Alessandro Rezzani

Il data mining. di Alessandro Rezzani Il data mining di Alessandro Rezzani Cos è il data mining.... 2 Knowledge Discovery in Databases (KDD)... 3 Lo standard CRISP-DM... 4 La preparazione dei dati... 7 Costruzione del modello... 7 Attività

Dettagli

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: macchine che apprendono Computazione per l interazione naturale: macchine che apprendono Corso di Interazione Naturale! Prof. Giuseppe Boccignone! Dipartimento di Informatica Università di Milano! boccignone@di.unimi.it boccignone.di.unimi.it/in_2015.html

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

Principi di analisi causale Lezione 2

Principi di analisi causale Lezione 2 Anno accademico 2007/08 Principi di analisi causale Lezione 2 Docente: prof. Maurizio Pisati Logica della regressione Nella sua semplicità, l espressione precedente racchiude interamente la logica della

Dettagli

Introduzione ad OLAP (On-Line Analytical Processing)

Introduzione ad OLAP (On-Line Analytical Processing) Introduzione ad OLAP (On-Line Analytical Processing) Metodi e Modelli per il Supporto alle Decisioni 2002 Dipartimento di Informatica Sistemistica e Telematica (Dist) Il termine OLAP e l acronimo di On-Line

Dettagli

Data Mining Algorithms

Data Mining Algorithms Proposte di Tesi Elena Baralis, Silvia Chiusano, Paolo Garza, Tania Cerquitelli, Giulia Bruno, Daniele Apiletti, Alessandro Fiori, Luca Cagliero, Alberto Grand, Luigi Grimaudo Torino, Giugno 2011 Data

Dettagli

IBM SPSS Direct Marketing 21

IBM SPSS Direct Marketing 21 IBM SPSS Direct Marketing 21 Nota: Prima di utilizzare queste informazioni e il relativo prodotto, leggere le informazioni generali disponibili in Note a pag. 109. Questa versione si applica a IBM SPSS

Dettagli

Suggerimenti per l approccio all analisi dei dati multivariati

Suggerimenti per l approccio all analisi dei dati multivariati Suggerimenti per l approccio all analisi dei dati multivariati Definizione degli obbiettivi Il primo passo è la definizione degli obbiettivi. Qual è l obbiettivo della sperimentazione i cui dati dovete

Dettagli

Alberi Decisionali di Vito Madaio

Alberi Decisionali di Vito Madaio Tecnica degli Alberi Decisionali Cosa è un albero decisionale Un albero decisionale è la dimostrazione grafica di una scelta effettuata o proposta. Non sempre ciò che istintivamente ci appare più interessante

Dettagli

file://i:\mining-warehouse\data%20mining%20%20tecniche%20di%20trasformazion...

file://i:\mining-warehouse\data%20mining%20%20tecniche%20di%20trasformazion... Pagina 1 di 5 Martedì, 17 Maggio 2004 chi siamo catalogo contatti@ rivendite registrati help ricerca: Ok! HOME WEBZINE LIBRI UNIVERSITA' EBOOK BUSINESS OPENPRESS Newsletter gratuite Resta aggiornato! Iscriviti

Dettagli

Microsoft SQL Server Integration Services

Microsoft SQL Server Integration Services Sistemi Informativi Dott.ssa Elisa Turricchia Alma Mater Studiorum - Università di Bologna elisa.turricchia2@unibo.it 1 Microsoft SQL Server Integration Services 1 SQL Server Integration Services SSIS

Dettagli

Introduzione al Data Mining Parte 1

Introduzione al Data Mining Parte 1 Introduzione al Data Mining Parte 1 Corso di Laurea Specialistica in Ingegneria Informatica II Facoltà di Ingegneria, sede di Cesena (a.a. 2010/2011) Prof. Gianluca Moro Dipartimento di Elettronica, Informatica

Dettagli

Master SIT Settembre 2006. Corso Web & GIS - Master in Sistemi Informativi Territoriali AA 2005/2006. Chiara Renso. ISTI- CNR c.renso@isti.cnr.

Master SIT Settembre 2006. Corso Web & GIS - Master in Sistemi Informativi Territoriali AA 2005/2006. Chiara Renso. ISTI- CNR c.renso@isti.cnr. COSTRUIRE APPLICAZIONI WEB GIS: SERVIZI E STRATEGIE Corso - Master in Sistemi Informativi Territoriali AA 2005/2006 ISTI- CNR c.renso@isti.cnr.it I servizi WebGIS...1 Download di dati...3 Visualizzazione

Dettagli

Intelligenza Artificiale

Intelligenza Artificiale Intelligenza Artificiale Anno accademico 2008-2009 Information Retrieval: Text Categorization Una definizione formale Sia D il dominio dei documenti Sia C = {c 1,,c C } un insieme di categorie predefinite

Dettagli

modo differenziato i clienti ricadenti nelle differenti classi. Tecnica RFM Questo approccio considera, oltre al valore di fatturato (contemplato

modo differenziato i clienti ricadenti nelle differenti classi. Tecnica RFM Questo approccio considera, oltre al valore di fatturato (contemplato Metodi quantitativi per il targeting Per le piccole e medie imprese il Data Base di Marketing (DBM) è di importanza cruciale nella segmentazione della clientela e individuazione del target di interesse

Dettagli

TECNICHE DI COMPRESSIONE DATI

TECNICHE DI COMPRESSIONE DATI TECNICHE DI COMPRESSIONE DATI COMPRESSIONE DATI La compressione produce una rappresentazione più compatta delle informazioni è come se si usassero meno parole per dire la stessa cosa in modo diverso. Esistono

Dettagli

Database e Microsoft Access. Ing. Antonio Guadagno

Database e Microsoft Access. Ing. Antonio Guadagno Database e Microsoft Access Ing. Antonio Guadagno Database e Microsoft Access Un Database non è altro che un insieme di contenitori e di strumenti informatici che ci permette di gestire grossi quantitativi

Dettagli

Data warehouse Introduzione

Data warehouse Introduzione Database and data mining group, Data warehouse Introduzione INTRODUZIONE - 1 Pag. 1 Database and data mining group, Supporto alle decisioni aziendali La maggior parte delle aziende dispone di enormi basi

Dettagli

Metodi e Modelli per le Decisioni

Metodi e Modelli per le Decisioni Metodi e Modelli per le Decisioni Corso di Laurea in Informatica e Corso di Laurea in Matematica Roberto Cordone DI - Università degli Studi di Milano Lezioni: Giovedì 13.30-15.30 Venerdì 15.30-17.30 Ricevimento:

Dettagli

Cultura Tecnologica di Progetto

Cultura Tecnologica di Progetto Cultura Tecnologica di Progetto Politecnico di Milano Facoltà di Disegno Industriale - DATABASE - A.A. 2003-2004 2004 DataBase DB e DataBase Management System DBMS - I database sono archivi che costituiscono

Dettagli

Introduzione al KDD e al DATA MINING

Introduzione al KDD e al DATA MINING Introduzione al KDD e al DATA MINING Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Verso il DM: una breve analisi delle fasi del processo KDD. 1 2 Il DM: Alcune definizioni.

Dettagli

CA Clarity Playbook. Guida per l'utente. Versione 2.5

CA Clarity Playbook. Guida per l'utente. Versione 2.5 CA Clarity Playbook Guida per l'utente Versione 2.5 La presente documentazione, che include il sistema di guida in linea integrato e materiale distribuibile elettronicamente (d'ora in avanti indicata come

Dettagli

Data Warehouse Architettura e Progettazione

Data Warehouse Architettura e Progettazione Introduzione Data Warehouse Architettura! Nei seguenti lucidi verrà fornita una panoramica del mondo dei Data Warehouse.! Verranno riportate diverse definizioni per identificare i molteplici aspetti che

Dettagli

Clustering. Cos è un analisi di clustering

Clustering. Cos è un analisi di clustering Clustering Salvatore Orlando Data Mining. - S. Orlando Cos è un analisi di clustering Cluster: collezione di oggetti/dati Simili rispetto a ciascun oggetto nello stesso cluster Dissimili rispetto agli

Dettagli

1. Aspetti di Marketing... 3 Obiettivi... 3 Esempi... 4 2. Aspetti Applicativi... 4 Obiettivi... 4. 3. Aspetti Prestazionali... 4

1. Aspetti di Marketing... 3 Obiettivi... 3 Esempi... 4 2. Aspetti Applicativi... 4 Obiettivi... 4. 3. Aspetti Prestazionali... 4 Pagina 2 1. Aspetti di Marketing... 3 Obiettivi... 3 Esempi... 4 2. Aspetti Applicativi... 4 Obiettivi... 4 Esempi... 4 3. Aspetti Prestazionali... 4 Obiettivi... 4 Esempi... 4 4. Gestione del Credito

Dettagli

Il passaggio tra il primo ed il secondo livello: gli strumenti di extraction, tranformation and loading (ETL tools)

Il passaggio tra il primo ed il secondo livello: gli strumenti di extraction, tranformation and loading (ETL tools) Sistemi informativi direzionali l architettura Il passaggio tra il primo ed il secondo livello: gli strumenti di extraction, tranformation and loading (ETL tools) LA RICONCILIAZIONE DEI DATI 1. Estrazione:

Dettagli

Informatica 3. LEZIONE 23: Indicizzazione. Modulo 1: Indicizzazione lineare, ISAM e ad albero Modulo 2: 2-3 trees, B-trees e B + -trees

Informatica 3. LEZIONE 23: Indicizzazione. Modulo 1: Indicizzazione lineare, ISAM e ad albero Modulo 2: 2-3 trees, B-trees e B + -trees Informatica 3 LEZIONE 23: Indicizzazione Modulo 1: Indicizzazione lineare, ISAM e ad albero Modulo 2: 2-3 trees, B-trees e B + -trees Informatica 3 Lezione 23 - Modulo 1 Indicizzazione lineare, ISAM e

Dettagli

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Obiettivi. Presentare l evoluzione dei sistemi informativi: da supporto alla operatività a supporto al momento decisionale Definire

Dettagli

Altri metodi di indicizzazione

Altri metodi di indicizzazione Organizzazione a indici su più livelli Altri metodi di indicizzazione Al crescere della dimensione del file l organizzazione sequenziale a indice diventa inefficiente: in lettura a causa del crescere del

Dettagli

Tecniche di Simulazione: Introduzione. N. Del Buono:

Tecniche di Simulazione: Introduzione. N. Del Buono: Tecniche di Simulazione: Introduzione N. Del Buono: 2 Che cosa è la simulazione La SIMULAZIONE dovrebbe essere considerata una forma di COGNIZIONE (COGNIZIONE qualunque azione o processo per acquisire

Dettagli

Esercizi Capitolo 5 - Alberi

Esercizi Capitolo 5 - Alberi Esercizi Capitolo 5 - Alberi Alberto Montresor 19 Agosto, 2014 Alcuni degli esercizi che seguono sono associati alle rispettive soluzioni. Se il vostro lettore PDF lo consente, è possibile saltare alle

Dettagli

L analisi spaziale. Indici statistici geospaziali

L analisi spaziale. Indici statistici geospaziali L analisi spaziale Uno degli scopi principali dei GIS e quello di offrire strumenti concettuali e metodologici per studiare analiticamente le relazioni nello spazio L analisi spaziale ha come obbiettivo

Dettagli

Optimized Technology. March 2008. www.neodatagroup.com - info@neodatagroup.com

Optimized Technology. March 2008. www.neodatagroup.com - info@neodatagroup.com XML Banner Feeding Optimized Technology March 2008 www.neodatagroup.com - info@neodatagroup.com Tel: +39 095 7226111 - Fax: +39 095 7374775 Varese: Via Bligny, 16 21100 - Milano: Via Paolo da Cannobio,

Dettagli