Data Mining. KDD e Data Mining - Introduzione (1)

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Data Mining. KDD e Data Mining - Introduzione (1)"

Transcript

1 1 Data Mining Corso di Metodi e Modelli per il Supporto alle Decisioni a.a KDD e Data Mining - Introduzione (1) Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da satellite o da sensori remoti, servizi on line..) Sviluppo delle tecnologie per l immagazzinamento dei dati, tecniche di gestione di database e data warehouse, supporti piu capaci piu economici (dischi, CD) hanno consentito l archiviazione di grosse quantita di dati Simili volumi di dati superano di molto la capacità di analisi dei metodi manuali tradizionali, come le query ad hoc. Tali metodi possono creare report informativi sui dati ma non riescono ad analizzare il contenuto dei report per focalizzarsi sulla conoscenza utile.

2 3 KDD e Data Mining - Introduzione (2) Emerge l'esigenza di tecniche e strumenti con la capacità di assistere in modo intelligente e automatico gli utenti decisionali nell'estrazione di elementi di conoscenza dai dati. Queste tecniche e strumenti sono al centro del campo emergente del Knowledge Discovery in Databases (KDD). Il termine knowledge discovery in databases, o KDD, indica l'intero processo di ricerca di nuova conoscenza dai dati Il termine di data mining si riferisce all'applicazione di algoritmi per estrarre pattern dai dati senza considerare gli ulteriori passi che caratterizzano il processo di KDD (come, ad esempio, incorporare appropriata conoscenza a priori e fornire una opportuna interpretazione dei risultati). 4 KDD e Data Mining - Introduzione (3) Pertanto l'intero processo, tipicamente interattivo e iterativo, di ricerca, estrazione ed interpretazione di pattern dai dati, che indichiamo come KDD, coinvolge l'applicazione ripetuta di specifici metodi e algoritmi di data mining e l'interpretazione dei pattern generati da tali algoritmi. Nel seguito forniremo una definizione più dettagliata di KDD e una panoramica sui metodi e gli algoritmi di data mining più usati

3 5 Il processo di KDD (1) Application Domain Prior Knowledge User s Goals Data Mining Interpretation/ Evaluation Knowledge Transformation Patterns Selection Preprocessing Transformed Data Preprocessed Data Metadata Target Data Data 6 Il processo di KDD (2) 1) Sviluppo e approfondimento del dominio di applicazione, della conoscenza disponibile a priori e degli obiettivi dell'utente finale. 2) Creazione di un target data set: selezione del data set o focalizzazione su un sottoinsieme di variabili o di campioni di dati oggetto del processo KDD. 3) Cleaning dei dati e preprocessing: operazioni di base come la rimozione del rumore o degli outliers se è il caso, raccolta delle informazioni necessarie per modellare o tener conto del rumore, messa a punto di strategie per gestire i dati mancanti e per gestire i dati tempo-varianti. 4) Riduzione dei dati e proiezione: rappresentazione dei dati in modo opportuno in relazione agli obiettivi della ricerca. Riduzione delle dimensioni e impiego di metodi di trasformazione per ridurre l'effettivo numero di variabili da sottoporre al processo di ricerca.

4 7 Il processo di KDD (3) 5) Scelta del compito del processo di data mining: identificazione dell'obiettivo del KDD, se si tratti di una classificazione, di una regressione, di un clustering 6) Scelta dell'algoritmo o degli algoritmi di data mining: selezione dei metodi da usare per ricercare pattern nei dati. Questa fase comprende la decisione su quali modelli e parametri potrebbero essere appropriati e il matching di un particolare metodo di data mining con i criteri generali del processo KDD (per es. l'utente finale potrebbe essere maggiormente interessato alla comprensione del modello piuttosto che alle sue capacità predittive). 8 Il processo di KDD (4) 7) Data mining: ricerca di pattern di interesse in una particolare forma di rappresentazione o su un set di rappresentazioni diverse (regole di classificazione, alberi decisionali, regressione, clustering ). Il risultato del processo di data mining è considerevolmente influenzato dalla correttezza delle fasi precedenti. 8) Interpretazione dei pattern trovati e possibile ritorno alle fasi 1-7 per ulteriori iterazioni. 9) Consolidamento della conoscenza estratta: incorporazione di tale conoscenza nel sistema di performance o, semplicemente, documentazione e reporting alle parti interessate. Questa fase include anche il controllo per la risoluzione di potenziali contraddizioni con la conoscenza precedentemente disponibile.

5 9 Data Mining - Introduzione I due principali obiettivi di alto livello del data mining sono la predizione e la descrizione. La predizione implica l'uso di variabili o campi di un database per predire valori ignoti o futuri di altre variabili di interesse. La descrizione si concentra invece sulla ricerca di pattern interpretabili che descrivano i dati. L'importanza relativa di predizione e descrizione nelle diverse applicazioni del data mining può variare considerevolmente. Nel contesto del KDD la descrizione tende ad essere più importante della predizione, mentre nelle applicazioni di pattern recognition e machine learning (per es. speech recognition) la predizione spesso costituisce l'obiettivo principale 10 Principali Funzioni del Data Mining (1) Classificazione: consiste nell'apprendere una funzione che mappa (classifica) un elemento in una tra molte classi predefinite. Regressione: consiste nell'apprendere una funzione che mappa un elemento in una variabile predittiva a valori reali. La classificazione si distingue dalla regressione per il tipo di output che fornisce. Con la classificazione, l output predetto (l appartenenza ad una classe) è di tipo categorico, cioè assume pochi valori, tipo Si o No, oppure Basso, Medio o Alto. La regressione invece prevede come output un valore numerico che può assumere un numero illimitato (o almeno molto grande) di possibili valori. La classificazione costituisce, insieme alla regressione, il tipo di problema più comune a cui viene applicato il data mining.

6 11 Principali Funzioni del Data Mining (2) Clustering: è un task a carattere tipicamente descrittivo in cui si cerca di identificare un numero finito di categorie o cluster per descrivere i dati. Tali categorie possono essere mutuamente esclusive ed esaustive oppure possono fornire una rappresentazione più ricca con categorie gerarchiche o parzialmente sovrapposte. Aggregazione: le tecniche di aggregazione comprendono metodi per la ricerca di descrizioni compatte per sottoinsiemi di dati. Un esempio semplice potrebbe essere la tabulazione della media e della deviazione standard per tutti i campi. Metodi più sofisticati comprendono la derivazione di regole di aggregazione, le tecniche di visualizzazione e l'identificazione di relazioni funzionali tra le variabili 12 Principali Funzioni del Data Mining (3) Dependency Modeling: consiste nella ricerca di un modello che descriva dipendenze significative tra le variabili. I modelli di dipendenza esistono a due livelli: il livello strutturale del modello specifica, spesso in forma grafica, quali variabili sono localmente dipendenti da altre, mentre il livello quantitativo del modello specifica la forza della dipendenza usando una qualche scala numerica. Per esempio, le reti di dipendenza probabilistica usano l'indipendenza condizionale per specificare l'aspetto strutturale del modello e le probabilità o la correlazione per specificare la forza della dipendenza

7 13 Clustering - Introduzione (1) Partizionare un grande insieme di oggetti in clusters omogenei è un operazione fondamentale in data mining L algoritmo cosiddetto k-means è molto adatto per svolgere quest operazione poiché è efficiente L unico problema è che è di limitata applicabilità, in quanto tratta unicamente dati numerici Vedremo brevemente l algoritmo k-means e una sua estensione per dati categorici 14 Clustering - Introduzione (2) L operazione di clustering è necessaria per diverse funzioni del data mining tra cui la classificazione unsupervised, la segmentazione di grossi data set eterogenei in più piccoli sotto-insiemi omogenei che possono essere facilmente gestiti e analizzati separatamente I metodi di clustering dividono un insieme di oggetti in clusters tali che gli oggetti nello stesso cluster sono più simili tra loro rispetto agli oggetti in cluster diversi secondo qualche criterio predefinito I metodi statistici di clustering usano misure di similarità per partizionare gli oggetti, mentre metodi di clustering concettuale partizionano gli oggetti sulla base dei concetti associati agli oggetti La caratteristica del data mining è che tratta grosse quantità di dati

8 15 Clustering - Introduzione (3) La dimensione dei data set richiede che gli algoritmi usati siano scalabili Spesso gli algoritmi correntemente usati nel data mining non offrono grande scalabilità in quanto sono stati originariamente sviluppati per applicazioni diverse che coinvolgevano data set più piccoli Lo studio di algoritmi scalabili per il data mining è recentemente diventato un importante argomento di ricerca Dopo una breve presentazione dell algoritmo k-means, introdurremo la sua variante k-modes per trattare dati categorici Confrontati con altri metodi di clustering, l algoritmo k-means e le sue varianti mostrano efficienza anche applicati a grossi data set 16 Introduzione (4) L algoritmo k-means minimizza una funzione di costo calcolando i valori medi dei cluster e pertanto il suo impiego è limitato a valori numerici Le applicazioni di data mining coinvolgono spesso dati categorici L approccio tradizionale di conversione di dati categorici in dati numerici non è sempre significativo (ad esempio quando i domini categorici non sono ordinati) L algoritmo k-modes elimina questo incoveniente ed estende il concetto dei k-means anche a dati categorici, preservando l efficienza dell algoritmo k-means Esiste una versione più complessa dell algoritmo k-modes che si chiama k-prototypes che tiene conto di attributi misti, categorici e non.

9 17 Introduzione (4) L algoritmo k-prototypes definisce una misura di dissimilarità mista per attributi categorici e numerici Sia s n la dissimilarità per attributi numerici basata sul quadrato della distanza euclidea Sias c la dissimilarità per attributi categorici definita come il numero di categorie diverse tra due oggetti Definiamo la misura di dissimilarità tra due oggetti come s n +ys c dove y è un peso per bilanciare le due parti ed evitare che un tipo di attributo sia più considerato dell altro Il processo di clustering dell algoritmo k-prototypes è simile a k-means Un problema è la scelta opportuna del peso y 18 Introduzione (5) L algoritmo k-modes è una semplificazione del metodo k-prototypes in quanto tiene conto solo degli attributi categorici In questo caso non abbiamo più bisogno di definire un peso y Nel caso in cui comparissero attributi numerici nel problema occorrerebbe renderli categorici Il maggior vantaggio del metodo consiste nella sua grande scalabilità e pertanto nella possibilità di essere applicato a grandi data set Un altro approccio è stato presentato per applicare l algoritmo k-means a dati categorici previa conversione dei dati categorici in dati numerici In questo metodo molteplici attributi categorici vengono trasformati in attributi binari (usando 0 o 1 per indicare se una categoria è assente o presente)

10 19 Introduzione (5) Quindi gli attributi resi binari vengono considerati numerici e sottoposti all algoritmo k-means Se impiegato nel data mining, questo approccio richiede di gestire un numero molto grande di attributi binari, in quanto i data set impiegati nel data mining spesso hanno attributi categorici con centinaia o migliaia di categorie. Questo aumenta inevitabilmente la complessità e il costo dell algoritmo Inoltre i cluster means, dati da valori reali tra 0 e 1 non indicano le caratteristiche del cluster Per contro l algoritmo k-modes lavora direttamente su attributi categorici e produce i cluster modes che descrivono i clusters e pertanto risutano utili nell interpretazione dei risultati 20 Domini e Attributi Categorici (1) Per dati categorici intendiamo dati che descrivono oggetti che hanno solo attributi categorici Consideriamo che tutti gli attributi numerici siano inseriti in categorie SianoA 1, A 2,,A m m attributi che descrivono uno spazio S e DOM(A 1 ), DOM(A 2 ),, DOM(A m ) i domini degli attributi UndominioDOM(A ) è definito categorico se è finito e non ordinato, per es., per ogni a,b DOM(A ) o a=b, o a b A è chiamato attributo categorico S è uno spazio categorico se tutti gli attributi A 1, A 2,,A m che lo descrivono sono categorici Un valore speciale, denotato con ε, è definito su tutti i domini categorici ed è usato per rappresentare valori mancanti

11 21 Domini e Attributi Categorici (2) Per semplificare la misura di dissimilarità non consideriamo le relazioni di inclusione concettuale tra valori in un dominio categorico (ad esempio il fatto che automobile e veicolo sono due valori categorici in un dominio e concettualmente un automobile è anche un veicolo) 22 Oggetti Categorici (1) Un oggetto categorico X S è logicamente rappresentato come una congiunzione di coppie attributo-valore [A 1 =x 1 ] [A 2 =x 2 ] [A m =x m ] dove x DOM(A ) per 1 m Senza ambiguità rappresentiamo X come un vettore [x 1, x 2,,x m ] Consideriamo che ogni oggetto in S abbia esattamente m attributi. Se il valore di un attributo A non è disponibile per un oggetto X, allora A = ε SiaX = {X 1, X 2,..., X n } un insieme di n oggetti categorici e X S L oggetto X i e rappresentato come [x i1, x i2,,x im ] Diciamo chex i =X k se x i =x k per 1 m La relazione X i =X k non significa che X i ex k sono lo stesso oggetto

12 23 Oggetti Categorici (2) Significa che i 2 oggetti hanno gli stessi valori categorici negli attributi A 1,...,A m Ad esempio 2 pazienti in 1 ospedale possono avere gli stessi valori negli attributi: Sesso, Malattia, Trattamento ma avere diverso Nome, Indirizzo, Eta... che sono attributi non selezionati per il clustering Supponiamo che X sia composto da n oggetti di cui p sono distinti Sia N la cardinalita del prodotto cartesiano DOM(A 1 ) x DOM(A 2 ) x DOM(A m ) Abbiamo p N mentre n puo essere maggiore di N, nel caso che contenga duplicati 24 Algoritmo k-means L algoritmo k-means e costruito su 4 operazioni di base: 1) selezione dei k valori medi iniziali per i cluster 2) calcolo della dissimilarita tra un oggetto e la media di un cluster 3) allocazione di un oggetto nel cluster la cui media e piu vicina all oggetto 4) Ri-calcolo della media del cluster dagli oggetti allocati in esso in modo tale che la dissimilarita intra-cluster sia minimizzata Tranne che la prima operazione, le altre 3 vengono ripetute fino a convergenza

13 25 Algoritmo k-means (2) L essenza dell algoritmo e la minimizzazione della funzione di costo: E = k n l= 1 i= 1 y ( X Q ) i, ld i, dove n e il numero degli oggetti in un data set X, X i X, Q l e la media del cluster l, e y i,l e un elemento di una matrice di partizione Y nxk, d e una misura di dissimilarita generalmente definita dal quadrato della distanza euclidea Esistono diverse varianti dell algoritmo che differiscono nella selezione iniziale dei centri dei cluster, nel calcolo della dissimilarita e nelle strategie per calcolare i centri dei cluster l 26 Algoritmo k-means (3) L algoritmo k-means ha le seguenti importanti proprieta : 1. E efficiente nel gestire grosse quantita di dati. La complessita computazionale dell algoritmo e O(tkmn) dove m e il numero di attributi, n il numero di oggetti, k il numero dei cluster, e t e il numero di iterazioni sull intero data set. In genere, k,m,t << n. 2. Spesso l algoritmo termina in un ottimo locale. Per trovare l ottimo globale possono essere adottate altre tecniche (deterministic annealing, algoritmi genetici) da incorporare al k-means 3. Funziona solo su valori numerici in quanto minimizza una funzione di costo calcolando la media dei clusters 4. I cluster hanno forma convessa. Pertanto e difficile usare il k-means per trovare cluster di forma non convessa

14 27 Algoritmo k-means (5) Una difficolta consiste nel determinare il numero dei cluster Alcune varianti dell algoritmo includono una procedura per cercare il k ottimo L algoritmo k-means e il migliore per il data mining per la sua efficienza con i grossi data set Purtroppo, funzionando solo per valori numerici, limita di molto la sua applicabilita Discuteremo alcune modifiche all algoritmo per renderlo adatto a valori categorici 28 Algoritmo k-modes (1) L algoritmo k-modes e una versione semplificata del k-prototypes In questo algoritmo abbiamo 3 differenze principali rispetto al k-means: 1. Usa una diversa misura di dissimilarita 2. Sostituisce i k-means con i k-modes 3. Usa un metodo basato sulla frequenza per aggiornare i modes

15 29 Misure di dissimilarita (1) Siano X e Y due oggetti categorici descritti da m attributi categorici La misura di dissimilarita tra X e Y puo essere definita dal totale delle differenze tra le corrispondenti categorie di attributi dei due oggetti Minore e il numero degli attributi diversi, piu i due oggetti sono simili Formalmente: d δ m ( X, Y ) δ ( x, y ) ( x, y ) = = 1 0 = 1 ( x = y ) ( x y ) (1) 30 Misure di dissimilarita (2) d(x,y) da uguale importanza ad ogni categoria di un attributo Se teniamo in conto le frequenze delle categorie in un data set, possiamo definire la misura di dissimilarita come: d χ m = 1 ( n ) x + ny ( x, y ) 2 ( X, Y ) = δ n n x y (2) n n y dove e sono il numero di oggetti nel data set che hanno le x categorie x e y per l attributo. d χ 2 ( X, Y ) si dice distanza chi-quadro

16 31 Misure di dissimilarita (3) Questa seconda misura di dissimilarita da piu importanza alle categorie rare piuttosto che a quelle frequenti Per questo viene usata per scoprire cluster di oggetti sotto-rappresentati come ad es. i richiami fraudolenti nei database delle assicurazioni 32 Mode di un set SiaX un insieme di oggetti categorici descritti dagli attributi categorici A 1, A 2,..., A m Un mode di X e un vettore Q=[q 1, q 2,..., q m ] S che minimizza: n (,X) = d ( X i, Q) D Q i= 1 dove X={X 1, X 2,..., X n } e d possono essere definiti come nell eq. (1) o nell eq. (2). Q non e necessariamente un elemento di X

17 33 Ricerca di un Mode per un set n c k, c k, Sia il numero di oggetti aventi la categoria nell attributo A e fr( A = c, X) = k n c k, n la frequenza relativa della categoria c k, in X Teorema: la funzione D(Q,X) e minimizzata se e solo se: f r ( A = q X) f ( A = c X) per q r ck, per ogni = 1,..., m k 34 L algoritmo k-modes (1) Sia{S 1, S 2,..., S k } una partizione di X, dove S l Ø per 1 l k e {Q 1,..., Q k } i modi di {S 1,..., S k } Il costo totale della partizione e definito da: k n l= 1 i= 1 i, l ( X Q ) E = y d, dove y i,l e un elemento di una matrice di partizione Y nx1 e d puo essere definito come in 1 o come in 2 Similmente all algoritmo k-means, l obiettivo del clustering di X e trovare un set {Q 1, Q 2,..., Q k } che minimizzi E. i l

18 35 L algoritmo k-modes (2) L algoritmo k-modes consiste nei passi seguenti : 1. Scegliere k modi iniziali, uno per ogni cluster 2. Allocare un oggetto in un cluster il cui modo sia il piu vicino ad esso, secondo la definizione di d. Aggiornare il modo del cluster dopo ogni allocazione secondo il teorema 3. Dopo che tutti gli oggetti sono stati allocati nei cluster, ripetere il test della dissimilarita degli oggetti in relazione ai modi correnti. Se si trova che un oggetto e piu vicino al modo di un altro cluster piuttosto che al proprio corrente, riallocare l oggetto in quel cluster e aggiornare i modi di entrambi 4. Ripetere il passo 3 finche nessun oggetto cambia cluster dopo un ciclo completo di test sull intero data set 36 L algoritmo k-modes (3) Come l algoritmo k-means, l algoritmo k-modes produce soluzioni localmente ottime che sono dipendenti dai modi iniziali e dall ordine degli oggetti nel data set L impiego di opportuni metodi di scelta dei modi iniziali, puo migliorare il risultato del clustering Vediamo un metodo di selezione dei k modi iniziali. Il metodo si sviluppa nei seguenti passi: 1. Calcolare le frequenze di tutte le categorie per tutti gli attributi e immagazzinarli in un array di categorie in ordine discendente di frequenza come in Fig.1. Qui c i, denota la categoria i dell attributo e f(c i, ) f(c i+1, ) dove f(c i, ) e la frequenza della categoria c i,

19 37 L algoritmo k-modes (4) Fig.1 c c c c 1,1 2,1 3,1 4,1 c c 1,2 2,2 c c c c La figura mostra l array di categorie per un data set con 4 attributi aventi rispettivamente 4, 2, 4, 3 categorie 2. Assegnare le categorie piu frequenti uniformemente ai k modi iniziali. Per l esempio in Fig.1 assumiamo k=3. Assegnamo Q 1 =[q 1,1 =c 1,1, q 1,2 =c 2,2, q 1,3 =c 3,3, q 1,4 =c 1,4 ], Q 2 =[q 2,1 =c 2,1, q 2,2 =c 1,2, q 2,3 =c 4,3, q 2,4 =c 2,4 ], Q 3 =[q 3,1 =c 3,1, q 3,2 =c 2,2, q 3,3 =c 1,3, q 3,4 =c 3,4 ] 1,3 2,3 3,3 4,3 c c c 1,4 2,4 3,4 38 L algoritmo k-modes (4) 3. Incominciamo con Q 1. Scegliamo il record piu simile a Q 1 e sostituiamo Q 1 con il record come primo modo iniziale. Poi scegliamo il record piu simile a Q 2 esostituiamoq 2 con il record come secondo modo iniziale. Continuiamo questo processo fino alla sostituzione di Q k In queste selezioni Q l Q t per l t Il passo 3 serve per evitare il caso di cluster vuoti. L obiettivo di questo metodo di selezione e di rendere distanti i modi iniziali il che puo risultare in un miglior clustering.

20 39 Classificazione e Regressione - Introduzione (1) Classificazione e regressione sono problemi a cui comunemente viene applicato il data mining Tipicamente classificazione e regressione vengono usate come supporto decisionale nel marketing e nel CRM (previsione dei comportamenti di acquisto, identificazione dei target per promozioni, nuovi prodotti...) ma anche per l identificazione di frodi, nella credit risk detection, in problemi di diagnostica medica... Esistono diverse tecniche di data mining per affrontare problemi di classificazione e di regressione e generalmente ogni tecnica dispone di diversi algoritmi. Naturalmente queste tecniche producono modelli diversi ma in generale ogni tecnica genera un modello predittivo basato su dati storici che viene poi impiegato per predire l uscita di nuovi casi. Cio che distingue classificazione e regressione e il tipo di output che viene predetto 40 Classificazione e Regressione - Introduzione (2) La classificazione individua l appartenenza ad una classe. Per esempio un modello potrebbe predire che il potenziale cliente X rispondera ad un offerta. Con la classificazione l output predetto (la classe) e categorico ossia puo assumere solo pochi possibili valori come Si, No, Alto, Medio, Basso... La regressione predice un valore numerico specifico. Ad esempio un modello potrebbe predire che il cliente X ci portera un profitto di Y lire nel corso di un determinato periodo di tempo. Le variabili in uscita possono assumere un numero illimitato (o comunque una grande quantita ) di valori. Spesso queste variabili in uscita sono indicate come continue anche se talvolta non lo sono nel senso matematico del termine (ad esempio l eta di una persona)

21 41 Classificazione e Regressione - Introduzione (3) Classificazione e regressione sono comunque strettamente correlate e spesso risulta semplice trasformare un problema di classificazione in una regressione e viceversa In generale un problema di regressione viene trasformato in un problema di classificazione semplicemente raggruppando i valori continui predetti in categorie discrete, mentre un problema di classificazione viene trasformato in una regressione identificando un punteggio o probabilita per ogni categoria ed assegnando un range di punteggi ad ogni categoria Nonostante esista la possibilita di convertire classificazione in regressione e viceversa e importante osservare che, a livello di strumenti, i risultati piu accurati si ottengono con il matching di tool e task 42 Tecniche di predictive modeling (1) Esistono 4 tecniche che attualmente dominano il mercato degli strumenti per classificazione e regressione: 1) Decision Tree: e una tecnica che genera una rappresentazione grafica ad albero del modello che produce. Generalmente e accompagnata da regole della forma IF condition THEN outcome che costutuiscono la versione testuale del modello. Gli algoritmi di Decision Tree comunemente implementati comprendono Chisquared Automatic Interaction Detection (CHAID), Classification and Regression Trees (CART), C4.5 e C5.0. Tutti questi sono estremamente adatti alla classificazione, alcuni sono impiegabili anche per la regressione.

22 43 Tecniche di predictive modeling (2) 2) Neural networks: sono tra i piu complicati algoritmi di classificazione e regressione. Vengono usate comunemente nell identificazione di frodi dove occorre un algoritmo che rilevi accuratamente ogni eccezione e che funzioni in tempo reale. Infatti, sebbene la fase di training di una rete neurale possa essere time consuming, una rete allenata puo effettuare previsioni su nuovi casi molto rapidamente. L output di una rete neurale e puramente predittivo e spesso difficile da comprendere e da impiegare. Queste difficolta spesso scoraggiano l uso di reti neurali nel supporto decisionale. 44 Tecniche di predictive modeling (3) 3) Naive-Bayes: e una tecnica di classificazione sia predittiva che descrittiva. Analizza la relazione tra ogni variabile indipendente e la variabile dipendente per derivare una probabilita condizionata per ogni relazione. Quando si analizza un nuovo caso, viene fatta una previsione combinando gli effetti delle variabili indipendenti sulle variabili dipendenti (l uscita che viene predetta). Per esempio consideriamo il problema di cercare di predire il turnover dei clienti dove è noto che il 75% dei clienti con fatturazioni mensili tra $400 e $500 ha abbandonato e il 68% dei clienti che ha fatto più di 4 chiamate al customer service ha abbandonato. Applicando la tecnica a un cliente con fatturazione mensile di $480 e che ha fatto 5 chiamate al customer service, Naive Bayes predice che il cliente ha una alta probabilità di abbandono.

23 45 Tecniche di predictive modeling (3) In teoria i risultati sarebbero corretti solo se le variabili indipendenti fossero statisticamente indipendenti l una dall altra. Questo spesso non e vero ma la pratica dimostra che Naive Bayes fornisce buoni risultati e la sua semplicita e velocita ne fanno uno strumento ideale per modellare ed investigare relazioni semplici 46 Tecniche di predictive modeling (4) 4) K-nearest neighbor (K-NN): differisce dalle precedenti tecniche nel fatto che i dati di training non sono usati per creare il modello ma costituiscono essi stessi il modello. Quando si presenta un nuovo caso, l algoritmo scandisce tutti i dati per trovare un sottoinsieme di casi che sono piu vicini ad esso e li usa per predire l uscita. Ci sono due aspetti principali nell algoritmo k-nn: il numero di casi piu vicini da usare (k) e la scelta di una metrica per misurare cosa si intende per piu vicini. Per classificare un nuovo caso, l algoritmo calcola la distanza dal nuovo caso ad ogni caso nel training data. L uscita prevista per il nuovo caso corrisponde all uscita predominante nei k casi piu vicini del training set.

24 47 Tecniche di predictive modeling (5) Tutte le tecniche menzionate possono generare modelli predittivi. Alcune di esse forniscono anche modelli descrittivi che consentono di comprendere piu a fondo le relazioni tra i dati, indipendentemente dalla natura predittiva del modello. Ad esempio questa informazione potrebbe essere nella forma: il guadagno e il fattore piu importante per determinare se qualcuno e a un buon livello di credit risk. Tale informazione descrittiva puo essere presentata in forma testuale o attraverso tool di visualizzazione. 48 Esempi di classificazione lineare e non lineare Debito Debito Prestito NON concesso zona di Prestito NON concesso zona di Prestito concesso Prestito concesso CLASSIFICAZIONE LINEARE Introito NEAREST NEIGHBOR Introito Debito Prestito NON concesso x x x x Prestito concesso RETI NEURALI Introito

25 49 Decision Tree I dati in input rappresentano il training set e sono costituiti da molteplici esempi (records), ognuno caratterizzato da diversi attributi (features) Ogni esempio e caratterizzato dall appartenenza ad una classe (class label) Obiettivo della classificazione e di analizzare i dati in input e sviluppare un accurato modello per ogni classe tramite il quale sia possibile classificare i futuri dati di test per cui i class label sono ignoti I decision tree sono relativamente veloci, confrontati con altri metodi di classificazione e sono di semplice interpretazione: essi possono facilmente essere convertiti in insiemi di regole di classificazione e in query SQL per accedere ai database 50 Esempio ETA SALARIO CLASSE ETA <= B C SALARIO <=40 SALARIO <= B C C B C B B Decision rule per la prima foglia a sin: B IF eta <=35 AND salario<=40 THEN classe=c

26 51 Decision Tree Classification La maggior parte dei classificatori ad albero (es. CART, C 4.5) realizzano la classificazione in 2 fasi: Tree Building e Tree Pruning Tree Building: in questa fase si costruisce un primo decision tree partizionando ripetutamente i dati del training set. Il training set e suddiviso in due o piu partizioni usando un attributo (esistono algoritmi che usano anche attributi multipli). Questo processo viene ripetuto ricorsivamente finche tutti gli esempi in una partizione appartengono ad una classe. Tree Pruning: l albero costruito nella prima fase classifica completamente il training data set. Questo implica che vengono creati rami anche per il rumore e le fluttuazioni statistiche. Questi rami possono condurre a errori nella classificazione dei dati di test. La fase di pruning ha l obiettivo di rimuovere questi rami dal decision tree selezionando il sotto-albero con il minimo tasso di errore stimato 52 Tree Building Algorithm MakeTree (Training Data T) Partition (T); Partition (Data S) if (all points in S are in the same class) then return; Evaluate splits for each attribute A Use best split found to partition S into S 1 and S 2 ; Partition (S 1 ); Partition (S 2 );

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da

Dettagli

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it Data Mining Gabriella Trucco gabriella.trucco@unimi.it Perché fare data mining La quantità dei dati memorizzata su supporti informatici è in continuo aumento Pagine Web, sistemi di e-commerce Dati relativi

Dettagli

Uno standard per il processo KDD

Uno standard per il processo KDD Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo

Dettagli

Data mining e rischi aziendali

Data mining e rischi aziendali Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento

Dettagli

Mining Positive and Negative Association Rules:

Mining Positive and Negative Association Rules: Mining Positive and Negative Association Rules: An Approach for Confined Rules Alessandro Boca Alessandro Cislaghi Premesse Le regole di associazione positive considerano solo gli item coinvolti in una

Dettagli

Ricerca di outlier. Ricerca di Anomalie/Outlier

Ricerca di outlier. Ricerca di Anomalie/Outlier Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Data Mining. Introduzione La crescente popolarità

Dettagli

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Concetti preliminari: struttura del dataset negli

Dettagli

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale Esperienze di Apprendimento Automatico per il corso di lippi@dsi.unifi.it Dipartimento Sistemi e Informatica Università di Firenze Dipartimento Ingegneria dell Informazione Università di Siena Introduzione

Dettagli

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino DataBase and Data Mining Group of Database and data mining group, Database and data mining group, DataBase and Data Mining Group of DataBase and Data Mining Group of So dati insieme di classi oggetti etichettati

Dettagli

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida Introduzione alle tecniche di Data Mining Prof. Giovanni Giuffrida Programma Contenuti Introduzione al Data Mining Mining pattern frequenti, regole associative Alberi decisionali Clustering Esempio di

Dettagli

Data Mining e Analisi dei Dati

Data Mining e Analisi dei Dati e Analisi dei Dati Rosaria Lombardo Dipartimento di Economia, Seconda Università di Napoli La scienza che estrae utili informazioni da grandi databases è conosciuta come E una disciplina nuova che interseca

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis

Dettagli

Altri metodi di indicizzazione

Altri metodi di indicizzazione Organizzazione a indici su più livelli Altri metodi di indicizzazione Al crescere della dimensione del file l organizzazione sequenziale a indice diventa inefficiente: in lettura a causa del crescere del

Dettagli

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali DIPARTIMENTO DI INGEGNERIA INFORMATICA AUTOMATICA E GESTIONALE ANTONIO RUBERTI Cenni al Data Mining 1 Data Mining nasce prima del Data Warehouse collezione di tecniche derivanti da Intelligenza Artificiale,

Dettagli

Regressione non lineare con un modello neurale feedforward

Regressione non lineare con un modello neurale feedforward Reti Neurali Artificiali per lo studio del mercato Università degli studi di Brescia - Dipartimento di metodi quantitativi Marco Sandri (sandri.marco@gmail.com) Regressione non lineare con un modello neurale

Dettagli

DATA MINING PER IL MARKETING

DATA MINING PER IL MARKETING DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Algoritmi di classificazione Zani-Cerioli, Cap. XI CHAID: Chi-square Automatic Interaction

Dettagli

Algoritmi di clustering

Algoritmi di clustering Algoritmi di clustering Dato un insieme di dati sperimentali, vogliamo dividerli in clusters in modo che: I dati all interno di ciascun cluster siano simili tra loro Ciascun dato appartenga a uno e un

Dettagli

Tecniche avanzate di sintesi di algoritmi: Programmazione dinamica Algoritmi greedy

Tecniche avanzate di sintesi di algoritmi: Programmazione dinamica Algoritmi greedy Tecniche avanzate di sintesi di algoritmi: Programmazione dinamica Algoritmi greedy Dr Maria Federico Programmazione dinamica Solitamente usata per risolvere problemi di ottimizzazione il problema ammette

Dettagli

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo Distributed P2P Data Mining Autore: (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo A.A. 2005/2006 Il settore del Data Mining Distribuito (DDM): Data Mining: cuore del processo

Dettagli

MACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it

MACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it MACHINE LEARNING e DATA MINING Introduzione a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it Apprendimento Automatico(i) Branca dell AI che si occupa di realizzare dispositivi artificiali capaci di

Dettagli

Introduzione ad OLAP (On-Line Analytical Processing)

Introduzione ad OLAP (On-Line Analytical Processing) Introduzione ad OLAP (On-Line Analytical Processing) Metodi e Modelli per il Supporto alle Decisioni 2002 Dipartimento di Informatica Sistemistica e Telematica (Dist) Il termine OLAP e l acronimo di On-Line

Dettagli

Università di Pisa A.A. 2004-2005

Università di Pisa A.A. 2004-2005 Università di Pisa A.A. 2004-2005 Analisi dei dati ed estrazione di conoscenza Corso di Laurea Specialistica in Informatica per l Economia e per l Azienda Tecniche di Data Mining Corsi di Laurea Specialistica

Dettagli

AIR MILES un case study di customer segmentation

AIR MILES un case study di customer segmentation AIR MILES un case study di customer segmentation Da: G. Saarenvirta, Mining customer data, DB2 magazine on line, 1998 http://www.db2mag.com/db_area/archives/1998/q3/ 98fsaar.shtml Customer clustering &

Dettagli

Marketing relazionale

Marketing relazionale Marketing relazionale Introduzione Nel marketing intelligence assume particolare rilievo l applicazione di modelli predittivi rivolte a personalizzare e rafforzare il legame tra azienda e clienti. Un azienda

Dettagli

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Obiettivi. Presentare l evoluzione dei sistemi informativi: da supporto alla operatività a supporto al momento decisionale Definire

Dettagli

Data Mining in SAP. Alessandro Ciaramella

Data Mining in SAP. Alessandro Ciaramella UNIVERSITÀ DI PISA Corsi di Laurea Specialistica in Ingegneria Informatica per la Gestione d Azienda e Ingegneria Informatica Data Mining in SAP A cura di: Alessandro Ciaramella La Business Intelligence

Dettagli

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati Data mining Il consente l informazione processo di Data Mining estrarre automaticamente informazioneda un insieme di dati telefoniche, ènascostaa a causa di fra quantitàdi loro, complessità: non... ci

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

1. I database. La schermata di avvio di Access

1. I database. La schermata di avvio di Access 7 Microsoft Access 1. I database Con il termine database (o base di dati) si intende una raccolta organizzata di dati, strutturati in maniera tale che, effettuandovi operazioni di vario tipo (inserimento

Dettagli

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Data warehousing Introduzione A partire dalla metà degli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa

Dettagli

Feature Selection per la Classificazione

Feature Selection per la Classificazione 1 1 Dipartimento di Informatica e Sistemistica Sapienza Università di Roma Corso di Algoritmi di Classificazione e Reti Neurali 20/11/2009, Roma Outline Feature Selection per problemi di Classificazione

Dettagli

Cluster gerarchica. Capitolo

Cluster gerarchica. Capitolo Cluster gerarchica Capitolo 33 Questa procedura consente di identificare gruppi di casi relativamente omogenei in base alle caratteristiche selezionate, utilizzando un algoritmo che inizia con ciascun

Dettagli

Intelligenza Artificiale

Intelligenza Artificiale Intelligenza Artificiale Anno accademico 2008-2009 Information Retrieval: Text Categorization Una definizione formale Sia D il dominio dei documenti Sia C = {c 1,,c C } un insieme di categorie predefinite

Dettagli

Laboratorio di Apprendimento Automatico. Fabio Aiolli Università di Padova

Laboratorio di Apprendimento Automatico. Fabio Aiolli Università di Padova Laboratorio di Apprendimento Automatico Fabio Aiolli Università di Padova Esempi di Applicazioni Web page Ranking Quali documenti sono rilevanti per una determinata query? Quali sorgenti di informazione

Dettagli

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE Arricchimento dei dati del sottoscrittore / user Approccio Tradizionale Raccolta dei dati personali tramite contratto (professione, dati sul nucleo familiare, livello

Dettagli

Sistemi Informativi Territoriali. Map Algebra

Sistemi Informativi Territoriali. Map Algebra Paolo Mogorovich Sistemi Informativi Territoriali Appunti dalle lezioni Map Algebra Cod.735 - Vers.E57 1 Definizione di Map Algebra 2 Operatori locali 3 Operatori zonali 4 Operatori focali 5 Operatori

Dettagli

Conoscenza. Metodo scientifico

Conoscenza. Metodo scientifico Conoscenza La conoscenza è la consapevolezza e la comprensione di fatti, verità o informazioni ottenuti attraverso l'esperienza o l'apprendimento (a posteriori), ovvero tramite l'introspezione (a priori).

Dettagli

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino Data mining Vincenzo D Elia vincenzo.delia@polito.it DBDMG - Politecnico di Torino vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 1 Rapid Miner vincenzo.delia@polito.it Archivi Multimediali

Dettagli

Tecniche di Simulazione: Introduzione. N. Del Buono:

Tecniche di Simulazione: Introduzione. N. Del Buono: Tecniche di Simulazione: Introduzione N. Del Buono: 2 Che cosa è la simulazione La SIMULAZIONE dovrebbe essere considerata una forma di COGNIZIONE (COGNIZIONE qualunque azione o processo per acquisire

Dettagli

disponibili nel pacchetto software.

disponibili nel pacchetto software. Modulo syllabus 4 00 000 00 0 000 000 0 Modulo syllabus 4 DATABASE 00 000 00 0 000 000 0 Richiede che il candidato dimostri di possedere la conoscenza relativa ad alcuni concetti fondamentali sui database

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 5 Tecniche OCR Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

Introduzione al foglio elettronico

Introduzione al foglio elettronico Introduzione al foglio elettronico 1. Che cos'è un foglio elettronico? Un foglio elettronico è un programma che permette di inserire dei dati, di calcolare automaticamente i risultati, di ricalcolarli

Dettagli

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,

Dettagli

Informatica 3. LEZIONE 23: Indicizzazione. Modulo 1: Indicizzazione lineare, ISAM e ad albero Modulo 2: 2-3 trees, B-trees e B + -trees

Informatica 3. LEZIONE 23: Indicizzazione. Modulo 1: Indicizzazione lineare, ISAM e ad albero Modulo 2: 2-3 trees, B-trees e B + -trees Informatica 3 LEZIONE 23: Indicizzazione Modulo 1: Indicizzazione lineare, ISAM e ad albero Modulo 2: 2-3 trees, B-trees e B + -trees Informatica 3 Lezione 23 - Modulo 1 Indicizzazione lineare, ISAM e

Dettagli

PROVINCIA DI LIVORNO Osservatorio trasporti PROGETTO SIRSS

PROVINCIA DI LIVORNO Osservatorio trasporti PROGETTO SIRSS PROVINCIA DI LIVORNO Osservatorio trasporti PROGETTO SIRSS Analisi multivariata degli incidenti su tutte le strade della Provincia di Livorno nell anno 2008, sulla base dei dati pervenuti al 16/11/2009.

Dettagli

AREA MATEMATICO-SCIENTIFICO-TECNOLOGICA MATEMATICA

AREA MATEMATICO-SCIENTIFICO-TECNOLOGICA MATEMATICA AREA MATEMATICO-SCIENTIFICO-TECNOLOGICA MATEMATICA TRAGUARDI PER LO SVILUPPO DELLE COMPETENZE AL TERMINE DELLA SCUOLA SECONDARIA DI PRIMO GRADO. L alunno ha rafforzato un atteggiamento positivo rispetto

Dettagli

Il DataMining. Susi Dulli dulli@math.unipd.it

Il DataMining. Susi Dulli dulli@math.unipd.it Il DataMining Susi Dulli dulli@math.unipd.it Il Data Mining Il Data Mining è il processo di scoperta di relazioni, pattern, ed informazioni precedentemente sconosciute e potenzialmente utili, all interno

Dettagli

Sommario. Analysis & design delle applicazioni parallele. Misura delle prestazioni parallele. Tecniche di partizionamento.

Sommario. Analysis & design delle applicazioni parallele. Misura delle prestazioni parallele. Tecniche di partizionamento. Sommario Analysis & design delle applicazioni parallele Misura delle prestazioni parallele Tecniche di partizionamento Comunicazioni Load balancing 2 Primi passi: analizzare il problema Prima di iniziare

Dettagli

Clickomania con Blockly

Clickomania con Blockly Clickomania con Blockly Violetta Lonati Sommario Clickomania è un solitario, noto anche come Chain Shot! o Same Game. Il campo di gioco è costituito da una parete inizialmente coperta di mattoni, uno per

Dettagli

Mon Ami 3000 Provvigioni agenti Calcolo delle provvigioni per agente / sub-agente

Mon Ami 3000 Provvigioni agenti Calcolo delle provvigioni per agente / sub-agente Prerequisiti Mon Ami 3000 Provvigioni agenti Calcolo delle provvigioni per agente / sub-agente L opzione Provvigioni agenti è disponibile per le versioni Vendite, Azienda Light e Azienda Pro. Introduzione

Dettagli

Principi di analisi causale Lezione 2

Principi di analisi causale Lezione 2 Anno accademico 2007/08 Principi di analisi causale Lezione 2 Docente: prof. Maurizio Pisati Logica della regressione Nella sua semplicità, l espressione precedente racchiude interamente la logica della

Dettagli

Base Dati Introduzione

Base Dati Introduzione Università di Cassino Facoltà di Ingegneria Modulo di Alfabetizzazione Informatica Base Dati Introduzione Si ringrazia l ing. Francesco Colace dell Università di Salerno Gli archivi costituiscono una memoria

Dettagli

Database. Si ringrazia Marco Bertini per le slides

Database. Si ringrazia Marco Bertini per le slides Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida

Dettagli

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining Dipartimento di Informatica e Sistemistica I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining Renato Bruni bruni@dis.uniroma1.it Antonio Sassano sassano@dis.uniroma1.it

Dettagli

Organizzazione delle informazioni: Database

Organizzazione delle informazioni: Database Organizzazione delle informazioni: Database Laboratorio Informatico di base A.A. 2013/2014 Dipartimento di Scienze Aziendali e Giuridiche Università della Calabria Dott. Pierluigi Muoio (pierluigi.muoio@unical.it)

Dettagli

Note su quicksort per ASD 2010-11 (DRAFT)

Note su quicksort per ASD 2010-11 (DRAFT) Note su quicksort per ASD 010-11 (DRAFT) Nicola Rebagliati 7 dicembre 010 1 Quicksort L algoritmo di quicksort è uno degli algoritmi più veloci in pratica per il riordinamento basato su confronti. L idea

Dettagli

16.3.1 Alberi binari di ricerca

16.3.1 Alberi binari di ricerca 442 CAPITOLO 16. STRUTTURE DI DATI DINAMICHE root 7 5 11 2 8 13 10 Figura 16.11 Esempio di albero binario: ogni nodo contiene il dato da immagazzinare e tre puntatori che definiscono le sue relazioni di

Dettagli

Il Marketing Definizione di marketing cinque fasi

Il Marketing Definizione di marketing cinque fasi 1 2 3 Definizione di marketing: il marketing è l arte e la scienza di conquistare, fidelizzare e far crescere clienti che diano profitto. Il processo di marketing può essere sintetizzato in cinque fasi:

Dettagli

Linguaggi e Paradigmi di Programmazione

Linguaggi e Paradigmi di Programmazione Linguaggi e Paradigmi di Programmazione Cos è un linguaggio Definizione 1 Un linguaggio è un insieme di parole e di metodi di combinazione delle parole usati e compresi da una comunità di persone. È una

Dettagli

Iniziativa Comunitaria Equal II Fase IT G2 CAM - 017 Futuro Remoto. Approfondimento SOFTWARE PER L ARCHIVIAZIONE

Iniziativa Comunitaria Equal II Fase IT G2 CAM - 017 Futuro Remoto. Approfondimento SOFTWARE PER L ARCHIVIAZIONE APPROFONDIMENTO ICT Iniziativa Comunitaria Equal II Fase IT G2 CAM - 017 Futuro Remoto Approfondimento SOFTWARE PER L ARCHIVIAZIONE ORGANISMO BILATERALE PER LA FORMAZIONE IN CAMPANIA INDICE SOFTWARE PER

Dettagli

evolution and innovation in SME s rating

evolution and innovation in SME s rating evolution and innovation in SME s rating IL RISCHIO OPERATIVO GMA 4 5 LA STRUTTURA PROGETTUALE IL RISCHIO OPERATIVO GMA Il rischio operativo GMA prevede l elaborazione degli ultimi tre bilanci aziendali

Dettagli

Dispense del corso di Logica a.a. 2015/16: Problemi di primo livello. V. M. Abrusci

Dispense del corso di Logica a.a. 2015/16: Problemi di primo livello. V. M. Abrusci Dispense del corso di Logica a.a. 2015/16: Problemi di primo livello V. M. Abrusci 12 ottobre 2015 0.1 Problemi logici basilari sulle classi Le classi sono uno dei temi della logica. Esponiamo in questa

Dettagli

Statistical learning Strumenti quantitativi per la gestione

Statistical learning Strumenti quantitativi per la gestione Statistical learning Strumenti quantitativi per la gestione Emanuele Taufer Vendite Simbologia Reddito Statistical learning A cosa ci serve f? 1 Previsione 2 Inferenza Previsione Errore riducibile e errore

Dettagli

Progettazione concettuale

Progettazione concettuale Progettazione concettuale Strategie top-down A partire da uno schema che descrive le specifiche mediante pochi concetti molto astratti, si produce uno schema concettuale mediante raffinamenti successivi

Dettagli

TEORIA sulle BASI DI DATI

TEORIA sulle BASI DI DATI TEORIA sulle BASI DI DATI A cura del Prof. Enea Ferri Cos è un DATA BASE E un insieme di archivi legati tra loro da relazioni. Vengono memorizzati su memorie di massa come un unico insieme, e possono essere

Dettagli

Entropia. Motivazione. ? Quant è l informazione portata dalla sequenza? Abbiamo una sequenza S di N simboli (campioni audio, pixel, caratteri,...

Entropia. Motivazione. ? Quant è l informazione portata dalla sequenza? Abbiamo una sequenza S di N simboli (campioni audio, pixel, caratteri,... Entropia Motivazione Abbiamo una sequenza S di N simboli (campioni audio, pixel, caratteri,... ) s,s 2,s 3,... ognuno dei quali appartiene ad un alfabeto A di M elementi.? Quant è l informazione portata

Dettagli

Tecniche di DM: Link analysis e Association discovery

Tecniche di DM: Link analysis e Association discovery Tecniche di DM: Link analysis e Association discovery Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Architettura di un generico algoritmo di DM. 2 2 Regole di associazione:

Dettagli

Premesse alla statistica

Premesse alla statistica Premesse alla statistica Versione 22.10.08 Premesse alla statistica 1 Insiemi e successioni I dati di origine sperimentale si presentano spesso non come singoli valori, ma come insiemi di valori. Richiamiamo

Dettagli

Mete e coerenze formative. Dalla scuola dell infanzia al biennio della scuola secondaria di II grado

Mete e coerenze formative. Dalla scuola dell infanzia al biennio della scuola secondaria di II grado Mete e coerenze formative Dalla scuola dell infanzia al biennio della scuola secondaria di II grado Area disciplinare: Area Matematica Finalità Educativa Acquisire gli alfabeti di base della cultura Disciplina

Dettagli

Data warehouse Introduzione

Data warehouse Introduzione Database and data mining group, Data warehouse Introduzione INTRODUZIONE - 1 Pag. 1 Database and data mining group, Supporto alle decisioni aziendali La maggior parte delle aziende dispone di enormi basi

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 1 - Introduzione generale Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

Facoltà di Farmacia - Corso di Informatica

Facoltà di Farmacia - Corso di Informatica Basi di dati Riferimenti: Curtin cap. 8 Versione: 13/03/2007 1 Basi di dati (Database, DB) Una delle applicazioni informatiche più utilizzate, ma meno conosciute dai non informatici Avete già interagito

Dettagli

Relazione sul data warehouse e sul data mining

Relazione sul data warehouse e sul data mining Relazione sul data warehouse e sul data mining INTRODUZIONE Inquadrando il sistema informativo aziendale automatizzato come costituito dall insieme delle risorse messe a disposizione della tecnologia,

Dettagli

Cultura Tecnologica di Progetto

Cultura Tecnologica di Progetto Cultura Tecnologica di Progetto Politecnico di Milano Facoltà di Disegno Industriale - DATABASE - A.A. 2003-2004 2004 DataBase DB e DataBase Management System DBMS - I database sono archivi che costituiscono

Dettagli

Sistemi Informativi Territoriali. Vari tipi di immagini

Sistemi Informativi Territoriali. Vari tipi di immagini Paolo Mogorovich Sistemi Informativi Territoriali Appunti dalle lezioni Vari tipi di immagini Cod.303 - Vers.E41 1 Introduzione 2 Immagine fisica 3 Immagine classificata 4 Immagine cartografica 5 Immagine

Dettagli

Vantaggi dell'utilizzo dei database

Vantaggi dell'utilizzo dei database Vantaggi dell'utilizzo dei database Access consente di sfruttare appieno il valore dei propri dati. Un database è molto di più di un semplice elenco o tabella. Offre la possibilità di gestire appieno i

Dettagli

Misure della dispersione o della variabilità

Misure della dispersione o della variabilità QUARTA UNITA Misure della dispersione o della variabilità Abbiamo visto che un punteggio di per sé non ha alcun significato e lo acquista solo quando è posto a confronto con altri punteggi o con una statistica.

Dettagli

Basi di dati. Il Modello Relazionale dei Dati. K. Donno - Il Modello Relazionale dei Dati

Basi di dati. Il Modello Relazionale dei Dati. K. Donno - Il Modello Relazionale dei Dati Basi di dati Il Modello Relazionale dei Dati Proposto da E. Codd nel 1970 per favorire l indipendenza dei dati Disponibile come modello logico in DBMS reali nel 1981 (non è facile realizzare l indipendenza

Dettagli

Analisi di Mercato. Facoltà di Economia. Analisi sui consumi. Metodo delle inchieste familiari. Metodo delle disponibilità globali

Analisi di Mercato. Facoltà di Economia. Analisi sui consumi. Metodo delle inchieste familiari. Metodo delle disponibilità globali Obiettivi delle aziende Analisi di Mercato Facoltà di Economia francesco mola Analisi sui consumi Conoscere i bisogni e i gusti dei consumatori Valutare la soddisfazione della clientela Lanciare nuovi

Dettagli

Data Warehousing (DW)

Data Warehousing (DW) Data Warehousing (DW) Il Data Warehousing è un processo per estrarre e integrare dati storici da sistemi transazionali (OLTP) diversi e disomogenei, e da usare come supporto al sistema di decisione aziendale

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Sistemi informazionali La crescente diffusione dei

Dettagli

TECNICHE DI VALUTAZIONE DEL RISCHIO

TECNICHE DI VALUTAZIONE DEL RISCHIO Per conto di AICQ CN 1 - Autore Giovanni Mattana - Consigliere di Giunta AICQ CN Presidente della Commissione UNI per i Sistemi di Qualità La norma è intesa come un supporto per la Iso 31000 e fornisce

Dettagli

Corso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati

Corso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati Corso di Access Modulo L2A (Access) 1.1 Concetti di base 1 Prerequisiti Utilizzo elementare del computer Concetti fondamentali di basi di dati 2 1 Introduzione Un ambiente DBMS è un applicazione che consente

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Cosa è un foglio elettronico

Cosa è un foglio elettronico Cosa è un foglio elettronico Versione informatica del foglio contabile Strumento per l elaborazione di numeri (ma non solo...) I valori inseriti possono essere modificati, analizzati, elaborati, ripetuti

Dettagli

MATEMATICA SCUOLE DELL INFANZIA

MATEMATICA SCUOLE DELL INFANZIA MATEMATICA SCUOLE DELL INFANZIA CAMPO DI ESPERIENZA: LA CONOSCENZA DEL MONDO (ordine, misura, spazio, tempo, natura) È l'ambito relativo all'esplorazione, scoperta e prima sistematizzazione delle conoscenze

Dettagli

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?) Ambiente Access La Guida di Access Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?) Guida in linea Guida rapida Assistente di Office indicazioni

Dettagli

Introduzione al Pattern Recognition Statistico

Introduzione al Pattern Recognition Statistico Introduzione al Pattern Recognition Statistico Roberto Tagliaferri Dipartimento di Informatica Università di Salerno ( Sa ) 84084 Fisciano e-mail robtag@unisa.it Statistical Pattern Recognition Introduzione

Dettagli

Suggerimenti per l approccio all analisi dei dati multivariati

Suggerimenti per l approccio all analisi dei dati multivariati Suggerimenti per l approccio all analisi dei dati multivariati Definizione degli obbiettivi Il primo passo è la definizione degli obbiettivi. Qual è l obbiettivo della sperimentazione i cui dati dovete

Dettagli

Introduzione al Data Mining Parte 1

Introduzione al Data Mining Parte 1 Introduzione al Data Mining Parte 1 Corso di Laurea Specialistica in Ingegneria Informatica II Facoltà di Ingegneria, sede di Cesena (a.a. 2009/2010) Prof. Gianluca Moro Dipartimento di Elettronica, Informatica

Dettagli

per immagini guida avanzata Uso delle tabelle e dei grafici Pivot Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1

per immagini guida avanzata Uso delle tabelle e dei grafici Pivot Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1 Uso delle tabelle e dei grafici Pivot Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1 Una tabella Pivot usa dati a due dimensioni per creare una tabella a tre dimensioni, cioè una tabella

Dettagli

LINEE GUIDA PER IL DISASTER RECOVERY DELLE PUBBLICHE AMMINISTRAZIONI. Note di accompagnamento allo strumento di autovalutazione

LINEE GUIDA PER IL DISASTER RECOVERY DELLE PUBBLICHE AMMINISTRAZIONI. Note di accompagnamento allo strumento di autovalutazione LINEE GUIDA PER IL DISASTER RECOVERY DELLE PUBBLICHE AMMINISTRAZIONI Note di accompagnamento allo strumento di autovalutazione 1 1. INTRODUZIONE ALLO STRUMENTO DI SUPPORTO ALL AUTOVALUTAZIONE Lo strumento

Dettagli

Principi dell ingegneria del software Relazioni fra

Principi dell ingegneria del software Relazioni fra Sommario Principi dell ingegneria del software Leggere Cap. 3 Ghezzi et al. Principi dell ingegneria del software Relazioni fra Principi Metodi e tecniche Metodologie Strumenti Descrizione dei principi

Dettagli

INFORMATICA PER LE APPLICAZIONI ECONOMICHE PROF.SSA BICE CAVALLO

INFORMATICA PER LE APPLICAZIONI ECONOMICHE PROF.SSA BICE CAVALLO Basi di dati: Microsoft Access INFORMATICA PER LE APPLICAZIONI ECONOMICHE PROF.SSA BICE CAVALLO Database e DBMS Il termine database (banca dati, base di dati) indica un archivio, strutturato in modo tale

Dettagli

Il database management system Access

Il database management system Access Il database management system Access Corso di autoistruzione http://www.manualipc.it/manuali/ corso/manuali.php? idcap=00&idman=17&size=12&sid= INTRODUZIONE Il concetto di base di dati, database o archivio

Dettagli

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L. DATA WAREHOUSE Un Dataware House può essere definito come una base di dati di database. In molte aziende ad esempio ci potrebbero essere molti DB, per effettuare ricerche di diverso tipo, in funzione del

Dettagli

Sfrutta appieno le potenzialità del software SAP in modo semplice e rapido

Sfrutta appieno le potenzialità del software SAP in modo semplice e rapido Starter Package è una versione realizzata su misura per le Piccole Imprese, che garantisce una implementazione più rapida ad un prezzo ridotto. E ideale per le aziende che cercano ben più di un semplice

Dettagli

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni Introduzione Ai Data Bases Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni I Limiti Degli Archivi E Il Loro Superamento Le tecniche di gestione delle basi di dati nascono

Dettagli

Analizza/Confronta medie. ELEMENTI DI PSICOMETRIA Esercitazione n. 7-8-9-107. Test t. Test t. t-test test e confronto tra medie chi quadrato

Analizza/Confronta medie. ELEMENTI DI PSICOMETRIA Esercitazione n. 7-8-9-107. Test t. Test t. t-test test e confronto tra medie chi quadrato Analizza/Confronta medie ELEMENTI DI PSICOMETRIA Esercitazione n. 7-8-9-107 t-test test e confronto tra medie chi quadrato C.d.L. Comunicazione e Psicologia a.a. 2008/09 Medie Calcola medie e altre statistiche

Dettagli