Data Mining. KDD e Data Mining - Introduzione (1)

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Data Mining. KDD e Data Mining - Introduzione (1)"

Transcript

1 1 Data Mining Corso di Metodi e Modelli per il Supporto alle Decisioni a.a KDD e Data Mining - Introduzione (1) Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da satellite o da sensori remoti, servizi on line..) Sviluppo delle tecnologie per l immagazzinamento dei dati, tecniche di gestione di database e data warehouse, supporti piu capaci piu economici (dischi, CD) hanno consentito l archiviazione di grosse quantita di dati Simili volumi di dati superano di molto la capacità di analisi dei metodi manuali tradizionali, come le query ad hoc. Tali metodi possono creare report informativi sui dati ma non riescono ad analizzare il contenuto dei report per focalizzarsi sulla conoscenza utile.

2 3 KDD e Data Mining - Introduzione (2) Emerge l'esigenza di tecniche e strumenti con la capacità di assistere in modo intelligente e automatico gli utenti decisionali nell'estrazione di elementi di conoscenza dai dati. Queste tecniche e strumenti sono al centro del campo emergente del Knowledge Discovery in Databases (KDD). Il termine knowledge discovery in databases, o KDD, indica l'intero processo di ricerca di nuova conoscenza dai dati Il termine di data mining si riferisce all'applicazione di algoritmi per estrarre pattern dai dati senza considerare gli ulteriori passi che caratterizzano il processo di KDD (come, ad esempio, incorporare appropriata conoscenza a priori e fornire una opportuna interpretazione dei risultati). 4 KDD e Data Mining - Introduzione (3) Pertanto l'intero processo, tipicamente interattivo e iterativo, di ricerca, estrazione ed interpretazione di pattern dai dati, che indichiamo come KDD, coinvolge l'applicazione ripetuta di specifici metodi e algoritmi di data mining e l'interpretazione dei pattern generati da tali algoritmi. Nel seguito forniremo una definizione più dettagliata di KDD e una panoramica sui metodi e gli algoritmi di data mining più usati

3 5 Il processo di KDD (1) Application Domain Prior Knowledge User s Goals Data Mining Interpretation/ Evaluation Knowledge Transformation Patterns Selection Preprocessing Transformed Data Preprocessed Data Metadata Target Data Data 6 Il processo di KDD (2) 1) Sviluppo e approfondimento del dominio di applicazione, della conoscenza disponibile a priori e degli obiettivi dell'utente finale. 2) Creazione di un target data set: selezione del data set o focalizzazione su un sottoinsieme di variabili o di campioni di dati oggetto del processo KDD. 3) Cleaning dei dati e preprocessing: operazioni di base come la rimozione del rumore o degli outliers se è il caso, raccolta delle informazioni necessarie per modellare o tener conto del rumore, messa a punto di strategie per gestire i dati mancanti e per gestire i dati tempo-varianti. 4) Riduzione dei dati e proiezione: rappresentazione dei dati in modo opportuno in relazione agli obiettivi della ricerca. Riduzione delle dimensioni e impiego di metodi di trasformazione per ridurre l'effettivo numero di variabili da sottoporre al processo di ricerca.

4 7 Il processo di KDD (3) 5) Scelta del compito del processo di data mining: identificazione dell'obiettivo del KDD, se si tratti di una classificazione, di una regressione, di un clustering 6) Scelta dell'algoritmo o degli algoritmi di data mining: selezione dei metodi da usare per ricercare pattern nei dati. Questa fase comprende la decisione su quali modelli e parametri potrebbero essere appropriati e il matching di un particolare metodo di data mining con i criteri generali del processo KDD (per es. l'utente finale potrebbe essere maggiormente interessato alla comprensione del modello piuttosto che alle sue capacità predittive). 8 Il processo di KDD (4) 7) Data mining: ricerca di pattern di interesse in una particolare forma di rappresentazione o su un set di rappresentazioni diverse (regole di classificazione, alberi decisionali, regressione, clustering ). Il risultato del processo di data mining è considerevolmente influenzato dalla correttezza delle fasi precedenti. 8) Interpretazione dei pattern trovati e possibile ritorno alle fasi 1-7 per ulteriori iterazioni. 9) Consolidamento della conoscenza estratta: incorporazione di tale conoscenza nel sistema di performance o, semplicemente, documentazione e reporting alle parti interessate. Questa fase include anche il controllo per la risoluzione di potenziali contraddizioni con la conoscenza precedentemente disponibile.

5 9 Data Mining - Introduzione I due principali obiettivi di alto livello del data mining sono la predizione e la descrizione. La predizione implica l'uso di variabili o campi di un database per predire valori ignoti o futuri di altre variabili di interesse. La descrizione si concentra invece sulla ricerca di pattern interpretabili che descrivano i dati. L'importanza relativa di predizione e descrizione nelle diverse applicazioni del data mining può variare considerevolmente. Nel contesto del KDD la descrizione tende ad essere più importante della predizione, mentre nelle applicazioni di pattern recognition e machine learning (per es. speech recognition) la predizione spesso costituisce l'obiettivo principale 10 Principali Funzioni del Data Mining (1) Classificazione: consiste nell'apprendere una funzione che mappa (classifica) un elemento in una tra molte classi predefinite. Regressione: consiste nell'apprendere una funzione che mappa un elemento in una variabile predittiva a valori reali. La classificazione si distingue dalla regressione per il tipo di output che fornisce. Con la classificazione, l output predetto (l appartenenza ad una classe) è di tipo categorico, cioè assume pochi valori, tipo Si o No, oppure Basso, Medio o Alto. La regressione invece prevede come output un valore numerico che può assumere un numero illimitato (o almeno molto grande) di possibili valori. La classificazione costituisce, insieme alla regressione, il tipo di problema più comune a cui viene applicato il data mining.

6 11 Principali Funzioni del Data Mining (2) Clustering: è un task a carattere tipicamente descrittivo in cui si cerca di identificare un numero finito di categorie o cluster per descrivere i dati. Tali categorie possono essere mutuamente esclusive ed esaustive oppure possono fornire una rappresentazione più ricca con categorie gerarchiche o parzialmente sovrapposte. Aggregazione: le tecniche di aggregazione comprendono metodi per la ricerca di descrizioni compatte per sottoinsiemi di dati. Un esempio semplice potrebbe essere la tabulazione della media e della deviazione standard per tutti i campi. Metodi più sofisticati comprendono la derivazione di regole di aggregazione, le tecniche di visualizzazione e l'identificazione di relazioni funzionali tra le variabili 12 Principali Funzioni del Data Mining (3) Dependency Modeling: consiste nella ricerca di un modello che descriva dipendenze significative tra le variabili. I modelli di dipendenza esistono a due livelli: il livello strutturale del modello specifica, spesso in forma grafica, quali variabili sono localmente dipendenti da altre, mentre il livello quantitativo del modello specifica la forza della dipendenza usando una qualche scala numerica. Per esempio, le reti di dipendenza probabilistica usano l'indipendenza condizionale per specificare l'aspetto strutturale del modello e le probabilità o la correlazione per specificare la forza della dipendenza

7 13 Clustering - Introduzione (1) Partizionare un grande insieme di oggetti in clusters omogenei è un operazione fondamentale in data mining L algoritmo cosiddetto k-means è molto adatto per svolgere quest operazione poiché è efficiente L unico problema è che è di limitata applicabilità, in quanto tratta unicamente dati numerici Vedremo brevemente l algoritmo k-means e una sua estensione per dati categorici 14 Clustering - Introduzione (2) L operazione di clustering è necessaria per diverse funzioni del data mining tra cui la classificazione unsupervised, la segmentazione di grossi data set eterogenei in più piccoli sotto-insiemi omogenei che possono essere facilmente gestiti e analizzati separatamente I metodi di clustering dividono un insieme di oggetti in clusters tali che gli oggetti nello stesso cluster sono più simili tra loro rispetto agli oggetti in cluster diversi secondo qualche criterio predefinito I metodi statistici di clustering usano misure di similarità per partizionare gli oggetti, mentre metodi di clustering concettuale partizionano gli oggetti sulla base dei concetti associati agli oggetti La caratteristica del data mining è che tratta grosse quantità di dati

8 15 Clustering - Introduzione (3) La dimensione dei data set richiede che gli algoritmi usati siano scalabili Spesso gli algoritmi correntemente usati nel data mining non offrono grande scalabilità in quanto sono stati originariamente sviluppati per applicazioni diverse che coinvolgevano data set più piccoli Lo studio di algoritmi scalabili per il data mining è recentemente diventato un importante argomento di ricerca Dopo una breve presentazione dell algoritmo k-means, introdurremo la sua variante k-modes per trattare dati categorici Confrontati con altri metodi di clustering, l algoritmo k-means e le sue varianti mostrano efficienza anche applicati a grossi data set 16 Introduzione (4) L algoritmo k-means minimizza una funzione di costo calcolando i valori medi dei cluster e pertanto il suo impiego è limitato a valori numerici Le applicazioni di data mining coinvolgono spesso dati categorici L approccio tradizionale di conversione di dati categorici in dati numerici non è sempre significativo (ad esempio quando i domini categorici non sono ordinati) L algoritmo k-modes elimina questo incoveniente ed estende il concetto dei k-means anche a dati categorici, preservando l efficienza dell algoritmo k-means Esiste una versione più complessa dell algoritmo k-modes che si chiama k-prototypes che tiene conto di attributi misti, categorici e non.

9 17 Introduzione (4) L algoritmo k-prototypes definisce una misura di dissimilarità mista per attributi categorici e numerici Sia s n la dissimilarità per attributi numerici basata sul quadrato della distanza euclidea Sias c la dissimilarità per attributi categorici definita come il numero di categorie diverse tra due oggetti Definiamo la misura di dissimilarità tra due oggetti come s n +ys c dove y è un peso per bilanciare le due parti ed evitare che un tipo di attributo sia più considerato dell altro Il processo di clustering dell algoritmo k-prototypes è simile a k-means Un problema è la scelta opportuna del peso y 18 Introduzione (5) L algoritmo k-modes è una semplificazione del metodo k-prototypes in quanto tiene conto solo degli attributi categorici In questo caso non abbiamo più bisogno di definire un peso y Nel caso in cui comparissero attributi numerici nel problema occorrerebbe renderli categorici Il maggior vantaggio del metodo consiste nella sua grande scalabilità e pertanto nella possibilità di essere applicato a grandi data set Un altro approccio è stato presentato per applicare l algoritmo k-means a dati categorici previa conversione dei dati categorici in dati numerici In questo metodo molteplici attributi categorici vengono trasformati in attributi binari (usando 0 o 1 per indicare se una categoria è assente o presente)

10 19 Introduzione (5) Quindi gli attributi resi binari vengono considerati numerici e sottoposti all algoritmo k-means Se impiegato nel data mining, questo approccio richiede di gestire un numero molto grande di attributi binari, in quanto i data set impiegati nel data mining spesso hanno attributi categorici con centinaia o migliaia di categorie. Questo aumenta inevitabilmente la complessità e il costo dell algoritmo Inoltre i cluster means, dati da valori reali tra 0 e 1 non indicano le caratteristiche del cluster Per contro l algoritmo k-modes lavora direttamente su attributi categorici e produce i cluster modes che descrivono i clusters e pertanto risutano utili nell interpretazione dei risultati 20 Domini e Attributi Categorici (1) Per dati categorici intendiamo dati che descrivono oggetti che hanno solo attributi categorici Consideriamo che tutti gli attributi numerici siano inseriti in categorie SianoA 1, A 2,,A m m attributi che descrivono uno spazio S e DOM(A 1 ), DOM(A 2 ),, DOM(A m ) i domini degli attributi UndominioDOM(A ) è definito categorico se è finito e non ordinato, per es., per ogni a,b DOM(A ) o a=b, o a b A è chiamato attributo categorico S è uno spazio categorico se tutti gli attributi A 1, A 2,,A m che lo descrivono sono categorici Un valore speciale, denotato con ε, è definito su tutti i domini categorici ed è usato per rappresentare valori mancanti

11 21 Domini e Attributi Categorici (2) Per semplificare la misura di dissimilarità non consideriamo le relazioni di inclusione concettuale tra valori in un dominio categorico (ad esempio il fatto che automobile e veicolo sono due valori categorici in un dominio e concettualmente un automobile è anche un veicolo) 22 Oggetti Categorici (1) Un oggetto categorico X S è logicamente rappresentato come una congiunzione di coppie attributo-valore [A 1 =x 1 ] [A 2 =x 2 ] [A m =x m ] dove x DOM(A ) per 1 m Senza ambiguità rappresentiamo X come un vettore [x 1, x 2,,x m ] Consideriamo che ogni oggetto in S abbia esattamente m attributi. Se il valore di un attributo A non è disponibile per un oggetto X, allora A = ε SiaX = {X 1, X 2,..., X n } un insieme di n oggetti categorici e X S L oggetto X i e rappresentato come [x i1, x i2,,x im ] Diciamo chex i =X k se x i =x k per 1 m La relazione X i =X k non significa che X i ex k sono lo stesso oggetto

12 23 Oggetti Categorici (2) Significa che i 2 oggetti hanno gli stessi valori categorici negli attributi A 1,...,A m Ad esempio 2 pazienti in 1 ospedale possono avere gli stessi valori negli attributi: Sesso, Malattia, Trattamento ma avere diverso Nome, Indirizzo, Eta... che sono attributi non selezionati per il clustering Supponiamo che X sia composto da n oggetti di cui p sono distinti Sia N la cardinalita del prodotto cartesiano DOM(A 1 ) x DOM(A 2 ) x DOM(A m ) Abbiamo p N mentre n puo essere maggiore di N, nel caso che contenga duplicati 24 Algoritmo k-means L algoritmo k-means e costruito su 4 operazioni di base: 1) selezione dei k valori medi iniziali per i cluster 2) calcolo della dissimilarita tra un oggetto e la media di un cluster 3) allocazione di un oggetto nel cluster la cui media e piu vicina all oggetto 4) Ri-calcolo della media del cluster dagli oggetti allocati in esso in modo tale che la dissimilarita intra-cluster sia minimizzata Tranne che la prima operazione, le altre 3 vengono ripetute fino a convergenza

13 25 Algoritmo k-means (2) L essenza dell algoritmo e la minimizzazione della funzione di costo: E = k n l= 1 i= 1 y ( X Q ) i, ld i, dove n e il numero degli oggetti in un data set X, X i X, Q l e la media del cluster l, e y i,l e un elemento di una matrice di partizione Y nxk, d e una misura di dissimilarita generalmente definita dal quadrato della distanza euclidea Esistono diverse varianti dell algoritmo che differiscono nella selezione iniziale dei centri dei cluster, nel calcolo della dissimilarita e nelle strategie per calcolare i centri dei cluster l 26 Algoritmo k-means (3) L algoritmo k-means ha le seguenti importanti proprieta : 1. E efficiente nel gestire grosse quantita di dati. La complessita computazionale dell algoritmo e O(tkmn) dove m e il numero di attributi, n il numero di oggetti, k il numero dei cluster, e t e il numero di iterazioni sull intero data set. In genere, k,m,t << n. 2. Spesso l algoritmo termina in un ottimo locale. Per trovare l ottimo globale possono essere adottate altre tecniche (deterministic annealing, algoritmi genetici) da incorporare al k-means 3. Funziona solo su valori numerici in quanto minimizza una funzione di costo calcolando la media dei clusters 4. I cluster hanno forma convessa. Pertanto e difficile usare il k-means per trovare cluster di forma non convessa

14 27 Algoritmo k-means (5) Una difficolta consiste nel determinare il numero dei cluster Alcune varianti dell algoritmo includono una procedura per cercare il k ottimo L algoritmo k-means e il migliore per il data mining per la sua efficienza con i grossi data set Purtroppo, funzionando solo per valori numerici, limita di molto la sua applicabilita Discuteremo alcune modifiche all algoritmo per renderlo adatto a valori categorici 28 Algoritmo k-modes (1) L algoritmo k-modes e una versione semplificata del k-prototypes In questo algoritmo abbiamo 3 differenze principali rispetto al k-means: 1. Usa una diversa misura di dissimilarita 2. Sostituisce i k-means con i k-modes 3. Usa un metodo basato sulla frequenza per aggiornare i modes

15 29 Misure di dissimilarita (1) Siano X e Y due oggetti categorici descritti da m attributi categorici La misura di dissimilarita tra X e Y puo essere definita dal totale delle differenze tra le corrispondenti categorie di attributi dei due oggetti Minore e il numero degli attributi diversi, piu i due oggetti sono simili Formalmente: d δ m ( X, Y ) δ ( x, y ) ( x, y ) = = 1 0 = 1 ( x = y ) ( x y ) (1) 30 Misure di dissimilarita (2) d(x,y) da uguale importanza ad ogni categoria di un attributo Se teniamo in conto le frequenze delle categorie in un data set, possiamo definire la misura di dissimilarita come: d χ m = 1 ( n ) x + ny ( x, y ) 2 ( X, Y ) = δ n n x y (2) n n y dove e sono il numero di oggetti nel data set che hanno le x categorie x e y per l attributo. d χ 2 ( X, Y ) si dice distanza chi-quadro

16 31 Misure di dissimilarita (3) Questa seconda misura di dissimilarita da piu importanza alle categorie rare piuttosto che a quelle frequenti Per questo viene usata per scoprire cluster di oggetti sotto-rappresentati come ad es. i richiami fraudolenti nei database delle assicurazioni 32 Mode di un set SiaX un insieme di oggetti categorici descritti dagli attributi categorici A 1, A 2,..., A m Un mode di X e un vettore Q=[q 1, q 2,..., q m ] S che minimizza: n (,X) = d ( X i, Q) D Q i= 1 dove X={X 1, X 2,..., X n } e d possono essere definiti come nell eq. (1) o nell eq. (2). Q non e necessariamente un elemento di X

17 33 Ricerca di un Mode per un set n c k, c k, Sia il numero di oggetti aventi la categoria nell attributo A e fr( A = c, X) = k n c k, n la frequenza relativa della categoria c k, in X Teorema: la funzione D(Q,X) e minimizzata se e solo se: f r ( A = q X) f ( A = c X) per q r ck, per ogni = 1,..., m k 34 L algoritmo k-modes (1) Sia{S 1, S 2,..., S k } una partizione di X, dove S l Ø per 1 l k e {Q 1,..., Q k } i modi di {S 1,..., S k } Il costo totale della partizione e definito da: k n l= 1 i= 1 i, l ( X Q ) E = y d, dove y i,l e un elemento di una matrice di partizione Y nx1 e d puo essere definito come in 1 o come in 2 Similmente all algoritmo k-means, l obiettivo del clustering di X e trovare un set {Q 1, Q 2,..., Q k } che minimizzi E. i l

18 35 L algoritmo k-modes (2) L algoritmo k-modes consiste nei passi seguenti : 1. Scegliere k modi iniziali, uno per ogni cluster 2. Allocare un oggetto in un cluster il cui modo sia il piu vicino ad esso, secondo la definizione di d. Aggiornare il modo del cluster dopo ogni allocazione secondo il teorema 3. Dopo che tutti gli oggetti sono stati allocati nei cluster, ripetere il test della dissimilarita degli oggetti in relazione ai modi correnti. Se si trova che un oggetto e piu vicino al modo di un altro cluster piuttosto che al proprio corrente, riallocare l oggetto in quel cluster e aggiornare i modi di entrambi 4. Ripetere il passo 3 finche nessun oggetto cambia cluster dopo un ciclo completo di test sull intero data set 36 L algoritmo k-modes (3) Come l algoritmo k-means, l algoritmo k-modes produce soluzioni localmente ottime che sono dipendenti dai modi iniziali e dall ordine degli oggetti nel data set L impiego di opportuni metodi di scelta dei modi iniziali, puo migliorare il risultato del clustering Vediamo un metodo di selezione dei k modi iniziali. Il metodo si sviluppa nei seguenti passi: 1. Calcolare le frequenze di tutte le categorie per tutti gli attributi e immagazzinarli in un array di categorie in ordine discendente di frequenza come in Fig.1. Qui c i, denota la categoria i dell attributo e f(c i, ) f(c i+1, ) dove f(c i, ) e la frequenza della categoria c i,

19 37 L algoritmo k-modes (4) Fig.1 c c c c 1,1 2,1 3,1 4,1 c c 1,2 2,2 c c c c La figura mostra l array di categorie per un data set con 4 attributi aventi rispettivamente 4, 2, 4, 3 categorie 2. Assegnare le categorie piu frequenti uniformemente ai k modi iniziali. Per l esempio in Fig.1 assumiamo k=3. Assegnamo Q 1 =[q 1,1 =c 1,1, q 1,2 =c 2,2, q 1,3 =c 3,3, q 1,4 =c 1,4 ], Q 2 =[q 2,1 =c 2,1, q 2,2 =c 1,2, q 2,3 =c 4,3, q 2,4 =c 2,4 ], Q 3 =[q 3,1 =c 3,1, q 3,2 =c 2,2, q 3,3 =c 1,3, q 3,4 =c 3,4 ] 1,3 2,3 3,3 4,3 c c c 1,4 2,4 3,4 38 L algoritmo k-modes (4) 3. Incominciamo con Q 1. Scegliamo il record piu simile a Q 1 e sostituiamo Q 1 con il record come primo modo iniziale. Poi scegliamo il record piu simile a Q 2 esostituiamoq 2 con il record come secondo modo iniziale. Continuiamo questo processo fino alla sostituzione di Q k In queste selezioni Q l Q t per l t Il passo 3 serve per evitare il caso di cluster vuoti. L obiettivo di questo metodo di selezione e di rendere distanti i modi iniziali il che puo risultare in un miglior clustering.

20 39 Classificazione e Regressione - Introduzione (1) Classificazione e regressione sono problemi a cui comunemente viene applicato il data mining Tipicamente classificazione e regressione vengono usate come supporto decisionale nel marketing e nel CRM (previsione dei comportamenti di acquisto, identificazione dei target per promozioni, nuovi prodotti...) ma anche per l identificazione di frodi, nella credit risk detection, in problemi di diagnostica medica... Esistono diverse tecniche di data mining per affrontare problemi di classificazione e di regressione e generalmente ogni tecnica dispone di diversi algoritmi. Naturalmente queste tecniche producono modelli diversi ma in generale ogni tecnica genera un modello predittivo basato su dati storici che viene poi impiegato per predire l uscita di nuovi casi. Cio che distingue classificazione e regressione e il tipo di output che viene predetto 40 Classificazione e Regressione - Introduzione (2) La classificazione individua l appartenenza ad una classe. Per esempio un modello potrebbe predire che il potenziale cliente X rispondera ad un offerta. Con la classificazione l output predetto (la classe) e categorico ossia puo assumere solo pochi possibili valori come Si, No, Alto, Medio, Basso... La regressione predice un valore numerico specifico. Ad esempio un modello potrebbe predire che il cliente X ci portera un profitto di Y lire nel corso di un determinato periodo di tempo. Le variabili in uscita possono assumere un numero illimitato (o comunque una grande quantita ) di valori. Spesso queste variabili in uscita sono indicate come continue anche se talvolta non lo sono nel senso matematico del termine (ad esempio l eta di una persona)

21 41 Classificazione e Regressione - Introduzione (3) Classificazione e regressione sono comunque strettamente correlate e spesso risulta semplice trasformare un problema di classificazione in una regressione e viceversa In generale un problema di regressione viene trasformato in un problema di classificazione semplicemente raggruppando i valori continui predetti in categorie discrete, mentre un problema di classificazione viene trasformato in una regressione identificando un punteggio o probabilita per ogni categoria ed assegnando un range di punteggi ad ogni categoria Nonostante esista la possibilita di convertire classificazione in regressione e viceversa e importante osservare che, a livello di strumenti, i risultati piu accurati si ottengono con il matching di tool e task 42 Tecniche di predictive modeling (1) Esistono 4 tecniche che attualmente dominano il mercato degli strumenti per classificazione e regressione: 1) Decision Tree: e una tecnica che genera una rappresentazione grafica ad albero del modello che produce. Generalmente e accompagnata da regole della forma IF condition THEN outcome che costutuiscono la versione testuale del modello. Gli algoritmi di Decision Tree comunemente implementati comprendono Chisquared Automatic Interaction Detection (CHAID), Classification and Regression Trees (CART), C4.5 e C5.0. Tutti questi sono estremamente adatti alla classificazione, alcuni sono impiegabili anche per la regressione.

22 43 Tecniche di predictive modeling (2) 2) Neural networks: sono tra i piu complicati algoritmi di classificazione e regressione. Vengono usate comunemente nell identificazione di frodi dove occorre un algoritmo che rilevi accuratamente ogni eccezione e che funzioni in tempo reale. Infatti, sebbene la fase di training di una rete neurale possa essere time consuming, una rete allenata puo effettuare previsioni su nuovi casi molto rapidamente. L output di una rete neurale e puramente predittivo e spesso difficile da comprendere e da impiegare. Queste difficolta spesso scoraggiano l uso di reti neurali nel supporto decisionale. 44 Tecniche di predictive modeling (3) 3) Naive-Bayes: e una tecnica di classificazione sia predittiva che descrittiva. Analizza la relazione tra ogni variabile indipendente e la variabile dipendente per derivare una probabilita condizionata per ogni relazione. Quando si analizza un nuovo caso, viene fatta una previsione combinando gli effetti delle variabili indipendenti sulle variabili dipendenti (l uscita che viene predetta). Per esempio consideriamo il problema di cercare di predire il turnover dei clienti dove è noto che il 75% dei clienti con fatturazioni mensili tra $400 e $500 ha abbandonato e il 68% dei clienti che ha fatto più di 4 chiamate al customer service ha abbandonato. Applicando la tecnica a un cliente con fatturazione mensile di $480 e che ha fatto 5 chiamate al customer service, Naive Bayes predice che il cliente ha una alta probabilità di abbandono.

23 45 Tecniche di predictive modeling (3) In teoria i risultati sarebbero corretti solo se le variabili indipendenti fossero statisticamente indipendenti l una dall altra. Questo spesso non e vero ma la pratica dimostra che Naive Bayes fornisce buoni risultati e la sua semplicita e velocita ne fanno uno strumento ideale per modellare ed investigare relazioni semplici 46 Tecniche di predictive modeling (4) 4) K-nearest neighbor (K-NN): differisce dalle precedenti tecniche nel fatto che i dati di training non sono usati per creare il modello ma costituiscono essi stessi il modello. Quando si presenta un nuovo caso, l algoritmo scandisce tutti i dati per trovare un sottoinsieme di casi che sono piu vicini ad esso e li usa per predire l uscita. Ci sono due aspetti principali nell algoritmo k-nn: il numero di casi piu vicini da usare (k) e la scelta di una metrica per misurare cosa si intende per piu vicini. Per classificare un nuovo caso, l algoritmo calcola la distanza dal nuovo caso ad ogni caso nel training data. L uscita prevista per il nuovo caso corrisponde all uscita predominante nei k casi piu vicini del training set.

24 47 Tecniche di predictive modeling (5) Tutte le tecniche menzionate possono generare modelli predittivi. Alcune di esse forniscono anche modelli descrittivi che consentono di comprendere piu a fondo le relazioni tra i dati, indipendentemente dalla natura predittiva del modello. Ad esempio questa informazione potrebbe essere nella forma: il guadagno e il fattore piu importante per determinare se qualcuno e a un buon livello di credit risk. Tale informazione descrittiva puo essere presentata in forma testuale o attraverso tool di visualizzazione. 48 Esempi di classificazione lineare e non lineare Debito Debito Prestito NON concesso zona di Prestito NON concesso zona di Prestito concesso Prestito concesso CLASSIFICAZIONE LINEARE Introito NEAREST NEIGHBOR Introito Debito Prestito NON concesso x x x x Prestito concesso RETI NEURALI Introito

25 49 Decision Tree I dati in input rappresentano il training set e sono costituiti da molteplici esempi (records), ognuno caratterizzato da diversi attributi (features) Ogni esempio e caratterizzato dall appartenenza ad una classe (class label) Obiettivo della classificazione e di analizzare i dati in input e sviluppare un accurato modello per ogni classe tramite il quale sia possibile classificare i futuri dati di test per cui i class label sono ignoti I decision tree sono relativamente veloci, confrontati con altri metodi di classificazione e sono di semplice interpretazione: essi possono facilmente essere convertiti in insiemi di regole di classificazione e in query SQL per accedere ai database 50 Esempio ETA SALARIO CLASSE ETA <= B C SALARIO <=40 SALARIO <= B C C B C B B Decision rule per la prima foglia a sin: B IF eta <=35 AND salario<=40 THEN classe=c

26 51 Decision Tree Classification La maggior parte dei classificatori ad albero (es. CART, C 4.5) realizzano la classificazione in 2 fasi: Tree Building e Tree Pruning Tree Building: in questa fase si costruisce un primo decision tree partizionando ripetutamente i dati del training set. Il training set e suddiviso in due o piu partizioni usando un attributo (esistono algoritmi che usano anche attributi multipli). Questo processo viene ripetuto ricorsivamente finche tutti gli esempi in una partizione appartengono ad una classe. Tree Pruning: l albero costruito nella prima fase classifica completamente il training data set. Questo implica che vengono creati rami anche per il rumore e le fluttuazioni statistiche. Questi rami possono condurre a errori nella classificazione dei dati di test. La fase di pruning ha l obiettivo di rimuovere questi rami dal decision tree selezionando il sotto-albero con il minimo tasso di errore stimato 52 Tree Building Algorithm MakeTree (Training Data T) Partition (T); Partition (Data S) if (all points in S are in the same class) then return; Evaluate splits for each attribute A Use best split found to partition S into S 1 and S 2 ; Partition (S 1 ); Partition (S 2 );

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da

Dettagli

Ricerca di outlier. Ricerca di Anomalie/Outlier

Ricerca di outlier. Ricerca di Anomalie/Outlier Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

Data mining e rischi aziendali

Data mining e rischi aziendali Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento

Dettagli

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?) Ambiente Access La Guida di Access Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?) Guida in linea Guida rapida Assistente di Office indicazioni

Dettagli

Database. Si ringrazia Marco Bertini per le slides

Database. Si ringrazia Marco Bertini per le slides Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida

Dettagli

Uno standard per il processo KDD

Uno standard per il processo KDD Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo

Dettagli

Il database management system Access

Il database management system Access Il database management system Access Corso di autoistruzione http://www.manualipc.it/manuali/ corso/manuali.php? idcap=00&idman=17&size=12&sid= INTRODUZIONE Il concetto di base di dati, database o archivio

Dettagli

Organizzazione degli archivi

Organizzazione degli archivi COSA E UN DATA-BASE (DB)? è l insieme di dati relativo ad un sistema informativo COSA CARATTERIZZA UN DB? la struttura dei dati le relazioni fra i dati I REQUISITI DI UN DB SONO: la ridondanza minima i

Dettagli

Introduzione all Information Retrieval

Introduzione all Information Retrieval Introduzione all Information Retrieval Argomenti della lezione Definizione di Information Retrieval. Information Retrieval vs Data Retrieval. Indicizzazione di collezioni e ricerca. Modelli per Information

Dettagli

Mining Positive and Negative Association Rules:

Mining Positive and Negative Association Rules: Mining Positive and Negative Association Rules: An Approach for Confined Rules Alessandro Boca Alessandro Cislaghi Premesse Le regole di associazione positive considerano solo gli item coinvolti in una

Dettagli

Basi di dati. Il Modello Relazionale dei Dati. K. Donno - Il Modello Relazionale dei Dati

Basi di dati. Il Modello Relazionale dei Dati. K. Donno - Il Modello Relazionale dei Dati Basi di dati Il Modello Relazionale dei Dati Proposto da E. Codd nel 1970 per favorire l indipendenza dei dati Disponibile come modello logico in DBMS reali nel 1981 (non è facile realizzare l indipendenza

Dettagli

Cosa è un foglio elettronico

Cosa è un foglio elettronico Cosa è un foglio elettronico Versione informatica del foglio contabile Strumento per l elaborazione di numeri (ma non solo...) I valori inseriti possono essere modificati, analizzati, elaborati, ripetuti

Dettagli

Scheduling della CPU. Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux

Scheduling della CPU. Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux Scheduling della CPU Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux Sistemi multiprocessori Fin qui si sono trattati i problemi di scheduling su singola

Dettagli

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video Video Librerie digitali Gestione di video Ogni filmato è composto da più parti Video Audio Gestito come visto in precedenza Trascrizione del testo, identificazione di informazioni di interesse Testo Utile

Dettagli

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,

Dettagli

Pro e contro delle RNA

Pro e contro delle RNA Pro e contro delle RNA Pro: - flessibilità: le RNA sono approssimatori universali; - aggiornabilità sequenziale: la stima dei pesi della rete può essere aggiornata man mano che arriva nuova informazione;

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

Dispensa di database Access

Dispensa di database Access Dispensa di database Access Indice: Database come tabelle; fogli di lavoro e tabelle...2 Database con più tabelle; relazioni tra tabelle...2 Motore di database, complessità di un database; concetto di

Dettagli

Basi di Dati Relazionali

Basi di Dati Relazionali Corso di Laurea in Informatica Basi di Dati Relazionali a.a. 2009-2010 PROGETTAZIONE DI UNA BASE DI DATI Raccolta e Analisi dei requisiti Progettazione concettuale Schema concettuale Progettazione logica

Dettagli

VALORE DELLE MERCI SEQUESTRATE

VALORE DELLE MERCI SEQUESTRATE La contraffazione in cifre: NUOVA METODOLOGIA PER LA STIMA DEL VALORE DELLE MERCI SEQUESTRATE Roma, Giugno 2013 Giugno 2013-1 Il valore economico dei sequestri In questo Focus si approfondiscono alcune

Dettagli

Algoritmi di clustering

Algoritmi di clustering Algoritmi di clustering Dato un insieme di dati sperimentali, vogliamo dividerli in clusters in modo che: I dati all interno di ciascun cluster siano simili tra loro Ciascun dato appartenga a uno e un

Dettagli

Funzioni in C. Violetta Lonati

Funzioni in C. Violetta Lonati Università degli studi di Milano Dipartimento di Scienze dell Informazione Laboratorio di algoritmi e strutture dati Corso di laurea in Informatica Funzioni - in breve: Funzioni Definizione di funzioni

Dettagli

Corso di. Dott.ssa Donatella Cocca

Corso di. Dott.ssa Donatella Cocca Corso di Statistica medica e applicata Dott.ssa Donatella Cocca 1 a Lezione Cos'è la statistica? Come in tutta la ricerca scientifica sperimentale, anche nelle scienze mediche e biologiche è indispensabile

Dettagli

Area Marketing. Approfondimento

Area Marketing. Approfondimento Area Marketing Approfondimento CUSTOMER SATISFACTION COME RILEVARE IL LIVELLO DI SODDISFAZIONE DEI CLIENTI (CUSTOMER SATISFACTION) Rilevare la soddisfazione dei clienti non è difficile se si dispone di

Dettagli

Sistemi Informativi Territoriali. Map Algebra

Sistemi Informativi Territoriali. Map Algebra Paolo Mogorovich Sistemi Informativi Territoriali Appunti dalle lezioni Map Algebra Cod.735 - Vers.E57 1 Definizione di Map Algebra 2 Operatori locali 3 Operatori zonali 4 Operatori focali 5 Operatori

Dettagli

Raggruppamenti Conti Movimenti

Raggruppamenti Conti Movimenti ESERCITAZIONE PIANO DEI CONTI Vogliamo creare un programma che ci permetta di gestire, in un DB, il Piano dei conti di un azienda. Nel corso della gestione d esercizio, si potranno registrare gli articoli

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

per immagini guida avanzata Uso delle tabelle e dei grafici Pivot Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1

per immagini guida avanzata Uso delle tabelle e dei grafici Pivot Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1 Uso delle tabelle e dei grafici Pivot Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1 Una tabella Pivot usa dati a due dimensioni per creare una tabella a tre dimensioni, cioè una tabella

Dettagli

Principi di analisi causale Lezione 2

Principi di analisi causale Lezione 2 Anno accademico 2007/08 Principi di analisi causale Lezione 2 Docente: prof. Maurizio Pisati Logica della regressione Nella sua semplicità, l espressione precedente racchiude interamente la logica della

Dettagli

Piano di gestione della qualità

Piano di gestione della qualità Piano di gestione della qualità Pianificazione della qualità Politica ed obiettivi della qualità Riferimento ad un eventuale modello di qualità adottato Controllo della qualità Procedure di controllo.

Dettagli

Novità di Access 2010

Novità di Access 2010 2 Novità di Access 2010 In questo capitolo: Gestire le impostazioni e i file di Access nella visualizzazione Backstage Personalizzare l interfaccia utente di Access 2010 Creare database utilizzando modelli

Dettagli

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini.

A intervalli regolari ogni router manda la sua tabella a tutti i vicini, e riceve quelle dei vicini. Algoritmi di routing dinamici (pag.89) UdA2_L5 Nelle moderne reti si usano algoritmi dinamici, che si adattano automaticamente ai cambiamenti della rete. Questi algoritmi non sono eseguiti solo all'avvio

Dettagli

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it

Automazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it Automazione Industriale (scheduling+mms) scheduling+mms adacher@dia.uniroma3.it Introduzione Sistemi e Modelli Lo studio e l analisi di sistemi tramite una rappresentazione astratta o una sua formalizzazione

Dettagli

Ottimizzazione Multi Obiettivo

Ottimizzazione Multi Obiettivo Ottimizzazione Multi Obiettivo 1 Ottimizzazione Multi Obiettivo I problemi affrontati fino ad ora erano caratterizzati da una unica (e ben definita) funzione obiettivo. I problemi di ottimizzazione reali

Dettagli

Capitolo 13. Interrogare una base di dati

Capitolo 13. Interrogare una base di dati Capitolo 13 Interrogare una base di dati Il database fisico La ridondanza è una cosa molto, molto, molto brutta Non si devono mai replicare informazioni scrivendole in più posti diversi nel database Per

Dettagli

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L. DATA WAREHOUSE Un Dataware House può essere definito come una base di dati di database. In molte aziende ad esempio ci potrebbero essere molti DB, per effettuare ricerche di diverso tipo, in funzione del

Dettagli

Access. P a r t e p r i m a

Access. P a r t e p r i m a Access P a r t e p r i m a 1 Esempio di gestione di database con MS Access 2 Cosa è Access? Access e un DBMS che permette di progettare e utilizzare DB relazionali Un DB Access e basato sui concetti di

Dettagli

Il concetto di valore medio in generale

Il concetto di valore medio in generale Il concetto di valore medio in generale Nella statistica descrittiva si distinguono solitamente due tipi di medie: - le medie analitiche, che soddisfano ad una condizione di invarianza e si calcolano tenendo

Dettagli

Introduzione alla teoria dei database relazionali. Come progettare un database

Introduzione alla teoria dei database relazionali. Come progettare un database Introduzione alla teoria dei database relazionali Come progettare un database La struttura delle relazioni Dopo la prima fase di individuazione concettuale delle entità e degli attributi è necessario passare

Dettagli

Marketing relazionale

Marketing relazionale Marketing relazionale Introduzione Nel marketing intelligence assume particolare rilievo l applicazione di modelli predittivi rivolte a personalizzare e rafforzare il legame tra azienda e clienti. Un azienda

Dettagli

Progettaz. e sviluppo Data Base

Progettaz. e sviluppo Data Base Progettaz. e sviluppo Data Base! Progettazione Basi Dati: Metodologie e modelli!modello Entita -Relazione Progettazione Base Dati Introduzione alla Progettazione: Il ciclo di vita di un Sist. Informativo

Dettagli

SISTEMI INFORMATIVI AVANZATI -2010/2011 1. Introduzione

SISTEMI INFORMATIVI AVANZATI -2010/2011 1. Introduzione SISTEMI INFORMATIVI AVANZATI -2010/2011 1 Introduzione In queste dispense, dopo aver riportato una sintesi del concetto di Dipendenza Funzionale e di Normalizzazione estratti dal libro Progetto di Basi

Dettagli

Excel. A cura di Luigi Labonia. e-mail: luigi.lab@libero.it

Excel. A cura di Luigi Labonia. e-mail: luigi.lab@libero.it Excel A cura di Luigi Labonia e-mail: luigi.lab@libero.it Introduzione Un foglio elettronico è un applicazione comunemente usata per bilanci, previsioni ed altri compiti tipici del campo amministrativo

Dettagli

Strutturazione logica dei dati: i file

Strutturazione logica dei dati: i file Strutturazione logica dei dati: i file Informazioni più complesse possono essere composte a partire da informazioni elementari Esempio di una banca: supponiamo di voler mantenere all'interno di un computer

Dettagli

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda Premessa Con l analisi di sensitività il perito valutatore elabora un range di valori invece di un dato

Dettagli

EXPLOit Content Management Data Base per documenti SGML/XML

EXPLOit Content Management Data Base per documenti SGML/XML EXPLOit Content Management Data Base per documenti SGML/XML Introduzione L applicazione EXPLOit gestisce i contenuti dei documenti strutturati in SGML o XML, utilizzando il prodotto Adobe FrameMaker per

Dettagli

Note su quicksort per ASD 2010-11 (DRAFT)

Note su quicksort per ASD 2010-11 (DRAFT) Note su quicksort per ASD 010-11 (DRAFT) Nicola Rebagliati 7 dicembre 010 1 Quicksort L algoritmo di quicksort è uno degli algoritmi più veloci in pratica per il riordinamento basato su confronti. L idea

Dettagli

Mon Ami 3000 Provvigioni agenti Calcolo delle provvigioni per agente / sub-agente

Mon Ami 3000 Provvigioni agenti Calcolo delle provvigioni per agente / sub-agente Prerequisiti Mon Ami 3000 Provvigioni agenti Calcolo delle provvigioni per agente / sub-agente L opzione Provvigioni agenti è disponibile per le versioni Vendite, Azienda Light e Azienda Pro. Introduzione

Dettagli

Università di Pisa A.A. 2004-2005

Università di Pisa A.A. 2004-2005 Università di Pisa A.A. 2004-2005 Analisi dei dati ed estrazione di conoscenza Corso di Laurea Specialistica in Informatica per l Economia e per l Azienda Tecniche di Data Mining Corsi di Laurea Specialistica

Dettagli

Analisi di Mercato. Facoltà di Economia. Analisi sui consumi. Metodo delle inchieste familiari. Metodo delle disponibilità globali

Analisi di Mercato. Facoltà di Economia. Analisi sui consumi. Metodo delle inchieste familiari. Metodo delle disponibilità globali Obiettivi delle aziende Analisi di Mercato Facoltà di Economia francesco mola Analisi sui consumi Conoscere i bisogni e i gusti dei consumatori Valutare la soddisfazione della clientela Lanciare nuovi

Dettagli

Algoritmi e strutture dati. Codici di Huffman

Algoritmi e strutture dati. Codici di Huffman Algoritmi e strutture dati Codici di Huffman Memorizzazione dei dati Quando un file viene memorizzato, esso va memorizzato in qualche formato binario Modo più semplice: memorizzare il codice ASCII per

Dettagli

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE Arricchimento dei dati del sottoscrittore / user Approccio Tradizionale Raccolta dei dati personali tramite contratto (professione, dati sul nucleo familiare, livello

Dettagli

Ottimizzazione delle interrogazioni (parte I)

Ottimizzazione delle interrogazioni (parte I) Ottimizzazione delle interrogazioni I Basi di Dati / Complementi di Basi di Dati 1 Ottimizzazione delle interrogazioni (parte I) Angelo Montanari Dipartimento di Matematica e Informatica Università di

Dettagli

EXCEL PER WINDOWS95. sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area di lavoro, detta foglio di lavoro,

EXCEL PER WINDOWS95. sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area di lavoro, detta foglio di lavoro, EXCEL PER WINDOWS95 1.Introduzione ai fogli elettronici I fogli elettronici sono delle applicazioni che permettono di sfruttare le potenzialità di calcolo dei personal computer. Essi si basano su un area

Dettagli

Cos è l ISC (Indicatore Sintetico del Conto Corrente) e cosa sono i Profili tipo d utilizzo

Cos è l ISC (Indicatore Sintetico del Conto Corrente) e cosa sono i Profili tipo d utilizzo Cos è l ISC (Indicatore Sintetico del Conto Corrente) e cosa sono i Profili tipo d utilizzo Come dice il nome, l ISC è un indicatore che riassume in un unica cifra il costo indicativo annuo di un conto

Dettagli

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE 51 Dichiarazione d intenti (mission statement) La dichiarazione d intenti ha il compito di stabilire degli obiettivi dal punto di vista del mercato, e in parte dal

Dettagli

Informatica 3. LEZIONE 23: Indicizzazione. Modulo 1: Indicizzazione lineare, ISAM e ad albero Modulo 2: 2-3 trees, B-trees e B + -trees

Informatica 3. LEZIONE 23: Indicizzazione. Modulo 1: Indicizzazione lineare, ISAM e ad albero Modulo 2: 2-3 trees, B-trees e B + -trees Informatica 3 LEZIONE 23: Indicizzazione Modulo 1: Indicizzazione lineare, ISAM e ad albero Modulo 2: 2-3 trees, B-trees e B + -trees Informatica 3 Lezione 23 - Modulo 1 Indicizzazione lineare, ISAM e

Dettagli

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali DIPARTIMENTO DI INGEGNERIA INFORMATICA AUTOMATICA E GESTIONALE ANTONIO RUBERTI Cenni al Data Mining 1 Data Mining nasce prima del Data Warehouse collezione di tecniche derivanti da Intelligenza Artificiale,

Dettagli

PROCESSO DI INDICIZZAZIONE SEMANTICA

PROCESSO DI INDICIZZAZIONE SEMANTICA PROCESSO DI INDICIZZAZIONE SEMANTICA INDIVIDUAZIONE DEI TEMI/CONCETTI SELEZIONE DEI TEMI/CONCETTI ESPRESSIONE DEI CONCETTI NEL LINGUAGGIO DI INDICIZZAZIONE TIPI DI INDICIZZAZIONE SOMMARIZZAZIONE INDICIZZAZIONE

Dettagli

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino Data mining Vincenzo D Elia vincenzo.delia@polito.it DBDMG - Politecnico di Torino vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 1 Rapid Miner vincenzo.delia@polito.it Archivi Multimediali

Dettagli

Capitolo 13: L offerta dell impresa e il surplus del produttore

Capitolo 13: L offerta dell impresa e il surplus del produttore Capitolo 13: L offerta dell impresa e il surplus del produttore 13.1: Introduzione L analisi dei due capitoli precedenti ha fornito tutti i concetti necessari per affrontare l argomento di questo capitolo:

Dettagli

In questo manuale sono indicate le procedure per utilizzare correttamente la gestione delle offerte dei fornitori.

In questo manuale sono indicate le procedure per utilizzare correttamente la gestione delle offerte dei fornitori. Release 5.20 Manuale Operativo ORDINI PLUS Gestione delle richieste di acquisto In questo manuale sono indicate le procedure per utilizzare correttamente la gestione delle offerte dei fornitori. La gestione

Dettagli

B C I un altro punto di vista Introduzione

B C I un altro punto di vista Introduzione Bollicine Community B C Intelligence B C I un altro punto di vista Introduzione Graziano Guazzi General Manager Data Flow Settembre 2007 pag, 1 Cosa misurare La definizione di quale domanda di mercato

Dettagli

La distribuzione Normale. La distribuzione Normale

La distribuzione Normale. La distribuzione Normale La Distribuzione Normale o Gaussiana è la distribuzione più importante ed utilizzata in tutta la statistica La curva delle frequenze della distribuzione Normale ha una forma caratteristica, simile ad una

Dettagli

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI VERO FALSO CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI 1. V F Un ipotesi statistica è un assunzione sulle caratteristiche di una o più variabili in una o più popolazioni 2. V F L ipotesi nulla unita

Dettagli

TECNICHE DI SIMULAZIONE

TECNICHE DI SIMULAZIONE TECNICHE DI SIMULAZIONE INTRODUZIONE Francesca Mazzia Dipartimento di Matematica Università di Bari a.a. 2004/2005 TECNICHE DI SIMULAZIONE p. 1 Introduzione alla simulazione Una simulazione è l imitazione

Dettagli

SIEBEL CRM ON DEMAND MARKETING

SIEBEL CRM ON DEMAND MARKETING SIEBEL CRM ON DEMAND MARKETING Siebel CRM On Demand Marketing include 11 strumenti integrati per migliorare le attività di marketing dell azienda. Questi strumenti permettono di conoscere meglio i destinatari,

Dettagli

Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi

Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi Versione 2.0 Strumenti e metodi per la redazione della carta del pericolo da fenomeni torrentizi Corso anno 2011 E. MANUALE UTILIZZO HAZARD MAPPER Il programma Hazard Mapper è stato realizzato per redarre,

Dettagli

Progettazione di Basi di Dati

Progettazione di Basi di Dati Progettazione di Basi di Dati Prof. Nicoletta D Alpaos & Prof. Andrea Borghesan Entità-Relazione Progettazione Logica 2 E il modo attraverso il quale i dati sono rappresentati : fa riferimento al modello

Dettagli

Lezione 1. Introduzione e Modellazione Concettuale

Lezione 1. Introduzione e Modellazione Concettuale Lezione 1 Introduzione e Modellazione Concettuale 1 Tipi di Database ed Applicazioni Database Numerici e Testuali Database Multimediali Geographic Information Systems (GIS) Data Warehouses Real-time and

Dettagli

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo Distributed P2P Data Mining Autore: (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo A.A. 2005/2006 Il settore del Data Mining Distribuito (DDM): Data Mining: cuore del processo

Dettagli

Data Warehousing (DW)

Data Warehousing (DW) Data Warehousing (DW) Il Data Warehousing è un processo per estrarre e integrare dati storici da sistemi transazionali (OLTP) diversi e disomogenei, e da usare come supporto al sistema di decisione aziendale

Dettagli

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico

MANUALE MOODLE STUDENTI. Accesso al Materiale Didattico MANUALE MOODLE STUDENTI Accesso al Materiale Didattico 1 INDICE 1. INTRODUZIONE ALLA PIATTAFORMA MOODLE... 3 1.1. Corso Moodle... 4 2. ACCESSO ALLA PIATTAFORMA... 7 2.1. Accesso diretto alla piattaforma...

Dettagli

Il Modello Relazionale

Il Modello Relazionale Il Modello Relazionale Il modello relazionale 1 Il modello relazionale Proposto da E. F. Codd nel 1970 per favorire l indipendenza dei dati e reso disponibile come modello logico in DBMS reali nel 1981

Dettagli

Barriere assorbenti nelle catene di Markov e una loro applicazione al web

Barriere assorbenti nelle catene di Markov e una loro applicazione al web Università Roma Tre Facoltà di Scienze M.F.N Corso di Laurea in Matematica a.a. 2001/2002 Barriere assorbenti nelle catene di Markov e una loro applicazione al web Giulio Simeone 1 Sommario Descrizione

Dettagli

Regione Toscana. ARPA Fonte Dati. Manuale Amministratore. L. Folchi (TAI) Redatto da

Regione Toscana. ARPA Fonte Dati. Manuale Amministratore. L. Folchi (TAI) Redatto da ARPA Fonte Dati Regione Toscana Redatto da L. Folchi (TAI) Rivisto da Approvato da Versione 1.0 Data emissione 06/08/13 Stato DRAFT 1 Versione Data Descrizione 1,0 06/08/13 Versione Iniziale 2 Sommario

Dettagli

DATABASE. A cura di Massimiliano Buschi

DATABASE. A cura di Massimiliano Buschi DATABASE A cura di Massimiliano Buschi Introduzione Con Microsoft Access: Immissione dati e interrogazione Interfaccia per applicazioni e report Ma prima bisogna definire alcune conoscenze di base sui

Dettagli

Soluzione dell esercizio del 2 Febbraio 2004

Soluzione dell esercizio del 2 Febbraio 2004 Soluzione dell esercizio del 2 Febbraio 2004 1. Casi d uso I casi d uso sono riportati in Figura 1. Figura 1: Diagramma dei casi d uso. E evidenziato un sotto caso di uso. 2. Modello concettuale Osserviamo

Dettagli

Contabilità generale e contabilità analitica

Contabilità generale e contabilità analitica 1/5 Contabilità generale e contabilità analitica La sfida della contabilità analitica è di produrre informazioni sia preventive che consuntive. Inoltre questi dati devono riferirsi a vari oggetti (prodotti,

Dettagli

Ingegneria del Software T

Ingegneria del Software T Home Finance 1 Requisiti del cliente 1 Si richiede di realizzare un sistema per la gestione della contabilità familiare. Il sistema consente la classificazione dei movimenti di denaro e la loro memorizzazione.

Dettagli

Finalità della soluzione... 3. Schema generale e modalità d integrazione... 4. Gestione centralizzata in TeamPortal... 6

Finalità della soluzione... 3. Schema generale e modalità d integrazione... 4. Gestione centralizzata in TeamPortal... 6 Finalità della soluzione... 3 Schema generale e modalità d integrazione... 4 Gestione centralizzata in TeamPortal... 6 Dati gestiti dall Anagrafica Unica... 8 Gestione anagrafica... 9 Storicizzazione...

Dettagli

1 Applicazioni Lineari tra Spazi Vettoriali

1 Applicazioni Lineari tra Spazi Vettoriali 1 Applicazioni Lineari tra Spazi Vettoriali Definizione 1 (Applicazioni lineari) Si chiama applicazione lineare una applicazione tra uno spazio vettoriale ed uno spazio vettoriale sul campo tale che "!$%!

Dettagli

Tecniche di Simulazione: Introduzione. N. Del Buono:

Tecniche di Simulazione: Introduzione. N. Del Buono: Tecniche di Simulazione: Introduzione N. Del Buono: 2 Che cosa è la simulazione La SIMULAZIONE dovrebbe essere considerata una forma di COGNIZIONE (COGNIZIONE qualunque azione o processo per acquisire

Dettagli

Guida all uso del web service SDMX

Guida all uso del web service SDMX Guida all uso del web service SDMX Introduzione L obiettivo di questo documento è l illustrazione sintetica degli step che tecnicamente bisogna compiere affinché un generico client sia in grado di interagire

Dettagli

La Metodologia adottata nel Corso

La Metodologia adottata nel Corso La Metodologia adottata nel Corso 1 Mission Statement + Glossario + Lista Funzionalià 3 Descrizione 6 Funzionalità 2 Schema 4 Schema 5 concettuale Logico EA Relazionale Codice Transazioni In PL/SQL Schema

Dettagli

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI

APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI APPUNTI DI MATEMATICA LE FRAZIONI ALGEBRICHE ALESSANDRO BOCCONI Indice 1 Le frazioni algebriche 1.1 Il minimo comune multiplo e il Massimo Comun Divisore fra polinomi........ 1. Le frazioni algebriche....................................

Dettagli

Sistemi di misurazione e valutazione delle performance

Sistemi di misurazione e valutazione delle performance Sistemi di misurazione e valutazione delle performance 1 SVILUPPO DELL'INTERVENTO Cos è la misurazione e valutazione delle performance e a cosa serve? Efficienza Efficacia Outcome Requisiti minimi Indicatori

Dettagli

SCELTA DELL APPROCCIO. A corredo delle linee guida per l autovalutazione e il miglioramento

SCELTA DELL APPROCCIO. A corredo delle linee guida per l autovalutazione e il miglioramento SCELTA DELL APPROCCIO A corredo delle linee guida per l autovalutazione e il miglioramento 1 SCELTA DELL APPROCCIO l approccio all autovalutazione diffusa può essere normale o semplificato, a seconda delle

Dettagli

Nota integrativa nel bilancio abbreviato

Nota integrativa nel bilancio abbreviato Fiscal News La circolare di aggiornamento professionale N. 120 23.04.2014 Nota integrativa nel bilancio abbreviato Categoria: Bilancio e contabilità Sottocategoria: Varie La redazione del bilancio in forma

Dettagli

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI)

COMUNE DI RAVENNA GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI) COMUNE DI RAVENNA Il sistema di valutazione delle posizioni del personale dirigente GUIDA ALLA VALUTAZIONE DELLE POSIZIONI (FAMIGLIE, FATTORI, LIVELLI) Ravenna, Settembre 2004 SCHEMA DI SINTESI PER LA

Dettagli

Operazioni sui database

Operazioni sui database Operazioni sui database Le operazioni nel modello relazionale sono essenzialmente di due tipi: Operazioni di modifica della base di dati (update) Interrogazioni della base di dati per il recupero delle

Dettagli

Informatica 3. Informatica 3. LEZIONE 10: Introduzione agli algoritmi e alle strutture dati. Lezione 10 - Modulo 1. Importanza delle strutture dati

Informatica 3. Informatica 3. LEZIONE 10: Introduzione agli algoritmi e alle strutture dati. Lezione 10 - Modulo 1. Importanza delle strutture dati Informatica 3 Informatica 3 LEZIONE 10: Introduzione agli algoritmi e alle strutture dati Modulo 1: Perchè studiare algoritmi e strutture dati Modulo 2: Definizioni di base Lezione 10 - Modulo 1 Perchè

Dettagli

Incident Management. Obiettivi. Definizioni. Responsabilità. Attività. Input

Incident Management. Obiettivi. Definizioni. Responsabilità. Attività. Input Incident Management Obiettivi Obiettivo dell Incident Management e di ripristinare le normali operazioni di servizio nel piu breve tempo possibbile e con il minimo impatto sul business, garantendo il mantenimento

Dettagli

REALIZZARE UN BUSINESS PLAN CON MICROSOFT EXCEL 2007

REALIZZARE UN BUSINESS PLAN CON MICROSOFT EXCEL 2007 REALIZZARE UN BUSINESS PLAN CON MICROSOFT EXCEL 2007 INTRODUZIONE Uno degli elementi più importanti che compongono un Business Plan è sicuramente la previsione dei risultati economico-finanziari. Tale

Dettagli

Esempi di algoritmi. Lezione III

Esempi di algoritmi. Lezione III Esempi di algoritmi Lezione III Scopo della lezione Implementare da zero algoritmi di media complessità. Verificare la correttezza di un algoritmo eseguendolo a mano. Imparare a valutare le prestazioni

Dettagli

03. Il Modello Gestionale per Processi

03. Il Modello Gestionale per Processi 03. Il Modello Gestionale per Processi Gli aspetti strutturali (vale a dire l organigramma e la descrizione delle funzioni, ruoli e responsabilità) da soli non bastano per gestire la performance; l organigramma

Dettagli

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI Un utilizzatore a valle di sostanze chimiche dovrebbe informare i propri fornitori riguardo al suo utilizzo delle sostanze (come tali o all

Dettagli

Indice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi

Indice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi Indice generale OOA Analisi Orientata agli Oggetti Introduzione Analisi Metodi d' analisi Analisi funzionale Analisi del flusso dei dati Analisi delle informazioni Analisi Orientata agli Oggetti (OOA)

Dettagli

per immagini guida avanzata Organizzazione e controllo dei dati Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1

per immagini guida avanzata Organizzazione e controllo dei dati Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1 Organizzazione e controllo dei dati Geometra Luigi Amato Guida Avanzata per immagini excel 2000 1 Il raggruppamento e la struttura dei dati sono due funzioni di gestione dati di Excel, molto simili tra

Dettagli

Segmentare ovvero capire il contesto di mercato di riferimento

Segmentare ovvero capire il contesto di mercato di riferimento Lezione n. 5 Segmentare ovvero capire il contesto di mercato di riferimento Prof.ssa Clara Bassano Corso di Principi di Marketing A.A. 2006-2007 Verso la strategia aziendale Mission + Vision = Orientamento

Dettagli