Data Mining. KDD e Data Mining - Introduzione (1)

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Data Mining. KDD e Data Mining - Introduzione (1)"

Transcript

1 1 Data Mining Corso di Metodi e Modelli per il Supporto alle Decisioni a.a KDD e Data Mining - Introduzione (1) Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da satellite o da sensori remoti, servizi on line..) Sviluppo delle tecnologie per l immagazzinamento dei dati, tecniche di gestione di database e data warehouse, supporti piu capaci piu economici (dischi, CD) hanno consentito l archiviazione di grosse quantita di dati Simili volumi di dati superano di molto la capacità di analisi dei metodi manuali tradizionali, come le query ad hoc. Tali metodi possono creare report informativi sui dati ma non riescono ad analizzare il contenuto dei report per focalizzarsi sulla conoscenza utile.

2 3 KDD e Data Mining - Introduzione (2) Emerge l'esigenza di tecniche e strumenti con la capacità di assistere in modo intelligente e automatico gli utenti decisionali nell'estrazione di elementi di conoscenza dai dati. Queste tecniche e strumenti sono al centro del campo emergente del Knowledge Discovery in Databases (KDD). Il termine knowledge discovery in databases, o KDD, indica l'intero processo di ricerca di nuova conoscenza dai dati Il termine di data mining si riferisce all'applicazione di algoritmi per estrarre pattern dai dati senza considerare gli ulteriori passi che caratterizzano il processo di KDD (come, ad esempio, incorporare appropriata conoscenza a priori e fornire una opportuna interpretazione dei risultati). 4 KDD e Data Mining - Introduzione (3) Pertanto l'intero processo, tipicamente interattivo e iterativo, di ricerca, estrazione ed interpretazione di pattern dai dati, che indichiamo come KDD, coinvolge l'applicazione ripetuta di specifici metodi e algoritmi di data mining e l'interpretazione dei pattern generati da tali algoritmi. Nel seguito forniremo una definizione più dettagliata di KDD e una panoramica sui metodi e gli algoritmi di data mining più usati

3 5 Il processo di KDD (1) Application Domain Prior Knowledge User s Goals Data Mining Interpretation/ Evaluation Knowledge Transformation Patterns Selection Preprocessing Transformed Data Preprocessed Data Metadata Target Data Data 6 Il processo di KDD (2) 1) Sviluppo e approfondimento del dominio di applicazione, della conoscenza disponibile a priori e degli obiettivi dell'utente finale. 2) Creazione di un target data set: selezione del data set o focalizzazione su un sottoinsieme di variabili o di campioni di dati oggetto del processo KDD. 3) Cleaning dei dati e preprocessing: operazioni di base come la rimozione del rumore o degli outliers se è il caso, raccolta delle informazioni necessarie per modellare o tener conto del rumore, messa a punto di strategie per gestire i dati mancanti e per gestire i dati tempo-varianti. 4) Riduzione dei dati e proiezione: rappresentazione dei dati in modo opportuno in relazione agli obiettivi della ricerca. Riduzione delle dimensioni e impiego di metodi di trasformazione per ridurre l'effettivo numero di variabili da sottoporre al processo di ricerca.

4 7 Il processo di KDD (3) 5) Scelta del compito del processo di data mining: identificazione dell'obiettivo del KDD, se si tratti di una classificazione, di una regressione, di un clustering 6) Scelta dell'algoritmo o degli algoritmi di data mining: selezione dei metodi da usare per ricercare pattern nei dati. Questa fase comprende la decisione su quali modelli e parametri potrebbero essere appropriati e il matching di un particolare metodo di data mining con i criteri generali del processo KDD (per es. l'utente finale potrebbe essere maggiormente interessato alla comprensione del modello piuttosto che alle sue capacità predittive). 8 Il processo di KDD (4) 7) Data mining: ricerca di pattern di interesse in una particolare forma di rappresentazione o su un set di rappresentazioni diverse (regole di classificazione, alberi decisionali, regressione, clustering ). Il risultato del processo di data mining è considerevolmente influenzato dalla correttezza delle fasi precedenti. 8) Interpretazione dei pattern trovati e possibile ritorno alle fasi 1-7 per ulteriori iterazioni. 9) Consolidamento della conoscenza estratta: incorporazione di tale conoscenza nel sistema di performance o, semplicemente, documentazione e reporting alle parti interessate. Questa fase include anche il controllo per la risoluzione di potenziali contraddizioni con la conoscenza precedentemente disponibile.

5 9 Data Mining - Introduzione I due principali obiettivi di alto livello del data mining sono la predizione e la descrizione. La predizione implica l'uso di variabili o campi di un database per predire valori ignoti o futuri di altre variabili di interesse. La descrizione si concentra invece sulla ricerca di pattern interpretabili che descrivano i dati. L'importanza relativa di predizione e descrizione nelle diverse applicazioni del data mining può variare considerevolmente. Nel contesto del KDD la descrizione tende ad essere più importante della predizione, mentre nelle applicazioni di pattern recognition e machine learning (per es. speech recognition) la predizione spesso costituisce l'obiettivo principale 10 Principali Funzioni del Data Mining (1) Classificazione: consiste nell'apprendere una funzione che mappa (classifica) un elemento in una tra molte classi predefinite. Regressione: consiste nell'apprendere una funzione che mappa un elemento in una variabile predittiva a valori reali. La classificazione si distingue dalla regressione per il tipo di output che fornisce. Con la classificazione, l output predetto (l appartenenza ad una classe) è di tipo categorico, cioè assume pochi valori, tipo Si o No, oppure Basso, Medio o Alto. La regressione invece prevede come output un valore numerico che può assumere un numero illimitato (o almeno molto grande) di possibili valori. La classificazione costituisce, insieme alla regressione, il tipo di problema più comune a cui viene applicato il data mining.

6 11 Principali Funzioni del Data Mining (2) Clustering: è un task a carattere tipicamente descrittivo in cui si cerca di identificare un numero finito di categorie o cluster per descrivere i dati. Tali categorie possono essere mutuamente esclusive ed esaustive oppure possono fornire una rappresentazione più ricca con categorie gerarchiche o parzialmente sovrapposte. Aggregazione: le tecniche di aggregazione comprendono metodi per la ricerca di descrizioni compatte per sottoinsiemi di dati. Un esempio semplice potrebbe essere la tabulazione della media e della deviazione standard per tutti i campi. Metodi più sofisticati comprendono la derivazione di regole di aggregazione, le tecniche di visualizzazione e l'identificazione di relazioni funzionali tra le variabili 12 Principali Funzioni del Data Mining (3) Dependency Modeling: consiste nella ricerca di un modello che descriva dipendenze significative tra le variabili. I modelli di dipendenza esistono a due livelli: il livello strutturale del modello specifica, spesso in forma grafica, quali variabili sono localmente dipendenti da altre, mentre il livello quantitativo del modello specifica la forza della dipendenza usando una qualche scala numerica. Per esempio, le reti di dipendenza probabilistica usano l'indipendenza condizionale per specificare l'aspetto strutturale del modello e le probabilità o la correlazione per specificare la forza della dipendenza

7 13 Clustering - Introduzione (1) Partizionare un grande insieme di oggetti in clusters omogenei è un operazione fondamentale in data mining L algoritmo cosiddetto k-means è molto adatto per svolgere quest operazione poiché è efficiente L unico problema è che è di limitata applicabilità, in quanto tratta unicamente dati numerici Vedremo brevemente l algoritmo k-means e una sua estensione per dati categorici 14 Clustering - Introduzione (2) L operazione di clustering è necessaria per diverse funzioni del data mining tra cui la classificazione unsupervised, la segmentazione di grossi data set eterogenei in più piccoli sotto-insiemi omogenei che possono essere facilmente gestiti e analizzati separatamente I metodi di clustering dividono un insieme di oggetti in clusters tali che gli oggetti nello stesso cluster sono più simili tra loro rispetto agli oggetti in cluster diversi secondo qualche criterio predefinito I metodi statistici di clustering usano misure di similarità per partizionare gli oggetti, mentre metodi di clustering concettuale partizionano gli oggetti sulla base dei concetti associati agli oggetti La caratteristica del data mining è che tratta grosse quantità di dati

8 15 Clustering - Introduzione (3) La dimensione dei data set richiede che gli algoritmi usati siano scalabili Spesso gli algoritmi correntemente usati nel data mining non offrono grande scalabilità in quanto sono stati originariamente sviluppati per applicazioni diverse che coinvolgevano data set più piccoli Lo studio di algoritmi scalabili per il data mining è recentemente diventato un importante argomento di ricerca Dopo una breve presentazione dell algoritmo k-means, introdurremo la sua variante k-modes per trattare dati categorici Confrontati con altri metodi di clustering, l algoritmo k-means e le sue varianti mostrano efficienza anche applicati a grossi data set 16 Introduzione (4) L algoritmo k-means minimizza una funzione di costo calcolando i valori medi dei cluster e pertanto il suo impiego è limitato a valori numerici Le applicazioni di data mining coinvolgono spesso dati categorici L approccio tradizionale di conversione di dati categorici in dati numerici non è sempre significativo (ad esempio quando i domini categorici non sono ordinati) L algoritmo k-modes elimina questo incoveniente ed estende il concetto dei k-means anche a dati categorici, preservando l efficienza dell algoritmo k-means Esiste una versione più complessa dell algoritmo k-modes che si chiama k-prototypes che tiene conto di attributi misti, categorici e non.

9 17 Introduzione (4) L algoritmo k-prototypes definisce una misura di dissimilarità mista per attributi categorici e numerici Sia s n la dissimilarità per attributi numerici basata sul quadrato della distanza euclidea Sias c la dissimilarità per attributi categorici definita come il numero di categorie diverse tra due oggetti Definiamo la misura di dissimilarità tra due oggetti come s n +ys c dove y è un peso per bilanciare le due parti ed evitare che un tipo di attributo sia più considerato dell altro Il processo di clustering dell algoritmo k-prototypes è simile a k-means Un problema è la scelta opportuna del peso y 18 Introduzione (5) L algoritmo k-modes è una semplificazione del metodo k-prototypes in quanto tiene conto solo degli attributi categorici In questo caso non abbiamo più bisogno di definire un peso y Nel caso in cui comparissero attributi numerici nel problema occorrerebbe renderli categorici Il maggior vantaggio del metodo consiste nella sua grande scalabilità e pertanto nella possibilità di essere applicato a grandi data set Un altro approccio è stato presentato per applicare l algoritmo k-means a dati categorici previa conversione dei dati categorici in dati numerici In questo metodo molteplici attributi categorici vengono trasformati in attributi binari (usando 0 o 1 per indicare se una categoria è assente o presente)

10 19 Introduzione (5) Quindi gli attributi resi binari vengono considerati numerici e sottoposti all algoritmo k-means Se impiegato nel data mining, questo approccio richiede di gestire un numero molto grande di attributi binari, in quanto i data set impiegati nel data mining spesso hanno attributi categorici con centinaia o migliaia di categorie. Questo aumenta inevitabilmente la complessità e il costo dell algoritmo Inoltre i cluster means, dati da valori reali tra 0 e 1 non indicano le caratteristiche del cluster Per contro l algoritmo k-modes lavora direttamente su attributi categorici e produce i cluster modes che descrivono i clusters e pertanto risutano utili nell interpretazione dei risultati 20 Domini e Attributi Categorici (1) Per dati categorici intendiamo dati che descrivono oggetti che hanno solo attributi categorici Consideriamo che tutti gli attributi numerici siano inseriti in categorie SianoA 1, A 2,,A m m attributi che descrivono uno spazio S e DOM(A 1 ), DOM(A 2 ),, DOM(A m ) i domini degli attributi UndominioDOM(A ) è definito categorico se è finito e non ordinato, per es., per ogni a,b DOM(A ) o a=b, o a b A è chiamato attributo categorico S è uno spazio categorico se tutti gli attributi A 1, A 2,,A m che lo descrivono sono categorici Un valore speciale, denotato con ε, è definito su tutti i domini categorici ed è usato per rappresentare valori mancanti

11 21 Domini e Attributi Categorici (2) Per semplificare la misura di dissimilarità non consideriamo le relazioni di inclusione concettuale tra valori in un dominio categorico (ad esempio il fatto che automobile e veicolo sono due valori categorici in un dominio e concettualmente un automobile è anche un veicolo) 22 Oggetti Categorici (1) Un oggetto categorico X S è logicamente rappresentato come una congiunzione di coppie attributo-valore [A 1 =x 1 ] [A 2 =x 2 ] [A m =x m ] dove x DOM(A ) per 1 m Senza ambiguità rappresentiamo X come un vettore [x 1, x 2,,x m ] Consideriamo che ogni oggetto in S abbia esattamente m attributi. Se il valore di un attributo A non è disponibile per un oggetto X, allora A = ε SiaX = {X 1, X 2,..., X n } un insieme di n oggetti categorici e X S L oggetto X i e rappresentato come [x i1, x i2,,x im ] Diciamo chex i =X k se x i =x k per 1 m La relazione X i =X k non significa che X i ex k sono lo stesso oggetto

12 23 Oggetti Categorici (2) Significa che i 2 oggetti hanno gli stessi valori categorici negli attributi A 1,...,A m Ad esempio 2 pazienti in 1 ospedale possono avere gli stessi valori negli attributi: Sesso, Malattia, Trattamento ma avere diverso Nome, Indirizzo, Eta... che sono attributi non selezionati per il clustering Supponiamo che X sia composto da n oggetti di cui p sono distinti Sia N la cardinalita del prodotto cartesiano DOM(A 1 ) x DOM(A 2 ) x DOM(A m ) Abbiamo p N mentre n puo essere maggiore di N, nel caso che contenga duplicati 24 Algoritmo k-means L algoritmo k-means e costruito su 4 operazioni di base: 1) selezione dei k valori medi iniziali per i cluster 2) calcolo della dissimilarita tra un oggetto e la media di un cluster 3) allocazione di un oggetto nel cluster la cui media e piu vicina all oggetto 4) Ri-calcolo della media del cluster dagli oggetti allocati in esso in modo tale che la dissimilarita intra-cluster sia minimizzata Tranne che la prima operazione, le altre 3 vengono ripetute fino a convergenza

13 25 Algoritmo k-means (2) L essenza dell algoritmo e la minimizzazione della funzione di costo: E = k n l= 1 i= 1 y ( X Q ) i, ld i, dove n e il numero degli oggetti in un data set X, X i X, Q l e la media del cluster l, e y i,l e un elemento di una matrice di partizione Y nxk, d e una misura di dissimilarita generalmente definita dal quadrato della distanza euclidea Esistono diverse varianti dell algoritmo che differiscono nella selezione iniziale dei centri dei cluster, nel calcolo della dissimilarita e nelle strategie per calcolare i centri dei cluster l 26 Algoritmo k-means (3) L algoritmo k-means ha le seguenti importanti proprieta : 1. E efficiente nel gestire grosse quantita di dati. La complessita computazionale dell algoritmo e O(tkmn) dove m e il numero di attributi, n il numero di oggetti, k il numero dei cluster, e t e il numero di iterazioni sull intero data set. In genere, k,m,t << n. 2. Spesso l algoritmo termina in un ottimo locale. Per trovare l ottimo globale possono essere adottate altre tecniche (deterministic annealing, algoritmi genetici) da incorporare al k-means 3. Funziona solo su valori numerici in quanto minimizza una funzione di costo calcolando la media dei clusters 4. I cluster hanno forma convessa. Pertanto e difficile usare il k-means per trovare cluster di forma non convessa

14 27 Algoritmo k-means (5) Una difficolta consiste nel determinare il numero dei cluster Alcune varianti dell algoritmo includono una procedura per cercare il k ottimo L algoritmo k-means e il migliore per il data mining per la sua efficienza con i grossi data set Purtroppo, funzionando solo per valori numerici, limita di molto la sua applicabilita Discuteremo alcune modifiche all algoritmo per renderlo adatto a valori categorici 28 Algoritmo k-modes (1) L algoritmo k-modes e una versione semplificata del k-prototypes In questo algoritmo abbiamo 3 differenze principali rispetto al k-means: 1. Usa una diversa misura di dissimilarita 2. Sostituisce i k-means con i k-modes 3. Usa un metodo basato sulla frequenza per aggiornare i modes

15 29 Misure di dissimilarita (1) Siano X e Y due oggetti categorici descritti da m attributi categorici La misura di dissimilarita tra X e Y puo essere definita dal totale delle differenze tra le corrispondenti categorie di attributi dei due oggetti Minore e il numero degli attributi diversi, piu i due oggetti sono simili Formalmente: d δ m ( X, Y ) δ ( x, y ) ( x, y ) = = 1 0 = 1 ( x = y ) ( x y ) (1) 30 Misure di dissimilarita (2) d(x,y) da uguale importanza ad ogni categoria di un attributo Se teniamo in conto le frequenze delle categorie in un data set, possiamo definire la misura di dissimilarita come: d χ m = 1 ( n ) x + ny ( x, y ) 2 ( X, Y ) = δ n n x y (2) n n y dove e sono il numero di oggetti nel data set che hanno le x categorie x e y per l attributo. d χ 2 ( X, Y ) si dice distanza chi-quadro

16 31 Misure di dissimilarita (3) Questa seconda misura di dissimilarita da piu importanza alle categorie rare piuttosto che a quelle frequenti Per questo viene usata per scoprire cluster di oggetti sotto-rappresentati come ad es. i richiami fraudolenti nei database delle assicurazioni 32 Mode di un set SiaX un insieme di oggetti categorici descritti dagli attributi categorici A 1, A 2,..., A m Un mode di X e un vettore Q=[q 1, q 2,..., q m ] S che minimizza: n (,X) = d ( X i, Q) D Q i= 1 dove X={X 1, X 2,..., X n } e d possono essere definiti come nell eq. (1) o nell eq. (2). Q non e necessariamente un elemento di X

17 33 Ricerca di un Mode per un set n c k, c k, Sia il numero di oggetti aventi la categoria nell attributo A e fr( A = c, X) = k n c k, n la frequenza relativa della categoria c k, in X Teorema: la funzione D(Q,X) e minimizzata se e solo se: f r ( A = q X) f ( A = c X) per q r ck, per ogni = 1,..., m k 34 L algoritmo k-modes (1) Sia{S 1, S 2,..., S k } una partizione di X, dove S l Ø per 1 l k e {Q 1,..., Q k } i modi di {S 1,..., S k } Il costo totale della partizione e definito da: k n l= 1 i= 1 i, l ( X Q ) E = y d, dove y i,l e un elemento di una matrice di partizione Y nx1 e d puo essere definito come in 1 o come in 2 Similmente all algoritmo k-means, l obiettivo del clustering di X e trovare un set {Q 1, Q 2,..., Q k } che minimizzi E. i l

18 35 L algoritmo k-modes (2) L algoritmo k-modes consiste nei passi seguenti : 1. Scegliere k modi iniziali, uno per ogni cluster 2. Allocare un oggetto in un cluster il cui modo sia il piu vicino ad esso, secondo la definizione di d. Aggiornare il modo del cluster dopo ogni allocazione secondo il teorema 3. Dopo che tutti gli oggetti sono stati allocati nei cluster, ripetere il test della dissimilarita degli oggetti in relazione ai modi correnti. Se si trova che un oggetto e piu vicino al modo di un altro cluster piuttosto che al proprio corrente, riallocare l oggetto in quel cluster e aggiornare i modi di entrambi 4. Ripetere il passo 3 finche nessun oggetto cambia cluster dopo un ciclo completo di test sull intero data set 36 L algoritmo k-modes (3) Come l algoritmo k-means, l algoritmo k-modes produce soluzioni localmente ottime che sono dipendenti dai modi iniziali e dall ordine degli oggetti nel data set L impiego di opportuni metodi di scelta dei modi iniziali, puo migliorare il risultato del clustering Vediamo un metodo di selezione dei k modi iniziali. Il metodo si sviluppa nei seguenti passi: 1. Calcolare le frequenze di tutte le categorie per tutti gli attributi e immagazzinarli in un array di categorie in ordine discendente di frequenza come in Fig.1. Qui c i, denota la categoria i dell attributo e f(c i, ) f(c i+1, ) dove f(c i, ) e la frequenza della categoria c i,

19 37 L algoritmo k-modes (4) Fig.1 c c c c 1,1 2,1 3,1 4,1 c c 1,2 2,2 c c c c La figura mostra l array di categorie per un data set con 4 attributi aventi rispettivamente 4, 2, 4, 3 categorie 2. Assegnare le categorie piu frequenti uniformemente ai k modi iniziali. Per l esempio in Fig.1 assumiamo k=3. Assegnamo Q 1 =[q 1,1 =c 1,1, q 1,2 =c 2,2, q 1,3 =c 3,3, q 1,4 =c 1,4 ], Q 2 =[q 2,1 =c 2,1, q 2,2 =c 1,2, q 2,3 =c 4,3, q 2,4 =c 2,4 ], Q 3 =[q 3,1 =c 3,1, q 3,2 =c 2,2, q 3,3 =c 1,3, q 3,4 =c 3,4 ] 1,3 2,3 3,3 4,3 c c c 1,4 2,4 3,4 38 L algoritmo k-modes (4) 3. Incominciamo con Q 1. Scegliamo il record piu simile a Q 1 e sostituiamo Q 1 con il record come primo modo iniziale. Poi scegliamo il record piu simile a Q 2 esostituiamoq 2 con il record come secondo modo iniziale. Continuiamo questo processo fino alla sostituzione di Q k In queste selezioni Q l Q t per l t Il passo 3 serve per evitare il caso di cluster vuoti. L obiettivo di questo metodo di selezione e di rendere distanti i modi iniziali il che puo risultare in un miglior clustering.

20 39 Classificazione e Regressione - Introduzione (1) Classificazione e regressione sono problemi a cui comunemente viene applicato il data mining Tipicamente classificazione e regressione vengono usate come supporto decisionale nel marketing e nel CRM (previsione dei comportamenti di acquisto, identificazione dei target per promozioni, nuovi prodotti...) ma anche per l identificazione di frodi, nella credit risk detection, in problemi di diagnostica medica... Esistono diverse tecniche di data mining per affrontare problemi di classificazione e di regressione e generalmente ogni tecnica dispone di diversi algoritmi. Naturalmente queste tecniche producono modelli diversi ma in generale ogni tecnica genera un modello predittivo basato su dati storici che viene poi impiegato per predire l uscita di nuovi casi. Cio che distingue classificazione e regressione e il tipo di output che viene predetto 40 Classificazione e Regressione - Introduzione (2) La classificazione individua l appartenenza ad una classe. Per esempio un modello potrebbe predire che il potenziale cliente X rispondera ad un offerta. Con la classificazione l output predetto (la classe) e categorico ossia puo assumere solo pochi possibili valori come Si, No, Alto, Medio, Basso... La regressione predice un valore numerico specifico. Ad esempio un modello potrebbe predire che il cliente X ci portera un profitto di Y lire nel corso di un determinato periodo di tempo. Le variabili in uscita possono assumere un numero illimitato (o comunque una grande quantita ) di valori. Spesso queste variabili in uscita sono indicate come continue anche se talvolta non lo sono nel senso matematico del termine (ad esempio l eta di una persona)

21 41 Classificazione e Regressione - Introduzione (3) Classificazione e regressione sono comunque strettamente correlate e spesso risulta semplice trasformare un problema di classificazione in una regressione e viceversa In generale un problema di regressione viene trasformato in un problema di classificazione semplicemente raggruppando i valori continui predetti in categorie discrete, mentre un problema di classificazione viene trasformato in una regressione identificando un punteggio o probabilita per ogni categoria ed assegnando un range di punteggi ad ogni categoria Nonostante esista la possibilita di convertire classificazione in regressione e viceversa e importante osservare che, a livello di strumenti, i risultati piu accurati si ottengono con il matching di tool e task 42 Tecniche di predictive modeling (1) Esistono 4 tecniche che attualmente dominano il mercato degli strumenti per classificazione e regressione: 1) Decision Tree: e una tecnica che genera una rappresentazione grafica ad albero del modello che produce. Generalmente e accompagnata da regole della forma IF condition THEN outcome che costutuiscono la versione testuale del modello. Gli algoritmi di Decision Tree comunemente implementati comprendono Chisquared Automatic Interaction Detection (CHAID), Classification and Regression Trees (CART), C4.5 e C5.0. Tutti questi sono estremamente adatti alla classificazione, alcuni sono impiegabili anche per la regressione.

22 43 Tecniche di predictive modeling (2) 2) Neural networks: sono tra i piu complicati algoritmi di classificazione e regressione. Vengono usate comunemente nell identificazione di frodi dove occorre un algoritmo che rilevi accuratamente ogni eccezione e che funzioni in tempo reale. Infatti, sebbene la fase di training di una rete neurale possa essere time consuming, una rete allenata puo effettuare previsioni su nuovi casi molto rapidamente. L output di una rete neurale e puramente predittivo e spesso difficile da comprendere e da impiegare. Queste difficolta spesso scoraggiano l uso di reti neurali nel supporto decisionale. 44 Tecniche di predictive modeling (3) 3) Naive-Bayes: e una tecnica di classificazione sia predittiva che descrittiva. Analizza la relazione tra ogni variabile indipendente e la variabile dipendente per derivare una probabilita condizionata per ogni relazione. Quando si analizza un nuovo caso, viene fatta una previsione combinando gli effetti delle variabili indipendenti sulle variabili dipendenti (l uscita che viene predetta). Per esempio consideriamo il problema di cercare di predire il turnover dei clienti dove è noto che il 75% dei clienti con fatturazioni mensili tra $400 e $500 ha abbandonato e il 68% dei clienti che ha fatto più di 4 chiamate al customer service ha abbandonato. Applicando la tecnica a un cliente con fatturazione mensile di $480 e che ha fatto 5 chiamate al customer service, Naive Bayes predice che il cliente ha una alta probabilità di abbandono.

23 45 Tecniche di predictive modeling (3) In teoria i risultati sarebbero corretti solo se le variabili indipendenti fossero statisticamente indipendenti l una dall altra. Questo spesso non e vero ma la pratica dimostra che Naive Bayes fornisce buoni risultati e la sua semplicita e velocita ne fanno uno strumento ideale per modellare ed investigare relazioni semplici 46 Tecniche di predictive modeling (4) 4) K-nearest neighbor (K-NN): differisce dalle precedenti tecniche nel fatto che i dati di training non sono usati per creare il modello ma costituiscono essi stessi il modello. Quando si presenta un nuovo caso, l algoritmo scandisce tutti i dati per trovare un sottoinsieme di casi che sono piu vicini ad esso e li usa per predire l uscita. Ci sono due aspetti principali nell algoritmo k-nn: il numero di casi piu vicini da usare (k) e la scelta di una metrica per misurare cosa si intende per piu vicini. Per classificare un nuovo caso, l algoritmo calcola la distanza dal nuovo caso ad ogni caso nel training data. L uscita prevista per il nuovo caso corrisponde all uscita predominante nei k casi piu vicini del training set.

24 47 Tecniche di predictive modeling (5) Tutte le tecniche menzionate possono generare modelli predittivi. Alcune di esse forniscono anche modelli descrittivi che consentono di comprendere piu a fondo le relazioni tra i dati, indipendentemente dalla natura predittiva del modello. Ad esempio questa informazione potrebbe essere nella forma: il guadagno e il fattore piu importante per determinare se qualcuno e a un buon livello di credit risk. Tale informazione descrittiva puo essere presentata in forma testuale o attraverso tool di visualizzazione. 48 Esempi di classificazione lineare e non lineare Debito Debito Prestito NON concesso zona di Prestito NON concesso zona di Prestito concesso Prestito concesso CLASSIFICAZIONE LINEARE Introito NEAREST NEIGHBOR Introito Debito Prestito NON concesso x x x x Prestito concesso RETI NEURALI Introito

25 49 Decision Tree I dati in input rappresentano il training set e sono costituiti da molteplici esempi (records), ognuno caratterizzato da diversi attributi (features) Ogni esempio e caratterizzato dall appartenenza ad una classe (class label) Obiettivo della classificazione e di analizzare i dati in input e sviluppare un accurato modello per ogni classe tramite il quale sia possibile classificare i futuri dati di test per cui i class label sono ignoti I decision tree sono relativamente veloci, confrontati con altri metodi di classificazione e sono di semplice interpretazione: essi possono facilmente essere convertiti in insiemi di regole di classificazione e in query SQL per accedere ai database 50 Esempio ETA SALARIO CLASSE ETA <= B C SALARIO <=40 SALARIO <= B C C B C B B Decision rule per la prima foglia a sin: B IF eta <=35 AND salario<=40 THEN classe=c

26 51 Decision Tree Classification La maggior parte dei classificatori ad albero (es. CART, C 4.5) realizzano la classificazione in 2 fasi: Tree Building e Tree Pruning Tree Building: in questa fase si costruisce un primo decision tree partizionando ripetutamente i dati del training set. Il training set e suddiviso in due o piu partizioni usando un attributo (esistono algoritmi che usano anche attributi multipli). Questo processo viene ripetuto ricorsivamente finche tutti gli esempi in una partizione appartengono ad una classe. Tree Pruning: l albero costruito nella prima fase classifica completamente il training data set. Questo implica che vengono creati rami anche per il rumore e le fluttuazioni statistiche. Questi rami possono condurre a errori nella classificazione dei dati di test. La fase di pruning ha l obiettivo di rimuovere questi rami dal decision tree selezionando il sotto-albero con il minimo tasso di errore stimato 52 Tree Building Algorithm MakeTree (Training Data T) Partition (T); Partition (Data S) if (all points in S are in the same class) then return; Evaluate splits for each attribute A Use best split found to partition S into S 1 and S 2 ; Partition (S 1 ); Partition (S 2 );

di4g: Uno strumento di clustering per l analisi integrata di dati geologici

di4g: Uno strumento di clustering per l analisi integrata di dati geologici di4g: Uno strumento di clustering per l analisi integrata di dati geologici Alice Piva 1, Giacomo Gamberoni 1, Denis Ferraretti 1, Evelina Lamma 2 1 intelliware snc, via J.F.Kennedy 15, 44122 Ferrara,

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Sistemi di supporto alle decisioni Ing. Valerio Lacagnina

Sistemi di supporto alle decisioni Ing. Valerio Lacagnina Cosa è il DSS L elevato sviluppo dei personal computer, delle reti di calcolatori, dei sistemi database di grandi dimensioni, e la forte espansione di modelli basati sui calcolatori rappresentano gli sviluppi

Dettagli

Esercizi Capitolo 5 - Alberi

Esercizi Capitolo 5 - Alberi Esercizi Capitolo 5 - Alberi Alberto Montresor 19 Agosto, 2014 Alcuni degli esercizi che seguono sono associati alle rispettive soluzioni. Se il vostro lettore PDF lo consente, è possibile saltare alle

Dettagli

white paper La Process Intelligence migliora le prestazioni operative del settore assicurativo

white paper La Process Intelligence migliora le prestazioni operative del settore assicurativo white paper La Process Intelligence migliora le prestazioni operative del settore assicurativo White paper La Process Intelligence migliora le prestazioni operative del settore assicurativo Pagina 2 Sintesi

Dettagli

Cross Software ltd Malta Pro.Sy.T Srl. Il gestionale come l'avete sempre sognato... Pag. 1

Cross Software ltd Malta Pro.Sy.T Srl. Il gestionale come l'avete sempre sognato... Pag. 1 Il gestionale come l'avete sempre sognato... Pag. 1 Le funzionalità di X-Cross La sofisticata tecnologia di CrossModel, oltre a permettere di lavorare in Internet come nel proprio ufficio e ad avere una

Dettagli

Esercizi per il corso di Algoritmi e Strutture Dati

Esercizi per il corso di Algoritmi e Strutture Dati 1 Esercizi per il corso di Algoritmi e Strutture Dati Esercizi sulla Tecnica Divide et Impera N.B. Tutti gli algoritmi vanno scritti in pseudocodice (non in Java, né in C++, etc. ). Di tutti gli algoritmi

Dettagli

Relazione sul data warehouse e sul data mining

Relazione sul data warehouse e sul data mining Relazione sul data warehouse e sul data mining INTRODUZIONE Inquadrando il sistema informativo aziendale automatizzato come costituito dall insieme delle risorse messe a disposizione della tecnologia,

Dettagli

Stefano Bonetti Framework per la valutazione progressiva di interrogazioni di localizzazione

Stefano Bonetti Framework per la valutazione progressiva di interrogazioni di localizzazione Analisi del dominio: i sistemi per la localizzazione Definizione e implementazione del framework e risultati sperimentali e sviluppi futuri Tecniche di localizzazione Triangolazione Analisi della scena

Dettagli

Indicizzazione terza parte e modello booleano

Indicizzazione terza parte e modello booleano Reperimento dell informazione (IR) - aa 2014-2015 Indicizzazione terza parte e modello booleano Gruppo di ricerca su Sistemi di Gestione delle Informazioni (IMS) Dipartimento di Ingegneria dell Informazione

Dettagli

Ricerca Operativa Branch-and-Bound per problemi di Programmazione Lineare Intera

Ricerca Operativa Branch-and-Bound per problemi di Programmazione Lineare Intera Ricerca Operativa Branch-and-Bound per problemi di Programmazione Lineare Intera L. De Giovanni AVVERTENZA: le note presentate di seguito non hanno alcuna pretesa di completezza, né hanno lo scopo di sostituirsi

Dettagli

Rappresentazione dei numeri in un calcolatore

Rappresentazione dei numeri in un calcolatore Corso di Calcolatori Elettronici I A.A. 2010-2011 Rappresentazione dei numeri in un calcolatore Lezione 2 Università degli Studi di Napoli Federico II Facoltà di Ingegneria Rappresentazione dei numeri

Dettagli

ORACLE BUSINESS INTELLIGENCE STANDARD EDITION ONE A WORLD CLASS PERFORMANCE

ORACLE BUSINESS INTELLIGENCE STANDARD EDITION ONE A WORLD CLASS PERFORMANCE ORACLE BUSINESS INTELLIGENCE STANDARD EDITION ONE A WORLD CLASS PERFORMANCE Oracle Business Intelligence Standard Edition One è una soluzione BI completa, integrata destinata alle piccole e medie imprese.oracle

Dettagli

Elementi di Statistica

Elementi di Statistica Elementi di Statistica Contenuti Contenuti di Statistica nel corso di Data Base Elementi di statistica descrittiva: media, moda, mediana, indici di dispersione Introduzione alle variabili casuali e alle

Dettagli

Business Intelligence. Il data mining in

Business Intelligence. Il data mining in Business Intelligence Il data mining in L'analisi matematica per dedurre schemi e tendenze dai dati storici esistenti. Revenue Management. Previsioni di occupazione. Marketing. Mail diretto a clienti specifici.

Dettagli

Problem Management. Obiettivi. Definizioni. Responsabilità. Attività. Input

Problem Management. Obiettivi. Definizioni. Responsabilità. Attività. Input Problem Management Obiettivi Obiettivo del Problem Management e di minimizzare l effetto negativo sull organizzazione degli Incidenti e dei Problemi causati da errori nell infrastruttura e prevenire gli

Dettagli

La Borsa delle idee Innovare: il reale valore dei social network

La Borsa delle idee Innovare: il reale valore dei social network La Borsa delle idee Innovare: il reale valore dei social network Di cosa parliamo? La Borsa delle Idee è la soluzione per consentire alle aziende di coinvolgere attivamente le persone (dipendenti, clienti,

Dettagli

Minimizzazione di Reti Logiche Combinatorie Multi-livello

Minimizzazione di Reti Logiche Combinatorie Multi-livello Minimizzazione di Reti Logiche Combinatorie Multi-livello Maurizio Palesi Maurizio Palesi 1 Introduzione Obiettivo della sintesi logica: ottimizzazione delle cifre di merito area e prestazioni Prestazioni:

Dettagli

Supporto alle decisioni e strategie commerciali/mercati/prodotti/forza vendita;

Supporto alle decisioni e strategie commerciali/mercati/prodotti/forza vendita; .netbin. è un potentissimo strumento SVILUPPATO DA GIEMME INFORMATICA di analisi dei dati con esposizione dei dati in forma numerica e grafica con un interfaccia visuale di facile utilizzo, organizzata

Dettagli

Estensione di un servizo di messaggistica per telefonia mobile (per una società di agenti TuCSoN)

Estensione di un servizo di messaggistica per telefonia mobile (per una società di agenti TuCSoN) Estensione di un servizo di messaggistica per telefonia mobile (per una società di agenti TuCSoN) System Overview di Mattia Bargellini 1 CAPITOLO 1 1.1 Introduzione Il seguente progetto intende estendere

Dettagli

Algebra Relazionale. algebra relazionale

Algebra Relazionale. algebra relazionale Algebra Relazionale algebra relazionale Linguaggi di Interrogazione linguaggi formali Algebra relazionale Calcolo relazionale Programmazione logica linguaggi programmativi SQL: Structured Query Language

Dettagli

COME FRODE. la possibilità propri dati. brevissimo. Reply www.reply.eu

COME FRODE. la possibilità propri dati. brevissimo. Reply www.reply.eu FRAUD MANAGEMENT. COME IDENTIFICARE E COMB BATTERE FRODI PRIMA CHE ACCADANO LE Con una visione sia sui processi di business, sia sui sistemi, Reply è pronta ad offrire soluzioni innovative di Fraud Management,

Dettagli

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testualilezione

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testualilezione Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testualilezione 2 Le principali tecniche di analisi testuale Facendo riferimento alle tecniche di data mining,

Dettagli

Maurizio Vichi Sapienza Università di Roma

Maurizio Vichi Sapienza Università di Roma Percorsi didattici, interdisciplinari ed innovativi per la Statistica Maurizio Vichi Sapienza Università di Roma Presidente Federazione Europea delle Società Nazionali di Statistica Scuola Estiva di Matematica

Dettagli

Quando A e B coincidono una coppia ordinata é determinata anche dalla loro posizione.

Quando A e B coincidono una coppia ordinata é determinata anche dalla loro posizione. Grafi ed Alberi Pag. /26 Grafi ed Alberi In questo capitolo richiameremo i principali concetti di due ADT che ricorreranno puntualmente nel corso della nostra trattazione: i grafi e gli alberi. Naturale

Dettagli

Esercizi sull Association Analysis

Esercizi sull Association Analysis Data Mining: Esercizi sull Association Analysis 1 Esercizi sull Association Analysis 1. Si consideri il mining di association rule da un dataset T di transazioni, rispetto a delle soglie minsup e minconf.

Dettagli

Razionalità organizzativa e struttura

Razionalità organizzativa e struttura Un organizzazione è sempre compresa in sistemi più ampi Alcune parti dell organizzazione inevitabilmente sono interdipendenti con altre organizzazioni non subordinate e fuori dalle possibilità di controllo

Dettagli

VC-dimension: Esempio

VC-dimension: Esempio VC-dimension: Esempio Quale è la VC-dimension di. y b = 0 f() = 1 f() = 1 iperpiano 20? VC-dimension: Esempio Quale è la VC-dimension di? banale. Vediamo cosa succede con 2 punti: 21 VC-dimension: Esempio

Dettagli

UNIVERSITA DI PISA FACOLTA DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA ELETTRONICA ANNO ACCADEMICO 2004-2005 TESI DI LAUREA

UNIVERSITA DI PISA FACOLTA DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA ELETTRONICA ANNO ACCADEMICO 2004-2005 TESI DI LAUREA UNIVERSITA DI PISA FACOLTA DI INGEGNERIA CORSO DI LAUREA IN INGEGNERIA ELETTRONICA ANNO ACCADEMICO 2004-2005 TESI DI LAUREA SVILUPPO DI METODI DECONVOLUTIVI PER L INDIVIDUAZIONE DI SORGENTI INDIPENDENTI

Dettagli

Realizzare un architettura integrata di Business Intelligence

Realizzare un architettura integrata di Business Intelligence Realizzare un architettura integrata di Business Intelligence Un sistema integrato di Business Intelligence consente all azienda customer oriented una gestione efficace ed efficiente della conoscenza del

Dettagli

White Paper. Operational DashBoard. per una Business Intelligence. in real-time

White Paper. Operational DashBoard. per una Business Intelligence. in real-time White Paper Operational DashBoard per una Business Intelligence in real-time Settembre 2011 www.axiante.com A Paper Published by Axiante CAMBIARE LE TRADIZIONI C'è stato un tempo in cui la Business Intelligence

Dettagli

Energy Data Management System (EDMS): la soluzione software per una gestione efficiente dell energia secondo lo standard ISO 50001

Energy Data Management System (EDMS): la soluzione software per una gestione efficiente dell energia secondo lo standard ISO 50001 Energy Data Management System (EDMS): la soluzione software per una gestione efficiente dell energia secondo lo standard ISO 50001 Oggi più che mai, le aziende italiane sentono la necessità di raccogliere,

Dettagli

Business Intelligence

Business Intelligence aggregazione dati Business Intelligence analytic applications query d a t a w a r e h o u s e aggregazione budget sales inquiry data mining Decision Support Systems MIS ERP data management Data Modeling

Dettagli

Pagine romane (I-XVIII) OK.qxd:romane.qxd 7-09-2009 16:23 Pagina VI. Indice

Pagine romane (I-XVIII) OK.qxd:romane.qxd 7-09-2009 16:23 Pagina VI. Indice Pagine romane (I-XVIII) OK.qxd:romane.qxd 7-09-2009 16:23 Pagina VI Prefazione Autori XIII XVII Capitolo 1 Sistemi informativi aziendali 1 1.1 Introduzione 1 1.2 Modello organizzativo 3 1.2.1 Sistemi informativi

Dettagli

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi :

Università del Piemonte Orientale. Corso di laurea in biotecnologia. Corso di Statistica Medica. Analisi dei dati quantitativi : Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi dei dati quantitativi : Confronto tra due medie Università del Piemonte Orientale Corso di laurea in

Dettagli

Sistemi avanzati di gestione dei Sistemi Informativi

Sistemi avanzati di gestione dei Sistemi Informativi Esperti nella gestione dei sistemi informativi e tecnologie informatiche Sistemi avanzati di gestione dei Sistemi Informativi Docente: Email: Sito: Eduard Roccatello eduard@roccatello.it http://www.roccatello.it/teaching/gsi/

Dettagli

I.Stat Guida utente Versione 1.7 Dicembre 2010

I.Stat Guida utente Versione 1.7 Dicembre 2010 I.Stat Guida utente Versione 1.7 Dicembre 2010 1 Sommario INTRODUZIONE 3 I concetti principali di I.Stat 4 Organizzazione dei dati 4 Ricerca 5 GUIDA UTENTE 6 Per iniziare 6 Selezione della lingua 7 Individuazione

Dettagli

IFRS 2 Pagamenti basati su azioni

IFRS 2 Pagamenti basati su azioni Pagamenti basati su azioni International Financial Reporting Standard 2 Pagamenti basati su azioni FINALITÀ 1 Il presente IRFS ha lo scopo di definire la rappresentazione in bilancio di una entità che

Dettagli

EQUAZIONI non LINEARI

EQUAZIONI non LINEARI EQUAZIONI non LINEARI Francesca Pelosi Dipartimento di Matematica, Università di Roma Tor Vergata CALCOLO NUMERICO e PROGRAMMAZIONE http://www.mat.uniroma2.it/ pelosi/ EQUAZIONI non LINEARI p.1/44 EQUAZIONI

Dettagli

I Valori del Manifesto Agile sono direttamente applicabili a Scrum:!

I Valori del Manifesto Agile sono direttamente applicabili a Scrum:! Scrum descrizione I Principi di Scrum I Valori dal Manifesto Agile Scrum è il framework Agile più noto. E la sorgente di molte delle idee che si trovano oggi nei Principi e nei Valori del Manifesto Agile,

Dettagli

ALGEBRA: LEZIONI DAL 13 OTTOBRE AL 3 NOVEMBRE

ALGEBRA: LEZIONI DAL 13 OTTOBRE AL 3 NOVEMBRE ALGEBRA: LEZIONI DAL 13 OTTOBRE AL 3 NOVEMBRE 1 DIPENDENZA E INDIPENDENZA LINEARE Se ho alcuni vettori v 1, v 2,, v n in uno spazio vettoriale V, il sottospazio 1 W = v 1,, v n di V da loro generato è

Dettagli

Grandi dimensioni e dimensioni variabili

Grandi dimensioni e dimensioni variabili Grandi dimensioni e dimensioni variabili aprile 2012 1 Questo capitolo studia alcuni ulteriori aspetti importanti e caratteristici della gestione delle dimensioni in particolare, delle grandi dimensioni

Dettagli

STUDIO DI SETTORE SM43U

STUDIO DI SETTORE SM43U ALLEGATO 3 NOTA TECNICA E METODOLOGICA STUDIO DI SETTORE SM43U NOTA TECNICA E METODOLOGICA CRITERI PER LA COSTRUZIONE DELLO STUDIO DI SETTORE Di seguito vengono esposti i criteri seguiti per la costruzione

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello della Web Application 5 3 Struttura della web Application 6 4 Casi di utilizzo della Web

Dettagli

Introduzione ad Access

Introduzione ad Access Introduzione ad Access Luca Bortolussi Dipartimento di Matematica e Informatica Università degli studi di Trieste Access E un programma di gestione di database (DBMS) Access offre: un supporto transazionale

Dettagli

Analisi statistica di dati biomedici Analysis of biologicalsignals

Analisi statistica di dati biomedici Analysis of biologicalsignals Analisi statistica di dati biomedici Analysis of biologicalsignals II Parte Verifica delle ipotesi (a) Agostino Accardo (accardo@units.it) Master in Ingegneria Clinica LM in Neuroscienze 2013-2014 e segg.

Dettagli

GEOMETRIA I Corso di Geometria I (seconda parte)

GEOMETRIA I Corso di Geometria I (seconda parte) Corso di Geometria I (seconda parte) anno acc. 2009/2010 Cambiamento del sistema di riferimento in E 3 Consideriamo in E 3 due sistemi di riferimento ortonormali R e R, ed un punto P (x, y, z) in R. Lo

Dettagli

BRM. Tutte le soluzioni. per la gestione delle informazioni aziendali. BusinessRelationshipManagement

BRM. Tutte le soluzioni. per la gestione delle informazioni aziendali. BusinessRelationshipManagement BRM BusinessRelationshipManagement Tutte le soluzioni per la gestione delle informazioni aziendali - Business Intelligence - Office Automation - Sistemi C.R.M. I benefici di BRM Garantisce la sicurezza

Dettagli

VALORE DELLE MERCI SEQUESTRATE

VALORE DELLE MERCI SEQUESTRATE La contraffazione in cifre: NUOVA METODOLOGIA PER LA STIMA DEL VALORE DELLE MERCI SEQUESTRATE Roma, Giugno 2013 Giugno 2013-1 Il valore economico dei sequestri In questo Focus si approfondiscono alcune

Dettagli

Algoritmo euclideo, massimo comun divisore ed equazioni diofantee

Algoritmo euclideo, massimo comun divisore ed equazioni diofantee Algoritmo euclideo, massimo comun divisore ed equazioni diofantee Se a e b sono numeri interi, si dice che a divide b, in simboli: a b, se e solo se esiste c Z tale che b = ac. Si può subito notare che:

Dettagli

ANALISI DEI DATI CON SPSS

ANALISI DEI DATI CON SPSS STRUMENTI E METODI PER LE SCIENZE SOCIALI Claudio Barbaranelli ANALISI DEI DATI CON SPSS II. LE ANALISI MULTIVARIATE ISBN 978-88-7916-315-9 Copyright 2006 Via Cervignano 4-20137 Milano Catalogo: www.lededizioni.com

Dettagli

A i è un aperto in E. i=1

A i è un aperto in E. i=1 Proposizione 1. A è aperto se e solo se A c è chiuso. Dimostrazione. = : se x o A c, allora x o A = A o e quindi esiste r > 0 tale che B(x o, r) A; allora x o non può essere di accumulazione per A c. Dunque

Dettagli

Universita' di Ferrara Dipartimento di Matematica e Informatica. Algoritmi e Strutture Dati. Rappresentazione concreta di insiemi e Hash table

Universita' di Ferrara Dipartimento di Matematica e Informatica. Algoritmi e Strutture Dati. Rappresentazione concreta di insiemi e Hash table Universita' di Ferrara Dipartimento di Matematica e Informatica Algoritmi e Strutture Dati Rappresentazione concreta di insiemi e Hash table Copyright 2006-2015 by Claudio Salati. Lez. 9a 1 Rappresentazione

Dettagli

EQUAZIONI E DISEQUAZIONI POLINOMIALI E COLLEGAMENTI CON LA GEOMETRIA ELEMENTARE

EQUAZIONI E DISEQUAZIONI POLINOMIALI E COLLEGAMENTI CON LA GEOMETRIA ELEMENTARE EQUAZIONI E DISEQUAZIONI POLINOMIALI E COLLEGAMENTI CON LA GEOMETRIA ELEMENTARE 1. EQUAZIONI Definizione: un equazione è un uguaglianza tra due espressioni letterali (cioè in cui compaiono numeri, lettere

Dettagli

Business Process Management

Business Process Management Corso di Certificazione in Business Process Management Progetto Didattico 2015 con la supervisione scientifica del Dipartimento di Informatica Università degli Studi di Torino Responsabile scientifico

Dettagli

CAPITOLO 3. Elementi fondamentali della struttura organizzativa

CAPITOLO 3. Elementi fondamentali della struttura organizzativa CAPITOLO 3 Elementi fondamentali della struttura organizzativa Agenda La struttura organizzativa Le esigenze informative Tipologia di strutture Struttura funzionale Struttura divisionale Struttura per

Dettagli

Teoria degli insiemi

Teoria degli insiemi Teoria degli insiemi pag 1 Easy Matematica di dolfo Scimone Teoria degli insiemi Il concetto di insieme si assume come primitivo, cioè non riconducibile a concetti precedentemente definiti. Sinonimi di

Dettagli

Gestione delle Architetture e dei Servizi IT con ADOit. Un Prodotto della Suite BOC Management Office

Gestione delle Architetture e dei Servizi IT con ADOit. Un Prodotto della Suite BOC Management Office Gestione delle Architetture e dei Servizi IT con ADOit Un Prodotto della Suite BOC Management Office Controllo Globale e Permanente delle Architetture IT Aziendali e dei Processi IT: IT-Governance Definire

Dettagli

un occhio al passato per il tuo business futuro

un occhio al passato per il tuo business futuro 2 3 5 7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 un occhio al passato per il tuo business futuro BUSINESS DISCOVERY Processi ed analisi per aziende virtuose Che cos è La Business Discovery è un insieme

Dettagli

Preprocessamento dei Dati

Preprocessamento dei Dati Preprocessamento dei Dati Raramente i dati sperimentali sono pronti per essere utilizzati immediatamente per le fasi successive del processo di identificazione, a causa di: Offset e disturbi a bassa frequenza

Dettagli

Ricapitoliamo. Ricapitoliamo

Ricapitoliamo. Ricapitoliamo Ricapitoliamo Finora ci siamo concentrati sui processi computazionali e sul ruolo che giocano le procedure nella progettazione dei programmi In particolare, abbiamo visto: Come usare dati primitivi (numeri)

Dettagli

Teoria dei giochi Gioco Interdipendenza strategica

Teoria dei giochi Gioco Interdipendenza strategica Teoria dei giochi Gioco Interdipendenza strategica soggetti decisionali autonomi con obiettivi (almeno parzialmente) contrapposti guadagno di ognuno dipende dalle scelte sue e degli altri Giocatori razionali

Dettagli

SCHEDA DI PROGRAMMAZIONE DELLE ATTIVITA EDUCATIVE DIDATTICHE. Disciplina: Matematica Classe: 5A sia A.S. 2014/15 Docente: Rosito Franco

SCHEDA DI PROGRAMMAZIONE DELLE ATTIVITA EDUCATIVE DIDATTICHE. Disciplina: Matematica Classe: 5A sia A.S. 2014/15 Docente: Rosito Franco Disciplina: Matematica Classe: 5A sia A.S. 2014/15 Docente: Rosito Franco ANALISI DI SITUAZIONE - LIVELLO COGNITIVO La classe ha dimostrato fin dal primo momento grande attenzione e interesse verso gli

Dettagli

Dimensione di uno Spazio vettoriale

Dimensione di uno Spazio vettoriale Capitolo 4 Dimensione di uno Spazio vettoriale 4.1 Introduzione Dedichiamo questo capitolo ad un concetto fondamentale in algebra lineare: la dimensione di uno spazio vettoriale. Daremo una definizione

Dettagli

RELAZIONE TRA DUE VARIABILI QUANTITATIVE

RELAZIONE TRA DUE VARIABILI QUANTITATIVE RELAZIONE TRA DUE VARIABILI QUANTITATIVE Quando si considerano due o più caratteri (variabili) si possono esaminare anche il tipo e l'intensità delle relazioni che sussistono tra loro. Nel caso in cui

Dettagli

IT FINANCIAL MANAGEMENT

IT FINANCIAL MANAGEMENT IT FINANCIAL MANAGEMENT L IT Financial Management è una disciplina per la pianificazione e il controllo economico-finanziario, di carattere sia strategico sia operativo, basata su un ampio insieme di metodologie

Dettagli

Data Alignment and (Geo)Referencing (sometimes Registration process)

Data Alignment and (Geo)Referencing (sometimes Registration process) Data Alignment and (Geo)Referencing (sometimes Registration process) All data aquired from a scan position are refered to an intrinsic reference system (even if more than one scan has been performed) Data

Dettagli

C.A.P.A.C. Politecnico del Commercio e del Turismo

C.A.P.A.C. Politecnico del Commercio e del Turismo AVVISO FOR.TE 3/12 OFFERTA FORMATIVA CAPAC POLITECNICO DEL COMMERCIO E DEL TURISMO CF4819_2012 Sicurezza: formazione specifica basso rischio - aggiornamento 4 ore Lavoratori che devono frequentare il modulo

Dettagli

Logica fuzzy e calcolo delle probabilità: due facce della stessa medaglia?

Logica fuzzy e calcolo delle probabilità: due facce della stessa medaglia? Logica fuzzy e calcolo delle probabilità: due facce della stessa medaglia? Danilo Pelusi 1 Gianpiero Centorame 2 Sunto: Il seguente articolo illustra le possibili analogie e differenze tra il calcolo delle

Dettagli

ALGEBRA I: CARDINALITÀ DI INSIEMI

ALGEBRA I: CARDINALITÀ DI INSIEMI ALGEBRA I: CARDINALITÀ DI INSIEMI 1. CONFRONTO DI CARDINALITÀ E chiaro a tutti che esistono insiemi finiti cioè con un numero finito di elementi) ed insiemi infiniti. E anche chiaro che ogni insieme infinito

Dettagli

Configuration Management

Configuration Management Configuration Management Obiettivi Obiettivo del Configuration Management è di fornire un modello logico dell infrastruttura informatica identificando, controllando, mantenendo e verificando le versioni

Dettagli

IDENTIFICAZIONE dei MODELLI e ANALISI dei DATI. Lezione 40: Filtro di Kalman - introduzione. Struttura ricorsiva della soluzione.

IDENTIFICAZIONE dei MODELLI e ANALISI dei DATI. Lezione 40: Filtro di Kalman - introduzione. Struttura ricorsiva della soluzione. IDENTIFICAZIONE dei MODELLI e ANALISI dei DATI Lezione 40: Filtro di Kalman - introduzione Cenni storici Filtro di Kalman e filtro di Wiener Formulazione del problema Struttura ricorsiva della soluzione

Dettagli

Introduzione al GIS (Geographic Information System)

Introduzione al GIS (Geographic Information System) Introduzione al GIS (Geographic Information System) Sommario 1. COS E IL GIS?... 3 2. CARATTERISTICHE DI UN GIS... 3 3. COMPONENTI DI UN GIS... 4 4. CONTENUTI DI UN GIS... 5 5. FASI OPERATIVE CARATTERIZZANTI

Dettagli

Parte 2. Determinante e matrice inversa

Parte 2. Determinante e matrice inversa Parte. Determinante e matrice inversa A. Savo Appunti del Corso di Geometria 013-14 Indice delle sezioni 1 Determinante di una matrice, 1 Teorema di Cramer (caso particolare), 3 3 Determinante di una matrice

Dettagli

AA 2006-07 LA RICORSIONE

AA 2006-07 LA RICORSIONE PROGRAMMAZIONE AA 2006-07 LA RICORSIONE AA 2006-07 Prof.ssa A. Lanza - DIB 1/18 LA RICORSIONE Il concetto di ricorsione nasce dalla matematica Una funzione matematica è definita ricorsivamente quando nella

Dettagli

Data warehouse.stat Guida utente

Data warehouse.stat Guida utente Data warehouse.stat Guida utente Versione 3.0 Giugno 2013 1 Sommario INTRODUZIONE 3 I concetti principali 4 Organizzazione dei dati 4 Ricerca 5 Il browser 5 GUIDA UTENTE 6 Per iniziare 6 Selezione della

Dettagli

Università degli Studi di Parma. Facoltà di Scienze MM. FF. NN. Corso di Laurea in Informatica

Università degli Studi di Parma. Facoltà di Scienze MM. FF. NN. Corso di Laurea in Informatica Università degli Studi di Parma Facoltà di Scienze MM. FF. NN. Corso di Laurea in Informatica A.A. 2007-08 CORSO DI INGEGNERIA DEL SOFTWARE Prof. Giulio Destri http://www.areasp.com (C) 2007 AreaSP for

Dettagli

IMPORTANZA DELLE PREVISIONI TECNOLOGICHE NEI PROCESSI PRODUTTIVI 1

IMPORTANZA DELLE PREVISIONI TECNOLOGICHE NEI PROCESSI PRODUTTIVI 1 1. Introduzione IMPORTANZA DELLE PREVISIONI TECNOLOGICHE NEI PROCESSI PRODUTTIVI 1 Ottobre 1970 Caratteristica saliente dell'epoca odierna sembra essere quella della transitorietà. E- spansione, andamento

Dettagli

Principali funzionalità di Tustena CRM

Principali funzionalità di Tustena CRM Principali funzionalità di Tustena CRM Importazione dati o Importazione da file dati di liste sequenziali per aziende, contatti, lead, attività e prodotti. o Deduplica automatica dei dati importati con

Dettagli

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile

Corso di Informatica Generale (C. L. Economia e Commercio) Ing. Valerio Lacagnina Rappresentazione in virgola mobile Problemi connessi all utilizzo di un numero di bit limitato Abbiamo visto quali sono i vantaggi dell utilizzo della rappresentazione in complemento alla base: corrispondenza biunivoca fra rappresentazione

Dettagli

MARKETING INTELLIGENCE SUL WEB:

MARKETING INTELLIGENCE SUL WEB: Via Durini, 23-20122 Milano (MI) Tel.+39.02.77.88.931 Fax +39.02.76.31.33.84 Piazza Marconi,15-00144 Roma Tel.+39.06.32.80.37.33 Fax +39.06.32.80.36.00 www.valuelab.it valuelab@valuelab.it MARKETING INTELLIGENCE

Dettagli

IL PROBLEMA DELLO SHORTEST SPANNING TREE

IL PROBLEMA DELLO SHORTEST SPANNING TREE IL PROBLEMA DELLO SHORTEST SPANNING TREE n. 1 - Formulazione del problema Consideriamo il seguente problema: Abbiamo un certo numero di città a cui deve essere fornito un servizio, quale può essere l energia

Dettagli

((e ita e itb )h(t)/it)dt. z k p(dz) + r n (t),

((e ita e itb )h(t)/it)dt. z k p(dz) + r n (t), SINTESI. Una classe importante di problemi probabilistici e statistici é quella della stima di caratteristiche relative ad un certo processo aleatorio. Esistono svariate tecniche di stima dei parametri

Dettagli

Analisi per tutti. Panoramica. Considerazioni principali. Business Analytics Scheda tecnica. Software per analisi

Analisi per tutti. Panoramica. Considerazioni principali. Business Analytics Scheda tecnica. Software per analisi Analisi per tutti Considerazioni principali Soddisfare le esigenze di una vasta gamma di utenti con analisi semplici e avanzate Coinvolgere le persone giuste nei processi decisionali Consentire l'analisi

Dettagli

Business Intelligence: dell impresa

Business Intelligence: dell impresa Architetture Business Intelligence: dell impresa Silvana Bortolin Come organizzare la complessità e porla al servizio dell impresa attraverso i sistemi di Business Intelligence, per creare processi organizzativi

Dettagli

Sistemi di supporto alle decisioni

Sistemi di supporto alle decisioni Sistemi di supporto alle decisioni Introduzione I sistemi di supporto alle decisioni, DSS (decision support system), sono strumenti informatici che utilizzano dati e modelli matematici a supporto del decision

Dettagli

UML: Class Diagram. Ing. Orazio Tomarchio Orazio.Tomarchio@diit.unict.it

UML: Class Diagram. Ing. Orazio Tomarchio Orazio.Tomarchio@diit.unict.it UML: Class Diagram Ing. Orazio Tomarchio Orazio.Tomarchio@diit.unict.it Dipartimento di Ingegneria Informatica e delle Telecomunicazioni Università di Catania Class Diagram Forniscono una vista strutturale

Dettagli

IV-1 Funzioni reali di più variabili

IV-1 Funzioni reali di più variabili IV- FUNZIONI REALI DI PIÙ VARIABILI INSIEMI IN R N IV- Funzioni reali di più variabili Indice Insiemi in R n. Simmetrie degli insiemi............................................ 4 2 Funzioni da R n a R

Dettagli

METODI ITERATIVI PER SISTEMI LINEARI

METODI ITERATIVI PER SISTEMI LINEARI METODI ITERATIVI PER SISTEMI LINEARI LUCIA GASTALDI 1. Metodi iterativi classici Sia A R n n una matrice non singolare e sia b R n. Consideriamo il sistema (1) Ax = b. Un metodo iterativo per la soluzione

Dettagli

Mobile Messaging SMS. Copyright 2015 VOLA S.p.A.

Mobile Messaging SMS. Copyright 2015 VOLA S.p.A. Mobile Messaging SMS Copyright 2015 VOLA S.p.A. INDICE Mobile Messaging SMS. 2 SMS e sistemi aziendali.. 2 Creare campagne di mobile marketing con i servizi Vola SMS.. 3 VOLASMS per inviare SMS da web..

Dettagli

PLM Software. Answers for industry. Siemens PLM Software

PLM Software. Answers for industry. Siemens PLM Software Siemens PLM Software Monitoraggio e reporting delle prestazioni di prodotti e programmi Sfruttare le funzionalità di reporting e analisi delle soluzioni PLM per gestire in modo più efficace i complessi

Dettagli

IBM Cognos 8 BI Midmarket Reporting Packages Per soddisfare tutte le vostre esigenze di reporting restando nel budget

IBM Cognos 8 BI Midmarket Reporting Packages Per soddisfare tutte le vostre esigenze di reporting restando nel budget Data Sheet IBM Cognos 8 BI Midmarket Reporting Packages Per soddisfare tutte le vostre esigenze di reporting restando nel budget Panoramica Le medie aziende devono migliorare nettamente le loro capacità

Dettagli

Indice generale. Modulo 1 Algebra 2

Indice generale. Modulo 1 Algebra 2 Indice generale Modulo 1 Algebra 2 Capitolo 1 Scomposizione in fattori. Equazioni di grado superiore al primo 1.1 La scomposizione in fattori 2 1.2 Raccoglimento a fattor comune 3 1.3 Raccoglimenti successivi

Dettagli

Analisi delle Corrispondenze Multiple Prof. Roberto Fantaccione

Analisi delle Corrispondenze Multiple Prof. Roberto Fantaccione Analisi delle Corrispondenze Multiple Prof. Roberto Fantaccione Consideriamo il nostro dataset formato da 468 individui e 1 variabili nominali costituite dalle seguenti modalità : colonna D: Age of client

Dettagli

Le Dashboard di cui non si può fare a meno

Le Dashboard di cui non si può fare a meno Le Dashboard di cui non si può fare a meno Le aziende più sensibili ai cambiamenti stanno facendo di tutto per cogliere qualsiasi opportunità che consenta loro di incrementare il business e di battere

Dettagli

GUIDA RAPIDA emagister-agora Edizione BASIC

GUIDA RAPIDA emagister-agora Edizione BASIC GUIDA RAPIDA emagister-agora Edizione BASIC Introduzione a emagister-agora Interfaccia di emagister-agora Configurazione dell offerta didattica Richieste d informazioni Gestione delle richieste d informazioni

Dettagli

CINECA - NOTE TECNICHE per la compilazione della Scheda Unica Annuale della Ricerca Dipartimentale (SUA-RD) PARTE I e II*

CINECA - NOTE TECNICHE per la compilazione della Scheda Unica Annuale della Ricerca Dipartimentale (SUA-RD) PARTE I e II* CINECA - NOTE TECNICHE per la compilazione della Scheda Unica Annuale della Ricerca Dipartimentale (SUA-RD) PARTE I e II* Indice 1. Informazioni generali 2. Parte I: obiettivi, gestione e risorse del Dipartimento

Dettagli

Studente: SANTORO MC. Matricola : 528

Studente: SANTORO MC. Matricola : 528 CORSO di LAUREA in INFORMATICA Corso di CALCOLO NUMERICO a.a. 2004-05 Studente: SANTORO MC. Matricola : 528 PROGETTO PER L ESAME 1. Sviluppare una versione dell algoritmo di Gauss per sistemi con matrice

Dettagli

(accuratezza) ovvero (esattezza)

(accuratezza) ovvero (esattezza) Capitolo n 2 2.1 - Misure ed errori In un analisi chimica si misurano dei valori chimico-fisici di svariate grandezze; tuttavia ogni misura comporta sempre una incertezza, dovuta alla presenza non eliminabile

Dettagli

General Linear Model. Esercizio

General Linear Model. Esercizio Esercizio General Linear Model Una delle molteplici applicazioni del General Linear Model è la Trend Surface Analysis. Questa tecnica cerca di individuare, in un modello di superficie, quale tendenza segue

Dettagli