Analisi e Gestione dei Dati

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Analisi e Gestione dei Dati"

Transcript

1 Analisi e Gestione dei Dati Prof. Alfredo Pulvirenti Prof. Alfredo Ferro: ferro@dmi.unict.it Ufficio 40 Blocco III Tel Prof. Alfredo Pulvirenti: apulvirenti@dmi.unict.it Ufficio 35 Blocco III Tel Dott. Misael Mongiovì: mongiovi@dmi.unict.it Ufficio 35 Blocco III Tel Dott.Sebastiano Di Bella: sebydibella@gmail.com Dott. Salvatore Alaimo: alaimos@gmail.com Dott.Rosario Distefano: rosario.distefano.ict@gmail.com Lezioni: Aula 2: Lunedì-Mercoledì-Venerdì Orari Mining of Massive Datasets Rajaraman,Leskovec,Ullman Cambridge University Press Libro di testo Ricevimento: Ricevimento: Mercoledì 9:00-10:00 Alternativamente per appuntamento 1

2 Data Mining: Concepts and Techniques, 2nd ed. Jiawei Han and Micheline Kamber The Morgan Kaufmann Series in Data Management Systems Materiale didattico The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd ed. Trevor Hastie,Robert Tibshirani, Jerome Friedman Springer Lucidi e dispense del docente: Introduzione Background Cenni su probabilità e statistica Teoria spettrale Entropia Introduzione ad R Data Mining ad alto supporto Reccomendation systems Clustering Classificazione Alberi Decisionali Random Forest SVM Estrattori di Regole Classificatori Bayesiani *Naive Bayes Reti Bayesiane Metaclassificatori Programma Probabilistic Graphical Model Catene di Markov Gibbs Sampling Hidden Markov Model Markov Clustering Random Walk Web Mining Misure di centralità Coefficiente di clustering PageRank Hits Books and Authors Data Mining a Basso supporto Map Reduce Hadoop Network Mining Modelli per le reti Erdos- Reini Small World Barabasi Alberts Graph Mathcing Graph Searching Graph Mining Graph Clustering Network Dinamici Streams Esercitazioni Gli algoritmi ed i metodi presentati a lezione saranno approfonditi anche da un punto di vista pratico mediante l uso di strumenti open-source per il data mining. R Weka Keel 2

3 Scritto. Progetto da concordare con il docente. Esame Cosa è il data mining? Assistiamo ad una crescita esplosiva delle quantità di dati disponibili: terabytes petabytes Risorse principali Business: Web, e-commerce, transazioni, mercato finanziario, ecc. Scienza: Remote sensing, bioinformatica, ecc. Società: news, reti socialie, ecc. Collezionare dati e disponibilità di questi Strumenti per la raccolta automatizzata dei dati, database, web, ecc. Cenni storici Della scienza oggi Scienza Empirica Scienze Teoriche Scienze computazionali Data Science Era dei non-relational database Anni 60 Anni 70 Anni 80 Anni Ma attenzione! DATI!= CONOSCENZA La necessità è la madre delle invenzioni.. IMS e network DBMS Nascita Modello OODBMS, Relazionale Spatial DBMS,ecc. Era dei relational DBMS Database Data mining, data warehousing, multimedia database, Web DB Stream data management e mining Applicazioni del Data mining Web technology (XML, data integration) e global information system 3

4 Cosa è il data mining? Data mining (knowledge discovery) Scoperta di proprietà (pattern) generali (non banali, impliciti, non conosciuti e potenzialmente utili) in un insieme di dati per specifiche applicazioni. Comunità Scientifiche interessate Database Statistica Nomi alternativi Knowledge discovery (mining) in database (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, etc. Machine Learning Data Mining Visualizzazione Pattern Recognition Algoritmi Altre discipline Fasi del processo di data mining Data gathering: data warehouse, web search, etc.. Data Cleaning: Elimina gli errori, le ambiguità Feature extraction: per avere solo gli attributi interessanti dei dati. Fasi del processo di Data-Mining Pattern Evaluation Data Mining Task-relevant Data Pattern extraction and discovery: questo e il vero e proprio data mining Data Warehouse Selection Visualization Data Cleaning Evaluation: valutare quali fatti scoperti sono utili. Data Integration Databases 4

5 Increasing potential to support business decisions Data Mining e Business Intelligence Decision Making Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration Statistical Summary, Querying, and Reporting End User Business Analyst Data Analyst Motivazioni del data mining Grandi quantità di dati Necessità di algoritmi scalabili High-dimensionality data Es. Microarray Dati complessi Data stream e sensor data; Time-series, dati temporali, dati sequenziali; Dati strutturati, grafi, reti sociali; Database eterogenei e sistemi legacy; Spaziali, spazio-temporali, multimedia, text e Web data; Codice sorgente, simulazioni scientifiche. Data Preprocessing/Integration, Data Warehouses Data Sources DBA Multidimensionalità del data mining Dati da investigare Relazionali, data warehouse, transazionali, stream, ORDB, attivi, spaziali, serie-temporali, testuali, multimedia, eterogenei, legacy, www. Conoscenza da estrarre Caratterizzazione, discriminazione, classificazione, associazioni, clustering, analisi delle tendenze, outlier, ecc. Tecniche utilizzate Database-oriented, data warehouse (OLAP), machine learning, stastistica, visualizzazione, ecc. Campi di applicazione Retail, telecomunicazioni, banking, analisi frodi, bio-data mining, finanziario, text mining, web mining, ecc. Schemi di classifcazione del data mining Funzionalità generali Data mining descrittivo Data mining predittivo Viste: Data view: tipo di dati da esplorare Knowledge view: tipo conoscenza da estrarre Method view: tipo di tecnica da usare Application view: a quali applicazioni di rivolge 5

6 Generalizzazioni. Costruzione di banche dati consolidate Integrazione dell informazione e costruzione di data warehouse Data cleaning, transformation, integration, multidimensional data model Data cube technology Metodi scalabili per la materializzazione di aggregazioni multidimensionali OLAP (online analytical processing) Descrizione di concetti multidimensionali: caratterizzazione e discriminazione Generalizzare, dati di riepilogo, e dati con caratteristiche contrastanti, es., regioni calde vs regioni fredde Data Cleaning La qualità dei dati gioca un ruolo centrale poiché ha implicazioni nel sistema di supporto alle decisioni. I dati reali solitamente non hanno un controllo di qualità e quindi non sono sempre definiti in modo consistente. Questi provengono da sorgenti multiple ed eterogenee. Necessità di un sistema di preprocessing capace di migliorare la qualità dei dati. Data Cleaning Qualità dei dati Duplicate Record Detection I dati anlizzati attraverso algoritmi di data mining spesso si presentano : Incompleti o con dati mancanti; Con rumore; Con inconsistenze; Con errori (es. Msrio vs Mario); Senza controlli sull integrità: es. età = 170; Convenzioni differenti: es., 50 W. 4th St. vs. 50 West Fourth Street 6

7 Sistemi di supporto alle decisioni I sistemi di supporto alle decisioni (DSS) costituiscono la tecnologia che supporta la dirigenza aziendale nel prendere decisioni tattico-strategiche in modo efficace e veloce, mediante particolari tipologie di elaborazione (per esempio OLAP) Ma su quali dati? Ad esempio quelli accumulati per i processi operativi e gestionali Tipi di elaborazione Nei Transaction Processing Systems: On-Line Transaction Processing Nei Decision Support Systems: On-Line Analytical Processing Data warehouse Una base di dati utilizzata principalmente per il supporto alle decisioni direzionali integrata aziendale e non dipartimentale con dati storici con un ampio orizzonte temporale, e indicazione (di solito) di elementi di tempo con dati usualmente aggregati per effettuare stime e valutazioni fuori linea i dati sono aggiornati periodicamente mantenuta separatamente dalle basi di dati operazionali Sorgenti esterne Basi di dati operazionali Architettura per il data warehousing Metadati Data Warehouse Data Mart Analisi dimensionale Data mining Sorgenti dei dati Strumenti di analisi 7

8 Sorgenti informative I sistemi operazionali dell organizzazione sono sistemi transazionali (OLTP) orientati alla gestione dei processi operazionali non mantengono dati storici ogni sistema gestisce uno o più soggetti (ad esempio, prodotti o clienti) sono spesso sistemi legacy Sorgenti esterne ad esempio, dati forniti da società specializzate di analisi Alimentazione del data warehouse Attività necessarie ad alimentare un data warehouse estrazione accesso ai dati nelle sorgenti pulizia rilevazione e correzione di errori e inconsistenze nei dati estratti trasformazione trasformazione di formato, correlazione con oggetti in sorgenti diverse caricamento con introduzione di informazioni temporali e generazione dei dati aggregati I metadati sono informazioni mantenute a supporto di queste attività Metadati "Dati sui dati": descrizioni logiche e fisiche dei dati (nelle sorgenti e nel DW) corrispondenze e trasformazioni dati quantitativi Spesso sono non dichiarativi e immersi nei programmi Data Warehouse Server Sistema dedicato alla gestione warehouse Può basarsi su diverse tecnologie ROLAP i dati sono memorizzati in DBMS relazionali (schemi a stella) MOLAP I dati sono memorizzati in forma multidimensionale tramite speciali strutture dati tipicamente proprietarie i produttori di RDBMS forniscono estensioni OLAP ai loro prodotti 8

9 Strumenti di analisi Consentono di effettuare analisi dei dati utilizzando il Data Warehouse server e offrono interfacce user friendly per presentare, in forma adeguata e facilmente comprensibile, i risultati delle analisi. Due principali tipologie di analisi (e quindi di strumenti) Analisi multidimensionale. Data mart Un sottoinsieme logico dell intero data warehouse un data mart è la restrizione del data warehouse a un singolo problema di analisi. un data warehouse è l unione di tutti i suoi data mart. un data mart rappresenta un progetto fattibile la realizzazione diretta di un data warehouse completo non è invece solitamente fattibile Data mining Monitoraggio & Amministrazione Sorgenti esterne Basi di dati operazionali Metadati Variante dell architettura Analisi dimensionale Data mining Rappresentazione multidimensionale L analisi dei dati avviene rappresentando i dati in forma multidimensionale Concetti rilevanti: Fatto: un concetto sul quale centrare l analisi Misura: una proprietà atomica di un fatto Dimensione: descrive una prospettiva lungo la quale effettuare l analisi Esempi di fatti/misure/dimensioni vendita/quantità venduta,incasso/prodotto,tempo telefonata/costo,durata/chiamante,chiamato,tempo Sorgenti dei dati Data Mart Strumenti di analisi 9

10 Rappresentazione multidimensionale dei dati Dimensioni e gerarchie di livelli Luogo (negozio) Quantità Tempo (trimestre) Roma-1 Milano-2 Milano-1 Roma-2 1 trim trim trim trim Lettori DVD Televisori Lettori CD Videoregistratori Articolo (prodotto) regione provincia città negozio Luogo categoria marca prodotto Articolo anno trimestre mese giorno Tempo Operazioni su dati multidimensionali Slice and dice Slice & dice seleziona e proietta Roll up (o drill up) aggrega i dati volume di vendita totale dello scorso anno per categoria di prodotto e regione Drill down disaggrega i dati per una particolare categoria di prodotto e regione, mostra le vendite giornaliere dettagliate per ciascun negozio (Pivot re-orienta il cubo) Luogo Il manager regionale esamina la vendita dei prodotti in tutti i periodi relativamente ai propri mercati Articolo Il manager finanziario esamina la vendita dei prodotti in tutti i mercati relativamente al periodo corrente e quello precedente Tempo Il manager di prodotto esamina la vendita di un prodotto in tutti i periodi e in tutti i mercati Il manager strategico si concentra su una categoria di prodotti, una area e un orizzonte temporale 10

11 Qualità dei pattern predetti. Significatività Data mining può generare migliaia di pattern non tutti interessanti Misurare la qualità Un pattern è interessante se facilmente interpretabile dall uomo, valido sui dati nuovi con un certo grado di certezza, potenzialmente utile, nuovo, significativo (non ottenibile casualmente) Examples of Bonferroni s Principle 1. A big objection to TIA was that it was looking for so many vague connections that it was sure to find things that were bogus and thus violate innocents privacy. 2. The Rhine Paradox: a great example of how not to conduct scientific research. Stanford Professor Proves Tracking Terrorists Is Impossible! The TIA Story Three years ago, the example I am about to give you was picked up from my class slides by a reporter from the LA Times. Despite my talking to him at length, he was unable to grasp the point that the story was made up to illustrate Bonferroni s Principle, and was not real. Suppose we believe that certain groups of evildoers are meeting occasionally in hotels to plot doing evil. We want to find (unrelated) people who at least twice have stayed at the same hotel on the same day. 11

12 10 9 people being tracked days. Each person stays in a hotel 1% of the time (10 days out of 1000). Hotels hold 100 people (so 10 5 hotels). If everyone behaves randomly (I.e., no evildoers) will the data mining detect anything suspicious? The Details p at some hotel q at some hotel Calculations (1) Same hotel Probability that given persons p and q will be at the same hotel on given day d : 1/100 1/ = Probability that p and q will be at the same hotel on given days d 1 and d 2 : = Pairs of days: Calculations (2) Probability that p and q will be at the same hotel on some two days: = Pairs of people: Expected number of suspicious pairs of people: = 250,000. Conclusion Suppose there are (say) 10 pairs of evil-doers who definitely stayed at the same hotel twice. Analysts have to sift through 250,010 candidates to find the 10 real cases. Not gonna happen. But how can we improve the scheme? 12

13 Moral When looking for a property (e.g., two people stayed at the same hotel twice ), make sure that the property does not allow so many possibilities that random data will surely produce facts of interest. Rhine Paradox (1) Joseph Rhine was a parapsychologist in the 1950 s who hypothesized that some people had Extra-Sensory Perception. He devised (something like) an experiment where subjects were asked to guess 10 hidden cards red or blue. He discovered that almost 1 in 1000 had ESP they were able to get all 10 right! Rhine Paradox (2) He told these people they had ESP and called them in for another test of the same type. Alas, he discovered that almost all of them had lost their ESP. What did he conclude? Answer on next slide. Rhine Paradox (3) He concluded that you shouldn t tell people they have ESP; it causes them to lose it. 13

14 Understanding Bonferroni s Principle will help you look a little less stupid than a parapsychologist. Moral Association e Correlation Analysis Pattern frequenti (o frequent itemsets) Quali prodotti vengono acquistati frequentemente assieme nel supermercato dove ci riforniamo? Associazioni, correlazione e causalità Esempio di regola di associazione Pannolini Birra [0.5%, 75%] (supporto, confidenza) I prodotti associati sono anche fortemente correlati? Come faccio il mining efficiente di questi pattern in grandi db? Come posso usare questi pattern per classificare, fare il clsutering ecc.? Esempio/ Retail Esempio del Retail. Catena di supermercati. Problema del basket analysis. Trovare a trovare associazioni tra prodotti acquistati dai clienti? Se dei clienti che acquistano tipicamente X acquistano anche Y, ma esistono dei clienti che acquistano solamente X e non Y allora questi ultimi sono dei potenziali acquirenti per Y. Identificati questi clienti si può effettuare il cross-selling. Esempio/ Amazon.it Regola di associazione: Apprendere delle probabilità condizionate del tipo P(Y X). Ovvero avendo osservato l acquisto di X quale è la probabilità che venga acquistato Y? Pannolini Birra [0.5%, 75%] (supporto, confidenza) 14

15 Classification e Predizione Classificazione e predizione Costruzione di modelli (funzioni) basati su esempi di training; Descrivere e distignuere le classi o I concetti per predizioni future; Es., classificare I paesi in base al clima, le auto in base ai consumi, ecc. Predire dati sconosciuti o assenti; Metodi tipici Decision tree, naïve Bayesian classification, support vector machine, neural network, rule-based classification, pattern-based classification, logistic regression, Applicazioni tipiche: Frodi, marketing, astronomia, medicina, web, ecc. Esempio/ richiesta credito Per una banca è importante essere capaci di prevedere il rischio associato ad un prestito.. La probabilità che il cliente avrà problemi e non rimborserà il prestito. La banca desidera essere sicura di avere un profitto e di non incappare nel cliente che va oltre le proprie capacità finanziarie. Credit scoring: la banca calcola il rischio incrociando il credito richiesto ed alcune informazioni che stimano la capacità finanziaria del cliente (introitimensili, risparmi, professione, età storia finanziaria ecc.). Supponiamo di avere due classi di clienti bassorischio, altorischio. Le informazioni relative ai clienti sono l input del classificatore ed il task è assegnare una etichetta al cliente (bassorischio, altorischio). Diagnosi mediche Training data Dati passati con clienti già classificati correttamente Training per l apprendimento di una regola if introitimensili > d 1 AND risparmi > d 2 then bassorischio else altorischio risparmi bassorischio Informazioni rilevanti relative ai pazienti in grado di caratterizzare la tipologia di malattia Rosenfel et al 2008 Vettore multidimensionale Composto da valori numerici Relativi al livello di espressione Dei microrna in un paziente d 2 altorischio Alpaydin 2010 d 1 introitimensili Albero decisionale 15

16 Esempio Regressione Problemi dove la predizione è numerica si chiamano problemi di regressione. Sistema per la predizione del prezzo di un auto usata. Input, attributi dell auto che influenzano il valore: marca, anno, alimentazione, km, ecc. Output: prezzo dell auto. Notazione: con X indichiamo gli attributi dell auto con Y il prezzo dell auto. Ancora una volta andiamo a fare un survey delle transazioni passate collezionando dati di training per il nostro problema. Clustering e Outlier detection Cluster analysis y = wx+w0 In generale: Y=g(x θ) Outlier detection dove g() è il modello e θ sono i suoi parametri Y è un numero nella regressione un valore di una classe nella classificazione Regressione quadratica y=w2x+w1x+ w0 Unsupervised learning Raggruppare I dati per formare nuove categorie (cluster). Es. Fare il clustering; Principio di base: massimizzare la similarità tra gli oggetti che sono in una classe e minimizzare quella tra oggetti presenti in cluster differenti; Tanti metodi e tante applicazioni; Outlier: un oggetto che non ha un comportamento simile a quello generale assunto dagli altri dati; Rumore? Eccezione? Utile o inutile? Metodi: come risultato del clustering o con tecniche di regressione, ecc.; Utile per il detection di frodi, analisi di eventi rari, ecc. Esempio Trend ed Evolution Analysis Sequenze, tendenze e analisi dell evoluzione, Trend e deviation analysis: es. regressione Sequential pattern mining: Comprare una macchina digitale, quindi una memory card, e dopo?!"#$%& '$%#()& Analisi della periodicità; Motifs, time-series, e biological sequence analysis Motivi approssimati e consecutivi Analisi di similarità Mining data streams Ordered, time-varying, potentially infinite, data streams 16

17 Structure e Network Analysis Graph mining Trovere i sottografi frequenti (es., chemical compounds), alberi (XML), sottostrutture (web fragments) Information network analysis Social network: attori (objects, nodes) relazioni (edges) Es., network degli autori in CS, reti terroristiche Network multiple ed eterogenee Una persona può stare in diverse comunità: amici, famiglia, colleghi, ecc. Semantica dei link tra le persone. Web mining Information network di grandi dimensioni: PageRank a Google Analysis of Web information network Web community discovery, opinion mining, usage mining, raccomandazioni. Top-10 dei più popolari algoritmi di data mining (candidati) Classification #1. C4.5: Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann., #2. CART: L. Breiman, J. Friedman, R. Olshen, and C. Stone. Classification and Regression Trees. Wadsworth, #3. K Nearest Neighbours (knn): Hastie, T. and Tibshirani, R Discriminant Adaptive Nearest Neighbor Classification. TPAMI. 18(6) #4. Naive Bayes Hand, D.J., Yu, K., Idiot's Bayes: Not So Stupid After All? Internat. Statist. Rev. 69, Statistical Learning #5. SVM: Vapnik, V. N The Nature of Statistical Learning Theory. Springer-Verlag. #6. EM: McLachlan, G. and Peel, D. (2000). Finite Mixture Models. J. Wiley, New York. Association Analysis #7. Apriori: Rakesh Agrawal and Ramakrishnan Srikant. Fast Algorithms for Mining Association Rules. In VLDB '94. #8. FP-Tree: Han, J., Pei, J., and Yin, Y Mining frequent patterns without candidate generation. In SIGMOD '00. Top-10 dei più popolari algoritmi di data mining (candidati) Top-10 dei più popolari algoritmi di data mining (candidati) Link Mining #9. PageRank: Brin, S. and Page, L The anatomy of a large-scale hypertextual Web search engine. In WWW-7, #10. HITS: Kleinberg, J. M Authoritative sources in a hyperlinked environment. SODA, Clustering #11. K-Means: MacQueen, J. B., Some methods for classification and analysis of multivariate observations, in Proc. 5th Berkeley Symp. Mathematical Statistics and Probability, #12. BIRCH: Zhang, T., Ramakrishnan, R., and Livny, M BIRCH: an efficient data clustering method for very large databases. In SIGMOD '96. Bagging and Boosting #13. AdaBoost: Freund, Y. and Schapire, R. E A decisiontheoretic generalization of on-line learning and an application to boosting. J. Comput. Syst. Sci. 55, 1 (Aug. 1997), Sequential Patterns #14. GSP: Srikant, R. and Agrawal, R Mining Sequential Patterns: Generalizations and Performance Improvements. In Proceedings of the 5th International Conference on Extending Database Technology, #15. PrefixSpan: J. Pei, J. Han, B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayal and M-C. Hsu. PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth. In ICDE '01. Integrated Mining #16. CBA: Liu, B., Hsu, W. and Ma, Y. M. Integrating classification and association rule mining. KDD-98. Rough Sets #17. Finding reduct: Zdzislaw Pawlak, Rough Sets: Theoretical Aspects of Reasoning about Data, Kluwer Academic Publishers, Norwell, MA, 1992 Graph Mining #18. gspan: Yan, X. and Han, J gspan: Graph-Based Substructure Pattern Mining. In ICDM '02. 17

18 Top-10 Algoritmi selezionati durante la conferenza ICDE 2006 #1: C4.5 (61 votes) #2: K-Means (60 votes) #3: SVM (58 votes) #4: Apriori (52 votes) #5: EM (48 votes) #6: PageRank (46 votes) #7: AdaBoost (45 votes) #7: knn (45 votes) #7: Naive Bayes (45 votes) #10: CART (34 votes) Aspetti principali nel data mining Metodoloiga Mining di diversi tipi di conoscenza a partire da diversi tipi di dati (bio, stream,web, ecc.) Performance: efficienza, efficacia, scalabilità Valutazione dei pattern: significatività Conoscenza di backgroundo Dati con rumore ed incompleti Metodi paralleli, distribuiti, incrementali Integrazione della conoscenza Interazione con l utente Data mining query language Visualizazione Mining interattivo abstraction Applicazioni ed impatto sociale Domain-specific data mining & invisible data mining Protection of data security, integrity, and privacy Libri di riferimento S. Chakrabarti. Mining the Web: Statistical Analysis of Hypertex and Semi-Structured Data. Morgan Kaufmann, 2002 R. O. Duda, P. E. Hart, and D. G. Stork, Pattern Classification, 2ed., Wiley-Interscience, 2000 T. Dasu and T. Johnson. Exploratory Data Mining and Data Cleaning. John Wiley & Sons, 2003 U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996 U. Fayyad, G. Grinstein, and A. Wierse, Information Visualization in Data Mining and Knowledge Discovery, Morgan Kaufmann, 2001 J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2 nd ed., 2006 D. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining, MIT Press, 2001 T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer-Verlag, 2001 B. Liu, Web Data Mining, Springer T. M. Mitchell, Machine Learning, McGraw Hill, 1997 G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991 P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data Mining, Wiley, 2005 S. M. Weiss and N. Indurkhya, Predictive Data Mining, Morgan Kaufmann, 1998 Summary Scoperta di pattern interessanti da grandi quantità di dati: Data mining. Una evoluzione naturale della tecnologia dei database. Processo di KDD (knowledge discovery in database) data cleaning, data integration, data selection, transformation, data mining, pattern evaluation, e knowledge presentation Data mining: characterization, discrimination, association, classification, clustering, outlier e trend analysis, ecc. Major issues in data mining I. H. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 2 nd ed

19 Architettura tipica di un sistema di Data Mining Graphical User Interface Pattern Evaluation Data Mining Engine Database or Data Warehouse Server Knowle dge- Base data cleaning, integration, and selection Database Data Warehouse World-Wide Web Other Info Repositories 19

Data Warehousing (DW)

Data Warehousing (DW) Data Warehousing (DW) Il Data Warehousing è un processo per estrarre e integrare dati storici da sistemi transazionali (OLTP) diversi e disomogenei, e da usare come supporto al sistema di decisione aziendale

Dettagli

Data warehouse Introduzione

Data warehouse Introduzione Database and data mining group, Data warehouse Introduzione INTRODUZIONE - 1 Pag. 1 Database and data mining group, Supporto alle decisioni aziendali La maggior parte delle aziende dispone di enormi basi

Dettagli

Data Warehousing. Argomenti della lezione. Rappresentazioni dei dati. Rappresentazione dei dati. Parte II Analisi multidimensionale

Data Warehousing. Argomenti della lezione. Rappresentazioni dei dati. Rappresentazione dei dati. Parte II Analisi multidimensionale Argomenti della lezione Data Warehousing Parte II Analisi multidimensionale richiami sul data warehousing organizzazione di un data warehouse l analisi multidimensionale data warehousing e internet strumenti

Dettagli

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida Introduzione alle tecniche di Data Mining Prof. Giovanni Giuffrida Programma Contenuti Introduzione al Data Mining Mining pattern frequenti, regole associative Alberi decisionali Clustering Esempio di

Dettagli

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse Introduzione data warehose Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa Data Warehouse Che cosa e un data warehouse? Quali sono i modelli dei dati per data warehouse Come si progetta

Dettagli

Cosa è un data warehouse?

Cosa è un data warehouse? Argomenti della lezione Data Warehousing Parte I Introduzione al warehousing cosa è un data warehouse classificazione dei processi aziendali sistemi di supporto alle decisioni elaborazione OLTP e OLAP

Dettagli

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni Data warehouse Data warehouse La crescita dell importanza dell analisi dei dati ha portato ad una separazione architetturale dell ambiente transazionale (OLTP on-line transaction processing) da quello

Dettagli

Data mining e rischi aziendali

Data mining e rischi aziendali Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento

Dettagli

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining Dipartimento di Informatica e Sistemistica I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining Renato Bruni bruni@dis.uniroma1.it Antonio Sassano sassano@dis.uniroma1.it

Dettagli

Lezione 8. Data Mining

Lezione 8. Data Mining Lezione 8 Data Mining Che cos'è il data mining? Data mining (knowledge discovery from data) Estrazione di pattern interessanti (non banali, impliciti, prima sconosciuti e potenzialmente utili) da enormi

Dettagli

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Data warehousing Introduzione A partire dalla metà degli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa

Dettagli

Governo Digitale a.a. 2011/12

Governo Digitale a.a. 2011/12 Governo Digitale a.a. 2011/12 I sistemi di supporto alle decisioni ed il Data Warehouse Emiliano Casalicchio Agenda Introduzione i sistemi di supporto alle decisioni Data warehouse proprietà architettura

Dettagli

Rassegna sui principi e sui sistemi di Data Warehousing

Rassegna sui principi e sui sistemi di Data Warehousing Università degli studi di Bologna FACOLTA DI SCIENZE MATEMATICHE, FISICHE E NATURALI Rassegna sui principi e sui sistemi di Data Warehousing Tesi di laurea di: Emanuela Scionti Relatore: Chiar.mo Prof.Montesi

Dettagli

Architetture per l analisi di dati

Architetture per l analisi di dati Architetture per l analisi di dati Basi di dati: Architetture e linee di evoluzione - Seconda edizione Capitolo 8 Appunti dalle lezioni Motivazioni I sistemi informatici permettono di aumentare la produttività

Dettagli

Introduzione al Data Mining

Introduzione al Data Mining Introduzione al Data Mining Sistemi informativi per le Decisioni Slide a cura di Prof. Claudio Sartori Evoluzione della tecnologia dell informazione (IT) (Han & Kamber, 2001) Percorso evolutivo iniziato

Dettagli

Analisi dei Dati. Lezione 10 Introduzione al Datwarehouse

Analisi dei Dati. Lezione 10 Introduzione al Datwarehouse Analisi dei Dati Lezione 10 Introduzione al Datwarehouse Il Datawarehouse Il Data Warehousing si può definire come il processo di integrazione di basi di dati indipendenti in un singolo repository (il

Dettagli

Introduzione a data warehousing e OLAP

Introduzione a data warehousing e OLAP Corso di informatica Introduzione a data warehousing e OLAP La Value chain Information X vive in Z S ha Y anni X ed S hanno traslocato Data W ha del denaro in Z Stile di vita Punto di vendita Dati demografici

Dettagli

Introduzione al data warehousing

Introduzione al data warehousing Introduzione al data warehousing, Riccardo Torlone aprile 2012 1 Motivazioni I sistemi informatici permettono di aumentare la produttività delle organizzazioni automatizzandone la gestione quotidiana dei

Dettagli

CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO -

CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO - 1 CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO - Corsi di Laurea in Informatica, Ing. Informatica, Ing. di Internet (a.a. 2015-2016) Roberto Basili 2 Overview WM&R: Motivazioni e prospettive

Dettagli

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L. DATA WAREHOUSE Un Dataware House può essere definito come una base di dati di database. In molte aziende ad esempio ci potrebbero essere molti DB, per effettuare ricerche di diverso tipo, in funzione del

Dettagli

B C I un altro punto di vista Introduzione

B C I un altro punto di vista Introduzione Bollicine Community B C Intelligence B C I un altro punto di vista Introduzione Graziano Guazzi General Manager Data Flow Settembre 2007 pag, 1 Cosa misurare La definizione di quale domanda di mercato

Dettagli

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da

Dettagli

Lezione 1. Introduzione e Modellazione Concettuale

Lezione 1. Introduzione e Modellazione Concettuale Lezione 1 Introduzione e Modellazione Concettuale 1 Tipi di Database ed Applicazioni Database Numerici e Testuali Database Multimediali Geographic Information Systems (GIS) Data Warehouses Real-time and

Dettagli

I Sistemi Informativi Geografici. Laboratorio GIS 1

I Sistemi Informativi Geografici. Laboratorio GIS 1 I Sistemi Informativi Geografici Laboratorio GIS 1 Sistema Informativo Geografico Strumento computerizzato che permette di posizionare ed analizzare oggetti ed eventi che esistono e si verificano sulla

Dettagli

MACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it

MACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it MACHINE LEARNING e DATA MINING Introduzione a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it Apprendimento Automatico(i) Branca dell AI che si occupa di realizzare dispositivi artificiali capaci di

Dettagli

CAPITOLO CAPIT Tecnologie dell ecnologie dell info inf rmazione e controllo

CAPITOLO CAPIT Tecnologie dell ecnologie dell info inf rmazione e controllo CAPITOLO 8 Tecnologie dell informazione e controllo Agenda Evoluzione dell IT IT, processo decisionale e controllo Sistemi di supporto al processo decisionale Sistemi di controllo a feedback IT e coordinamento

Dettagli

25/11/14 ORGANIZZAZIONE AZIENDALE. Tecnologie dell informazione e controllo

25/11/14 ORGANIZZAZIONE AZIENDALE. Tecnologie dell informazione e controllo ORGANIZZAZIONE AZIENDALE 1 Tecnologie dell informazione e controllo 2 Evoluzione dell IT IT, processo decisionale e controllo Sistemi di supporto al processo decisionale IT e coordinamento esterno IT e

Dettagli

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,

Dettagli

Data Mining a.a. 2010-2011

Data Mining a.a. 2010-2011 Data Mining a.a. 2010-2011 Docente: mario.guarracino@cnr.it tel. 081 6139519 http://www.na.icar.cnr.it/~mariog Informazioni logistiche Orario delle lezioni A partire dall 19.10.2010, Martedì h: 09.50 16.00

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Marketing relazionale

Marketing relazionale Marketing relazionale Introduzione Nel marketing intelligence assume particolare rilievo l applicazione di modelli predittivi rivolte a personalizzare e rafforzare il legame tra azienda e clienti. Un azienda

Dettagli

CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO -

CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO - 1 CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO - Corsi di Laurea in Informatica, Ing. Informatica, Ing. di Internet (a.a. 2013-2014) Roberto Basili 2 Overview WM&R: Motivazioni e prospettive

Dettagli

On Line Analytical Processing

On Line Analytical Processing On Line Analytical Processing Data integra solitamente Warehouse(magazzino dati) èun sorgenti un unico schema globalel informazione estratta da piu puo replicazioneai puo essere èinterrogabile, non modificabile

Dettagli

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011 Data warehousing Introduzione A partire dagli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa lezione vedremo

Dettagli

Business Intelligence & Data Mining. In ambiente Retail

Business Intelligence & Data Mining. In ambiente Retail Business Intelligence & Data Mining In ambiente Retail Business Intelligence Platform DATA SOURCES STAGING AREA DATA WAREHOUSE DECISION SUPPORT Application Databases Packaged application/erp Data DATA

Dettagli

Introduzione all Information Retrieval

Introduzione all Information Retrieval Introduzione all Information Retrieval Argomenti della lezione Definizione di Information Retrieval. Information Retrieval vs Data Retrieval. Indicizzazione di collezioni e ricerca. Modelli per Information

Dettagli

I sistemi di reporting e i rapporti direzionali

I sistemi di reporting e i rapporti direzionali I sistemi di reporting e i rapporti direzionali Reporting - Sintesi dei fenomeni aziendali secondo modelli preconfezionati e con frequenza e aggiornamento prestabiliti - contabile (dati economici) - extracontabile

Dettagli

Data Warehousing: concetti base e metodologie

Data Warehousing: concetti base e metodologie Data Warehousing: concetti base e metodologie Paolo Atzeni (con la collaborazione di Luca Cabibbo e Riccardo Torlone) Università di Roma Tre Dipartimento di Informatica e Automazione atzeni@dia.uniroma3.it

Dettagli

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali DIPARTIMENTO DI INGEGNERIA INFORMATICA AUTOMATICA E GESTIONALE ANTONIO RUBERTI Cenni al Data Mining 1 Data Mining nasce prima del Data Warehouse collezione di tecniche derivanti da Intelligenza Artificiale,

Dettagli

Convegno 6 giugno 2013 Federlazio Frosinone

Convegno 6 giugno 2013 Federlazio Frosinone Convegno 6 giugno 2013 Federlazio Frosinone pag. 1 6 giugno 2013 Federlazio Frosinone Introduzione alla Business Intelligence Un fattore critico per la competitività è trasformare la massa di dati prodotti

Dettagli

Data Mining e Analisi dei Dati

Data Mining e Analisi dei Dati e Analisi dei Dati Rosaria Lombardo Dipartimento di Economia, Seconda Università di Napoli La scienza che estrae utili informazioni da grandi databases è conosciuta come E una disciplina nuova che interseca

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Data Mining. Introduzione La crescente popolarità

Dettagli

Corso di Web Mining e Retrieval

Corso di Web Mining e Retrieval Corso di Web Mining e Retrieval (a.a. 2011-2012) Roberto Basili 1 Obbiettivi del Corso Introduzione alle nozioni di base per l accesso alle informazione distribuita Componente Fondazionale: Problemi di

Dettagli

MASTER UNIVERSITARIO. Analisi Dati per la Business Intelligence e Data Science. IV edizione 2015/2016

MASTER UNIVERSITARIO. Analisi Dati per la Business Intelligence e Data Science. IV edizione 2015/2016 MASTER UNIVERSITARIO Analisi Dati per la Business Intelligence e Data Science In collaborazione con IV edizione 2015/2016 Dipartimento di Culture, Politica e Società Dipartimento di Informatica Dipartimento

Dettagli

Sistemi di supporto alle decisioni

Sistemi di supporto alle decisioni Sistemi di supporto alle decisioni Introduzione I sistemi di supporto alle decisioni, DSS (decision support system), sono strumenti informatici che utilizzano dati e modelli matematici a supporto del decision

Dettagli

Ciclo di vita dimensionale

Ciclo di vita dimensionale aprile 2012 1 Il ciclo di vita dimensionale Business Dimensional Lifecycle, chiamato anche Kimball Lifecycle descrive il framework complessivo che lega le diverse attività dello sviluppo di un sistema

Dettagli

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Obiettivi. Presentare l evoluzione dei sistemi informativi: da supporto alla operatività a supporto al momento decisionale Definire

Dettagli

SQL Server 2005. Introduzione all uso di SQL Server e utilizzo delle opzioni Olap. Dutto Riccardo - SQL Server 2005.

SQL Server 2005. Introduzione all uso di SQL Server e utilizzo delle opzioni Olap. Dutto Riccardo - SQL Server 2005. SQL Server 2005 Introduzione all uso di SQL Server e utilizzo delle opzioni Olap SQL Server 2005 SQL Server Management Studio Gestione dei server OLAP e OLTP Gestione Utenti Creazione e gestione DB SQL

Dettagli

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE Arricchimento dei dati del sottoscrittore / user Approccio Tradizionale Raccolta dei dati personali tramite contratto (professione, dati sul nucleo familiare, livello

Dettagli

Docente. Sistemi Informativi. Programma. Programma. Ing. Fabrizio Riguzzi

Docente. Sistemi Informativi. Programma. Programma. Ing. Fabrizio Riguzzi Docente Sistemi Informativi Ing. Fabrizio Riguzzi Fabrizio Riguzzi http://www.ing.unife.it/docenti/fabrizioriguzzi Orario di ricevimento: mercoledì 15-17 studio docente, terzo piano, corridoio di destra,

Dettagli

SQL Server BI Development Studio

SQL Server BI Development Studio Il Data warehouse SQL Server Business Intelligence Development Studio Analysis Service Sorgenti dati operazionali DB relazionali Fogli excel Data warehouse Staging Area e dati riconciliati Cubi Report

Dettagli

MASTER UNIVERSITARIO

MASTER UNIVERSITARIO MASTER UNIVERSITARIO Analisi Dati per la Business Intelligence In collaborazione con II edizione 2013/2014 Dipartimento di Culture, Politica e Società Dipartimento di Informatica gestito da aggiornato

Dettagli

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: macchine che apprendono Computazione per l interazione naturale: macchine che apprendono Corso di Interazione Naturale! Prof. Giuseppe Boccignone! Dipartimento di Informatica Università di Milano! boccignone@di.unimi.it boccignone.di.unimi.it/in_2015.html

Dettagli

OLAP On Line Analytical Processing

OLAP On Line Analytical Processing OLAP On Line Analytical Processing Alfredo Cuzzocrea DEIS Dipartimento di Elettronica, Informatica e Sistemistica Università della Calabria cuzzocrea@si.deis.unical.it Testo di Riferimento: J. Han, M.

Dettagli

Supporto alle decisioni e strategie commerciali/mercati/prodotti/forza vendita;

Supporto alle decisioni e strategie commerciali/mercati/prodotti/forza vendita; .netbin. è un potentissimo strumento SVILUPPATO DA GIEMME INFORMATICA di analisi dei dati con esposizione dei dati in forma numerica e grafica con un interfaccia visuale di facile utilizzo, organizzata

Dettagli

4 Introduzione al data warehousing

4 Introduzione al data warehousing Che cosa è un data warehouse? Introduzione al data warehousing 22 maggio 2001 Un data warehouse è una base di dati collezione di dati di grandi dimensioni, persistente e condivisa gestita in maniera efficace,

Dettagli

Relazione sul data warehouse e sul data mining

Relazione sul data warehouse e sul data mining Relazione sul data warehouse e sul data mining INTRODUZIONE Inquadrando il sistema informativo aziendale automatizzato come costituito dall insieme delle risorse messe a disposizione della tecnologia,

Dettagli

DSCube. L analisi dei dati come strumento per i processi decisionali

DSCube. L analisi dei dati come strumento per i processi decisionali DSCube L analisi dei dati come strumento per i processi decisionali Analisi multi-dimensionale dei dati e reportistica per l azienda: DSCube Introduzione alla suite di programmi Analyzer Query Builder

Dettagli

Data Warehousing e Data Mining

Data Warehousing e Data Mining Università degli Studi di Firenze Dipartimento di Sistemi e Informatica A.A. 2011-2012 I primi passi Data Warehousing e Data Mining Parte 2 Docente: Alessandro Gori a.gori@unifi.it OLTP vs. OLAP OLTP vs.

Dettagli

1. BASI DI DATI: GENERALITÀ

1. BASI DI DATI: GENERALITÀ 1. BASI DI DATI: GENERALITÀ BASE DI DATI (DATABASE, DB) Raccolta di informazioni o dati strutturati, correlati tra loro in modo da risultare fruibili in maniera ottimale. Una base di dati è usualmente

Dettagli

Sistemi Informativi. Ing. Fabrizio Riguzzi

Sistemi Informativi. Ing. Fabrizio Riguzzi Sistemi Informativi Ing. Fabrizio Riguzzi Docente Fabrizio Riguzzi http://www.ing.unife.it/docenti/fabrizioriguzzi Orario di ricevimento: su appuntamento studio docente, terzo piano, corridoio di destra,

Dettagli

SOMMARIO. 9- Basi di dati direzionali. Tipi di sistemi direzionali SISTEMI INFORMATIVI DIREZIONALI. Basi di Dati per la gestione dell Informazione

SOMMARIO. 9- Basi di dati direzionali. Tipi di sistemi direzionali SISTEMI INFORMATIVI DIREZIONALI. Basi di Dati per la gestione dell Informazione 1 SOMMARIO 2 9- Basi di dati direzionali Basi di Dati per la gestione dell Informazione A. Chianese, V. Moscato, A. Picariello, L. Sansone Sistemi Informativi Direzionali (SID) Architettura dei SID La

Dettagli

Sistemi Informativi Aziendali I

Sistemi Informativi Aziendali I Modulo 6 Sistemi Informativi Aziendali I 1 Corso Sistemi Informativi Aziendali I - Modulo 6 Modulo 6 Integrare verso l alto e supportare Managers e Dirigenti nell Impresa: Decisioni più informate; Decisioni

Dettagli

La suite Pentaho Community Edition

La suite Pentaho Community Edition La suite Pentaho Community Edition GULCh 1 Cosa è la Business Intelligence Con la locuzione business intelligence (BI) ci si può solitamente riferire a: un insieme di processi aziendali per raccogliere

Dettagli

PROGETTAZIONE E IMPLEMENTAZIONE DI UN DATAWAREHOUSE

PROGETTAZIONE E IMPLEMENTAZIONE DI UN DATAWAREHOUSE Tesi in: ARCHITETTURA DEI SISTEMI INFORMATIVI PROGETTAZIONE E IMPLEMENTAZIONE DI UN DATAWAREHOUSE IN UN AMBIENTE DI DISTRIBUZIONE FARMACEUTICA RELATORE: Prof. Crescenzio Gallo LAUREANDO: Alessandro Balducci

Dettagli

Università degli studi Roma Tre Dipartimento di informatica ed automazione. Tesi di laurea

Università degli studi Roma Tre Dipartimento di informatica ed automazione. Tesi di laurea Università degli studi Roma Tre Dipartimento di informatica ed automazione Tesi di laurea Reingegnerizzazione ed estensione di uno strumento per la generazione di siti Web Relatore Prof. P.Atzeni Università

Dettagli

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni Introduzione Ai Data Bases Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni I Limiti Degli Archivi E Il Loro Superamento Le tecniche di gestione delle basi di dati nascono

Dettagli

Data warehouse. della spesa sanitaria. acquisizione della conoscenza. Statistical Learning & Information Management

Data warehouse. della spesa sanitaria. acquisizione della conoscenza. Statistical Learning & Information Management Data warehouse della spesa sanitaria SLIM s.r.l. Statistical Learning & Information Management Un sistema privilegiato di acquisizione della conoscenza Requisiti Monitoraggio della spesa Controllo dinamico

Dettagli

Corso di Basi di Dati e Conoscenza

Corso di Basi di Dati e Conoscenza Corso di Basi di Dati e Conoscenza Gestione dei Dati e della Conoscenza Primo Emicorso - Basi di Dati Roberto Basili a.a. 2012/13 1 Obbiettivi Formativi Scenario Le grandi quantità di dati accumulate nelle

Dettagli

Introduzione ad OLAP (On-Line Analytical Processing)

Introduzione ad OLAP (On-Line Analytical Processing) Introduzione ad OLAP (On-Line Analytical Processing) Metodi e Modelli per il Supporto alle Decisioni 2002 Dipartimento di Informatica Sistemistica e Telematica (Dist) Il termine OLAP e l acronimo di On-Line

Dettagli

Liceo Tecnologico. Indirizzo Informatico e Comunicazione. Indicazioni nazionali per Piani di Studi Personalizzati

Liceo Tecnologico. Indirizzo Informatico e Comunicazione. Indicazioni nazionali per Piani di Studi Personalizzati Indirizzo Informatico e Comunicazione Indicazioni nazionali per Piani di Studi Personalizzati Indirizzo Informatico e Comunicazione Discipline con attività di laboratorio 3 4 5 Fisica 132 Gestione di progetto

Dettagli

WebBi S.r.l offre consulenza e soluzioni per le seguenti aree: Data Warehousing. Business Intelligence. Disegno di architetture integrate

WebBi S.r.l offre consulenza e soluzioni per le seguenti aree: Data Warehousing. Business Intelligence. Disegno di architetture integrate Migliorare l organizzazione per migliorare la qualità delle decisioni. Migliorare la qualità dei collaboratori per migliorare il servizio alla clientela. WebBi S.r.l offre consulenza e soluzioni per le

Dettagli

ISTITUTO TECNICO ECONOMICO MOSSOTTI

ISTITUTO TECNICO ECONOMICO MOSSOTTI CLASSE III INDIRIZZO S.I.A. UdA n. 1 Titolo: conoscenze di base Conoscenza delle caratteristiche dell informatica e degli strumenti utilizzati Informatica e sistemi di elaborazione Conoscenza delle caratteristiche

Dettagli

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014 Archivi e database Prof. Michele Batocchi A.S. 2013/2014 Introduzione L esigenza di archiviare (conservare documenti, immagini, ricordi, ecc.) è un attività senza tempo che è insita nell animo umano Primi

Dettagli

Organizzazione degli archivi

Organizzazione degli archivi COSA E UN DATA-BASE (DB)? è l insieme di dati relativo ad un sistema informativo COSA CARATTERIZZA UN DB? la struttura dei dati le relazioni fra i dati I REQUISITI DI UN DB SONO: la ridondanza minima i

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Sistemi informazionali La crescente diffusione dei

Dettagli

La portata del software

La portata del software La portata del software Portata Contesto. In che modo il software in costruzione si inserirà nel sistema, prodotto o contesto aziendale esistente e quali vincoli impone il contesto? Obiettivi relativi

Dettagli

ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet

ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet Gabriele Bartolini Comune di Prato Sistema Informativo Servizi di E-government

Dettagli

Informatica I per la. Fisica

Informatica I per la. Fisica Corso di Laurea in Fisica Informatica I per la Fisica Lezione: Software applicativo II Fogli elettronici e Data Base Software: software di sistema (BIOS) sistema operativo software applicativo ROM Dischi

Dettagli

Analisi e catalogazione automatica dei Curriculum Vitae

Analisi e catalogazione automatica dei Curriculum Vitae Analisi e catalogazione automatica dei Curriculum Vitae CV Manager è lo strumento di Text Mining che automatizza l analisi, la catalogazione e la ricerca dei Curriculum Vitae L esigenza Quanto tempo viene

Dettagli

SQL/OLAP. Estensioni OLAP in SQL

SQL/OLAP. Estensioni OLAP in SQL SQL/OLAP Estensioni OLAP in SQL 1 Definizione e calcolo delle misure Definire una misura significa specificare gli operatori di aggregazione rispetto a tutte le dimensioni del fatto Ipotesi: per ogni misura,

Dettagli

Regole di Associazione

Regole di Associazione Metodologie per Sistemi Intelligenti Regole di Associazione Prof. Pier Luca Lanzi Laurea in Ingegneria Informatica Politecnico di Milano Polo regionale di Como Esempio Esempio Regole di Associazione Scopo

Dettagli

Dispensa di database Access

Dispensa di database Access Dispensa di database Access Indice: Database come tabelle; fogli di lavoro e tabelle...2 Database con più tabelle; relazioni tra tabelle...2 Motore di database, complessità di un database; concetto di

Dettagli

Sistemi Informativi. Ing. Fabrizio Riguzzi

Sistemi Informativi. Ing. Fabrizio Riguzzi Sistemi Informativi Ing. Fabrizio Riguzzi Docente Fabrizio Riguzzi http://ds.ing.unife.it/~friguzzi Orario di ricevimento: su appuntamento studio docente, terzo piano, corridoio di destra, studio n. 339

Dettagli

Basi di Dati Complementi Esercitazione su Data Warehouse

Basi di Dati Complementi Esercitazione su Data Warehouse Sommario Basi di Dati Complementi Esercitazione su Data Warehouse 1. Riassunto concetti principali dalle slide della lezione di teoria 2.Studio di caso : progettazione di un Data Warehouse di una catena

Dettagli

delle aziende in Italia:

delle aziende in Italia: Livello di rischiosità delle aziende in Italia: Lombardia Dati aggiornati a Dicembre 2012 Marketing CRIBIS D&B Agenda Distribuzione delle aziende nella regione Analisi del livello di rischiosità Confronto

Dettagli

BASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone

BASI DI DATI per la gestione dell informazione. Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone BASI DI DATI per la gestione dell informazione Angelo Chianese Vincenzo Moscato Antonio Picariello Lucio Sansone Libro di Testo 22 Chianese, Moscato, Picariello e Sansone BASI DI DATI per la Gestione dell

Dettagli

Ricerca di outlier. Ricerca di Anomalie/Outlier

Ricerca di outlier. Ricerca di Anomalie/Outlier Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

Business Intelligence CRM

Business Intelligence CRM Business Intelligence CRM CRM! Customer relationship management:! L acronimo CRM (customer relationship management) significa letteralmente gestione della relazione con il cliente ;! la strategia e il

Dettagli

Data Warehouse Architettura e Progettazione

Data Warehouse Architettura e Progettazione Introduzione Data Warehouse Architettura! Nei seguenti lucidi verrà fornita una panoramica del mondo dei Data Warehouse.! Verranno riportate diverse definizioni per identificare i molteplici aspetti che

Dettagli

Data warehousing con SQL Server

Data warehousing con SQL Server Data warehousing con SQL Server! SQL Server è un RDBMS (Relational DataBase Management System)! Analysis Services è un componente di SQL Server che offre un insieme di funzionalità di supporto al data

Dettagli

U Corso di italiano, Lezione Quindici

U Corso di italiano, Lezione Quindici 1 U Corso di italiano, Lezione Quindici U Buongiorno, anche in questa lezione iniziamo con qualche dialogo formale M Good morning, in this lesson as well, let s start with some formal dialogues U Buongiorno,

Dettagli

Customer Relationship Management. Eleonora Ploncher 3 aprile 2006

Customer Relationship Management. Eleonora Ploncher 3 aprile 2006 Customer Relationship Management Eleonora Ploncher 3 aprile 2006 1. Gli obiettivi Gli obiettivi della presentazione sono volti a definire: 1. gli elementi fondamentali e strutturali di una strategia di

Dettagli

Introduzione alla teoria dei database relazionali. Come progettare un database

Introduzione alla teoria dei database relazionali. Come progettare un database Introduzione alla teoria dei database relazionali Come progettare un database La struttura delle relazioni Dopo la prima fase di individuazione concettuale delle entità e degli attributi è necessario passare

Dettagli

Le Basi di Dati. Le Basi di Dati

Le Basi di Dati. Le Basi di Dati Le Basi di Dati 20/05/02 Prof. Carlo Blundo 1 Le Basi di Dati Le Base di Dati (database) sono un insieme di tabelle di dati strutturate in maniera da favorire la ricerca di informazioni specializzate per

Dettagli

Suggerimenti per l approccio all analisi dei dati multivariati

Suggerimenti per l approccio all analisi dei dati multivariati Suggerimenti per l approccio all analisi dei dati multivariati Definizione degli obbiettivi Il primo passo è la definizione degli obbiettivi. Qual è l obbiettivo della sperimentazione i cui dati dovete

Dettagli

02/mag/2012. Il Modello Multidimensionale. Il Modello Multidimensionale. Il Modello Multidimensionale. Il Modello Multidimensionale

02/mag/2012. Il Modello Multidimensionale. Il Modello Multidimensionale. Il Modello Multidimensionale. Il Modello Multidimensionale Modello semplice ed intuitivo Si presta bene a descrivere dei FATTI in modo grafico (CUBO o IPERCUBO) Es. di FATTI: Vendite Spedizioni Ricoveri Interventi chirurgici Andamento borsistico 62 Un cubo multidimensionale

Dettagli

Il sistema di gestione dei dati e dei processi aziendali. Il sistema di controllo interno dal punto di vista del revisore

Il sistema di gestione dei dati e dei processi aziendali. Il sistema di controllo interno dal punto di vista del revisore Il sistema di gestione dei dati e dei processi aziendali Il sistema di controllo interno dal punto di vista del revisore Università degli studi di Pavia Obiettivo=Relazione Team di Revisione Principi Contabili/Principi

Dettagli

Breve introduzione ai data warehouse (per gli allievi che non hanno seguito BD2)

Breve introduzione ai data warehouse (per gli allievi che non hanno seguito BD2) Tecnologie per i sistemi informativi Breve introduzione ai data warehouse (per gli allievi che non hanno seguito BD2) Letizia Tanca lucidi tratti dal libro: Atzeni, Ceri, Paraboschi, Torlone Introduzione

Dettagli

Architetture Informatiche. Dal Mainframe al Personal Computer

Architetture Informatiche. Dal Mainframe al Personal Computer Architetture Informatiche Dal Mainframe al Personal Computer Architetture Le architetture informatiche definiscono le modalità secondo le quali sono collegati tra di loro i diversi sistemi ( livello fisico

Dettagli