Knowledge Discovery e Data Mining

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Knowledge Discovery e Data Mining"

Transcript

1 Sommario Knowledge Discovery e Data Mining Introduzione Motivazioni ed applicazioni Processo di Knowledge Discovery in DBs Fasi e caratteristiche Task di Data Mining Classificazione e regressione Scoperta di regole associative Clustering La classificazione Definizione del problema Misure di qualità Tecniche di classificazione Contesto e motivazioni La catena del valore dell informazione data explosion La disponibilità di tecnologie efficienti e poco costose favorisce l accumulo di enormi quantità di dati DBs e altri tipi di repository Electronic data gathering: Internet, Satellite, Bar-code reader, High perf. computers (PC-Cluster) e, in generale, cheaper & faster HW Esigenza: trarre vantaggio competitivo dai dati supportare i processi decisionali con nuova conoscenza inadeguatezza dei sistemi di analisi tradizionali: We are drowning in data, but starving for knowledge! Decisioni Promuovere il prodotto A nei negozi della regione Z Offrire dei servizi addizionali ai Conoscenza clienti di classe C Il prodotto P èusato per lo Progettare cataloghi di più da clienti giovani prodotti adatti ai vari profili di Chi acquista il prodotto P clienti tende ad acquistare Q I clienti possono essere suddivisi in classi omogenee (A,B,C, ) Informazioni La persona X vive nella città Z La persona S ha Y anni Dati Dati demografici: (Mario,Rossi,25/10/1960, ), (Luigi,Bianchi,, ) Dati geografici: Rende, Cosenza, Lombardia, Punti di vendita

2 Business Intelligence: Data Warehouse e Data Mining Business Intelligence Data Warehouse (DW) Archivio progettato in modo specifico per l analisi Dotato di strumenti efficienti e intuitivi per consultare, interrogare e visualizzare le informazioni Data Warehousing: processo di costruzione/popolamento di un DW Increasing potential to support business decisions Making Decisions Knowledge Presentation Visualization Techniques Data Mining Knowledge Discovery Manager Business Analyst Data Analyst Data Mining (DM) Estrazione automatica ed efficiente di pattern ( pepite di conoscenza) da grosse collezioni di dati Pattern: regolarità o proprietà valide nei dati di input Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP DBA Un po di storia Principali aree di applicazione Data collection (1960 s, e prima): - primitive file processing Advanced DB Systems (1980 s- ): - nuovi tipi di dati e data model avanzati - dati semi-strutturati, testuali, multimediali - extended-relational, OO, deductive, - application-oriented DBMS (GIS, scientific, engineering, ) - apertura verso le reti e il Web Database management systems (1970 s): - network and relational database systems - data modeling tools, query languages - optimization methods Data Warehouse & Data Mining (1990 s- ) - data mining usato dal 1983, con accezione negativa, nella comunità statistica - KDD workshop iniziato nel Padri fondatori : Fayyad, Piatetsky- Shapiro, Agrawal Marketing: product targeting, cross selling, segmentazione della clientela, CRM e Customer Retention,... Finanza: supporto agli investimenti, gestione di portafoglio, scoperta frodi Banche/Assicurazioni: concessione di prestiti, apertura di polizze curezza: scoperta di intrusioni, controllo degli accessi New-generation Intelligent Information Systems

3 Principali aree di applicazione Scienze: progettazione di farmaci, studio di fattori genetici, scoperta di galassie e astri Medicina: supporto a diagnosi/prognosi, valutazione cure, scoperta di relazioni fra malattie Produzione: modellazione dei processi, controllo di qualità, allocazione delle risorse Web: smart search engine, web marketing, web site design (Sommario) Introduzione Motivazioni ed applicazioni Processo di Knowledge Discovery in DBs Fasi e caratteristiche Task di Data Mining Classificazione e regressione Scoperta di regole associative Clustering La classificazione Definizione del problema Misure di qualità Tecniche di classificazione Estrazione della conoscenza: il processo di KDD Knowledge Discovery in Databases (KDD) Scoperta di conoscenza nelle basi di dati utile per comprendere/modellare i fenomeni del mondo reale corrispondenti ai dati Processo non banale (semi-automatico) di estrazione di pattern validi nuovi potenzialmente utili comprensibili INTERESSANTI Il processo di KDD Integrazione e Consolidamento Sorgenti Selezione e Pre-elaborazione Dati Consolidati Data Mining Dati trasformati Interpretazione e Valutazione p(x)=0.02 Pattern e/o Modelli Conoscenza

4 p(x)=0.02 Cogva Technologies Processo di KDD: ciclo virtuoso della conoscenza Architettura di un sistema KDD The KDD Process Interpretation and Evaluation 9 Problema Data Mining Selection and Preprocessing Data Patterns & Consolidation Models Warehouse Prepared Data Knowledge conoscenza Graphical User Interface Consolidated Data Data Sources Identifica problema/ opportunità Agisci sulla base della conoscenza Data Consolidation Selection and Preprocessing Data Mining Interpretation and Evaluation Strategia Misura effetti delle azioni risultati Data Sources Warehouse Knowledge Consolidamento dei Dati Garbage in Garbage out La qualità dei risultati dipende dalla qualità dei dati Il 50%-70% degli sforzi sul processo di KDD viene speso nella preparazione e il consolidamento dei dati Operazioni: Determinazione un insieme preliminare di attributi Integrazione di dati da sorgenti interne ed esterne Eliminazione e/o stima dei valori nulli Rimozione di outlier (eccezioni ovvie, picchi) Consolidamento dei Dati Da sorgenti eterogenee a un data warehouse RDBMS Legacy DBMS Flat Files External Data Consolidation and Cleaning Warehouse Object/Relation DBMS Multidimensional DBMS Deductive Database Flat files

5 Data Warehouse nel KDD Il processo di KDD Interpretazione e Valutazione Selezione e Pre-elaborazione Data Mining Integrazione e Consolidamento Data Warehouse Dati trasformati Sorgenti Dati Consolidati Interpretazione e Valutazione p(x)=0.02 Pattern e/o Modelli Conoscenza Integrazione e Consolidamento Sorgenti Selezione e Pre-elaborazione Dati Consolidati Data Mining Dati trasformati p(x)=0.02 Pattern e/o Modelli Conoscenza Selezione & Preprocessing Il Processo di KDD Generazione di un insieme di esempi scelta del metodo di sampling analisi della complessità del campione Riduzione delle dimensioni degli attributi rimozione di attributi ridondanti e/o correlati combinazione di attributi (somma, prodotto, differenza) Riduzione dei range di valori di attributi raggruppamento di valori simbolici o discreti discretizzazione dei valori continui Integrazione e Consolidamento Sorgenti Selezione e Pre-elaborazione Dati Consolidati Data Mining Dati trasformati Interpretazione e Valutazione p(x)=0.02 Pattern e/o Modelli Conoscenza

6 Data Mining Altri nomi: Data dredging, Data harvesting, Data archeology Un settore interdisciplinare: Data Mining: un approccio induttivo di analisi Tecniche deduttive ( Verification Verification--Driven ) Driven Toppassiva, atta a verificare se un certo modello Top-Down: Down: analisi passiva (ipotesi) è coerente con i dati a disposizione L ipotesi o il modello sono formulati dall utente sulla base della sua esperienza Strumenti: verifica di ipotesi (statistica), query language Tecniche induttive ( Discovery Discovery--Driven ) Driven Bottomattiva, in cui i dati stessi suggeriscono Bottom-Up: Up: analisi attiva possibili ipotesi sul significato del loro contenuto Individuazione di fatti, relazioni, tendenze, pattern, associazioni, eccezioni e anomalie, che sfuggono all analisi manuale Tuttavia molta enfasi è posta su: Applicazione a varie tipologie di dati Algoritmi efficienti e scalabili Uso di strutture di memorizzazione e di accesso Approccio deduttivo Query & Reporting Foglio Elettronico Analisi multidimensionale Analisi statistica Approccio induttivo (Data Mining) Riconoscimento di Forme Intelligenza Artificiale Visualizzazione Raccolta dei dati Generazione di una ipotesi Formulazione di una domanda Interpretazione dei risultati e revisione dell ipotesi... finchè non emerge un pattern interessante Conoscenza del dominio Apprendimento automatico simbolico Reti neurali Algoritmi Genetici Reti Bayesiane Apprendimento Dati Storici Modello Nuovi Dati

7 Categorie di algoritmi di Data Mining Formato dei dati DB relazionali, Transactional DBs, Time-series DB Object-oriented, Spaziali o Multimediali Flat file, Documenti testuali o ipertestuali Tipi di pattern estratti classificazione, clustering, associazioni, deviazioni, Pattern ibridi, o a livelli multipli di aggregazione Tecniche usate Database-oriented, modelli probabilistici, visualizzazione, reti neurali, alberi di decisione, programmi logici,.. Contesto applicativo DNA mining, Web mining, Weblog analysis, fraud analysis, Task/funzionalit funzionalità di Data Mining Predizione Classificazione Regressione Clustering Link Analysis Scoperta di Regole Associative Analisi di sequenze e di time-series Summarization Deviation Detection milarity matching (Sommario) Introduzione Motivazioni ed applicazioni Processo di Knowledge Discovery in DBs Fasi e caratteristiche Task di Data Mining Classificazione e regressione Scoperta di regole associative Clustering La classificazione Definizione del problema Misure di qualità Tecniche di classificazione Predizione: classificazione e regressione Obiettivo: indurre un modello in grado di prevedere il valore di un attributo target in base agli altri attributi Classificazione:il target assume valori discreti Tecniche: Alberi di decisione, Regole di classificazione, Classificazione Bayesiana, K-nearest neighbors, Case-based reasoning, Genetic algorithms, Rough sets, Fuzzy logic, Association-based classification, Regressione: il target assume valori continui Tecniche: Alberi di regressione, Reti neurali, regressione lineare e multipla, regressione non-lineare, regressione logistica e di Poisson, regressione log-lineare

8 Classificazione e apprendimento induttivo Framework di base per l Apprendimento Induttivo: Ambiente Testing Examples Esempio (classificazione) Problema: indurre un modello che separi le classi di forme (POS) e (NEG) : Attributi Color = {Red, Blue, Green, White} Shaded = {Yes, } Shape = {Square, Triangle, Circle, Oval} ze = {Small, Large} Esempi (training set): Training Examples stema di Apprendimento Modello Indotto (POS) a b c d e f g h i (x, f(x)) h(x) = ~ f(x)? Un problema di rappresentazione e ricerca della migliore ipotesi, h(x). Output Classification (x, h(x)) (NEG) m n p q r s t Esempio: modello indotto (albero di decisione ) { b,g} { m,t} {e} Triangle Blue { d,e,f,h} { n,q} Square Red Shape Oval Color Green { c } { p,r,s } {a-i} { m-t} Circle White {f} {d,h} { n} + ze + - { q} Large Small {f} { q} Shaded + { a,i } Nuovi Esempi e 1 : - Regole di decisione Regole espresse in forma logica: (Calcolo Proposizionale o Calcolo dei Predicati) (forma = quadrato or triangolo) and (dimensione = piccolo) => POS (forma = triangolo) and (tratteggiato = SI) => NEG POS NEG Classificazione POS, NEG Yes {f} + - { q} e 2 : + e 1 e 2 e 3

9 Clustering Clustering Clustering: Partizionamento dei dati in un insieme di classi non note a-priori (cluster) Qualità della partizione: Alta omogeneità intra-classe Bassa omogeneità inter-classe In genere si basa su una misura di similarità/distanza Esempi di applicazione: Customer segmentation compressione dei dati suddivisione di corpora di documenti Clustering: algoritmi Partizionali distance-based: K-means Gerarchici Agglomerativi o divisivi single link o complete link Model-Based Approcci Statistici Neural network Altri metodi: Density-Based Grid-Based Clustering: algoritmo K-means Input: Dati = tuple con attributi numerici (esistono varianti per dati categorici) numero K di cluster desiderati Criterio: minimizzare la somma dei quadrati delle distanze di ogni punto dal centro del suo cluster Algoritmo: Fissa una partizione iniziale (random) in K cluster Ripeti fino a che non si abbia nessuna variazione: Assegna ogni punto al centro più vicino Genera i nuovi centri

10 Clustering: K-Means Clustering Gerarchico Esempio Raggruppano/Separano I dati sulla base di una matrice di distanze (o similarità) La distanza fra due cluster è calcolata in funzione delle distanze fra le istanze che rispettivamente contengono Step 0 Step 1 Step 2 Step 3 Step 4 a a b b a b c d e c c d e d d e e Step 4 Step 3 Step 2 Step 1 Step 0 agglomerativo (AGNES) divisivo (DIANA) Regole associative Scoperta di Regole Associative Task di natura esplorativa: scoperta di associazioni tra fatti, proprietà o valori di variabili ( link analysis ) Dati: insieme di transazioni es. carrello della spesa di un cliente ogni transazione é un insieme di item (itemset) es.: prodotti nel carrello Obiettivo: trovare tutte le regole che correlano la presenza di un insieme di item con un altro insieme di item Es.: 98% delle persone che comprano {pannolini, cibo per bebè} comprano anche {birra}.

11 Regole associative: qualità delle regole L utente specifica soglie minime che le regole estratte devono essere superare, per alcune misure di qualità (interestingness) Supporto (indice di significatività) 1 & 2 => 3 ha confidenza 5% se si applica nel 5% dei casi Confidenza (indice di validità) 1 & 2 => 3 ha confidenza 90% se quando viene acquistato 1 e 2, nel 90% dei casi viene acquistato anche 3. può essere sviante: non implica causalità, non riconosce correlazioni negative né indipendenza Altre misure: Misura di correlazione (es.: lift, Interest) Soggettive: cercano di catturare novità e utilità delle regole Regole Associative: Esempio Transaction ID Purchased Items 1 {1, 2, 3} 2 {1, 4} 3 {1, 3} 4 {2, 5, 6} Per un supporto minimo del 50%, e confidenza minima del 50%, troviamo le seguenti regole 1 => 3 con 50% supporto e 66% confidenza 3 => 1 con 50% supporto e 100% confidenza Regole associative: ricerca Algoritmo Apriori: Principio: ogni sottoinsieme di un itemset frequente è frequente Fase 1: Trova tutti gli itemset che hanno un supporto minimo usa (k 1)-itemset frequenti per generare k-itemset candidati database scan and pattern matching per verificare frequenza Fase2: Genera le regole a partire dagli itemset frequenti trovati La fase1 è costosa: spazio di ricerca enorme! Miglioramenti: Ottimizzare la ricerca degli itemset frequenti Campionamento, Dynamic itemset counting (aggiunge un nuovo candidato solo quando tutti i suoi sottoinsiemi sono stimati come frequenti), Hash-based itemset counting, Transaction reduction Evitare di generare tutti itemset candidati (es, algoritmo FP-tree) Il Processo di KDD Integrazione e Consolidamento Sorgenti Selezione e Pre-elaborazione Dati Consolidati Data Mining Dati trasformati Interpretazione e Valutazione p(x)=0.02 Pattern e/o Modelli Conoscenza

12 Interpretazione e valutazione Interpretazione Alberi e regole logiche possono essere interpretati facilmente Risultati di clustering possono essere graficati/tabellati In generale, tool di visualizzazione possono essere molto utili per interpretare i risultati Valutazione Validazione statistica e test di significanza Analisi qualitativa da parte di esperti del dominio Test del modello su casi di esempio per valutarne la bontà (es., accuratezza) Sono tutti interessanti i pattern scoperti? Un sistema di mining può generare migliaia di pattern Pattern interessanti: Facilmente comprensibili Validi su nuovi dati di test con un certo grado di certezza Potenzialmente utili per processi decisionali Nuovi o confermano ipotesi che si cercava di validare Misure Oggettive vs. Soggettive Oggettive: basate su statistiche e struttura dei pattern (e.g., supporto, confidenza, lunghezza della descrizione, etc.) Soggettive: basate su conoscenza pregressa e aspettative degli utenti (e.g., novità, etc.) Completezza/Precisione di un processo di data mining Completezza: Trova tutti i pattern interessanti E possibile in un tempo ragionevole? Correttezza: Trova solo pattern interessanti E possibile non commettere errori e trovare solo pattern interessanti? Possibili approcci: generano tutti i pattern che potrebbero essere interessanti e poi si eliminano quelli che non lo sono Generare solo pattern interessanti (è possibile perdere in completezza) (Sommario) Introduzione Motivazioni ed applicazioni Processo di Knowledge Discovery in DBs Fasi e caratteristiche Task di Data Mining Classificazione e regressione Scoperta di regole associative Clustering La classificazione Definizione del problema Misure di qualità Tecniche di classificazione

13 Intuizioni sul concetto di classificazione Descrivete i vostri clienti migliori in base ad età ed al numero di visite nell ultimo periodo! 35 Molti_Acquisti Pochi_Acquisti Visite Eta' ora provate a prevedere Una possibile soluzione la tipologia di due nuovi clienti, in base a età e numero visite 35 Molti_Acquisti Pochi_Acquisti Nuovi Visite Eta'

14 rappresentata graficamente Visite Età <= 26 Età >= 38 Molti_Acquisti Pochi_Acquisti Nuovi Visite > Eta' Il processo seguito Individuazione di una caratteristica interessante dei clienti: attributo classe Numero di acquisti (fare molti acquisti o pochi acquisti) Individuazione di altri attributi meno interessanti, ma che possono influenzare la classe Età, Numero di visite Raccolta di dati storici di cui si conoscono TUTTI gli attributi: training set 19 clienti di cui si conoscono TUTTI gli attributi Induzione di un modello di CLASSIFICAZIONE a partire dai dati storici: descrive la dipendenza della classe dagli altri attributi tale descrizione cerca di essere accurata, concisa, informativa CLASSIFICAZIONE: uso del modello per prevedere il valore della classe per un nuovo caso (cliente) Classificazione e predizione: input Un insieme di esempi (dette istanze o casi) che descrivono un concetto (detto classe) sulla base di attributi (detti anche features) outlook temperature humidity windy classe sunny false Don't Play sunny true Don't Play overcast false Play rain false Play rain false Play rain true Don't Play overcast true Play sunny false Don't Play sunny false Play rain false Play sunny true Play overcast true Play overcast false Play rain true Don't Play Classificazione e predizione: input La classe e gli attributi possono assume valori : continui (es. numeri reali) Due valori sono confrontabili ed esiste una nozione di distanza Esempi: età, reddito, costo, temperatura, ecc. ordinali (elementi di insiemi finiti ed ordinati) Due valori sono confrontabili, ma non esiste una distanza Esempi: { freddo, tiepido, caldo }, {insufficiente, buono, ottimo } discreti (elementi di insiemi finiti e non ordinati) Due valori non sono tra loro confrontabili Esempi: { nuvoloso, soleggiato, ventoso }, { alimentari, elettrodom., abbigliamento } Discretizzazione: trasformazione di valori continui in ordinali o discreti

15 Classificazione e predizione A partire dagli esempi viene costruito un modello in grado di descrivere il valore della classe in base a quello degli altri attributi Quando la classe assume valori discreti, si parla di classificazione: Alberi di decisione, Regole di classificazione, Classificazione Bayesiana, K-nearest neighbors, Case-based reasoning, Genetic algorithms, Rough sets, Fuzzy logic, Association-based classification Quando la classe assume valori continui, si parla di predizione numerica Alberi di regressione, Reti neurali, regressione lineare e multipla, regressione non-lineare, regressione logistica e di Poisson, regressione log-lineare Classificazione come apprendimento induttivo Classificazione - Definizioni La classificazione è un processo di apprendimento supervisionato le classi sono note a priori e si dispone di esempi già classificati Ipotesi dell apprendimento induttivo: << Se un modello, indotto da un insieme di esempi abbastanza rappresentativo, ne riconosce le classi in modo accurato, sarà accurato anche nel riconoscere la classe degli altri oggetti del dominio >> Denominazioni alternative (più appropriate) per il processo di classificazione: Apprendimento di Concetti (classi) Induzione di Classificatori stemi di apprendimento induttivo Framework di base per l Apprendimento Induttivo Training set (x, f(x)) Ambiente stema di Apprendimento h(x) = ~ f(x)? Un problema di rappresentazione e ricerca della migliore ipotesi, h(x). Test set Modello Indotto Predizione su un nuovo caso (q, h(q))

16 Valutazione di un modello di classificazione (classificatore) Capacità descrittiva: comprensibilità della conoscenza rappresentata dal modello numero di nodi dell albero di decisione, numero di regole, Capacità predittiva: capacità di classificare correttamente oggetti del dominio accuratezza: numero di oggetti classificati correttamente sul numero totale di oggetti classificati errore di classificazione: 1 accuratezza L accuratezza teorica (sul dominio) può essere stimata: su un test-set (indipendente dal training set), cioè un insieme di oggetti del dominio di cui è nota la classe sullo stesso training set, inducendo vari modelli su campioni di esso: Cross-Validation Errore e di Classificazione x = attributi di input c = classe effettiva h = ipotesi (modello) - - Where c and h disagree Example Space X(x,c(x)) c + h + - Il true error di una ipotesi h è la probabilità che h classificherà male una istanza selezionata a caso da X, err(h) = P[c(x) h(x)] - Accuratezza del modello di classificazione Cerchiamo una misura della bontà di un modello accuratezza percentuale di esempi la cui classe predetta coincide con la classe reale % di misclassificazione percentuale di esempi la cui classe predetta NON coincide con la classe reale di quali esempi? Di esempi di cui si conosce la classe reale! L accuratezza sugli esempi del training set è ottimistica È facile costruire un modello accurato al 100% sul training set Accuratezza: metodo holdout Test set insieme di esempi indipendenti dal training set di ciascun esempio si conoscono gli attributi e la classe reale Metodo holdout valutare l accuratezza del modello sul test set dato un insieme di esempi lo si divide (casualmente) in una percentuale per il training ed una per il test set (in genere 2/3 per il training e 1/3 per il test set)

17 Accuratezza: stratified cross-validation validation Metodo stratified n-fold cross-validation dividono gli esempi in n insiemi S1,, Sn delle stesse dimensioni e con stessa distribuzione delle classi Per ciascuno insieme costruisce un classificatore sugli altri n-1 insiemi usa l insieme come insieme di test del classificatore L accuratezza finale è data dalla media delle accuratezze degli n classificatori Metodo standard: n = 10, stratified 10-fold cross validation Accuratezza: limiti inferiori Accuratezza di un classificatore casuale classificatore che in modo casuale classifica in una delle k possibili classi accuratezza = 1 / k * 100 esempio: per k = 2 l accuratezza è del 50% Qualsiasi classificatore deve fare almeno meglio del classificatore casuale! Accuratezza di un classificatore a maggioranza classificatore che classifica sempre come la classe di maggioranza nel training set (supponendo la stessa percentuale nella popolazione) accuratezza >= 1 / k * 100 esempio: con due classi rappresentate al 98% e al 2% nel training set, l accuratezza è del 98% Matrice di confusione Name Gender Height Output1 Actual Output2 Pred. Kristina F 1.6m Short Medium Jim M 2m Tall Medium Maggie F 1.9m Medium Tall Martha F 1.88m Medium Tall Stephanie F 1.7m Short Medium Bob M 1.85m Medium Medium Kathy F 1.6m Short Medium Dave M 1.7m Short Medium Worth M 2.2m Tall Tall Steven M 2.1m Tall Tall Debbie F 1.8m Medium Medium Todd M 1.95m Medium Medium Kim F 1.9m Medium Tall Amy F 1.8m Medium Medium Wynette F 1.75m Medium Medium Confusion matrix: colonne: classi predette righe: classi effettive cella (i,j): istanze della classe i che il modello assegna alla classe j Le predizioni corrette sono sulla diagonale Fuori dalla diagonale: predizioni sbagliate (misclassifications) Actual Assignment Membership Short Medium Tall Short Medium Tall Accuratezza rispetto ad d una data classe Il modello riconosce la classe C (e.g., play)? True Positives (TP): istanze di C assegnate a C True Negatives (TN): istanze di altre classi non assegnate a C False Positives (FP): istanze di altre classi assegnate a C (errore!) False Negatives (FN): istanze di C assegnate ad un altra classe (errore!) Precisione: TP/(TP+FP) True Positive % di istanze assegnate a C che effettivamente appartengono a C (correctness measure) False Positive Recall: TP/(TP+FN) % di istanze di C che sono assegnate a C (completeness measure) F-measure: (2*recall*precision) / (recall+precision) Actual Assignment Membership Short Medium Tall Short (FP) Medium (FP) Tall 0 (FN) 1 (FN) 2 (TP) False Negative True Negative

18 Tecniche di classificazione Classificazione Tipi di modelli Vari tipi di modelli di classificazione Differiscono per il formalismo utilizzato per rappresentare la funzione di classificazione (Linguaggio delle ipotesi) Alcuni tipi di modelli (classificatori): Basati sugli esempi (es. Nearest neighbor) memorizzano tutti gli esempi del training set ed assegnano la classe ad un oggetto valutando la somiglianza con gli esempi memorizzati (la cui classe è nota) Matematici (es. Reti Neurali Artificiali, SVM) la funzione di classificazione è una funzione matematica, di cui si memorizzano i vari parametri Classificazione Tipi di modelli alcuni tipi di modelli (classificatori): Algoritmi di induzione di alberi di decisione Statistici memorizzano i parametri delle varie distribuzioni di probabilità relative alle classi ed agli attributi per classificare un generico oggetto si possono stimare le probabilità di appartenenza alle varie classi es.: Naive Bayes Logici la funzione di classificazione è espressa mediante condizioni logiche sui valori degli attributi es.: Alberi e Regole di Decisione

19 Classificazione: Un esempio Classificazione: Un esempio Dominio: possibili giornate,descritte dai 4 attributi (Tempo, Temperatura, Umidità, Vento) 2 classi: = {giornate in cui è opportuno giocare} = {giornate in cui non è opportuno giocare} vuole indurre un modello di classificazione Per prevedere se in una generica giornata si può giocare o no in base ai valori degli attributi training set: 14 giornate di cui è nota la classe Tempo Temper.(.( F) Umidità Vento Soleggiato Soleggiato Nuvoloso Piovoso Piovoso Piovoso Nuvoloso Soleggiato Soleggiato Piovoso Soleggiato Nuvoloso Nuvoloso Piovoso Classe n si gioca n si gioca n si gioca n si gioca n si gioca Alberi di decisione Alberi di decisione soleggiato tempo nuvoloso piovoso umidità vento <=75 >75 sì no n si gioca n si gioca SE (Tempo=piovoso E Vento=no) ALLORA (Classe= Gioca) ogni nodo interno n è associato ad un attributo A(n) ogni arco uscente dal nodo n è associato ad un insieme di valori di A ogni foglia è etichettata con il valore atteso della classe per gli oggetti descritti dal cammino che collega la foglia alla radice Un albero di decisione equivale ad un insieme di regole logiche mutuamente esclusive (una( regola per ogni foglia) Predizione : applicazione della funzione di classificazione ad un nuovo oggetto Es.: l albero assegna la classe Gioca alla giornata G (Tempo=Piovoso,Temperatura=79,Umidità=85, Vento=no) umidità tempo soleggiato nuvoloso piovoso vento <=75 >75 sì no n si gioca n si gioca giornata G Tempo = Piovoso Temperatura = 79 Umidità = 85 Vento = no

20 Algoritmi di induzione di alberi di decisione: storia Algoritmi sviluppati indipendentemente negli anni 60 e 70 da ricercatori di: Statistica: L. Breiman & J. Friedman - CART (Classification and Regression Trees) Pattern Recognition: Univ. Michigan - AID G.V. Kass - CHAID (Chi-squared Automated Interaction Detection) Intelligenza Artificiale e Teoria dell Informazione: R. Quinlan - ID3 (Iterative Dichotomizer) R. Quinlan - C4.5 Indurre un albero di decisione Dati: Un insieme di esempi con classi negative e positive Problema: Generare un modello ad albero di decisione per classificare un insieme separato di esempi con un errore minimale Approccio: (Occam s Razor) produrre il modello più semplice che sia consistente con gli esempi di training Formalmente: Trovare l albero più semplice in assoluto è un problema intrattabile Come produrre un albero ottimale? Strategia (euristica): sviluppa l albero in maniera top-down piazza la variabile di test più importante alla radice di ogni sottoalbero successivo La variabile più importante: La variabile che ha la maggiore attendibilità nel distinguere l insieme degli esempi di training la variabile che ha la relazione più significativa con l attributo target alla quale il risultato sia dipendente più che per le altre (o meno indipendente) Schema per l induzione l di alberi (usato, e.g., in ID3 e J48) Costruzione top-down dell albero, per partizionamenti successivi: 1. Crea il nodo radice e assegnagli tutto il training-set 2. Per il nodo corrente: se tutti gli esempi del nodo corrente hanno la stessa classe C, etichetta tale nodo (foglia) con C e stop per ogni possibile test di partizionamento (test di splitting) valuta una misura di rilevanza (indice di splitting) sui gruppi ottenuti partizionando l insieme di esempi del nodo sulla base del test associa al nodo l attributo che massimizza l indice di splitting per ogni valore del test di splitting crea un nodo figlio etichetta l arco corrispondente con la condizione di split ed assegna al nodo figlio gli esempi che verificano tale condizione 3. Per ogni nuovo nodo creato ripeti il passo 2

Knowledge Discovery e Data Mining

Knowledge Discovery e Data Mining Sommario Knowledge Discovery e Mining Introduzione Motivazioni ed applicazioni ll processo di KDD Fasi e caratteristiche Le tecniche di DM Classificazione e regressione Scoperta di regole associative Clustering

Dettagli

Classificazione e Predizione

Classificazione e Predizione Lezione di TDM DM del 16 Aprile 2007 Francesco Bonchi, KDD Lab Pisa, ISTI-C.N.R. 1 Lezione odierna Intuizioni sul concetto di classificazione Alberi di decisione Alberi di decisione con Weka Classificazione:

Dettagli

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali DIPARTIMENTO DI INGEGNERIA INFORMATICA AUTOMATICA E GESTIONALE ANTONIO RUBERTI Cenni al Data Mining 1 Data Mining nasce prima del Data Warehouse collezione di tecniche derivanti da Intelligenza Artificiale,

Dettagli

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida Introduzione alle tecniche di Data Mining Prof. Giovanni Giuffrida Programma Contenuti Introduzione al Data Mining Mining pattern frequenti, regole associative Alberi decisionali Clustering Esempio di

Dettagli

Data mining e rischi aziendali

Data mining e rischi aziendali Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento

Dettagli

Uno standard per il processo KDD

Uno standard per il processo KDD Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo

Dettagli

Data Warehousing (DW)

Data Warehousing (DW) Data Warehousing (DW) Il Data Warehousing è un processo per estrarre e integrare dati storici da sistemi transazionali (OLTP) diversi e disomogenei, e da usare come supporto al sistema di decisione aziendale

Dettagli

Ricerca di outlier. Ricerca di Anomalie/Outlier

Ricerca di outlier. Ricerca di Anomalie/Outlier Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

Progettazione di Basi di Dati

Progettazione di Basi di Dati Progettazione di Basi di Dati Prof. Nicoletta D Alpaos & Prof. Andrea Borghesan Entità-Relazione Progettazione Logica 2 E il modo attraverso il quale i dati sono rappresentati : fa riferimento al modello

Dettagli

Organizzazione degli archivi

Organizzazione degli archivi COSA E UN DATA-BASE (DB)? è l insieme di dati relativo ad un sistema informativo COSA CARATTERIZZA UN DB? la struttura dei dati le relazioni fra i dati I REQUISITI DI UN DB SONO: la ridondanza minima i

Dettagli

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino DataBase and Data Mining Group of Database and data mining group, Database and data mining group, DataBase and Data Mining Group of DataBase and Data Mining Group of So dati insieme di classi oggetti etichettati

Dettagli

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da

Dettagli

SVM. Veronica Piccialli. Roma 11 gennaio 2010. Università degli Studi di Roma Tor Vergata 1 / 14

SVM. Veronica Piccialli. Roma 11 gennaio 2010. Università degli Studi di Roma Tor Vergata 1 / 14 SVM Veronica Piccialli Roma 11 gennaio 2010 Università degli Studi di Roma Tor Vergata 1 / 14 SVM Le Support Vector Machines (SVM) sono una classe di macchine di che derivano da concetti riguardanti la

Dettagli

MACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it

MACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it MACHINE LEARNING e DATA MINING Introduzione a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it Apprendimento Automatico(i) Branca dell AI che si occupa di realizzare dispositivi artificiali capaci di

Dettagli

Introduzione al Data Mining

Introduzione al Data Mining Introduzione al Data Mining Sistemi informativi per le Decisioni Slide a cura di Prof. Claudio Sartori Evoluzione della tecnologia dell informazione (IT) (Han & Kamber, 2001) Percorso evolutivo iniziato

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Data Mining. Introduzione La crescente popolarità

Dettagli

Regressione non lineare con un modello neurale feedforward

Regressione non lineare con un modello neurale feedforward Reti Neurali Artificiali per lo studio del mercato Università degli studi di Brescia - Dipartimento di metodi quantitativi Marco Sandri (sandri.marco@gmail.com) Regressione non lineare con un modello neurale

Dettagli

Università di Pisa A.A. 2004-2005

Università di Pisa A.A. 2004-2005 Università di Pisa A.A. 2004-2005 Analisi dei dati ed estrazione di conoscenza Corso di Laurea Specialistica in Informatica per l Economia e per l Azienda Tecniche di Data Mining Corsi di Laurea Specialistica

Dettagli

Data Mining in SAP. Alessandro Ciaramella

Data Mining in SAP. Alessandro Ciaramella UNIVERSITÀ DI PISA Corsi di Laurea Specialistica in Ingegneria Informatica per la Gestione d Azienda e Ingegneria Informatica Data Mining in SAP A cura di: Alessandro Ciaramella La Business Intelligence

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

VC-dimension: Esempio

VC-dimension: Esempio VC-dimension: Esempio Quale è la VC-dimension di. y b = 0 f() = 1 f() = 1 iperpiano 20? VC-dimension: Esempio Quale è la VC-dimension di? banale. Vediamo cosa succede con 2 punti: 21 VC-dimension: Esempio

Dettagli

Data warehouse Introduzione

Data warehouse Introduzione Database and data mining group, Data warehouse Introduzione INTRODUZIONE - 1 Pag. 1 Database and data mining group, Supporto alle decisioni aziendali La maggior parte delle aziende dispone di enormi basi

Dettagli

Pro e contro delle RNA

Pro e contro delle RNA Pro e contro delle RNA Pro: - flessibilità: le RNA sono approssimatori universali; - aggiornabilità sequenziale: la stima dei pesi della rete può essere aggiornata man mano che arriva nuova informazione;

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 4 Reti neurali per la classificazione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com

Dettagli

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo Distributed P2P Data Mining Autore: (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo A.A. 2005/2006 Il settore del Data Mining Distribuito (DDM): Data Mining: cuore del processo

Dettagli

MODELLO RELAZIONALE. Introduzione

MODELLO RELAZIONALE. Introduzione MODELLO RELAZIONALE Introduzione E' stato proposto agli inizi degli anni 70 da Codd finalizzato alla realizzazione dell indipendenza dei dati, unisce concetti derivati dalla teoria degli insiemi (relazioni)

Dettagli

DATABASE RELAZIONALI

DATABASE RELAZIONALI 1 di 54 UNIVERSITA DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI DISCIPLINE STORICHE ETTORE LEPORE DATABASE RELAZIONALI Dott. Simone Sammartino Istituto per l Ambiente l Marino Costiero I.A.M.C. C.N.R.

Dettagli

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE Arricchimento dei dati del sottoscrittore / user Approccio Tradizionale Raccolta dei dati personali tramite contratto (professione, dati sul nucleo familiare, livello

Dettagli

Lezione 1. Introduzione e Modellazione Concettuale

Lezione 1. Introduzione e Modellazione Concettuale Lezione 1 Introduzione e Modellazione Concettuale 1 Tipi di Database ed Applicazioni Database Numerici e Testuali Database Multimediali Geographic Information Systems (GIS) Data Warehouses Real-time and

Dettagli

Introduzione all Information Retrieval

Introduzione all Information Retrieval Introduzione all Information Retrieval Argomenti della lezione Definizione di Information Retrieval. Information Retrieval vs Data Retrieval. Indicizzazione di collezioni e ricerca. Modelli per Information

Dettagli

1. BASI DI DATI: GENERALITÀ

1. BASI DI DATI: GENERALITÀ 1. BASI DI DATI: GENERALITÀ BASE DI DATI (DATABASE, DB) Raccolta di informazioni o dati strutturati, correlati tra loro in modo da risultare fruibili in maniera ottimale. Una base di dati è usualmente

Dettagli

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI

CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI VERO FALSO CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI 1. V F Un ipotesi statistica è un assunzione sulle caratteristiche di una o più variabili in una o più popolazioni 2. V F L ipotesi nulla unita

Dettagli

Basi di Dati Relazionali

Basi di Dati Relazionali Corso di Laurea in Informatica Basi di Dati Relazionali a.a. 2009-2010 PROGETTAZIONE DI UNA BASE DI DATI Raccolta e Analisi dei requisiti Progettazione concettuale Schema concettuale Progettazione logica

Dettagli

Ciclo di vita dimensionale

Ciclo di vita dimensionale aprile 2012 1 Il ciclo di vita dimensionale Business Dimensional Lifecycle, chiamato anche Kimball Lifecycle descrive il framework complessivo che lega le diverse attività dello sviluppo di un sistema

Dettagli

La Metodologia adottata nel Corso

La Metodologia adottata nel Corso La Metodologia adottata nel Corso 1 Mission Statement + Glossario + Lista Funzionalià 3 Descrizione 6 Funzionalità 2 Schema 4 Schema 5 concettuale Logico EA Relazionale Codice Transazioni In PL/SQL Schema

Dettagli

Database. Si ringrazia Marco Bertini per le slides

Database. Si ringrazia Marco Bertini per le slides Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida

Dettagli

Informatica Generale Andrea Corradini. 19 - Sistemi di Gestione delle Basi di Dati

Informatica Generale Andrea Corradini. 19 - Sistemi di Gestione delle Basi di Dati Informatica Generale Andrea Corradini 19 - Sistemi di Gestione delle Basi di Dati Sommario Concetti base di Basi di Dati Il modello relazionale Relazioni e operazioni su relazioni Il linguaggio SQL Integrità

Dettagli

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Un po di statistica. Christian Ferrari. Laboratorio di Matematica Un po di statistica Christian Ferrari Laboratorio di Matematica 1 Introduzione La statistica è una parte della matematica applicata che si occupa della raccolta, dell analisi e dell interpretazione di

Dettagli

Progettaz. e sviluppo Data Base

Progettaz. e sviluppo Data Base Progettaz. e sviluppo Data Base! Progettazione Basi Dati: Metodologie e modelli!modello Entita -Relazione Progettazione Base Dati Introduzione alla Progettazione: Il ciclo di vita di un Sist. Informativo

Dettagli

Il database management system Access

Il database management system Access Il database management system Access Corso di autoistruzione http://www.manualipc.it/manuali/ corso/manuali.php? idcap=00&idman=17&size=12&sid= INTRODUZIONE Il concetto di base di dati, database o archivio

Dettagli

Ottimizzazione delle interrogazioni (parte I)

Ottimizzazione delle interrogazioni (parte I) Ottimizzazione delle interrogazioni I Basi di Dati / Complementi di Basi di Dati 1 Ottimizzazione delle interrogazioni (parte I) Angelo Montanari Dipartimento di Matematica e Informatica Università di

Dettagli

Codifiche a lunghezza variabile

Codifiche a lunghezza variabile Sistemi Multimediali Codifiche a lunghezza variabile Marco Gribaudo marcog@di.unito.it, gribaudo@elet.polimi.it Assegnazione del codice Come visto in precedenza, per poter memorizzare o trasmettere un

Dettagli

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati Data mining Il consente l informazione processo di Data Mining estrarre automaticamente informazioneda un insieme di dati telefoniche, ènascostaa a causa di fra quantitàdi loro, complessità: non... ci

Dettagli

ISTITUTO TECNICO ECONOMICO MOSSOTTI

ISTITUTO TECNICO ECONOMICO MOSSOTTI CLASSE III INDIRIZZO S.I.A. UdA n. 1 Titolo: conoscenze di base Conoscenza delle caratteristiche dell informatica e degli strumenti utilizzati Informatica e sistemi di elaborazione Conoscenza delle caratteristiche

Dettagli

I Sistemi Informativi

I Sistemi Informativi I Sistemi Informativi Definizione Un Sistema Informativo è un mezzo per acquisire, organizzare, correlare, elaborare e distribuire le informazioni che riguardano una realtà che si desidera descrivere e

Dettagli

Suggerimenti per l approccio all analisi dei dati multivariati

Suggerimenti per l approccio all analisi dei dati multivariati Suggerimenti per l approccio all analisi dei dati multivariati Definizione degli obbiettivi Il primo passo è la definizione degli obbiettivi. Qual è l obbiettivo della sperimentazione i cui dati dovete

Dettagli

Progettaz. e sviluppo Data Base

Progettaz. e sviluppo Data Base Progettaz. e sviluppo Data Base! Introduzione ai Database! Tipologie di DB (gerarchici, reticolari, relazionali, oodb) Introduzione ai database Cos è un Database Cos e un Data Base Management System (DBMS)

Dettagli

Regressione logistica. Strumenti quantitativi per la gestione

Regressione logistica. Strumenti quantitativi per la gestione Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 1/25 Metodi di classificazione I metodi usati per analizzare

Dettagli

Marketing relazionale

Marketing relazionale Marketing relazionale Introduzione Nel marketing intelligence assume particolare rilievo l applicazione di modelli predittivi rivolte a personalizzare e rafforzare il legame tra azienda e clienti. Un azienda

Dettagli

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L. DATA WAREHOUSE Un Dataware House può essere definito come una base di dati di database. In molte aziende ad esempio ci potrebbero essere molti DB, per effettuare ricerche di diverso tipo, in funzione del

Dettagli

Segmentazione del mercato e scelta del target

Segmentazione del mercato e scelta del target Segmentazione del mercato e scelta del target 1 DEFINIZIONE DEL MERCATO: PROCESSO A PIU STADI LIVELLI DI SEGMENTAZIONE (Lambin): 1. Segmentazione strategica: identifica grandi settori di attività CORPORATE

Dettagli

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:

1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: Esempi di domande risposta multipla (Modulo II) 1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: 1) ha un numero di elementi pari a 5; 2) ha un numero di elementi

Dettagli

Algoritmi e strutture dati. Codici di Huffman

Algoritmi e strutture dati. Codici di Huffman Algoritmi e strutture dati Codici di Huffman Memorizzazione dei dati Quando un file viene memorizzato, esso va memorizzato in qualche formato binario Modo più semplice: memorizzare il codice ASCII per

Dettagli

PROVA FINALE V. AULETTA G. PERSIANO ALGORITMI II - -MAGIS INFO

PROVA FINALE V. AULETTA G. PERSIANO ALGORITMI II - -MAGIS INFO PROVA FINALE V. AULETTA G. PERSIANO ALGORITMI II - -MAGIS INFO 1. Load Balancing Un istanza del problema del load balancing consiste di una sequenza p 1,..., p n di interi positivi (pesi dei job) e un

Dettagli

Basi di dati. Il Modello Relazionale dei Dati. K. Donno - Il Modello Relazionale dei Dati

Basi di dati. Il Modello Relazionale dei Dati. K. Donno - Il Modello Relazionale dei Dati Basi di dati Il Modello Relazionale dei Dati Proposto da E. Codd nel 1970 per favorire l indipendenza dei dati Disponibile come modello logico in DBMS reali nel 1981 (non è facile realizzare l indipendenza

Dettagli

Corso di Psicometria Progredito

Corso di Psicometria Progredito Corso di Psicometria Progredito 3.1 Introduzione all inferenza statistica Prima Parte Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014

Dettagli

Algoritmi di clustering

Algoritmi di clustering Algoritmi di clustering Dato un insieme di dati sperimentali, vogliamo dividerli in clusters in modo che: I dati all interno di ciascun cluster siano simili tra loro Ciascun dato appartenga a uno e un

Dettagli

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?) Ambiente Access La Guida di Access Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?) Guida in linea Guida rapida Assistente di Office indicazioni

Dettagli

Altri metodi di indicizzazione

Altri metodi di indicizzazione Organizzazione a indici su più livelli Altri metodi di indicizzazione Al crescere della dimensione del file l organizzazione sequenziale a indice diventa inefficiente: in lettura a causa del crescere del

Dettagli

La Progettazione Concettuale

La Progettazione Concettuale La Progettazione Concettuale Università degli Studi del Sannio Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica CorsodiBasidiDati Anno Accademico 2006/2007 docente: ing. Corrado Aaron Visaggio

Dettagli

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale Esperienze di Apprendimento Automatico per il corso di lippi@dsi.unifi.it Dipartimento Sistemi e Informatica Università di Firenze Dipartimento Ingegneria dell Informazione Università di Siena Introduzione

Dettagli

Introduzione a data warehousing e OLAP

Introduzione a data warehousing e OLAP Corso di informatica Introduzione a data warehousing e OLAP La Value chain Information X vive in Z S ha Y anni X ed S hanno traslocato Data W ha del denaro in Z Stile di vita Punto di vendita Dati demografici

Dettagli

Database: collezione di fatti, registrabili e con un ben preciso significato, relazionati fra di loro

Database: collezione di fatti, registrabili e con un ben preciso significato, relazionati fra di loro Database relazionali: un'introduzione Database: collezione di fatti, registrabili e con un ben preciso significato, relazionati fra di loro Rappresentazione astratta di aspetti del mondo reale (Universe

Dettagli

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video

Librerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video Video Librerie digitali Gestione di video Ogni filmato è composto da più parti Video Audio Gestito come visto in precedenza Trascrizione del testo, identificazione di informazioni di interesse Testo Utile

Dettagli

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo Evoluzione In ogni popolazione si verificano delle mutazioni. Intelligenza Artificiale In un ambiente che varia, le mutazioni possono generare individui che meglio si adattano alle nuove condizioni. Questi

Dettagli

Introduzione alla teoria dei database relazionali. Come progettare un database

Introduzione alla teoria dei database relazionali. Come progettare un database Introduzione alla teoria dei database relazionali Come progettare un database La struttura delle relazioni Dopo la prima fase di individuazione concettuale delle entità e degli attributi è necessario passare

Dettagli

Rassegna sui principi e sui sistemi di Data Warehousing

Rassegna sui principi e sui sistemi di Data Warehousing Università degli studi di Bologna FACOLTA DI SCIENZE MATEMATICHE, FISICHE E NATURALI Rassegna sui principi e sui sistemi di Data Warehousing Tesi di laurea di: Emanuela Scionti Relatore: Chiar.mo Prof.Montesi

Dettagli

Stimare il WCET Metodo classico e applicazione di un algoritmo genetico

Stimare il WCET Metodo classico e applicazione di un algoritmo genetico Stimare il WCET Metodo classico e applicazione di un algoritmo genetico Sommario Introduzione Definizione di WCET Importanza del WCET Panoramica dei classici metodi per calcolare il WCET [1] Utilizzo di

Dettagli

ANALISI DELLE FREQUENZE: IL TEST CHI 2

ANALISI DELLE FREQUENZE: IL TEST CHI 2 ANALISI DELLE FREQUENZE: IL TEST CHI 2 Quando si hanno scale nominali o ordinali, non è possibile calcolare il t, poiché non abbiamo medie, ma solo frequenze. In questi casi, per verificare se un evento

Dettagli

STRATEGIA DI TRADING. Turning Points

STRATEGIA DI TRADING. Turning Points STRATEGIA DI TRADING Turning Points ANALISI E OBIETTIVI DA RAGGIUNGERE Studiare l andamento dei prezzi dei mercati finanziari con una certa previsione su tendenze future Analisi Tecnica: studio dell andamento

Dettagli

Piano di gestione della qualità

Piano di gestione della qualità Piano di gestione della qualità Pianificazione della qualità Politica ed obiettivi della qualità Riferimento ad un eventuale modello di qualità adottato Controllo della qualità Procedure di controllo.

Dettagli

Sommario. Analysis & design delle applicazioni parallele. Misura delle prestazioni parallele. Tecniche di partizionamento.

Sommario. Analysis & design delle applicazioni parallele. Misura delle prestazioni parallele. Tecniche di partizionamento. Sommario Analysis & design delle applicazioni parallele Misura delle prestazioni parallele Tecniche di partizionamento Comunicazioni Load balancing 2 Primi passi: analizzare il problema Prima di iniziare

Dettagli

Corso di Basi di Dati e Conoscenza

Corso di Basi di Dati e Conoscenza Corso di Basi di Dati e Conoscenza Gestione dei Dati e della Conoscenza Primo Emicorso - Basi di Dati Roberto Basili a.a. 2012/13 1 Obbiettivi Formativi Scenario Le grandi quantità di dati accumulate nelle

Dettagli

MASTER UNIVERSITARIO

MASTER UNIVERSITARIO MASTER UNIVERSITARIO Analisi Dati per la Business Intelligence In collaborazione con II edizione 2013/2014 Dipartimento di Culture, Politica e Società Dipartimento di Informatica gestito da aggiornato

Dettagli

Cosa è un foglio elettronico

Cosa è un foglio elettronico Cosa è un foglio elettronico Versione informatica del foglio contabile Strumento per l elaborazione di numeri (ma non solo...) I valori inseriti possono essere modificati, analizzati, elaborati, ripetuti

Dettagli

Principi di analisi causale Lezione 2

Principi di analisi causale Lezione 2 Anno accademico 2007/08 Principi di analisi causale Lezione 2 Docente: prof. Maurizio Pisati Logica della regressione Nella sua semplicità, l espressione precedente racchiude interamente la logica della

Dettagli

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,

Dettagli

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini

Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini Dipartimento di Ingegneria della Informazione Via Diotisalvi, 2 56122 PISA ALGORITMI GENETICI (GA) Sono usati per risolvere problemi di ricerca

Dettagli

Conoscenza. Metodo scientifico

Conoscenza. Metodo scientifico Conoscenza La conoscenza è la consapevolezza e la comprensione di fatti, verità o informazioni ottenuti attraverso l'esperienza o l'apprendimento (a posteriori), ovvero tramite l'introspezione (a priori).

Dettagli

Lezione 8. Data Mining

Lezione 8. Data Mining Lezione 8 Data Mining Che cos'è il data mining? Data mining (knowledge discovery from data) Estrazione di pattern interessanti (non banali, impliciti, prima sconosciuti e potenzialmente utili) da enormi

Dettagli

Access. P a r t e p r i m a

Access. P a r t e p r i m a Access P a r t e p r i m a 1 Esempio di gestione di database con MS Access 2 Cosa è Access? Access e un DBMS che permette di progettare e utilizzare DB relazionali Un DB Access e basato sui concetti di

Dettagli

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse Politecnico di Milano View integration 1 Integrazione di dati di sorgenti diverse Al giorno d oggi d la mole di informazioni che viene gestita in molti contesti applicativi è enorme. In alcuni casi le

Dettagli

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.

Sommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi. Algoritmi 1 Sommario Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi. 2 Informatica Nome Informatica=informazione+automatica. Definizione Scienza che si occupa dell

Dettagli

Business Intelligence & Data Mining. In ambiente Retail

Business Intelligence & Data Mining. In ambiente Retail Business Intelligence & Data Mining In ambiente Retail Business Intelligence Platform DATA SOURCES STAGING AREA DATA WAREHOUSE DECISION SUPPORT Application Databases Packaged application/erp Data DATA

Dettagli

OSSERVAZIONI TEORICHE Lezione n. 4

OSSERVAZIONI TEORICHE Lezione n. 4 OSSERVAZIONI TEORICHE Lezione n. 4 Finalità: Sistematizzare concetti e definizioni. Verificare l apprendimento. Metodo: Lettura delle OSSERVAZIONI e risoluzione della scheda di verifica delle conoscenze

Dettagli

Indice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi

Indice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi Indice generale OOA Analisi Orientata agli Oggetti Introduzione Analisi Metodi d' analisi Analisi funzionale Analisi del flusso dei dati Analisi delle informazioni Analisi Orientata agli Oggetti (OOA)

Dettagli

I database relazionali (Access)

I database relazionali (Access) I database relazionali (Access) Filippo TROTTA 04/02/2013 1 Prof.Filippo TROTTA Definizioni Database Sistema di gestione di database (DBMS, Database Management System) Sistema di gestione di database relazionale

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

GESTIONE della BASE di DATI

GESTIONE della BASE di DATI GESTIONE della SE di DTI I dati sono una componente fondamentale di un GIS Devono essere valutati con attenzione gli strumenti usati per: creare l archivio dei dati manipolare le informazioni contenute

Dettagli

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Concetti preliminari: struttura del dataset negli

Dettagli

Corso di. Dott.ssa Donatella Cocca

Corso di. Dott.ssa Donatella Cocca Corso di Statistica medica e applicata Dott.ssa Donatella Cocca 1 a Lezione Cos'è la statistica? Come in tutta la ricerca scientifica sperimentale, anche nelle scienze mediche e biologiche è indispensabile

Dettagli

Mon Ami 3000 Varianti articolo Gestione di varianti articoli

Mon Ami 3000 Varianti articolo Gestione di varianti articoli Prerequisiti Mon Ami 3000 Varianti articolo Gestione di varianti articoli L opzione Varianti articolo è disponibile per le versioni Azienda Light e Azienda Pro e include tre funzionalità distinte: 1. Gestione

Dettagli

PROGRAMMA SVOLTO NELLA SESSIONE N.

PROGRAMMA SVOLTO NELLA SESSIONE N. Università C. Cattaneo Liuc, Corso di Statistica, Sessione n. 1, 2014 Laboratorio Excel Sessione n. 1 Venerdì 031014 Gruppo PZ Lunedì 061014 Gruppo AD Martedì 071014 Gruppo EO PROGRAMMA SVOLTO NELLA SESSIONE

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 29-Analisi della potenza statistica vers. 1.0 (12 dicembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

Introduzione ad OLAP (On-Line Analytical Processing)

Introduzione ad OLAP (On-Line Analytical Processing) Introduzione ad OLAP (On-Line Analytical Processing) Metodi e Modelli per il Supporto alle Decisioni 2002 Dipartimento di Informatica Sistemistica e Telematica (Dist) Il termine OLAP e l acronimo di On-Line

Dettagli

Corso di Laurea Specialistica in Ingegneria Informatica. Corso di Ingegneria del Software A. A. 2008-2009. Class Discovery E.

Corso di Laurea Specialistica in Ingegneria Informatica. Corso di Ingegneria del Software A. A. 2008-2009. Class Discovery E. Corso di Laurea Specialistica in Ingegneria Informatica Corso di Ingegneria del Software A. A. 2008 - Class Discovery E. TINELLI Contenuti Classi di analisi: definizione ed esempi Tecniche per la definizione

Dettagli

Regressione logistica

Regressione logistica Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer Metodi di classificazione Tecniche principali Alcuni esempi Data set Default I dati La regressione logistica Esempio Il modello

Dettagli

La classificazione. Sommario. Intuizioni sul concetto di classificazione. Descrivete la propensione all acquisto acquisto dei clienti

La classificazione. Sommario. Intuizioni sul concetto di classificazione. Descrivete la propensione all acquisto acquisto dei clienti Sommario La classificazione Intuizioni sul task di classificazione Classificazione e apprendimento induttivo valutazione di un modello di classificazione Tipi di modelli di classificazione alberi di decisione

Dettagli

Barriere assorbenti nelle catene di Markov e una loro applicazione al web

Barriere assorbenti nelle catene di Markov e una loro applicazione al web Università Roma Tre Facoltà di Scienze M.F.N Corso di Laurea in Matematica a.a. 2001/2002 Barriere assorbenti nelle catene di Markov e una loro applicazione al web Giulio Simeone 1 Sommario Descrizione

Dettagli

DBMS (Data Base Management System)

DBMS (Data Base Management System) Cos'è un Database I database o banche dati o base dati sono collezioni di dati, tra loro correlati, utilizzati per rappresentare una porzione del mondo reale. Sono strutturati in modo tale da consentire

Dettagli