Knowledge Discovery e Data Mining
|
|
- Luciana Di Carlo
- 8 anni fa
- Visualizzazioni
Transcript
1 Sommario Knowledge Discovery e Data Mining Introduzione Motivazioni ed applicazioni Processo di Knowledge Discovery in DBs Fasi e caratteristiche Task di Data Mining Classificazione e regressione Scoperta di regole associative Clustering La classificazione Definizione del problema Misure di qualità Tecniche di classificazione Contesto e motivazioni La catena del valore dell informazione data explosion La disponibilità di tecnologie efficienti e poco costose favorisce l accumulo di enormi quantità di dati DBs e altri tipi di repository Electronic data gathering: Internet, Satellite, Bar-code reader, High perf. computers (PC-Cluster) e, in generale, cheaper & faster HW Esigenza: trarre vantaggio competitivo dai dati supportare i processi decisionali con nuova conoscenza inadeguatezza dei sistemi di analisi tradizionali: We are drowning in data, but starving for knowledge! Decisioni Promuovere il prodotto A nei negozi della regione Z Offrire dei servizi addizionali ai Conoscenza clienti di classe C Il prodotto P èusato per lo Progettare cataloghi di più da clienti giovani prodotti adatti ai vari profili di Chi acquista il prodotto P clienti tende ad acquistare Q I clienti possono essere suddivisi in classi omogenee (A,B,C, ) Informazioni La persona X vive nella città Z La persona S ha Y anni Dati Dati demografici: (Mario,Rossi,25/10/1960, ), (Luigi,Bianchi,, ) Dati geografici: Rende, Cosenza, Lombardia, Punti di vendita
2 Business Intelligence: Data Warehouse e Data Mining Business Intelligence Data Warehouse (DW) Archivio progettato in modo specifico per l analisi Dotato di strumenti efficienti e intuitivi per consultare, interrogare e visualizzare le informazioni Data Warehousing: processo di costruzione/popolamento di un DW Increasing potential to support business decisions Making Decisions Knowledge Presentation Visualization Techniques Data Mining Knowledge Discovery Manager Business Analyst Data Analyst Data Mining (DM) Estrazione automatica ed efficiente di pattern ( pepite di conoscenza) da grosse collezioni di dati Pattern: regolarità o proprietà valide nei dati di input Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP DBA Un po di storia Principali aree di applicazione Data collection (1960 s, e prima): - primitive file processing Advanced DB Systems (1980 s- ): - nuovi tipi di dati e data model avanzati - dati semi-strutturati, testuali, multimediali - extended-relational, OO, deductive, - application-oriented DBMS (GIS, scientific, engineering, ) - apertura verso le reti e il Web Database management systems (1970 s): - network and relational database systems - data modeling tools, query languages - optimization methods Data Warehouse & Data Mining (1990 s- ) - data mining usato dal 1983, con accezione negativa, nella comunità statistica - KDD workshop iniziato nel Padri fondatori : Fayyad, Piatetsky- Shapiro, Agrawal Marketing: product targeting, cross selling, segmentazione della clientela, CRM e Customer Retention,... Finanza: supporto agli investimenti, gestione di portafoglio, scoperta frodi Banche/Assicurazioni: concessione di prestiti, apertura di polizze curezza: scoperta di intrusioni, controllo degli accessi New-generation Intelligent Information Systems
3 Principali aree di applicazione Scienze: progettazione di farmaci, studio di fattori genetici, scoperta di galassie e astri Medicina: supporto a diagnosi/prognosi, valutazione cure, scoperta di relazioni fra malattie Produzione: modellazione dei processi, controllo di qualità, allocazione delle risorse Web: smart search engine, web marketing, web site design (Sommario) Introduzione Motivazioni ed applicazioni Processo di Knowledge Discovery in DBs Fasi e caratteristiche Task di Data Mining Classificazione e regressione Scoperta di regole associative Clustering La classificazione Definizione del problema Misure di qualità Tecniche di classificazione Estrazione della conoscenza: il processo di KDD Knowledge Discovery in Databases (KDD) Scoperta di conoscenza nelle basi di dati utile per comprendere/modellare i fenomeni del mondo reale corrispondenti ai dati Processo non banale (semi-automatico) di estrazione di pattern validi nuovi potenzialmente utili comprensibili INTERESSANTI Il processo di KDD Integrazione e Consolidamento Sorgenti Selezione e Pre-elaborazione Dati Consolidati Data Mining Dati trasformati Interpretazione e Valutazione p(x)=0.02 Pattern e/o Modelli Conoscenza
4 p(x)=0.02 Cogva Technologies Processo di KDD: ciclo virtuoso della conoscenza Architettura di un sistema KDD The KDD Process Interpretation and Evaluation 9 Problema Data Mining Selection and Preprocessing Data Patterns & Consolidation Models Warehouse Prepared Data Knowledge conoscenza Graphical User Interface Consolidated Data Data Sources Identifica problema/ opportunità Agisci sulla base della conoscenza Data Consolidation Selection and Preprocessing Data Mining Interpretation and Evaluation Strategia Misura effetti delle azioni risultati Data Sources Warehouse Knowledge Consolidamento dei Dati Garbage in Garbage out La qualità dei risultati dipende dalla qualità dei dati Il 50%-70% degli sforzi sul processo di KDD viene speso nella preparazione e il consolidamento dei dati Operazioni: Determinazione un insieme preliminare di attributi Integrazione di dati da sorgenti interne ed esterne Eliminazione e/o stima dei valori nulli Rimozione di outlier (eccezioni ovvie, picchi) Consolidamento dei Dati Da sorgenti eterogenee a un data warehouse RDBMS Legacy DBMS Flat Files External Data Consolidation and Cleaning Warehouse Object/Relation DBMS Multidimensional DBMS Deductive Database Flat files
5 Data Warehouse nel KDD Il processo di KDD Interpretazione e Valutazione Selezione e Pre-elaborazione Data Mining Integrazione e Consolidamento Data Warehouse Dati trasformati Sorgenti Dati Consolidati Interpretazione e Valutazione p(x)=0.02 Pattern e/o Modelli Conoscenza Integrazione e Consolidamento Sorgenti Selezione e Pre-elaborazione Dati Consolidati Data Mining Dati trasformati p(x)=0.02 Pattern e/o Modelli Conoscenza Selezione & Preprocessing Il Processo di KDD Generazione di un insieme di esempi scelta del metodo di sampling analisi della complessità del campione Riduzione delle dimensioni degli attributi rimozione di attributi ridondanti e/o correlati combinazione di attributi (somma, prodotto, differenza) Riduzione dei range di valori di attributi raggruppamento di valori simbolici o discreti discretizzazione dei valori continui Integrazione e Consolidamento Sorgenti Selezione e Pre-elaborazione Dati Consolidati Data Mining Dati trasformati Interpretazione e Valutazione p(x)=0.02 Pattern e/o Modelli Conoscenza
6 Data Mining Altri nomi: Data dredging, Data harvesting, Data archeology Un settore interdisciplinare: Data Mining: un approccio induttivo di analisi Tecniche deduttive ( Verification Verification--Driven ) Driven Toppassiva, atta a verificare se un certo modello Top-Down: Down: analisi passiva (ipotesi) è coerente con i dati a disposizione L ipotesi o il modello sono formulati dall utente sulla base della sua esperienza Strumenti: verifica di ipotesi (statistica), query language Tecniche induttive ( Discovery Discovery--Driven ) Driven Bottomattiva, in cui i dati stessi suggeriscono Bottom-Up: Up: analisi attiva possibili ipotesi sul significato del loro contenuto Individuazione di fatti, relazioni, tendenze, pattern, associazioni, eccezioni e anomalie, che sfuggono all analisi manuale Tuttavia molta enfasi è posta su: Applicazione a varie tipologie di dati Algoritmi efficienti e scalabili Uso di strutture di memorizzazione e di accesso Approccio deduttivo Query & Reporting Foglio Elettronico Analisi multidimensionale Analisi statistica Approccio induttivo (Data Mining) Riconoscimento di Forme Intelligenza Artificiale Visualizzazione Raccolta dei dati Generazione di una ipotesi Formulazione di una domanda Interpretazione dei risultati e revisione dell ipotesi... finchè non emerge un pattern interessante Conoscenza del dominio Apprendimento automatico simbolico Reti neurali Algoritmi Genetici Reti Bayesiane Apprendimento Dati Storici Modello Nuovi Dati
7 Categorie di algoritmi di Data Mining Formato dei dati DB relazionali, Transactional DBs, Time-series DB Object-oriented, Spaziali o Multimediali Flat file, Documenti testuali o ipertestuali Tipi di pattern estratti classificazione, clustering, associazioni, deviazioni, Pattern ibridi, o a livelli multipli di aggregazione Tecniche usate Database-oriented, modelli probabilistici, visualizzazione, reti neurali, alberi di decisione, programmi logici,.. Contesto applicativo DNA mining, Web mining, Weblog analysis, fraud analysis, Task/funzionalit funzionalità di Data Mining Predizione Classificazione Regressione Clustering Link Analysis Scoperta di Regole Associative Analisi di sequenze e di time-series Summarization Deviation Detection milarity matching (Sommario) Introduzione Motivazioni ed applicazioni Processo di Knowledge Discovery in DBs Fasi e caratteristiche Task di Data Mining Classificazione e regressione Scoperta di regole associative Clustering La classificazione Definizione del problema Misure di qualità Tecniche di classificazione Predizione: classificazione e regressione Obiettivo: indurre un modello in grado di prevedere il valore di un attributo target in base agli altri attributi Classificazione:il target assume valori discreti Tecniche: Alberi di decisione, Regole di classificazione, Classificazione Bayesiana, K-nearest neighbors, Case-based reasoning, Genetic algorithms, Rough sets, Fuzzy logic, Association-based classification, Regressione: il target assume valori continui Tecniche: Alberi di regressione, Reti neurali, regressione lineare e multipla, regressione non-lineare, regressione logistica e di Poisson, regressione log-lineare
8 Classificazione e apprendimento induttivo Framework di base per l Apprendimento Induttivo: Ambiente Testing Examples Esempio (classificazione) Problema: indurre un modello che separi le classi di forme (POS) e (NEG) : Attributi Color = {Red, Blue, Green, White} Shaded = {Yes, } Shape = {Square, Triangle, Circle, Oval} ze = {Small, Large} Esempi (training set): Training Examples stema di Apprendimento Modello Indotto (POS) a b c d e f g h i (x, f(x)) h(x) = ~ f(x)? Un problema di rappresentazione e ricerca della migliore ipotesi, h(x). Output Classification (x, h(x)) (NEG) m n p q r s t Esempio: modello indotto (albero di decisione ) { b,g} { m,t} {e} Triangle Blue { d,e,f,h} { n,q} Square Red Shape Oval Color Green { c } { p,r,s } {a-i} { m-t} Circle White {f} {d,h} { n} + ze + - { q} Large Small {f} { q} Shaded + { a,i } Nuovi Esempi e 1 : - Regole di decisione Regole espresse in forma logica: (Calcolo Proposizionale o Calcolo dei Predicati) (forma = quadrato or triangolo) and (dimensione = piccolo) => POS (forma = triangolo) and (tratteggiato = SI) => NEG POS NEG Classificazione POS, NEG Yes {f} + - { q} e 2 : + e 1 e 2 e 3
9 Clustering Clustering Clustering: Partizionamento dei dati in un insieme di classi non note a-priori (cluster) Qualità della partizione: Alta omogeneità intra-classe Bassa omogeneità inter-classe In genere si basa su una misura di similarità/distanza Esempi di applicazione: Customer segmentation compressione dei dati suddivisione di corpora di documenti Clustering: algoritmi Partizionali distance-based: K-means Gerarchici Agglomerativi o divisivi single link o complete link Model-Based Approcci Statistici Neural network Altri metodi: Density-Based Grid-Based Clustering: algoritmo K-means Input: Dati = tuple con attributi numerici (esistono varianti per dati categorici) numero K di cluster desiderati Criterio: minimizzare la somma dei quadrati delle distanze di ogni punto dal centro del suo cluster Algoritmo: Fissa una partizione iniziale (random) in K cluster Ripeti fino a che non si abbia nessuna variazione: Assegna ogni punto al centro più vicino Genera i nuovi centri
10 Clustering: K-Means Clustering Gerarchico Esempio Raggruppano/Separano I dati sulla base di una matrice di distanze (o similarità) La distanza fra due cluster è calcolata in funzione delle distanze fra le istanze che rispettivamente contengono Step 0 Step 1 Step 2 Step 3 Step 4 a a b b a b c d e c c d e d d e e Step 4 Step 3 Step 2 Step 1 Step 0 agglomerativo (AGNES) divisivo (DIANA) Regole associative Scoperta di Regole Associative Task di natura esplorativa: scoperta di associazioni tra fatti, proprietà o valori di variabili ( link analysis ) Dati: insieme di transazioni es. carrello della spesa di un cliente ogni transazione é un insieme di item (itemset) es.: prodotti nel carrello Obiettivo: trovare tutte le regole che correlano la presenza di un insieme di item con un altro insieme di item Es.: 98% delle persone che comprano {pannolini, cibo per bebè} comprano anche {birra}.
11 Regole associative: qualità delle regole L utente specifica soglie minime che le regole estratte devono essere superare, per alcune misure di qualità (interestingness) Supporto (indice di significatività) 1 & 2 => 3 ha confidenza 5% se si applica nel 5% dei casi Confidenza (indice di validità) 1 & 2 => 3 ha confidenza 90% se quando viene acquistato 1 e 2, nel 90% dei casi viene acquistato anche 3. può essere sviante: non implica causalità, non riconosce correlazioni negative né indipendenza Altre misure: Misura di correlazione (es.: lift, Interest) Soggettive: cercano di catturare novità e utilità delle regole Regole Associative: Esempio Transaction ID Purchased Items 1 {1, 2, 3} 2 {1, 4} 3 {1, 3} 4 {2, 5, 6} Per un supporto minimo del 50%, e confidenza minima del 50%, troviamo le seguenti regole 1 => 3 con 50% supporto e 66% confidenza 3 => 1 con 50% supporto e 100% confidenza Regole associative: ricerca Algoritmo Apriori: Principio: ogni sottoinsieme di un itemset frequente è frequente Fase 1: Trova tutti gli itemset che hanno un supporto minimo usa (k 1)-itemset frequenti per generare k-itemset candidati database scan and pattern matching per verificare frequenza Fase2: Genera le regole a partire dagli itemset frequenti trovati La fase1 è costosa: spazio di ricerca enorme! Miglioramenti: Ottimizzare la ricerca degli itemset frequenti Campionamento, Dynamic itemset counting (aggiunge un nuovo candidato solo quando tutti i suoi sottoinsiemi sono stimati come frequenti), Hash-based itemset counting, Transaction reduction Evitare di generare tutti itemset candidati (es, algoritmo FP-tree) Il Processo di KDD Integrazione e Consolidamento Sorgenti Selezione e Pre-elaborazione Dati Consolidati Data Mining Dati trasformati Interpretazione e Valutazione p(x)=0.02 Pattern e/o Modelli Conoscenza
12 Interpretazione e valutazione Interpretazione Alberi e regole logiche possono essere interpretati facilmente Risultati di clustering possono essere graficati/tabellati In generale, tool di visualizzazione possono essere molto utili per interpretare i risultati Valutazione Validazione statistica e test di significanza Analisi qualitativa da parte di esperti del dominio Test del modello su casi di esempio per valutarne la bontà (es., accuratezza) Sono tutti interessanti i pattern scoperti? Un sistema di mining può generare migliaia di pattern Pattern interessanti: Facilmente comprensibili Validi su nuovi dati di test con un certo grado di certezza Potenzialmente utili per processi decisionali Nuovi o confermano ipotesi che si cercava di validare Misure Oggettive vs. Soggettive Oggettive: basate su statistiche e struttura dei pattern (e.g., supporto, confidenza, lunghezza della descrizione, etc.) Soggettive: basate su conoscenza pregressa e aspettative degli utenti (e.g., novità, etc.) Completezza/Precisione di un processo di data mining Completezza: Trova tutti i pattern interessanti E possibile in un tempo ragionevole? Correttezza: Trova solo pattern interessanti E possibile non commettere errori e trovare solo pattern interessanti? Possibili approcci: generano tutti i pattern che potrebbero essere interessanti e poi si eliminano quelli che non lo sono Generare solo pattern interessanti (è possibile perdere in completezza) (Sommario) Introduzione Motivazioni ed applicazioni Processo di Knowledge Discovery in DBs Fasi e caratteristiche Task di Data Mining Classificazione e regressione Scoperta di regole associative Clustering La classificazione Definizione del problema Misure di qualità Tecniche di classificazione
13 Intuizioni sul concetto di classificazione Descrivete i vostri clienti migliori in base ad età ed al numero di visite nell ultimo periodo! 35 Molti_Acquisti Pochi_Acquisti Visite Eta' ora provate a prevedere Una possibile soluzione la tipologia di due nuovi clienti, in base a età e numero visite 35 Molti_Acquisti Pochi_Acquisti Nuovi Visite Eta'
14 rappresentata graficamente Visite Età <= 26 Età >= 38 Molti_Acquisti Pochi_Acquisti Nuovi Visite > Eta' Il processo seguito Individuazione di una caratteristica interessante dei clienti: attributo classe Numero di acquisti (fare molti acquisti o pochi acquisti) Individuazione di altri attributi meno interessanti, ma che possono influenzare la classe Età, Numero di visite Raccolta di dati storici di cui si conoscono TUTTI gli attributi: training set 19 clienti di cui si conoscono TUTTI gli attributi Induzione di un modello di CLASSIFICAZIONE a partire dai dati storici: descrive la dipendenza della classe dagli altri attributi tale descrizione cerca di essere accurata, concisa, informativa CLASSIFICAZIONE: uso del modello per prevedere il valore della classe per un nuovo caso (cliente) Classificazione e predizione: input Un insieme di esempi (dette istanze o casi) che descrivono un concetto (detto classe) sulla base di attributi (detti anche features) outlook temperature humidity windy classe sunny false Don't Play sunny true Don't Play overcast false Play rain false Play rain false Play rain true Don't Play overcast true Play sunny false Don't Play sunny false Play rain false Play sunny true Play overcast true Play overcast false Play rain true Don't Play Classificazione e predizione: input La classe e gli attributi possono assume valori : continui (es. numeri reali) Due valori sono confrontabili ed esiste una nozione di distanza Esempi: età, reddito, costo, temperatura, ecc. ordinali (elementi di insiemi finiti ed ordinati) Due valori sono confrontabili, ma non esiste una distanza Esempi: { freddo, tiepido, caldo }, {insufficiente, buono, ottimo } discreti (elementi di insiemi finiti e non ordinati) Due valori non sono tra loro confrontabili Esempi: { nuvoloso, soleggiato, ventoso }, { alimentari, elettrodom., abbigliamento } Discretizzazione: trasformazione di valori continui in ordinali o discreti
15 Classificazione e predizione A partire dagli esempi viene costruito un modello in grado di descrivere il valore della classe in base a quello degli altri attributi Quando la classe assume valori discreti, si parla di classificazione: Alberi di decisione, Regole di classificazione, Classificazione Bayesiana, K-nearest neighbors, Case-based reasoning, Genetic algorithms, Rough sets, Fuzzy logic, Association-based classification Quando la classe assume valori continui, si parla di predizione numerica Alberi di regressione, Reti neurali, regressione lineare e multipla, regressione non-lineare, regressione logistica e di Poisson, regressione log-lineare Classificazione come apprendimento induttivo Classificazione - Definizioni La classificazione è un processo di apprendimento supervisionato le classi sono note a priori e si dispone di esempi già classificati Ipotesi dell apprendimento induttivo: << Se un modello, indotto da un insieme di esempi abbastanza rappresentativo, ne riconosce le classi in modo accurato, sarà accurato anche nel riconoscere la classe degli altri oggetti del dominio >> Denominazioni alternative (più appropriate) per il processo di classificazione: Apprendimento di Concetti (classi) Induzione di Classificatori stemi di apprendimento induttivo Framework di base per l Apprendimento Induttivo Training set (x, f(x)) Ambiente stema di Apprendimento h(x) = ~ f(x)? Un problema di rappresentazione e ricerca della migliore ipotesi, h(x). Test set Modello Indotto Predizione su un nuovo caso (q, h(q))
16 Valutazione di un modello di classificazione (classificatore) Capacità descrittiva: comprensibilità della conoscenza rappresentata dal modello numero di nodi dell albero di decisione, numero di regole, Capacità predittiva: capacità di classificare correttamente oggetti del dominio accuratezza: numero di oggetti classificati correttamente sul numero totale di oggetti classificati errore di classificazione: 1 accuratezza L accuratezza teorica (sul dominio) può essere stimata: su un test-set (indipendente dal training set), cioè un insieme di oggetti del dominio di cui è nota la classe sullo stesso training set, inducendo vari modelli su campioni di esso: Cross-Validation Errore e di Classificazione x = attributi di input c = classe effettiva h = ipotesi (modello) - - Where c and h disagree Example Space X(x,c(x)) c + h + - Il true error di una ipotesi h è la probabilità che h classificherà male una istanza selezionata a caso da X, err(h) = P[c(x) h(x)] - Accuratezza del modello di classificazione Cerchiamo una misura della bontà di un modello accuratezza percentuale di esempi la cui classe predetta coincide con la classe reale % di misclassificazione percentuale di esempi la cui classe predetta NON coincide con la classe reale di quali esempi? Di esempi di cui si conosce la classe reale! L accuratezza sugli esempi del training set è ottimistica È facile costruire un modello accurato al 100% sul training set Accuratezza: metodo holdout Test set insieme di esempi indipendenti dal training set di ciascun esempio si conoscono gli attributi e la classe reale Metodo holdout valutare l accuratezza del modello sul test set dato un insieme di esempi lo si divide (casualmente) in una percentuale per il training ed una per il test set (in genere 2/3 per il training e 1/3 per il test set)
17 Accuratezza: stratified cross-validation validation Metodo stratified n-fold cross-validation dividono gli esempi in n insiemi S1,, Sn delle stesse dimensioni e con stessa distribuzione delle classi Per ciascuno insieme costruisce un classificatore sugli altri n-1 insiemi usa l insieme come insieme di test del classificatore L accuratezza finale è data dalla media delle accuratezze degli n classificatori Metodo standard: n = 10, stratified 10-fold cross validation Accuratezza: limiti inferiori Accuratezza di un classificatore casuale classificatore che in modo casuale classifica in una delle k possibili classi accuratezza = 1 / k * 100 esempio: per k = 2 l accuratezza è del 50% Qualsiasi classificatore deve fare almeno meglio del classificatore casuale! Accuratezza di un classificatore a maggioranza classificatore che classifica sempre come la classe di maggioranza nel training set (supponendo la stessa percentuale nella popolazione) accuratezza >= 1 / k * 100 esempio: con due classi rappresentate al 98% e al 2% nel training set, l accuratezza è del 98% Matrice di confusione Name Gender Height Output1 Actual Output2 Pred. Kristina F 1.6m Short Medium Jim M 2m Tall Medium Maggie F 1.9m Medium Tall Martha F 1.88m Medium Tall Stephanie F 1.7m Short Medium Bob M 1.85m Medium Medium Kathy F 1.6m Short Medium Dave M 1.7m Short Medium Worth M 2.2m Tall Tall Steven M 2.1m Tall Tall Debbie F 1.8m Medium Medium Todd M 1.95m Medium Medium Kim F 1.9m Medium Tall Amy F 1.8m Medium Medium Wynette F 1.75m Medium Medium Confusion matrix: colonne: classi predette righe: classi effettive cella (i,j): istanze della classe i che il modello assegna alla classe j Le predizioni corrette sono sulla diagonale Fuori dalla diagonale: predizioni sbagliate (misclassifications) Actual Assignment Membership Short Medium Tall Short Medium Tall Accuratezza rispetto ad d una data classe Il modello riconosce la classe C (e.g., play)? True Positives (TP): istanze di C assegnate a C True Negatives (TN): istanze di altre classi non assegnate a C False Positives (FP): istanze di altre classi assegnate a C (errore!) False Negatives (FN): istanze di C assegnate ad un altra classe (errore!) Precisione: TP/(TP+FP) True Positive % di istanze assegnate a C che effettivamente appartengono a C (correctness measure) False Positive Recall: TP/(TP+FN) % di istanze di C che sono assegnate a C (completeness measure) F-measure: (2*recall*precision) / (recall+precision) Actual Assignment Membership Short Medium Tall Short (FP) Medium (FP) Tall 0 (FN) 1 (FN) 2 (TP) False Negative True Negative
18 Tecniche di classificazione Classificazione Tipi di modelli Vari tipi di modelli di classificazione Differiscono per il formalismo utilizzato per rappresentare la funzione di classificazione (Linguaggio delle ipotesi) Alcuni tipi di modelli (classificatori): Basati sugli esempi (es. Nearest neighbor) memorizzano tutti gli esempi del training set ed assegnano la classe ad un oggetto valutando la somiglianza con gli esempi memorizzati (la cui classe è nota) Matematici (es. Reti Neurali Artificiali, SVM) la funzione di classificazione è una funzione matematica, di cui si memorizzano i vari parametri Classificazione Tipi di modelli alcuni tipi di modelli (classificatori): Algoritmi di induzione di alberi di decisione Statistici memorizzano i parametri delle varie distribuzioni di probabilità relative alle classi ed agli attributi per classificare un generico oggetto si possono stimare le probabilità di appartenenza alle varie classi es.: Naive Bayes Logici la funzione di classificazione è espressa mediante condizioni logiche sui valori degli attributi es.: Alberi e Regole di Decisione
19 Classificazione: Un esempio Classificazione: Un esempio Dominio: possibili giornate,descritte dai 4 attributi (Tempo, Temperatura, Umidità, Vento) 2 classi: = {giornate in cui è opportuno giocare} = {giornate in cui non è opportuno giocare} vuole indurre un modello di classificazione Per prevedere se in una generica giornata si può giocare o no in base ai valori degli attributi training set: 14 giornate di cui è nota la classe Tempo Temper.(.( F) Umidità Vento Soleggiato Soleggiato Nuvoloso Piovoso Piovoso Piovoso Nuvoloso Soleggiato Soleggiato Piovoso Soleggiato Nuvoloso Nuvoloso Piovoso Classe n si gioca n si gioca n si gioca n si gioca n si gioca Alberi di decisione Alberi di decisione soleggiato tempo nuvoloso piovoso umidità vento <=75 >75 sì no n si gioca n si gioca SE (Tempo=piovoso E Vento=no) ALLORA (Classe= Gioca) ogni nodo interno n è associato ad un attributo A(n) ogni arco uscente dal nodo n è associato ad un insieme di valori di A ogni foglia è etichettata con il valore atteso della classe per gli oggetti descritti dal cammino che collega la foglia alla radice Un albero di decisione equivale ad un insieme di regole logiche mutuamente esclusive (una( regola per ogni foglia) Predizione : applicazione della funzione di classificazione ad un nuovo oggetto Es.: l albero assegna la classe Gioca alla giornata G (Tempo=Piovoso,Temperatura=79,Umidità=85, Vento=no) umidità tempo soleggiato nuvoloso piovoso vento <=75 >75 sì no n si gioca n si gioca giornata G Tempo = Piovoso Temperatura = 79 Umidità = 85 Vento = no
20 Algoritmi di induzione di alberi di decisione: storia Algoritmi sviluppati indipendentemente negli anni 60 e 70 da ricercatori di: Statistica: L. Breiman & J. Friedman - CART (Classification and Regression Trees) Pattern Recognition: Univ. Michigan - AID G.V. Kass - CHAID (Chi-squared Automated Interaction Detection) Intelligenza Artificiale e Teoria dell Informazione: R. Quinlan - ID3 (Iterative Dichotomizer) R. Quinlan - C4.5 Indurre un albero di decisione Dati: Un insieme di esempi con classi negative e positive Problema: Generare un modello ad albero di decisione per classificare un insieme separato di esempi con un errore minimale Approccio: (Occam s Razor) produrre il modello più semplice che sia consistente con gli esempi di training Formalmente: Trovare l albero più semplice in assoluto è un problema intrattabile Come produrre un albero ottimale? Strategia (euristica): sviluppa l albero in maniera top-down piazza la variabile di test più importante alla radice di ogni sottoalbero successivo La variabile più importante: La variabile che ha la maggiore attendibilità nel distinguere l insieme degli esempi di training la variabile che ha la relazione più significativa con l attributo target alla quale il risultato sia dipendente più che per le altre (o meno indipendente) Schema per l induzione l di alberi (usato, e.g., in ID3 e J48) Costruzione top-down dell albero, per partizionamenti successivi: 1. Crea il nodo radice e assegnagli tutto il training-set 2. Per il nodo corrente: se tutti gli esempi del nodo corrente hanno la stessa classe C, etichetta tale nodo (foglia) con C e stop per ogni possibile test di partizionamento (test di splitting) valuta una misura di rilevanza (indice di splitting) sui gruppi ottenuti partizionando l insieme di esempi del nodo sulla base del test associa al nodo l attributo che massimizza l indice di splitting per ogni valore del test di splitting crea un nodo figlio etichetta l arco corrispondente con la condizione di split ed assegna al nodo figlio gli esempi che verificano tale condizione 3. Per ogni nuovo nodo creato ripeti il passo 2
Knowledge Discovery e Data Mining
Sommario Knowledge Discovery e Mining Introduzione Motivazioni ed applicazioni ll processo di KDD Fasi e caratteristiche Le tecniche di DM Classificazione e regressione Scoperta di regole associative Clustering
DettagliClassificazione e Predizione
Lezione di TDM DM del 16 Aprile 2007 Francesco Bonchi, KDD Lab Pisa, ISTI-C.N.R. 1 Lezione odierna Intuizioni sul concetto di classificazione Alberi di decisione Alberi di decisione con Weka Classificazione:
DettagliSistemi Informativi Aziendali. Sistemi Informativi Aziendali
DIPARTIMENTO DI INGEGNERIA INFORMATICA AUTOMATICA E GESTIONALE ANTONIO RUBERTI Cenni al Data Mining 1 Data Mining nasce prima del Data Warehouse collezione di tecniche derivanti da Intelligenza Artificiale,
DettagliIntroduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida
Introduzione alle tecniche di Data Mining Prof. Giovanni Giuffrida Programma Contenuti Introduzione al Data Mining Mining pattern frequenti, regole associative Alberi decisionali Clustering Esempio di
DettagliData mining e rischi aziendali
Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento
DettagliUno standard per il processo KDD
Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo
DettagliData Warehousing (DW)
Data Warehousing (DW) Il Data Warehousing è un processo per estrarre e integrare dati storici da sistemi transazionali (OLTP) diversi e disomogenei, e da usare come supporto al sistema di decisione aziendale
DettagliRicerca di outlier. Ricerca di Anomalie/Outlier
Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla
DettagliProgettazione di Basi di Dati
Progettazione di Basi di Dati Prof. Nicoletta D Alpaos & Prof. Andrea Borghesan Entità-Relazione Progettazione Logica 2 E il modo attraverso il quale i dati sono rappresentati : fa riferimento al modello
DettagliOrganizzazione degli archivi
COSA E UN DATA-BASE (DB)? è l insieme di dati relativo ad un sistema informativo COSA CARATTERIZZA UN DB? la struttura dei dati le relazioni fra i dati I REQUISITI DI UN DB SONO: la ridondanza minima i
DettagliData mining: classificazione DataBase and Data Mining Group of Politecnico di Torino
DataBase and Data Mining Group of Database and data mining group, Database and data mining group, DataBase and Data Mining Group of DataBase and Data Mining Group of So dati insieme di classi oggetti etichettati
DettagliPDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD
Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da
DettagliSVM. Veronica Piccialli. Roma 11 gennaio 2010. Università degli Studi di Roma Tor Vergata 1 / 14
SVM Veronica Piccialli Roma 11 gennaio 2010 Università degli Studi di Roma Tor Vergata 1 / 14 SVM Le Support Vector Machines (SVM) sono una classe di macchine di che derivano da concetti riguardanti la
DettagliMACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it
MACHINE LEARNING e DATA MINING Introduzione a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it Apprendimento Automatico(i) Branca dell AI che si occupa di realizzare dispositivi artificiali capaci di
DettagliIntroduzione al Data Mining
Introduzione al Data Mining Sistemi informativi per le Decisioni Slide a cura di Prof. Claudio Sartori Evoluzione della tecnologia dell informazione (IT) (Han & Kamber, 2001) Percorso evolutivo iniziato
DettagliSISTEMI INFORMATIVI AZIENDALI
SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Data Mining. Introduzione La crescente popolarità
DettagliRegressione non lineare con un modello neurale feedforward
Reti Neurali Artificiali per lo studio del mercato Università degli studi di Brescia - Dipartimento di metodi quantitativi Marco Sandri (sandri.marco@gmail.com) Regressione non lineare con un modello neurale
DettagliUniversità di Pisa A.A. 2004-2005
Università di Pisa A.A. 2004-2005 Analisi dei dati ed estrazione di conoscenza Corso di Laurea Specialistica in Informatica per l Economia e per l Azienda Tecniche di Data Mining Corsi di Laurea Specialistica
DettagliData Mining in SAP. Alessandro Ciaramella
UNIVERSITÀ DI PISA Corsi di Laurea Specialistica in Ingegneria Informatica per la Gestione d Azienda e Ingegneria Informatica Data Mining in SAP A cura di: Alessandro Ciaramella La Business Intelligence
DettagliAnalisi dei requisiti e casi d uso
Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................
DettagliVC-dimension: Esempio
VC-dimension: Esempio Quale è la VC-dimension di. y b = 0 f() = 1 f() = 1 iperpiano 20? VC-dimension: Esempio Quale è la VC-dimension di? banale. Vediamo cosa succede con 2 punti: 21 VC-dimension: Esempio
DettagliData warehouse Introduzione
Database and data mining group, Data warehouse Introduzione INTRODUZIONE - 1 Pag. 1 Database and data mining group, Supporto alle decisioni aziendali La maggior parte delle aziende dispone di enormi basi
DettagliPro e contro delle RNA
Pro e contro delle RNA Pro: - flessibilità: le RNA sono approssimatori universali; - aggiornabilità sequenziale: la stima dei pesi della rete può essere aggiornata man mano che arriva nuova informazione;
DettagliTecniche di riconoscimento statistico
On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 4 Reti neurali per la classificazione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com
DettagliDistributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo
Distributed P2P Data Mining Autore: (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo A.A. 2005/2006 Il settore del Data Mining Distribuito (DDM): Data Mining: cuore del processo
DettagliMODELLO RELAZIONALE. Introduzione
MODELLO RELAZIONALE Introduzione E' stato proposto agli inizi degli anni 70 da Codd finalizzato alla realizzazione dell indipendenza dei dati, unisce concetti derivati dalla teoria degli insiemi (relazioni)
DettagliDATABASE RELAZIONALI
1 di 54 UNIVERSITA DEGLI STUDI DI NAPOLI FEDERICO II DIPARTIMENTO DI DISCIPLINE STORICHE ETTORE LEPORE DATABASE RELAZIONALI Dott. Simone Sammartino Istituto per l Ambiente l Marino Costiero I.A.M.C. C.N.R.
DettagliSEGMENTAZIONE INNOVATIVA VS TRADIZIONALE
SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE Arricchimento dei dati del sottoscrittore / user Approccio Tradizionale Raccolta dei dati personali tramite contratto (professione, dati sul nucleo familiare, livello
DettagliLezione 1. Introduzione e Modellazione Concettuale
Lezione 1 Introduzione e Modellazione Concettuale 1 Tipi di Database ed Applicazioni Database Numerici e Testuali Database Multimediali Geographic Information Systems (GIS) Data Warehouses Real-time and
DettagliIntroduzione all Information Retrieval
Introduzione all Information Retrieval Argomenti della lezione Definizione di Information Retrieval. Information Retrieval vs Data Retrieval. Indicizzazione di collezioni e ricerca. Modelli per Information
Dettagli1. BASI DI DATI: GENERALITÀ
1. BASI DI DATI: GENERALITÀ BASE DI DATI (DATABASE, DB) Raccolta di informazioni o dati strutturati, correlati tra loro in modo da risultare fruibili in maniera ottimale. Una base di dati è usualmente
DettagliCAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI
VERO FALSO CAPITOLO 8 LA VERIFICA D IPOTESI. I FONDAMENTI 1. V F Un ipotesi statistica è un assunzione sulle caratteristiche di una o più variabili in una o più popolazioni 2. V F L ipotesi nulla unita
DettagliBasi di Dati Relazionali
Corso di Laurea in Informatica Basi di Dati Relazionali a.a. 2009-2010 PROGETTAZIONE DI UNA BASE DI DATI Raccolta e Analisi dei requisiti Progettazione concettuale Schema concettuale Progettazione logica
DettagliCiclo di vita dimensionale
aprile 2012 1 Il ciclo di vita dimensionale Business Dimensional Lifecycle, chiamato anche Kimball Lifecycle descrive il framework complessivo che lega le diverse attività dello sviluppo di un sistema
DettagliLa Metodologia adottata nel Corso
La Metodologia adottata nel Corso 1 Mission Statement + Glossario + Lista Funzionalià 3 Descrizione 6 Funzionalità 2 Schema 4 Schema 5 concettuale Logico EA Relazionale Codice Transazioni In PL/SQL Schema
DettagliDatabase. Si ringrazia Marco Bertini per le slides
Database Si ringrazia Marco Bertini per le slides Obiettivo Concetti base dati e informazioni cos è un database terminologia Modelli organizzativi flat file database relazionali Principi e linee guida
DettagliInformatica Generale Andrea Corradini. 19 - Sistemi di Gestione delle Basi di Dati
Informatica Generale Andrea Corradini 19 - Sistemi di Gestione delle Basi di Dati Sommario Concetti base di Basi di Dati Il modello relazionale Relazioni e operazioni su relazioni Il linguaggio SQL Integrità
DettagliUn po di statistica. Christian Ferrari. Laboratorio di Matematica
Un po di statistica Christian Ferrari Laboratorio di Matematica 1 Introduzione La statistica è una parte della matematica applicata che si occupa della raccolta, dell analisi e dell interpretazione di
DettagliProgettaz. e sviluppo Data Base
Progettaz. e sviluppo Data Base! Progettazione Basi Dati: Metodologie e modelli!modello Entita -Relazione Progettazione Base Dati Introduzione alla Progettazione: Il ciclo di vita di un Sist. Informativo
DettagliIl database management system Access
Il database management system Access Corso di autoistruzione http://www.manualipc.it/manuali/ corso/manuali.php? idcap=00&idman=17&size=12&sid= INTRODUZIONE Il concetto di base di dati, database o archivio
DettagliOttimizzazione delle interrogazioni (parte I)
Ottimizzazione delle interrogazioni I Basi di Dati / Complementi di Basi di Dati 1 Ottimizzazione delle interrogazioni (parte I) Angelo Montanari Dipartimento di Matematica e Informatica Università di
DettagliCodifiche a lunghezza variabile
Sistemi Multimediali Codifiche a lunghezza variabile Marco Gribaudo marcog@di.unito.it, gribaudo@elet.polimi.it Assegnazione del codice Come visto in precedenza, per poter memorizzare o trasmettere un
DettagliData mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati
Data mining Il consente l informazione processo di Data Mining estrarre automaticamente informazioneda un insieme di dati telefoniche, ènascostaa a causa di fra quantitàdi loro, complessità: non... ci
DettagliISTITUTO TECNICO ECONOMICO MOSSOTTI
CLASSE III INDIRIZZO S.I.A. UdA n. 1 Titolo: conoscenze di base Conoscenza delle caratteristiche dell informatica e degli strumenti utilizzati Informatica e sistemi di elaborazione Conoscenza delle caratteristiche
DettagliI Sistemi Informativi
I Sistemi Informativi Definizione Un Sistema Informativo è un mezzo per acquisire, organizzare, correlare, elaborare e distribuire le informazioni che riguardano una realtà che si desidera descrivere e
DettagliSuggerimenti per l approccio all analisi dei dati multivariati
Suggerimenti per l approccio all analisi dei dati multivariati Definizione degli obbiettivi Il primo passo è la definizione degli obbiettivi. Qual è l obbiettivo della sperimentazione i cui dati dovete
DettagliProgettaz. e sviluppo Data Base
Progettaz. e sviluppo Data Base! Introduzione ai Database! Tipologie di DB (gerarchici, reticolari, relazionali, oodb) Introduzione ai database Cos è un Database Cos e un Data Base Management System (DBMS)
DettagliRegressione logistica. Strumenti quantitativi per la gestione
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 1/25 Metodi di classificazione I metodi usati per analizzare
DettagliMarketing relazionale
Marketing relazionale Introduzione Nel marketing intelligence assume particolare rilievo l applicazione di modelli predittivi rivolte a personalizzare e rafforzare il legame tra azienda e clienti. Un azienda
DettagliPer capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.
DATA WAREHOUSE Un Dataware House può essere definito come una base di dati di database. In molte aziende ad esempio ci potrebbero essere molti DB, per effettuare ricerche di diverso tipo, in funzione del
DettagliSegmentazione del mercato e scelta del target
Segmentazione del mercato e scelta del target 1 DEFINIZIONE DEL MERCATO: PROCESSO A PIU STADI LIVELLI DI SEGMENTAZIONE (Lambin): 1. Segmentazione strategica: identifica grandi settori di attività CORPORATE
Dettagli1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario:
Esempi di domande risposta multipla (Modulo II) 1) Si consideri un esperimento che consiste nel lancio di 5 dadi. Lo spazio campionario: 1) ha un numero di elementi pari a 5; 2) ha un numero di elementi
DettagliAlgoritmi e strutture dati. Codici di Huffman
Algoritmi e strutture dati Codici di Huffman Memorizzazione dei dati Quando un file viene memorizzato, esso va memorizzato in qualche formato binario Modo più semplice: memorizzare il codice ASCII per
DettagliPROVA FINALE V. AULETTA G. PERSIANO ALGORITMI II - -MAGIS INFO
PROVA FINALE V. AULETTA G. PERSIANO ALGORITMI II - -MAGIS INFO 1. Load Balancing Un istanza del problema del load balancing consiste di una sequenza p 1,..., p n di interi positivi (pesi dei job) e un
DettagliBasi di dati. Il Modello Relazionale dei Dati. K. Donno - Il Modello Relazionale dei Dati
Basi di dati Il Modello Relazionale dei Dati Proposto da E. Codd nel 1970 per favorire l indipendenza dei dati Disponibile come modello logico in DBMS reali nel 1981 (non è facile realizzare l indipendenza
DettagliCorso di Psicometria Progredito
Corso di Psicometria Progredito 3.1 Introduzione all inferenza statistica Prima Parte Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013-2014
DettagliAlgoritmi di clustering
Algoritmi di clustering Dato un insieme di dati sperimentali, vogliamo dividerli in clusters in modo che: I dati all interno di ciascun cluster siano simili tra loro Ciascun dato appartenga a uno e un
DettagliCORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)
Ambiente Access La Guida di Access Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?) Guida in linea Guida rapida Assistente di Office indicazioni
DettagliAltri metodi di indicizzazione
Organizzazione a indici su più livelli Altri metodi di indicizzazione Al crescere della dimensione del file l organizzazione sequenziale a indice diventa inefficiente: in lettura a causa del crescere del
DettagliLa Progettazione Concettuale
La Progettazione Concettuale Università degli Studi del Sannio Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica CorsodiBasidiDati Anno Accademico 2006/2007 docente: ing. Corrado Aaron Visaggio
DettagliEsperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale
Esperienze di Apprendimento Automatico per il corso di lippi@dsi.unifi.it Dipartimento Sistemi e Informatica Università di Firenze Dipartimento Ingegneria dell Informazione Università di Siena Introduzione
DettagliIntroduzione a data warehousing e OLAP
Corso di informatica Introduzione a data warehousing e OLAP La Value chain Information X vive in Z S ha Y anni X ed S hanno traslocato Data W ha del denaro in Z Stile di vita Punto di vendita Dati demografici
DettagliDatabase: collezione di fatti, registrabili e con un ben preciso significato, relazionati fra di loro
Database relazionali: un'introduzione Database: collezione di fatti, registrabili e con un ben preciso significato, relazionati fra di loro Rappresentazione astratta di aspetti del mondo reale (Universe
DettagliLibrerie digitali. Video. Gestione di video. Caratteristiche dei video. Video. Metadati associati ai video. Metadati associati ai video
Video Librerie digitali Gestione di video Ogni filmato è composto da più parti Video Audio Gestito come visto in precedenza Trascrizione del testo, identificazione di informazioni di interesse Testo Utile
DettagliPage 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo
Evoluzione In ogni popolazione si verificano delle mutazioni. Intelligenza Artificiale In un ambiente che varia, le mutazioni possono generare individui che meglio si adattano alle nuove condizioni. Questi
DettagliIntroduzione alla teoria dei database relazionali. Come progettare un database
Introduzione alla teoria dei database relazionali Come progettare un database La struttura delle relazioni Dopo la prima fase di individuazione concettuale delle entità e degli attributi è necessario passare
DettagliRassegna sui principi e sui sistemi di Data Warehousing
Università degli studi di Bologna FACOLTA DI SCIENZE MATEMATICHE, FISICHE E NATURALI Rassegna sui principi e sui sistemi di Data Warehousing Tesi di laurea di: Emanuela Scionti Relatore: Chiar.mo Prof.Montesi
DettagliStimare il WCET Metodo classico e applicazione di un algoritmo genetico
Stimare il WCET Metodo classico e applicazione di un algoritmo genetico Sommario Introduzione Definizione di WCET Importanza del WCET Panoramica dei classici metodi per calcolare il WCET [1] Utilizzo di
DettagliANALISI DELLE FREQUENZE: IL TEST CHI 2
ANALISI DELLE FREQUENZE: IL TEST CHI 2 Quando si hanno scale nominali o ordinali, non è possibile calcolare il t, poiché non abbiamo medie, ma solo frequenze. In questi casi, per verificare se un evento
DettagliSTRATEGIA DI TRADING. Turning Points
STRATEGIA DI TRADING Turning Points ANALISI E OBIETTIVI DA RAGGIUNGERE Studiare l andamento dei prezzi dei mercati finanziari con una certa previsione su tendenze future Analisi Tecnica: studio dell andamento
DettagliPiano di gestione della qualità
Piano di gestione della qualità Pianificazione della qualità Politica ed obiettivi della qualità Riferimento ad un eventuale modello di qualità adottato Controllo della qualità Procedure di controllo.
DettagliSommario. Analysis & design delle applicazioni parallele. Misura delle prestazioni parallele. Tecniche di partizionamento.
Sommario Analysis & design delle applicazioni parallele Misura delle prestazioni parallele Tecniche di partizionamento Comunicazioni Load balancing 2 Primi passi: analizzare il problema Prima di iniziare
DettagliCorso di Basi di Dati e Conoscenza
Corso di Basi di Dati e Conoscenza Gestione dei Dati e della Conoscenza Primo Emicorso - Basi di Dati Roberto Basili a.a. 2012/13 1 Obbiettivi Formativi Scenario Le grandi quantità di dati accumulate nelle
DettagliMASTER UNIVERSITARIO
MASTER UNIVERSITARIO Analisi Dati per la Business Intelligence In collaborazione con II edizione 2013/2014 Dipartimento di Culture, Politica e Società Dipartimento di Informatica gestito da aggiornato
DettagliCosa è un foglio elettronico
Cosa è un foglio elettronico Versione informatica del foglio contabile Strumento per l elaborazione di numeri (ma non solo...) I valori inseriti possono essere modificati, analizzati, elaborati, ripetuti
DettagliPrincipi di analisi causale Lezione 2
Anno accademico 2007/08 Principi di analisi causale Lezione 2 Docente: prof. Maurizio Pisati Logica della regressione Nella sua semplicità, l espressione precedente racchiude interamente la logica della
DettagliProgetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario
Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,
DettagliIntroduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini
Introduzione agli Algoritmi Genetici Prof. Beatrice Lazzerini Dipartimento di Ingegneria della Informazione Via Diotisalvi, 2 56122 PISA ALGORITMI GENETICI (GA) Sono usati per risolvere problemi di ricerca
DettagliConoscenza. Metodo scientifico
Conoscenza La conoscenza è la consapevolezza e la comprensione di fatti, verità o informazioni ottenuti attraverso l'esperienza o l'apprendimento (a posteriori), ovvero tramite l'introspezione (a priori).
DettagliLezione 8. Data Mining
Lezione 8 Data Mining Che cos'è il data mining? Data mining (knowledge discovery from data) Estrazione di pattern interessanti (non banali, impliciti, prima sconosciuti e potenzialmente utili) da enormi
DettagliAccess. P a r t e p r i m a
Access P a r t e p r i m a 1 Esempio di gestione di database con MS Access 2 Cosa è Access? Access e un DBMS che permette di progettare e utilizzare DB relazionali Un DB Access e basato sui concetti di
DettagliStefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse
Politecnico di Milano View integration 1 Integrazione di dati di sorgenti diverse Al giorno d oggi d la mole di informazioni che viene gestita in molti contesti applicativi è enorme. In alcuni casi le
DettagliSommario. Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi.
Algoritmi 1 Sommario Definizione di informatica. Definizione di un calcolatore come esecutore. Gli algoritmi. 2 Informatica Nome Informatica=informazione+automatica. Definizione Scienza che si occupa dell
DettagliBusiness Intelligence & Data Mining. In ambiente Retail
Business Intelligence & Data Mining In ambiente Retail Business Intelligence Platform DATA SOURCES STAGING AREA DATA WAREHOUSE DECISION SUPPORT Application Databases Packaged application/erp Data DATA
DettagliOSSERVAZIONI TEORICHE Lezione n. 4
OSSERVAZIONI TEORICHE Lezione n. 4 Finalità: Sistematizzare concetti e definizioni. Verificare l apprendimento. Metodo: Lettura delle OSSERVAZIONI e risoluzione della scheda di verifica delle conoscenze
DettagliIndice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi
Indice generale OOA Analisi Orientata agli Oggetti Introduzione Analisi Metodi d' analisi Analisi funzionale Analisi del flusso dei dati Analisi delle informazioni Analisi Orientata agli Oggetti (OOA)
DettagliI database relazionali (Access)
I database relazionali (Access) Filippo TROTTA 04/02/2013 1 Prof.Filippo TROTTA Definizioni Database Sistema di gestione di database (DBMS, Database Management System) Sistema di gestione di database relazionale
DettagliRegressione Mario Guarracino Data Mining a.a. 2010/2011
Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume
DettagliGESTIONE della BASE di DATI
GESTIONE della SE di DTI I dati sono una componente fondamentale di un GIS Devono essere valutati con attenzione gli strumenti usati per: creare l archivio dei dati manipolare le informazioni contenute
DettagliTecniche di DM: Alberi di decisione ed algoritmi di classificazione
Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Concetti preliminari: struttura del dataset negli
DettagliCorso di. Dott.ssa Donatella Cocca
Corso di Statistica medica e applicata Dott.ssa Donatella Cocca 1 a Lezione Cos'è la statistica? Come in tutta la ricerca scientifica sperimentale, anche nelle scienze mediche e biologiche è indispensabile
DettagliMon Ami 3000 Varianti articolo Gestione di varianti articoli
Prerequisiti Mon Ami 3000 Varianti articolo Gestione di varianti articoli L opzione Varianti articolo è disponibile per le versioni Azienda Light e Azienda Pro e include tre funzionalità distinte: 1. Gestione
DettagliPROGRAMMA SVOLTO NELLA SESSIONE N.
Università C. Cattaneo Liuc, Corso di Statistica, Sessione n. 1, 2014 Laboratorio Excel Sessione n. 1 Venerdì 031014 Gruppo PZ Lunedì 061014 Gruppo AD Martedì 071014 Gruppo EO PROGRAMMA SVOLTO NELLA SESSIONE
DettagliElementi di Psicometria con Laboratorio di SPSS 1
Elementi di Psicometria con Laboratorio di SPSS 1 29-Analisi della potenza statistica vers. 1.0 (12 dicembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca
DettagliIntroduzione ad OLAP (On-Line Analytical Processing)
Introduzione ad OLAP (On-Line Analytical Processing) Metodi e Modelli per il Supporto alle Decisioni 2002 Dipartimento di Informatica Sistemistica e Telematica (Dist) Il termine OLAP e l acronimo di On-Line
DettagliCorso di Laurea Specialistica in Ingegneria Informatica. Corso di Ingegneria del Software A. A. 2008-2009. Class Discovery E.
Corso di Laurea Specialistica in Ingegneria Informatica Corso di Ingegneria del Software A. A. 2008 - Class Discovery E. TINELLI Contenuti Classi di analisi: definizione ed esempi Tecniche per la definizione
DettagliRegressione logistica
Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer Metodi di classificazione Tecniche principali Alcuni esempi Data set Default I dati La regressione logistica Esempio Il modello
DettagliLa classificazione. Sommario. Intuizioni sul concetto di classificazione. Descrivete la propensione all acquisto acquisto dei clienti
Sommario La classificazione Intuizioni sul task di classificazione Classificazione e apprendimento induttivo valutazione di un modello di classificazione Tipi di modelli di classificazione alberi di decisione
DettagliBarriere assorbenti nelle catene di Markov e una loro applicazione al web
Università Roma Tre Facoltà di Scienze M.F.N Corso di Laurea in Matematica a.a. 2001/2002 Barriere assorbenti nelle catene di Markov e una loro applicazione al web Giulio Simeone 1 Sommario Descrizione
DettagliDBMS (Data Base Management System)
Cos'è un Database I database o banche dati o base dati sono collezioni di dati, tra loro correlati, utilizzati per rappresentare una porzione del mondo reale. Sono strutturati in modo tale da consentire
Dettagli