Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino"

Transcript

1 DataBase and Data Mining Group of Database and data mining group, Database and data mining group, DataBase and Data Mining Group of DataBase and Data Mining Group of So dati insieme di classi oggetti etichettati con il me della classe di appartenenza (ting set) L obiettivo della classificazione è trovare un profilo descrittivo per ogni classe, che permetta di assegnare oggetti di classe igta alla classe appropriata DATA MIIG: CLASSIFICAZIOE - 1 Database and data mining group, Database and data mining group, Definizione generale DataBase and Data Mining Group of Ting set La classificazione è un processo in due passi Creazione del modello Costruzione del modello a partire dal ting set, si definisce un modello la qualità del modello è validata mediante una porzione del ting set n utilizzata per la costruzione del modello (test set) Uso del modello mediante il modello si assegna l etichetta di classe a nuovi dati n etichettati Il modello può essere definito mediante Età Tipo auto Classe rischio alberi di decisione reti neurali probabilità regole di associazione support vector machines (SVM) DataBase and Data Mining Group of DATA MIIG: CLASSIFICAZIOE - 2 THE Rischio = IF Età 26 THE Rischio = THE Rischio = DATA MIIG: CLASSIFICAZIOE - 3 Database and data mining group, Database and data mining group, DATA MIIG: CLASSIFICAZIOE - 4 DataBase and Data Mining Group of DataBase and Data Mining Group of Test set Validazione del modello Età Tipo auto berlina Classe rischio Età Tipo auto Classe rischio 35??? THE Rischio = IF Età 26 THE Rischio = THE Rischio = DATA MIIG: CLASSIFICAZIOE - 5 uovo dato THE Rischio = IF Età 26 THE Rischio = THE Rischio = ag. 1 DATA MIIG: CLASSIFICAZIOE - 6

2 DataBase and Data Mining Group of Database and data mining group, Database and data mining group, DataBase and Data Mining Group of DataBase and Data Mining Group of reparazione dei dati Valutazione delle tecniche di classificazione Accuratezza ulizia dei dati qualità della predizione riduzione del rumore gestione dei dati mancanti Efficienza tempo di costruzione del modello tempo di classificazione Trasformazione dei dati Scalabilità rmalizzazione dell intervallo di variazione rispetto alla dimensione del ting set rispetto al numero di attributi necessaria per alcuni algoritmi (reti neurali,...) Feature selection Robustezza eliminazione di gestione di rumore e dati mancanti Interpretabilità attributi irrilevanti (esempio: codice fiscale) attributi ridondanti comprensibilità del modello compattezza del modello DATA MIIG: CLASSIFICAZIOE - 7 Database and data mining group, Database and data mining group, DataBase and Data Mining Group of age Struttura ad albero in cui i di interni deta un test su un attributo ogni ramo rappresenta un possibile risultato del test unti di forza modello interpretabile buona accuratezza buona efficienza algoritmi recenti con buona scalabilità unti deboli può essere sensibile a dati mancanti income student credit_rating fair excellent fair fair fair excellent excellent fair fair fair excellent excellent fair excellent DATA MIIG: CLASSIFICAZIOE - 10 Database and data mining group, student? DataBase and Data Mining Group of Algoritmo base costruzione dell albero all inizio tutti i dati di ting so alla radice ripetizione iterativa dei passi selezione dell attributo migliore di partizionamento partizionamento del ting set in base all attributo credit rating? excellent fair fi a quando il do contiene solo esempi della stessa classe n ci so più attributi per il partizionamento (classe di maggioranza) n ci so più dati di ting pruning dell albero riduzione del numero di rami serve per evitare l overfitting DATA MIIG: CLASSIFICAZIOE - 11 DataBase and Data Mining Group of age? DataBase and Data Mining Group of Database and data mining group, buys_computer DATA MIIG: CLASSIFICAZIOE - 9 DATA MIIG: CLASSIFICAZIOE - 8 ag. 2 DATA MIIG: CLASSIFICAZIOE - 12

3 DataBase and Data Mining Group of Database and data mining group, Database and data mining group, Selezione dell attributo di partizionamento (split) DataBase and Data Mining Group of DataBase and Data Mining Group of Regole di classificazione Ogni percorso nell albero rappresenta una regola if... then Information gain adatto per attributi categorici basato sul concetto di entropia corpo dato dalla congiunzione dei predicati derivati dai di interni testa data dall etichetta di classe del do foglia quantità d informazione necessaria per classificare il ting set prima e dopo aver applicato lo split sull attributo considerato Gini index IF age = AD student = THE buys_computer = IF age = AD student = THE buys_computer = IF age = THE buys_computer = IF age = AD credit_rating = excellent THE buys_computer = IF age = AD credit_rating = fair THE buys_computer = adatto per attributi continui valuta l insieme di tutti i possibili punti di split per ogni attributo necessarie tecniche per individuare i punti di split migliori DATA MIIG: CLASSIFICAZIOE - 13 DATA MIIG: CLASSIFICAZIOE - 14 Database and data mining group, Database and data mining group, DataBase and Data Mining Group of DataBase and Data Mining Group of associativa baiana Modello definito mediante regole di associazione Basata sul calcolo delle probabilità unti di forza testa della regola è l etichetta di classe le regole so selezionate mediante soglie di supporto, confidenza, correlazione database coverage: procedimento di copertura dei dati di ting mediante le regole estratte, ordinate second opportuni criteri unti di forza modello interpretabile accuratezza maggiore degli alberi di decisione considera contemporaneamente la correlazione di più attributi unti di debolezza classificazione efficiente insensibile a dati mancanti buona scalabilità nella dimensione del ting set la generazione del modello di riferimento è computazionalmente intrattabile unti di debolezza ipotesi semplificativa: ipotesi naïve generazione delle regole può essere lenta scarsa scalabilità nel numero degli attributi modello di riferimento, se calcolato in modo completo modello facilmente aggiornabile in modo incrementale classificazione efficiente modello con interpretabilità discreta ipotesi naïve riduce significativamente l accuratezza DATA MIIG: CLASSIFICAZIOE - 15 DATA MIIG: CLASSIFICAZIOE - 16 Database and data mining group, Database and data mining group, baiana DataBase and Data Mining Group of baiana Applicazione del teorema di Ba Outlook (C X) = probabilità che X=<x1,,xk> appartenga alla classe C Assegnazione a X della classe per cui (C X) è massima Teorema di Ba (C X) = (X C) (C) / (X) (X) costante per tutte le C (C) probabilità a priori di C (X C) n può essere computata in modo esaustivo Ipotesi naïve indipendenza statistica degli attributi x1,,xk n è sempre verificata la qualità del modello può essere affetta Reti baiane permetto di specificare un sottinsieme di dipendenze tra attributi DataBase and Data Mining Group of Temperature Humidity Windy Class rmal rmal rmal rmal rmal rmal rmal DATA MIIG: CLASSIFICAZIOE - 17 ag. 3 DATA MIIG: CLASSIFICAZIOE - 18

4 DataBase and Data Mining Group of Database and data mining group, outlook Database and data mining group, baiana DataBase and Data Mining Group of (p) = 9/14 ( p) = 2/9 ( p) = 3/9 (n) = 5/14 neuroni come unità di elaborazione sinapsi come rete di collegamento ( n) = 2/5 temperature ( p) = 2/9 ( n) = 2/5 ( p) = 4/9 ( n) = 2/5 ( p) = 3/9 ( n) = 1/5 humidity ( p) = 3/9 ( n) = 4/5 (rmal p) = 6/9 (rmal n) = 2/5 windy ( p) = 3/9 ( n) = 3/5 ( p) = 6/9 ( n) = 2/5 unti di forza Dato da classificare X = <,,, > (X p) (p) = ( p) ( p) ( p) ( p) (p) = 3/9 2/9 3/9 6/9 9/14 = accuratezza elevata robusto in presenza di outliers e rumore efficienza di classificazione output discreto o continuo unti di debolezza (X n) (n) = ( n) ( n) ( n) ( n) (n) = 2/5 2/5 4/5 2/5 5/14 = processo di apprendimento lento modello n interpretabile difficile introdurre coscenza del dominio applicativo Tratto da Han, Kamber, Data mining; Concepts and Techniques, Morgan Kaufmann 2002 DATA MIIG: CLASSIFICAZIOE - 19 DataBase and Data Mining Group of Ispirate alla struttura del cervello uma ( n) = 3/5 ( p) = 4/9 ( n) = 0 Reti neurali DATA MIIG: CLASSIFICAZIOE - 20 Database and data mining group, Database and data mining group, Struttura della rete neurale DataBase and Data Mining Group of DataBase and Data Mining Group of Struttura di un neurone Vettore di output - µk odi di output x0 w0 x1 w1 xn wn odi hidden peso wij Vettore Vettore di input x pesi w odi di input f output y Somma pesata Funzione di attivazione Vettore di input: xi DATA MIIG: CLASSIFICAZIOE - 21 DATA MIIG: CLASSIFICAZIOE - 22 Database and data mining group, Database and data mining group, Misure di qualità DataBase and Data Mining Group of Costruzione della rete neurale Obiettivo DataBase and Data Mining Group of Misura di qualità per il modello di classificazione definire un insieme ottimale di pesi e offset Accuratezza = num. dati classifica ti correttame nte num. dati classifica ti Algoritmo di base Assegnazione iniziale di valori casuali a pesi e offset Elaborazione delle istanze del ting set una per volta n adatta per distribuzioni sbilanciate delle etichette di classe importanza diversa delle classi er ogni neurone, calcolo del risultato dell applicazione di pesi, offset e funzione di attivazione per l istanza ropagazione in avanti fi al calcolo dell output Confronto con l output atteso e calcolo dell errore ropagazione all indietro dell errore (backpropagation), ricalcolando pesi e offset Misure di qualità per una singola classe C Richiamo= num. dati classificati correttamente in C num. dati appartenenti a C Il processo termina quando recisione = num. dati classificati correttamente in C num. dati assegnati a C % di accuratezza sopra soglia data % di errore sotto soglia data numero massimo di epoche raggiunto DATA MIIG: CLASSIFICAZIOE - 23 ag. 4 DATA MIIG: CLASSIFICAZIOE - 24

5 DataBase and Data Mining Group of DataBase and Data Mining Group of D B DATA MIIG: CLASSIFICAZIOE - 25 Database and data mining group, Validazione di un classificatore artizionamento dei dati in dati di ting, utilizzati per costruire il modello dati di test, utilizzati per validare il modello generato Tecniche di partizionamento partizionamento fisso ting set 2/3 test set 1/3 adatto per dataset molto grandi cross validation (K-fold) divisione del ting set in k sottinsiemi, detti folds a rotazione su tutti i K fold, 1 fold è utilizzato per il test e gli altri K-1 per il ting bootstrapping (leave-one-out) cross validation con un solo record di test per volta richiede la generazione di un numero di classificatori pari alla cardinalità del dataset adatto per dataset molto piccoli D B M G ag. 5

Data mining: classificazione

Data mining: classificazione DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group

Dettagli

Classificazione DATA MINING: CLASSIFICAZIONE - 1. Classificazione

Classificazione DATA MINING: CLASSIFICAZIONE - 1. Classificazione M B G Classificazione ATA MINING: CLASSIFICAZIONE - 1 Classificazione Sono dati insieme di classi oggetti etichettati con il nome della classe di appartenenza (training set) L obiettivo della classificazione

Dettagli

Ricerca di outlier. Ricerca di Anomalie/Outlier

Ricerca di outlier. Ricerca di Anomalie/Outlier Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

SVM. Veronica Piccialli. Roma 11 gennaio 2010. Università degli Studi di Roma Tor Vergata 1 / 14

SVM. Veronica Piccialli. Roma 11 gennaio 2010. Università degli Studi di Roma Tor Vergata 1 / 14 SVM Veronica Piccialli Roma 11 gennaio 2010 Università degli Studi di Roma Tor Vergata 1 / 14 SVM Le Support Vector Machines (SVM) sono una classe di macchine di che derivano da concetti riguardanti la

Dettagli

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo Evoluzione In ogni popolazione si verificano delle mutazioni. Intelligenza Artificiale In un ambiente che varia, le mutazioni possono generare individui che meglio si adattano alle nuove condizioni. Questi

Dettagli

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali DIPARTIMENTO DI INGEGNERIA INFORMATICA AUTOMATICA E GESTIONALE ANTONIO RUBERTI Cenni al Data Mining 1 Data Mining nasce prima del Data Warehouse collezione di tecniche derivanti da Intelligenza Artificiale,

Dettagli

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida Introduzione alle tecniche di Data Mining Prof. Giovanni Giuffrida Programma Contenuti Introduzione al Data Mining Mining pattern frequenti, regole associative Alberi decisionali Clustering Esempio di

Dettagli

Feature Selection per la Classificazione

Feature Selection per la Classificazione 1 1 Dipartimento di Informatica e Sistemistica Sapienza Università di Roma Corso di Algoritmi di Classificazione e Reti Neurali 20/11/2009, Roma Outline Feature Selection per problemi di Classificazione

Dettagli

Regressione non lineare con un modello neurale feedforward

Regressione non lineare con un modello neurale feedforward Reti Neurali Artificiali per lo studio del mercato Università degli studi di Brescia - Dipartimento di metodi quantitativi Marco Sandri (sandri.marco@gmail.com) Regressione non lineare con un modello neurale

Dettagli

Mining Positive and Negative Association Rules:

Mining Positive and Negative Association Rules: Mining Positive and Negative Association Rules: An Approach for Confined Rules Alessandro Boca Alessandro Cislaghi Premesse Le regole di associazione positive considerano solo gli item coinvolti in una

Dettagli

Introduzione al MATLAB c Parte 2

Introduzione al MATLAB c Parte 2 Introduzione al MATLAB c Parte 2 Lucia Gastaldi Dipartimento di Matematica, http://dm.ing.unibs.it/gastaldi/ 18 gennaio 2008 Outline 1 M-file di tipo Script e Function Script Function 2 Costrutti di programmazione

Dettagli

Sistemi Informativi Territoriali. Map Algebra

Sistemi Informativi Territoriali. Map Algebra Paolo Mogorovich Sistemi Informativi Territoriali Appunti dalle lezioni Map Algebra Cod.735 - Vers.E57 1 Definizione di Map Algebra 2 Operatori locali 3 Operatori zonali 4 Operatori focali 5 Operatori

Dettagli

Classificazione e Predizione

Classificazione e Predizione Lezione di TDM DM del 16 Aprile 2007 Francesco Bonchi, KDD Lab Pisa, ISTI-C.N.R. 1 Lezione odierna Intuizioni sul concetto di classificazione Alberi di decisione Alberi di decisione con Weka Classificazione:

Dettagli

Dr. A. Appice. Alberi di Decisione. Caso di studio di Metodi Avanzati di Programmazione AA 2012-2013

Dr. A. Appice. Alberi di Decisione. Caso di studio di Metodi Avanzati di Programmazione AA 2012-2013 Alberi di Decisione Caso di studio di Metodi Avanzati di Programmazione AA 2012-2013 Data Mining Lo scopo del data mining è l estrazione (semi) automatica di conoscenza nascosta in voluminose basi di dati

Dettagli

Università di Pisa A.A. 2004-2005

Università di Pisa A.A. 2004-2005 Università di Pisa A.A. 2004-2005 Analisi dei dati ed estrazione di conoscenza Corso di Laurea Specialistica in Informatica per l Economia e per l Azienda Tecniche di Data Mining Corsi di Laurea Specialistica

Dettagli

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale Esperienze di Apprendimento Automatico per il corso di lippi@dsi.unifi.it Dipartimento Sistemi e Informatica Università di Firenze Dipartimento Ingegneria dell Informazione Università di Siena Introduzione

Dettagli

Uno standard per il processo KDD

Uno standard per il processo KDD Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo

Dettagli

Data mining e rischi aziendali

Data mining e rischi aziendali Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento

Dettagli

Regole di Associazione

Regole di Associazione Metodologie per Sistemi Intelligenti Regole di Associazione Prof. Pier Luca Lanzi Laurea in Ingegneria Informatica Politecnico di Milano Polo regionale di Como Esempio Esempio Regole di Associazione Scopo

Dettagli

Pro e contro delle RNA

Pro e contro delle RNA Pro e contro delle RNA Pro: - flessibilità: le RNA sono approssimatori universali; - aggiornabilità sequenziale: la stima dei pesi della rete può essere aggiornata man mano che arriva nuova informazione;

Dettagli

Sistemi Informativi Territoriali. Paolo Mogorovich www.di.unipi.it/~mogorov

Sistemi Informativi Territoriali. Paolo Mogorovich www.di.unipi.it/~mogorov Sistemi Informativi Territoriali Paolo Mogorovich www.di.unipi.it/~mogorov Avvio di un nuovo Progetto e Caricamento layer vettoriali Avviare QGIS Desktop Menù > Impostazioni > Proprietà Progetto > Generale

Dettagli

Stima per intervalli Nei metodi di stima puntuale è sempre presente un ^ errore θ θ dovuto al fatto che la stima di θ in genere non coincide con il parametro θ. Sorge quindi l esigenza di determinare una

Dettagli

I Sistemi Informativi

I Sistemi Informativi I Sistemi Informativi Definizione Un Sistema Informativo è un mezzo per acquisire, organizzare, correlare, elaborare e distribuire le informazioni che riguardano una realtà che si desidera descrivere e

Dettagli

DATA MINING PER IL MARKETING

DATA MINING PER IL MARKETING DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Algoritmi di classificazione Zani-Cerioli, Cap. XI CHAID: Chi-square Automatic Interaction

Dettagli

LE BASI DI DATI. Seconda parte La progettazione di database Relazionali SCHEMA CONCETTUALE LE ASSOCIAZIONI

LE BASI DI DATI. Seconda parte La progettazione di database Relazionali SCHEMA CONCETTUALE LE ASSOCIAZIONI LE BASI DI DATI Seconda parte La progettazione di database Relazionali SCHEMA CONCETTUALE LE ASSOCIAZIONI L'associazione (in inglese Relationship) descrive eventuali legami concettuali tra una, due o più

Dettagli

Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete Neuronale

Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete Neuronale Identificazione dei Parametri Caratteristici di un Plasma Circolare Tramite Rete euronale Descrizione Il presente lavoro, facente segiuto a quanto descritto precedentemente, ha il fine di: 1) introdurre

Dettagli

Lezione 8. La macchina universale

Lezione 8. La macchina universale Lezione 8 Algoritmi La macchina universale Un elaboratore o computer è una macchina digitale, elettronica, automatica capace di effettuare trasformazioni o elaborazioni su i dati digitale= l informazione

Dettagli

Computazione per l interazione naturale: macchine che apprendono

Computazione per l interazione naturale: macchine che apprendono Computazione per l interazione naturale: macchine che apprendono Corso di Interazione Naturale! Prof. Giuseppe Boccignone! Dipartimento di Informatica Università di Milano! boccignone@di.unimi.it boccignone.di.unimi.it/in_2015.html

Dettagli

Elaborazione dei dati su PC Regressione Multipla

Elaborazione dei dati su PC Regressione Multipla 21 Elaborazione dei dati su PC Regressione Multipla Analizza Regressione Statistiche Grafici Metodo di selezione Analisi dei dati 21.1 Introduzione 21.2 Regressione lineare multipla con SPSS 21.3 Regressione

Dettagli

Data Mining in SAP. Alessandro Ciaramella

Data Mining in SAP. Alessandro Ciaramella UNIVERSITÀ DI PISA Corsi di Laurea Specialistica in Ingegneria Informatica per la Gestione d Azienda e Ingegneria Informatica Data Mining in SAP A cura di: Alessandro Ciaramella La Business Intelligence

Dettagli

Capitolo 4: Ottimizzazione non lineare non vincolata parte II. E. Amaldi DEIB, Politecnico di Milano

Capitolo 4: Ottimizzazione non lineare non vincolata parte II. E. Amaldi DEIB, Politecnico di Milano Capitolo 4: Ottimizzazione non lineare non vincolata parte II E. Amaldi DEIB, Politecnico di Milano 4.3 Algoritmi iterativi e convergenza Programma non lineare (PNL): min f(x) s.v. g i (x) 0 1 i m x S

Dettagli

Sistemi Operativi mod. B. Sistemi Operativi mod. B A B C A B C P 1 2 0 0 P 1 1 2 2 3 3 2 P 2 3 0 2 P 2 6 0 0 P 3 2 1 1 P 3 0 1 1 < P 1, >

Sistemi Operativi mod. B. Sistemi Operativi mod. B A B C A B C P 1 2 0 0 P 1 1 2 2 3 3 2 P 2 3 0 2 P 2 6 0 0 P 3 2 1 1 P 3 0 1 1 < P 1, > Algoritmo del banchiere Permette di gestire istanze multiple di una risorsa (a differenza dell algoritmo con grafo di allocazione risorse). Ciascun processo deve dichiarare a priori il massimo impiego

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 4 Reti neurali per la classificazione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com

Dettagli

Metodi Computazionali

Metodi Computazionali Metodi Computazionali Elisabetta Fersini fersini@disco.unimib.it A.A. 2009/2010 Catene di Markov Applicazioni: Fisica dinamica dei sistemi Web simulazione del comportamento utente Biologia evoluzione delle

Dettagli

Tecniche di Simulazione: Introduzione. N. Del Buono:

Tecniche di Simulazione: Introduzione. N. Del Buono: Tecniche di Simulazione: Introduzione N. Del Buono: 2 Che cosa è la simulazione La SIMULAZIONE dovrebbe essere considerata una forma di COGNIZIONE (COGNIZIONE qualunque azione o processo per acquisire

Dettagli

Cos è ACCESS? E un programma di gestione di database (DBMS) Access offre: un ambiente user frendly da usare (ambiente grafico)

Cos è ACCESS? E un programma di gestione di database (DBMS) Access offre: un ambiente user frendly da usare (ambiente grafico) Cos è ACCESS? E un programma di gestione di database (DBMS) Access offre: un ambiente user frendly da usare (ambiente grafico) 1 Aprire Access Appare una finestra di dialogo Microsoft Access 2 Aprire un

Dettagli

Modelli probabilistici

Modelli probabilistici Modelli probabilistici Davide Cittaro e Marco Stefani Master bioinformatica 2003 Introduzione L obiettivo di presente lavoro è la classificazione di un insieme di proteine, definite da 27 valori numerici,

Dettagli

Raggruppamenti Conti Movimenti

Raggruppamenti Conti Movimenti ESERCITAZIONE PIANO DEI CONTI Vogliamo creare un programma che ci permetta di gestire, in un DB, il Piano dei conti di un azienda. Nel corso della gestione d esercizio, si potranno registrare gli articoli

Dettagli

Istruzioni condizionali. Istruzioni condizionali IF-THEN- ELSE IF-THEN-ELSE. Statistica computazionale Carla Rampichini a.a.

Istruzioni condizionali. Istruzioni condizionali IF-THEN- ELSE IF-THEN-ELSE. Statistica computazionale Carla Rampichini a.a. Istruzioni condizionali Istruzioni condizionali Statistica computazionale Carla Rampichini a.a. 2008/09 Subsetting I I espressione; I-THEN-ELSE I espress THEN istr; [ELSE istr;] DO WHILE DO UNTIL I-THEN-

Dettagli

Regressione logistica. Strumenti quantitativi per la gestione

Regressione logistica. Strumenti quantitativi per la gestione Regressione logistica Strumenti quantitativi per la gestione Emanuele Taufer file:///c:/users/emanuele.taufer/dropbox/3%20sqg/classes/4a_rlg.html#(1) 1/25 Metodi di classificazione I metodi usati per analizzare

Dettagli

SQL Server. Applicazioni principali

SQL Server. Applicazioni principali SQL Server Introduzione all uso di SQL Server e utilizzo delle opzioni OLAP Applicazioni principali SQL Server Enterprise Manager Gestione generale di SQL Server Gestione utenti Creazione e gestione dei

Dettagli

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

Un po di statistica. Christian Ferrari. Laboratorio di Matematica Un po di statistica Christian Ferrari Laboratorio di Matematica 1 Introduzione La statistica è una parte della matematica applicata che si occupa della raccolta, dell analisi e dell interpretazione di

Dettagli

SISTEMI INFORMATIVI TERRITORIALI

SISTEMI INFORMATIVI TERRITORIALI Filippo Licenziati SISTEMI INFORMATIVI TERRITORIALI qualità dei dati QUALITA' DEI DATI NEI SIT 2 INDICE concetti generali controllo di qualità acquisizione, elaborazione, restituzione test di qualità esigenze

Dettagli

Analisi di Mercato. Facoltà di Economia. Analisi sui consumi. Metodo delle inchieste familiari. Metodo delle disponibilità globali

Analisi di Mercato. Facoltà di Economia. Analisi sui consumi. Metodo delle inchieste familiari. Metodo delle disponibilità globali Obiettivi delle aziende Analisi di Mercato Facoltà di Economia francesco mola Analisi sui consumi Conoscere i bisogni e i gusti dei consumatori Valutare la soddisfazione della clientela Lanciare nuovi

Dettagli

Tecniche di Clustering basate sul Machine Learning

Tecniche di Clustering basate sul Machine Learning UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II Scuola Politecnica e delle Scienze di base Area didattica Scienze Matematiche Fisiche e Naturali Corso di Laurea in Informatica Tecniche di Clustering basate

Dettagli

Ottimizzazione nella gestione dei progetti Capitolo 4: la gestione dei costi (Programmazione multimodale): formulazioni

Ottimizzazione nella gestione dei progetti Capitolo 4: la gestione dei costi (Programmazione multimodale): formulazioni Ottimizzazione nella gestione dei progetti Capitolo 4: la gestione dei costi (Programmazione multimodale): formulazioni CARLO MANNINO Università di Roma La Sapienza Dipartimento di Informatica e Sistemistica

Dettagli

Interpolazione ed approssimazione di funzioni

Interpolazione ed approssimazione di funzioni Interpolazione ed approssimazione di funzioni Lucia Gastaldi Dipartimento di Matematica, http://dm.ing.unibs.it/gastaldi/ 9 novembre 2007 Outline 1 Polinomi Valutazione di un polinomio Algoritmo di Horner

Dettagli

Nozione di algoritmo. Gabriella Trucco

Nozione di algoritmo. Gabriella Trucco Nozione di algoritmo Gabriella Trucco Programmazione Attività con cui si predispone l'elaboratore ad eseguire un particolare insieme di azioni su particolari informazioni (dati), allo scopo di risolvere

Dettagli

LE CARTE DI CONTROLLO (4)

LE CARTE DI CONTROLLO (4) LE CARTE DI CONTROLLO (4) Tipo di carta di controllo Frazione difettosa Carta p Numero di difettosi Carta np Dimensione campione Variabile, solitamente >= 50 costante, solitamente >= 50 Linea centrale

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Data Mining. Introduzione La crescente popolarità

Dettagli

2. Simulazione discreta: approcci alla simulazione

2. Simulazione discreta: approcci alla simulazione Anno accademico 2007/08 Elementi di un programma di simulazione Controllore Tempo di simulazione Generatore dei dati di input Entità Eventi Attività Stati Processi Simulazione per eventi: le classi L approccio

Dettagli

Ingegneria del Software T

Ingegneria del Software T Home Finance 1 Requisiti del cliente 1 Si richiede di realizzare un sistema per la gestione della contabilità familiare. Il sistema consente la classificazione dei movimenti di denaro e la loro memorizzazione.

Dettagli

SPC e distribuzione normale con Access

SPC e distribuzione normale con Access SPC e distribuzione normale con Access In questo articolo esamineremo una applicazione Access per il calcolo e la rappresentazione grafica della distribuzione normale, collegata con tabelle di Clienti,

Dettagli

CPM - PERT CPM - PERT. Rappresentazione di un progetto. Gestione di un progetto. Critical Path Method Project Evaluation and Review Technique

CPM - PERT CPM - PERT. Rappresentazione di un progetto. Gestione di un progetto. Critical Path Method Project Evaluation and Review Technique CPM - PERT CPM - PERT CPM e PERT sono metodologie per la gestione di progetti composti da più attività in cui esistano relazioni di precedenza. Critical Path Method Project Evaluation and Review Technique

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Indice-sommario INDICE SOMMARIO CAPITOLO I LE MATRICI DEI DATI E LE ANALISI UNIVARIATE

Indice-sommario INDICE SOMMARIO CAPITOLO I LE MATRICI DEI DATI E LE ANALISI UNIVARIATE VII INDICE SOMMARIO Prefazione... xv CAPITOLO I LE MATRICI DEI DATI E LE ANALISI UNIVARIATE 1. Analisi dei dati e data mining... 1 2. La matrice dei dati «unità pervariabili»... 6 3. Idatiricavatidaun

Dettagli

Relazioni tra tabelle

Relazioni tra tabelle Relazioni tra tabelle Una delle caratteristiche principali di Access è la possibilità di definire le relazioni fra tabelle in modo molto semplice vista l interfaccia grafica visuale. Le relazioni possono

Dettagli

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it Data Mining Gabriella Trucco gabriella.trucco@unimi.it Perché fare data mining La quantità dei dati memorizzata su supporti informatici è in continuo aumento Pagine Web, sistemi di e-commerce Dati relativi

Dettagli

Algoritmo. I dati su cui opera un'istruzione sono forniti all'algoritmo dall'esterno oppure sono il risultato di istruzioni eseguite precedentemente.

Algoritmo. I dati su cui opera un'istruzione sono forniti all'algoritmo dall'esterno oppure sono il risultato di istruzioni eseguite precedentemente. Algoritmo Formalmente, per algoritmo si intende una successione finita di passi o istruzioni che definiscono le operazioni da eseguire su dei dati (=istanza del problema): in generale un algoritmo è definito

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 8 Support Vector Machines Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

C4.5 Algorithms for Machine Learning

C4.5 Algorithms for Machine Learning C4.5 Algorithms for Machine Learning C4.5 Algorithms for Machine Learning Apprendimento di alberi decisionali c4.5 [Qui93b,Qui96] Evoluzione di ID3, altro sistema del medesimo autore, J.R. Quinlan Ispirato

Dettagli

Barriere assorbenti nelle catene di Markov e una loro applicazione al web

Barriere assorbenti nelle catene di Markov e una loro applicazione al web Università Roma Tre Facoltà di Scienze M.F.N Corso di Laurea in Matematica a.a. 2001/2002 Barriere assorbenti nelle catene di Markov e una loro applicazione al web Giulio Simeone 1 Sommario Descrizione

Dettagli

regola(1,[e,f],b) regola(2,[m,f],e) regola(3,[m],f) regola(4,[b,f],g) regola(5,[b,g],c) regola(6,[g,q],a)

regola(1,[e,f],b) regola(2,[m,f],e) regola(3,[m],f) regola(4,[b,f],g) regola(5,[b,g],c) regola(6,[g,q],a) ESERCIZIO1 PREMESSA Per risolvere problemi spesso esistono delle regole che, dai dati del problema, permettono di calcolare o dedurre la soluzione. Questa situazione si può descrivere col termine regola(,

Dettagli

Equazioni non lineari

Equazioni non lineari Equazioni non lineari Data una funzione f : [a, b] R si cerca α [a, b] tale che f (α) = 0. I metodi numerici per la risoluzione di questo problema sono metodi iterativi. Teorema Data una funzione continua

Dettagli

Metodologie per la Progettazione Concettuale

Metodologie per la Progettazione Concettuale Metodologie per la Progettazione Concettuale Raccolta e analisi dei requisiti Scegliere il corretto livello di astrazione Standardizzare la struttura delle frasi Evitare frasi contorte Individuare sinonimi

Dettagli

Relatore Chiar.mo Prof. Davide Anguita Relatore Aziendale Ing. Silvio Costa (IsoSistemi) Relatore Aziendale Ing. Marco De Leo (IsoSistemi)

Relatore Chiar.mo Prof. Davide Anguita Relatore Aziendale Ing. Silvio Costa (IsoSistemi) Relatore Aziendale Ing. Marco De Leo (IsoSistemi) Relatore Chiar.mo Prof. Davide Anguita Relatore Aziendale Ing. Silvio Costa (IsoSistemi) Relatore Aziendale Ing. Marco De Leo (IsoSistemi) Allievo Matteo Bardini Genova, 15/7/2011 1 Indice Il Process Mining.

Dettagli

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da

Dettagli

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo Distributed P2P Data Mining Autore: (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo A.A. 2005/2006 Il settore del Data Mining Distribuito (DDM): Data Mining: cuore del processo

Dettagli

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8 CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8 Dott.ssa Antonella Costanzo a.costanzo@unicas.it Esercizio 1. Test delle ipotesi sulla varianza In un azienda che produce componenti meccaniche, è stato

Dettagli

Capitolo 2 Distribuzioni di frequenza

Capitolo 2 Distribuzioni di frequenza Edizioni Simone - Vol. 43/1 Compendio di statistica Capitolo 2 Distribuzioni di frequenza Sommario 1. Distribuzioni semplici. - 2. Distribuzioni doppie. - 3. Distribuzioni parziali: condizionate e marginali.

Dettagli

Progettazione concettuale

Progettazione concettuale Progettazione concettuale Strategie top-down A partire da uno schema che descrive le specifiche mediante pochi concetti molto astratti, si produce uno schema concettuale mediante raffinamenti successivi

Dettagli

ALGORITMI e PROGRAMMI Programmazione: Lavoro che si fa per costruire sequenze di istruzioni (operazioni) adatte a svolgere un dato calcolo

ALGORITMI e PROGRAMMI Programmazione: Lavoro che si fa per costruire sequenze di istruzioni (operazioni) adatte a svolgere un dato calcolo ALGORITMI e PROGRAMMI Programmazione: Lavoro che si fa per costruire sequenze di istruzioni (operazioni) adatte a svolgere un dato calcolo INPUT: dati iniziali INPUT: x,y,z AZIONI esempio: Somma x ed y

Dettagli

Tecniche di analisi multivariata

Tecniche di analisi multivariata Tecniche di analisi multivariata Metodi che fanno riferimento ad un modello distributivo assunto per le osservazioni e alla base degli sviluppi inferenziali - tecniche collegate allo studio della dipendenza

Dettagli

Innovazione continua nella elaborazione di dati telerilevati per la gestione del territorio

Innovazione continua nella elaborazione di dati telerilevati per la gestione del territorio Elisabetta Carfagna Innovazione continua nella elaborazione di dati telerilevati per la gestione del territorio Progetto PRIN 2005 Progettazione Statistica dell innovazione continua di prodotto U.O. Bologna

Dettagli

Premesse alla statistica

Premesse alla statistica Premesse alla statistica Versione 22.10.08 Premesse alla statistica 1 Insiemi e successioni I dati di origine sperimentale si presentano spesso non come singoli valori, ma come insiemi di valori. Richiamiamo

Dettagli

DAL PROBLEMA ALL'ALGORITMO AL PROGRAMMA SCRITTO IN Come. Scopo principale dell informatica è risolvere problemi con i calcolatori.

DAL PROBLEMA ALL'ALGORITMO AL PROGRAMMA SCRITTO IN Come. Scopo principale dell informatica è risolvere problemi con i calcolatori. DAL PROBLEMA ALL'ALGORITMO AL PROGRAMMA SCRITTO IN Come Scopo principale dell informatica è risolvere problemi con i calcolatori. Non tutti i problemi sono risolvibili con i calcolatori. Si può dimostrato

Dettagli

Con il termine Sistema operativo si fa riferimento all insieme dei moduli software di un sistema di elaborazione dati dedicati alla sua gestione.

Con il termine Sistema operativo si fa riferimento all insieme dei moduli software di un sistema di elaborazione dati dedicati alla sua gestione. Con il termine Sistema operativo si fa riferimento all insieme dei moduli software di un sistema di elaborazione dati dedicati alla sua gestione. Compito fondamentale di un S.O. è infatti la gestione dell

Dettagli

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione

Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Tecniche di DM: Alberi di decisione ed algoritmi di classificazione Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Concetti preliminari: struttura del dataset negli

Dettagli

Dott. Francesco Caruso. www.francescocaruso.ch. Copyright 2010- All Rights Reserved

Dott. Francesco Caruso. www.francescocaruso.ch. Copyright 2010- All Rights Reserved Francesco Caruso Individuazione del trend e dei punti di intervento: utilizzo combinato di RSI, medie e tecniche di stop TOL Expo Milano, 30 Ottobre 2009 Copyright 2010- All Rights Reserved PROGRAMMA DELLA

Dettagli

VC-dimension: Esempio

VC-dimension: Esempio VC-dimension: Esempio Quale è la VC-dimension di. y b = 0 f() = 1 f() = 1 iperpiano 20? VC-dimension: Esempio Quale è la VC-dimension di? banale. Vediamo cosa succede con 2 punti: 21 VC-dimension: Esempio

Dettagli

Strutture di Memoria 1

Strutture di Memoria 1 Architettura degli Elaboratori e Laboratorio 17 Maggio 2013 Classificazione delle memorie Funzionalitá: Sola lettura ROM, Read Only Memory, generalmente usata per contenere le routine di configurazione

Dettagli

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,

Dettagli

Analisi di dati di frequenza

Analisi di dati di frequenza Analisi di dati di frequenza Fase di raccolta dei dati Fase di memorizzazione dei dati in un foglio elettronico 0 1 1 1 Frequenze attese uguali Si assuma che dalle risposte al questionario sullo stato

Dettagli

Basi di dati Progettazione logica. Elena Baralis Politecnico di Torino

Basi di dati Progettazione logica. Elena Baralis Politecnico di Torino Progettazione logica Progettazione logica Richiede di scegliere il modello dei dati!modello relazionale Obiettivo: definizione di uno schema logico relazionale corrispondente allo schema ER di partenza

Dettagli

Servizi di consulenza specialistica per IGRUE 2009 2012

Servizi di consulenza specialistica per IGRUE 2009 2012 Allegato 9A Metodo della stima delle differenze Descrizione della procedura Il metodo della stima delle differenze è indicato qualora il controllore ritenga che la popolazione sia affetta da un tasso di

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis

Dettagli

Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A. 2013-14. Pietro Frasca.

Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A. 2013-14. Pietro Frasca. Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A. 2013-14 Pietro Frasca Lezione 11 Martedì 12-11-2013 1 Tecniche di allocazione mediante free list Generalmente,

Dettagli

Sono casi particolari di MCF : SPT (cammini minimi) non vi sono vincoli di capacità superiore (solo x ij > 0) (i, j) A : c ij, costo di percorrenza

Sono casi particolari di MCF : SPT (cammini minimi) non vi sono vincoli di capacità superiore (solo x ij > 0) (i, j) A : c ij, costo di percorrenza Il problema di flusso di costo minimo (MCF) Dati : grafo orientato G = ( N, A ) i N, deficit del nodo i : b i (i, j) A u ij, capacità superiore (max quantità di flusso che può transitare) c ij, costo di

Dettagli

TECNOLOGIE INFORMATICHE DELLA COMUNICAZIONE ORE SETTIMANALI 2 TIPO DI PROVA PER GIUDIZIO SOSPESO PROVA DI LABORATORIO

TECNOLOGIE INFORMATICHE DELLA COMUNICAZIONE ORE SETTIMANALI 2 TIPO DI PROVA PER GIUDIZIO SOSPESO PROVA DI LABORATORIO CLASSE DISCIPLINA MODULO Conoscenze Abilità e competenze Argomento 1 Concetti di base Argomento 2 Sistema di elaborazione Significato dei termini informazione, elaborazione, comunicazione, interfaccia,

Dettagli

Corso di Informatica Corso di Laurea in Ingegneria Gestionale a.a. 2005-06 Secondo Compitino 17 Dicembre 2005

Corso di Informatica Corso di Laurea in Ingegneria Gestionale a.a. 2005-06 Secondo Compitino 17 Dicembre 2005 Studente (Cognome Nome): Matricola: Corso di Informatica Corso di Laurea in Ingegneria Gestionale a.a. 2005-06 Secondo Compitino 17 Dicembre 2005 Si noti che le soluzioni ai quesiti saranno considerate

Dettagli

REGOLAMENTO (UE) N. 1235/2011 DELLA COMMISSIONE

REGOLAMENTO (UE) N. 1235/2011 DELLA COMMISSIONE 30.11.2011 Gazzetta ufficiale dell Unione europea L 317/17 REGOLAMENTO (UE) N. 1235/2011 DELLA COMMISSIONE del 29 novembre 2011 recante modifica del regolamento (CE) n. 1222/2009 del Parlamento europeo

Dettagli

Lezione 1. Concetti Fondamentali

Lezione 1. Concetti Fondamentali Lezione 1 Concetti Fondamentali 1 Sonetto di Trilussa Sai ched è la statistica? E E na cosa che serve pe fa un conto in generale de la gente che nasce, che sta male, che more, che va in carcere e che sposa.

Dettagli

FUSIONI E ACQUISIZIONI

FUSIONI E ACQUISIZIONI FUSIONI E ACQUISIZIONI 1. Fusioni e acquisizioni: concetti introduttivi 2. Il valore del controllo di un impresa 3. La redditività di un acquisizione 4. Alcuni tipi particolari di acquisizioni: LBO, MBO

Dettagli

Ottimizzazione delle interrogazioni (parte I)

Ottimizzazione delle interrogazioni (parte I) Ottimizzazione delle interrogazioni I Basi di Dati / Complementi di Basi di Dati 1 Ottimizzazione delle interrogazioni (parte I) Angelo Montanari Dipartimento di Matematica e Informatica Università di

Dettagli

1. Distribuzioni campionarie

1. Distribuzioni campionarie Università degli Studi di Basilicata Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013 lezioni di statistica del 3 e 6 giugno 2013 - di Massimo Cristallo - 1. Distribuzioni campionarie

Dettagli

Database 3 affitto veicoli. Testo del quesito

Database 3 affitto veicoli. Testo del quesito Database 3 affitto veicoli Testo del quesito La società salento trasporti dispone di diversi tipi di veicoli (moto, auto, furgoni, camion, ) che affitta ai propri clienti. La società vuole informatizzare

Dettagli

A.A. 2015/2016. Statistica Medica. Corso di. CdL in Fisioterapia CdL in Podologia

A.A. 2015/2016. Statistica Medica. Corso di. CdL in Fisioterapia CdL in Podologia A.A. 2015/2016 Corso di Statistica Medica CdL in Fisioterapia CdL in Podologia La statistica è la scienza che ha come fine lo studio quantitativo e qualitativo di un "collettivo". Studia i modi in cui

Dettagli

Informatica 3. Informatica 3. LEZIONE 10: Introduzione agli algoritmi e alle strutture dati. Lezione 10 - Modulo 1. Importanza delle strutture dati

Informatica 3. Informatica 3. LEZIONE 10: Introduzione agli algoritmi e alle strutture dati. Lezione 10 - Modulo 1. Importanza delle strutture dati Informatica 3 Informatica 3 LEZIONE 10: Introduzione agli algoritmi e alle strutture dati Modulo 1: Perchè studiare algoritmi e strutture dati Modulo 2: Definizioni di base Lezione 10 - Modulo 1 Perchè

Dettagli

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test

Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test STATISTICA (2) ESERCITAZIONE 6 05.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Verifica di ipotesi sulla media (varianza nota), p-value del test Il preside della scuola elementare XYZ sospetta che

Dettagli