Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida"

Transcript

1 Introduzione alle tecniche di Data Mining Prof. Giovanni Giuffrida

2 Programma Contenuti Introduzione al Data Mining Mining pattern frequenti, regole associative Alberi decisionali Clustering

3 Esempio di analisi Studenti Nome Matricola Indirizzo Citta Mario Rossi 456 Via Roma 1 Catania Ugo Bianchi 567 Via Etnea 154 Ragusa Teo Verdi 678 Via Parma 12 Ragusa Leo Poldo 555 Via Etnea 7 Catania Franco Bollo 892 Corso Italia 7 Catania Corsi Denominazione Docente Programmazione Ferro Architettura Pappalardo Matematica Lizzio Diritto Fazio Informatica Giuffrida Economia Fazio Statistica Ricci Esami Matr_Studente Corso Voto 678 Programmazione Architettura Statistica Programmazione Matematica Diritto Economia Matematica Architettura Matematica Diritto Diritto Architettura Matematica Statistica Statistica Matematica Diritto Economia 18

4 Libro di testo Data Mining: Concepts and Techniques, 2nd ed. Jiawei Han and Micheline Kamber The Morgan Kaufmann Series in Data Management Systems

5 Data Mining Necessità di analizzare database di grandi dimensioni Scoperta di proprietà (pattern) generali, non banali e potenzialmente utili, a partire da un insieme di dati per specifiche applicazioni Nomi alternativi Knowledge discovery (mining) in database (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, etc.

6 Esempi di applicazioni Regole per la concessione di prestiti bancari dall analisi delle storie precedenti Pianificazione di sconti su aerei, alberghi, ecc. dall analisi dei comportamenti di flussi turistici Pianificazione delle attività promozionali in un supermercato Disposizioni di articoli in un supermercato dall analisi dei carrelli della spesa Suggerimenti di articoli correlati durante l acquisto Sistemi di fraud detection: carte di credito, furto di SIM, etc. => Adattamento di queste tecniche per analisi sociali

7 Comunità Scientifiche interessate Database Statistici Machine Learning Data Mining Visualizzazione Pattern Recognition Algoritmi Esperti dominio

8 Fasi del Data-Mining Process Data gathering (raccolta dati): datadase, web search, etc.. Data Cleaning (pulizia): Elimina gli errori, le ambiguità Feature extraction (estrarre dati significativi): Mantenere solo gli attributi interessanti dei dati Pattern extraction and discovery: questo e il vero e proprio data mining Visualization: Visualizzare i dati in maniera significativa Evaluation: valutare quali fatti scoperti sono utili

9 Fasi del Data-Mining Process Pattern Evaluation Task-relevant Data Data Mining Data Warehouse Selection Data Cleaning Data Integration Databases

10 Association rules, frequent pattern analysis Market-basket problem: Analisi dei carrelli della spesa per capire quali prodotti vengono comprati insieme Birra e pannolini?! Frequent pattern: un pattern (un insieme di item) che si presenta (ripete) frequentemente nei dati Questa informazione viene usata, ad esempio, per posizionare i prodotti sugli scaffali o effettuare promozioni coordinate Lo stesso concetto viene generalizzato in molti altri contesti, ad esempio: Letture articoli su quotidiano online Risposte questionari Acquisto pacchetti di viaggio

11 Risultati del Mining Association Rules: regole del tipo se un cliente compra x 1,, x k allora compra anche con alta probabilità La probabilità minima che noi desideriamo si chiama confidenza. Vogliamo che questa sia decisamente più alta di quella attesa (significatività) Ad esempio, la regola latte,burro pane potrebbe derivare dal fatto che quasi tutti comprano pane, mentre la regola pannolini birra vale con confidenza molto più alta della percentuale di clienti che compra birra

12 Concetti di base: Association Rule Tid Prodotti acquistati 10 Birra, Noccioline, Pannolini 20 Birra, Caffè, Pannolini 30 Birra, Pannolini, Uova 40 Noccioline, Uova, Latte 50 Noccioline, Caffè, Pannolini, Uova, Latte Clienti che acquistano entrambi i prodotti Trovare tutte le regole X con «supporto» e «confidenza» supporto, s, numero di «carrelli» che contengono sia X che confidenza, c, probabilità condizionata che un carrello che contiene X contenga anche Frequenze nell esempio: Birra:3, Noccioline:3, Pannolini:4, Uova:3, {Birra, Pannolini}:3 Clienti che acquistano birra Clienti che acquistano pannolini Association rule: Birra Pannolini (3, 100%) Pannolini Birra (3, 75%)

13 Insiemi frequenti di articoli Nella maggior parte delle applicazioni ci interessano solo quelle regole che riguardano insiemi di articoli che appaiono insieme in un alta percentuale di carrelli (soglia di supporto) La ragione è che le altre non sono statisticamente affidabili

14 Algoritmo Apriori - Esempio Sup Database TDB min = 2 Itemset sup {A} 2 L Tid Item C A, C, D 20 B, C, E 30 A, B, C, E 40 B, E 1 st scan {B} 3 {C} 3 {D} 1 {E} 3 C 2 C 2 {A, B} 1 L 2 Itemset sup 2 nd scan {A, C} 2 {B, C} 2 {B, E} 3 {C, E} 2 Itemset Itemset sup {A, C} 2 {A, E} 1 {B, C} 2 {B, E} 3 {C, E} 2 C 3 {B, C, E} 3 rd scan L 3 Itemset sup {B, C, E} 2 Itemset sup {A} 2 {B} 3 {C} 3 {E} 3 Itemset {A, B} {A, C} {A, E} {B, C} {B, E} {C, E}

15 Introduzione alla classificazione Classificare dati (creare un modello) basato su insiemi di apprendimento e valori degli attributi di un classificatore Processo in due fasi Costruzione del modello Uso del modello Per classificazioni successive

16 Classificazione processo a due fasi Costruzione del modello: descrivere un insieme di classi predefinite Ogni tupla appartiene ad una classe predefinita, questo viene determinato dall etichetta dell attributo classificatore L insieme di tuple usate per costruire il modello è chiamato training set Il modello è rappresentato attraverso regole di classificazione, alberi decisionali, formule matematiche, Uso del modello: per classificare nuovi oggetti Stimare l accuratezza del modello Le etichette note sono confrontate con quelle restituite dal modello Il tasso di accuratezza è la percentuale di test del campione che vengono classificati correttamente Se l accuratezza è accettabile il modello può essere usato per classificare dati nuovi

17 Alberi decisionali Gli alberi decisionali sono uno strumento noto nel machine learning, nella statistica e nel data mining Hanno la forma di un albero rovesciato Si costruiscono a partire da una relazione esistente in cui esiste una, ed una sola, variabile da classificare (la classe) Ogni nodo interno dell albero contiene un test che stabilisce quale sottoalbero deve essere visitato Le foglie contengono la «decisione»

18 Training Dataset La relazione in input è classificata sulla base di osservazioni passate L albero generato serve a fare «predizioni» sul futuro, cioè, si cerca di indovinare la classe («Play» nel nostro caso) Outlook Temperature Humidity Windy Play? sunny hot high false N sunny hot high true N overcast hot high false rain mild high false rain cool normal false rain cool normal true N overcast cool normal true sunny mild high false N sunny cool normal false rain mild normal false sunny mild normal true overcast mild high true overcast hot normal false rain mild high true N

19 Costruzione albero decisionale, primo passo temperature cool mild hot Outlook outlook outlook sunny overcast rain overcast rain sunny overcast sunny rain humidity humidity windy true N windy false true windy false N normal true N high windy false high N normal true N false IF (temperature = cool AND outlook = rain AND windy = false) THEN play

20 Albero decisionale, versione finale overcast true N Outlo ok wind y rain false high N sunny humidi ty normal Outlook Tempreature Humidity Windy Play? overcast hot high false overcast cool normal true overcast mild high true overcast hot normal false rain mild high false rain cool normal false rain cool normal true N rain mild normal false rain mild high true N sunny hot high false N sunny hot high true N sunny mild high false N sunny cool normal false sunny mild normal true La generazione dell albero passa attraverso varie fasi La versione finale è in genere un compromesso tra precisione e semplicità

21 Alberi decisionali, considerazioni finali Il modello degli alberi decisionali è uno dei modelli di classificazione più rappresentativi Esistono algoritmi molto efficienti per la loro generazione Molto utilizzati in tanti campi Altri modelli di classificazione si basano sugli stessi principi di funzionamento

Regole di Associazione

Regole di Associazione Metodologie per Sistemi Intelligenti Regole di Associazione Prof. Pier Luca Lanzi Laurea in Ingegneria Informatica Politecnico di Milano Polo regionale di Como Esempio Esempio Regole di Associazione Scopo

Dettagli

Mining Positive and Negative Association Rules:

Mining Positive and Negative Association Rules: Mining Positive and Negative Association Rules: An Approach for Confined Rules Alessandro Boca Alessandro Cislaghi Premesse Le regole di associazione positive considerano solo gli item coinvolti in una

Dettagli

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino DataBase and Data Mining Group of Database and data mining group, Database and data mining group, DataBase and Data Mining Group of DataBase and Data Mining Group of So dati insieme di classi oggetti etichettati

Dettagli

Data mining e rischi aziendali

Data mining e rischi aziendali Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento

Dettagli

DB - Modello relazionale dei dati. DB - Modello Relazionale 1

DB - Modello relazionale dei dati. DB - Modello Relazionale 1 DB - Modello relazionale dei dati DB - Modello Relazionale 1 Definizione Un modello dei dati è un insieme di meccanismi di astrazione per definire una base di dati, con associato un insieme predefinito

Dettagli

Dr. A. Appice. Alberi di Decisione. Caso di studio di Metodi Avanzati di Programmazione AA 2012-2013

Dr. A. Appice. Alberi di Decisione. Caso di studio di Metodi Avanzati di Programmazione AA 2012-2013 Alberi di Decisione Caso di studio di Metodi Avanzati di Programmazione AA 2012-2013 Data Mining Lo scopo del data mining è l estrazione (semi) automatica di conoscenza nascosta in voluminose basi di dati

Dettagli

Data Warehousing (DW)

Data Warehousing (DW) Data Warehousing (DW) Il Data Warehousing è un processo per estrarre e integrare dati storici da sistemi transazionali (OLTP) diversi e disomogenei, e da usare come supporto al sistema di decisione aziendale

Dettagli

Uno standard per il processo KDD

Uno standard per il processo KDD Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo

Dettagli

Introduzione alla teoria dei database relazionali. Come progettare un database

Introduzione alla teoria dei database relazionali. Come progettare un database Introduzione alla teoria dei database relazionali Come progettare un database La struttura delle relazioni Dopo la prima fase di individuazione concettuale delle entità e degli attributi è necessario passare

Dettagli

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining Dipartimento di Informatica e Sistemistica I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining Renato Bruni bruni@dis.uniroma1.it Antonio Sassano sassano@dis.uniroma1.it

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche DATA MINING datamining Data mining Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche Una materia interdisciplinare: - statistica, algoritmica, reti neurali

Dettagli

MODELLO RELAZIONALE. Introduzione

MODELLO RELAZIONALE. Introduzione MODELLO RELAZIONALE Introduzione E' stato proposto agli inizi degli anni 70 da Codd finalizzato alla realizzazione dell indipendenza dei dati, unisce concetti derivati dalla teoria degli insiemi (relazioni)

Dettagli

IL SISTEMA INFORMATIVO

IL SISTEMA INFORMATIVO IL SISTEMA INFORMATIVO In un organizzazione l informazione è una risorsa importante al pari di altri tipi di risorse: umane, materiali, finanziarie, (con il termine organizzazione intendiamo un insieme

Dettagli

Per visualizzare e immettere i dati in una tabella è possibile utilizzare le maschere;

Per visualizzare e immettere i dati in una tabella è possibile utilizzare le maschere; Maschere e Query Le Maschere (1/2) Per visualizzare e immettere i dati in una tabella è possibile utilizzare le maschere; Le maschere sono simili a moduli cartacei: ad ogni campo corrisponde un etichetta

Dettagli

Abilità Informatiche A.A. 2010/2011 Lezione 9: Query Maschere Report. Facoltà di Lingue e Letterature Straniere

Abilità Informatiche A.A. 2010/2011 Lezione 9: Query Maschere Report. Facoltà di Lingue e Letterature Straniere Abilità Informatiche A.A. 2010/2011 Lezione 9: Query Maschere Report Facoltà di Lingue e Letterature Straniere Le QUERY 2 Che cos è una Query? Una Query rappresenta uno strumento per interrogare un database.

Dettagli

Basi di dati. (Sistemi Informativi) teoria e pratica con Microsoft Access. Basi di dati. Basi di dati. Basi di dati e DBMS DBMS DBMS

Basi di dati. (Sistemi Informativi) teoria e pratica con Microsoft Access. Basi di dati. Basi di dati. Basi di dati e DBMS DBMS DBMS Basi di Basi di (Sistemi Informativi) Sono una delle applicazioni informatiche che hanno avuto il maggiore utilizzo in uffici, aziende, servizi (e oggi anche sul web) Avete già interagito (magari inconsapevolmente)

Dettagli

Università di Pisa A.A. 2004-2005

Università di Pisa A.A. 2004-2005 Università di Pisa A.A. 2004-2005 Analisi dei dati ed estrazione di conoscenza Corso di Laurea Specialistica in Informatica per l Economia e per l Azienda Tecniche di Data Mining Corsi di Laurea Specialistica

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Data Mining. Introduzione La crescente popolarità

Dettagli

Data Mining in SAP. Alessandro Ciaramella

Data Mining in SAP. Alessandro Ciaramella UNIVERSITÀ DI PISA Corsi di Laurea Specialistica in Ingegneria Informatica per la Gestione d Azienda e Ingegneria Informatica Data Mining in SAP A cura di: Alessandro Ciaramella La Business Intelligence

Dettagli

Ottimizzazione delle interrogazioni (parte I)

Ottimizzazione delle interrogazioni (parte I) Ottimizzazione delle interrogazioni I Basi di Dati / Complementi di Basi di Dati 1 Ottimizzazione delle interrogazioni (parte I) Angelo Montanari Dipartimento di Matematica e Informatica Università di

Dettagli

C4.5 Algorithms for Machine Learning

C4.5 Algorithms for Machine Learning C4.5 Algorithms for Machine Learning C4.5 Algorithms for Machine Learning Apprendimento di alberi decisionali c4.5 [Qui93b,Qui96] Evoluzione di ID3, altro sistema del medesimo autore, J.R. Quinlan Ispirato

Dettagli

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali DIPARTIMENTO DI INGEGNERIA INFORMATICA AUTOMATICA E GESTIONALE ANTONIO RUBERTI Cenni al Data Mining 1 Data Mining nasce prima del Data Warehouse collezione di tecniche derivanti da Intelligenza Artificiale,

Dettagli

Le Basi di Dati. Le Basi di Dati

Le Basi di Dati. Le Basi di Dati Le Basi di Dati 20/05/02 Prof. Carlo Blundo 1 Le Basi di Dati Le Base di Dati (database) sono un insieme di tabelle di dati strutturate in maniera da favorire la ricerca di informazioni specializzate per

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 29-Analisi della potenza statistica vers. 1.0 (12 dicembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da

Dettagli

2003.06.16 Il sistema C.R.M. / E.R.M.

2003.06.16 Il sistema C.R.M. / E.R.M. 2003.06.16 Il sistema C.R.M. / E.R.M. Customer / Enterprise : Resource Management of Informations I-SKIPPER è un sistema di CONOSCENZE che raccoglie ed integra INFORMAZIONI COMMERCIALI, dati su Clienti,

Dettagli

Basi di dati. Il Modello Relazionale dei Dati. K. Donno - Il Modello Relazionale dei Dati

Basi di dati. Il Modello Relazionale dei Dati. K. Donno - Il Modello Relazionale dei Dati Basi di dati Il Modello Relazionale dei Dati Proposto da E. Codd nel 1970 per favorire l indipendenza dei dati Disponibile come modello logico in DBMS reali nel 1981 (non è facile realizzare l indipendenza

Dettagli

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda

Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda Analisi sensitività. Strumenti per il supporto alle decisioni nel processo di Valutazione d azienda Premessa Con l analisi di sensitività il perito valutatore elabora un range di valori invece di un dato

Dettagli

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati Data mining Il consente l informazione processo di Data Mining estrarre automaticamente informazioneda un insieme di dati telefoniche, ènascostaa a causa di fra quantitàdi loro, complessità: non... ci

Dettagli

Dalla progettazione concettuale alla modellazione di dominio

Dalla progettazione concettuale alla modellazione di dominio Luca Cabibbo A P S Analisi e Progettazione del Software Dalla progettazione concettuale alla modellazione di dominio Capitolo 91 marzo 2015 Se qualcuno vi avvicinasse in un vicolo buio dicendo psst, vuoi

Dettagli

Marketing relazionale

Marketing relazionale Marketing relazionale Introduzione Nel marketing intelligence assume particolare rilievo l applicazione di modelli predittivi rivolte a personalizzare e rafforzare il legame tra azienda e clienti. Un azienda

Dettagli

LE CARTE DI CONTROLLO (4)

LE CARTE DI CONTROLLO (4) LE CARTE DI CONTROLLO (4) Tipo di carta di controllo Frazione difettosa Carta p Numero di difettosi Carta np Dimensione campione Variabile, solitamente >= 50 costante, solitamente >= 50 Linea centrale

Dettagli

KPMG & Dipartimento di Economia Politica e Metodi Quantitativi Università degli Studi di Pavia Progetto studio di sistemi di Data Mining

KPMG & Dipartimento di Economia Politica e Metodi Quantitativi Università degli Studi di Pavia Progetto studio di sistemi di Data Mining KPMG & Dipartimento di Economia Politica e Metodi Quantitativi Università degli Studi di Pavia Progetto studio di sistemi di Data Mining Marzo 2002 Indice Obiettivo Il nostro approccio Architettura logica

Dettagli

Relatore Chiar.mo Prof. Davide Anguita Relatore Aziendale Ing. Silvio Costa (IsoSistemi) Relatore Aziendale Ing. Marco De Leo (IsoSistemi)

Relatore Chiar.mo Prof. Davide Anguita Relatore Aziendale Ing. Silvio Costa (IsoSistemi) Relatore Aziendale Ing. Marco De Leo (IsoSistemi) Relatore Chiar.mo Prof. Davide Anguita Relatore Aziendale Ing. Silvio Costa (IsoSistemi) Relatore Aziendale Ing. Marco De Leo (IsoSistemi) Allievo Matteo Bardini Genova, 15/7/2011 1 Indice Il Process Mining.

Dettagli

Gestione dell account AdWords di Google Guida pratica

Gestione dell account AdWords di Google Guida pratica Gestione dell account AdWords di Google Guida pratica Benvenuti in AdWords di Google Questa guida fornisce una panoramica del Centro di controllo gestionale AdWords, l interfaccia per la gestione e il

Dettagli

Informatica (Basi di Dati)

Informatica (Basi di Dati) Corso di Laurea in Biotecnologie Informatica (Basi di Dati) Modello Entità-Relazione Anno Accademico 2009/2010 Da: Atzeni, Ceri, Paraboschi, Torlone - Basi di Dati Lucidi del Corso di Basi di Dati 1, Prof.

Dettagli

Progettazione di Basi di Dati

Progettazione di Basi di Dati Progettazione di Basi di Dati Prof. Nicoletta D Alpaos & Prof. Andrea Borghesan Entità-Relazione Progettazione Logica 2 E il modo attraverso il quale i dati sono rappresentati : fa riferimento al modello

Dettagli

Progettazione di un Database

Progettazione di un Database Progettazione di un Database Per comprendere il processo di progettazione di un Database deve essere chiaro il modo con cui vengono organizzati e quindi memorizzati i dati in un sistema di gestione di

Dettagli

DBMS. Esempi di database. DataBase. Alcuni esempi di DBMS DBMS. (DataBase Management System)

DBMS. Esempi di database. DataBase. Alcuni esempi di DBMS DBMS. (DataBase Management System) (DataBase Management System) Sistemi di ges3one di basi di da3 Un Database Management System è un sistema software progettato per consentire la creazione e manipolazione efficiente di database (collezioni

Dettagli

Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008

Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008 Analisi Statistica dei Dati Misurazione e gestione dei rischi a.a. 2007-2008 Dott. Chiara Cornalba Argomenti Market Basket Analysis: Odds Ratio e Regole associative 2 Posizionamento prodotti Tanto più

Dettagli

Realizzazione e valutazione delle. tecniche di pattern recognition per. calcolatori. Claudio Mazzariello cmazzari@unina.it

Realizzazione e valutazione delle. tecniche di pattern recognition per. calcolatori. Claudio Mazzariello cmazzari@unina.it Realizzazione e valutazione delle prestazioni di un sistema basato su tecniche di pattern recognition per la rilevazione di attacchi a reti di calcolatori Claudio Mazzariello cmazzari@unina.it artimento

Dettagli

Facoltà di Farmacia - Corso di Informatica

Facoltà di Farmacia - Corso di Informatica Basi di dati Riferimenti: Curtin cap. 8 Versione: 13/03/2007 1 Basi di dati (Database, DB) Una delle applicazioni informatiche più utilizzate, ma meno conosciute dai non informatici Avete già interagito

Dettagli

Riccardo Dutto, Paolo Garza Politecnico di Torino. Riccardo Dutto, Paolo Garza Politecnico di Torino

Riccardo Dutto, Paolo Garza Politecnico di Torino. Riccardo Dutto, Paolo Garza Politecnico di Torino Integration Services Project SQL Server 2005 Integration Services Permette di gestire tutti i processi di ETL Basato sui progetti di Business Intelligence di tipo Integration services Project SQL Server

Dettagli

Progettazione di Database. Un Esempio

Progettazione di Database. Un Esempio Progettazione di Database Un Esempio Data Base Management System Applicazione 1 Applicazione 2 Applicazione 3 DBMS A B C D E Il Modello Relazionale Una relazione è costituita su un insieme di domini, non

Dettagli

Uso delle basi di dati DBMS. Cos è un database. DataBase. Esempi di database

Uso delle basi di dati DBMS. Cos è un database. DataBase. Esempi di database Uso delle basi di dati Uso delle Basi di Dati Il modulo richiede che il candidato comprenda il concetto di base dati (database) e dimostri di possedere competenza nel suo utilizzo. Cosa è un database,

Dettagli

Università degli Studi di Verona. Laboratorio di Basi di Dati

Università degli Studi di Verona. Laboratorio di Basi di Dati Università degli Studi di Verona Laboratorio di Basi di Dati Introduzione ad OOo Base: Creazione Tabelle Gabriele Pozzani: gabriele.pozzani@univr.it Materiale prodotto da: Dott.ssa Barbara Oliboni Database:

Dettagli

Suggerimenti per l approccio all analisi dei dati multivariati

Suggerimenti per l approccio all analisi dei dati multivariati Suggerimenti per l approccio all analisi dei dati multivariati Definizione degli obbiettivi Il primo passo è la definizione degli obbiettivi. Qual è l obbiettivo della sperimentazione i cui dati dovete

Dettagli

Ricerca di outlier. Ricerca di Anomalie/Outlier

Ricerca di outlier. Ricerca di Anomalie/Outlier Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla

Dettagli

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,

Dettagli

Progettazione del Software A.A.2008/09

Progettazione del Software A.A.2008/09 Laurea in Ing. Informatica ed Ing. dell Informazione Sede di latina Progettazione del Software A.A.2008/09 Domenico Lembo* Dipartimento di Informatica e Sistemistica A. Ruberti SAPIENZA Università di Roma

Dettagli

Introduzione al Data Mining Parte 1

Introduzione al Data Mining Parte 1 Introduzione al Data Mining Parte 1 Corso di Laurea Specialistica in Ingegneria Informatica II Facoltà di Ingegneria, sede di Cesena (a.a. 2009/2010) Prof. Gianluca Moro Dipartimento di Elettronica, Informatica

Dettagli

ALGEBRA RELAZIONALE RIEPILOGO

ALGEBRA RELAZIONALE RIEPILOGO ALGEBRA RELAZIONALE RIEPILOGO PROIEZIONE: (notazione ) Operatore unario per estrarre colonne da una relazione: lista_attributi (R) Lo schema del risultato contiene i soli attributi contenuti in lista_attributi.

Dettagli

Gestione Voti Scolastici

Gestione Voti Scolastici Gestione Voti Scolastici Progettare un modello di dati per la gestione delle informazioni riguardanti le prove, nelle diverse materie, sostenute dagli studenti di una scuola media superiore. Il sistema

Dettagli

Soluzione dell esercizio del 12 Febbraio 2004

Soluzione dell esercizio del 12 Febbraio 2004 Soluzione dell esercizio del 12/2/2004 1 Soluzione dell esercizio del 12 Febbraio 2004 1. Casi d uso I casi d uso sono riportati in Figura 1. Figura 1: Diagramma dei casi d uso. 2. Modello concettuale

Dettagli

Book 2. Conoscere i contenuti digitali. Saper riconoscere diversi tipi di contenuti digitali

Book 2. Conoscere i contenuti digitali. Saper riconoscere diversi tipi di contenuti digitali Book 2 Conoscere i contenuti digitali Saper riconoscere diversi tipi di contenuti digitali Centro Servizi Regionale Pane e Internet Redazione a cura di Roger Ottani, Grazia Guermandi, Sara Latte Luglio

Dettagli

Università degli Studi di Ferrara - A.A. 2014/15 Dott. Valerio Muzzioli ORDINAMENTO DEI DATI

Università degli Studi di Ferrara - A.A. 2014/15 Dott. Valerio Muzzioli ORDINAMENTO DEI DATI ORDINAMENTO DEI DATI Quando si ordina un elenco (ovvero una serie di righe contenenti dati correlati), le righe sono ridisposte in base al contenuto di una colonna specificata. Distinguiamo due tipi di

Dettagli

SQL Server 2005. Integration Services. SQL Server 2005: ETL - 1. Integration Services Project

SQL Server 2005. Integration Services. SQL Server 2005: ETL - 1. Integration Services Project atabase and ata Mi ni ng Group of P ol itecnico di Torino atabase and ata Mi ni ng Group of P ol itecnico di Torino atabase and data mining group, SQL Server 2005 Integration Services SQL Server 2005:

Dettagli

Vincoli di integrità

Vincoli di integrità Vincoli di integrità Non tutte le istanze di basi di dati sintatticamente corrette rappresentano informazioni plausibili per l applicazione di interesse Studenti Matricola Nome Nascita 276545 Rossi 23-04-72?

Dettagli

iovanella@disp.uniroma2.it http://www.disp.uniroma2.it/users/iovanella Verifica di ipotesi

iovanella@disp.uniroma2.it http://www.disp.uniroma2.it/users/iovanella Verifica di ipotesi iovanella@disp.uniroma2.it http://www.disp.uniroma2.it/users/iovanella Verifica di ipotesi Idea di base Supponiamo di avere un idea del valore (incognito) di una media di un campione, magari attraverso

Dettagli

MASTER UNIVERSITARIO. Analisi Dati per la Business Intelligence e Data Science. IV edizione 2015/2016

MASTER UNIVERSITARIO. Analisi Dati per la Business Intelligence e Data Science. IV edizione 2015/2016 MASTER UNIVERSITARIO Analisi Dati per la Business Intelligence e Data Science In collaborazione con IV edizione 2015/2016 Dipartimento di Culture, Politica e Società Dipartimento di Informatica Dipartimento

Dettagli

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi.

Statistica e biometria. D. Bertacchi. Variabili aleatorie. V.a. discrete e continue. La densità di una v.a. discreta. Esempi. Iniziamo con definizione (capiremo fra poco la sua utilità): DEFINIZIONE DI VARIABILE ALEATORIA Una variabile aleatoria (in breve v.a.) X è funzione che ha come dominio Ω e come codominio R. In formule:

Dettagli

Introduzione ai tipi di dato astratti: applicazione alle liste

Introduzione ai tipi di dato astratti: applicazione alle liste Universitàdegli Studi di L Aquila Facoltàdi Scienze M.F.N. Corso di Laurea in Informatica Corso di Laboratorio di Algoritmi e Strutture Dati A.A. 2005/2006 Introduzione ai tipi di dato astratti: applicazione

Dettagli

Organizzazione delle informazioni: Database

Organizzazione delle informazioni: Database Organizzazione delle informazioni: Database Laboratorio Informatico di base A.A. 2013/2014 Dipartimento di Scienze Aziendali e Giuridiche Università della Calabria Dott. Pierluigi Muoio (pierluigi.muoio@unical.it)

Dettagli

Si aprirà una schermata dove verranno proposte le gare assegnate

Si aprirà una schermata dove verranno proposte le gare assegnate Come compilare la scheda on line dei programmi di gara. Vediamo nel dettaglio quali sono le cose da fare per compilare correttamente un programma di gara on line. Ogni società può accedere alle schede

Dettagli

Cosa è un foglio elettronico

Cosa è un foglio elettronico Cosa è un foglio elettronico Versione informatica del foglio contabile Strumento per l elaborazione di numeri (ma non solo...) I valori inseriti possono essere modificati, analizzati, elaborati, ripetuti

Dettagli

MASTER UNIVERSITARIO

MASTER UNIVERSITARIO MASTER UNIVERSITARIO Analisi Dati per la Business Intelligence In collaborazione con II edizione 2013/2014 Dipartimento di Culture, Politica e Società Dipartimento di Informatica gestito da aggiornato

Dettagli

I database. Cosa sono e a cosa servono i Database

I database. Cosa sono e a cosa servono i Database I database Estratto dal Modulo 1 - I database Prof. Piero GALLO 1 Cosa sono e a cosa servono i Database Un database(o base di dati) e' una raccolta organizzata di dati correlati. Il principale scopo di

Dettagli

Prof.ssa Paola Vicard

Prof.ssa Paola Vicard DISTRIBUZIONE DI FREQUENZE PER CARATTERI QUALITATIVI Questa nota consiste per la maggior parte nella traduzione (con alcune integrazioni) da Descriptive statistics di J. Shalliker e C. Ricketts, 2000,

Dettagli

PROGETTO EM.MA PRESIDIO

PROGETTO EM.MA PRESIDIO PROGETTO EM.MA PRESIDIO di PIACENZA Bentornati Il quadro di riferimento di matematica : INVALSI e TIMSS A CONFRONTO LE PROVE INVALSI Quadro di riferimento per la valutazione Quadro di riferimento per i

Dettagli

Configuration Management

Configuration Management Configuration Management Obiettivi Obiettivo del Configuration Management è di fornire un modello logico dell infrastruttura informatica identificando, controllando, mantenendo e verificando le versioni

Dettagli

Indagini statistiche attraverso i social networks

Indagini statistiche attraverso i social networks Indagini statistiche attraverso i social networks Agostino Di Ciaccio Dipartimento di Scienze Statistiche Università degli Studi di Roma "La Sapienza" SAS Campus 2012 1 Diffusione dei social networks Secondo

Dettagli

Corso di Laurea Specialistica in Ingegneria Informatica. Corso di Ingegneria del Software A. A. 2008-2009. Class Discovery E.

Corso di Laurea Specialistica in Ingegneria Informatica. Corso di Ingegneria del Software A. A. 2008-2009. Class Discovery E. Corso di Laurea Specialistica in Ingegneria Informatica Corso di Ingegneria del Software A. A. 2008 - Class Discovery E. TINELLI Contenuti Classi di analisi: definizione ed esempi Tecniche per la definizione

Dettagli

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL

RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL RAPPRESENTAZIONE GRAFICA E ANALISI DEI DATI SPERIMENTALI CON EXCEL 1 RAPPRESENTAZIONE GRAFICA Per l analisi dati con Excel si fa riferimento alla versione 2007 di Office, le versioni successive non differiscono

Dettagli

EXCEL FUNZIONI PRINCIPALI

EXCEL FUNZIONI PRINCIPALI EXCEL FUNZIONI PRINCIPALI Funzione SE() Sintassi: SE(VERIFICA, VALORE SE VERO, VALORE SE FALSO): verifica un valore e ritorna una risposta in base al risultato vero/falso Esempio: =SE(A2=15; "OK"; "NO")

Dettagli

Capitolo 12 La regressione lineare semplice

Capitolo 12 La regressione lineare semplice Levine, Krehbiel, Berenson Statistica II ed. 2006 Apogeo Capitolo 12 La regressione lineare semplice Insegnamento: Statistica Corso di Laurea Triennale in Economia Facoltà di Economia, Università di Ferrara

Dettagli

2.2b: RELAZIONI E BASI DI DATI. Atzeni, cap. 2.1.4

2.2b: RELAZIONI E BASI DI DATI. Atzeni, cap. 2.1.4 2.2b: RELAZIONI E BASI DI DATI Atzeni, cap. 2.1.4 Il modello è basato su valori Una Base di Dati è generalmente costituita da più di una Tabella Le corrispondenze fra dati presenti in tabelle diverse sono

Dettagli

Basi di dati. Concetti introduttivi ESEMPIO. INSEGNAMENTI Fisica, Analisi, Aule. Docenti. Entità Relazioni Interrogazioni. Ultima modifica: 26/02/2007

Basi di dati. Concetti introduttivi ESEMPIO. INSEGNAMENTI Fisica, Analisi, Aule. Docenti. Entità Relazioni Interrogazioni. Ultima modifica: 26/02/2007 Basi di dati Concetti introduttivi Ultima modifica: 26/02/2007 ESEMPIO INSEGNAMENTI Fisica, Analisi, Informatica Aule Docenti Entità Relazioni Interrogazioni St udent i Database 2 Tabella (I) STUDENTE

Dettagli

Corso di Sistemi di Elaborazione delle informazioni

Corso di Sistemi di Elaborazione delle informazioni Corso di Sistemi di Elaborazione delle informazioni Basi di Dati Claudio Marrocco I report I Report sono lo strumento più adatto per ottenere una copia stampata dei dati e delle informazioni ricavate dalle

Dettagli

PROGRAMMA SVOLTO NELLA SESSIONE N.

PROGRAMMA SVOLTO NELLA SESSIONE N. Università C. Cattaneo Liuc, Corso di Statistica, Sessione n. 1, 2014 Laboratorio Excel Sessione n. 1 Venerdì 031014 Gruppo PZ Lunedì 061014 Gruppo AD Martedì 071014 Gruppo EO PROGRAMMA SVOLTO NELLA SESSIONE

Dettagli

Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1 Elementi di Psicometria con Laboratorio di SPSS 1 12-Il t-test per campioni appaiati vers. 1.2 (7 novembre 2014) Germano Rossi 1 germano.rossi@unimib.it 1 Dipartimento di Psicologia, Università di Milano-Bicocca

Dettagli

BASE DI DATI: sicurezza. Informatica febbraio 2015 5ASA

BASE DI DATI: sicurezza. Informatica febbraio 2015 5ASA BASE DI DATI: sicurezza Informatica febbraio 2015 5ASA Argomenti Privatezza o riservatezza Vincoli di integrità logica della base di dati intrarelazionali interrelazionali Principio generale sulla sicurezza

Dettagli

Tema A. 1.2. Se due eventi A e B sono indipendenti e tali che P (A) = 1/2 e P (B) = 2/3, si può certamente concludere che

Tema A. 1.2. Se due eventi A e B sono indipendenti e tali che P (A) = 1/2 e P (B) = 2/3, si può certamente concludere che Statistica Cognome: Laurea Triennale in Biologia Nome: 26 luglio 2012 Matricola: Tema A 1. Parte A 1.1. Sia x 1, x 2,..., x n un campione di n dati con media campionaria x e varianza campionaria s 2 x

Dettagli

DIREZIONE AMMINISTRATIVA AREA DIDATTICA E SERVIZI AGLI STUDENTI UNIWEB FAQ STUDENTI

DIREZIONE AMMINISTRATIVA AREA DIDATTICA E SERVIZI AGLI STUDENTI UNIWEB FAQ STUDENTI UNIWEB FAQ STUDENTI Anno di frequenza... 1 Appelli ricerca... 1 Avvisi dei docenti... 5 Codice a barre... 1 Crediti... 1 Errori sulla cariera... 2 Esame in cariera... 4 Indicazioni sull'appello... 2 Informazioni

Dettagli

Gli attributi di STUDENTE saranno: Matricola (chiave primaria), Cognome, Nome.

Gli attributi di STUDENTE saranno: Matricola (chiave primaria), Cognome, Nome. Prof. Francesco Accarino Raccolta di esercizi modello ER Esercizio 1 Un università vuole raccogliere ed organizzare in un database le informazioni sui propri studenti in relazione ai corsi che essi frequentano

Dettagli

BASI DI DATI - : I modelli di database

BASI DI DATI - : I modelli di database BASI DI DATI - : I modelli di database DAL 1960 ci si e' orientati verso 3 direzioni: 1 MODELLO GERARCHICO Se i dati si presentano naturalmente in una struttura ad albero (ES. File System) Limiti: rigidità

Dettagli

Basi di dati 9 febbraio 2010 Compito A

Basi di dati 9 febbraio 2010 Compito A Basi di dati 9 febbraio 2010 Compito A Domanda 0 (5%) Leggere e rispettare le seguenti regole: Scrivere nome, cognome, matricola (se nota), corso di studio e lettera del compito (ad esempio, A) sui fogli

Dettagli

Introduzione al Calcolo Scientifico

Introduzione al Calcolo Scientifico Introduzione al Calcolo Scientifico Corso di Calcolo Numerico, a.a. 2008/2009 Francesca Mazzia Dipartimento di Matematica Università di Bari Francesca Mazzia (Univ. Bari) Introduzione al Calcolo Scientifico

Dettagli

ISC. L indicatore sintetico di costo del conto corrente

ISC. L indicatore sintetico di costo del conto corrente ISC L indicatore sintetico di costo del conto corrente Indice Cos è l ISC, l Indicatore Sintetico di Costo del conto corrente I 7 profili tipo di utilizzo Ma in definitiva, perché controllare l ISC? Dove

Dettagli

GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL

GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL GUIDA RAPIDA PER LA COMPILAZIONE DELLA SCHEDA CCNL GUIDA RAPIDA BOZZA 23/07/2008 INDICE 1. PERCHÉ UNA NUOVA VERSIONE DEI MODULI DI RACCOLTA DATI... 3 2. INDICAZIONI GENERALI... 4 2.1. Non modificare la struttura dei fogli di lavoro... 4 2.2. Cosa significano

Dettagli

Classificazione DATA MINING: CLASSIFICAZIONE - 1. Classificazione

Classificazione DATA MINING: CLASSIFICAZIONE - 1. Classificazione M B G Classificazione ATA MINING: CLASSIFICAZIONE - 1 Classificazione Sono dati insieme di classi oggetti etichettati con il nome della classe di appartenenza (training set) L obiettivo della classificazione

Dettagli

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino Data mining Vincenzo D Elia vincenzo.delia@polito.it DBDMG - Politecnico di Torino vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 1 Rapid Miner vincenzo.delia@polito.it Archivi Multimediali

Dettagli

Manuale Knowledge Base

Manuale Knowledge Base (Riservato a rivenditori e agenzie) Versione Luglio 2010 SOMMARIO Introduzione... 2 Accesso... 2 Menu Conoscenze... 3 Bacheca... 4 Voci di menu... 5 Ricerca... 5 Ricerca Semplice... 6 Ricerca avanzata...

Dettagli

Uso delle basi di dati. Informazione e dato. Cos è un database. Tabelle. Esempi di database

Uso delle basi di dati. Informazione e dato. Cos è un database. Tabelle. Esempi di database Uso delle basi di dati CORSO ECDL DataBase Il modulo richiede che il candidato comprenda il concetto di base dati (database) e dimostri di possedere competenza nel suo utilizzo. Cosa è un database, come

Dettagli

Creazione di un modello di data mining di tipo OLAP con l'algoritmo Microsoft Clustering

Creazione di un modello di data mining di tipo OLAP con l'algoritmo Microsoft Clustering Pagina 1 di 9 Menu principale Sezione precedente Sezione successiva Creazione di un modello di data mining di tipo OLAP con l'algoritmo Microsoft Clustering Un modello di data mining è un modello che include

Dettagli

Data mining: classificazione

Data mining: classificazione DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group of DataBase and Data Mining Group

Dettagli

Concetto di potenza statistica

Concetto di potenza statistica Calcolo della numerosità campionaria Prof. Giuseppe Verlato Sezione di Epidemiologia e Statistica Medica, Università di Verona Concetto di potenza statistica 1 Accetto H 0 Rifiuto H 0 Ipotesi Nulla (H

Dettagli

Descrizione di un algoritmo

Descrizione di un algoritmo Descrizione di un algoritmo Un algoritmo descrive due tipi fondamentali di oper: calcoli ottenibili tramite le oper primitive su tipi di dato (valutazione di espressioni) che consistono nella modifica

Dettagli