Lezione 8. Data Mining

Documenti analoghi
MASTER UNIVERSITARIO

Indagini statistiche attraverso i social networks

MASTER UNIVERSITARIO. Analisi Dati per la Business Intelligence e Data Science. IV edizione 2015/2016

Data mining e rischi aziendali

Analisi dei requisiti e casi d uso

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Uno standard per il processo KDD

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Liceo Tecnologico. Indirizzo Informatico e Comunicazione. Indicazioni nazionali per Piani di Studi Personalizzati

Tecniche di riconoscimento statistico

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali

PDF created with pdffactory trial version Il processo di KDD

Lezione 1. Introduzione e Modellazione Concettuale

Opportunità e rischi derivanti dall'impiego massivo dell'informatica in statistica. Francesco Maria Sanna Roma, 3 maggio 2012

Un po di statistica. Christian Ferrari. Laboratorio di Matematica

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE

Data Mining e Analisi dei Dati

Distributed P2P Data Mining. Autore: Elia Gaglio (matricola n ) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo

LABORATORIO EXCEL XLSTAT 2008 SCHEDE 2 e 3 VARIABILI QUANTITATIVE

La statistica multivariata

Scopo della lezione. Informatica. Informatica - def. 1. Informatica

EUROPEAN COMPUTER DRIVING LICENCE. Use of the GIS Software. Syllabus

KNOWLEDGE DISCOVERY E DATA MINING

Ricerca di outlier. Ricerca di Anomalie/Outlier

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati

Facoltà di Psicologia - Corso FSE gennaio febbraio Marco Vicentini info@marcovicentini.it

I Metodi statistici utili nel miglioramento della qualità 27

SISTEMI INFORMATIVI AZIENDALI

Programma del Corso. Dati e DBMS SQL. Progettazione di una. Normalizzazione

ISTITUTO TECNICO ECONOMICO MOSSOTTI

Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY.

Informatica I per la. Fisica

Progettazione di Basi di Dati

Marketing relazionale

LABORATORIO-EXCEL N. 2-3 XLSTAT- Pro Versione 7 VARIABILI QUANTITATIVE

Presentazione. Risorse Web. Metodi Statistici 1

SCUOLA PRIMARIA OBIETTIVI DI APPRENDIMENTO

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Progetto Turismo Pisa

Il problema è di modellizzare tali dati geografici in modo da gestirli poi automaticamente con pacchetti software.

Sommario. Capitolo 1 Impiego della statistica per la gestione dell azienda 1. Capitolo 2 Disponibilità e produzione delle informazioni statistiche 19

Il software impiegato su un computer si distingue in: Sistema Operativo Compilatori per produrre programmi

MACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it

Strumenti di modellazione. Gabriella Trucco

Lezione V. Aula Multimediale - sabato 29/03/2008

Pro e contro delle RNA

Amministrazione, finanza e marketing - Turismo Ministero dell Istruzione, dell Università e della Ricerca PROGRAMMAZIONE DISCIPLINARE PER U. di A.

PROGRAMMAZIONE COORDINATA TEMPORALMENTE A.S. 2014/ CLASSE: 5ASA e 5BSA DISCIPLINA: INFORMATICA. INFORMATICA 2 ore settimanali

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino

Strutturazione logica dei dati: i file

LA SOLUZIONE. EVOLUTION, con la E LA TECNOLOGIA TRASPARENTE IL SOFTWARE INVISIBILE INVISIBILE ANCHE NEL PREZZO R.O.I. IMMEDIATO OFFERTA IN PROVA

Prefazione all edizione originale. Prefazione all edizione italiana

Il modello di analisi dei mercati GME. Ottobre 2012

Data Mining a.a

Analisi dei Dati. Lezione 10 Introduzione al Datwarehouse

PROGETTO OPEN MATERA CONTEST INTRODUZIONE

Informatica. Scopo della lezione

Analisi di Mercato. Facoltà di Economia. Analisi sui consumi. Metodo delle inchieste familiari. Metodo delle disponibilità globali

Liceo Tecnologico. Indirizzo Elettrico Elettronico. Indicazioni nazionali per Piani di Studi Personalizzati

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo

Sistemi Informativi e Sistemi ERP

Grafici. Lezione 4. Fondamenti di Informatica 2 Giuseppe Manco Ester Zumpano

Data mining for e- commerce sites

Principi di analisi causale Lezione 2

Ministero dell istruzione, dell università e della ricerca. Liceo Tecnologico. Indirizzo Informatico, Grafico e Comunicazione

SCIENZE E TECNOLOGIA

ANALISI DEI DATI PER IL MARKETING 2014

ManPro.Net: Principali caratteristiche del prodotto.

Regressione non lineare con un modello neurale feedforward

Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci

Basi di Dati Relazionali

LA STATISTICA si interessa del rilevamento, dell elaborazione e dello studio dei dati; studia ciò che accade o come è fatto un gruppo numeroso di

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale

BANCHE DATI. Informatica e tutela giuridica

SVM. Veronica Piccialli. Roma 11 gennaio Università degli Studi di Roma Tor Vergata 1 / 14

1. BASI DI DATI: GENERALITÀ

Considera tutti i requisiti funzionali (use cases) NON deve necessariamente modellare i requisiti non funzionali

Nella prima parte del corso l attenzione è venuta appuntandosi sui problemi inerenti la valutazione di investimenti aziendali e di strumenti

Relazioni statistiche: regressione e correlazione

ISTITUTO TECNICO INDUSTRIALE STATALE "G. MARCONI" Via Milano n PONTEDERA (PI) DIPARTIMENTO: Discipline Informatiche

Ministero dell istruzione, dell università e della ricerca. Liceo Tecnologico. Indirizzo Elettrico Elettronico

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse

Rappresentazione delle immagini

CORSO DI STATISTICA (parte 2) - ESERCITAZIONE 8

qwertyuiopasdfghjklzxcvbnmqwertyuiopasd

Verso il censimento permanente e oltre

Corso integrato di informatica, statistica e analisi dei dati sperimentali Altri esercizi_esercitazione V

rappresentazione astratta di un sistema e/o di una situazione reale tramite un insieme di dati/elementi ad essa analoghi

Analisi della performance temporale della rete

Data Mining in SAP. Alessandro Ciaramella

Curricolo di TECNOLOGIA. Scuola Primaria

CERTIFICAZIONE DELLE COMPETENZE: indicatori e livelli

Ricerca Operativa e Logistica

IL SISTEMA INFORMATIVO

Il questionario. Laboratorio del corso Tecniche quantitative di ricerca sociale. IV lezione. Modulo: Rilevazione dei dati

Transcript:

Lezione 8 Data Mining

Che cos'è il data mining? Data mining (knowledge discovery from data) Estrazione di pattern interessanti (non banali, impliciti, prima sconosciuti e potenzialmente utili) da enormi moli di dati Un nome infelice? Nomi alternativi Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, ecc. Non tutto è data mining! Ricerca semplice ed elaborazione di interrogazioni Sistemi esperti (deduttivi)

Estrazione di Conoscenza come Processo Conoscenza Data Warehouse Dataset Selezione Data Mining Validazione Pulizia DB Integrazione

Confluenza di discipline diverse Basi di dati Statistica Apprendimento automatico Data Mining Visualizzazione Pattern recognition Algoritmi Altre discipline

Tipi di Dataset Dataset e applicazioni di ambito basi di dati: Dataset estratti da basi di dati relazionali, data warehouse Dataset e applicazioni di tipo avanzato: Flussi di dati e dati da sensori Serie temporali e storiche Sequenze (per esempio, genomiche, proteomiche) Grafi e reti (per esempio, reti metaboliche, reti sociali) Dati spaziali e spaziotemporali (es., dati georeferenziati) Dati multimediali (per esempio, immagini, filmati, suono) Archivi testuali (per esempio, pubblicazioni scientifiche, notizie) World-Wide Web

Attività di Data Mining Scoperta di pattern frequenti, associazioni e regole di causalità Classificazione e predizione: Costruzione di modelli che descrivono e distinguono classi/concetti Predizione di attributi numerici mancanti o sconosciuti Raggruppamento (cluster analysis): Scoperta di raggruppamenti significativi in un insieme di osservazioni Massimizzare similarità intra-gruppo, minimizzare quella tra gruppi Rilevazione di anomalie (anomaly detection/outlier analysis) Analisi regressiva: Tendenze e deviazioni Periodicità Analisi basata su similarità

Top 10 degli Algoritmi di Data Mining 1 C4.5 (costruzione di alberi di decisione), Quinlan 1993 2 K-Means (raggruppamento), MacQueen 1967 3 Support Vector Machine (apprendimento statistico), Vapnik 1995 4 Apriori (regole di associazione), Agrawal e Srikant 1994 5 EM (apprendimento statistico), McLachlan e Peel 2000 6 PageRank (analisi dei collegamenti), Brin e Page 1998 7 AdaBoost (bagging and boosting), Freund e Schapire 1997 8 K-Nearest Neighbors (classificazione), 1996 9 Naïve Bayes (classificazione), 2001 10 Classification and Regression Trees (classificazione), 1984 [Fonte: Sondaggio tra i partecipanti al congresso ICDM 2006]

Strumenti Software Prodotti proprietari SPSS + PASW Modeler (prima noto come Clementine) SAS + Enterprise Miner IBM DB2 Data Warehouse Editions Sistemi Open Source R System WEKA = Waikato Environment for Knowledge Analysis URL: http://www.cs.waikato.ac.nz/ml/weka/

Riduzione delle dimensioni Multicollinearità: variabili indipendenti correlate tra loro Multicollinearità è insidiosa e causa instabilità Scopi dei metodi di riduzione delle dimensioni: Ridurre il numero di variabili da analizzare Garantire l'indipendenza delle variabili Fornire un quadro per l'interpretabilità dei risultati Metodi per la riduzione delle dimensioni: Analisi della componente principale (PCA) Analisi fattoriale Riduzione della numerosità Metodi parametrici (assumere modello e fare regressione) Metodi non parametrici: istogrammi, raggruppamento, ecc.

Analisi delle Componenti Principali Idea di fondo: Le variabili di partenza costituiscono un sistema di coordinate Le righe del dataset sono una nuvola di punti in questo spazio Ruotare il sistema di coordinate in modo che ogni dimensione catturi la massima variabilità Eliminare le dimensioni meno esplicative. Tecnicamente: Standardizzare le variabili (media = 0, varianza = 1) Considerare la matrice di correlazione delle variabili Calcolare i suoi autovettori e 1,..., e n Definire nuove variabili sintetiche come combinazione lineari di quelle originali, y i = e i x

Discretizzazione e Gerarchie di concetti Discretizzazione o quantizzazione Riduzione del numero di valori di un attributo continuo dividendo il suo dominio in intervalli Etichette degli intervalli sostituiscono i valori originali Supervisionata o non supervisionata Binning, istogrammi, raggruppamento Discretizzazione basata sull'entropia Formazione di gerarchie di concetti Riduzione ricorsiva dei dati sostituendo concetti di basso livello con concetti di altro livello Es.: età numerica -> giovane, di mezza età, anziano Strada < Città < Provincia < Regione < Paese < Continente

Modellazione previsione y z = M(x, y) x Variabili note M è la legge che lega le variabili x, y e z. Dato un campione di n-uple (x, y, z), si cerca la legge che le spiega.

Complessità Più un modello è dettagliato, più è aderente alla realtà del fenomeno, più le previsioni sono affidabili Tuttavia, più un modello è dettagliato, più è difficile da costruire Ecco perché c è una tendenza ad accontentarsi di modelli semplici(stici) (ad esempio, regressione lineare) In genere, si tira ad indovinare la forma del modello e si riduce il problema a una stima dei suoi parametri La sintesi (o scoperta ) di modelli più complessi richiede algoritmi di ottimizzazione più potenti, come gli algoritmi evolutivi

Soft Computing Tolerant of imprecision, uncertainty, and partial truth Adaptive Methodologies: Evolutionary Algorithms Neural Networks Bayesian and Probabilistic Networks Fuzzy Logic Rough Sets Bio-inspired: Natural Computing A Scientific Discipline? Methodologies co-operate, do not compete (synergy)

Algoritmi evolutivi EVOLUZIONE PROBLEM SOLVING Ambiente Individuo Addattamento Problema da risolvere Soluzione candidata Qualità della soluzione

Ingredienti di un algoritmo evolutivo popolazione di soluzioni (appropriatamente codificate) generazione t riproduzione t + 1 selezione (sopravvivenza del più adatto) mutazione DNA di una soluzione ricombinazione

Reti Neurali Artificiali dendrite assone x 1 w 1 sinapsi x 2 w 2 Σ y x n w n

Rete Feed-Forward

Sintesi e ottimizzazione di reti neurali Evoluzione dei pesi di una rete di struttura predefinita Evoluzione della struttura della rete codifica diretta codifica indiretta Evoluzione delle regole di apprendimento Selezione dei dati di ingresso

Insiemi fuzzy 1 α 0 nucleo α-cut supporto

Operazioni sugli insiemi fuzzy Estensione delle operazioni sugli insiemi classici Norme e co-norme triangolari Min e max sono una scelta popolare

Sistemi di regole fuzzy

Inferenza nei sistemi a regole fuzzy Dato un insieme di regole L insieme fuzzy dei valori assunti dalle variabili dipendenti è

IF x is A 1 AND y is B 1 THEN z is C 1 IF x is A 2 AND y is B 2 THEN z is C 2 z