Lezione 8. Data Mining

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Lezione 8. Data Mining"

Transcript

1 Lezione 8 Data Mining

2 Che cos'è il data mining? Data mining (knowledge discovery from data) Estrazione di pattern interessanti (non banali, impliciti, prima sconosciuti e potenzialmente utili) da enormi moli di dati Un nome infelice? Nomi alternativi Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, ecc. Non tutto è data mining! Ricerca semplice ed elaborazione di interrogazioni Sistemi esperti (deduttivi)

3 Estrazione di Conoscenza come Processo Conoscenza Data Warehouse Dataset Selezione Data Mining Validazione Pulizia DB Integrazione

4 Confluenza di discipline diverse Basi di dati Statistica Apprendimento automatico Data Mining Visualizzazione Pattern recognition Algoritmi Altre discipline

5 Tipi di Dataset Dataset e applicazioni di ambito basi di dati: Dataset estratti da basi di dati relazionali, data warehouse Dataset e applicazioni di tipo avanzato: Flussi di dati e dati da sensori Serie temporali e storiche Sequenze (per esempio, genomiche, proteomiche) Grafi e reti (per esempio, reti metaboliche, reti sociali) Dati spaziali e spaziotemporali (es., dati georeferenziati) Dati multimediali (per esempio, immagini, filmati, suono) Archivi testuali (per esempio, pubblicazioni scientifiche, notizie) World-Wide Web

6 Attività di Data Mining Scoperta di pattern frequenti, associazioni e regole di causalità Classificazione e predizione: Costruzione di modelli che descrivono e distinguono classi/concetti Predizione di attributi numerici mancanti o sconosciuti Raggruppamento (cluster analysis): Scoperta di raggruppamenti significativi in un insieme di osservazioni Massimizzare similarità intra-gruppo, minimizzare quella tra gruppi Rilevazione di anomalie (anomaly detection/outlier analysis) Analisi regressiva: Tendenze e deviazioni Periodicità Analisi basata su similarità

7 Top 10 degli Algoritmi di Data Mining 1 C4.5 (costruzione di alberi di decisione), Quinlan K-Means (raggruppamento), MacQueen Support Vector Machine (apprendimento statistico), Vapnik Apriori (regole di associazione), Agrawal e Srikant EM (apprendimento statistico), McLachlan e Peel PageRank (analisi dei collegamenti), Brin e Page AdaBoost (bagging and boosting), Freund e Schapire K-Nearest Neighbors (classificazione), Naïve Bayes (classificazione), Classification and Regression Trees (classificazione), 1984 [Fonte: Sondaggio tra i partecipanti al congresso ICDM 2006]

8 Strumenti Software Prodotti proprietari SPSS + PASW Modeler (prima noto come Clementine) SAS + Enterprise Miner IBM DB2 Data Warehouse Editions Sistemi Open Source R System WEKA = Waikato Environment for Knowledge Analysis URL:

9 Riduzione delle dimensioni Multicollinearità: variabili indipendenti correlate tra loro Multicollinearità è insidiosa e causa instabilità Scopi dei metodi di riduzione delle dimensioni: Ridurre il numero di variabili da analizzare Garantire l'indipendenza delle variabili Fornire un quadro per l'interpretabilità dei risultati Metodi per la riduzione delle dimensioni: Analisi della componente principale (PCA) Analisi fattoriale Riduzione della numerosità Metodi parametrici (assumere modello e fare regressione) Metodi non parametrici: istogrammi, raggruppamento, ecc.

10 Analisi delle Componenti Principali Idea di fondo: Le variabili di partenza costituiscono un sistema di coordinate Le righe del dataset sono una nuvola di punti in questo spazio Ruotare il sistema di coordinate in modo che ogni dimensione catturi la massima variabilità Eliminare le dimensioni meno esplicative. Tecnicamente: Standardizzare le variabili (media = 0, varianza = 1) Considerare la matrice di correlazione delle variabili Calcolare i suoi autovettori e 1,..., e n Definire nuove variabili sintetiche come combinazione lineari di quelle originali, y i = e i x

11 Discretizzazione e Gerarchie di concetti Discretizzazione o quantizzazione Riduzione del numero di valori di un attributo continuo dividendo il suo dominio in intervalli Etichette degli intervalli sostituiscono i valori originali Supervisionata o non supervisionata Binning, istogrammi, raggruppamento Discretizzazione basata sull'entropia Formazione di gerarchie di concetti Riduzione ricorsiva dei dati sostituendo concetti di basso livello con concetti di altro livello Es.: età numerica -> giovane, di mezza età, anziano Strada < Città < Provincia < Regione < Paese < Continente

12 Modellazione previsione y z = M(x, y) x Variabili note M è la legge che lega le variabili x, y e z. Dato un campione di n-uple (x, y, z), si cerca la legge che le spiega.

13 Complessità Più un modello è dettagliato, più è aderente alla realtà del fenomeno, più le previsioni sono affidabili Tuttavia, più un modello è dettagliato, più è difficile da costruire Ecco perché c è una tendenza ad accontentarsi di modelli semplici(stici) (ad esempio, regressione lineare) In genere, si tira ad indovinare la forma del modello e si riduce il problema a una stima dei suoi parametri La sintesi (o scoperta ) di modelli più complessi richiede algoritmi di ottimizzazione più potenti, come gli algoritmi evolutivi

14 Soft Computing Tolerant of imprecision, uncertainty, and partial truth Adaptive Methodologies: Evolutionary Algorithms Neural Networks Bayesian and Probabilistic Networks Fuzzy Logic Rough Sets Bio-inspired: Natural Computing A Scientific Discipline? Methodologies co-operate, do not compete (synergy)

15 Algoritmi evolutivi EVOLUZIONE PROBLEM SOLVING Ambiente Individuo Addattamento Problema da risolvere Soluzione candidata Qualità della soluzione

16 Ingredienti di un algoritmo evolutivo popolazione di soluzioni (appropriatamente codificate) generazione t riproduzione t + 1 selezione (sopravvivenza del più adatto) mutazione DNA di una soluzione ricombinazione

17 Reti Neurali Artificiali dendrite assone x 1 w 1 sinapsi x 2 w 2 Σ y x n w n

18 Rete Feed-Forward

19 Sintesi e ottimizzazione di reti neurali Evoluzione dei pesi di una rete di struttura predefinita Evoluzione della struttura della rete codifica diretta codifica indiretta Evoluzione delle regole di apprendimento Selezione dei dati di ingresso

20 Insiemi fuzzy 1 α 0 nucleo α-cut supporto

21 Operazioni sugli insiemi fuzzy Estensione delle operazioni sugli insiemi classici Norme e co-norme triangolari Min e max sono una scelta popolare

22 Sistemi di regole fuzzy

23 Inferenza nei sistemi a regole fuzzy Dato un insieme di regole L insieme fuzzy dei valori assunti dalle variabili dipendenti è

24 IF x is A 1 AND y is B 1 THEN z is C 1 IF x is A 2 AND y is B 2 THEN z is C 2 z

MASTER UNIVERSITARIO

MASTER UNIVERSITARIO MASTER UNIVERSITARIO Analisi Dati per la Business Intelligence In collaborazione con II edizione 2013/2014 Dipartimento di Culture, Politica e Società Dipartimento di Informatica gestito da aggiornato

Dettagli

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida

Introduzione alle tecniche di Data Mining. Prof. Giovanni Giuffrida Introduzione alle tecniche di Data Mining Prof. Giovanni Giuffrida Programma Contenuti Introduzione al Data Mining Mining pattern frequenti, regole associative Alberi decisionali Clustering Esempio di

Dettagli

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD

PDF created with pdffactory trial version www.pdffactory.com. Il processo di KDD Il processo di KDD Introduzione Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (introduzione codici a barre, transazioni economiche tramite carta di credito, dati da

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Data Mining. Introduzione La crescente popolarità

Dettagli

MASTER UNIVERSITARIO. Analisi Dati per la Business Intelligence e Data Science. IV edizione 2015/2016

MASTER UNIVERSITARIO. Analisi Dati per la Business Intelligence e Data Science. IV edizione 2015/2016 MASTER UNIVERSITARIO Analisi Dati per la Business Intelligence e Data Science In collaborazione con IV edizione 2015/2016 Dipartimento di Culture, Politica e Società Dipartimento di Informatica Dipartimento

Dettagli

KNOWLEDGE DISCOVERY E DATA MINING

KNOWLEDGE DISCOVERY E DATA MINING KNOWLEDGE DISCOVERY E DATA MINING Prof. Dipartimento di Elettronica e Informazione Politecnico di Milano LE TECNOLOGIE DI GESTIONE DELL INFORMAZIONE DATA WAREHOUSE SUPPORTO ALLE DECISIONI DATA MINING ANALISI

Dettagli

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali

Sistemi Informativi Aziendali. Sistemi Informativi Aziendali DIPARTIMENTO DI INGEGNERIA INFORMATICA AUTOMATICA E GESTIONALE ANTONIO RUBERTI Cenni al Data Mining 1 Data Mining nasce prima del Data Warehouse collezione di tecniche derivanti da Intelligenza Artificiale,

Dettagli

Uno standard per il processo KDD

Uno standard per il processo KDD Uno standard per il processo KDD Il modello CRISP-DM (Cross Industry Standard Process for Data Mining) è un prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo

Dettagli

Data mining e rischi aziendali

Data mining e rischi aziendali Data mining e rischi aziendali Antonella Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento

Dettagli

Data Mining e Analisi dei Dati

Data Mining e Analisi dei Dati e Analisi dei Dati Rosaria Lombardo Dipartimento di Economia, Seconda Università di Napoli La scienza che estrae utili informazioni da grandi databases è conosciuta come E una disciplina nuova che interseca

Dettagli

Presentazione. Risorse Web. Metodi Statistici 1

Presentazione. Risorse Web. Metodi Statistici 1 I-XVI Romane_ 27-10-2004 14:25 Pagina VII Prefazione Risorse Web XI XIII XVII Metodi Statistici 1 Capitolo 1 Tecniche Statistiche 3 1.1 Probabilità, Variabili Casuali e Statistica 3 1.1.1 Introduzione

Dettagli

MACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it

MACHINE LEARNING e DATA MINING Introduzione. a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it MACHINE LEARNING e DATA MINING Introduzione a.a.2015/16 Jessica Rosati jessica.rosati@poliba.it Apprendimento Automatico(i) Branca dell AI che si occupa di realizzare dispositivi artificiali capaci di

Dettagli

Il DataMining. Susi Dulli dulli@math.unipd.it

Il DataMining. Susi Dulli dulli@math.unipd.it Il DataMining Susi Dulli dulli@math.unipd.it Il Data Mining Il Data Mining è il processo di scoperta di relazioni, pattern, ed informazioni precedentemente sconosciute e potenzialmente utili, all interno

Dettagli

Facoltà di Psicologia - Corso FSE gennaio febbraio 2010. Marco Vicentini info@marcovicentini.it

Facoltà di Psicologia - Corso FSE gennaio febbraio 2010. Marco Vicentini info@marcovicentini.it Facoltà di Psicologia - Corso FSE gennaio febbraio 2010 Marco Vicentini info@marcovicentini.it Statistica e Psicologia Quali statistiche per la psicologia? Quali programmi per la statistica? Codifica e

Dettagli

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testualilezione

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testualilezione Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testualilezione 2 Le principali tecniche di analisi testuale Facendo riferimento alle tecniche di data mining,

Dettagli

Data Mining Algorithms

Data Mining Algorithms Proposte di Tesi Elena Baralis, Silvia Chiusano, Paolo Garza, Tania Cerquitelli, Giulia Bruno, Daniele Apiletti, Alessandro Fiori, Luca Cagliero, Alberto Grand, Luigi Grimaudo Torino, Giugno 2011 Data

Dettagli

Intelligenza Computazionale

Intelligenza Computazionale Intelligenza Computazionale A.A. 2009/10 Docente: Francesco Masulli masulli@disi.unige.it L'Intelligenza Computazionale (o Soft Computing o Natural Computing): insieme di metodologie di elaborazione dell'informazione

Dettagli

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale

Esperienze di Apprendimento Automatico per il corso di Intelligenza Artificiale Esperienze di Apprendimento Automatico per il corso di lippi@dsi.unifi.it Dipartimento Sistemi e Informatica Università di Firenze Dipartimento Ingegneria dell Informazione Università di Siena Introduzione

Dettagli

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche

DATA MINING. Data mining. Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche DATA MINING datamining Data mining Obiettivo: estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche Una materia interdisciplinare: - statistica, algoritmica, reti neurali

Dettagli

Introduzione al Data Mining

Introduzione al Data Mining Introduzione al Data Mining Sistemi informativi per le Decisioni Slide a cura di Prof. Claudio Sartori Evoluzione della tecnologia dell informazione (IT) (Han & Kamber, 2001) Percorso evolutivo iniziato

Dettagli

Introduzione al KDD e al DATA MINING

Introduzione al KDD e al DATA MINING Introduzione al KDD e al DATA MINING Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Verso il DM: una breve analisi delle fasi del processo KDD. 1 2 Il DM: Alcune definizioni.

Dettagli

DATA MINING E DATA WAREHOUSE

DATA MINING E DATA WAREHOUSE Reti e sistemi informativi DATA MINING E DATA WAREHOUSE Marco Gottardo FONTI Wikipedia Cineca Università di Udine, Dipartimento di fisica, il data mining scientifico thepcweb.com DATA MINING 1/2 Il Data

Dettagli

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE Arricchimento dei dati del sottoscrittore / user Approccio Tradizionale Raccolta dei dati personali tramite contratto (professione, dati sul nucleo familiare, livello

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Indagini statistiche attraverso i social networks

Indagini statistiche attraverso i social networks Indagini statistiche attraverso i social networks Agostino Di Ciaccio Dipartimento di Scienze Statistiche Università degli Studi di Roma "La Sapienza" SAS Campus 2012 1 Diffusione dei social networks Secondo

Dettagli

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati

Data mining. Data Mining. processo di Data Mining estrarre automaticamente informazioneda un insieme di dati Data mining Il consente l informazione processo di Data Mining estrarre automaticamente informazioneda un insieme di dati telefoniche, ènascostaa a causa di fra quantitàdi loro, complessità: non... ci

Dettagli

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it

Data Mining. Gabriella Trucco gabriella.trucco@unimi.it Data Mining Gabriella Trucco gabriella.trucco@unimi.it Perché fare data mining La quantità dei dati memorizzata su supporti informatici è in continuo aumento Pagine Web, sistemi di e-commerce Dati relativi

Dettagli

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,

Dettagli

Relazione sul data warehouse e sul data mining

Relazione sul data warehouse e sul data mining Relazione sul data warehouse e sul data mining INTRODUZIONE Inquadrando il sistema informativo aziendale automatizzato come costituito dall insieme delle risorse messe a disposizione della tecnologia,

Dettagli

Suggerimenti per l approccio all analisi dei dati multivariati

Suggerimenti per l approccio all analisi dei dati multivariati Suggerimenti per l approccio all analisi dei dati multivariati Definizione degli obbiettivi Il primo passo è la definizione degli obbiettivi. Qual è l obbiettivo della sperimentazione i cui dati dovete

Dettagli

Classificazione e Predizione

Classificazione e Predizione Lezione di TDM DM del 16 Aprile 2007 Francesco Bonchi, KDD Lab Pisa, ISTI-C.N.R. 1 Lezione odierna Intuizioni sul concetto di classificazione Alberi di decisione Alberi di decisione con Weka Classificazione:

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Sistemi informazionali La crescente diffusione dei

Dettagli

CATALOGO DEI CORSI DI FORMAZIONE

CATALOGO DEI CORSI DI FORMAZIONE CATALOGO DEI CORSI DI FORMAZIONE NextInt Training Center - formazione@nextint.it NextInt Via Nino Oxilia 22 20127 Milano (MI) Tel. +30 02 36572330/332 formazione@nextint.it www.nextint.it CHI SIAMO NextInt

Dettagli

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining

I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining Dipartimento di Informatica e Sistemistica I vantaggi ottenibili nei campi applicativi attraverso l uso di tecniche di data mining Renato Bruni bruni@dis.uniroma1.it Antonio Sassano sassano@dis.uniroma1.it

Dettagli

Lezione 1. Introduzione e Modellazione Concettuale

Lezione 1. Introduzione e Modellazione Concettuale Lezione 1 Introduzione e Modellazione Concettuale 1 Tipi di Database ed Applicazioni Database Numerici e Testuali Database Multimediali Geographic Information Systems (GIS) Data Warehouses Real-time and

Dettagli

Regressione non lineare con un modello neurale feedforward

Regressione non lineare con un modello neurale feedforward Reti Neurali Artificiali per lo studio del mercato Università degli studi di Brescia - Dipartimento di metodi quantitativi Marco Sandri (sandri.marco@gmail.com) Regressione non lineare con un modello neurale

Dettagli

Big Data e Predizione: Teoria, Modelli, Tool e Case Study. Tesi di Laurea

Big Data e Predizione: Teoria, Modelli, Tool e Case Study. Tesi di Laurea Università degli Studi Mediterranea di Reggio Calabria Dipartimento di Ingegneria dell Informazione, delle Infrastrutture e dell Energia Sostenibile Corso di Laurea in Ingegneria dell Informazione Tesi

Dettagli

Data Mining in SAP. Alessandro Ciaramella

Data Mining in SAP. Alessandro Ciaramella UNIVERSITÀ DI PISA Corsi di Laurea Specialistica in Ingegneria Informatica per la Gestione d Azienda e Ingegneria Informatica Data Mining in SAP A cura di: Alessandro Ciaramella La Business Intelligence

Dettagli

Sistemi informativi aziendali

Sistemi informativi aziendali Sistemi informativi aziendali Lezione 12 prof. Monica Palmirani Sistemi informativi e informatici Sistemi informativi = informazioni+processi+comunicazione+persone Sistemi informatici = informazioni+hardware+software

Dettagli

Sistemi Informativi Multimediali Indicizzazione multidimensionale

Sistemi Informativi Multimediali Indicizzazione multidimensionale Indicizzazione nei sistemi di IR (1) Sistemi Informativi Multimediali Indicizzazione multidimensionale ugusto elentano Università a Foscari Venezia La struttura fondamentale di un sistema di information

Dettagli

Data Mining. KDD e Data Mining - Introduzione (1)

Data Mining. KDD e Data Mining - Introduzione (1) 1 Data Mining Corso di Metodi e Modelli per il Supporto alle Decisioni a.a. 2002-03 2 KDD e Data Mining - Introduzione (1) Crescita notevole degli strumenti e delle tecniche per generare e raccogliere

Dettagli

UNIVERSITA DI PISA FACOLTA DI ECONOMIA CORSO DI LAUREA SPECIALISTICA IN STRATEGIA E GOVERNO DELL AZIENDA

UNIVERSITA DI PISA FACOLTA DI ECONOMIA CORSO DI LAUREA SPECIALISTICA IN STRATEGIA E GOVERNO DELL AZIENDA UNIVERSITA DI PISA FACOLTA DI ECONOMIA CORSO DI LAUREA SPECIALISTICA IN STRATEGIA E GOVERNO DELL AZIENDA TESI DI LAUREA IN STATISTICA PER LE RICERCHE SPERIMENTALI E DI MERCATO L ANALISI STATISTICA DI DATI

Dettagli

Classificazione di un data set di proteine con Weka

Classificazione di un data set di proteine con Weka MODELLI PROBABILISTICI Classificazione di un data set di proteine con Weka SOFIA CIVIDINI 2 INTRODUZIONE Negli ultimi due decenni si è assistito ad un aumento esponenziale nella quantità dell informazione

Dettagli

Data Mining: Applicazioni

Data Mining: Applicazioni Sistemi Informativi Universitá degli Studi di Milano Facoltá di Scienze Matematiche, Fisiche e Naturali Dipartimento di Tecnologie dell Informazione 1 Giugno 2007 Data Mining Perché il Data Mining Il Data

Dettagli

Introduzione al Pattern Recognition Statistico

Introduzione al Pattern Recognition Statistico Introduzione al Pattern Recognition Statistico Roberto Tagliaferri Dipartimento di Informatica Università di Salerno ( Sa ) 84084 Fisciano e-mail robtag@unisa.it Statistical Pattern Recognition Introduzione

Dettagli

Realizzazione di un sistema predittivo dei risultati del campionato di calcio italiano di serie A 2006/2007

Realizzazione di un sistema predittivo dei risultati del campionato di calcio italiano di serie A 2006/2007 Realizzazione di un sistema predittivo dei risultati del campionato di calcio italiano di serie A 2006/2007 Docente Prof. Giuseppe Manco Studenti Matr.. 96803 Francesco Aiello Matr.. 94881 Vittorio Leo

Dettagli

Knowledge Discovery e Data Mining

Knowledge Discovery e Data Mining Sommario Knowledge Discovery e Mining Introduzione Motivazioni ed applicazioni ll processo di KDD Fasi e caratteristiche Le tecniche di DM Classificazione e regressione Scoperta di regole associative Clustering

Dettagli

DATA MINING IN TIME SERIES

DATA MINING IN TIME SERIES Modellistica e controllo dei sistemi ambientali DATA MINING IN TIME SERIES 01 Dicembre 2009 Dott. Ing.. Roberto Di Salvo Dipartimento di Ingegneria Elettrica Elettronica e dei Sistemi Anno Accademico 2009-2010

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 4 Reti neurali per la classificazione Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com

Dettagli

ANALISI DEI DATI PER IL MARKETING 2014

ANALISI DEI DATI PER IL MARKETING 2014 ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani mriani@unipr.it http://www.riani.it LA CLASSIFICAZIONE CAP IX, pp.367-457 Problema generale della scienza (Linneo, ) Analisi discriminante Cluster Analysis

Dettagli

Regressione Mario Guarracino Data Mining a.a. 2010/2011

Regressione Mario Guarracino Data Mining a.a. 2010/2011 Regressione Esempio Un azienda manifatturiera vuole analizzare il legame che intercorre tra il volume produttivo X per uno dei propri stabilimenti e il corrispondente costo mensile Y di produzione. Volume

Dettagli

Analisi di segnali fisiologici mediante reti neurali

Analisi di segnali fisiologici mediante reti neurali POLITECNICO DI TORINO III Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica Tesi di Laurea Specialistica Analisi di segnali fisiologici mediante reti neurali Relatori: Prof.ssa Elena Baralis

Dettagli

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino Data mining Vincenzo D Elia vincenzo.delia@polito.it DBDMG - Politecnico di Torino vincenzo.delia@polito.it Archivi Multimediali e Data Mining - p. 1 Rapid Miner vincenzo.delia@polito.it Archivi Multimediali

Dettagli

20 People. 33 anni Età media 80% ISO 9001 Certificazione Sviluppo modelli predittivi. About Pangea Formazione

20 People. 33 anni Età media 80% ISO 9001 Certificazione Sviluppo modelli predittivi. About Pangea Formazione Company Overview About Pangea Formazione About Pangea Formazione 20 People 33 anni Età media 80% Ph.D. ISO 9001 Certificazione Sviluppo modelli predittivi Progettiamo modelli statistico-matematici a supporto

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 8 Support Vector Machines Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

CUSTOMER RELATIONSHIP MANAGEMENT:

CUSTOMER RELATIONSHIP MANAGEMENT: LA BICOCCA PER LE IMPRESE CUSTOMER RELATIONSHIP MANAGEMENT: MODELLI E TECNOLOGIE PROGETTO WISPER: ESEMPIO DI CUSTOMER SATISFACTION VITTORIO VIGANO CONSORZIO MILANO RICERCHE MERCOLEDI 22 GIUGNO 2005 Università

Dettagli

Breve introduzione al Calcolo Evoluzionistico

Breve introduzione al Calcolo Evoluzionistico Breve introduzione al Calcolo Evoluzionistico Stefano Cagnoni Dipartimento di Ingegneria dell Informazione, Università di Parma cagnoni@ce.unipr.it 1 Introduzione Il mondo fisico ed i fenomeni naturali

Dettagli

CIRCUITI INTELLIGENTI Parte 5: PCA e ICA

CIRCUITI INTELLIGENTI Parte 5: PCA e ICA Ing. Simone SCARDAPANE Circuiti e Algoritmi per l Elaborazione dei Segnali Anno Accademico 2012/2013 Indice della Lezione 1. Analisi delle Componenti Principali 2. Auto-Associatori 3. Analisi delle Componenti

Dettagli

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testuali Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testuali Il text mining: una definizione Data mining per dati destrutturati ovvero documenti codificati in linguaggio

Dettagli

SCHEDA DI PROGRAMMAZIONE DISCIPLINARE DA RIPORTARE SUL P.O.F. A.S. 2014-2015. Ripasso programmazione ad oggetti. Basi di dati: premesse introduttive

SCHEDA DI PROGRAMMAZIONE DISCIPLINARE DA RIPORTARE SUL P.O.F. A.S. 2014-2015. Ripasso programmazione ad oggetti. Basi di dati: premesse introduttive SCHEDA DI PROGRAMMAZIONE DISCIPLINARE DA RIPORTARE SUL P.O.F. A.S. 2014-2015 ASSE DISCIPLINA DOCENTE MATEMATICO INFORMATICA Cattani Barbara monoennio CLASSE: quinta CORSO D SEZIONE LICEO SCIENZE APPLICATE

Dettagli

MACHINE LEARNING E STRUMENTI ANTICRIMINE NELL ERA DEI BIG DATA. Gaetano Bruno Ronsivalle

MACHINE LEARNING E STRUMENTI ANTICRIMINE NELL ERA DEI BIG DATA. Gaetano Bruno Ronsivalle Gaetano Bruno Ronsivalle Università degli Studi di Verona Tecnologie informatiche e multimediali MACHINE LEARNING E STRUMENTI ANTICRIMINE NELL ERA DEI BIG DATA Argomenti Big Data: una galassia online Machine

Dettagli

Informatica I per la. Fisica

Informatica I per la. Fisica Corso di Laurea in Fisica Informatica I per la Fisica Lezione: Software applicativo II Fogli elettronici e Data Base Software: software di sistema (BIOS) sistema operativo software applicativo ROM Dischi

Dettagli

La statistica multivariata

La statistica multivariata Cenni di Statistica Multivariata Dr Corrado Costa La statistica multivariata La statistica multivariata è quella parte della statistica in cui l'oggetto dell'analisi è per sua natura formato da almeno

Dettagli

Sistemi Informativi e WWW

Sistemi Informativi e WWW Premesse Sistemi Informativi e WWW WWW: introduce un nuovo paradigma di diffusione (per i fornitori) e acquisizione (per gli utilizzatori) delle informazioni, con facilità d uso, flessibilità ed economicità

Dettagli

Una miniera di dati sul comportamento degli utenti del Web

Una miniera di dati sul comportamento degli utenti del Web Una miniera di dati sul comportamento degli utenti del Web Organizzare le informazioni sull'utilizzo della rete in PostgreSQL utilizzando ht://miner, un sistema open-source di data mining e data warehousing

Dettagli

ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet

ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet ht://miner Un sistema open-source di data mining e data warehousing per lo studio dei comportamenti degli utenti su Internet Gabriele Bartolini Comune di Prato Sistema Informativo Servizi di E-government

Dettagli

IBM SPSS Modeler 15 Guida alla modellazione in-database

IBM SPSS Modeler 15 Guida alla modellazione in-database IBM SPSS Modeler 15 Guida alla modellazione in-database Nota: Prima di utilizzare queste informazioni e il relativo prodotto, leggere le informazioni generali disponibili in Note a pag.. Questa versione

Dettagli

Liceo Tecnologico. Indirizzo Informatico e Comunicazione. Indicazioni nazionali per Piani di Studi Personalizzati

Liceo Tecnologico. Indirizzo Informatico e Comunicazione. Indicazioni nazionali per Piani di Studi Personalizzati Indirizzo Informatico e Comunicazione Indicazioni nazionali per Piani di Studi Personalizzati Indirizzo Informatico e Comunicazione Discipline con attività di laboratorio 3 4 5 Fisica 132 Gestione di progetto

Dettagli

IBM SPSS Modeler 14.2 Guida alla modellazione in-database

IBM SPSS Modeler 14.2 Guida alla modellazione in-database IBM SPSS Modeler 14.2 Guida alla modellazione in-database Nota: Prima di utilizzare queste informazioni e il relativo prodotto, leggere le informazioni generali disponibili in Note a pag.. Il presente

Dettagli

AIR MILES un case study di customer segmentation

AIR MILES un case study di customer segmentation AIR MILES un case study di customer segmentation Da: G. Saarenvirta, Mining customer data, DB2 magazine on line, 1998 http://www.db2mag.com/db_area/archives/1998/q3/ 98fsaar.shtml Customer clustering &

Dettagli

CURRICOLO DI MATEMATICA CLASSE PRIMA

CURRICOLO DI MATEMATICA CLASSE PRIMA CURRICOLO DI MATEMATICA CLASSE PRIMA TRAGUARDI DI COMPETENZA NUCLEI FONDANTI OBIETTIVI DI APPRENDIMENTO CONOSCITIVA IL NUMERO CARATTERISTICHE Quantità entro il numero 20 Cardinalità Posizionalità RELAZIONI

Dettagli

C4.5 Algorithms for Machine Learning

C4.5 Algorithms for Machine Learning C4.5 Algorithms for Machine Learning C4.5 Algorithms for Machine Learning Apprendimento di alberi decisionali c4.5 [Qui93b,Qui96] Evoluzione di ID3, altro sistema del medesimo autore, J.R. Quinlan Ispirato

Dettagli

Principal Component Analysis

Principal Component Analysis Principal Component Analysis Alessandro Rezzani Abstract L articolo descrive una delle tecniche di riduzione della dimensionalità del data set: il metodo dell analisi delle componenti principali (Principal

Dettagli

Computazione per l interazione naturale: Modelli dinamici

Computazione per l interazione naturale: Modelli dinamici Computazione per l interazione naturale: Modelli dinamici Corso di Interazione Naturale Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano boccignone@di.unimi.it boccignone.di.unimi.it/in_2015.html

Dettagli

Impiego di classificatori nell analisi di immagini

Impiego di classificatori nell analisi di immagini Impiego di classificatori nell analisi di immagini Davide Devescovi 1 La classificazione Con il termine classificazione si intende una procedura statistica che permette di associare ciascun oggetto (che

Dettagli

CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO -

CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO - 1 CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO - Corsi di Laurea in Informatica, Ing. Informatica, Ing. di Internet (a.a. 2015-2016) Roberto Basili 2 Overview WM&R: Motivazioni e prospettive

Dettagli

IBM SPSS Direct Marketing 20

IBM SPSS Direct Marketing 20 IBM SPSS Direct Marketing 20 Nota: Prima di utilizzare queste informazioni e il relativo prodotto, leggere le informazioni generali disponibili in Note legali a pag. 109. Questa versione si applica a IBM

Dettagli

Cristian Randieri. www.intellisystem.it

Cristian Randieri. www.intellisystem.it Cristian Randieri www.intellisystem.it Gli algoritmi genetici (GA = Genetic Algorithms) furono proposti inizialmente da J.H. Holland nel 1975. Da allora sono stati oggetto di molti studi e recentemente

Dettagli

Il data mining. di Alessandro Rezzani

Il data mining. di Alessandro Rezzani Il data mining di Alessandro Rezzani Cos è il data mining.... 2 Knowledge Discovery in Databases (KDD)... 3 Lo standard CRISP-DM... 4 La preparazione dei dati... 7 Costruzione del modello... 7 Attività

Dettagli

Strumenti statistici per l analisi di dati genetici

Strumenti statistici per l analisi di dati genetici Strumenti statistici per l analisi di dati genetici Luca Tardella + Maria Brigida Ferraro 1 email: luca.tardella@uniroma1.it Lezione #1 Introduzione al software R al suo utilizzo per l implementazione

Dettagli

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni Data warehouse Data warehouse La crescita dell importanza dell analisi dei dati ha portato ad una separazione architetturale dell ambiente transazionale (OLTP on-line transaction processing) da quello

Dettagli

Il guadagno informativo negli alberi decisionali: un nuovo approccio

Il guadagno informativo negli alberi decisionali: un nuovo approccio Il guadagno informativo negli alberi decisionali: un nuovo approccio Sommario Descrizione del problema... 2 Il guadagno informativo di Nanni... 3 Il software Weka... 3 Cos è Weka... 3 Il guadagno Informativo

Dettagli

Data mining for e- commerce sites

Data mining for e- commerce sites Data mining for e- commerce sites Commercio elettronico Possibilità di svolgerele attività commerciali per via elettronica, in particolare tramite Internet. Un qualsiasi tipo di transazione tendente a

Dettagli

Marketing relazionale

Marketing relazionale Marketing relazionale Introduzione Nel marketing intelligence assume particolare rilievo l applicazione di modelli predittivi rivolte a personalizzare e rafforzare il legame tra azienda e clienti. Un azienda

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 5 Tecniche OCR Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY.

Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY. Carpire il segreto della vita con l informatica Giosuè Lo Bosco Dipartimento di Matematica e Informatica, Università di Palermo, ITALY. Lezioni Lincee Palermo, 26 Febbraio 2015 Alla base della vita degli

Dettagli

CURRICOLO MATEMATICA OBIETTIVI E COMPETENZE

CURRICOLO MATEMATICA OBIETTIVI E COMPETENZE CURRICOLO MATEMATICA OBIETTIVI E COMPETENZE CLASSE OBIETTIVI COMPETENZE PRIMA Conoscere ed operare con i numeri Contare oggetti o eventi, con la voce e mentalmente, in senso progressivo e regressivo. Leggere

Dettagli

Laboratorio di Progettazione e Sviluppo di Sistemi Informatici

Laboratorio di Progettazione e Sviluppo di Sistemi Informatici 1 Laboratorio di Progettazione e Sviluppo di Sistemi Informatici 2 Laboratorio di Progettazione e Sviluppo di Sistemi Informatici Parte del corso intersettoriale "Laboratorio di Progettazione e Sviluppo

Dettagli

Smart Cities : 10 Febbraio 2014. Smart Security per Smart Cities Trend Tecnologici. Auditorim- Assolombarda via Pantano Milano

Smart Cities : 10 Febbraio 2014. Smart Security per Smart Cities Trend Tecnologici. Auditorim- Assolombarda via Pantano Milano : Trend Tecnologici Trend tecnologici per la sicurezza delle città intelligenti Luca Bertoletti Hyperion Srl Direttivo ClubTi - Milano 10 Febbraio 2014 Auditorim- Assolombarda via Pantano Milano Security

Dettagli

Intelligenza Artificiale. Introduzione al calcolo evolutivo

Intelligenza Artificiale. Introduzione al calcolo evolutivo Intelligenza Artificiale Introduzione al calcolo evolutivo Marco Piastra Calcolo evolutivo - 1 Calcolo evolutivo ed IA Universe Borg Vogons Earth etc Biotop Society Stones & Seas etc Art Science Politics

Dettagli

IBM SPSS Neural Networks 20

IBM SPSS Neural Networks 20 IBM SPSS Neural Networks 20 Nota: Prima di utilizzare queste informazioni e il relativo prodotto, leggere le informazioni generali disponibili in Note legali a pag. 99. Questa versione si applica a IBM

Dettagli

Sistemi informativi aziendali

Sistemi informativi aziendali Sistemi informativi aziendali Lezione 12 prof. Monica Palmirani Sistemi informativi e informatici Sistemi informativi = informazioni+processi+comunicazione+persone Sistemi informatici = informazioni+hardware+software

Dettagli

IBM SPSS Modeler 16 Guida al mining nel database

IBM SPSS Modeler 16 Guida al mining nel database IBM SPSS Modeler 16 Guida al mining nel database Nota Prima di utilizzare queste informazioni e il relativo prodotto, leggere le informazioni in Note a pagina 115. Informazioni sul prodotto La presente

Dettagli

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino

Data mining: classificazione DataBase and Data Mining Group of Politecnico di Torino DataBase and Data Mining Group of Database and data mining group, Database and data mining group, DataBase and Data Mining Group of DataBase and Data Mining Group of So dati insieme di classi oggetti etichettati

Dettagli

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo

Page 1. Evoluzione. Intelligenza Artificiale. Algoritmi Genetici. Evoluzione. Evoluzione: nomenclatura. Corrispondenze natura-calcolo Evoluzione In ogni popolazione si verificano delle mutazioni. Intelligenza Artificiale In un ambiente che varia, le mutazioni possono generare individui che meglio si adattano alle nuove condizioni. Questi

Dettagli

Tecniche di riconoscimento statistico

Tecniche di riconoscimento statistico On AIR s.r.l. Tecniche di riconoscimento statistico Applicazioni alla lettura automatica di testi (OCR) Parte 1 - Introduzione generale Ennio Ottaviani On AIR srl ennio.ottaviani@onairweb.com http://www.onairweb.com/corsopr

Dettagli

Descrizione... 3 Comprensione del Processo Produttivo... 3. Definizione del Problema... 4. Selezione delle Caratteristiche... 5. Box Plot...

Descrizione... 3 Comprensione del Processo Produttivo... 3. Definizione del Problema... 4. Selezione delle Caratteristiche... 5. Box Plot... Pagina 2 Descrizione... 3 Comprensione del Processo Produttivo... 3 Definizione del Problema... 4 Selezione delle Caratteristiche... 5 Box Plot... 6 Scatterplot... 6 Box Plot... 7 Scatterplot... 7 Alberi

Dettagli

Principi di analisi causale Lezione 2

Principi di analisi causale Lezione 2 Anno accademico 2007/08 Principi di analisi causale Lezione 2 Docente: prof. Maurizio Pisati Logica della regressione Nella sua semplicità, l espressione precedente racchiude interamente la logica della

Dettagli

1. Aspetti di Marketing... 3 Obiettivi... 3 Esempi... 4 2. Aspetti Applicativi... 4 Obiettivi... 4. 3. Aspetti Prestazionali... 4

1. Aspetti di Marketing... 3 Obiettivi... 3 Esempi... 4 2. Aspetti Applicativi... 4 Obiettivi... 4. 3. Aspetti Prestazionali... 4 Pagina 2 1. Aspetti di Marketing... 3 Obiettivi... 3 Esempi... 4 2. Aspetti Applicativi... 4 Obiettivi... 4 Esempi... 4 3. Aspetti Prestazionali... 4 Obiettivi... 4 Esempi... 4 4. Gestione del Credito

Dettagli

SCADA: struttura modulare

SCADA: struttura modulare Sistemi per il controllo di supervisione e l acquisizione dati o (Supervisory Control And Data Acquisition) Sistema informatico di misura e controllo distribuito per il monitoraggio di processi fisici

Dettagli