Data Mining Algorithms

Documenti analoghi
Marketing relazionale

1. BASI DI DATI: GENERALITÀ

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

La società Volocom. Trasformare le informazioni in conoscenza. Conoscere per agire

Lezione 1. Introduzione e Modellazione Concettuale

Il Dipartimento individua conoscenze, abilità e competenze in uscita nel biennio e nel triennio ripartite come segue:

Basi di Dati Relazionali

Liceo Tecnologico. Indirizzo Informatico e Comunicazione. Indicazioni nazionali per Piani di Studi Personalizzati

Data Warehousing (DW)

Analisi dei requisiti e casi d uso

Università degli studi Roma Tre Dipartimento di informatica ed automazione. Tesi di laurea

MASTER UNIVERSITARIO

Caratteristiche principali. Contesti di utilizzo

Business Process Management

PIANO DI LAVORO ANNUALE DEL DIPARTIMENTO DI MATERIA DIPARTIMENTO DI INFORMATICA INDIRIZZO TECNICO SCIENTIFICO NUCLEI FONDAMENTALI DI CONOSCENZE

Progettaz. e sviluppo Data Base

MOLTI MESSAGGIO MESSAGGERI. online e mobile MAIL SMS SOCIAL FAX. geniusmailer

MASTER UNIVERSITARIO. Analisi Dati per la Business Intelligence e Data Science. IV edizione 2015/2016

Attenzione! il valore della Rimodulazione è superiore alla cifra di Negoziazione

ISTITUTO TECNICO ECONOMICO MOSSOTTI

Il modello di analisi dei mercati GME. Ottobre 2012

Sistemi informativi secondo prospettive combinate

EVOLUZIONE DI UN SISTEMA DI TELECONTROLLO A SERVIZIO DELLA SOSTENIBILITÀ AMBIENTALE: L ACQUEDOTTO CAMPANO. Giuseppe Mario Patti Proxima S.r.l.

Il modello di ottimizzazione SAM

Ricerca di outlier. Ricerca di Anomalie/Outlier

Istituto Tecnico settore Economico. Indirizzo Amministrazione, Finanza e Marketing

Archiviazione ottica documentale

Basi di dati. Le funzionalità del sistema non vanno però ignorate

IL SISTEMA INFORMATIVO

Analisi e catalogazione automatica dei Curriculum Vitae

PROGRAMMAZIONE MODULARE DI INFORMATICA CLASSE QUINTA - INDIRIZZO MERCURIO SEZIONE TECNICO

NuMa Nuove Manutenzioni. Web Application per la Gestione dell Iter di Manutenzione degli Edifici e del Territorio

Indagini statistiche attraverso i social networks

Sommario. Oracle Database 10g (laboratorio) Grid computing. Oracle Database 10g. Concetti. Installazione Oracle Database 10g

NUOVI INDIRIZZI E QUADRO ORARIO

ISTITUTO TECNICO E. Mattei DECIMOMANNU (CA)

Il servizio di registrazione contabile. che consente di azzerare i tempi di registrazione delle fatture e dei relativi movimenti contabili

UN APP FLESSIBILE E INTUITIVA PER GESTIRE I TUOI AFFARI IN TUTTA COMODITÀ

Promuovi la tua attività gratuitamente su INTERNET: il Social Media Marketing

CORSO ACCESS PARTE II. Esistono diversi tipi di aiuto forniti con Access, generalmente accessibili tramite la barra dei menu (?)

OFFERTA FORMATIVA INDIRIZZI DI STUDIO

un insieme di processi per raccogliere e analizzare informazioni e dare risposta a esigenze di:

COMPETENZE IN ESITO (5 ANNO) ABILITA' CONOSCENZE

SISTEMI E RETI 4(2) 4(2) 4(2) caratteristiche funzionali

Training sulle soluzioni SAP BusinessObjects BI4

Organizzazione degli archivi

DISCIPLINE CONCORRE NTI CONOSCENZE UDA DISCIPLINA DI RIFERIMENTO UDA

Informatica e Telecomunicazioni

Sito web per la presentazione e l accesso ai servizi di Ruven integrato con la piattaforma B2B del pacchetto software ERP Stratega.NET.

Strumenti di modellazione. Gabriella Trucco

Università Politecnica delle Marche. Progetto Didattico

Anno scolastico Programmazione Classe Terza Indirizzo Finanza e Marketing

I.T.C. Mario Pagano Napoli

TECNOLOGIE REALTIME DATA INTEGRATION

Videosorveglianza: nuovi contributi specifici ai processi operativi per la gestione dei requisiti di sicurezza

Data Mining a.a

Programmazione per la disciplina Informatica PROGRAMMAZIONE DI MATERIA: INFORMATICA SECONDO BIENNIO AMMINISTRAZIONE FINANZA E MARKETING

Comunicazione Istituzionale e Social Media. Fare rete, ottenere visibilità e conoscere nuovi interlocutori grazie ai Social Media.

Roma, ITIS G. GALILEI 28 ottobre 2010

C3 indirizzo Elettronica ed Elettrotecnica Profilo

Prospetto delle materie e del quadro orario settimanale: ISTITUTO TECNICO

Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci

Stefania Marrara - Esercitazioni di Tecnologie dei Sistemi Informativi. Integrazione di dati di sorgenti diverse

Danais s.r.l. Profilo Aziendale

RICERCA DELL INFORMAZIONE

Anno Scolastico: 2014/2015. Indirizzo: Relazioni Internazionali. Classe: terza. Disciplina: Tecnologie della Comunicazione.

Se la targa risulta essere tra quelle segnalate, il sistema avvisa con messaggio SMS uno o più numeri telefonici per intervenire tempestivamente.

Introduzione. Elenco telefonico Conti correnti Catalogo libri di una biblioteca Orario dei treni aerei

SQL Server. Applicazioni principali

Social Network. Marco Battini

Università degli Studi di Bologna Bologna, 12/12/2002 Corso di Laurea In Informatica. Alessandro Valenti. Sessione II

Situation AWare Security Operations Center (SAWSOC) Topic SEC Convergence of physical and cyber security. Relatore: Alberto Bianchi

Uno standard per il processo KDD

Mining Positive and Negative Association Rules:

Come creare una pagina Facebook e collegarla al sito mosajco

Il mercato della Business Intelligence è attualmente in forte crescita. Il fenomeno si può spiegare in vari modi: la maturità raggiunta dai sistemi

Finalità della soluzione Schema generale e modalità d integrazione Gestione centralizzata in TeamPortal... 6

REALIZZAZIONE LAN

I MODULI Q.A.T. PANORAMICA. La soluzione modulare di gestione del Sistema Qualità Aziendale

Politiche giovanili in Piemonte Sistema informativo regionale on line

II Convegno SiE-L Firenze, 9-11 novembre 2005 Villa del Poggio Imperiale

Il Software che muove le tue Idee Web Reputation

Un architettura per lo streaming multimediale in ambiente distribuito

48 Laurea magistrale in Comunicazione multimediale Scienze

La rete di tecnologie La circolazione dei contenuti attraverso diversi mezzi di comunicazione anche a partire dalle attività degli utenti

Ciclo di vita dimensionale

SiStema dam e Stampa. automatizzata

Gestione in qualità degli strumenti di misura

Integrazione dei processi aziendali Sistemi ERP e CRM. Alice Pavarani

PERCORSO FORMATIVO ISTITUTO TECNICO: SETTORE ECONOMICO, INDIRIZZO AMMINISTRA- ZIONE FINANZA E MARKETING, ARTICOLAZIONE GENERALE

Database. Appunti di Amaranto Oronzo e Giancane Diego Lezione dell Ing. Lucia Vaira 24/04/2014

CUSTOMER EXPERIENCE AND SOCIAL MEDIA ANALYTICS

Professione Sociologo?

Access. P a r t e p r i m a

2 Gli elementi del sistema di Gestione dei Flussi di Utenza

BIENNIO COMUNE a tutti gli indirizzi DISCIPLINE. Quadro Orario BIENNIO COMUNE. Nuovi Indirizzi Istituti Tecnici Pagina 1 1 BIENNIO

MISSIONE AZIENDALE TRAMITE

Analisi dell evoluzione dell informazione online in Italia

Transcript:

Proposte di Tesi Elena Baralis, Silvia Chiusano, Paolo Garza, Tania Cerquitelli, Giulia Bruno, Daniele Apiletti, Alessandro Fiori, Luca Cagliero, Alberto Grand, Luigi Grimaudo Torino, Giugno 2011

Data Mining Algorithms

Algoritmi di data mining disk-based (1) Estrazione di regole di associazione Estrazione itemset frequenti -> Complessità elevata Generazione delle regole Grandi quantità di memoria principale allocata per le strutture dati rendono gli algoritmi proposti poco scalabili Materializzazione di strutture dati su file per ottimizzare l estrazione degli itemset frequenti e rendere scalabili gli algoritmi di estrazione Tania Cerquitelli 3

Algoritmi di data mining disk-based (2) Algoritmi di clustering Individuazione di gruppi di oggetti che condividono proprietà comuni Grandi quantità di memoria principale allocata per le strutture dati rendono gli algoritmi proposti poco scalabili Materializzazione di strutture dati su file per ottimizzare l uso degli algoritmi di clustering su elevati volumi di dati, non gestibili dagli approcci esistenti in letteratura Tania Cerquitelli 4

Ottimizzatore orientato al Data Mining Estrazione di regole di associazione Estrazione itemset frequenti -> Complessità elevata Generazione delle regole Diversi algoritmi di estrazione sono stati proposti in letteratura Algoritmi diversi sono appropriati per diverse distribuzioni di dati Alcuni algoritmi sono stati integrati nei DBMS relazionali Alcuni algoritmi utilizzano strutture dati materializzati su fili binari Sviluppo di un modulo (i.e., ottimizzatore), eventualmente integrato in un DBMS Open Source (e.g., PostgreSQL), in grado di selezionare, per una determinata distribuzione di dati, l algoritmo più efficiente per ottimizzare il processo di mining Tania Cerquitelli 5

Strutture dati disk-based per il Text Mining Grandi volumi di dati testuali Grandi quantità di memoria principale allocata per le strutture dati rendono gli algoritmi proposti poco scalabili ProposteTesi-Tania_11_01_10 Query Progettazione di nuove strutture dati disk-based per la rappresentazione efficiente di grandi volumi di dati testuali Text mining basato su diverse tecniche di analisi (e.g., clustering, estrazione delle regole di associazione) Tania Cerquitelli, Alessandro Fiori, Alberto Grand 6

Estrazione di regole generalizzate con vincoli Le regole generalizzate raccolgono informazioni di correlazione tra insiemi di dati di diversa granularità Utilizzo di tassonomie per l aggregazione dei dati Numero elevato di regole estratte -> alta complessità I vincoli servono a limitare l informazione estratta a un sottoinsieme d interesse Studio e implementazione di algoritmi di estrazione di regole di associazione generalizzate con vincoli Luca Cagliero 7

Classificazione bayesiana mediante regole generalizzate Le regole generalizzate raccolgono informazioni di correlazione tra insiemi di dati di diversa granularità Utilizzo di tassonomie per l aggregazione dei dati La classificazione bayesiana utilizza un modello probabilistico per predire la classe di un dato di test Studio e implementazione di un algoritmo di classificazione bayesiano che utilizza regole di associazione generalizzate Luca Cagliero 8

Dynamic data mining Analisi e comparazione dell'informazione estratta durante diverse sessioni di data mining e knowlegde discovery schedulate nel tempo. I pattern generalizzati raccolgono informazioni di correlazione tra insiemi di dati di diversa granularità Utilizzo di tassonomie per l aggregazione dei dati Estrazione e analisi di regole dinamiche generalizzate Luca Cagliero 9

Classificazione di serie temporali Serie temporale Sequenza (ordinata) di numeri reali Serie temporale multivariata Ogni dato è composto da coppie <attributo: serie temporale> Tipo di dato che si trova in molti domini applicativi (medicina, finanza, multimedia...) Sviluppo e implementazione di algoritmo per Selezione attributi che discriminano meglio le diverse classi Classificazione dei dati Tania Cerquitelli 10

Database systems

Challenge Database distribuiti Scalabilità e affidabilità dei database di applicazioni (web) che permettono di interagire con reti di amici (social networks) interagire con luoghi fisici reali (check-in) condividere dati molto complessi e multimediali (like, comment, foto e video) Esempi: Facebook, Twitter e Foursquare sono cresciuti a ritmi del 1000% Solution Scalabilità orizzontale non è possibile aggiungere risorse ad un unico DB centrale aggiungere nuovi database piccoli creando una rete di DB distribuiti Database a documenti sfruttare la semplicità di database non-relazionali (es. a documenti) facile gestione della replicazione e ottime performance Studio delle potenzialità di DB distribuiti e DB non-relazionali Riferimenti: mongodb.org, http://goo.gl/6l2yc Daniele Apiletti 12

Modellazione concettuale di basi di dati Le basi di dati sono progettate mediante il modello Entity-Relationship Attualmenti sono disponibili pochi strumenti per la modellazione ER GNU Ferret (http://www.gnuferret.org/) offre poche funzionalità Sviluppo di un nuovo tool per la modellazione concettuale delle basi di dati Silvia Chiusano, Paolo Garza 13

Text Mining

Summarization Riassunto di documenti identificazione di informazioni rilevanti da notizie, articoli scientifici, blogs clustering di sentenze contenenti informazioni simili e rilevanti estrazione di informazioni biologiche da testi validazione di risultati sperimentali a seconda del campo applicativo Studi possibili sviluppo di nuovi metodi di sommarizazione basati sull informazione di interesse incremento della rappresentazione dei dati per velocizzare il processo di generazione del sommario rappresentazione dei risultati a seconda delle queries dell utente integrazione di algoritmi di estrazione Information retrieval, text mining, summarization, clustering Alessandro Fiori 15

Ontologia Inferenza di ontologie Organizzazione rigorosa ed esaustiva di un dominio della conoscenza Struttura gerarchica rappresenta le entità rilevanti e le loro relazioni Text mining per l inferenza di ontologie identificare i concetti mediante approcci di entity recognition Estrarre le relazioni tra le entità Esempi: DBPedia, YAGO Applicazioni Scoprire relazioni tra entità di dominio usando notizie, articoli scientifici, blogs, ecc. Validare le relazioni rappresentate in ontologie pre-calcolate Entity recognition, association rules, text mining Luca Cagliero, Alessandro Fiori, Alberto Grand 16

Social networks Inferenza di conoscenza dai dati degli utenti estrazione di informazioni rilevanti dai siti di social networking personalizzazione di web crawlers usando i profili utenti identificazione di notizie, locazioni geografiche, ecc. Studi possibili Estrazione di regole di associazione per l analisi dei comportamenti degli utenti approcci di sommarizazione per identificare informazioni rilevanti classificazione di oggetti web usando i dati generati dagli utenti clustering di pagine web in base al topic sviluppo di recommendation systems usando il comportamento degli utenti nelle social networks Entity recognition, clustering, association rules, text mining Luca Cagliero, Alessandro Fiori 17

Mining in Specific Application Domains

Modello previsionale di energia Analisi di dati di produzione/consumo di energia elettrica da fonti rinnovabili Correlazione con dati di contesto es. ambientali, meteo, ecc. Progettazione e sviluppo di un framework obiettivo: ottimizzazione della produzione e del consumo di energia metodo: modello previsionale dei consumi e della produzione Daniele Apiletti, Tania Cerquitelli 19

Interrogazioni di Reti di Sensori Query, Trigger App Dati La rete di sensori è una base di dati Interrogare la rete Acquisizione (eventualmente aggregazione) delle misure che descrivono lo stato dell ambiente monitorato TinyDB Rete di Sensori Tania Cerquitelli Applicare le tecniche di Data mining per scoprire le correlazioni tra i diversi attributi Quali sensori/misure sono correlate? Qual è il grado di correlazione? (generalmente le misure acquisite dai sensori sono fortemente correlate) Quando i sensori/misure sono correlate? (e.g. dalle 8:00 a.m. alle 11:00 a.m.) 20

Analisi del Traffico di Rete Wireless Sicurezza Individuare e prevedere eventuali intrusioni Progettazione Dimensionare le proprie risorse di rete Analizzare il traffico di rete wireless mediante algoritmi di data mining Regole di Associazione Algoritmi di Clustering Tania Cerquitelli 21

Gestione dati geografici Necessità di uniformare i dati raccolti mediante osservazioni naturalistiche nella regione Alpi Marittime - Mercantour Collaborazione con l Istituto Superiore sui Sistemi Territoriali per l Innovazione (SiTi) di Torino Tesi: implementazione di un database PostgreSQL per gestire dati naturalistici con coordinate geografiche, implementazione di interfacce di inserimento dati, sviluppo di query di ricerca mediante criteri geografici Giulia Bruno 22

Analisi di dati medici Analisi database contenenti lo storico degli esami effettuati dai pazienti Obiettivi estrarre le sequenze di esami eseguite più frequentemente ricavare i pattern relativi a specifici sintomi studiare una rappresentazione compatta delle sequenze per una successiva validazione medica Tesi: studio e implementazione di un algoritmo di estrazione di sequenze, in particolare per la gestione di sequenze con o senza gap, vincoli temporali sugli intervalli di tempo e tassonomie sulla tipologia di esami Giulia Bruno 23

Validazione algoritmi per clustering di geni Analizzando i dati di espressione genica (microarray) è possibile raggruppare geni in base al loro comportamento in diverse situazioni sperimentali attraverso l utilizzo di algoritmi di clustering In questo contesto la validazione dei risultati è critica per mancanza di dataset di riferimento difficoltà di scelta di un indice di qualità adatto Tesi: studio e implementazione di algoritmi di clustering e valutazione di indici di validazione per l analisi di dati di espressione genica Giulia Bruno, Alessandro Fiori 24

Integrazione dati clinici-molecolari Nell ambito della medicina personalizzata, riveste particolare importanza l integrazione di dati medici a diversi livelli (clinici e genetici) gestione di dati eterogenei visione globale di un sistema complesso quale il corpo umano identificazione di correlazioni tra differenti studi e/o esperimenti Tesi: studio e modellazione di un sistema (database/data warehouse) per l integrazione di dati clinici e molecolari, valutazione di di sistemi esistenti (cabig), studio di strutture fisiche accessorie per miglioramento delle performance, implementazione di interfacce grafiche di accesso ai dati Giulia Bruno, Alessandro Fiori 25

Analisi di dati sportivi Analisi di dati fisiologici Misura dei progressi di un atleta Misura indiretta di lattato e acido lattico Migliorare l'efficacia dell'allenamento degli atleti Estrazione di conoscenza Definizione di un profilo per ogni atleta (es. frequenza cardiaca allenante) Classificazione degli atleti Tania Cerquitelli 26

Studi Analisi delle notizie tecniche di Query Expansion per allargare il dominio di ricerca mediante generazione di query alternative costruite a partire dalla query originale Collaborative filtering, basato sul paradigma che gruppi di utenti simili condividono contenuti simili Content-based filtering, basato sul paradigma che gruppi di contenuti simili sono condivisi dallo stesso utente Hybrid filtering, basato su combinazione degli approcci precedenti New story detection: dato un flusso continuo di notizie determina quando viene incontrata una nuova notizia (per servizi di breaking News) Topic detection and linking: dato un flusso di notizie determina l insieme di notizie inerenti lo stesso topic, e le relazioni esistenti tra tali notizie Topic tracking: data una serie di eventi di interesse per l utente, determina le notizie future correlate a tali eventi Rilevamento automatico degli highlights in eventi sportivi Alessandro Fiori 27

Analisi dei dati di trasporto pubblico Dati: Dati del sistema di Trasporto Pubblico Locale della città di Torino Obiettivi: Miglioramento dell accuratezza della previsione dei tempi di percorrenza dei mezzi Ottimizzazione della stabilità della previsione Attività: Studio di metodi di previsione dei tempi di percorrenza dei mezzi pubblici Applicazioni pratiche: Previsioni d arrivo in fermata Stima dell headway istantaneo Calcolo percorsi in tempo reale 28

Analisi dati dei sensori di traffico Dati: Dati provenienti dai sensori di monitoraggio del traffico del Sistema 5T Obiettivi: Studiare la correlazione tra sensori (dati) Identificare i guasti impiantistici Attività: Studio di metodi di verifica della qualità dei dati Studio di algoritmi di clustering adattativi alle variazioni dei dati Principali applicazioni: Ottimizzazione dell utilizzo dei sensori 29

Stage (tesi) in azienda www.ooros.com Applicazioni web e mobile per interagire con social networks (Facebook, Twitter, Foursquare, LinkedIn,...) analisi delle interazioni tra gli utenti (sia di base, sia su concorsi, giochi, ecc.) tramite tecniche di data mining Applicazioni web e mobile che sfruttano la geo-localizzazione (es. check-in di Facebook Places, Foursquare, Gowalla,...) analisi di dati geografici/spaziali (es. il mio amico più vicino ) indici su database ottimizzati per dati geografici/spaziali Applicazioni mobile (Android, iphone, etc.) con offline replication replicazione di dati tra database locale e database remoti per la gestione di perdite di connettività Elena Baralis, Daniele Apiletti 30

Stage (tesi) in azienda Core business: soluzioni ICT per la Pubblica Amministrazione Analisi di strumenti statistici e per la Business Intelligence (BI) per ilcentro di Competenza Specializzato sui Dati della Pubblica Amministrazione, nell ambito della Fiscalità Analizzare sistemi di BI sviluppati dal CSI per la Città di Torino rispetto al profilo medio italiano Analizzare tecniche statistiche avanzate e tecniche di Data Mining (DM) Realizzare casi di studio utilizzando Sas Enterprise Miner Proporre l applicazione di tecniche statistiche e di DM nell ambito della Fiscalità Elena Baralis 31