Secondo Progetto. Corso di Big Data

Documenti analoghi
Secondo Progetto. Corso di Big Data

BIG DATA S U M M I T Roma, Dicembre 2-3, 2013 Residenza di Ripetta Via di Ripetta, 231

Corso di Laurea Magistrale in Ingegneria Informatica

LA TECHNOLOGY TRANSFER PRESENTA MIKE ROMA GIUGNO 2013 RESIDENZA DI RIPETTA - VIA DI RIPETTA, 231

LA TECHNOLOGY TRANSFER PRESENTA RICK VAN DER LANS ROMA 3 GIUGNO 2014 ROMA 4 GIUGNO 2014 RESIDENZA DI RIPETTA - VIA DI RIPETTA, 231

Big Data, Network Analysis e Data Mining

TRIENNIO ISTITUTO COMPRENSIVO STATALE SCUOLA INFANZIA PRIMARIA SECONDARIA DI 1 GRADO Giovanni XXIII Monte San Biagio- Lenola (LT)

PROGRAMMAZIONE. INFORMATICA SECONDO BIENNIO Opzione Scienze Applicate

LA TECHNOLOGY TRANSFER PRESENTA INTERNATIONAL. Roma, 3-4 Dicembre 2015 Residenza di Ripetta Via di Ripetta, 231 CONFERENCE BIG DATA

Esperienze di Advanced Analytics nella statistica ufficiale: strumenti e progetti

LA TECHNOLOGY TRANSFER PRESENTA MIKE FERGUSON BIG DATA MULTI-PLATFORM ROMA GIUGNO 2014 RESIDENZA DI RIPETTA - VIA DI RIPETTA, 231

Pipoli Antonio. Telefono:

Nuovo Corso di laurea magistrale in Ingegneria Informatica AA

LA TECHNOLOGY TRANSFER PRESENTA MIKE FERGUSON ROMA 3-4 GIUGNO 2015 ROMA 5 GIUGNO 2015 RESIDENZA DI RIPETTA - VIA DI RIPETTA, 231

APPENDICE 4 AL CAPITOLATO TECNICO

La nostra storia inizia nel 1992, anno in cui Nova Systems Roma viene costituita e muove i primi passi nel mercato dei servizi informatici.

Big Query, nosql e Big Data

Caratteristiche principali. Contesti di utilizzo

INFORMATICA PER LE SCIENZE UMANE a.a. 2016/2017

Syllabus A042 Insegnamenti disciplinari

Corso di Laurea in Informatica Basi di Dati a.a

Big data ed eventi: quasi un tutorial. Prof. Riccardo Melen

Il progetto GeoSmartCity open geo-data for innovative services and user applications towards Smart Cities Giorgio Saio - GISIG

METRICHE DELLA COMUNICAZIONE A.A. 2016/2017. Lezione n. 1

OPEN SOURCE innumerevoli opportunità

Webtrotter Educator. Piano formativo e piattaforma elearning. Dany Maknouz Paola Ghellini e Roberto Didoni

INFORMATICA PER LE SCIENZE UMANE a.a. 2015/2016

Corso di Laurea Magistrale in Ingegneria Informa4ca.

Big ed Open Data, nosql e..

Data Warehousing e Data Mining

an agile and High-Tech company backed up by big cloud player una azienda agile e High-Tech supportata dalle grandi piattaforme cloud

Corso di Sistemi Informativi Geografici. Presentazione del corso Maria Luisa Damiani A.A

Piano triennale per l attuazione del piano nazionale scuola digitale

Obiettivi, sviluppo e risultati principali del progetto STEEL

Big Data Tecnologie, metodologie per l analisi di dati massivi Seminario ISCOM

Operazione Trasparenza. Il nuovo Italia.gov.it per lo sviluppo del Portale della Trasparenza

SEO E WEB MARKETING Impara a promuovere il tuo business in rete

Progetto triennale di intervento dell animatore digitale Prof. Nicola Zompa

HUB Human Ecosystems Bologna. << Collaborare è Bologna >>

Oracle: "La macchina delle stelle"

PIANO DI LAVORO (a.s. 2014/2015) Prof.ssa Andrea Luppichini Prof. Marco Fiorentini DISCIPLINA Informatica

SQL e linguaggi di programmazione. Cursori. Cursori. L interazione con l ambiente SQL può avvenire in 3 modi:

DATA MINING E DATA WAREHOUSE

Strumenti per Social Media. Ing. Antonio Parlato Spidwit

Basi di dati attive. Una base di dati è ATTIVA quando consente la definizione e la gestione di regole di produzione (regole attive o trigger).

PROGETTO TRIENNALE DI INTERVENTO DELL ANIMATORE DIGITALE

SESSIONE PITCH 1 Big Data Analytics Qlik

Ingegneria del Software II. Proposte di progetto d esame. a.a. 2016/17

DANIEL EKLUND CAPIRE I BIG DATA E LA TECNOLOGIA HADOOP ROMA 2-3 NOVEMBRE 2015 RESIDENZA DI RIPETTA - VIA DI RIPETTA, 231

L A T E C H N O L O G Y T R A N S F E R P R E S E N T A

NSR. Company Profile Business & Values

Indice. Ringraziamenti dell Editore

Ferrara, 18 gennaio Gianluca Nostro Senior Sales Consultant Oracle Italia

ARCHITETTURA DI UN DBMS

Certificazione delle competenze

Grid Data Management Services

Gara n Servizi informatici per la manutenzione ordinaria ed evolutiva delle applicazioni informatiche del GSE. SINTESI DELL APPALTO

SEO E WEB MARKETING Impara a promuovere il tuo business in rete

Scritto da Marco Mennicucci Domenica 07 Febbraio :00 - Ultimo aggiornamento Mercoledì 13 Agosto :53

32 Laurea magistrale in Informatica Scienze

Presentazione. Docente del corso: ing. Massimo Ruffolo

Sezione 1 - Gestione e governance della protezione dei dati

Progetto triennale di intervento dell Animatore Digitale A.S. 2016/2017

CORSO DI WEB MINING E RETRIEVAL - INTRODUZIONE AL CORSO -

MINISTERO DELL'ISTRUZIONE, DELL'UNIVERSITA' E DELLA RICERCA

SISTEMI INFORMATIVI TERRITORIALI DATABASES -LEZIONE 3

L e-learning come estensione dell aula L esperienza di un corso di economia aziendale

UNITA DI APPRENDIMENTO N. 1

CORSO DI ALTA FORMAZIONE

Business Intelligence e uso dei dati pubblici come fattore di competitività

Progetto Life 08 MAN-GMP-ITA

Laboratorio di Ingegneria Informatica

PIANO DI LAVORO PREVENTIVO

Ore settimanali di lezione: 3 h di cui 2 in compresenza con l insegnante di Lab. di Informatica prof.ssa E.De Gasperi

Settore Guida Sicurezza Ferroviaria

WORKSHOP COME L IOT INNOVA L AZIENDA

LA TECHNOLOGY TRANSFER PRESENTA MIKE FERGUSON ENTERPRISE INFORMATION MANAGEMENT DALLA STRATEGIA ALL IMPLEMENTAZIONE

Il back end di doclife network è utilizzato dalla sede centrale e dagli amministratori dell azienda che adotta il sistema.

REGOLAMENTO PROVA FINALE E DETERMINAZIONE DEL VOTO DI LAUREA CORSI DI LAUREA TRIENNALE E MAGISTRALE

Sistemi Informativi. Ing. Fabrizio Riguzzi

dati.trentino.it - un anno dopo Trento. 2 aprile ICTDays 2014 Ivan Bedini - TrentoRise

LAB 2 THE EDGE OF THE DIGITAL ENTERPRISE: THE CENTER OF THE MOBILE CUSTOMER EXPERIENCE

Progetto formativo aziendale PROJECT MANAGEMENT: METODOLOGIE, TECNICHE E STRUMENTI PER LA CONDUZIONE E GESTIONE DEI PROGETTI

La scelta di Dedagroupdi IBM Power Systems per SAP HANA per i propri servizi di DataCenter

CORSO MOC10977: Upgrading Your SQL Server Skills to Microsoft SQL Server. CEGEKA Education corsi di formazione professionale

CORSO MOC20466: Implementing Data Models and Reports with Microsoft SQL Server. CEGEKA Education corsi di formazione professionale

ISTITUTO DI ISTRUZIONE SUPERIORE A. MEUCCI

L importanza del monitoraggio energetico per la riduzione dei costi e l efficienza degli impianti. Michele Santovito

COMPANY PROFILE 2016

SOCIAL MEDIA MANAGER: professione strategica ricercata dalle aziende

Linee di evoluzione dei Database

Modelli di recupero. Modello di recupero booleano

Performance Delivered: il cruscotto direzionale implementato nell azienda sanitaria. 5 Convegno Nazionale. Federico Lega, Università Bocconi

PIANIFICAZIONE E CONTROLLO DELLA COMUNICAZIONE. Stella Romagnoli LM59 LUMSA

SCUOLA STATALE SECONDARIA DI 1 GRADO GOBETTI-DE FILIPPO - QUARTO (Na)

SIRAPE. Sistema Informativo Regionale degli Attestati di Prestazione Energetica

PROGETTAZIONE FORMATIVA ANNUALE. Docente Decanini Federica. Tavola di sintesi delle unità di apprendimento da svolgere nel corrente a.s.

Studio Pagamenti. Pubblica Amministrazione. Dati aggiornati a Settembre Marketing CRIBIS D&B

LA TECHNOLOGY TRANSFER PRESENTA MIKE FERGUSON LA NUOVA GENERAZIONE DI DATA MANAGEMENT COSTRUIRE UNA DATA RESERVOIR E UNA DATA REFINERY AZIENDALE

REGOLAMENTO - PROVA FINALE Valido per: CDL SPECIALISTICA (MAGISTRALE) BIENNALE IN ARCHITETTURA. Articolo 1

Transcript:

Secondo Progetto Corso di Big Data

Obiettivi Risolvere problemi attinenti alle tematiche Big Data Sperimentare metodologie di Big Data Analizzare e confrontare tecnologie di Big Data

Approccio Selezionare un problema di big data Individuare uno o più metodi per risolvere il problema Scegliere le tecnologie più adatta Implementare i metodi con le tecnologie scelte Fare delle sperimentazioni (e dei confronti)

Modalità di scelta Scelta di un progetto tra i vari argomenti proposti I progetti hanno specifiche piuttosto lasche in modo da poter essere scelti da più gruppi ma soprattutto per favorire la libertà di inventiva I progetti sono esclusivi non possono esserci due progetti con stesse specifiche non tardate nella scelta del vostro progetto!!! In ogni caso, per l assegnazione è necessaria l approvazione del docente Scelta tramite una form sul sito

TOPIC 1: (ANY KIND OF) DATA ANALYTICS Cercare autonomamente uno scenario applicativo e dei dati reali (possibili sorgenti in fondo alla presentazione) Individuare uno o più metodi di analisi dei dati individuati Scegliere la o le tecnologie più adatte (tra quelle viste a lezione ma anche altre, purché siano adatte ai big data ) Implementare i metodi con le tecnologie scelte (in ambiente distribuito) Fare delle sperimentazioni discutendo efficacia ed efficienza dei metodi

TOPIC 2: Enterprise Big Data Platforms Sistemi per gestire collezioni eterogenee di big data con diversi strumenti. Polystores basati su accoppiamento lasco Accesso diretto ai singoli sistemi e ricerca basata su esplorazione QUEPA (QUery and Exploring a Polystore by Augmentation) Data Lake Management Systems Strumenti per la preparazione dei dati (discovery, profiling, cleansing, validation and transformation) con riduzione del time-to-action KAYAK Dettagli nella presentazione di Antonio Maccioni disponibile sul sito del corso

TOPIC 3: EXPLANATION SYSTEMS Sistemi che spiegano all utente: Il come si è arrivati ad un dato risultato Il motivo di risultati anomali (outliers) Il motivo di performance anomale... Sistemi analoghi a dei debugger Scorpion (https://github.com/sirrice/scorpion) Titian Dettagli nella presentazione di Antonio Maccioni disponibile sul sito del corso

TOPIC 4: POLYGLOT DATA MANAGEMENT Creazione di uno o più scenari poliglotti (gestione di dati con sistemi diversi) e accesso tramite middleware Approccio basato su accoppiamento forte Implementazione e test di operatori a supporto del sistema Dettagli nella presentazione di Roberto De Virgilio disponibile sul sito del corso.

TOPIC 5: Profiling in Social Networks Caratterizzare ( profilare ) comunità presenti su social network Uso di knowledge graphs per catturare la semantica Implementazione e test di operatori a supporto del sistema Sperimentazione su social networks reali (twitter) Dettagli nella presentazione di Roberto De Virgilio disponibile sul sito del corso.

TOPIC 6: Fraud detection Strumenti in grado di individuare frodi sfruttando reti di conoscenza (knowledge graphs) Approccio basato sulla scoperta automatica di patterns su grafi Sperimentazione con Graph-DBMS e strumenti visuali Dettagli nella presentazione di Roberto De Virgilio disponibile sul sito del corso.

Topic 7: Community Detection L'analisi delle comunità (Community Detection) è uno dei problemi più diffusi nell'analisi delle reti sociali. Esistono molte definizioni di comunità, qual è la tua preferita e quali sono le sue proprietà? Questo progetto include: Analisi di dati provenienti da social networks Implementazione di algoritmi di community detection Analisi di comunità reali usando tecnologie esistenti (es. Neo4j, Giraph) Dettagli nella presentazione di Donatella Firmani disponibile sul sito del corso.

Topic 8: Entity Resolution Risolvere le entità (Entity Resolution) è uno dei problemi più importanti nell ambito della data integration, e il crowdsourcing è un potente strumento. Sapresti classificare diversi articoli in vendita sul web in entità e categorie, potendo fare delle semplici domande a degli esseri umani? Questo progetto include: Analisi di dati provenienti da siti di e-commerce Implementazione di algoritmi per entity resolution (es. meta-blocking, oracle strategies) Analisi di dati reali usando piattaforme esistenti (es. Google Product, CrowdFlower) Dettagli nella presentazione di Donatella Firmani disponibile sul sito del corso.

TOPIC 9: NoSQL & NewSQL Confronto sperimentale fra sistemi NoSQL Confronto sperimentale fra sistemi NewSQL Google Spanner, CockroachDB, Clustrix, VoltDB, MemSQL, Hana, NuoDB and Trafodion. NewSQL vs SQL NoSQL vs NewSQL

TOPIC 10: STREAMS Creazione di uno o più scenari (Sensori, Twitter,..) Sperimentazione di una o più tecnologie di data streaming (es. Apache Flink, Storm, Flume, Kafka, Spark Streaming, FuelDB, Apache Ignite, ecc.) Dataflow Programming Apache BEAM (formerly Google Cloud DataFlow) Analisi di un'architettura lambda

TOPIC 11: GENOMIC DATA MANAGEMENT Gestione di dati biologici (genomici in particolare) Nell ambito dei progetti GeCo e TCGA Dettagli nella presentazione di EmanuelWeitschek disponibile sul sito del corso.

Cosa Consegnare Relazione esaustiva ma sintetica che descrive: le attività svolte, le analisi fatte le osservazioni conclusive Materiale aggiuntivo per la riproducibilità delle attività svolte (es. codice, script, ecc.).

Deadlines (orientative) Prima presentazione (pitch): 14 giugno 2017 Prova scritta: 17 luglio 2017 Consegna progetti: 14 luglio 2017 Presentazione finale: 14 luglio 2017 Verbalizzazioni: 19 luglio 2016

Valutazione Il voto è unico per gruppo, commisurato al numero di membri del gruppo e basato sui seguenti fattori: Qualità presentazione e materiale consegnato (40%) Esposizione finale Riproducibilità Chiarezza e sintesi della tesina Capacità di evidenziare i risultati chiave Originalità e Proattività (30%) Impostazione e significatività della sperimentazione Capacità di problem solving in ambito Big Data Implementazione (30%) Soddisfacimento requisiti Completezza della sperimentazione Difficoltà problemi affrontati

Materiale Utile Nel seguito alcuni link Segnalazioni utili a tutti sono benvenute

Cross-disciplinary data sets https://www.kaggle.com/datasets http://aws.amazon.com/datasets http://crowdsignals.io/ http://reddit.com/r/datasets https://datahub.io/ alias http://ckan.net http://quandl.com http://data.worldbank.org/ http://www.data.gov/ http://www.dati.gov.it http://www.kdnuggets.com/datasets/index.html (Datasets for Data Mining) http://databib.org http://datacite.org http://figshare.com

Generatori di dati https://github.com/ldbc/ldbc_spb_bm_2.0 (Tabular and RDF data) https://github.com/ldbc/ldbc_snb_datagen (Graphs Social Network) Data Science Jupyter Notebook Apache Zeppelin

Assessment and Benchmark https://amplab.cs.berkeley.edu/benchmark/ (OLTP) http://www.tpc.org/ (Vari OLTP, OLAP,...) http://prof.ict.ac.cn/bigdatabench/old/2.0/ (vari) https://github.com/brianfrankcooper/ycsb (NoSQL) http://ldbcouncil.org/ (Graphs, RDF and Social Networks) http://wifo5-03.informatik.unimannheim.de/bizer/berlinsparqlbenchmark/ https://github.com/socialsensor/graphdb-benchmarks (GDBMSs) (RDF databases)