Big Data Tecnologie, metodologie per l analisi di dati massivi Seminario ISCOM

Documenti analoghi

Big ed Open Data, nosql e..

AICA - Workshop 01/03/2011

Memoria primaria o secondaria? DFS MapReduce Scheduling & Data flow. Map Reduce. Giambattista Amati. Università di Tor Vergata.

Big data ed eventi: quasi un tutorial. Prof. Riccardo Melen

Cloud Computing: alcuni punti fermi per non smarrirsi fra le nuvole

Stefano Mainetti Fondazione Politecnico di Milano

Big Data. Alessandro Rezzani.

GRANDE INTERESSE DEI CIO ITALIANI VERSO IL CLOUD: TREND RILEVANTE PER IL

Allegato Tecnico Database As A Service

Bandi regionali. Misura I.3.1 Servizi informatici innovativi e Misura I.3.2 Adozione tecnologie dell Informazione e della Comunicazione

VIRTUAL VIRTUAL DATACENTER DATACENTER

Operazione Trasparenza. Il nuovo Italia.gov.it per lo sviluppo del Portale della Trasparenza

ICT Trade 2013 Special Edition

Software di sistema e software applicativo. I programmi che fanno funzionare il computer e quelli che gli permettono di svolgere attività specifiche

TYPO3 in azione con l infrastruttura ZEND: affidabilità e sicurezza. Mauro Lorenzutti CTO di Webformat srl mauro.lorenzutti@webformat.

Sommario IX. Indice analitico 331

Big Query, nosql e Big Data

Big Data. Davide Giarolo

Netcube Italia Srl. Il Cloud Computing. In collaborazione con

Allegato. Servizio Hosting Virtual DataCenter di Regione Lombardia. per l ENTE UCL Asta del Serio

Cloud Simulator and Smart Cloud based on Knowledge Base

Ottimizzare l IT. Interesse verso il cloud. Cloud computing. Ottimizzare l'it 16/04/2010. Assyrus Srl 1. Cloud Computing

Lo scenario: la definizione di Internet

Smart Cities and Communities and Social Innovation Bando MIUR D.D. 391/Ric. del 5 luglio Monitoring e Billing in OCP

Progetti Big Data nell ambito delle Analisi Fiscali

Cloud Computing....una scelta migliore. ICT Information & Communication Technology

Digitalizzazione dei Documenti. Il software Archidigi.

Esercitazione E6 Esercizi d esame

SCADA (Supervisory Control and Data. macchine ed impianti, proprietari, locali e non direttamente integrabili tra di loro. Usabili da PC.

Digital Business Ecosystem

REQUISITI TECNICI HR INFINITY ZUCCHETTI

Linux Day /10/09. Cloud Computing. Diego Feruglio

S P A P Bus Bu in s e in s e s s s O n O e n 9 e.0 9 p.0 e p r e r S A S P A P HAN HA A Gennaio 2014

Organizzazione tecnico-informatica Ing. Fabio Binotto

esales Forza Ordini per Abbigliamento

Gestire e conoscere i clienti

La dematerializzazione documentale nel Comune di Roma

Introduzione al Cloud Computing

IBM Power in cloud, l'ambiente As400 va sulla nuvola

Progetto SMARD. Smart maintenance and remote diagnostics for manufacturing plants and smart-objects

LE RETI: STRUMENTO AZIENDALE

Spunti ed Elementi da Intel Cloud Forum

Gartner Group definisce il Cloud

Osservatorio 2. L INDUSTRIA METALMECCANICA E IL COMPARTO SIDERURGICO. I risultati del comparto siderurgico. Apparecchi meccanici. Macchine elettriche

Innovazione Servizi cloud Reti di nuova generazione. Intersezioni per una sintesi ottimale

1. BASI DI DATI: GENERALITÀ

Ti consente di ricevere velocemente tutte le informazioni inviate dal personale, in maniera assolutamente puntuale, controllata ed organizzata.

Il motore di previsione statistica SAS Forecast Server a

HBase Data Model. in più : le colonne sono raccolte in gruppi di colonne detti Column Family; Cosa cambia dunque?

Software relazione. Software di base Software applicativo. Hardware. Bios. Sistema operativo. Programmi applicativi

L uso strategico degli appalti pubblici per un economia sostenibile: le nuove direttive europee

Che cosa è un VIRUS?

Cloud Infrastructure - studio di fattibilità

Progettaz. e sviluppo Data Base

SICUREZZA INFORMATICA PER L UNIONE DI COMUNI LOMBARDA ASTA DEL SERIO

INCHIESTA CONGIUNTURALE SUI SERVIZI

CONTENT MANAGEMENT SYSTEM

Il nuovo posizionamento dei service provider: ruoli e opportunità

Indagini statistiche attraverso i social networks

Piano di gestione della qualità

Idee, tecnica, soluzioni. Passion for IT

istraffic Sistema di monitoraggio Traffico

IL CLOUD COMPUTING DALLE PMI ALLE ENTERPRISE. Salvatore Giannetto Presidente Salvix S.r.l

Specifiche Tecniche e Funzionali Applicativo DIAGNOS PLUS (09/2015)

Base di dati e sistemi informativi

I sistemi virtuali nella PA. Il caso della Biblioteca del Consiglio Regionale della Puglia

ARCHITETTURA DEL CALCOLATORE

Sommario. Oracle Database 10g (laboratorio) Grid computing. Oracle Database 10g. Concetti. Installazione Oracle Database 10g

Architettura hardware

Data Center Telecom Italia

Il Cloud e la Trasformazione delle Imprese

Caratteristiche e funzionalità del cloud computing. Marco Barbi Flavio Bonfatti Laboratorio Softech ICT Università di Modena e Reggio Emilia

Requisiti di sistema

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni

LA SICUREZZA STRADALE IN ITALIA NEL CONTESTO DELL OBIETTIVO EUROPEO 2020

Sperimentazione del file system distribuito HDFS in ambiente grid

Sistemi per la produzione, gestione e conservazione di contenuti digitali CMS. L12 - Comunicazione e archiviazione digitale A.A

Linux lo installo a 32 o 64 bit? (teoria e pratica)

Come migliorare le città con le tecnologie per la SMART MOBILITY e SMART PARKING. Paolo Lanari CEO Kiunsys SRL paolo.lanari@kiunsys.

ForumPA 2011 Il piano egov 2012: obiettivo Università 9 Maggio 2011

Customer Satisfaction Survey 2011 Indagine sui principali servizi amministrativi e di supporto per il personale docente. Sintesi dei risultati

Il controllo della tua infrastruttura in palmo di mano, come anticipare i problemi prima che sia troppo tardi

MASTER UNIVERSITARIO

Riccardo Dutto, Paolo Garza Politecnico di Torino. Riccardo Dutto, Paolo Garza Politecnico di Torino

Tecniche di personalizzazione di interfacce Web

PROTOS GESTIONE DELLA CORRISPONDENZA AZIENDALE IN AMBIENTE INTRANET. Open System s.r.l.

Intesa Spa Ottobre 2015

VisIVO Server e VisIVO WEB: nuovi sistemi di visualizzazione e analisi di dati tridimensionali e di grandi dimensioni

PORT & SHIPPING TECH 2009 ID

IL CASO DELL AZIENDA. Perché SAP.

Con il termine Sistema operativo si fa riferimento all insieme dei moduli software di un sistema di elaborazione dati dedicati alla sua gestione.

Osservatorio I COSTI DEL NON FARE

inebula CONNECT Milano, 22/04/2015 Stefano Della Valle VP inebula inebula Connect 22 aprile 2015

Il progetto BABEL. come costruire e sviluppare un sistema di gestione documentale. ForumPA 25 Maggio 2016

SENSORI, ICT e PORT MONITORING

Istruzioni di installazione di IBM SPSS Modeler Text AnalyticsServer per Windows

Note sul tema IT METERING. Newits 2010

Licenza di Utilizzo distribuire, comunicare al pubblico, rappresentare o esporre in pubblico la presente opera Attribuzione Condivisione

Transcript:

Big Data Tecnologie, metodologie per l analisi di dati massivi Seminario ISCOM, Simone Angelini, Marco Bianchi, Giuseppe Marcone, Roma 26 febbraio 2016

Sommario 1 Il progetto SNOOPI 2 Piattaforme di Big Data 3 Distributed File System (DFS) MapReduce 4 La tecnica di clustering LSH 5 Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) 6 Visualizzazione 7 Piattaforma Batch (Simone Angelini) 8 Piattaforma Streaming (Marco Bianchi) 9 Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)

Section 1 Il progetto SNOOPI

Il Progetto SNOOPI Social Networks: L OsservatoriO sulle Pubbliche AmministrazionI Monitoraggio delle piattaforme sociali: Le PA devono presidiare le nuove piattaforme sociali non solo per informare, ma anche per comunicare con i cittadini SNOOPI ha misurato quantitativamente e qualitativamente la capacità di presidio e di interazione delle PA, e rilevato i temi di interesse dei cittadini su Twitter Per fare ciò SNOOPI (anche ereditando dal progetto ISCOM-FUB TV++ precedente) si è dotato di un laboratorio con un infrastruttura HW & SW di tipo Big Data molto sofisticata.

Datasets di SNOOPI I dati come risorsa Dataset generato da SNOOPI: Tutto il flusso di Twitter relativo a 42 Pubbliche Amministrazioni Ad oggi 120,000,000 circa di Tweet. Più di 400,000 argomenti trattati in 12 mesi di monitoraggio Più di 4,000,000 di utenti coinvolti Dataset unico di estremo valore e interesse Scientifico: permette ai centri di ricerca di effettuare analisi di tipo Big Data su un arco temporale estremamente largo Economico: è la Serie storica contenente tutti gli eventi di rilevanza locale o nazionale per le PA, e il sentiment di opinione relativo (esempio, EXPO, Elezione del Presidente della Repubblica, Jobs Act, la riforma della scuola, lo stato della diffusione della larga banda, ecc.)

Il Laboratorio ISCOM

Il Laboratorio Google: gli inizi a Stanford

Il Laboratorio Google 2001

Il Laboratorio Google oggi

Cosa sono i Big Data? Enormi Basi Di Dati Orientate All Analisi Delle Informazioni VARIETÀ Dati di diversa natura e non strutturati come testi, flussi di click, segnali provenienti da RFID, cellulari, sensori, transazioni commerciali di vario genere... VELOCITÀ Dati che affluiscono devono essere elaborati a ritmi sostenuti o in tempo reale. La velocità non si riferisce alla crescita ma alla necessità di comprimere i tempi di gestione e analisi. VOLUME Terabytes di dati e la correlazione tra dati non sono gestibili con i DB tradizionali

Big Data The Forrester Wave, Q1 2013 The Forrester Wave, Q1 2013 Soluzioni software e hardware che permettano le organizzazioni di scoprire, valutare e realizzare modelli predittivi analizzando sorgenti informative molto grandi di dati al fine di migliorare le proprie performance e mitigare i rischi.

Internet of Things (IoT) Da Terabytes a Yottabytes

Passato Trasporre una matrice grande e sparsa... 1998 - Google 1999 - Systema MG (Managing Gygabytes) 2004 - Prima release di Terrier (Terabyte Retriever), motore di ricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC 2004 - Terabyte track (TREC) 2006 - Google DFS 2008-2009 -Distributed Terrier, progetto FUB-Matrixware per la gestione dei brevetti europei su HPC con 80 core. 2008 - MapReduce di Google 2011 dicembre - Hadoop su cluster di macchine.

Oggi Scalare ma in tempo reale... 2013 Apache Spark molto più efficiente di Hadoop 2014 - Apache Storm trattamento dei dati real time 2014-Apache GraphX per la visualizzazione dei grafi. 2015 giugno - SparkR - R distribuito, il data mining massivo con open source diventa realtà! Clustering massivo. Business Intelligence su Big Data

Volume Nel 2007 Google ha elaborato 403 PB di documenti Nel 2009 Il Regional Computer Forensic Laboratory della FBI ha esaminato 3 PB di dati. Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byte ciascun tweet) = 1.25 Terabyte al giorno. Il flusso italiano filtrato da SNOOPI su Twitter è di 1.6 ML tweet al giorno. Secondo una nostra stima si è passati da 200 tweet al minuto (fine 2011) a 1200 tweet medi al minuto di oggi.

La rivoluzione dei Big Data I dati sono conoscenza Entro il 2020, l informazione sarà usata per reinventare, digitalizzare o eliminare l 80% dei processi produttivi e dei prodotti rispetto al decennio precedente. Entro il 2017, più del 30% dell accesso a ampie basi di dati aziendali sarà effettuato tramite servizi intermedi di brokeraggio dati, che serviranno a prendere delle decisioni di business (Business Intelligence). Entro il 2017, più del 20% delle analisi sulla qualità dei servizi e dei prodotti verrà generato da informazioni di tracciamento dei prodotti anche sfruttando l Internet delle Cose (IoT).

Eliminazione del 47% dei lavori The future of employment: how susceptible are jobs to computerisation? C. Frey, M. A. Osborne, 2013

In Italia il 48% dei lavori a rischio I motori del cambiamento In Italia, World economic forum 2016

Nel mondo 35% dei lavori a rischio I motori del cambiamento, World economic forum 2016

In Italia il 48% dei lavori a rischio I motori del cambiamento, World economic forum 2016

Section 2 Piattaforme di Big Data

2013 Gartner Magic Quadrant

2014 Gartner Magic Quadrant

2015 Gartner Magic Quadrant

Piattaforme Big Data X as a Service SaaS (Software as a Service). PaaS (Platform as a Service): PivotalR IaaS (Infrastructure as a Service): Amazon Web Services (AWS), Windows Azure, Google Compute Engine, Rackspace Open Cloud, IBM SmartCloud Enterprise.

Paradigma Enable Produce & Consume Mashup & Modelling: preparare i dati Gestione dei Metadati Occupano spazio / banda di comunicazione Serializzare e Deserializzare secondo lo schema key-value Cloud Deployment: PaaS (Platform as a Service) Piattaforma interna per l integrazione Gestione Streaming Gestione Archiviazione Gestione delle Repliche e dei Guasti Search engine (SQL, NoSQL, testuale) Retrieving, Scoring & Sorting (Terrier) Piattaforma di Business Intelligence & Analytics Real-Time Analytics, Charting... (basata su SparkR) API, Open standards, mobile, Uso collaborativo (social)

Section 3 Distributed File System (DFS)

Dati in-memoria o su disco? Tempi di lettura Su disco Blocco: 65,536 KB in 10 ms Cilindro: 16*65,536 in 10 ms Lettura da disco 0.104GB/sec In memoria 65,536 KB in 0.1µs Lettura in memoria 65GB/sec

Alcuni numeri Jeffrey Dean, Stanford talk, November 10, 2010

Come gestire i Big Data Il paradigma MapReduce: I Concetti Chiave Distributed File System (DFS) Il modello computazionale MapReduce

Distributed File System Google GFS, Hadoop HDFS

Distributed File System (DFS) I dati vengono spezzettati, distribuiti e replicati in più file e più macchine Si hanno cluster di rack Ciascun rack ha 8-64 macchine collegate con uno switch a 1 Gbps I cluster sono collegati tra loro da un backbone principale a 2-8 Gbps I dati si spezzettano in chunk ( 64/128 MB), ogni chunk ospitato in memoria da una macchina (chunk server). Almeno 2-3 repliche di un chunk, un solo chunk al più in un rack.

Distributed File System Google GFS, Hadoop HDFS Le operazioni tipiche che vengono effettuate sono due: lettura e concatenazione (read e append) Gli update sulle singole macchine sono rari.

Distributed File System Quante macchine? Nel 2007 Google affermava di avere 403 PB. Tasso di compressione degli indici 3,5%: 14PB di dati prodotti Se tutto l indice è in memoria centrale... con 1.000.000 servers, 2-3 repliche... nel 2007 occorrevano più di un 500,000 macchine con almeno 128 GB di RAM.