Big Data Tecnologie, metodologie per l analisi di dati massivi Seminario ISCOM, Simone Angelini, Marco Bianchi, Giuseppe Marcone, Roma 26 febbraio 2016
Sommario 1 Il progetto SNOOPI 2 Piattaforme di Big Data 3 Distributed File System (DFS) MapReduce 4 La tecnica di clustering LSH 5 Le tecniche di Affiliation Graph Model (BIG CLAM, Coda) 6 Visualizzazione 7 Piattaforma Batch (Simone Angelini) 8 Piattaforma Streaming (Marco Bianchi) 9 Progetto ISCOM-FUB: SNOOPI (Giuseppe Marcone)
Section 1 Il progetto SNOOPI
Il Progetto SNOOPI Social Networks: L OsservatoriO sulle Pubbliche AmministrazionI Monitoraggio delle piattaforme sociali: Le PA devono presidiare le nuove piattaforme sociali non solo per informare, ma anche per comunicare con i cittadini SNOOPI ha misurato quantitativamente e qualitativamente la capacità di presidio e di interazione delle PA, e rilevato i temi di interesse dei cittadini su Twitter Per fare ciò SNOOPI (anche ereditando dal progetto ISCOM-FUB TV++ precedente) si è dotato di un laboratorio con un infrastruttura HW & SW di tipo Big Data molto sofisticata.
Datasets di SNOOPI I dati come risorsa Dataset generato da SNOOPI: Tutto il flusso di Twitter relativo a 42 Pubbliche Amministrazioni Ad oggi 120,000,000 circa di Tweet. Più di 400,000 argomenti trattati in 12 mesi di monitoraggio Più di 4,000,000 di utenti coinvolti Dataset unico di estremo valore e interesse Scientifico: permette ai centri di ricerca di effettuare analisi di tipo Big Data su un arco temporale estremamente largo Economico: è la Serie storica contenente tutti gli eventi di rilevanza locale o nazionale per le PA, e il sentiment di opinione relativo (esempio, EXPO, Elezione del Presidente della Repubblica, Jobs Act, la riforma della scuola, lo stato della diffusione della larga banda, ecc.)
Il Laboratorio ISCOM
Il Laboratorio Google: gli inizi a Stanford
Il Laboratorio Google 2001
Il Laboratorio Google oggi
Cosa sono i Big Data? Enormi Basi Di Dati Orientate All Analisi Delle Informazioni VARIETÀ Dati di diversa natura e non strutturati come testi, flussi di click, segnali provenienti da RFID, cellulari, sensori, transazioni commerciali di vario genere... VELOCITÀ Dati che affluiscono devono essere elaborati a ritmi sostenuti o in tempo reale. La velocità non si riferisce alla crescita ma alla necessità di comprimere i tempi di gestione e analisi. VOLUME Terabytes di dati e la correlazione tra dati non sono gestibili con i DB tradizionali
Big Data The Forrester Wave, Q1 2013 The Forrester Wave, Q1 2013 Soluzioni software e hardware che permettano le organizzazioni di scoprire, valutare e realizzare modelli predittivi analizzando sorgenti informative molto grandi di dati al fine di migliorare le proprie performance e mitigare i rischi.
Internet of Things (IoT) Da Terabytes a Yottabytes
Passato Trasporre una matrice grande e sparsa... 1998 - Google 1999 - Systema MG (Managing Gygabytes) 2004 - Prima release di Terrier (Terabyte Retriever), motore di ricerca europeo, progetto bilaterale GU-FUB finanziato da EPSRC 2004 - Terabyte track (TREC) 2006 - Google DFS 2008-2009 -Distributed Terrier, progetto FUB-Matrixware per la gestione dei brevetti europei su HPC con 80 core. 2008 - MapReduce di Google 2011 dicembre - Hadoop su cluster di macchine.
Oggi Scalare ma in tempo reale... 2013 Apache Spark molto più efficiente di Hadoop 2014 - Apache Storm trattamento dei dati real time 2014-Apache GraphX per la visualizzazione dei grafi. 2015 giugno - SparkR - R distribuito, il data mining massivo con open source diventa realtà! Clustering massivo. Business Intelligence su Big Data
Volume Nel 2007 Google ha elaborato 403 PB di documenti Nel 2009 Il Regional Computer Forensic Laboratory della FBI ha esaminato 3 PB di dati. Mezzo miliardo di messaggi al giorno su Twitter (2.500 Byte ciascun tweet) = 1.25 Terabyte al giorno. Il flusso italiano filtrato da SNOOPI su Twitter è di 1.6 ML tweet al giorno. Secondo una nostra stima si è passati da 200 tweet al minuto (fine 2011) a 1200 tweet medi al minuto di oggi.
La rivoluzione dei Big Data I dati sono conoscenza Entro il 2020, l informazione sarà usata per reinventare, digitalizzare o eliminare l 80% dei processi produttivi e dei prodotti rispetto al decennio precedente. Entro il 2017, più del 30% dell accesso a ampie basi di dati aziendali sarà effettuato tramite servizi intermedi di brokeraggio dati, che serviranno a prendere delle decisioni di business (Business Intelligence). Entro il 2017, più del 20% delle analisi sulla qualità dei servizi e dei prodotti verrà generato da informazioni di tracciamento dei prodotti anche sfruttando l Internet delle Cose (IoT).
Eliminazione del 47% dei lavori The future of employment: how susceptible are jobs to computerisation? C. Frey, M. A. Osborne, 2013
In Italia il 48% dei lavori a rischio I motori del cambiamento In Italia, World economic forum 2016
Nel mondo 35% dei lavori a rischio I motori del cambiamento, World economic forum 2016
In Italia il 48% dei lavori a rischio I motori del cambiamento, World economic forum 2016
Section 2 Piattaforme di Big Data
2013 Gartner Magic Quadrant
2014 Gartner Magic Quadrant
2015 Gartner Magic Quadrant
Piattaforme Big Data X as a Service SaaS (Software as a Service). PaaS (Platform as a Service): PivotalR IaaS (Infrastructure as a Service): Amazon Web Services (AWS), Windows Azure, Google Compute Engine, Rackspace Open Cloud, IBM SmartCloud Enterprise.
Paradigma Enable Produce & Consume Mashup & Modelling: preparare i dati Gestione dei Metadati Occupano spazio / banda di comunicazione Serializzare e Deserializzare secondo lo schema key-value Cloud Deployment: PaaS (Platform as a Service) Piattaforma interna per l integrazione Gestione Streaming Gestione Archiviazione Gestione delle Repliche e dei Guasti Search engine (SQL, NoSQL, testuale) Retrieving, Scoring & Sorting (Terrier) Piattaforma di Business Intelligence & Analytics Real-Time Analytics, Charting... (basata su SparkR) API, Open standards, mobile, Uso collaborativo (social)
Section 3 Distributed File System (DFS)
Dati in-memoria o su disco? Tempi di lettura Su disco Blocco: 65,536 KB in 10 ms Cilindro: 16*65,536 in 10 ms Lettura da disco 0.104GB/sec In memoria 65,536 KB in 0.1µs Lettura in memoria 65GB/sec
Alcuni numeri Jeffrey Dean, Stanford talk, November 10, 2010
Come gestire i Big Data Il paradigma MapReduce: I Concetti Chiave Distributed File System (DFS) Il modello computazionale MapReduce
Distributed File System Google GFS, Hadoop HDFS
Distributed File System (DFS) I dati vengono spezzettati, distribuiti e replicati in più file e più macchine Si hanno cluster di rack Ciascun rack ha 8-64 macchine collegate con uno switch a 1 Gbps I cluster sono collegati tra loro da un backbone principale a 2-8 Gbps I dati si spezzettano in chunk ( 64/128 MB), ogni chunk ospitato in memoria da una macchina (chunk server). Almeno 2-3 repliche di un chunk, un solo chunk al più in un rack.
Distributed File System Google GFS, Hadoop HDFS Le operazioni tipiche che vengono effettuate sono due: lettura e concatenazione (read e append) Gli update sulle singole macchine sono rari.
Distributed File System Quante macchine? Nel 2007 Google affermava di avere 403 PB. Tasso di compressione degli indici 3,5%: 14PB di dati prodotti Se tutto l indice è in memoria centrale... con 1.000.000 servers, 2-3 repliche... nel 2007 occorrevano più di un 500,000 macchine con almeno 128 GB di RAM.