Big Data e Statistica Ufficiale: La Strategia Istat Ing. Domenico Donvito Direttore Direzione centrale per le tecnologie dell'informazione e della comunicazione ISTAT
Indice 1. Shared data 2. Big Data e la Statistica Ufficiale: Contesto Internazionale 3. Caratteristiche dei Big Data per la Statistica Ufficiale 4. Big Data e Istat 5. Progetti Sperimentali 6. Conclusioni Big Data e Statistica Ufficiale: la strategia Istat 2
A piece of data or content is open if anyone is free to use, reuse, and redistribute it subject only, at most, to the requirement to attribute and/or share-alike. In the Land of Shared Data Big data refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze. Open Data More Sources Big Data More Data Shared Data More Stakeholders Social Data More Relationships Linked Data More Context Source: Gartner Big Data e Statistica Ufficiale: la strategia Istat 3
Big data & Open data: vantaggi Trasparenza: I dati aperti sono disponibili a qualunque cittadino sotto forma di consultazione libera ed indipendente. Interoperabilità e massimizzazione dell efficienza nell uso del dato Modulabilità: I dati aperti possono essere riorganizzati ed adattati per coprire gli scopi più diversi Innovazione, in quanto consentono applicazioni non previste Controllo sulla qualità del dato e sulla sua correttezza Più fonti = più possibilità di controlli/verifiche Nuove fonti = nuovi indicatori, indicatori ottenuti più rapidamente e possibilità confronti tra indicatori...... Big Data e Statistica Ufficiale: la strategia Istat 4
Big Data e la Statistica Ufficiale: Contesto Internazionale High Level Group for Modernization of Statistical Production and Services (HLG) Gruppo composto da dieci presidenti di organizzazioni statistiche nazionali e internazionali Strategic vision of HLG, June 2011: «We are in a changeover from a society with little or no data available to one that has an abundance of data Another important point is that nowadays it is much easier to get data that cover more than the traditional national statistics users would need. We do not, however, have the mechanisms in place to make full use of these data» HLG Working paper 2013/6, January 2013: «Apart from generating new commercial opportunities in the private sector, Big data is also potentially very interesting as an input for official statistics; either for use on its own, or in combination with more traditional data sources such as sample surveys and administrative registers» Big Data e Statistica Ufficiale: la strategia Istat 5
BIG Data: Dimensioni Le tecnologie attuali consentono la risoluzione del problema BIG Implementazione di metodologie tradizionali attraverso tecnologie Big Data Ad esempio, record linkage con fase di bloccaggio fatta su architettura hadoop/mapreduce (programmazione per elaborazione distribuita) BIG è anche un opportunità (nuove metodologie): Nuove variabili (online sales) non misurate finora Variabili ausiliarie per stimare meglio i fenomeni o stimarli prima (nowcasting) Permettere di costruire informazioni che possano servire insieme ai dati per capire i fenomeni (social data mining), correggere e validare le informazioni, aumentare efficienza campionaria, etc.. Possibilità di scoprire nuova conoscenza, ad esempio relazioni nascoste, nuovi cluster/patterns, ecc. Big Data e Statistica Ufficiale: la strategia Istat 6
Tipologie di Sorgenti Big - 1 Data exhaust Behaviour data & Crowd-sourced data Sensor data Big Data e Statistica Ufficiale: la strategia ISTAT 7
Tipologie di Sorgenti Big - 2 Data Exhaust Dati transazionali raccolti in modo passivo Relativi a transazioni di soggetti fisici ma generati in modo passivo (ossia non direttamente generati da soggetti fisici) Esempi : Log telefonici Log di transazioni commerciali Log di ricerche web Record ospedalieri Transazioni bancarie o assicurative Big Data e Statistica Ufficiale: la strategia ISTAT 8
Tipologie di Sorgenti Big - 3 Behaviour data & Crowd-sourced data Interazioni con news media e social media, job posting Sono i soggetti fisici a produrre attivamente dati relativi alle proprie intenzioni, sensazioni o esigenze (anche tramite dispositivi mobili) Esempi : Posts su blog Messaggi su Twitter User generated maps Big Data e Statistica Ufficiale: la strategia ISTAT 9
Tipologie di Sorgenti Big - 4 Sensor data Dati relativi a emissioni di luce, parametri ambientali, traffico, etc. Dispositivi fisici rilevano in modo remoto (remote sensing) proprietà di oggetti fisici Esempi : Valori relativi all inquinamento Numero di veicoli in transito Big Data e Statistica Ufficiale: la strategia ISTAT 10
Big Data e Istat - 1 Collaborazioni con università e istituti di ricerca Partecipazione a task force internazionali su Big Data Gruppo di lavoro interno al fine di individuare e sperimentare temi di innovazione tecnologica e metodologica Big Data e Statistica Ufficiale: la strategia Istat 11
Big Data e Istat - 2 Commissione scientifica avente il compito di orientare le scelte dell Istituto sul tema Big Data Strategia per l adozione dei Big Data nel processo statistico S T R A T E G Y Big Data e Statistica Ufficiale: la strategia Istat 12
Progetto Persons and Places Collaborazione con CNR e Università di Pisa Analisi della mobilità giornaliera delle persone per motivi di studio o di lavoro a partire dai dati GPS e della rete cellulare, integrati con archivi amministrativi Istat Produzione di matrici origine/destinazione a livello di città Challenges Identificazione dei pattern di spostamento Record linkage e statistical matching preservando privacy Possibilità di effettuare tracciamento tramite apps su smartphones Big Data e Statistica Ufficiale: la strategia Istat 13
Progetto Internet as a Data Source Collaborazione con CINECA E-Government level Adozione di tecniche di Web scraping e text mining per studiare l utilizzo di ICT da parte di imprese e istituzioni. A partire da liste di imprese e di istituzioni di cui l Istat dispone perchè utilizzate in indagini correnti, il progetto verifica l efficacia e l efficienza di tecniche automatiche per Web data extraction e processing Challenges Accesso ai siti Web searching efficace Tecniche di text mining efficaci Big Data e Statistica Ufficiale: la strategia ISTAT 14
Altri Progetti Sperimentali Stime sul mercato del lavoro: Utilizzo di Google Trend per miglioramento delle performance predittive nell analisi della relazione tra occupati e indicatori d indagine (ad esempio le aspettative di occupazione delle imprese) Prezzi al Consumo: Accesso a scanner data attraverso accordi con catene di rivenditori per confronti spaziali e temporali finalizzati al miglioramento del strategie di campionamento (e di pesatura) per il calcolo dell indice dei prezzi al consumo Big Data e Statistica Ufficiale: la strategia ISTAT 15
Conclusioni La strategia dell Istat mira a definire, attraverso gli issue paper e le sperimentazioni il ruolo dei Big Data nella Statistica Ufficiale e quindi a rispondere a domande quali: Quali fonti di dati Big possono avere un ruolo significativo per la Statistica Ufficiale? Quali metodi alternativi a quelli tradizionali per l analisi dei Big Data? Quali tecnologie Big Data possono avere un ruolo significativo per la Statistica Ufficiale? Misurare (prima, meglio) e fornire un valore aggiunto per aumentare l efficienza della PA e delle imprese Big Data e Statistica Ufficiale: la strategia ISTAT 16
Grazie Big Data e Statistica Ufficiale: la strategia ISTAT 17
Annex Big Data e Statistica Ufficiale: la strategia ISTAT 18
Caratteristiche dei Big Data Per la Statistica Ufficiale, in aggiunta, Scarsa struttura dati non strutturati a fini statistici Parziale o totale mancanza di metadati strutturali Qualità Necessità di filtrare dati «noisy» e valutare accuratezza, completezza, affidabilità, etc. Dimensioni Memorizzazione e processamento Aspetti temporali Elevata volatilità Accessibilità Istituti Nazionali di Statistica consumatori di Big Data Privacy Big Data e Statistica Ufficiale: la strategia ISTAT 19
BIG Data: Acquisizione Continua Nuovi indicatori «near-time» basati su dati continuamente aggiornati Esempio 1: calcolo e monitoraggio continuo di indicatori standard a partire da sorgenti di big data non-standard, ad esempio l'indice di disoccupazione inferito dai profili di attività ottenuti per data mining dei record di telefonia mobile Esempio 2: calcolo e monitoraggio di nuovi indicatori di benessere/performance sociale a partire da sorgenti di big data non standard (social media, telefonia e navigazione satellitare, social networks, acquisti grande distribuzione) Big Data e Statistica Ufficiale: la strategia Istat 20
Opportunità e Sfide dei Big Data per la Statistica Ufficiale: Tecnologie Migliorare l efficienza nel processamento di dati, anche non-big Parallelismo nell esecuzione, processamento in-memory etc. Abilitare l uso di Big Data Necessità di avere tecnologie dedicate per consentire il trattamento dei Big Data Big Data e Statistica Ufficiale: la strategia ISTAT 21
Opportunità e Sfide dei Big Data per la Statistica Ufficiale: Informatica Cloud/Grid/Stream Computing for Big Data Big Data Mining High Performance Computing Visual Analytics for Big Data Algorithms and Systems for Big Data Search Heterogeneous and Multi-structured Data Integration Crowdsourcing Data management for Mobile and Pervasive Computing Big Data e Statistica Ufficiale: la strategia ISTAT 22
Opportunità e Sfide dei Big Data per la Statistica Ufficiale: Statistica Linkage (con un grado di incertezza noto o stimato) degli eventi ai quali i Big Data si riferiscono, alle unità di popolazione di interesse per la statistica ufficiale (individui, famiglie, imprese o istituzioni) Processare i dati raccolti con l obiettivo di renderli compatibili con il framework statistico di interesse (concetti, definizioni, classificazioni) Attribuire pesi (con incertezza nota o stimata) ai dati, in modo da garantire rappresentatività nei confronti della popolazione target Stimare aggregati di interesse fornendo misure della loro qualità basate sull incertezza delle misurazioni negli step precedenti Big Data e Statistica Ufficiale: la strategia ISTAT 23
Scenari di Utilizzo nella Statistica Ufficiale - 1 Studi pianificati nel programma Eurostat : Statistiche sui prezzi Analisi e utilizzo dei prezzi presenti su Internet Progetto di 24 mesi con inizio a Gennaio 2013 Obiettivo: realizzare un software open a supporto del calcolo dell indice dei prezzi al consumo Big Data e Statistica Ufficiale: la strategia ISTAT 24
Scenari di Utilizzo nella Statistica Ufficiale - 2 Studi pianificati nel programma Eurostat : Statistiche sul turismo Studio di fattibilità sull uso dei dati inerenti il mobile positioning per finalità turistiche Progetto di 15 mesi con inizio a Gennaio 2013 Big Data e Statistica Ufficiale: la strategia ISTAT 25
Scenari di Utilizzo nella Statistica Ufficiale - 3 Studi pianificati nel programma Eurostat : Statistiche sull utilizzo dell ICT Studio di fattibilità sull utilizzo dei flussi di traffico Internet per acquisire informazioni sull information society Approccio di misura «user-centric», e.g. monitoraggio dei comportamenti degli individui che navigano il Web tramite PC o smart phone Approccio di misura «web-centric», e.g. web scraping di siti web costruiti e utilizzati da imprese Big Data e Statistica Ufficiale: la strategia ISTAT 26
BIG Data: Qualità Problemi di qualità dei dati a vari livelli: Qualità del dato, in termini di correttezza, aggiornamento, completezza, etc. Affidabilità o reputazione della sorgente Metadati che descrivono come il dato è memorizzato, da dove proviene (provenance), ecc. Opportunità di migliorare la qualità: Possibilità di risolvere problemi di missing data attingendo dall elevato numero di fonti Possibilità di risolvere problemi di inconsistenza sfruttando la ridondanza delle fonti Big Data e Statistica Ufficiale: la strategia Istat 27