Big Data e Statistica Ufficiale: La Strategia Istat



Documenti analoghi
Sviluppi Big Data per le Analisi statistiche

L utilizzo dei Big Data in Istat: stato attuale e prospettive

L uso dei Big Data per la Produzione Statistica

modi di produrre conoscenza.

FORMAZIONE AVANZATA IL CONSERVATORE DEI DOCUMENTI DIGITALI

Big Data e archivi dell Amministrazione finanziaria: metodologie innovative di analisi e integrazione, potenzialità e limiti

OSSERVATORIO SUI FABBISOGNI PROFESSIONALI IN LIGURIA: Enti Bilaterali Commercio. Enti Bilaterali Turismo

Valutare gli esiti di una consultazione online

Presidenza del Consiglio dei Ministri

- OLIMPIADI DI PROBLEM SOLVING - Informatica e pensiero algoritmico nella scuola dell'obbligo

Verso il censimento permanente e oltre

CINECA - partner per l innovazione l Pubblica Amministrazione Locale

L o. Walter Ambu japs: una soluzione agile (

La Pubblica Amministrazione consumatore di software Open Source

SISTAR - SISTEMA STATISTICO REGIONALE: programmazione e divulgazione dell informazione statistica

Le strumentazioni laser scanning oriented per i processi di censimento anagrafico dei patrimoni

1. Introduzione. 2. Il Progetto

Danais s.r.l. Profilo Aziendale

PRESENTAZIONE SINTETICA PROGETTO JOOMLA! UN SITO WEB OPEN SOURCE PER LE PUBBLICHE AMMINISTRAZIONI

Innovazioni organizzative e tecnologiche

Business Process Management

DATAMORFOSI. E la sintesi della strategia di prodotto di Webgate400.

Roma Capitale: Open Data come nuova frontiera della comunicazione tra istituzioni e cittadini

KPMG & Dipartimento di Economia Politica e Metodi Quantitativi Università degli Studi di Pavia Progetto studio di sistemi di Data Mining

DPCM 31 OTTOBRE 2000 (G. U , SERIE GENERALE, N. 272) REGOLE TECNICHE PER IL PROTOCOLLO INFORMATICO DI CUI AL DECRETO DEL PRESIDENTE DELLA

PROGRAMMAZIONE E GESTIONE DI UN PROGETTO DI SERVIZIO SOCIALE

SISTEMA DI GESTIONE INTEGRATO. Audit

Sistemi informativi aziendali struttura e processi

COMUNE DI CASTELLAR (Provincia di Cuneo) PROGRAMMA TRIENNALE PER LA TRASPARENZA E L INTEGRITA TRIENNIO 2014/2016.

QUESTIONARIO 1: PROCESSO DI AUTOVALUTAZIONE

Bollettino Ufficiale della Regione Puglia n. 177 del

PROFILO FORMATIVO Profilo professionale e percorso formativo

CONTENT MANAGEMENT SYSTEM

LA GESTIONE DELLE INFORMAZIONI IN AZIENDA: LA FUNZIONE SISTEMI INFORMATIVI 173 7/001.0

Business Process Management applicato ai flussi della PA

RIORGANIZZARSI PER CRESCERE CON IL SOFTWARE GESTIONALE

La piattaforma di lettura targhe intelligente ed innovativa in grado di offrire servizi completi e personalizzati

Professione Sociologo?

La platea dopo la lettura del titolo del mio intervento

Uff. I. - OLIMPIADI DI PROBLEM SOLVING - Informatica e pensiero algoritmico nella scuola dell'obbligo

Dalle esigenze e l esperienza dell ARPAT una proposta per un catasto acustico nazionale

OSINT, acronimo di Open Source INTelligence, uno dei modi per acquisire dati utili per l intelligence:

Lezione 1. Introduzione e Modellazione Concettuale

Gartner Group definisce il Cloud

CONTENUTO DELL OFFERTA TECNICA E CRITERI DI VALUTAZIONE

CATALOGO DEI SERVIZI PER L INNOVAZIONE TECNOLOGICA, STRATEGICA, ORGANIZZATIVA E COMMERCIALE DELLE IMPRESE

Alberto Belussi, Mauro Negri e Giuseppe Pelagatti. Politecnico di Milano spatialdbgroup@polimi.it

Centro Tecnico per la Rete Unitaria della Pubblica Amministrazione

TECNICO SUPERIORE PER LA MOBILITÀ E IL TRASPORTO PUBBLICO LOCALE

1- Corso di IT Strategy

tutto quanto sopra premesso e considerato, tra:

Big Data: il futuro della Business Analytics

FORMAZIONE AVANZATA LA GESTIONE E VALUTAZIONE DEI CONTRATTI, PROGETTI E SERVIZI ICT NELLA PA

Il modello di analisi dei mercati GME. Ottobre 2012

BSC Brescia Smart City

PROGRAMMA TRIENNALE PER LA TRASPARENZA E INTEGRITA ANNO

Il sistema di condivisione delle informazioni sulle abitudini di pagamento

ETICA pubblica nel sud

Istituto Nazionale di Statistica Istituto Nazionale di Statistica

Applicazione della norma ISO 9001:2008 al Sistema Gestione per la Qualità del Gruppo Ricerca Fusione. Claudio Nardi Frascati 24 novembre 2009

Andrea Cacace, ABB Process Automation, 23 Aprile 2015 Ottimizzazione ed efficienza energetica nei processi: il ruolo della diagnosi energetica

Il Censimento permanente: la produzione di dati censuari attraverso l uso integrato di indagini campionarie e dati di fonte amministrativa.

PLUS. Syllabus rev. 1.04

Data Mining a.a

Questionario R.C. Società di Informatica

GESTIONE AZIENDALE AMMINISTRAZIONE

ISTITUTO TECNICO ECONOMICO MOSSOTTI

LA FORMAZIONE PER LE PMI IL MODELLO FORMATIVO DINAMICO PER IL RESPONSABILE DI FINANZA E CONTROLLO

Intranet e risorse umane. Un portale per: - Apprendere - Conoscere - Comunicare. - erogare Servizi in rete

Archiviazione ottica documentale

LEAD GENERATION PROGRAM

Km4City: Accesso Semplice a

IL WEB per cercare lavoro Maurizio Sorcioni(*)

La Nabla Quadro s.r.l.

Il sistema informativo della RICA italiana

I Sistemi Informativi Geografici. Laboratorio GIS 1

Confronto tra i fattori di emissione utilizzati in Copert, Artemis e Progress e delle relative stime di emissioni da flotte circolanti in area urbana

E-Commerce Consumer Behaviour Report 2010

Liceo Tecnologico. Indirizzo Informatico e Comunicazione. Indicazioni nazionali per Piani di Studi Personalizzati

Progetto Atipico. Partners

Piano di gestione della qualità

Performance management nelle Università

Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario

Ciclo di vita dimensionale

SISTEMA DI MISURAZIONE E VALUTAZIONE DELLA PERFORMANCE del personale amministrativo dell Avvocatura dello Stato

Relazione illustrativa degli Obiettivi di accessibilità

Progettazione dei Sistemi di Produzione

Infrastruttura di produzione INFN-GRID

Transcript:

Big Data e Statistica Ufficiale: La Strategia Istat Ing. Domenico Donvito Direttore Direzione centrale per le tecnologie dell'informazione e della comunicazione ISTAT

Indice 1. Shared data 2. Big Data e la Statistica Ufficiale: Contesto Internazionale 3. Caratteristiche dei Big Data per la Statistica Ufficiale 4. Big Data e Istat 5. Progetti Sperimentali 6. Conclusioni Big Data e Statistica Ufficiale: la strategia Istat 2

A piece of data or content is open if anyone is free to use, reuse, and redistribute it subject only, at most, to the requirement to attribute and/or share-alike. In the Land of Shared Data Big data refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze. Open Data More Sources Big Data More Data Shared Data More Stakeholders Social Data More Relationships Linked Data More Context Source: Gartner Big Data e Statistica Ufficiale: la strategia Istat 3

Big data & Open data: vantaggi Trasparenza: I dati aperti sono disponibili a qualunque cittadino sotto forma di consultazione libera ed indipendente. Interoperabilità e massimizzazione dell efficienza nell uso del dato Modulabilità: I dati aperti possono essere riorganizzati ed adattati per coprire gli scopi più diversi Innovazione, in quanto consentono applicazioni non previste Controllo sulla qualità del dato e sulla sua correttezza Più fonti = più possibilità di controlli/verifiche Nuove fonti = nuovi indicatori, indicatori ottenuti più rapidamente e possibilità confronti tra indicatori...... Big Data e Statistica Ufficiale: la strategia Istat 4

Big Data e la Statistica Ufficiale: Contesto Internazionale High Level Group for Modernization of Statistical Production and Services (HLG) Gruppo composto da dieci presidenti di organizzazioni statistiche nazionali e internazionali Strategic vision of HLG, June 2011: «We are in a changeover from a society with little or no data available to one that has an abundance of data Another important point is that nowadays it is much easier to get data that cover more than the traditional national statistics users would need. We do not, however, have the mechanisms in place to make full use of these data» HLG Working paper 2013/6, January 2013: «Apart from generating new commercial opportunities in the private sector, Big data is also potentially very interesting as an input for official statistics; either for use on its own, or in combination with more traditional data sources such as sample surveys and administrative registers» Big Data e Statistica Ufficiale: la strategia Istat 5

BIG Data: Dimensioni Le tecnologie attuali consentono la risoluzione del problema BIG Implementazione di metodologie tradizionali attraverso tecnologie Big Data Ad esempio, record linkage con fase di bloccaggio fatta su architettura hadoop/mapreduce (programmazione per elaborazione distribuita) BIG è anche un opportunità (nuove metodologie): Nuove variabili (online sales) non misurate finora Variabili ausiliarie per stimare meglio i fenomeni o stimarli prima (nowcasting) Permettere di costruire informazioni che possano servire insieme ai dati per capire i fenomeni (social data mining), correggere e validare le informazioni, aumentare efficienza campionaria, etc.. Possibilità di scoprire nuova conoscenza, ad esempio relazioni nascoste, nuovi cluster/patterns, ecc. Big Data e Statistica Ufficiale: la strategia Istat 6

Tipologie di Sorgenti Big - 1 Data exhaust Behaviour data & Crowd-sourced data Sensor data Big Data e Statistica Ufficiale: la strategia ISTAT 7

Tipologie di Sorgenti Big - 2 Data Exhaust Dati transazionali raccolti in modo passivo Relativi a transazioni di soggetti fisici ma generati in modo passivo (ossia non direttamente generati da soggetti fisici) Esempi : Log telefonici Log di transazioni commerciali Log di ricerche web Record ospedalieri Transazioni bancarie o assicurative Big Data e Statistica Ufficiale: la strategia ISTAT 8

Tipologie di Sorgenti Big - 3 Behaviour data & Crowd-sourced data Interazioni con news media e social media, job posting Sono i soggetti fisici a produrre attivamente dati relativi alle proprie intenzioni, sensazioni o esigenze (anche tramite dispositivi mobili) Esempi : Posts su blog Messaggi su Twitter User generated maps Big Data e Statistica Ufficiale: la strategia ISTAT 9

Tipologie di Sorgenti Big - 4 Sensor data Dati relativi a emissioni di luce, parametri ambientali, traffico, etc. Dispositivi fisici rilevano in modo remoto (remote sensing) proprietà di oggetti fisici Esempi : Valori relativi all inquinamento Numero di veicoli in transito Big Data e Statistica Ufficiale: la strategia ISTAT 10

Big Data e Istat - 1 Collaborazioni con università e istituti di ricerca Partecipazione a task force internazionali su Big Data Gruppo di lavoro interno al fine di individuare e sperimentare temi di innovazione tecnologica e metodologica Big Data e Statistica Ufficiale: la strategia Istat 11

Big Data e Istat - 2 Commissione scientifica avente il compito di orientare le scelte dell Istituto sul tema Big Data Strategia per l adozione dei Big Data nel processo statistico S T R A T E G Y Big Data e Statistica Ufficiale: la strategia Istat 12

Progetto Persons and Places Collaborazione con CNR e Università di Pisa Analisi della mobilità giornaliera delle persone per motivi di studio o di lavoro a partire dai dati GPS e della rete cellulare, integrati con archivi amministrativi Istat Produzione di matrici origine/destinazione a livello di città Challenges Identificazione dei pattern di spostamento Record linkage e statistical matching preservando privacy Possibilità di effettuare tracciamento tramite apps su smartphones Big Data e Statistica Ufficiale: la strategia Istat 13

Progetto Internet as a Data Source Collaborazione con CINECA E-Government level Adozione di tecniche di Web scraping e text mining per studiare l utilizzo di ICT da parte di imprese e istituzioni. A partire da liste di imprese e di istituzioni di cui l Istat dispone perchè utilizzate in indagini correnti, il progetto verifica l efficacia e l efficienza di tecniche automatiche per Web data extraction e processing Challenges Accesso ai siti Web searching efficace Tecniche di text mining efficaci Big Data e Statistica Ufficiale: la strategia ISTAT 14

Altri Progetti Sperimentali Stime sul mercato del lavoro: Utilizzo di Google Trend per miglioramento delle performance predittive nell analisi della relazione tra occupati e indicatori d indagine (ad esempio le aspettative di occupazione delle imprese) Prezzi al Consumo: Accesso a scanner data attraverso accordi con catene di rivenditori per confronti spaziali e temporali finalizzati al miglioramento del strategie di campionamento (e di pesatura) per il calcolo dell indice dei prezzi al consumo Big Data e Statistica Ufficiale: la strategia ISTAT 15

Conclusioni La strategia dell Istat mira a definire, attraverso gli issue paper e le sperimentazioni il ruolo dei Big Data nella Statistica Ufficiale e quindi a rispondere a domande quali: Quali fonti di dati Big possono avere un ruolo significativo per la Statistica Ufficiale? Quali metodi alternativi a quelli tradizionali per l analisi dei Big Data? Quali tecnologie Big Data possono avere un ruolo significativo per la Statistica Ufficiale? Misurare (prima, meglio) e fornire un valore aggiunto per aumentare l efficienza della PA e delle imprese Big Data e Statistica Ufficiale: la strategia ISTAT 16

Grazie Big Data e Statistica Ufficiale: la strategia ISTAT 17

Annex Big Data e Statistica Ufficiale: la strategia ISTAT 18

Caratteristiche dei Big Data Per la Statistica Ufficiale, in aggiunta, Scarsa struttura dati non strutturati a fini statistici Parziale o totale mancanza di metadati strutturali Qualità Necessità di filtrare dati «noisy» e valutare accuratezza, completezza, affidabilità, etc. Dimensioni Memorizzazione e processamento Aspetti temporali Elevata volatilità Accessibilità Istituti Nazionali di Statistica consumatori di Big Data Privacy Big Data e Statistica Ufficiale: la strategia ISTAT 19

BIG Data: Acquisizione Continua Nuovi indicatori «near-time» basati su dati continuamente aggiornati Esempio 1: calcolo e monitoraggio continuo di indicatori standard a partire da sorgenti di big data non-standard, ad esempio l'indice di disoccupazione inferito dai profili di attività ottenuti per data mining dei record di telefonia mobile Esempio 2: calcolo e monitoraggio di nuovi indicatori di benessere/performance sociale a partire da sorgenti di big data non standard (social media, telefonia e navigazione satellitare, social networks, acquisti grande distribuzione) Big Data e Statistica Ufficiale: la strategia Istat 20

Opportunità e Sfide dei Big Data per la Statistica Ufficiale: Tecnologie Migliorare l efficienza nel processamento di dati, anche non-big Parallelismo nell esecuzione, processamento in-memory etc. Abilitare l uso di Big Data Necessità di avere tecnologie dedicate per consentire il trattamento dei Big Data Big Data e Statistica Ufficiale: la strategia ISTAT 21

Opportunità e Sfide dei Big Data per la Statistica Ufficiale: Informatica Cloud/Grid/Stream Computing for Big Data Big Data Mining High Performance Computing Visual Analytics for Big Data Algorithms and Systems for Big Data Search Heterogeneous and Multi-structured Data Integration Crowdsourcing Data management for Mobile and Pervasive Computing Big Data e Statistica Ufficiale: la strategia ISTAT 22

Opportunità e Sfide dei Big Data per la Statistica Ufficiale: Statistica Linkage (con un grado di incertezza noto o stimato) degli eventi ai quali i Big Data si riferiscono, alle unità di popolazione di interesse per la statistica ufficiale (individui, famiglie, imprese o istituzioni) Processare i dati raccolti con l obiettivo di renderli compatibili con il framework statistico di interesse (concetti, definizioni, classificazioni) Attribuire pesi (con incertezza nota o stimata) ai dati, in modo da garantire rappresentatività nei confronti della popolazione target Stimare aggregati di interesse fornendo misure della loro qualità basate sull incertezza delle misurazioni negli step precedenti Big Data e Statistica Ufficiale: la strategia ISTAT 23

Scenari di Utilizzo nella Statistica Ufficiale - 1 Studi pianificati nel programma Eurostat : Statistiche sui prezzi Analisi e utilizzo dei prezzi presenti su Internet Progetto di 24 mesi con inizio a Gennaio 2013 Obiettivo: realizzare un software open a supporto del calcolo dell indice dei prezzi al consumo Big Data e Statistica Ufficiale: la strategia ISTAT 24

Scenari di Utilizzo nella Statistica Ufficiale - 2 Studi pianificati nel programma Eurostat : Statistiche sul turismo Studio di fattibilità sull uso dei dati inerenti il mobile positioning per finalità turistiche Progetto di 15 mesi con inizio a Gennaio 2013 Big Data e Statistica Ufficiale: la strategia ISTAT 25

Scenari di Utilizzo nella Statistica Ufficiale - 3 Studi pianificati nel programma Eurostat : Statistiche sull utilizzo dell ICT Studio di fattibilità sull utilizzo dei flussi di traffico Internet per acquisire informazioni sull information society Approccio di misura «user-centric», e.g. monitoraggio dei comportamenti degli individui che navigano il Web tramite PC o smart phone Approccio di misura «web-centric», e.g. web scraping di siti web costruiti e utilizzati da imprese Big Data e Statistica Ufficiale: la strategia ISTAT 26

BIG Data: Qualità Problemi di qualità dei dati a vari livelli: Qualità del dato, in termini di correttezza, aggiornamento, completezza, etc. Affidabilità o reputazione della sorgente Metadati che descrivono come il dato è memorizzato, da dove proviene (provenance), ecc. Opportunità di migliorare la qualità: Possibilità di risolvere problemi di missing data attingendo dall elevato numero di fonti Possibilità di risolvere problemi di inconsistenza sfruttando la ridondanza delle fonti Big Data e Statistica Ufficiale: la strategia Istat 27