La rivoluzione dei dati e i sistemi informativi intelligenti. Big data e Linked Open per le decisioni nelle comunità Smart Nuove fonti di dati per nuovi modi di produrre conoscenza. La statisticaal al tempo deibig Stefano De Francisci Istat Direzione centrale per le tecnologie dell informazione e della comunicazione
Big nella Statistica Ufficiale: problemi aperti Quali fonti di dati Big possono avere un ruolo significativo per la Statistica Ufficiale? Come «combinare» l uso dei Big con la Statistica Ufficiale? Quali metodi alternativi a quelli tradizionali per l analisi dei Big? Quali tecnologie Big possono avere un ruolo significativo per la Statistica Ufficiale? Come comunicare agli utenti della Statistica Ufficiale l utilizzo di fonti «non ufficiali»?
Big e la Statistica Ufficiale: Contesto Internazionale Nella visione strategica proposta nel giugno 2011 dall High Level Group for Modernization of Statistical Production and Services (gruppo composto dai presidenti di dieci organizzazioni statistiche nazionali e internazionali) si ricorda che «We are in a changeover from a society with little or no data available to one that has an abundance of data Another important point is that nowadays it is much easier to get data that cover more than the traditional national statistics users would need. We do not, however, have the mechanisms in place to make full use of these data» Nel Working paper di HLG 2013/6 (gennaio 2013) si fa diretto riferimento ai Big : «Apart from generating new commercial opportunities in the private sector, Big data is also potentially very interesting as an input for official statistics; either for use on its own, or in combination with more traditional data sources such as sample surveys and administrative registers»
Principali fonti di dati Big (UNECE) Interactions with news media and social media, job posting Humans interacting with devices (also mobile) produce data: e.g. Blog posts, Twitter messages, User-generated maps Social Networks Human-sourced information Traditional Business systems collected by traditional Systems in a passive mode: e.g. Web search logs, Medical records, Commercial transactions, Banking/stock records Internet of Things Sensors and machines used to measure and record the events and situations in the physical world: e.g. satellite imaging, road & traffic sensors, climate & environmental sensors, etc.
Possibile Uso dei Big nelle Fasi del Processo Statistico Popolazione di rifermento Popolazione indagine (= Frame) Disegno e selez. campione Campione collection Dati (micro & meta) Processi, modelli e stime Analisi Outputs Procedure amm.ve Dati amm.vi Linkage Quadro generale in accordo al GSBPM (Generic Statistic Business Process Model) generation Gen. passiva (sensori, tracking) Gen. Attiva (uso ICT) Internet as Source
Possibile Uso dei Big nelle Fasi del Processo Statistico Impatto dei Big nelle fasi del processo statistico Possibili effetti sui processi Possibile inversione di alcune fasi (Design e Collect) La fase di collezione dati può a volte essere sostituita da quella di generazione dati Possibile collassamento delle fasi di Process e Analyse (possono avvalersi degli stessi metodi) Altre fasi (ad es. Dissemination) non sono ancora coinvolte Possibili effetti sugli scenari Scenario 1: Tecniche alternative di data collection Scenario 2: Uso integrato di Big Scenario 3: Uso di Big in sostituzione delle fonti tradizionali Inversione Collassamento
Scenario 1: Tecniche alternative di data collection Target population Survey population (= Frame) design and selection Sample collection (micro & meta) Process, model and estimate Analysis Outputs generation Passive (sensors, tracking) Active (use of ICT) Big, Internet as Source
Scenario 1: Tecniche alternative di data collection Case study scenario 1: a) Statistiche sui prezzi Scopo: innovazione del disegno d indagine sui prezzi al consumo Tipo di processo: indagine basata su tre canali alternativi di acquisizione dei dati: rilevazione sul campo mediante tablet PC scanner data acquisizione dati via web
Scenario 1: Tecniche alternative di data collection Case study scenario 1: b) Statistiche sui prezzi: focus su Scanner data Gruppi della grande distribuzione: Coop, Conad, Selex, Esselunga, Auchan, Carrefour Prodotti: alimentari e grocery Mercati Primo invio ottobre 2014: Torino, Ancona, Palermo, Piacenza, Cagliari. In seguito: Ravenna, Roma, Bari, Bergamo, Perugia, Napoli, Catania, ecc. Record: Punti Vendita della Grande Distribuzione Variabili: Identificativo, Ragione sociale, Indirizzo, Partita IVA, Ean-code (European Article Number), Quantità venduta, Fatturato (IVA inclusa), ecc.
Scenario 2: Uso integrato di Big Target population Survey population (= Frame) design and selection Sample collection (micro & meta) Process, model and estimate Analysis Outputs Admin.ve procedure Admini.ve data Linkage generation Passive (sensors, tracking) Active (use of ICT) Big, Internet as Source
Case study Scenario 2: a) Persons & Places Scenario 2: Uso integrato di Big Scopo: Analisi della mobilità sul territorio mediante telefonia mobile, finalizzata alla costruzione della matrice originedestinazione della mobilità giornaliera per motivi di studio e lavoro a livello comunale Tipo di processo: uso integrato dei amministrative Big con fonti Attori coinvolti nel progetto: Istat, CNR, Università di Pisa Metodologia Inferenza sui profili di mobilità della popolazione tramite GSM Call Detail Records (CDR) Confronto con i dati derivati da fonti amministrative
Case study Scenario 2: b) Statistiche sulle forze di lavoro Scopo: test sull utilizzo di Google Trends per la produzione integrata di stime per nowcasting e forecasting sul mercato del lavoro Tipo di processo: uso della serie storica delle query share («lavoro», «offerte lavoro») estratte da Google Trend come variabili ausiliarie per migliorare la precisione delle stime mediante stime da modello: stime anticipate, previsioni, stime per piccole aree del tasso di disoccupazione Attori coinvolti nel progetto: Istat (Settore studi metodologici e indagine sulle forze di lavoro) Metodologia Scenario 2: Uso integrato di Big Confronto tra modello autoregressivo e utilizzo di Google Trends come modello predittivo Estensione del confronto ai modelli di predizione macroeconomica
Scenario 3: Uso di Big in sostituzione delle fonti tradizionali Target population Survey population (= Frame) design and selection Sample collection (micro & meta) Process, model and estimate Analysis Outputs generation Passive (sensors, tracking) Active (use of ICT) Big, Internet as Source
Scenario 3: Uso di Big in sostituzione delle fonti tradizionali Case study scenario 3: Indagine sull uso di ICT nelle imprese Scopo: Valutare la possibilità di adottare tecniche di Web scraping e text mining per stimare l uso di ICT da parte delle imprese e delle pubbliche amministrazioni tramite il reperimento di alcune variabili del questionario direttamente dal Web in sostituzione delle risposte al questionario Attori coinvolti nel progetto: Istat, Cineca Stato: Analizzati 8.600 website (campione rispondenti indagine ICT che hanno dichiarato di avere siti web) Metodologia: Scraping dei siti Web per estrarre dati riferibili ad alcune domande del questionario (ad es. E-commerce) Tecniche di classificazione supervisionata
FONTI ISSUES IT STATISTICA IMPATTO SUI PROCESSI DI PRODUZIONE Scenari d uso dei Big nella statistica: quadro di riepilogo ORGANIZZAZIONE Privacy 1: Persons&Places 2: Google Trends 3: Uso ICT Human-sourced Traditional Business Machine-generated data information Systems Applicazioni Smart sensing Identificazione di Pattern su tracking data Record linkage e Statistical matching Popolazione di riferimento non omogenea Controllodi qualitàsui risultati Impattoconsiderevole sul processo di produzione : fonti big integrate con fonti amm.ve Acquisizionee processo di Search Aumento performance delle previsioni(e.g., errore quadratico medio) Accesso ai risultati delle ricerche su Web Impatto limitato sul processo di produzione : coinvoltafasedi stima Web Scraping Meta-searching Text mining Accesso ai siti Web Impattolimitatoo considerevole: stessi processiapplicatia fonti distinte
Big, Open, Smart City Open Now, Joel Gurin
Open in Istat Census LOD
Da tre archivi separati Dallo scenario tradizionale allo scenario LOD via ontologie Ontologia Territorio Ontologia Popolazione Ontologia Abitazioni Ontologia Famiglie e triple store, RDF, Endpoint SPARQL fino al grafo LOD di link e navigazione
Un esempio di LOD statistici Modello e formato dei dati: Grafo RDF Linguaggio di interrogazione: SPARQL Struttura semantica/schema: Ontologia OWL
LOD statistici: punti di forza Base di dati integrata (per via semantica): Consente accesso unificato a dati su Web Fruizione diretta e flessibile da tipologie diverse di utenti (protezione civile, giornalisti, enti pubblici, ) Possibilità di costruire servizi sui dati: Visualizzazione avanzata (grafici, tabelle, etc.) Interfaccia per interrogazioni predefinite e guidate Interrogazione libera Output per comunicazione machine-to-machine
Spunti conclusivi 1) Smart city vuol dire esigere e disporre sempre più di dati veloci, vari e voluminosi che possono essere impiegati in ambito statistico, pur non essendo nativamente dati statistici, adeguando le metodologie e sfruttando le nuove tecnologie 2) Di converso, l uso statistico delle nuove fonti di dati Big, di tutti e tre i tipi considerati, può arricchire sensibilmente la conoscenza dei fenomeni urbani, economici e sociali aprendo prospettive finora non considerate. Ad es.: analisi dei prezzi su diverse granularità di scala territoriale, temporale e "categoriale" analisi della mobilità rilevata direttamente (sensori o dispositivi mobili) acquisizione diretta di dati dal Web (Internet as Source) nowcasting e previsioni real-time 3) Se i Big contribuiscono ad arricchire e perfezionare le fasi di collezione, validazione e analisi dei dati, l'utilizzo dei LOD (parte di IoT) si riflette sulle fasi di condivisione, integrazione e diffusione dell informazione statistica favorendo la sua trasformazione in conoscenza