modi di produrre conoscenza.



Documenti analoghi
Sviluppi Big Data per le Analisi statistiche

L uso dei Big Data per la Produzione Statistica

Big Data e Statistica Ufficiale: La Strategia Istat

L utilizzo dei Big Data in Istat: stato attuale e prospettive

La shared mobility, nuova frontiera della mobilità urbana: le prospettive per l area metropolitana di Roma

Il Censimento permanente: la produzione di dati censuari attraverso l uso integrato di indagini campionarie e dati di fonte amministrativa.

Indagini statistiche attraverso i social networks

Big Data e archivi dell Amministrazione finanziaria: metodologie innovative di analisi e integrazione, potenzialità e limiti

Km4City: Accesso Semplice a

jeenuin Jeenuin Uno strumentoinnovativoper l ascoltosemantico 17 Ottobre

Indagine del fatturato dei servizi: Alloggio e Ristorazione

Il Digital Divide nella micro e piccola impresa milanese

Workshop Nuove informazioni statistiche per misurare la struttura e la performance delle imprese italiane

LEAD GENERATION PROGRAM

Verso il censimento permanente e oltre

Service Design Programme

I Sistemi Informativi Geografici. Laboratorio GIS 1

Fonte: elaborazione Unioncamere Lombardia su dati ASIA Istat. Tabella 2: Imprese per attività economica Lombardia

use reuse open = redistribution commercial reuse derivative works BUT, may require: - attribution - share alike

Business Intelligence Revorg. Roadmap. Revorg Business Intelligence. trasforma i dati operativi quotidiani in informazioni strategiche.

Mini-guida Audiweb View Mobile e Total Digital Audience

Strategie digitali per. Francesco Passantino Palermo-Catania, giugno 2012 about.me/fpassantino

Il catalogo MARKET. Mk6 Il sell out e il trade marketing: tecniche, logiche e strumenti

PROGETTO OPEN MATERA CONTEST INTRODUZIONE

Anteprima del Rapporto 2014

Anteprima del Report#6 GDO: Grande distribuzione organizzata

Business Process Management

Strumento di valutazione delle prestazioni motorie: CoreMeter

La Digital Transformation nelle Aziende Italiane

Principi di analisi causale Lezione 2

Risultati dell indagine sul benessere dei dipendenti 2014

EA 03 Prospetto economico degli oneri complessivi 1

Elio Cutino. Business Analytics and Optimization Dai Dati alle Decisioni. Milano,13 ottobre 2010

LE RICERCHE DI MERCATO

COMUNICATO STAMPA PUBBLICAZIONE DELLE NUOVE STATISTICHE SUI TASSI DI INTERESSE BANCARI PER L AREA DELL EURO 1

AudiOutdoor non solo audience. Dentro Media Consultants 17 giugno 2011

Il mercato della Business Intelligence è attualmente in forte crescita. Il fenomeno si può spiegare in vari modi: la maturità raggiunta dai sistemi

L UTILIZZO DI VEICOLI A METANO E GPL NELLE FLOTTE AZIENDALI

Analisi risultati Survey a supporto Convegno IT ANIMP

Documento. n. 14. La nuova indagine ISTAT sul fatturato dei commercialisti

Il Management Consulting in Italia

Our Platform. Your Touch.

IL PROGRAMMA DI SVILUPPO DELLE COMPETENZE. Per il calendario delle attività consultare

Internet e social media per far crescere la tua impresa

Uso di big data per l analisi di grandi eventi

Our Mobile Planet: Italia

PIANO DI LAVORO. Prof. BRACCINI MARUSCA DISCIPLINA: MARKETING. Classe 5 Sezione CLM

COMUNICAZIONE ESITI RAV PROCESSO DI AUTOVALUTAZIONE CAF. A cura del GAV

Progetto Turismo Pisa

Piano di marketing territoriale.

Valutare gli esiti di una consultazione online

L assicurazione auto come elemento strategico nello sviluppo della bancassicurazione danni

Le rinnovabili termiche nel mercato della climatizzazione. Milano, 13 maggio 2013 Mario Cirillo

INDAGINI SUL CLIMA DI FIDUCIA DELLE IMPRESE

IL FITOFOR: UNO STRUMENTO PER LA GESTIONE DELLE INFORMAZIONI FITOSANITARIE. Marino Vignoli, Elisa Moneti, M. Miozzo DREAM - Italia

Il Management Consulting in Italia Primo Rapporto Prof. Corrado Cerruti Università di Roma Tor Vergata

IL MERCATO DIGITALE IN ITALIA IL RAPPORTO ASSINFORM 2014 GIANCARLO CAPITANI

Report di valutazione studiolegalebraggio.it

LA METODOLOGIA DI PASSI

Librerie digitali. Introduzione. Cos è una libreria digitale?

CONTENT MANAGEMENT SYSTEM

SCELTA DELL APPROCCIO. A corredo delle linee guida per l autovalutazione e il miglioramento

SIFood: Nutrire La Smart City. Jacopo Cassina - Holonix

Il servizio di registrazione contabile. che consente di azzerare i tempi di registrazione delle fatture e dei relativi movimenti contabili

Samodoc è un servizio Segesta s.r.l. Via Giacomo Peroni, Roma 06/ Powered by Pross s.r.l.

Titolo. Visualizzazione dinamica per la produzione di dati demografici e sociali FORUM PA Angela Ferruzza Paola Patteri

Il CONTROLLO DI GESTIONE

Controllo di Gestione - Guida Operativa

Sommario. Introduzione 1

TorreBar S.p.A. Svolgimento

03. Il Modello Gestionale per Processi

COMUNICATO STAMPA DEL 23 APRILE 2013

Digital Manufacturing e Industrial IoT: dagli oggetti interconessi alla creazione di valore per l industria

Cos è. Mission & Vision. Attitude in Web, area di IT Attitude, ha competenze specifiche nel settore informatico e nel web marketing.

Figura Evoluzione dei consumi totali di energia elettrica. Figura Ripartizione dei consumi totali di energia elettrica

Oggetto: Diffusione cultura statistica nelle scuole. Disponibilità pacchetti didattici.

CRM / WEB CRM CUSTOMER RELATIONSHIP MANAGEMENT

BUONE PRATICHE DI CUSTOMER SATISFACTION

PROFILO FORMATIVO Profilo professionale e percorso formativo

e-privacy 2012 Open data e tutela giuridica dei dati personali

Transcript:

La rivoluzione dei dati e i sistemi informativi intelligenti. Big data e Linked Open per le decisioni nelle comunità Smart Nuove fonti di dati per nuovi modi di produrre conoscenza. La statisticaal al tempo deibig Stefano De Francisci Istat Direzione centrale per le tecnologie dell informazione e della comunicazione

Big nella Statistica Ufficiale: problemi aperti Quali fonti di dati Big possono avere un ruolo significativo per la Statistica Ufficiale? Come «combinare» l uso dei Big con la Statistica Ufficiale? Quali metodi alternativi a quelli tradizionali per l analisi dei Big? Quali tecnologie Big possono avere un ruolo significativo per la Statistica Ufficiale? Come comunicare agli utenti della Statistica Ufficiale l utilizzo di fonti «non ufficiali»?

Big e la Statistica Ufficiale: Contesto Internazionale Nella visione strategica proposta nel giugno 2011 dall High Level Group for Modernization of Statistical Production and Services (gruppo composto dai presidenti di dieci organizzazioni statistiche nazionali e internazionali) si ricorda che «We are in a changeover from a society with little or no data available to one that has an abundance of data Another important point is that nowadays it is much easier to get data that cover more than the traditional national statistics users would need. We do not, however, have the mechanisms in place to make full use of these data» Nel Working paper di HLG 2013/6 (gennaio 2013) si fa diretto riferimento ai Big : «Apart from generating new commercial opportunities in the private sector, Big data is also potentially very interesting as an input for official statistics; either for use on its own, or in combination with more traditional data sources such as sample surveys and administrative registers»

Principali fonti di dati Big (UNECE) Interactions with news media and social media, job posting Humans interacting with devices (also mobile) produce data: e.g. Blog posts, Twitter messages, User-generated maps Social Networks Human-sourced information Traditional Business systems collected by traditional Systems in a passive mode: e.g. Web search logs, Medical records, Commercial transactions, Banking/stock records Internet of Things Sensors and machines used to measure and record the events and situations in the physical world: e.g. satellite imaging, road & traffic sensors, climate & environmental sensors, etc.

Possibile Uso dei Big nelle Fasi del Processo Statistico Popolazione di rifermento Popolazione indagine (= Frame) Disegno e selez. campione Campione collection Dati (micro & meta) Processi, modelli e stime Analisi Outputs Procedure amm.ve Dati amm.vi Linkage Quadro generale in accordo al GSBPM (Generic Statistic Business Process Model) generation Gen. passiva (sensori, tracking) Gen. Attiva (uso ICT) Internet as Source

Possibile Uso dei Big nelle Fasi del Processo Statistico Impatto dei Big nelle fasi del processo statistico Possibili effetti sui processi Possibile inversione di alcune fasi (Design e Collect) La fase di collezione dati può a volte essere sostituita da quella di generazione dati Possibile collassamento delle fasi di Process e Analyse (possono avvalersi degli stessi metodi) Altre fasi (ad es. Dissemination) non sono ancora coinvolte Possibili effetti sugli scenari Scenario 1: Tecniche alternative di data collection Scenario 2: Uso integrato di Big Scenario 3: Uso di Big in sostituzione delle fonti tradizionali Inversione Collassamento

Scenario 1: Tecniche alternative di data collection Target population Survey population (= Frame) design and selection Sample collection (micro & meta) Process, model and estimate Analysis Outputs generation Passive (sensors, tracking) Active (use of ICT) Big, Internet as Source

Scenario 1: Tecniche alternative di data collection Case study scenario 1: a) Statistiche sui prezzi Scopo: innovazione del disegno d indagine sui prezzi al consumo Tipo di processo: indagine basata su tre canali alternativi di acquisizione dei dati: rilevazione sul campo mediante tablet PC scanner data acquisizione dati via web

Scenario 1: Tecniche alternative di data collection Case study scenario 1: b) Statistiche sui prezzi: focus su Scanner data Gruppi della grande distribuzione: Coop, Conad, Selex, Esselunga, Auchan, Carrefour Prodotti: alimentari e grocery Mercati Primo invio ottobre 2014: Torino, Ancona, Palermo, Piacenza, Cagliari. In seguito: Ravenna, Roma, Bari, Bergamo, Perugia, Napoli, Catania, ecc. Record: Punti Vendita della Grande Distribuzione Variabili: Identificativo, Ragione sociale, Indirizzo, Partita IVA, Ean-code (European Article Number), Quantità venduta, Fatturato (IVA inclusa), ecc.

Scenario 2: Uso integrato di Big Target population Survey population (= Frame) design and selection Sample collection (micro & meta) Process, model and estimate Analysis Outputs Admin.ve procedure Admini.ve data Linkage generation Passive (sensors, tracking) Active (use of ICT) Big, Internet as Source

Case study Scenario 2: a) Persons & Places Scenario 2: Uso integrato di Big Scopo: Analisi della mobilità sul territorio mediante telefonia mobile, finalizzata alla costruzione della matrice originedestinazione della mobilità giornaliera per motivi di studio e lavoro a livello comunale Tipo di processo: uso integrato dei amministrative Big con fonti Attori coinvolti nel progetto: Istat, CNR, Università di Pisa Metodologia Inferenza sui profili di mobilità della popolazione tramite GSM Call Detail Records (CDR) Confronto con i dati derivati da fonti amministrative

Case study Scenario 2: b) Statistiche sulle forze di lavoro Scopo: test sull utilizzo di Google Trends per la produzione integrata di stime per nowcasting e forecasting sul mercato del lavoro Tipo di processo: uso della serie storica delle query share («lavoro», «offerte lavoro») estratte da Google Trend come variabili ausiliarie per migliorare la precisione delle stime mediante stime da modello: stime anticipate, previsioni, stime per piccole aree del tasso di disoccupazione Attori coinvolti nel progetto: Istat (Settore studi metodologici e indagine sulle forze di lavoro) Metodologia Scenario 2: Uso integrato di Big Confronto tra modello autoregressivo e utilizzo di Google Trends come modello predittivo Estensione del confronto ai modelli di predizione macroeconomica

Scenario 3: Uso di Big in sostituzione delle fonti tradizionali Target population Survey population (= Frame) design and selection Sample collection (micro & meta) Process, model and estimate Analysis Outputs generation Passive (sensors, tracking) Active (use of ICT) Big, Internet as Source

Scenario 3: Uso di Big in sostituzione delle fonti tradizionali Case study scenario 3: Indagine sull uso di ICT nelle imprese Scopo: Valutare la possibilità di adottare tecniche di Web scraping e text mining per stimare l uso di ICT da parte delle imprese e delle pubbliche amministrazioni tramite il reperimento di alcune variabili del questionario direttamente dal Web in sostituzione delle risposte al questionario Attori coinvolti nel progetto: Istat, Cineca Stato: Analizzati 8.600 website (campione rispondenti indagine ICT che hanno dichiarato di avere siti web) Metodologia: Scraping dei siti Web per estrarre dati riferibili ad alcune domande del questionario (ad es. E-commerce) Tecniche di classificazione supervisionata

FONTI ISSUES IT STATISTICA IMPATTO SUI PROCESSI DI PRODUZIONE Scenari d uso dei Big nella statistica: quadro di riepilogo ORGANIZZAZIONE Privacy 1: Persons&Places 2: Google Trends 3: Uso ICT Human-sourced Traditional Business Machine-generated data information Systems Applicazioni Smart sensing Identificazione di Pattern su tracking data Record linkage e Statistical matching Popolazione di riferimento non omogenea Controllodi qualitàsui risultati Impattoconsiderevole sul processo di produzione : fonti big integrate con fonti amm.ve Acquisizionee processo di Search Aumento performance delle previsioni(e.g., errore quadratico medio) Accesso ai risultati delle ricerche su Web Impatto limitato sul processo di produzione : coinvoltafasedi stima Web Scraping Meta-searching Text mining Accesso ai siti Web Impattolimitatoo considerevole: stessi processiapplicatia fonti distinte

Big, Open, Smart City Open Now, Joel Gurin

Open in Istat Census LOD

Da tre archivi separati Dallo scenario tradizionale allo scenario LOD via ontologie Ontologia Territorio Ontologia Popolazione Ontologia Abitazioni Ontologia Famiglie e triple store, RDF, Endpoint SPARQL fino al grafo LOD di link e navigazione

Un esempio di LOD statistici Modello e formato dei dati: Grafo RDF Linguaggio di interrogazione: SPARQL Struttura semantica/schema: Ontologia OWL

LOD statistici: punti di forza Base di dati integrata (per via semantica): Consente accesso unificato a dati su Web Fruizione diretta e flessibile da tipologie diverse di utenti (protezione civile, giornalisti, enti pubblici, ) Possibilità di costruire servizi sui dati: Visualizzazione avanzata (grafici, tabelle, etc.) Interfaccia per interrogazioni predefinite e guidate Interrogazione libera Output per comunicazione machine-to-machine

Spunti conclusivi 1) Smart city vuol dire esigere e disporre sempre più di dati veloci, vari e voluminosi che possono essere impiegati in ambito statistico, pur non essendo nativamente dati statistici, adeguando le metodologie e sfruttando le nuove tecnologie 2) Di converso, l uso statistico delle nuove fonti di dati Big, di tutti e tre i tipi considerati, può arricchire sensibilmente la conoscenza dei fenomeni urbani, economici e sociali aprendo prospettive finora non considerate. Ad es.: analisi dei prezzi su diverse granularità di scala territoriale, temporale e "categoriale" analisi della mobilità rilevata direttamente (sensori o dispositivi mobili) acquisizione diretta di dati dal Web (Internet as Source) nowcasting e previsioni real-time 3) Se i Big contribuiscono ad arricchire e perfezionare le fasi di collezione, validazione e analisi dei dati, l'utilizzo dei LOD (parte di IoT) si riflette sulle fasi di condivisione, integrazione e diffusione dell informazione statistica favorendo la sua trasformazione in conoscenza