Sviluppi Big per le Analisi statistiche Alessandra Fasano e Nadia Mignolli Dipartimento per l integrazione, la qualità e lo sviluppo delle reti di produzione e ricerca (DIQR) dell Istituto Nazionale di Statistica (Istat) Ufficio di supporto tecnico-scientifico del Direttore (DIQR/U) Roma, 17 Ottobre 2013
In questa presentazione Sistema di Governance dell Istat Big : opportunità metodologiche Impatto dei Big sul processo di produzione Tassonomia dei metodi Sperimentazioni dell Istat nel breve periodo Big : le sfide più importanti per l Istat
Sistema di Governance dell Istat Una Commissione Tecnico-Scientifica su Big Per definire e guidare la strategia dell Istituto, coordinata dall Istat con la partecipazione del Consiglio Nazionale della Ricerca (CNR), di alcune università italiane, della Banca d Italia, di istituzioni private e di altri esperti Un Gruppo di Lavoro interno A supporto della Commissione, con la partecipazione di ricercatori ed esperti dell Istat Diversi Protocolli di ricerca e Accordi Per collaborare attivamente con altri enti di ricerca e con le università
Big : Nuove Opportunità Produzione di informazioni su nuove variabili Miglioramento di campioni, imputazione e stime Aumento delle potenzialità di registri e indagini Miglioramento delle stime per piccole aree Nowcast e forecast di aggregati statistici Supporto alla valutazione della qualità Perfezionamento della gestione dei processi Individuazione di nuove esigenze degli utenti
Impatto dei Big sul processo di produzione Big data collection (web scraping, using new data sets) Estimation (nowcast, forecast, modelbased and small area estimates) Also using auxiliary administrative variables
Tassonomia dei Metodi: Quadro Generale Target Passive (sensors, tracking) Big, Internet as Source generation Active (use of ICT) Survey (= frame) Administrative procedure Admin.ve data Linkage Statistical information Sample design and selection Collection (micro and meta) Processing, modelling and estimation
Tassonomia dei Metodi (I): Tecniche Alternative per la Raccolta dei Dati Target Passive (sensors, tracking) Big, Internet as Source generation Active (use of ICT) Survey (= frame) Advanced tools for Collection Statistical information Sample design and selection Collection (micro and meta) Processing, modelling and estimation
Tassonomia dei Metodi (II): Uso Integrato Target Passive (sensors, tracking) Big, Internet as Source generation Active (use of ICT) Survey (= frame) Linkage Statistical information Sample design and selection Collection (micro and meta) Processing, modelling and estimation
Tassonomia dei Metodi (III): Big in Sostituzione dei Dati Tradizionali Target Passive (sensors, tracking) Big, Internet as Source generation Active (use of ICT) Statistical information (micro and meta) Processing, modelling and estimation
Sperimentazioni dell Istat nel breve periodo Uso di tecniche web scraping e machine learning per migliorare le Indagini Istat: Rilevazione sulle tecnologie dell informazione e della comunicazione nelle imprese e nelle pubbliche amministrazioni; Indice dei Prezzi al Consumo Uso delle interrogazioni di Internet come informazioni ausiliarie (Google trends) per nowcasting e forecasting (Indicatori del Mercato del Lavoro) Uso delle footprint generate dai tracking device (cellulari GSM, GPS) per individuare i bacini di movimento che possono essere utilizzati, ad esempio, per ridefinire i Sistemi Locali (Persons and Places)
Aree di Interesse nel Prossimo Futuro Statistiche su tematiche di interesse: possibilità di analisi dei messaggi disponibili sui social media o delle Internet queries (Google Trends), per migliorare indicatori statistici su aree specifiche, ad esempio le attività del tempo libero, etc.. Indicatori di benessere: attraverso l analisi dei messaggi dai social network (quelli di Facebook sono più difficili da reperire, mentre quelli di Twitter sono disponibili a tutti) Misura e monitoraggio del fenomeno Smart City: una tematica multidimensionale che richiede la disponibilità di dati tempestivi e a livello locale, che possono essere prodotti attraverso l integrazione di Statistiche ufficiali, Archivi amministrativi, Big
Big : le Sfide più Importanti per l Istat Legislazione per l accesso e l uso dei dati Privacy e protezione dei dati, rispetto al riuso delle informazioni, al link e all integrazione con altre fonti Modalità di accesso ai Big (forniture dai mobile provider) Rapporto costi/benefici Qualità di dati generati da eventi non pianificati e conseguente necessità di adattamento/aggiornamento dei metodi statistici Impatto sull organizzazione e sulla produzione dei dati Information Technology
Grazie per l attenzione Contatti: fasano@istat.it mignolli@istat.it www.istat.it