Progetti Big Data nell ambito delle Analisi Fiscali
Chi è SOSE E una S.p.A. partecipata dal Ministero dell Economia e Finanze (88%) e dalla Banca d Italia (12%) Operativa dal 2002 Sede a Roma 140 dipendenti E il partner metodologico per realizzare: Studi di settore Analisi fiscali Fabbisogni standard per Comuni, Province e Regioni
PANORAMICA DELL ORGANIZZAZIONE STATISTICA COMPLESSA ANALISI MICRO- ECONOMICA ICT SVILUPPO BUSINESS
PANORAMICA DELL ORGANIZZAZIONE TEAM ETÀ 25% 75% Line Staff 48% 52% Meno di 35 anni Altri SESSO SCOLARIZZAZIONE 15% 42% Donne Laureati 58% Uomini Diplomati 85%
Big Data & ETL EDWSTG EDWPUB Archivi Agenzia delle Entrate Fonti Esterne Altri Archivi SOSE Metadati Big Data Cluster HADOOP (HBASE) (12 nodi) EDW_LOAD SERVIZI: Cleansing Standardizzazione Conformità Mascheramento DATA STORED: FlatFile Tabelle Relazionali METADATI EDW_ANON SERVIZI: Applicazione regole business Realizzazione Data Mart DATA STORED: Star Schema EDW_PUB SERVIZI: Pubblicazione dati. Owner Dati DATA STORED: Data Mart Dati di dettaglio EDW_GEO SERVIZI: Owner Dati Geo Spaziali DATA STORED: Star Schema F_STD_PUB SERVIZI: Pubblicazione dati Federalismo DATA STORED: Star Schema Altri Schema dedicati SERVIZI: Altre viste sui dati Output Dashboard Analisi Statistica Data Discovery Analisi metodologica Visual Analytics (6 TB)
Big Data & Hadoop& SNA HADOOP HDFS 2 Nodi Virtuali: - 4 Processori - 4 GB Ram Clienti -> Fornitori MAPREDUCE Fornitori -> Clienti 7,2 GB di dati Circa 5,4 milioni di nodi Totale relazioni: 140 milioni Apache Giraph
Processo di MapReducing Processo INPUT-Caricamento dati (archivi clienti e fornitori) su BigData(HDFS) Filtro sugli archivi e utilizzo dei campi Imponibile, Identificativo contribuente, Identificativo cliente/fornitore, individuazione delle relazioni univoche (MAPPING) Sortingdelle relazioni più unione dei record con la stessa chiave (SHUFFLING) Sulle relazioni univoche vengono effettuate delle operazioni di aggregazione (REDUCING), es. sommando gli imponibili o aggregazione delle categorie ATECO
Social Network Attributi e Metrica CD ( Pk ) = a( p i= 1 Degree Centrality Numero di connessioni dirette che un nodo possiede. E importante avere un numero molto alto di connessioni. Nel nostrocaso più è alto il numero di connessioni più è alto il numero di transazioni economiche (es. attività di tipo commerciale). Il risultato deve essere confrontato con il totale degli imponibili per soggetto. Questa può essere estesa ai grafi pesati, utilizzando la somma dei pesi delle relazioni. n i, p k )
Social Network Attributi e Metrica Betweenness Centrality Misura la strategicità di un nodonella rete tra (between) due aree importanti della stessa. Un nodo con una elevata BC ha una grande influenza nel flusso di informazioni. Ad es. il fornitore/cliente unico di una determinata categoria merceologica o unicità di presenza nel territorio. b a C d e f g h
Risultati Relazioni univoche tra codici Ateco, ogni relazione ripetuta è raggruppata ed eseguita la somma delle relative transazioni, la relazione viene intesa con una direzione specifica. Il primo Atecoè relativo al Cliente, il secondo Atecoè relativo al fornitore: Tempi: Elaborazione eseguita in 6 minper 1 file di 7.12 GB con 147.000.000 record Risultato 1 file di 15.89 MB con 840.000 record Metriche calcolate: In-Degree Out-Degree Page Rank Componenti connesse (sottoreti) Map-Reduce (30 minuti) Componenti connesse Giraph(10 minuti)
Best Practices Utilizzo di Hadoopper leggere e analizzare i file di dati. Sviluppare algoritmi MapReduce(R o Java) per contare il numero di edgesassociati ad ogni nodo: degree.v<-mapreduce(edge.list, map=function(k,v) keyval(v[2],1), reduce=function(k,v) keyval(k,length(v))) from.dfs(degree.v)[[1]] Utilizzare R o Java con algoritmi SNA o dei Grafi per effettuare analisi sui risultati ottenuti dal MapReducing
Bibliografia e strumenti http://www.cloudera.com http://hadoop.apache.org/ http://graphstream-project.org/ http://thinkaurelius.com/blog/ http://blog.piccolboni.info/ http://www.revolutionanalytics.com/ http://mahout.apache.org/ http://www.neo4j.org/ Social Network Analysis Utilizing Big Data Technology - Jonathan Magnusson Uppsala University Analisi della Dinamica della Centralità Commerciale Italiana Andrea Accatoli