Progetti Big Data nell ambito delle Analisi Fiscali



Documenti analoghi
Riccardo Dutto, Paolo Garza Politecnico di Torino. Riccardo Dutto, Paolo Garza Politecnico di Torino

Dispensa di database Access

Database. Francesco Tapparo Informatica e Bioinformatica /16

Il data warehouse all interno del sistema CRM di Cerved B.I.

INERTE. L applicativo per l automazione delle CAVE. add-on del gestionale. Pagina 1-07/11/07

Strutturazione logica dei dati: i file

Business Process Management

SQL Server Integration Services. SQL Server 2005: ETL - 1. Integration Services Project

Dal dato alla Business Information!

Business Intelligence Revorg. Roadmap. Revorg Business Intelligence. trasforma i dati operativi quotidiani in informazioni strategiche.

Organizzazione della memoria

I processi decisionali all interno delle coppie

IL PARTNER PER LE IMPRESE ITALIANE NEL MONDO

SCONTI BANCOPOSTA QUI! GROUP E BANCOPOSTA INSIEME PER LO SVILUPPO DEL BUSINESS

INDICOD-ECR Istituto per le imprese di beni di consumo

Roberto Luongo, Direttore Generale Agenzia ICE

Sistemi di elaborazione delle informazioni

HBase Data Model. in più : le colonne sono raccolte in gruppi di colonne detti Column Family; Cosa cambia dunque?

Corso di Access. Prerequisiti. Modulo L2A (Access) 1.1 Concetti di base. Utilizzo elementare del computer Concetti fondamentali di basi di dati

GUIDA AL PRODOTTO PRESENTAZIONE MEXAL JUNIOR. il gestionale affidabile e flessibile come la tua azienda

Presentazione della Società. Novembre 2015

STUDIO DI SETTORE UK27U ATTIVITÀ EDIZIONE DI GIOCHI PER COMPUTER ATTIVITÀ EDIZIONE DI ALTRI SOFTWARE A

Versione 2015I PROTOCOLLO: CRS/SG-PAC/151021

Come archiviare i dati per le scienze sociali

Sistemi avanzati di gestione dei Sistemi Informativi

Statistiche Release 4.0

SUPPORTO F24 MAGNETICO

MarkOP GESTIONE INTEGRATA MARKETING OPERATIVO

RISCOSSIONE TRAMITE MODELLO F24 IMPOSTA SUI PREMI DELLE ASSICURAZIONI RC AUTO CONTRIBUTO SSN SUI PREMI DELLE ASSICURAZIONI RC AUTO

SQL Server Integration Services. Integration Services Project

Gestione catalogo e ordini

2- Identificazione del processo. (o dei processi) da analizzare. Approcci: Esaustivo. In relazione al problema. Sulla base della rilevanza

Sistemi informativi secondo prospettive combinate

USCI COVEGNO NAZIONALE

Cosa è un data warehouse?

TRACCIABILITÀ DEI FLUSSI FINANZIARI

STUDIO DI SETTORE UK16U ATTIVITÀ ATTIVITÀ AMMINISTRAZIONE DI CONDOMINI E GESTIONE DI BENI IMMOBILI PER CONTO TERZI

Data mining. Vincenzo D Elia. vincenzo.delia@polito.it. DBDMG - Politecnico di Torino

PROGRAMMAZIONE MODULARE DI INFORMATICA CLASSE QUINTA - INDIRIZZO MERCURIO SEZIONE TECNICO

Ing. Gianluca Murgia. Milano 29/04/2009

Workshop PTA azione 5 WebGis Soluzione WebGis Regione Lombardia

F24 WEB PAGAMENTO ELETTRONICO IMPOSTE E CONTRIBUTI

IDENTIFICAZIONE DEI BISOGNI DEL CLIENTE

SPESOMETRO. 2. Parametrizzazione Dal menu principale Spesometro lanciare il menù Archivi di base.

Violazione dei dati aziendali

Piattaforma Applicativa Gestionale. Statistiche. Release 7.0

CHIUSURE di MAGAZZINO di FINE ANNO

Processi. Social Media Web Blog Siti di news Forum. KPI Benchmark Dinamiche di rete (SNA) Alert Sentiment analysis Influencers detractor Social CRM

Marketing relazionale

STUDIO DI SETTORE TG94U ATTIVITÀ PRODUZIONI CINEMATOGRAFICHE E DI VIDEO DISTRIBUZIONI CINEMATOGRAFICHE E DI VIDEO ATTIVITÀ RADIOTELEVISIVE

Ministero dell Istruzione, dell Università e della Ricerca. Allegato 9 - Profili Professionali

Introduzione ad OLAP (On-Line Analytical Processing)

Sistemi di Raccomandazione in Contesti Aziendali

Cosa è un foglio elettronico

NodeXL: l amo delle Reti Sociali

Suggerimenti per l approccio all analisi dei dati multivariati

Introduzione all Architettura del DBMS

Decision Support System Manuale Utente (versione light)

Talend Open Studio. Esperienze di utilizzo di ETL in DCSC. Andrea Libratore e Daniele Frongia (DCSC/A)

MODULO 5 Appunti ACCESS - Basi di dati

Big Data e archivi dell Amministrazione finanziaria: metodologie innovative di analisi e integrazione, potenzialità e limiti

1 CARICAMENTO LOTTI ED ESISTENZE AD INIZIO ESERCIZIO

Documento non definitivo

Progettazione di un Database

STUDIO DI SETTORE SG87U ATTIVITÀ CONSULENZE FINANZIARIE ATTIVITÀ ATTIVITÀ DEGLI AMMINISTRATORI DI SOCIETÀ

La Social Network Analysis applicata alla ricerca semantica

Gestione del workflow

Structural analysis of behavioral networks from the Internet

Servizio. Indagini Finanziarie web

Database. Si ringrazia Marco Bertini per le slides

INFORMATICA. Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE.

Guest in Toscana. Confcommercio Siena 6 giugno 2013 LE NOVITÀ DELLA PIATTAFORMA DI PRENOTAZIONE E LE INTERAZIONE CON LE IMPRESE. mercoledì 5 giugno 13

LA SOLUZIONE. EVOLUTION, con la E LA TECNOLOGIA TRASPARENTE IL SOFTWARE INVISIBILE INVISIBILE ANCHE NEL PREZZO R.O.I. IMMEDIATO OFFERTA IN PROVA

L USO DEL CALCOLATORE

I database relazionali (Access)

COVIAGGI NETWORK HAI GIÀ UN AGENZIA DI VIAGGI? ENTRA IN COVIAGGI NETWORK E APPROFITTA DELLE NOSTRE OPPORTUNITÀ!

Gli obblighi di diligenza Tutto ciò che i nostri clienti dovrebbero sapere

Ministero dell Economia e delle Finanze

Edok Srl. FatturaPA Light. Servizio di fatturazione elettronica verso la Pubblica Amministrazione. Brochure del servizio

Reti di Telecomunicazioni 1

EyesCloud. Il mini gestionale Cloud

La Videosorveglianza Criteri per il dimensionamento dello storage

puoi stampare il modulo M.U.D., comprensivo delle informazioni relative al produttore;

Data Mining a.a

ITI M. FARADAY Programmazione modulare a.s

Architetture Informatiche. Dal Mainframe al Personal Computer

Architetture Informatiche. Dal Mainframe al Personal Computer

Archivi e database. Prof. Michele Batocchi A.S. 2013/2014

Presentazione MyMailing 3.0

PROCEDURE - GENERALITA

Il budget può essere visto con gli occhi dell erogatore dei finanziamenti (donatore, agenzia di controllo, stato locale) o con quelli di chi lo deve

La valutazione degli aiuti alle imprese per le attività di ricerca e sviluppo Marta Scettri Serv. statistica e valutazione degli investimenti

Il foglio elettronico. Excel PARTE

ISTRUZIONI SULLE OPERAZIONI DI CAMBIO ANNO CONTABILE 2005/2006 LIQUIDAZIONE IVA - STAMPA REGISTRI - CHIUSURA/APERTURA CONTI

Procedura Gestione Pratiche Sicurezza Cantiere

Valutazione del personale

Giuseppe Pigola Dipartimento di Matematica e Informatica Università di Catania Italy

Corso di Informatica

Ideato per agevolare l analisi della profondità di carbonatazione del calcestruzzo armato, permette in modo automatico di svolgere diverse funzioni:

La soluzione ad ogni problema contabile

Transcript:

Progetti Big Data nell ambito delle Analisi Fiscali

Chi è SOSE E una S.p.A. partecipata dal Ministero dell Economia e Finanze (88%) e dalla Banca d Italia (12%) Operativa dal 2002 Sede a Roma 140 dipendenti E il partner metodologico per realizzare: Studi di settore Analisi fiscali Fabbisogni standard per Comuni, Province e Regioni

PANORAMICA DELL ORGANIZZAZIONE STATISTICA COMPLESSA ANALISI MICRO- ECONOMICA ICT SVILUPPO BUSINESS

PANORAMICA DELL ORGANIZZAZIONE TEAM ETÀ 25% 75% Line Staff 48% 52% Meno di 35 anni Altri SESSO SCOLARIZZAZIONE 15% 42% Donne Laureati 58% Uomini Diplomati 85%

Big Data & ETL EDWSTG EDWPUB Archivi Agenzia delle Entrate Fonti Esterne Altri Archivi SOSE Metadati Big Data Cluster HADOOP (HBASE) (12 nodi) EDW_LOAD SERVIZI: Cleansing Standardizzazione Conformità Mascheramento DATA STORED: FlatFile Tabelle Relazionali METADATI EDW_ANON SERVIZI: Applicazione regole business Realizzazione Data Mart DATA STORED: Star Schema EDW_PUB SERVIZI: Pubblicazione dati. Owner Dati DATA STORED: Data Mart Dati di dettaglio EDW_GEO SERVIZI: Owner Dati Geo Spaziali DATA STORED: Star Schema F_STD_PUB SERVIZI: Pubblicazione dati Federalismo DATA STORED: Star Schema Altri Schema dedicati SERVIZI: Altre viste sui dati Output Dashboard Analisi Statistica Data Discovery Analisi metodologica Visual Analytics (6 TB)

Big Data & Hadoop& SNA HADOOP HDFS 2 Nodi Virtuali: - 4 Processori - 4 GB Ram Clienti -> Fornitori MAPREDUCE Fornitori -> Clienti 7,2 GB di dati Circa 5,4 milioni di nodi Totale relazioni: 140 milioni Apache Giraph

Processo di MapReducing Processo INPUT-Caricamento dati (archivi clienti e fornitori) su BigData(HDFS) Filtro sugli archivi e utilizzo dei campi Imponibile, Identificativo contribuente, Identificativo cliente/fornitore, individuazione delle relazioni univoche (MAPPING) Sortingdelle relazioni più unione dei record con la stessa chiave (SHUFFLING) Sulle relazioni univoche vengono effettuate delle operazioni di aggregazione (REDUCING), es. sommando gli imponibili o aggregazione delle categorie ATECO

Social Network Attributi e Metrica CD ( Pk ) = a( p i= 1 Degree Centrality Numero di connessioni dirette che un nodo possiede. E importante avere un numero molto alto di connessioni. Nel nostrocaso più è alto il numero di connessioni più è alto il numero di transazioni economiche (es. attività di tipo commerciale). Il risultato deve essere confrontato con il totale degli imponibili per soggetto. Questa può essere estesa ai grafi pesati, utilizzando la somma dei pesi delle relazioni. n i, p k )

Social Network Attributi e Metrica Betweenness Centrality Misura la strategicità di un nodonella rete tra (between) due aree importanti della stessa. Un nodo con una elevata BC ha una grande influenza nel flusso di informazioni. Ad es. il fornitore/cliente unico di una determinata categoria merceologica o unicità di presenza nel territorio. b a C d e f g h

Risultati Relazioni univoche tra codici Ateco, ogni relazione ripetuta è raggruppata ed eseguita la somma delle relative transazioni, la relazione viene intesa con una direzione specifica. Il primo Atecoè relativo al Cliente, il secondo Atecoè relativo al fornitore: Tempi: Elaborazione eseguita in 6 minper 1 file di 7.12 GB con 147.000.000 record Risultato 1 file di 15.89 MB con 840.000 record Metriche calcolate: In-Degree Out-Degree Page Rank Componenti connesse (sottoreti) Map-Reduce (30 minuti) Componenti connesse Giraph(10 minuti)

Best Practices Utilizzo di Hadoopper leggere e analizzare i file di dati. Sviluppare algoritmi MapReduce(R o Java) per contare il numero di edgesassociati ad ogni nodo: degree.v<-mapreduce(edge.list, map=function(k,v) keyval(v[2],1), reduce=function(k,v) keyval(k,length(v))) from.dfs(degree.v)[[1]] Utilizzare R o Java con algoritmi SNA o dei Grafi per effettuare analisi sui risultati ottenuti dal MapReducing

Bibliografia e strumenti http://www.cloudera.com http://hadoop.apache.org/ http://graphstream-project.org/ http://thinkaurelius.com/blog/ http://blog.piccolboni.info/ http://www.revolutionanalytics.com/ http://mahout.apache.org/ http://www.neo4j.org/ Social Network Analysis Utilizing Big Data Technology - Jonathan Magnusson Uppsala University Analisi della Dinamica della Centralità Commerciale Italiana Andrea Accatoli