Tool per il Data Warehousing: HIVE

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Tool per il Data Warehousing: HIVE"

Transcript

1 Scuola Politecnica e delle Scienze di Base Corso di Laurea in Ingegneria Informatica Elaborato finale in Basi di Dati Tool per il Data Warehousing: HIVE Anno Accademico 2013/2014 Candidato: Antonio Bosco matr. N

2 Un ringraziamento alla mia fantastica famiglia, che mi ha sempre incoraggiato e sostenuto, anche nei momenti difficili. Un ringraziamento alla mia inseparabile ragazza che ha sempre creduto in me. Questa vittoria la dedico a tutti loro.

3 Indice Indice..III Introduzione.4 Capitolo 1: Data Warehouse Cos'è un Data Warehouse: definizione Struttura di un Data Warehouse Tipi di dati Business Intelligence e Tecniche di analisi OLAP ed analisi multidimensionale...9 Capitolo 2: BIG DATA Definizione e caratteristiche Gestione Big Data Limiti di gestione con gli RDMBS Nuove tecnologie di gestione: NoSQL, MPP e MapReduce...14 Capitolo 3: Hive: SQL-HADOOP based DWH Infrastruttura base di Hive: Hadoop Hadoop distributed file system: HDFS Hadopp MapReduce e YARN HIVE: funzionamento e performance Hive: funzionalità aggiuntive rispetto Hadoop Funzionamento ed utilizzo di Hive HIVE: performance e tempi di risposta Hive vs Relational Data Warehouse Conclusioni...26 Bibliografia...27

4 Introduzione Sin dagli arbori dell umanità, c'è sempre stata la necessità di conservare in un luogo sicuro informazioni e dati, ai fini di riprodurli, consultarli o gestirli. Tale affermazione era contenuta nella famosissima frase degli antichi latini : Verba volant, scripta manent. Prima su registri cartacei, ora tutto in formato digitale. Il compito di archivio di dati, nel quale le informazioni sono contenute in modo strutturato, e collegate tra di loro attraverso un modello logico (nel più dei casi relazionale), è adempiuto dai Database. L esponenziale crescita di Internet ha comportato un aumento dei dati da archiviare sul web (e nel mondo intero) di dimensioni spropositate (ordine degli Zettabytes). L utilizzo di un singolo database, con tecniche per analisi dei dati di tipo OLTP, e cioè Online Transaction Processing è stata ritenuta inefficiente con l avvento di questo Data Set. Con il sopraggiungere di ciò che è chiamato BIG DATA si è avuta la necessità di trovare un metodo nuovo e maggiormente performante per riuscire ad analizzare questa ingente quantità di dati. Nasce così il concetto di DATA WAREHOUSE. Un DWH è un archivio di dati, che nasce con lo scopo di gestire un enorme data set per un analisi di tipo OLAP, e cioè Online Analytical Processing. Sono nati così software atti alla gestione di questi ingenti quantità di dati che sfruttano la potenza di calcolo di nodi paralleli sulla rete per permettere l analisi dei BIG DATA. Architetture distribuite in parallelo sono offerte da MapReduce di Google, e dalla sua implementazione open source Apache Hadoop, sul quale si basa APACHE HIVE. 4

5 Capitolo 1: Data WareHouse Un Data Warehouse è un archivio informatico introdotto come strumento per le aziende per facilitare l'utilizzo delle informazioni contenute nei loro archivi e per migliorare il raggiungimento degli obiettivi aziendali. 1.1 Cos'è un Data WareHouse: definizione Un Data Warehouse è un archivio di dati " integrato, variabile nel tempo, non volatile ed orientato al soggetto" in supporto al processo decisionale aziendale [1]. Dalla definizione si può appurare che un DWH deve essere: Integrato: un sistema aziendale presenta diversi sistemi classici transazionali, i quali forniscono i dati al nostro DWH. Questo implica che i dati presenti nel nostro DWH sono estremamente disomogenei tra di loro. Ciò risulterebbe un problema poichè potrebbe essere motivo di inconsistenza tra i dati. Proprio per questo, una volta che i dati sono arrivati al DWH, devono essere "filtrati" in modo da "integrarli" tra loro secondo particolari strutture di condifica e convenzioni sui nomi al fine di renderli omogenei. Tutto ciò è trasparente al DSS ovvero al processo decisionale aziendale. Tempo variabile: i dati contenuti in un DWH corrispondono ad un ampio arco temporale. Infatti essi si riferiscono ad un lungo periodo, generalmente molto esteso (5 o 10 anni) nel quale sono immagazzinati tutti i dati provenienti dai classici sistemi OLTP. Le informazioni sono, quindi, aggiornate fino ad una certa data, creando una sorta di archivio "storico" dei dati aziendali, che poi è analizzato dall'azienda. Ciò è in completa contrapposizione con i classici sistemi 5

6 transazionali nei quali i dati sono aggiornati quotidianamente e non hanno informazioni sul passato. Non volatilità: i dati inseriti in un DWH non sono modificabili. Ciò implica che è possibile solo leggere i dati immagazzinati, rendendo notevolmente più semplice l'architettura sotto questo punto di vista. Inoltre non sorgono più i problemi legati all'inconsistenza referenziale dei dati dovuti ad aggiornamenti "errati" (aggiornamento fantasma, perdita di aggiornamento, lettura sporca, lettura inconsistente). Orientata al soggetto: un DWH è orientato verso specifici topic aziendali, che possono comprendere: utenti, prodotti, attività od anche esigenze specifiche di una componente aziendale. Per questo il progetto di un DWH si focalizza esclusivamente sul modello dei dati [2]. Quindi lo scopo non è quello di normalizzare o di ridurre la ridondanza dei dati, come avviene nei normali DB relazionali, ma quello di organizzarli in modo adeguato al fine di poterli rendere consistenti per la produzione di informazioni utili ai fini aziendali. Tale definizione è completamente esente dal concetto di infrastruttura di basso livello che fornisce i dati al nostro sistema: un DWH è "indipendente" dall'architettura utilizzata dai DB operazionali, questo lo rende anche indipendente dalla loro dislocazione fisica (ecco perchè abbiamo anche DB esterni) Struttura di un Data WareHouse Un DWH è basato su un'architettura a livelli, solitamente cinque. Ogni livello comunica solo con il livello immediatamente sottostante e fornisce i servizi al livello sovrastante. I livelli sono divisi in questo modo [2]: Data sources: corrispondono ai sistemi transazionali alla base del nostro DWH. Essi provengono dall'ambiente operativo, e possono essere di svariato tipo. Solitamente i dati vengono prelevati sia da sistemi interni che da sistemi esterni. 6

7 SI evince quindi, come il DWH sia un sistema "parassita", cioè che basa la sua esistenza su sistemi sottostanti. ETL: Extract, Transformation e Loading: E' il livello addetto all' estrazione dei dati dal Data Sources. I sistemi transazionali del Data Sources sono di svariato tipo e seguono convenzioni di codifica e formati differenti, quindi i dati devono essere resi coerenti tra loro. Il livello ETL ha il compito di "estarre, integrare e filtrare " i dati, in modo da "integrarli" e renderli omogenei tra loro. Area staging: è il database che contiene i dati riconciliati ed integrati e costituisce un modello di dati comune per l'azienda (stessa convenzione dei nomi, stessi formati...). Solitamente è progettato come un sistema relazionale. Warehousing Integration: tutti i dati del nostro DWH sono raggruppati qui. Vi troviamo anche i cosidetti "Metadati" e cioè dati che contengono informazioni aggiuntive sulla provenienza, il valore, la funzione e l'utilità delle informazioni contenute nel DWH. Proprio per questo sono chiamati "data about data" cioè fungono da catalogo per i reali dati. Data Marts: nuclei indipendenti di dati "coesi" e "aggregati" relativi ad un particolare soggetto, od area di business. Si collocano a valle di un DWH e ne costituiscono un estratto indipendente dagli altri. Vengono utilizzati per analizzare quel particolare soggetto che descrivono e prendere decisioni in base al suo andamento passato. Strumenti di analisi dei dati: i dati devono essere presentati all'utente finale il quale ha la possibilità di consultarli ai fini (decisionali e/o statisci) aziendali. 7

8 1.1.2 Tipi di dati In un DWH è possibile distinguere vari tipi di "dati" in base al loro arco di validità temporale, al loro livello di dettaglio e alla loro funzione ai fini decisionali. Sono quattro i tipi di dati principali [2]: Dati attuali: sono i dati appena prelevati dai data sources e filtrati attraverso gli ETL. L'attributo "attuale" indica che la loro validità è relativa all'interrogazione corrente. Rispetto ai dati dei sistemi operazionali essi sono stati filtrati e trasformati secondo convenzioni e formati standard nell'azienda. Dati storici: sono i dati che non possono essere indicati come "attuali", ma comunque rientrano nell'interesse temporale analizzato dall'azienda e quindi sono conservati nel DWH. Essi sono memorizzati su devices fisici meno costosi ed impegnativi, poichè meno richiesti rispetto ai primi. Dati coesi ed aggregati: indicano i dati contenuti nei nuclei indipendenti dei data marts. Hanno un elevato grado di coesione e servono per le interrogazioni relative ad un determinato soggetto. Vengono creati per facilitare le richieste in particolari ambiti decisionali, ma sono limitati rispetto all'imprevidibile numero di richieste decisionali che un'azienda si trova ad affrontare, ma ciò non è un problema perchè esse possono essere comunque realizzate attraverso i Dati attuali e storici. Metadati: non corrispondono a dati utili per l'azienda, ma sono delle informazioni riguardo essi. Forniscono dettagli per il "query generation" (ad esempio "Metastore" di Hive) ed il "data management". Presentano anche informazioni sulla funzione di caricamento dei dati dal Data Sources, descrivendone la sorgente di provenienza e le modifiche ad essi apportate. Sono anche utilizzati come "catalogo relazionale" poichè descrivono come sono distribuiti i dati nel DWH. 8

9 1.2 Business Intelligence e Tecniche di analisi "Per 'Business Intelligence' si intende quell'insieme di processi e tecnologie aziendali che permettono di analizzare i dati, al fine di cercare le cause dei problemi di un'organizzazione e gli eventuali fattori di successo, con lo scopo di incrementare il vantaggio competitivo dell'azienda nel mercato" [3]. A supporto di questo processo ci sono analisi OLAP e varie tecniche di analisi multidimensionale su sistemi Data warehouse, ove lo scopo finale è il KDD (Knowdledge discovery in Database), ovvero la conoscenza di alcuni aspetti di interesse attraverso i dati contenuti nel DWH. Una fase rilevante di questo approccio è il "data mining", che indica l'insieme degli algoritmi secondo i quali è possibile estrarre caratteristiche e regole dai dati archiviati. In poche parole il Data mining permette di trovare le "regole nascoste" nelle informazioni e di renderle visibili [2] OLAP ed analisi multidimensionale L'analisi multidimensionale consiste nel considerare i dati archiviati in un DWH e trasformarli in informazioni multidimensionali, dove ogni dimensione riproduce un soggetto di interesse per l'organizzazione. Dapprima vengono stabilite le "dimensioni di interesse", in modo da creare un "(iper)-cubo multidimensionale", ove ogni dimensione geometrica corrisponde ad una di esse. Creato il cubo multidimensionale, è possibile effettuare analisi differenti in base a come esso viene analizzato. Indicate con (X,Y,Z) le dimensioni del cubo, un qualsiasi attributo W può essere ricavato da (X,Y,Z) e corrisponde ai dati di una cella del cubo f : (X,Y,Z) W [4]. L'attributo W dipende dalle tre dimensioni, quindi risulta essere un "sottocubo" (dicing). Spesso si fanno analisi imponendo una delle dimensioni come costante ed analizzando solo le altre due. Questo corrisponde al considerare degli attributi Q che sono delle "fette" (slicing) del cubo. Una rappresentazione comune del cubo è quella che prende in essere le dimensioni: "tempo, mercati geografici e prodotti" [2]. L'analisi di questo cubo permette di stabilire l'andamento dell'organizzazione sulla base di queste tre variabili. Considerando una delle dimensioni costante, si possono analizzare ad esempio l'andamento di vendite di un 9

10 prodotto nei mercati e nel periodo preso in considerazione (prodotto come dimensione costante), oppure analisi su tutti i prodotti e in tutti i mercati (tempo costante), oppure ancora conoscere tutte le vendite di un prodotto su un mercato di competenza (mercato costante) [2]. Oltre alle operazioni di slicing e dicing abbiamo anche operazioni di navigazione nel livello di dettaglio delle informazioni lungo una dimensione (drilldown/roll-up) ed inversione delle dimensioni (Pivot). Le implementazioni di queste analisi dimensionali possono essere sia di tipo MOLAP (MULTIDIMENSIONAL OLAP) ove vengono analizzati su una struttura dati a matrice sparsa tutti i possibili incroci derivanti dalle analisi del cubo dimensionale, e sia di tipo ROLAP (RELATIONAL OLAP) che corrisponde all'organizzazione dei dati su più tabelle relazionali (ad es. Schema a stella basati su tabelle dei fatti e delle dimensioni). Per la Gartner Inc., multinazionale per la consulenza strategica, i sistemi MOLAP sono utilizzati per la cosiddetta "Business View" ovvero sull'analisi dell'andamento aziendale, mentre quelli ROLAP offrono la "System View", cioè una visione più specifica del sistema impedendo l'integrazione e la collaborazione dei progettisti ed i responsabili strategici dell'azienda [2]. 10

11 Capitolo 2: Big Data Per Big Data si intende una collezione di grandissime dimensioni di dati strutturati e non, per la quale i convenzionali metodi di "estrapolazione, gestione ed analisi" in un tempo ragionevole non risultano essere adeguati. L'idea alla base dei big data va ritrovata nella necessità di analizzare, contemporaneamente, un data set molto esteso per ricavare informazioni aggiuntive rispetto all'analisi di piccoli insiemi di dati. Questo permette l'analisi degli "umori" dei mercati, analisi strategiche delle aziende ed altre analisi che coinvolgono un ingente quantitativo di dati. Le dimensioni del dataset da analizzare variano di giorno in giorno e si aggirano intorno agli Zettabytes (miliardi di TB). Ciò mette alla luce che DBMS basati sul modello relazionale non sarebbero mai in grado di analizzare tali tipi di informazioni, ma esiste la necessità di una parallelizzazione dell'analisi e distribuzione del lavoro su più servers indipendendenti per arrivare a tempi di analisi sufficientemente ragionevoli. 2.1 Definizione e caratteristiche E' impossibile stimare una dimensione di riferimento, poiché questa cambia con una grandissima velocità di giorno in giorno. Secondo una ricerca del 2001 [6], Doug Laney definì il modello dei Big Data come un modello tridimensionale, chiamato "3V": nel tempo aumenta il Volume dei dati, la Velocità e la loro Varietà. Successivamente si è avuta la necessità di estendere tale definizione con un'ulteriore "V" intesa come Veridicità di un dato. Ne risulta che le caratteristiche dei Big Data sono divise in questo modo: 11

12 Volume: indica la dimensione del dataset. E' un parametro fondamentale poichè è quello che ci fa capire se un insieme di dati è da considerarsi Big Data o meno. Le dimensioni si aggirano dall'ordine dei Petabytes fino all'ordine degli Zettabytes. Varietà: indica la varietà dei tipi dei nostri dati. E' un aspetto mutevole: i dati provengono dalle più disparate fonti, ciò fornisce un insieme di dati altamente variabile e non strutturati tra loro. Infatti nei Big Data abbiamo molteplici tipi di dati da gestire (foto, video,audio,simulazioni 3D,dati geografici...). Tutti questi dati sono naturalmente non strutturati, e difficilmente gestibili con sistemi RDBMS. Velocità: si riferisce alla velocità di generazione dei dati che di giorno in giorno aumenta in modo spopositato. La presente infografica, ne fornisce una visualizzazione visiva. Ulteriori ricerche hanno evidenziato la necessità di considerare altre caratteristiche: Veridicità: indica quanto è utile un dato, ossia la capacità di fornire informazioni rilevanti ai fini dell'analisi decisionale; Variabilità: indica il grado di "inconsistenza" tra i dati, cioè quanto essi presentano "incoerenze" gli uni dagli altri. Complessità: maggiore è la complessità, maggiore sarà lo sforzo necessario per trarre informazioni utili dai nostri dati. Queste caratteristiche rendono difficile la gestione dei Big Data con i sistemi relazionali classici, e necessitano l'utilizzo di tecniche "ad hoc". 12

13 2.2 Gestione Big Data L'idea alla base della gestione dei Big Data va ritrovata nell'intrinseca necessità di avere una notevole potenza di calcolo per gestire quei dati. Tutto questo può essere garantito solo distribuendo il carico dei dati su migliaia di servers e gestire in parallelo le analisi degli stessi sui vari nodi Limiti di gestione con RDMBS I problemi degli RDBMS nella gestione dei "Big Data" vanno ricercati proprio nelle proprietà intrinseche di questi ultimi. Infatti, i limiti principali sono legati alle grandi dimensioni (Volume) dei Big Data, al fatto che non sono strutturati (Variety), ed alla velocità con la quale crescono (Velocity). Le dimensioni crescenti dei Big Data, che vanno da qualche decina di Petabytes, fino all'ordine di grandezza degli ZettaBytes, rendono gli RDBMS inadeguati per la loro gestione. Infatti i sistemi relazionali sono stati creati per gestire un quantitativo di dati molto più piccolo, e questo potrebbe saturare le CPU dei vari servers. Una soluzione, solo parziale, potrebbe essere quella di aumentare le unità di CPU del management system centrale garantendo una maggiore "scalabilità verticale", ma aumentando anche notevolmente il costo del sistema. Il secondo problema, relativo alla "varietà" dei dati, è un limite difficilmente gestibile dagli RDBMS. Questi ultimi sono basati su un'architettura formata da uno schema relazionale che risulta molto efficiente con informazioni fortemente strutturate, ma la gestione dei dati non strutturati non rientra nel loro ambito. Oggi i dati vengono creati in formato semi-strutturato o non strutturato (social media, foto, video, audio, s ), rendendo quindi molto penalizzante l'utilizzo degli RDBMS per gestirli. Il terzo limite è legato alla velocità di crescita dei dati. Infatti i sistemi relazionali possono gestire solo situazioni per lo più statiche e non scenari di veloce crescita dei dati. Il grandissimo numero di dispositivi che creano dati garantisce una velocità di produzione di essi spropositata e quindi non gestibile da DBMS relazionali. Tutti questi problemi potrebbero trovare parziali soluzioni riprogettando i sistemi relazionali con architetture in parallelo per gestire la velocità di crescita e il grande volume dei dati. Tuttavia la memorizzazione distribuita dei dati 13

14 rimarrebbe ingestita, ed inoltre il problema dei dati "non strutturati" continuerebbe a ledere sull'architettura degli RDBMS. Inoltre sorgono problemi anche riguardo le politiche di sicurezza e consistenza dei dati dei sistemi relazionali: operazioni come "redo, undo, ripresa a caldo e a freddo" sono inutilizzabili con una mole cosi elevata e dinamica di dati. Quindi, gestire i "big data" con sistemi convenzionali risulta da un lato troppo costoso e dall'altro addirittura inefficiente. Nuove tecnologie "ad hoc" sono state pensate per risolvere queste problematiche Nuove Tecnologie di gestione: NoSQL, MPP e MapReduce I Big Data necessitano di tecnologie più performanti per garantire la gestione di una grandissima quantità di dati e dei tempi di risposta tollerabili. I limiti dei sistemi relazionali ci suggeriscono che le tecnologie per gestire i Big Data dovrebbero essere "scalabili orizzontalmente" e non dovrebbero essere legate allo schema relazionale. Soluzioni che rispettano tali problematiche potrebbero essere quelle basate sul "Massive parallel processing" (MPP relazionale e non, come Teradata), e tecnologie basate su file system e database distribuiti (come Hadoop, Hive). NoSQL indica l'utilizzo di databases non relazionali per la gestione dei dati. Esso è legato al "Teorema CAP" secondo il quale "un sistema distribuito può rispettare solo due tra le seguenti tre proprietà: coerenza dei dati, disponibilità di risposta, tolleranza ai guasti" [7]. Non avendo una struttura relazionale, i DB NoSQL gestiscono i dati non strutturati per loro natura e quindi si adattano bene per i Big Data trovando un trade-off tra consistenza, velocità e scalabilità. L'MPP utilizza clusters di unità elaborative per processare i dati in parallelo, per poi unire le risposte in un unico livello. Hadoop, e le sue implementazioni come Hive, utilizzano un HDFS per distribuire i dati su un numero elevato di nodi, e MapReduce per processare in parallelo le richieste e quindi garantire scalabilità e performance sul tempo di esecuzione. MPP e MapReduce hanno molto in comune: entrambi utilizzano un numero elevato di servers per processare le richieste in parallelo. Tuttavia MPP è costituito da clusters di unità elaborative di "fascia alta" e specializzate per questi compiti, risulta quindi molto costoso al crescere della mole di dati. I clusters Hadoop sono basati su unità di 14

15 elaborazione di "commodity" (comuni personal computers ad esempio) e quindi possono crescere all'aumentare dei dati, senza quindi inficiare sui costi effettivi [8]. Un'ulteriore differenza la si nota considerando che le funzioni di MapReduce sono scritte in Java e sono quindi portabili e non legate ad uno schema preciso, come invece lo sono in MPP. Infatti quest'ultimo metodo prevede un'interrogazione basata su query SQL, ed è quindi soggetto alle limitazioni che ne derivano. Ne risulta una maggiore scalabilità a favore di soluzioni basate su Hadoop, rispetto a soluzioni relazionali e/o basate su MPP. Di seguito un grafico che evidenzia sinteticamente la differenza di performance in termini di scalabilità tra un sistema NoSQL ed uno relazionale, al crescere del volume di dati [9]. Si noti come un sistema RDBMS risulti più performante di una soluzione non relazionale in presenza di un carico non voluminoso di dati. Le cose cambiano notevolmente al crescere del volume dei dati. Le spiegazioni di tale andamento saranno ampiamente prese in considerazione nel capitolo 3. 15

16 Capitolo 3: Hive: SQL-HADOOP based DWH Apache Hive è un tool per il data warehousing basato sull'infrastruttura Hadoop. Esso permette di operare con grandi data sets attraverso query ad-hoc in un linguaggio SQL-like. I dati utilizzati da Hive sono memorizzati nel File System HDFS di Hadoop, o in file systems compatibili con esso. E' quindi scalabile, tollerante ai fallimenti e garantisce un certo grado di parallelismo computazionale poichè le richieste, una volta arrivate all'infrastruttura Hadoop, vengono distribuite sui vari nodi che compongono il cluster, e vengono tradotte in funzioni MapReduce. Offre, in aggiunta alle funzionalità di Hadoop, i bridges JDBC e ODBC, interfacce grafiche per l'utilizzo di Hive-QL e svariati drivers per l'ottimizzazione delle query. 3.1 Infrastruttura base di Hive: Hadoop Apache Hadoop è un framework per la gestione affidabile, scalabile e distribuita di grandi quantità di dati. Esso traduce la richiesta di un singolo server, ad un intera collezione di macchine che costituiscono i nodi del nostro cluster. Fu sviluppato da Apache e da Yahoo! nel 2004, ed utilizza HDFS come file system distribuito per archiviare dati non strutturati e sfrutta, invece, la potenza del paradigma MapReduce per parallelizzare l'elaborazione. Hadoop ha un'architettura a livelli. E' composto da quattro moduli, ognuno con un preciso compito: Hadoop common, Hadoop distributed file system, Hadoop Yarn, Hadoop MapReduce. Hadoop Common è il modulo che contiene le librerie utili al nostro software. 16

17 3.1.1 Hadoop distributed file system - HDFS E' il file system di Hadoop, utilizzato quindi, anche da Hive, dato che è stato creato per essere compatibile con diversi prodotti. Garantisce affidabilità, scalabilità e la distribuzione dei files sui vari nodi. Esso deriva dal GFS, ovvero il Google File System. Una particolarità che lo distingue da altri file system distribuiti è la possibilità di supportare un hardware dei vari nodi anche non performante, e cioè macchine di "commodity". La struttura del File System è gerarchica. Essa è formata da vari CLUSTERS HDFS. Ogni cluster è composto da svariate macchine sulla rete. Ognuno di essi contiene un Server, che è formato da una macchina nella quale gira un NameNode. Le altre macchine che compongono il cluster, hanno un solo DataNode e i vari blocchi che compongono i files. L'insieme "DataNode-Nodi" viene chiamato Rack. In ogni cluster ci sono svariati Racks. Il Namenode è addetto all'apertura, chiusura, ed alla eventuale rinominazione di un file, mentre i Datanodes sono addetti alla scrittura ed alla lettura dei file. Importantissimo compito dei Datanodes, su direttiva del Namenode, è quello di applicare delle repliche del file su più nodi, garantendone quindi un alto grado di tolleranza ai fallimenti (Fauttollerance): qualora un nodo fosse "out of service", la richiesta è subito trasferita ad un nodo differente che presenta una replica di quel file. L'implementazione dei NameNodes e DataNodes è in Java, garantendo un'interoreperibilità ed una portabilità su qualunque macchina abbia una JVM. Ogni DataNode ha una socket aperta col NameNode ed è in "polling" continuo chiedendo direttive sul da farsi, utilizzando un protocollo "blockbased" proprietario [10]. I Clients contattano i NameNodes, i quali impartiscono istruzioni ai DataNodes che li hanno contattati. Il protocollo di comunicazione è basato su TCP/IP. Ogni client ha una connessione TCP attiva con il NameNode e comunica con esso attraverso un protocollo RPC proprietario (Remote protocol communication)[10]. Le funzioni per i client sono quelle di un qualsiasi file system: crea, rimuovi, sposta, rinomina, ma non modifica. Esso è anche compatibile con altri file system in rete. Pechè HDFS è utilizzato come file system in tool per il datawarehousing, come HIVE? La motivazione va ricercata nella sua naturale predisposizione a supportare file di grandissime dimensioni, e nell'altissimo grado di tolleranza ai fallimenti. 17

18 Tool come HIVE, hanno bisogno di scrivere i file una sola volta (write-once), ma compiono numerosissime operazioni di lettura (read-many), necessitando di essere soddisfatte in un certo intervallo di tempo. HDFS divide i file in chunks (blocchi) di 64 MB, distribuendoli nei vari nodi del cluster, e se possibile, ogni chunk su un DataNode, in modo da incrementarne il parallelismo nei trasferimenti. La "fault tollerance" viene garantita dalla presenza continua di messaggi, chiamati "Heartbeat" da parte dei DataNodes al NameNode corrispondente: in assenza di tale notifica, il DataNode, con i relativi blocchi di file, viene cancellato dalla gerarchia dell'hdfs, e quindi il NameNode non vi invierà più alcuna richiesta. Se il numero di repliche dei blocchi persi è inferiore ad un valore minimo, il NameNode provvede a crearne nuove repliche per riparare la situazione Hadoop MapReduce e YARN Hadoop implementa il paradigma MapReduce per gestire la grande quantità di dati e parallelizzare l'elaborazione. Strettamente collegata all'hdfs, su ogni nodo di ogni cluster girano due processi, "Mapper" e "Reducer". Ogni blocco di file può essere visto logicamente come composto da vari record di dati: ogni record viene "mappato" in una tupla, od anzi, una coppia (chiave, valore) dal processo Mapper. map(key1,value) -> list<key2,value2> L'output può avere una chiave differente dall'ingresso, e possono esserci più tuple con la stessa chiave. L'insieme delle tuple di output, diventa l'input per il processo Reducer: esso riceve tutte le tuple con la stessa chiave e le "riduce", cioè le aggrega in una lista. 18

19 reduce(key2, list<value2>) -> list<value3> L'output di tale processo è un file contenente questo insieme di tuple ridotte. Il file di output può ricevere ulteriori processi di MapReduce, concatenando queste operazioni. La potenza di tale paradigma va ricercata nella possibilità di rendere le operazioni di MAP e REDUCE praticamente indipendenti le une dalle altre e permettere quindi di aumentare la parallelizzazione sui vari nodi del cluster. Le due entità principali del MapReduce di Hadoop sono il processo "JobTracker" ed il processo "TaskTracker". La sequenza di esecuzione è la seguente: Client comunica i propri "Jobs" al JobTracker, comunicando anche le funzioni Map e Reduce; JobTracker contatta NameNode per conoscere la locazione dei dati; JobTracker trova i TaskTrackers liberi più vicini ai dati; TaskTrackers eseguono il lavoro, inviando periodicamente HeartBeat al JobTracker; Il TaskTracker ha tanti slots quanti sono i Job che può servire. Ogni Job è impostato su una JVM differente, in modo da evitare un singolo "point of failure" per l'intero sistema. Differentemente accade per il JobTracker: se fallisce, tutti i jobs commissionati da esso falliscono di conseguenza. Una revisione del paradigma appena illustrato è implementata nel modulo YARN ("Yet Another Resource Negotiator"). Esso divide i compiti del JobTracker in due moduli indipendenti: Resource Manager e Application Master. Il primo si occupa di ricevere le richieste dai client e di allocare le giuste risorse per i vari Jobs, mentre il secondo si occupa di monitorare le attività dei TaskTrackers e di ricevere quindi gli HeartBeats da essi. 19

20 3.2 HIVE: funzionamento e performance Hive è utilizzato per effettuare l'analisi di Big data in modo distribuito, affidabile e scalabile utilizzando le potenzialità di Hadoop. Ma perchè Hive è così utilizzato? Cosa offre Hive in più all'infrastruttura Hadoop sottostante? E quali sono i benefici in termini di performance e tempo rispetto ad un DATA WAREHOUSE RDBMS based? Hive: funzionalità aggiuntive rispetto Hadoop Hive offre le piene funzionalità di Hadoop, e quindi può avvalersi di un file system distribuito come HDFS e di una parallelizzazione dei lavori con MapReduce. Ma quindi, a che scopo è stato creato? Interfacciarsi con Hadoop, prima, significava dover fornirgli le funzioni di Map e Reduce, e quindi implementarle in Java. Sebbene i sistemi RDBMS fossero praticamente incapaci di gestire tale mole di dati, per i problemi citati nel capitolo 2, essi hanno una caratteristica che fa invidia a sistemi come Hadoop: la presenza di un linguaggio, strutturato, semplice e potente come l'sql. Hive sfrutta proprio questa caratteristica. Infatti se da un lato si offrono le potenzialità di Hadoop, dall'altro la presenza di una GUI permette di implementare l'interfacciamento con l'utente attraverso un linguaggio SQL-like: HIVE-QL. Hive risulta quindi essere un "traduttore" (Hive)SQL-MapReduce. Hive fornisce HiveQL per effettuare query sui clusters Hadoop. In questo modo si sfrutta l'ecosistema Hadoop per risolvere i problemi legati all'incapacità di gestione dei Big data da parte dei sistemi RDBMS e si utilizza la comodità di un "linguaggio" simile all'sql, tipico di sistemi relazionali Funzionamento ed utilizzo di Hive Come detto, gli utenti utilizzano Hive con un'apposita Web GUI per sottomettere delle istruzioni in Hive-QL. Questo offre gran parte delle potenzialità dell'sql come "SHOW", "DESCRIBE", "JOIN", "SELECT", "CREATE" [11]. Le query Hive-QL non sono trasformate in istruzioni MapReduce traducendole in JAVA. Quando sono richiesti tasks MapReduce, Hive fa uso di alcuni file scritti in XML che corrispondono ai moduli MAPPER e REDUCER e qui ci sono le istruzioni di esecuzione delle funzioni Map e Reduce. Quindi le query Hive- QL sono tradotte in un grafo MapReduce di Hadoop ed eseguite grazie ai moduli XML. 20

CORSO I.F.T.S TECNICHE PER LA PROGETTAZIONE E LA GESTIONE DI DATABASE

CORSO I.F.T.S TECNICHE PER LA PROGETTAZIONE E LA GESTIONE DI DATABASE CORSO I.F.T.S TECNICHE PER LA PROGETTAZIONE E LA GESTIONE DI DATABASE Ing. Mariano Di Claudio Lezione del 24/09/2014 Indice 1. Aspetti di Data Management CouchBase 2. Aspetti Architetturali Infrastruttura

Dettagli

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it

Introduzione alla Business Intelligence. E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence E-mail: infobusiness@zucchetti.it Introduzione alla Business Intelligence Introduzione Definizione di Business Intelligence: insieme di processi per raccogliere

Dettagli

Data warehouse Introduzione

Data warehouse Introduzione Database and data mining group, Data warehouse Introduzione INTRODUZIONE - 1 Pag. 1 Database and data mining group, Supporto alle decisioni aziendali La maggior parte delle aziende dispone di enormi basi

Dettagli

Data Warehousing e Data Mining

Data Warehousing e Data Mining Università degli Studi di Firenze Dipartimento di Sistemi e Informatica A.A. 2011-2012 I primi passi Data Warehousing e Data Mining Parte 2 Docente: Alessandro Gori a.gori@unifi.it OLTP vs. OLAP OLTP vs.

Dettagli

CONFRONTO TRA DBMS RELAZIONALI, A COLONNE E NOSQL

CONFRONTO TRA DBMS RELAZIONALI, A COLONNE E NOSQL CONFRONTO TRA DBMS RELAZIONALI, A COLONNE E NOSQL Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria Enzo Ferrari di Modena Corso di Laurea in Ingegneria Informatica (L.270/04)

Dettagli

Introduzione alla Business Intelligence

Introduzione alla Business Intelligence SOMMARIO 1. DEFINIZIONE DI BUSINESS INTELLIGENCE...3 2. FINALITA DELLA BUSINESS INTELLIGENCE...4 3. DESTINATARI DELLA BUSINESS INTELLIGENCE...5 4. GLOSSARIO...7 BIM 3.1 Introduzione alla Pag. 2/ 9 1.DEFINIZIONE

Dettagli

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni

Data warehouse. Architettura complessiva con OLTP e OLAP OLTP. Sistemi di supporto alle decisioni Data warehouse Data warehouse La crescita dell importanza dell analisi dei dati ha portato ad una separazione architetturale dell ambiente transazionale (OLTP on-line transaction processing) da quello

Dettagli

Big Data. Davide Giarolo

Big Data. Davide Giarolo Big Data Davide Giarolo Definizione da Wikipedia Big data è il termine usato per descrivere una raccolta di dati così estesa in termini di volume, velocità e varietà da richiedere tecnologie e metodi analitici

Dettagli

Data Warehouse Architettura e Progettazione

Data Warehouse Architettura e Progettazione Introduzione Data Warehouse Architettura! Nei seguenti lucidi verrà fornita una panoramica del mondo dei Data Warehouse.! Verranno riportate diverse definizioni per identificare i molteplici aspetti che

Dettagli

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011

Data warehousing Mario Guarracino Data Mining a.a. 2010/2011 Data warehousing Introduzione A partire dagli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa lezione vedremo

Dettagli

Architettura dei sistemi di database

Architettura dei sistemi di database 2 Architettura dei sistemi di database 1 Introduzione Come si potrà ben capire, l architettura perfetta non esiste, così come non è sensato credere che esista una sola architettura in grado di risolvere

Dettagli

Indice Prefazione... 1 1 SQL Procedurale/SQL-PSM (Persistent Stored Modules)... 3 Vincoli e Trigger... 9

Indice Prefazione... 1 1 SQL Procedurale/SQL-PSM (Persistent Stored Modules)... 3 Vincoli e Trigger... 9 Prefazione... 1 Contenuti... 1 Ringraziamenti... 2 1 SQL Procedurale/SQL-PSM (Persistent Stored Modules)... 3 1.1 Dichiarazione di funzioni e procedure... 3 1.2 Istruzioni PSM... 4 2 Vincoli e Trigger...

Dettagli

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse

Introduzione data warehose. Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa. Data Warehouse Introduzione data warehose Gian Luigi Ferrari Dipartimento di Informatica Università di Pisa Data Warehouse Che cosa e un data warehouse? Quali sono i modelli dei dati per data warehouse Come si progetta

Dettagli

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007

Data warehousing Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007 Data warehousing Introduzione A partire dalla metà degli anni novanta è risultato chiaro che i database per i DSS e le analisi di business intelligence vanno separati da quelli operazionali. In questa

Dettagli

INFORMATICA. Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE.

INFORMATICA. Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE. INFORMATICA Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE. APPLICAZIONI WEB L architettura di riferimento è quella ampiamente diffusa ed

Dettagli

Architetture per l analisi di dati

Architetture per l analisi di dati Architetture per l analisi di dati Basi di dati: Architetture e linee di evoluzione - Seconda edizione Capitolo 8 Appunti dalle lezioni Motivazioni I sistemi informatici permettono di aumentare la produttività

Dettagli

Rassegna sui principi e sui sistemi di Data Warehousing

Rassegna sui principi e sui sistemi di Data Warehousing Università degli studi di Bologna FACOLTA DI SCIENZE MATEMATICHE, FISICHE E NATURALI Rassegna sui principi e sui sistemi di Data Warehousing Tesi di laurea di: Emanuela Scionti Relatore: Chiar.mo Prof.Montesi

Dettagli

Basi di Dati. Introduzione ai sistemi di basi di dati. K.Donno - Introduzione ai sistemi di basi di dati

Basi di Dati. Introduzione ai sistemi di basi di dati. K.Donno - Introduzione ai sistemi di basi di dati Basi di Dati Introduzione ai sistemi di basi di dati Introduzione ai sistemi di basi di dati Gestione dei Dati Una prospettiva storica File system verso DBSM Vantaggi di un DBMS Modelli dei dati Utenti

Dettagli

Kickoff Progetto DaSSIA 29 Settembre 2014

Kickoff Progetto DaSSIA 29 Settembre 2014 www.crs4.it Kickoff Progetto DaSSIA 29 Settembre 2014 Ordine del giorno Breve Presentazione del CRS4 CRS4 & Big Data Il Progetto DaSSIA Sviluppo di un caso test paradigmatico L'Attività di Formazione Discussione

Dettagli

DATA WAREHOUSING CON JASPERSOFT BI SUITE

DATA WAREHOUSING CON JASPERSOFT BI SUITE UNIVERSITÁ DEGLI STUDI DI MODENA E REGGIO EMILIA Dipartimento di Ingegneria di Enzo Ferrari Corso di Laurea Magistrale in Ingegneria Informatica (270/04) DATA WAREHOUSING CON JASPERSOFT BI SUITE Relatore

Dettagli

CORSO I.F.T.S TECNICHE PER LA PROGETTAZIONE E LA GESTIONE DI DATABASE

CORSO I.F.T.S TECNICHE PER LA PROGETTAZIONE E LA GESTIONE DI DATABASE CORSO I.F.T.S TECNICHE PER LA PROGETTAZIONE E LA GESTIONE DI DATABASE Ing. Mariano Di Claudio Lezione del 20/10/2014 1 Indice 1. HBase e Hrider Caratteristiche chiave Modello dati Architettura Installazione

Dettagli

Introduzione ai sistemi di basi di dati

Introduzione ai sistemi di basi di dati Basi di Dati Introduzione ai sistemi di basi di dati Alessandro.bardine@gmail.com alessandro.bardine@iet.unipi.it Introduzione ai sistemi di basi di dati Gestione dei Dati Una prospettiva storica File

Dettagli

Data warehousing con SQL Server

Data warehousing con SQL Server Data warehousing con SQL Server SQL Server è un RDBMS (Relational DataBase Management System) Analysis Services è un componente di SQL Server che offre un insieme di funzionalità di supporto al data warehousing

Dettagli

Linee di evoluzione dei Database

Linee di evoluzione dei Database Linee di evoluzione dei Database DB NoSQL Linked Open Data Semantic Web Esigenze e caratteristiche Presenza di grandi volumi di dati..crescenti Struttura non regolare dei dati da gestire Elementi relativamente

Dettagli

Data Warehousing (DW)

Data Warehousing (DW) Data Warehousing (DW) Il Data Warehousing è un processo per estrarre e integrare dati storici da sistemi transazionali (OLTP) diversi e disomogenei, e da usare come supporto al sistema di decisione aziendale

Dettagli

Sviluppo Applicazione di BI/DWH. con tecnologia Microsoft. per il supporto della catena logistica

Sviluppo Applicazione di BI/DWH. con tecnologia Microsoft. per il supporto della catena logistica UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA Dipartimento di Ingegneria Enzo Ferrari di Modena Corso di Laurea Magistrale in Ingegneria Informatica (270/04) Sviluppo Applicazione di BI/DWH con tecnologia

Dettagli

CORSO I.F.T.S TECNICHE PER LA PROGETTAZIONE E LA GESTIONE DI DATABASE

CORSO I.F.T.S TECNICHE PER LA PROGETTAZIONE E LA GESTIONE DI DATABASE CORSO I.F.T.S TECNICHE PER LA PROGETTAZIONE E LA GESTIONE DI DATABASE Ing. Mariano Di Claudio Lezione del 15/10/2014 1 Indice 1. Processo di analisi/elaborazione dei 1. Hadoop Caratteristiche chiave Architettura

Dettagli

Lezione 3. Modello Multidimensionale dei Dati Metadati per il Data Warehousing Accesso ai Data Warehouses Implementazioni per il Data Warehousing

Lezione 3. Modello Multidimensionale dei Dati Metadati per il Data Warehousing Accesso ai Data Warehouses Implementazioni per il Data Warehousing Lezione 3 Modello Multidimensionale dei Dati Metadati per il Data Warehousing Accesso ai Data Warehouses Implementazioni per il Data Warehousing 27/02/2010 1 Modello multidimensionale Nasce dall esigenza

Dettagli

DEFINIZIONI FONDAMENTALI

DEFINIZIONI FONDAMENTALI Consorzio per la formazione e la ricerca in Ingegneria dell'informazione DEFINIZIONI FONDAMENTALI Per vincere ci vuole una buona partenza... Docente: Cesare Colombo CEFRIEL colombo@cefriel.it http://www.cefriel.it

Dettagli

DATA MINING E DATA WAREHOUSE

DATA MINING E DATA WAREHOUSE Reti e sistemi informativi DATA MINING E DATA WAREHOUSE Marco Gottardo FONTI Wikipedia Cineca Università di Udine, Dipartimento di fisica, il data mining scientifico thepcweb.com DATA MINING 1/2 Il Data

Dettagli

Lezione 1. Introduzione e Modellazione Concettuale

Lezione 1. Introduzione e Modellazione Concettuale Lezione 1 Introduzione e Modellazione Concettuale 1 Tipi di Database ed Applicazioni Database Numerici e Testuali Database Multimediali Geographic Information Systems (GIS) Data Warehouses Real-time and

Dettagli

Che cosa è SADAS INFOMANAGER (1982) Gestione Archivi Storici (1992) SADAS (2005) Ambiente MVS OVERMILLION (1990) Client-Server e multipiattaforma

Che cosa è SADAS INFOMANAGER (1982) Gestione Archivi Storici (1992) SADAS (2005) Ambiente MVS OVERMILLION (1990) Client-Server e multipiattaforma 1 Che cosa è SADAS SADAS è un DBMS column-based progettato in modo specifico per ottenere grandi performance nell interrogazione di archivi statici di grandi dimensioni (analisi data warehouse, OLAP).

Dettagli

Data warehousing con SQL Server

Data warehousing con SQL Server Data warehousing con SQL Server! SQL Server è un RDBMS (Relational DataBase Management System)! Analysis Services è un componente di SQL Server che offre un insieme di funzionalità di supporto al data

Dettagli

ORACLE BUSINESS INTELLIGENCE STANDARD EDITION ONE A WORLD CLASS PERFORMANCE

ORACLE BUSINESS INTELLIGENCE STANDARD EDITION ONE A WORLD CLASS PERFORMANCE ORACLE BUSINESS INTELLIGENCE STANDARD EDITION ONE A WORLD CLASS PERFORMANCE Oracle Business Intelligence Standard Edition One è una soluzione BI completa, integrata destinata alle piccole e medie imprese.oracle

Dettagli

SQL Server BI Development Studio

SQL Server BI Development Studio Il Data warehouse SQL Server Business Intelligence Development Studio Analysis Service Sorgenti dati operazionali DB relazionali Fogli excel Data warehouse Staging Area e dati riconciliati Cubi Report

Dettagli

Il clustering. Sistemi Distribuiti 2002/2003

Il clustering. Sistemi Distribuiti 2002/2003 Il clustering Sistemi Distribuiti 2002/2003 Introduzione In termini generali, un cluster è un gruppo di sistemi indipendenti che funzionano come un sistema unico Un client interagisce con un cluster come

Dettagli

SOMMARIO. 9- Basi di dati direzionali. Tipi di sistemi direzionali SISTEMI INFORMATIVI DIREZIONALI. Basi di Dati per la gestione dell Informazione

SOMMARIO. 9- Basi di dati direzionali. Tipi di sistemi direzionali SISTEMI INFORMATIVI DIREZIONALI. Basi di Dati per la gestione dell Informazione 1 SOMMARIO 2 9- Basi di dati direzionali Basi di Dati per la gestione dell Informazione A. Chianese, V. Moscato, A. Picariello, L. Sansone Sistemi Informativi Direzionali (SID) Architettura dei SID La

Dettagli

Relazione sul data warehouse e sul data mining

Relazione sul data warehouse e sul data mining Relazione sul data warehouse e sul data mining INTRODUZIONE Inquadrando il sistema informativo aziendale automatizzato come costituito dall insieme delle risorse messe a disposizione della tecnologia,

Dettagli

Introduzione ad OLAP (On-Line Analytical Processing)

Introduzione ad OLAP (On-Line Analytical Processing) Introduzione ad OLAP (On-Line Analytical Processing) Metodi e Modelli per il Supporto alle Decisioni 2002 Dipartimento di Informatica Sistemistica e Telematica (Dist) Il termine OLAP e l acronimo di On-Line

Dettagli

SISTEMI OPERATIVI DISTRIBUITI

SISTEMI OPERATIVI DISTRIBUITI SISTEMI OPERATIVI DISTRIBUITI E FILE SYSTEM DISTRIBUITI 12.1 Sistemi Distribuiti Sistemi operativi di rete Sistemi operativi distribuiti Robustezza File system distribuiti Naming e Trasparenza Caching

Dettagli

DOCUMENT MANAGEMENT SYSTEM E VISTE UTILIZZO DEL DMS E DELLE VISTE IN AZIENDA

DOCUMENT MANAGEMENT SYSTEM E VISTE UTILIZZO DEL DMS E DELLE VISTE IN AZIENDA DOCUMENT MANAGEMENT SYSTEM E VISTE UTILIZZO DEL DMS E DELLE VISTE IN AZIENDA DMS Il Document system management (DMS), letteralmente"sistema di gestione dei documenti" è una categoria di sistemi software

Dettagli

Informatica Documentale

Informatica Documentale Informatica Documentale Ivan Scagnetto (scagnett@dimi.uniud.it) Stanza 3, Nodo Sud Dipartimento di Matematica e Informatica Via delle Scienze, n. 206 33100 Udine Tel. 0432 558451 Ricevimento: giovedì,

Dettagli

Breve introduzione ai data warehouse (per gli allievi che non hanno seguito BD2)

Breve introduzione ai data warehouse (per gli allievi che non hanno seguito BD2) Tecnologie per i sistemi informativi Breve introduzione ai data warehouse (per gli allievi che non hanno seguito BD2) Letizia Tanca lucidi tratti dal libro: Atzeni, Ceri, Paraboschi, Torlone Introduzione

Dettagli

Azione Formativa B2.1 - "Data Warehousing e OLAP"

Azione Formativa B2.1 - Data Warehousing e OLAP Azione formazione OpenKnowTech, Laboratorio di Tecnologie Open Source per la Integrazione, Gestione e Distribuzione di Dati, Processi e Conoscenze Azione Formativa B2.1 - "Data Warehousing e OLAP" Gestione

Dettagli

Governo Digitale a.a. 2011/12

Governo Digitale a.a. 2011/12 Governo Digitale a.a. 2011/12 I sistemi di supporto alle decisioni ed il Data Warehouse Emiliano Casalicchio Agenda Introduzione i sistemi di supporto alle decisioni Data warehouse proprietà architettura

Dettagli

E.T.L. (Extract.Tansform.Load) IBM - ISeries 1/8

E.T.L. (Extract.Tansform.Load) IBM - ISeries 1/8 E.T.L. (Extract.Tansform.Load) IBM - ISeries Quick-EDD/ DR-DRm ETL 1/8 Sommario ETL... 3 I processi ETL (Extraction, Transformation and Loading - estrazione, trasformazione e caricamento)... 3 Cos è l

Dettagli

Sperimentazione del file system distribuito HDFS in ambiente grid

Sperimentazione del file system distribuito HDFS in ambiente grid Sperimentazione del file system distribuito HDFS in ambiente grid Giovanni Marzulli INFN Bari Tutor: dott. Domenico Diacono 4 Borsisti Day 13/09/2013 Outline Cosa è HDFS Attività svolta nel 2012 Test e

Dettagli

Sistemi Informativi Distribuiti

Sistemi Informativi Distribuiti Corso di Laurea Magistrale in Ingegneria Gestionale Corso di Sistemi Informativi Modulo II A. A. 2013-2014 SISTEMI INFORMATIVI MODULO II Sistemi Informativi Distribuiti 1 Sistemi informativi distribuiti

Dettagli

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L.

Per capire meglio l ambito di applicazione di un DWhouse consideriamo la piramide di Anthony, L. Direzionale. L. Manageriale. L. DATA WAREHOUSE Un Dataware House può essere definito come una base di dati di database. In molte aziende ad esempio ci potrebbero essere molti DB, per effettuare ricerche di diverso tipo, in funzione del

Dettagli

LABORATORIO di INFORMATICA

LABORATORIO di INFORMATICA Università degli Studi di Cagliari Corso di Laurea Magistrale in Ingegneria per l Ambiente ed il Territorio LABORATORIO di INFORMATICA A.A. 2010/2011 Prof. Giorgio Giacinto INTRODUZIONE AI SISTEMI DI BASI

Dettagli

Sistemi avanzati di gestione dei Sistemi Informativi

Sistemi avanzati di gestione dei Sistemi Informativi Esperti nella gestione dei sistemi informativi e tecnologie informatiche Sistemi avanzati di gestione dei Sistemi Informativi Docente: Email: Sito: Eduard Roccatello eduard@roccatello.it http://www.roccatello.it/teaching/gsi/

Dettagli

Cosa è un data warehouse?

Cosa è un data warehouse? Argomenti della lezione Data Warehousing Parte I Introduzione al warehousing cosa è un data warehouse classificazione dei processi aziendali sistemi di supporto alle decisioni elaborazione OLTP e OLAP

Dettagli

AICA - Workshop 01/03/2011

AICA - Workshop 01/03/2011 AICA - Workshop La Mappa di un sistema di BI I tre elementi che hanno "cambiato il gioco": Maturazione degli ETL open source La semplificazione di Amazon EC2 L'arrivo dei DB Colonnari Nel dettaglio Cos'è

Dettagli

Introduzione. File System Distribuiti. Nominazione e Trasparenza. Struttura dei DFS. Strutture di Nominazione

Introduzione. File System Distribuiti. Nominazione e Trasparenza. Struttura dei DFS. Strutture di Nominazione File System Distribuiti Introduzione Nominazione e Trasparenza Accesso ai File Remoti Servizio Con/Senza Informazione di Stato Replica dei File Un esempio di sistema Introduzione File System Distribuito

Dettagli

File System Distribuiti

File System Distribuiti File System Distribuiti Introduzione Nominazione e Trasparenza Accesso ai File Remoti Servizio Con/Senza Informazione di Stato Replica dei File Un esempio di sistema 20.1 Introduzione File System Distribuito

Dettagli

SOLUTION BRIEF CA ERwin Modeling. Come gestire la complessità dei dati e aumentare l'agilità del business

SOLUTION BRIEF CA ERwin Modeling. Come gestire la complessità dei dati e aumentare l'agilità del business SOLUTION BRIEF CA ERwin Modeling Come gestire la complessità dei dati e aumentare l'agilità del business CA ERwin Modeling fornisce una visione centralizzata delle definizioni dei dati chiave per consentire

Dettagli

Progettazione di Sistemi Interattivi. Gli strati e la rete. Struttura e supporti all implementazione di applicazioni in rete (cenni)

Progettazione di Sistemi Interattivi. Gli strati e la rete. Struttura e supporti all implementazione di applicazioni in rete (cenni) Progettazione di Sistemi Interattivi Struttura e supporti all implementazione di applicazioni in rete (cenni) Docente: Daniela Fogli Gli strati e la rete Stratificazione da un altro punto di vista: i calcolatori

Dettagli

Corso di Alfabetizzazione Informatica

Corso di Alfabetizzazione Informatica Corso di Alfabetizzazione Informatica Lezione 6 a.a. 2010/2011 Francesco Fontanella La Complessità del Hardware Il modello di Von Neumann è uno schema di principio. Attualmente in commercio esistono: diversi

Dettagli

Tecniche di DM: Link analysis e Association discovery

Tecniche di DM: Link analysis e Association discovery Tecniche di DM: Link analysis e Association discovery Vincenzo Antonio Manganaro vincenzomang@virgilio.it, www.statistica.too.it Indice 1 Architettura di un generico algoritmo di DM. 2 2 Regole di associazione:

Dettagli

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo

Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Sistemi per le decisioni Dai sistemi gestionali ai sistemi di governo Obiettivi. Presentare l evoluzione dei sistemi informativi: da supporto alla operatività a supporto al momento decisionale Definire

Dettagli

SISTEMI INFORMATIVI AZIENDALI

SISTEMI INFORMATIVI AZIENDALI SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg borg@unive.it Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Sistemi informazionali La crescente diffusione dei

Dettagli

Corso di Sistemi di Elaborazione delle informazioni

Corso di Sistemi di Elaborazione delle informazioni Corso di Sistemi di Elaborazione delle informazioni Sistemi Operativi Francesco Fontanella La Complessità del Hardware Il modello di Von Neumann è uno schema di principio. Attualmente in commercio esistono:

Dettagli

LA TECHNOLOGY TRANSFER PRESENTA TIM SEEARS ROMA 11 NOVEMBRE 2013 ROMA 12-15 NOVEMBRE 2013 VISCONTI PALACE HOTEL - VIA FEDERICO CESI, 37

LA TECHNOLOGY TRANSFER PRESENTA TIM SEEARS ROMA 11 NOVEMBRE 2013 ROMA 12-15 NOVEMBRE 2013 VISCONTI PALACE HOTEL - VIA FEDERICO CESI, 37 LA TECHNOLOGY TRANSFER PRESENTA TIM SEEARS Apache Hadoop MasterClass Sviluppare Soluzioni usando Apache Hadoop Hortonworks Certified Apache Hadoop Developer ROMA 11 NOVEMBRE 2013 ROMA 12-15 NOVEMBRE 2013

Dettagli

Corso di Informatica Generale 1 IN1. Linguaggio SQL

Corso di Informatica Generale 1 IN1. Linguaggio SQL Università Roma Tre Facoltà di Scienze M.F.N. di Laurea in Matematica di Informatica Generale 1 Linguaggio SQL Marco (liverani@mat.uniroma3.it) Sommario Prima parte: le basi dati relazionali Basi di dati:

Dettagli

ERP Commercio e Servizi

ERP Commercio e Servizi ERP Commercio e Servizi Sistema informativo: una scelta strategica In questi ultimi anni hanno avuto grande affermazione nel mercato mondiale i cosiddetti sistemi software ERP. Tali sistemi sono in grado

Dettagli

Business Intelligence: Data warehouse & Data mining

Business Intelligence: Data warehouse & Data mining Business Intelligence Business Intelligence: Data warehouse & Data mining Termine generico per indicare: un insieme di processi per raccogliere ed analizzare informazioni strategiche la tecnologia utilizzata

Dettagli

Diego GUENZI Rodolfo BORASO

Diego GUENZI Rodolfo BORASO Diego GUENZI Rodolfo BORASO NOSQL Movimento che promuove una classe non ben definita di strumenti di archiviazione di dati Un nuovo modo di vedere la persistenza Si differenziano dai RDBMS: Non utilizzano

Dettagli

Progetto Turismo Pisa. Sommario dei risultati

Progetto Turismo Pisa. Sommario dei risultati 2012 Progetto Turismo Pisa Sommario dei risultati 0 Studio realizzato per il Comune di Pisa da KddLab ISTI-CNR Pisa Sommario 1 Progetto Turismo Pisa: Sintesi dei risultati... 1 1.1 L Osservatorio Turistico

Dettagli

Aspetti applicativi e tecnologia

Aspetti applicativi e tecnologia Aspetti applicativi e tecnologia Premessa Architetture usate per i database Le prime applicazioni erano definite monolitiche, cioè un unico computer (mainframe) gestiva sia le applicazioni che i dati,

Dettagli

Introduzione al Data Warehousing

Introduzione al Data Warehousing Il problema - dati IPERVENDO Via Vai 111 P.I.11223344 Vendite II Trim. (Milioni!) Introduzione al Data Warehousing tecnologia abilitante per il data mining ACQUA MIN 0.40 LATTE INTERO 1.23 SPAZZ.DENTI

Dettagli

Tecnologie NoSQL: HBase

Tecnologie NoSQL: HBase Scuola Politecnica e delle Scienze di Base Corso di Laurea in Ingegneria Informatica Elaborato finale in Basi di Dati Tecnologie NoSQL: HBase Anno Accademico 2014/2015 Candidato: Daniela Bianco matr. N46001409

Dettagli

Basi di Dati Complementi Esercitazione su Data Warehouse

Basi di Dati Complementi Esercitazione su Data Warehouse Sommario Basi di Dati Complementi Esercitazione su Data Warehouse 1. Riassunto concetti principali dalle slide della lezione di teoria 2.Studio di caso : progettazione di un Data Warehouse di una catena

Dettagli

Sistemi Informativi. Catena del valore di PORTER

Sistemi Informativi. Catena del valore di PORTER Sistemi Informativi Catena del valore di PORTER La catena del valore permette di considerare l'impresa come un sistema di attività generatrici del valore, inteso come il prezzo che il consumatore è disposto

Dettagli

ANALISI E VALUTAZIONE DELLA PIATTAFORMA SPARK

ANALISI E VALUTAZIONE DELLA PIATTAFORMA SPARK ALMA MATER STUDIORUM UNIVERSITÀ DI BOLOGNA CAMPUS DI CESENA Scuola di Scienze Corso di Laurea in Ingegneria e Scienze Informatiche ANALISI E VALUTAZIONE DELLA PIATTAFORMA SPARK Relazione finale in LABORATORIO

Dettagli

Grid Data Management Services

Grid Data Management Services Grid Management Services D. Talia - UNICAL Griglie e Sistemi di Elaborazione Ubiqui Sommario Grid Management GridFTP RFT RLS OGSA-DAI 1 GT4 Services GridFTP High-performance transfer protocol The Reliable

Dettagli

Introduzione alle Basi di Dati

Introduzione alle Basi di Dati 1 Introduzione alle Basi di Dati Massimo Paolucci (paolucci@dist.unige.it) DIST Università di Genova Sistema Azienda 2 Sistema organizzativo è costituito da una serie di risorse e di regole necessarie

Dettagli

InfoTecna ITCube Web

InfoTecna ITCube Web InfoTecna ITCubeWeb ITCubeWeb è un software avanzato per la consultazione tramite interfaccia Web di dati analitici organizzati in forma multidimensionale. L analisi multidimensionale è il sistema più

Dettagli

INTRODUZIONE. Data Base Management Systems evoluzione tecniche gestione dati

INTRODUZIONE. Data Base Management Systems evoluzione tecniche gestione dati INTRODUZIONE Accesso ai dati tramite DBMS Livelli di astrazione Modello dei dati: schema / istanza / metadati Alcuni modelli dei dati Linguaggi per DBMS Architettura di base di un DBMS cesarini - BDSI

Dettagli

Big Data. Alessandro Rezzani. alessandro.rezzani@dataskills.it www.dataskills.it

Big Data. Alessandro Rezzani. alessandro.rezzani@dataskills.it www.dataskills.it Big Data Alessandro Rezzani alessandro.rezzani@dataskills.it Chi sono? I big data Caratteristiche Fonti Agenda Creare valore con i big data Aspetto del business Aspetto finanziario Aspetto tecnologico

Dettagli

Introduzione al data warehousing

Introduzione al data warehousing Introduzione al data warehousing, Riccardo Torlone aprile 2012 1 Motivazioni I sistemi informatici permettono di aumentare la produttività delle organizzazioni automatizzandone la gestione quotidiana dei

Dettagli

Business Intelligence

Business Intelligence aggregazione dati Business Intelligence analytic applications query d a t a w a r e h o u s e aggregazione budget sales inquiry data mining Decision Support Systems MIS ERP data management Data Modeling

Dettagli

La suite Pentaho Community Edition

La suite Pentaho Community Edition La suite Pentaho Community Edition GULCh 1 Cosa è la Business Intelligence Con la locuzione business intelligence (BI) ci si può solitamente riferire a: un insieme di processi aziendali per raccogliere

Dettagli

Architetture per le applicazioni web-based. Mario Cannataro

Architetture per le applicazioni web-based. Mario Cannataro Architetture per le applicazioni web-based Mario Cannataro 1 Sommario Internet e le applicazioni web-based Caratteristiche delle applicazioni web-based Soluzioni per l architettura three-tier Livello utente

Dettagli

Il database management system Access

Il database management system Access Il database management system Access Corso di autoistruzione http://www.manualipc.it/manuali/ corso/manuali.php? idcap=00&idman=17&size=12&sid= INTRODUZIONE Il concetto di base di dati, database o archivio

Dettagli

Indice generale. Introduzione...xiii. Gli autori...xvii. I revisori...xix

Indice generale. Introduzione...xiii. Gli autori...xvii. I revisori...xix Indice generale Introduzione...xiii Struttura del libro... xiii Cosa serve per questo libro...xiv Lo scopo del libro...xiv Convenzioni...xv Codice degli esempi...xv Gli autori...xvii I revisori...xix Capitolo

Dettagli

L ARCHIVIAZIONE E LA GESTIONE DATI ATTRAVERSO L INTERAZIONE TRA MICROSOFT ACCESS ED EXCEL 1 INTRODUZIONE

L ARCHIVIAZIONE E LA GESTIONE DATI ATTRAVERSO L INTERAZIONE TRA MICROSOFT ACCESS ED EXCEL 1 INTRODUZIONE Roccatello Ing. Eduard L ARCHIVIAZIONE E LA GESTIONE DATI ATTRAVERSO L INTERAZIONE TRA MICROSOFT ACCESS ED EXCEL 1 INTRODUZIONE Agenda Presentazione docente Definizione calendario Questionario pre corso

Dettagli

Concetti base. Impianti Informatici. Web application

Concetti base. Impianti Informatici. Web application Concetti base Web application La diffusione del World Wide Web 2 Supporto ai ricercatori Organizzazione documentazione Condivisione informazioni Scambio di informazioni di qualsiasi natura Chat Forum Intranet

Dettagli

HBase Data Model. in più : le colonne sono raccolte in gruppi di colonne detti Column Family; Cosa cambia dunque?

HBase Data Model. in più : le colonne sono raccolte in gruppi di colonne detti Column Family; Cosa cambia dunque? NOSQL Data Model HBase si ispira a BigTable di Google e perciò rientra nella categoria dei column store; tuttavia da un punto di vista logico i dati sono ancora organizzati in forma di tabelle, in cui

Dettagli

Data Mining e Analisi dei Dati

Data Mining e Analisi dei Dati e Analisi dei Dati Rosaria Lombardo Dipartimento di Economia, Seconda Università di Napoli La scienza che estrae utili informazioni da grandi databases è conosciuta come E una disciplina nuova che interseca

Dettagli

SQL Server 2005. Introduzione all uso di SQL Server e utilizzo delle opzioni Olap. Dutto Riccardo - SQL Server 2005.

SQL Server 2005. Introduzione all uso di SQL Server e utilizzo delle opzioni Olap. Dutto Riccardo - SQL Server 2005. SQL Server 2005 Introduzione all uso di SQL Server e utilizzo delle opzioni Olap SQL Server 2005 SQL Server Management Studio Gestione dei server OLAP e OLTP Gestione Utenti Creazione e gestione DB SQL

Dettagli

BASI DI DATI. Queste slides sono un adattamento di quelle di Luca Anselma e Gian Luca Pozzato, cui va il mio ringraziamento

BASI DI DATI. Queste slides sono un adattamento di quelle di Luca Anselma e Gian Luca Pozzato, cui va il mio ringraziamento BASI DI DATI Queste slides sono un adattamento di quelle di Luca Anselma e Gian Luca Pozzato, cui va il mio ringraziamento BASI DI DATI (DATABASE, DB) Una delle applicazioni informatiche più utilizzate,

Dettagli

Informatica Generale Andrea Corradini. 19 - Sistemi di Gestione delle Basi di Dati

Informatica Generale Andrea Corradini. 19 - Sistemi di Gestione delle Basi di Dati Informatica Generale Andrea Corradini 19 - Sistemi di Gestione delle Basi di Dati Sommario Concetti base di Basi di Dati Il modello relazionale Relazioni e operazioni su relazioni Il linguaggio SQL Integrità

Dettagli

Big data ed eventi: quasi un tutorial. Prof. Riccardo Melen melen@disco.unimib.it

Big data ed eventi: quasi un tutorial. Prof. Riccardo Melen melen@disco.unimib.it Big data ed eventi: quasi un tutorial Prof. Riccardo Melen melen@disco.unimib.it Big Data Monitoraggio di reti e infrastrutture IT performance: data center, SOA/ESB, infrastrutture virtuali, configurazione

Dettagli

IT FOR BUSINESS AND FINANCE

IT FOR BUSINESS AND FINANCE IT FOR BUSINESS AND FINANCE Business Intelligence Siena 14 aprile 2011 AGENDA Cos è la Business Intelligence Terminologia Perché la Business Intelligence La Piramide Informativa Macro Architettura Obiettivi

Dettagli

UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II

UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II UNIVERSITÀ DEGLI STUDI DI NAPOLI FEDERICO II FACOLTÀ DI SCIENZE MATEMATICHE FISICHE E NATURALI CORSO DI LAUREA MAGISTRALE IN INFORMATICA Riscrittura di interrogazioni con viste in sistemi per la gestione

Dettagli

Al giorno d oggi, i sistemi per la gestione di database

Al giorno d oggi, i sistemi per la gestione di database Introduzione Al giorno d oggi, i sistemi per la gestione di database implementano un linguaggio standard chiamato SQL (Structured Query Language). Fra le altre cose, il linguaggio SQL consente di prelevare,

Dettagli

Corso di Informatica

Corso di Informatica Corso di Informatica Modulo T2 A2 Introduzione ai database 1 Prerequisiti Concetto di sistema File system Archivi File e record 2 1 Introduzione Nella gestione di una attività, ad esempio un azienda, la

Dettagli

Sistema Operativo Compilatore

Sistema Operativo Compilatore MASTER Information Technology Excellence Road (I.T.E.R.) Sistema Operativo Compilatore Maurizio Palesi Salvatore Serrano Master ITER Informatica di Base Maurizio Palesi, Salvatore Serrano 1 Il Sistema

Dettagli

Che cos è un DBMS? Capitolo 1. Perché usare un DBMS? DBMS. Descrizioni dei dati nei DBMS. Modelli di dati

Che cos è un DBMS? Capitolo 1. Perché usare un DBMS? DBMS. Descrizioni dei dati nei DBMS. Modelli di dati Che cos è un DBMS? Capitolo 1 Introduzione ai sistemi di basi di dati Una collezione integrata molto grande di dati Modella organizzazioni del mondo reale Entità (ad esempio studenti, corsi) Relazioni

Dettagli

Approfondimento: i sistemi di gestione delle basi di dati (DBMS)

Approfondimento: i sistemi di gestione delle basi di dati (DBMS) Approfondimento: i sistemi di gestione delle basi di dati (DBMS) Prerequisito essenziale della funzionalità delle basi di dati è il controllo e la fruibilità dell informazione in esse contenuta: a tale

Dettagli