Tool per il Data Warehousing: HIVE

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Tool per il Data Warehousing: HIVE"

Transcript

1 Scuola Politecnica e delle Scienze di Base Corso di Laurea in Ingegneria Informatica Elaborato finale in Basi di Dati Tool per il Data Warehousing: HIVE Anno Accademico 2013/2014 Candidato: Antonio Bosco matr. N

2 Un ringraziamento alla mia fantastica famiglia, che mi ha sempre incoraggiato e sostenuto, anche nei momenti difficili. Un ringraziamento alla mia inseparabile ragazza che ha sempre creduto in me. Questa vittoria la dedico a tutti loro.

3 Indice Indice..III Introduzione.4 Capitolo 1: Data Warehouse Cos'è un Data Warehouse: definizione Struttura di un Data Warehouse Tipi di dati Business Intelligence e Tecniche di analisi OLAP ed analisi multidimensionale...9 Capitolo 2: BIG DATA Definizione e caratteristiche Gestione Big Data Limiti di gestione con gli RDMBS Nuove tecnologie di gestione: NoSQL, MPP e MapReduce...14 Capitolo 3: Hive: SQL-HADOOP based DWH Infrastruttura base di Hive: Hadoop Hadoop distributed file system: HDFS Hadopp MapReduce e YARN HIVE: funzionamento e performance Hive: funzionalità aggiuntive rispetto Hadoop Funzionamento ed utilizzo di Hive HIVE: performance e tempi di risposta Hive vs Relational Data Warehouse Conclusioni...26 Bibliografia...27

4 Introduzione Sin dagli arbori dell umanità, c'è sempre stata la necessità di conservare in un luogo sicuro informazioni e dati, ai fini di riprodurli, consultarli o gestirli. Tale affermazione era contenuta nella famosissima frase degli antichi latini : Verba volant, scripta manent. Prima su registri cartacei, ora tutto in formato digitale. Il compito di archivio di dati, nel quale le informazioni sono contenute in modo strutturato, e collegate tra di loro attraverso un modello logico (nel più dei casi relazionale), è adempiuto dai Database. L esponenziale crescita di Internet ha comportato un aumento dei dati da archiviare sul web (e nel mondo intero) di dimensioni spropositate (ordine degli Zettabytes). L utilizzo di un singolo database, con tecniche per analisi dei dati di tipo OLTP, e cioè Online Transaction Processing è stata ritenuta inefficiente con l avvento di questo Data Set. Con il sopraggiungere di ciò che è chiamato BIG DATA si è avuta la necessità di trovare un metodo nuovo e maggiormente performante per riuscire ad analizzare questa ingente quantità di dati. Nasce così il concetto di DATA WAREHOUSE. Un DWH è un archivio di dati, che nasce con lo scopo di gestire un enorme data set per un analisi di tipo OLAP, e cioè Online Analytical Processing. Sono nati così software atti alla gestione di questi ingenti quantità di dati che sfruttano la potenza di calcolo di nodi paralleli sulla rete per permettere l analisi dei BIG DATA. Architetture distribuite in parallelo sono offerte da MapReduce di Google, e dalla sua implementazione open source Apache Hadoop, sul quale si basa APACHE HIVE. 4

5 Capitolo 1: Data WareHouse Un Data Warehouse è un archivio informatico introdotto come strumento per le aziende per facilitare l'utilizzo delle informazioni contenute nei loro archivi e per migliorare il raggiungimento degli obiettivi aziendali. 1.1 Cos'è un Data WareHouse: definizione Un Data Warehouse è un archivio di dati " integrato, variabile nel tempo, non volatile ed orientato al soggetto" in supporto al processo decisionale aziendale [1]. Dalla definizione si può appurare che un DWH deve essere: Integrato: un sistema aziendale presenta diversi sistemi classici transazionali, i quali forniscono i dati al nostro DWH. Questo implica che i dati presenti nel nostro DWH sono estremamente disomogenei tra di loro. Ciò risulterebbe un problema poichè potrebbe essere motivo di inconsistenza tra i dati. Proprio per questo, una volta che i dati sono arrivati al DWH, devono essere "filtrati" in modo da "integrarli" tra loro secondo particolari strutture di condifica e convenzioni sui nomi al fine di renderli omogenei. Tutto ciò è trasparente al DSS ovvero al processo decisionale aziendale. Tempo variabile: i dati contenuti in un DWH corrispondono ad un ampio arco temporale. Infatti essi si riferiscono ad un lungo periodo, generalmente molto esteso (5 o 10 anni) nel quale sono immagazzinati tutti i dati provenienti dai classici sistemi OLTP. Le informazioni sono, quindi, aggiornate fino ad una certa data, creando una sorta di archivio "storico" dei dati aziendali, che poi è analizzato dall'azienda. Ciò è in completa contrapposizione con i classici sistemi 5

6 transazionali nei quali i dati sono aggiornati quotidianamente e non hanno informazioni sul passato. Non volatilità: i dati inseriti in un DWH non sono modificabili. Ciò implica che è possibile solo leggere i dati immagazzinati, rendendo notevolmente più semplice l'architettura sotto questo punto di vista. Inoltre non sorgono più i problemi legati all'inconsistenza referenziale dei dati dovuti ad aggiornamenti "errati" (aggiornamento fantasma, perdita di aggiornamento, lettura sporca, lettura inconsistente). Orientata al soggetto: un DWH è orientato verso specifici topic aziendali, che possono comprendere: utenti, prodotti, attività od anche esigenze specifiche di una componente aziendale. Per questo il progetto di un DWH si focalizza esclusivamente sul modello dei dati [2]. Quindi lo scopo non è quello di normalizzare o di ridurre la ridondanza dei dati, come avviene nei normali DB relazionali, ma quello di organizzarli in modo adeguato al fine di poterli rendere consistenti per la produzione di informazioni utili ai fini aziendali. Tale definizione è completamente esente dal concetto di infrastruttura di basso livello che fornisce i dati al nostro sistema: un DWH è "indipendente" dall'architettura utilizzata dai DB operazionali, questo lo rende anche indipendente dalla loro dislocazione fisica (ecco perchè abbiamo anche DB esterni) Struttura di un Data WareHouse Un DWH è basato su un'architettura a livelli, solitamente cinque. Ogni livello comunica solo con il livello immediatamente sottostante e fornisce i servizi al livello sovrastante. I livelli sono divisi in questo modo [2]: Data sources: corrispondono ai sistemi transazionali alla base del nostro DWH. Essi provengono dall'ambiente operativo, e possono essere di svariato tipo. Solitamente i dati vengono prelevati sia da sistemi interni che da sistemi esterni. 6

7 SI evince quindi, come il DWH sia un sistema "parassita", cioè che basa la sua esistenza su sistemi sottostanti. ETL: Extract, Transformation e Loading: E' il livello addetto all' estrazione dei dati dal Data Sources. I sistemi transazionali del Data Sources sono di svariato tipo e seguono convenzioni di codifica e formati differenti, quindi i dati devono essere resi coerenti tra loro. Il livello ETL ha il compito di "estarre, integrare e filtrare " i dati, in modo da "integrarli" e renderli omogenei tra loro. Area staging: è il database che contiene i dati riconciliati ed integrati e costituisce un modello di dati comune per l'azienda (stessa convenzione dei nomi, stessi formati...). Solitamente è progettato come un sistema relazionale. Warehousing Integration: tutti i dati del nostro DWH sono raggruppati qui. Vi troviamo anche i cosidetti "Metadati" e cioè dati che contengono informazioni aggiuntive sulla provenienza, il valore, la funzione e l'utilità delle informazioni contenute nel DWH. Proprio per questo sono chiamati "data about data" cioè fungono da catalogo per i reali dati. Data Marts: nuclei indipendenti di dati "coesi" e "aggregati" relativi ad un particolare soggetto, od area di business. Si collocano a valle di un DWH e ne costituiscono un estratto indipendente dagli altri. Vengono utilizzati per analizzare quel particolare soggetto che descrivono e prendere decisioni in base al suo andamento passato. Strumenti di analisi dei dati: i dati devono essere presentati all'utente finale il quale ha la possibilità di consultarli ai fini (decisionali e/o statisci) aziendali. 7

8 1.1.2 Tipi di dati In un DWH è possibile distinguere vari tipi di "dati" in base al loro arco di validità temporale, al loro livello di dettaglio e alla loro funzione ai fini decisionali. Sono quattro i tipi di dati principali [2]: Dati attuali: sono i dati appena prelevati dai data sources e filtrati attraverso gli ETL. L'attributo "attuale" indica che la loro validità è relativa all'interrogazione corrente. Rispetto ai dati dei sistemi operazionali essi sono stati filtrati e trasformati secondo convenzioni e formati standard nell'azienda. Dati storici: sono i dati che non possono essere indicati come "attuali", ma comunque rientrano nell'interesse temporale analizzato dall'azienda e quindi sono conservati nel DWH. Essi sono memorizzati su devices fisici meno costosi ed impegnativi, poichè meno richiesti rispetto ai primi. Dati coesi ed aggregati: indicano i dati contenuti nei nuclei indipendenti dei data marts. Hanno un elevato grado di coesione e servono per le interrogazioni relative ad un determinato soggetto. Vengono creati per facilitare le richieste in particolari ambiti decisionali, ma sono limitati rispetto all'imprevidibile numero di richieste decisionali che un'azienda si trova ad affrontare, ma ciò non è un problema perchè esse possono essere comunque realizzate attraverso i Dati attuali e storici. Metadati: non corrispondono a dati utili per l'azienda, ma sono delle informazioni riguardo essi. Forniscono dettagli per il "query generation" (ad esempio "Metastore" di Hive) ed il "data management". Presentano anche informazioni sulla funzione di caricamento dei dati dal Data Sources, descrivendone la sorgente di provenienza e le modifiche ad essi apportate. Sono anche utilizzati come "catalogo relazionale" poichè descrivono come sono distribuiti i dati nel DWH. 8

9 1.2 Business Intelligence e Tecniche di analisi "Per 'Business Intelligence' si intende quell'insieme di processi e tecnologie aziendali che permettono di analizzare i dati, al fine di cercare le cause dei problemi di un'organizzazione e gli eventuali fattori di successo, con lo scopo di incrementare il vantaggio competitivo dell'azienda nel mercato" [3]. A supporto di questo processo ci sono analisi OLAP e varie tecniche di analisi multidimensionale su sistemi Data warehouse, ove lo scopo finale è il KDD (Knowdledge discovery in Database), ovvero la conoscenza di alcuni aspetti di interesse attraverso i dati contenuti nel DWH. Una fase rilevante di questo approccio è il "data mining", che indica l'insieme degli algoritmi secondo i quali è possibile estrarre caratteristiche e regole dai dati archiviati. In poche parole il Data mining permette di trovare le "regole nascoste" nelle informazioni e di renderle visibili [2] OLAP ed analisi multidimensionale L'analisi multidimensionale consiste nel considerare i dati archiviati in un DWH e trasformarli in informazioni multidimensionali, dove ogni dimensione riproduce un soggetto di interesse per l'organizzazione. Dapprima vengono stabilite le "dimensioni di interesse", in modo da creare un "(iper)-cubo multidimensionale", ove ogni dimensione geometrica corrisponde ad una di esse. Creato il cubo multidimensionale, è possibile effettuare analisi differenti in base a come esso viene analizzato. Indicate con (X,Y,Z) le dimensioni del cubo, un qualsiasi attributo W può essere ricavato da (X,Y,Z) e corrisponde ai dati di una cella del cubo f : (X,Y,Z) W [4]. L'attributo W dipende dalle tre dimensioni, quindi risulta essere un "sottocubo" (dicing). Spesso si fanno analisi imponendo una delle dimensioni come costante ed analizzando solo le altre due. Questo corrisponde al considerare degli attributi Q che sono delle "fette" (slicing) del cubo. Una rappresentazione comune del cubo è quella che prende in essere le dimensioni: "tempo, mercati geografici e prodotti" [2]. L'analisi di questo cubo permette di stabilire l'andamento dell'organizzazione sulla base di queste tre variabili. Considerando una delle dimensioni costante, si possono analizzare ad esempio l'andamento di vendite di un 9

10 prodotto nei mercati e nel periodo preso in considerazione (prodotto come dimensione costante), oppure analisi su tutti i prodotti e in tutti i mercati (tempo costante), oppure ancora conoscere tutte le vendite di un prodotto su un mercato di competenza (mercato costante) [2]. Oltre alle operazioni di slicing e dicing abbiamo anche operazioni di navigazione nel livello di dettaglio delle informazioni lungo una dimensione (drilldown/roll-up) ed inversione delle dimensioni (Pivot). Le implementazioni di queste analisi dimensionali possono essere sia di tipo MOLAP (MULTIDIMENSIONAL OLAP) ove vengono analizzati su una struttura dati a matrice sparsa tutti i possibili incroci derivanti dalle analisi del cubo dimensionale, e sia di tipo ROLAP (RELATIONAL OLAP) che corrisponde all'organizzazione dei dati su più tabelle relazionali (ad es. Schema a stella basati su tabelle dei fatti e delle dimensioni). Per la Gartner Inc., multinazionale per la consulenza strategica, i sistemi MOLAP sono utilizzati per la cosiddetta "Business View" ovvero sull'analisi dell'andamento aziendale, mentre quelli ROLAP offrono la "System View", cioè una visione più specifica del sistema impedendo l'integrazione e la collaborazione dei progettisti ed i responsabili strategici dell'azienda [2]. 10

11 Capitolo 2: Big Data Per Big Data si intende una collezione di grandissime dimensioni di dati strutturati e non, per la quale i convenzionali metodi di "estrapolazione, gestione ed analisi" in un tempo ragionevole non risultano essere adeguati. L'idea alla base dei big data va ritrovata nella necessità di analizzare, contemporaneamente, un data set molto esteso per ricavare informazioni aggiuntive rispetto all'analisi di piccoli insiemi di dati. Questo permette l'analisi degli "umori" dei mercati, analisi strategiche delle aziende ed altre analisi che coinvolgono un ingente quantitativo di dati. Le dimensioni del dataset da analizzare variano di giorno in giorno e si aggirano intorno agli Zettabytes (miliardi di TB). Ciò mette alla luce che DBMS basati sul modello relazionale non sarebbero mai in grado di analizzare tali tipi di informazioni, ma esiste la necessità di una parallelizzazione dell'analisi e distribuzione del lavoro su più servers indipendendenti per arrivare a tempi di analisi sufficientemente ragionevoli. 2.1 Definizione e caratteristiche E' impossibile stimare una dimensione di riferimento, poiché questa cambia con una grandissima velocità di giorno in giorno. Secondo una ricerca del 2001 [6], Doug Laney definì il modello dei Big Data come un modello tridimensionale, chiamato "3V": nel tempo aumenta il Volume dei dati, la Velocità e la loro Varietà. Successivamente si è avuta la necessità di estendere tale definizione con un'ulteriore "V" intesa come Veridicità di un dato. Ne risulta che le caratteristiche dei Big Data sono divise in questo modo: 11

12 Volume: indica la dimensione del dataset. E' un parametro fondamentale poichè è quello che ci fa capire se un insieme di dati è da considerarsi Big Data o meno. Le dimensioni si aggirano dall'ordine dei Petabytes fino all'ordine degli Zettabytes. Varietà: indica la varietà dei tipi dei nostri dati. E' un aspetto mutevole: i dati provengono dalle più disparate fonti, ciò fornisce un insieme di dati altamente variabile e non strutturati tra loro. Infatti nei Big Data abbiamo molteplici tipi di dati da gestire (foto, video,audio,simulazioni 3D,dati geografici...). Tutti questi dati sono naturalmente non strutturati, e difficilmente gestibili con sistemi RDBMS. Velocità: si riferisce alla velocità di generazione dei dati che di giorno in giorno aumenta in modo spopositato. La presente infografica, ne fornisce una visualizzazione visiva. Ulteriori ricerche hanno evidenziato la necessità di considerare altre caratteristiche: Veridicità: indica quanto è utile un dato, ossia la capacità di fornire informazioni rilevanti ai fini dell'analisi decisionale; Variabilità: indica il grado di "inconsistenza" tra i dati, cioè quanto essi presentano "incoerenze" gli uni dagli altri. Complessità: maggiore è la complessità, maggiore sarà lo sforzo necessario per trarre informazioni utili dai nostri dati. Queste caratteristiche rendono difficile la gestione dei Big Data con i sistemi relazionali classici, e necessitano l'utilizzo di tecniche "ad hoc". 12

13 2.2 Gestione Big Data L'idea alla base della gestione dei Big Data va ritrovata nell'intrinseca necessità di avere una notevole potenza di calcolo per gestire quei dati. Tutto questo può essere garantito solo distribuendo il carico dei dati su migliaia di servers e gestire in parallelo le analisi degli stessi sui vari nodi Limiti di gestione con RDMBS I problemi degli RDBMS nella gestione dei "Big Data" vanno ricercati proprio nelle proprietà intrinseche di questi ultimi. Infatti, i limiti principali sono legati alle grandi dimensioni (Volume) dei Big Data, al fatto che non sono strutturati (Variety), ed alla velocità con la quale crescono (Velocity). Le dimensioni crescenti dei Big Data, che vanno da qualche decina di Petabytes, fino all'ordine di grandezza degli ZettaBytes, rendono gli RDBMS inadeguati per la loro gestione. Infatti i sistemi relazionali sono stati creati per gestire un quantitativo di dati molto più piccolo, e questo potrebbe saturare le CPU dei vari servers. Una soluzione, solo parziale, potrebbe essere quella di aumentare le unità di CPU del management system centrale garantendo una maggiore "scalabilità verticale", ma aumentando anche notevolmente il costo del sistema. Il secondo problema, relativo alla "varietà" dei dati, è un limite difficilmente gestibile dagli RDBMS. Questi ultimi sono basati su un'architettura formata da uno schema relazionale che risulta molto efficiente con informazioni fortemente strutturate, ma la gestione dei dati non strutturati non rientra nel loro ambito. Oggi i dati vengono creati in formato semi-strutturato o non strutturato (social media, foto, video, audio, s ), rendendo quindi molto penalizzante l'utilizzo degli RDBMS per gestirli. Il terzo limite è legato alla velocità di crescita dei dati. Infatti i sistemi relazionali possono gestire solo situazioni per lo più statiche e non scenari di veloce crescita dei dati. Il grandissimo numero di dispositivi che creano dati garantisce una velocità di produzione di essi spropositata e quindi non gestibile da DBMS relazionali. Tutti questi problemi potrebbero trovare parziali soluzioni riprogettando i sistemi relazionali con architetture in parallelo per gestire la velocità di crescita e il grande volume dei dati. Tuttavia la memorizzazione distribuita dei dati 13

14 rimarrebbe ingestita, ed inoltre il problema dei dati "non strutturati" continuerebbe a ledere sull'architettura degli RDBMS. Inoltre sorgono problemi anche riguardo le politiche di sicurezza e consistenza dei dati dei sistemi relazionali: operazioni come "redo, undo, ripresa a caldo e a freddo" sono inutilizzabili con una mole cosi elevata e dinamica di dati. Quindi, gestire i "big data" con sistemi convenzionali risulta da un lato troppo costoso e dall'altro addirittura inefficiente. Nuove tecnologie "ad hoc" sono state pensate per risolvere queste problematiche Nuove Tecnologie di gestione: NoSQL, MPP e MapReduce I Big Data necessitano di tecnologie più performanti per garantire la gestione di una grandissima quantità di dati e dei tempi di risposta tollerabili. I limiti dei sistemi relazionali ci suggeriscono che le tecnologie per gestire i Big Data dovrebbero essere "scalabili orizzontalmente" e non dovrebbero essere legate allo schema relazionale. Soluzioni che rispettano tali problematiche potrebbero essere quelle basate sul "Massive parallel processing" (MPP relazionale e non, come Teradata), e tecnologie basate su file system e database distribuiti (come Hadoop, Hive). NoSQL indica l'utilizzo di databases non relazionali per la gestione dei dati. Esso è legato al "Teorema CAP" secondo il quale "un sistema distribuito può rispettare solo due tra le seguenti tre proprietà: coerenza dei dati, disponibilità di risposta, tolleranza ai guasti" [7]. Non avendo una struttura relazionale, i DB NoSQL gestiscono i dati non strutturati per loro natura e quindi si adattano bene per i Big Data trovando un trade-off tra consistenza, velocità e scalabilità. L'MPP utilizza clusters di unità elaborative per processare i dati in parallelo, per poi unire le risposte in un unico livello. Hadoop, e le sue implementazioni come Hive, utilizzano un HDFS per distribuire i dati su un numero elevato di nodi, e MapReduce per processare in parallelo le richieste e quindi garantire scalabilità e performance sul tempo di esecuzione. MPP e MapReduce hanno molto in comune: entrambi utilizzano un numero elevato di servers per processare le richieste in parallelo. Tuttavia MPP è costituito da clusters di unità elaborative di "fascia alta" e specializzate per questi compiti, risulta quindi molto costoso al crescere della mole di dati. I clusters Hadoop sono basati su unità di 14

15 elaborazione di "commodity" (comuni personal computers ad esempio) e quindi possono crescere all'aumentare dei dati, senza quindi inficiare sui costi effettivi [8]. Un'ulteriore differenza la si nota considerando che le funzioni di MapReduce sono scritte in Java e sono quindi portabili e non legate ad uno schema preciso, come invece lo sono in MPP. Infatti quest'ultimo metodo prevede un'interrogazione basata su query SQL, ed è quindi soggetto alle limitazioni che ne derivano. Ne risulta una maggiore scalabilità a favore di soluzioni basate su Hadoop, rispetto a soluzioni relazionali e/o basate su MPP. Di seguito un grafico che evidenzia sinteticamente la differenza di performance in termini di scalabilità tra un sistema NoSQL ed uno relazionale, al crescere del volume di dati [9]. Si noti come un sistema RDBMS risulti più performante di una soluzione non relazionale in presenza di un carico non voluminoso di dati. Le cose cambiano notevolmente al crescere del volume dei dati. Le spiegazioni di tale andamento saranno ampiamente prese in considerazione nel capitolo 3. 15

16 Capitolo 3: Hive: SQL-HADOOP based DWH Apache Hive è un tool per il data warehousing basato sull'infrastruttura Hadoop. Esso permette di operare con grandi data sets attraverso query ad-hoc in un linguaggio SQL-like. I dati utilizzati da Hive sono memorizzati nel File System HDFS di Hadoop, o in file systems compatibili con esso. E' quindi scalabile, tollerante ai fallimenti e garantisce un certo grado di parallelismo computazionale poichè le richieste, una volta arrivate all'infrastruttura Hadoop, vengono distribuite sui vari nodi che compongono il cluster, e vengono tradotte in funzioni MapReduce. Offre, in aggiunta alle funzionalità di Hadoop, i bridges JDBC e ODBC, interfacce grafiche per l'utilizzo di Hive-QL e svariati drivers per l'ottimizzazione delle query. 3.1 Infrastruttura base di Hive: Hadoop Apache Hadoop è un framework per la gestione affidabile, scalabile e distribuita di grandi quantità di dati. Esso traduce la richiesta di un singolo server, ad un intera collezione di macchine che costituiscono i nodi del nostro cluster. Fu sviluppato da Apache e da Yahoo! nel 2004, ed utilizza HDFS come file system distribuito per archiviare dati non strutturati e sfrutta, invece, la potenza del paradigma MapReduce per parallelizzare l'elaborazione. Hadoop ha un'architettura a livelli. E' composto da quattro moduli, ognuno con un preciso compito: Hadoop common, Hadoop distributed file system, Hadoop Yarn, Hadoop MapReduce. Hadoop Common è il modulo che contiene le librerie utili al nostro software. 16

17 3.1.1 Hadoop distributed file system - HDFS E' il file system di Hadoop, utilizzato quindi, anche da Hive, dato che è stato creato per essere compatibile con diversi prodotti. Garantisce affidabilità, scalabilità e la distribuzione dei files sui vari nodi. Esso deriva dal GFS, ovvero il Google File System. Una particolarità che lo distingue da altri file system distribuiti è la possibilità di supportare un hardware dei vari nodi anche non performante, e cioè macchine di "commodity". La struttura del File System è gerarchica. Essa è formata da vari CLUSTERS HDFS. Ogni cluster è composto da svariate macchine sulla rete. Ognuno di essi contiene un Server, che è formato da una macchina nella quale gira un NameNode. Le altre macchine che compongono il cluster, hanno un solo DataNode e i vari blocchi che compongono i files. L'insieme "DataNode-Nodi" viene chiamato Rack. In ogni cluster ci sono svariati Racks. Il Namenode è addetto all'apertura, chiusura, ed alla eventuale rinominazione di un file, mentre i Datanodes sono addetti alla scrittura ed alla lettura dei file. Importantissimo compito dei Datanodes, su direttiva del Namenode, è quello di applicare delle repliche del file su più nodi, garantendone quindi un alto grado di tolleranza ai fallimenti (Fauttollerance): qualora un nodo fosse "out of service", la richiesta è subito trasferita ad un nodo differente che presenta una replica di quel file. L'implementazione dei NameNodes e DataNodes è in Java, garantendo un'interoreperibilità ed una portabilità su qualunque macchina abbia una JVM. Ogni DataNode ha una socket aperta col NameNode ed è in "polling" continuo chiedendo direttive sul da farsi, utilizzando un protocollo "blockbased" proprietario [10]. I Clients contattano i NameNodes, i quali impartiscono istruzioni ai DataNodes che li hanno contattati. Il protocollo di comunicazione è basato su TCP/IP. Ogni client ha una connessione TCP attiva con il NameNode e comunica con esso attraverso un protocollo RPC proprietario (Remote protocol communication)[10]. Le funzioni per i client sono quelle di un qualsiasi file system: crea, rimuovi, sposta, rinomina, ma non modifica. Esso è anche compatibile con altri file system in rete. Pechè HDFS è utilizzato come file system in tool per il datawarehousing, come HIVE? La motivazione va ricercata nella sua naturale predisposizione a supportare file di grandissime dimensioni, e nell'altissimo grado di tolleranza ai fallimenti. 17

18 Tool come HIVE, hanno bisogno di scrivere i file una sola volta (write-once), ma compiono numerosissime operazioni di lettura (read-many), necessitando di essere soddisfatte in un certo intervallo di tempo. HDFS divide i file in chunks (blocchi) di 64 MB, distribuendoli nei vari nodi del cluster, e se possibile, ogni chunk su un DataNode, in modo da incrementarne il parallelismo nei trasferimenti. La "fault tollerance" viene garantita dalla presenza continua di messaggi, chiamati "Heartbeat" da parte dei DataNodes al NameNode corrispondente: in assenza di tale notifica, il DataNode, con i relativi blocchi di file, viene cancellato dalla gerarchia dell'hdfs, e quindi il NameNode non vi invierà più alcuna richiesta. Se il numero di repliche dei blocchi persi è inferiore ad un valore minimo, il NameNode provvede a crearne nuove repliche per riparare la situazione Hadoop MapReduce e YARN Hadoop implementa il paradigma MapReduce per gestire la grande quantità di dati e parallelizzare l'elaborazione. Strettamente collegata all'hdfs, su ogni nodo di ogni cluster girano due processi, "Mapper" e "Reducer". Ogni blocco di file può essere visto logicamente come composto da vari record di dati: ogni record viene "mappato" in una tupla, od anzi, una coppia (chiave, valore) dal processo Mapper. map(key1,value) -> list<key2,value2> L'output può avere una chiave differente dall'ingresso, e possono esserci più tuple con la stessa chiave. L'insieme delle tuple di output, diventa l'input per il processo Reducer: esso riceve tutte le tuple con la stessa chiave e le "riduce", cioè le aggrega in una lista. 18

19 reduce(key2, list<value2>) -> list<value3> L'output di tale processo è un file contenente questo insieme di tuple ridotte. Il file di output può ricevere ulteriori processi di MapReduce, concatenando queste operazioni. La potenza di tale paradigma va ricercata nella possibilità di rendere le operazioni di MAP e REDUCE praticamente indipendenti le une dalle altre e permettere quindi di aumentare la parallelizzazione sui vari nodi del cluster. Le due entità principali del MapReduce di Hadoop sono il processo "JobTracker" ed il processo "TaskTracker". La sequenza di esecuzione è la seguente: Client comunica i propri "Jobs" al JobTracker, comunicando anche le funzioni Map e Reduce; JobTracker contatta NameNode per conoscere la locazione dei dati; JobTracker trova i TaskTrackers liberi più vicini ai dati; TaskTrackers eseguono il lavoro, inviando periodicamente HeartBeat al JobTracker; Il TaskTracker ha tanti slots quanti sono i Job che può servire. Ogni Job è impostato su una JVM differente, in modo da evitare un singolo "point of failure" per l'intero sistema. Differentemente accade per il JobTracker: se fallisce, tutti i jobs commissionati da esso falliscono di conseguenza. Una revisione del paradigma appena illustrato è implementata nel modulo YARN ("Yet Another Resource Negotiator"). Esso divide i compiti del JobTracker in due moduli indipendenti: Resource Manager e Application Master. Il primo si occupa di ricevere le richieste dai client e di allocare le giuste risorse per i vari Jobs, mentre il secondo si occupa di monitorare le attività dei TaskTrackers e di ricevere quindi gli HeartBeats da essi. 19

20 3.2 HIVE: funzionamento e performance Hive è utilizzato per effettuare l'analisi di Big data in modo distribuito, affidabile e scalabile utilizzando le potenzialità di Hadoop. Ma perchè Hive è così utilizzato? Cosa offre Hive in più all'infrastruttura Hadoop sottostante? E quali sono i benefici in termini di performance e tempo rispetto ad un DATA WAREHOUSE RDBMS based? Hive: funzionalità aggiuntive rispetto Hadoop Hive offre le piene funzionalità di Hadoop, e quindi può avvalersi di un file system distribuito come HDFS e di una parallelizzazione dei lavori con MapReduce. Ma quindi, a che scopo è stato creato? Interfacciarsi con Hadoop, prima, significava dover fornirgli le funzioni di Map e Reduce, e quindi implementarle in Java. Sebbene i sistemi RDBMS fossero praticamente incapaci di gestire tale mole di dati, per i problemi citati nel capitolo 2, essi hanno una caratteristica che fa invidia a sistemi come Hadoop: la presenza di un linguaggio, strutturato, semplice e potente come l'sql. Hive sfrutta proprio questa caratteristica. Infatti se da un lato si offrono le potenzialità di Hadoop, dall'altro la presenza di una GUI permette di implementare l'interfacciamento con l'utente attraverso un linguaggio SQL-like: HIVE-QL. Hive risulta quindi essere un "traduttore" (Hive)SQL-MapReduce. Hive fornisce HiveQL per effettuare query sui clusters Hadoop. In questo modo si sfrutta l'ecosistema Hadoop per risolvere i problemi legati all'incapacità di gestione dei Big data da parte dei sistemi RDBMS e si utilizza la comodità di un "linguaggio" simile all'sql, tipico di sistemi relazionali Funzionamento ed utilizzo di Hive Come detto, gli utenti utilizzano Hive con un'apposita Web GUI per sottomettere delle istruzioni in Hive-QL. Questo offre gran parte delle potenzialità dell'sql come "SHOW", "DESCRIBE", "JOIN", "SELECT", "CREATE" [11]. Le query Hive-QL non sono trasformate in istruzioni MapReduce traducendole in JAVA. Quando sono richiesti tasks MapReduce, Hive fa uso di alcuni file scritti in XML che corrispondono ai moduli MAPPER e REDUCER e qui ci sono le istruzioni di esecuzione delle funzioni Map e Reduce. Quindi le query Hive- QL sono tradotte in un grafo MapReduce di Hadoop ed eseguite grazie ai moduli XML. 20

ORACLE BUSINESS INTELLIGENCE STANDARD EDITION ONE A WORLD CLASS PERFORMANCE

ORACLE BUSINESS INTELLIGENCE STANDARD EDITION ONE A WORLD CLASS PERFORMANCE ORACLE BUSINESS INTELLIGENCE STANDARD EDITION ONE A WORLD CLASS PERFORMANCE Oracle Business Intelligence Standard Edition One è una soluzione BI completa, integrata destinata alle piccole e medie imprese.oracle

Dettagli

IT FOR BUSINESS AND FINANCE

IT FOR BUSINESS AND FINANCE IT FOR BUSINESS AND FINANCE Business Intelligence Siena 14 aprile 2011 AGENDA Cos è la Business Intelligence Terminologia Perché la Business Intelligence La Piramide Informativa Macro Architettura Obiettivi

Dettagli

Relazione sul data warehouse e sul data mining

Relazione sul data warehouse e sul data mining Relazione sul data warehouse e sul data mining INTRODUZIONE Inquadrando il sistema informativo aziendale automatizzato come costituito dall insieme delle risorse messe a disposizione della tecnologia,

Dettagli

Business Intelligence

Business Intelligence aggregazione dati Business Intelligence analytic applications query d a t a w a r e h o u s e aggregazione budget sales inquiry data mining Decision Support Systems MIS ERP data management Data Modeling

Dettagli

Supporto alle decisioni e strategie commerciali/mercati/prodotti/forza vendita;

Supporto alle decisioni e strategie commerciali/mercati/prodotti/forza vendita; .netbin. è un potentissimo strumento SVILUPPATO DA GIEMME INFORMATICA di analisi dei dati con esposizione dei dati in forma numerica e grafica con un interfaccia visuale di facile utilizzo, organizzata

Dettagli

DBMS (Data Base Management System)

DBMS (Data Base Management System) Cos'è un Database I database o banche dati o base dati sono collezioni di dati, tra loro correlati, utilizzati per rappresentare una porzione del mondo reale. Sono strutturati in modo tale da consentire

Dettagli

REALIZZARE UN MODELLO DI IMPRESA

REALIZZARE UN MODELLO DI IMPRESA REALIZZARE UN MODELLO DI IMPRESA - organizzare e gestire l insieme delle attività, utilizzando una piattaforma per la gestione aziendale: integrata, completa, flessibile, coerente e con un grado di complessità

Dettagli

Applicazione: DoQui/Index - Motore di gestione dei contenuti digitali

Applicazione: DoQui/Index - Motore di gestione dei contenuti digitali Riusabilità del software - Catalogo delle applicazioni: Applicativo verticale Applicazione: DoQui/Index - Motore di gestione dei contenuti digitali Amministrazione: Regione Piemonte - Direzione Innovazione,

Dettagli

Analisi per tutti. Panoramica. Considerazioni principali. Business Analytics Scheda tecnica. Software per analisi

Analisi per tutti. Panoramica. Considerazioni principali. Business Analytics Scheda tecnica. Software per analisi Analisi per tutti Considerazioni principali Soddisfare le esigenze di una vasta gamma di utenti con analisi semplici e avanzate Coinvolgere le persone giuste nei processi decisionali Consentire l'analisi

Dettagli

Sempre attenti ad ogni dettaglio Bosch Intelligent Video Analysis

Sempre attenti ad ogni dettaglio Bosch Intelligent Video Analysis Sempre attenti ad ogni dettaglio Bosch Intelligent Video Analysis 2 Intervento immediato con Bosch Intelligent Video Analysis Indipendentemente da quante telecamere il sistema utilizza, la sorveglianza

Dettagli

La piattaforma IBM Cognos

La piattaforma IBM Cognos La piattaforma IBM Cognos Fornire informazioni complete, coerenti e puntuali a tutti gli utenti, con una soluzione economicamente scalabile Caratteristiche principali Accedere a tutte le informazioni in

Dettagli

CORSO DI ALGORITMI E PROGRAMMAZIONE. JDBC Java DataBase Connectivity

CORSO DI ALGORITMI E PROGRAMMAZIONE. JDBC Java DataBase Connectivity CORSO DI ALGORITMI E PROGRAMMAZIONE JDBC Java DataBase Connectivity Anno Accademico 2002-2003 Accesso remoto al DB Istruzioni SQL Rete DataBase Utente Host client Server di DataBase Host server Accesso

Dettagli

www.bistrategy.it In un momento di crisi perché scegliere di investire sulla Business Intelligence?

www.bistrategy.it In un momento di crisi perché scegliere di investire sulla Business Intelligence? In un momento di crisi perché scegliere di investire sulla Business Intelligence? Cos è? Per definizione, la Business Intelligence è: la trasformazione dei dati in INFORMAZIONI messe a supporto delle decisioni

Dettagli

BRM. Tutte le soluzioni. per la gestione delle informazioni aziendali. BusinessRelationshipManagement

BRM. Tutte le soluzioni. per la gestione delle informazioni aziendali. BusinessRelationshipManagement BRM BusinessRelationshipManagement Tutte le soluzioni per la gestione delle informazioni aziendali - Business Intelligence - Office Automation - Sistemi C.R.M. I benefici di BRM Garantisce la sicurezza

Dettagli

Le funzionalità di un DBMS

Le funzionalità di un DBMS Le funzionalità di un DBMS Sistemi Informativi L-A Home Page del corso: http://www-db.deis.unibo.it/courses/sil-a/ Versione elettronica: DBMS.pdf Sistemi Informativi L-A DBMS: principali funzionalità Le

Dettagli

RedDot Content Management Server Content Management Server Non sottovalutate il potenziale della comunicazione online: usatela! RedDot CMS vi permette di... Implementare, gestire ed estendere progetti

Dettagli

Cross Software ltd Malta Pro.Sy.T Srl. Il gestionale come l'avete sempre sognato... Pag. 1

Cross Software ltd Malta Pro.Sy.T Srl. Il gestionale come l'avete sempre sognato... Pag. 1 Il gestionale come l'avete sempre sognato... Pag. 1 Le funzionalità di X-Cross La sofisticata tecnologia di CrossModel, oltre a permettere di lavorare in Internet come nel proprio ufficio e ad avere una

Dettagli

IBM Cognos 8 BI Midmarket Reporting Packages Per soddisfare tutte le vostre esigenze di reporting restando nel budget

IBM Cognos 8 BI Midmarket Reporting Packages Per soddisfare tutte le vostre esigenze di reporting restando nel budget Data Sheet IBM Cognos 8 BI Midmarket Reporting Packages Per soddisfare tutte le vostre esigenze di reporting restando nel budget Panoramica Le medie aziende devono migliorare nettamente le loro capacità

Dettagli

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testualilezione

Text mining ed analisi di dati codificati in linguaggio naturale. Analisi esplorative di dati testualilezione Text mining ed analisi di dati codificati in linguaggio naturale Analisi esplorative di dati testualilezione 2 Le principali tecniche di analisi testuale Facendo riferimento alle tecniche di data mining,

Dettagli

Manuale d uso Apache OpenMeetings (Manuale Utente + Manuale Amministratore)

Manuale d uso Apache OpenMeetings (Manuale Utente + Manuale Amministratore) Manuale d uso Apache OpenMeetings (Manuale Utente + Manuale Amministratore) Autore: Matteo Veroni Email: matver87@gmail.com Sito web: matteoveroni@altervista.org Fonti consultate: http://openmeetings.apache.org/

Dettagli

Introduzione al GIS (Geographic Information System)

Introduzione al GIS (Geographic Information System) Introduzione al GIS (Geographic Information System) Sommario 1. COS E IL GIS?... 3 2. CARATTERISTICHE DI UN GIS... 3 3. COMPONENTI DI UN GIS... 4 4. CONTENUTI DI UN GIS... 5 5. FASI OPERATIVE CARATTERIZZANTI

Dettagli

Realizzare un architettura integrata di Business Intelligence

Realizzare un architettura integrata di Business Intelligence Realizzare un architettura integrata di Business Intelligence Un sistema integrato di Business Intelligence consente all azienda customer oriented una gestione efficace ed efficiente della conoscenza del

Dettagli

Convegno 6 giugno 2013 Federlazio Frosinone

Convegno 6 giugno 2013 Federlazio Frosinone Convegno 6 giugno 2013 Federlazio Frosinone pag. 1 6 giugno 2013 Federlazio Frosinone Introduzione alla Business Intelligence Un fattore critico per la competitività è trasformare la massa di dati prodotti

Dettagli

Introduzione a MySQL

Introduzione a MySQL Introduzione a MySQL Cinzia Cappiello Alessandro Raffio Politecnico di Milano Prima di iniziare qualche dettaglio su MySQL MySQL è un sistema di gestione di basi di dati relazionali (RDBMS) composto da

Dettagli

Milano, Settembre 2009 BIOSS Consulting

Milano, Settembre 2009 BIOSS Consulting Milano, Settembre 2009 BIOSS Consulting Presentazione della società Agenda Chi siamo 3 Cosa facciamo 4-13 San Donato Milanese, 26 maggio 2008 Come lo facciamo 14-20 Case Studies 21-28 Prodotti utilizzati

Dettagli

Sistemi ERP e i sistemi di BI

Sistemi ERP e i sistemi di BI Sistemi ERP e i sistemi di BI 1 Concetti Preliminari Cos è un ERP: In prima approssimazione: la strumento, rappresentato da uno o più applicazioni SW in grado di raccogliere e organizzare le informazioni

Dettagli

Sistemi di supporto alle decisioni Ing. Valerio Lacagnina

Sistemi di supporto alle decisioni Ing. Valerio Lacagnina Cosa è il DSS L elevato sviluppo dei personal computer, delle reti di calcolatori, dei sistemi database di grandi dimensioni, e la forte espansione di modelli basati sui calcolatori rappresentano gli sviluppi

Dettagli

Energy Data Management System (EDMS): la soluzione software per una gestione efficiente dell energia secondo lo standard ISO 50001

Energy Data Management System (EDMS): la soluzione software per una gestione efficiente dell energia secondo lo standard ISO 50001 Energy Data Management System (EDMS): la soluzione software per una gestione efficiente dell energia secondo lo standard ISO 50001 Oggi più che mai, le aziende italiane sentono la necessità di raccogliere,

Dettagli

White Paper. Operational DashBoard. per una Business Intelligence. in real-time

White Paper. Operational DashBoard. per una Business Intelligence. in real-time White Paper Operational DashBoard per una Business Intelligence in real-time Settembre 2011 www.axiante.com A Paper Published by Axiante CAMBIARE LE TRADIZIONI C'è stato un tempo in cui la Business Intelligence

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello del sistema 4 2.1 Requisiti hardware........................ 4 2.2 Requisiti software.........................

Dettagli

Introduzione ad Access

Introduzione ad Access Introduzione ad Access Luca Bortolussi Dipartimento di Matematica e Informatica Università degli studi di Trieste Access E un programma di gestione di database (DBMS) Access offre: un supporto transazionale

Dettagli

SIASFi: il sistema ed il suo sviluppo

SIASFi: il sistema ed il suo sviluppo SIASFI: IL SISTEMA ED IL SUO SVILUPPO 187 SIASFi: il sistema ed il suo sviluppo Antonio Ronca Il progetto SIASFi nasce dall esperienza maturata da parte dell Archivio di Stato di Firenze nella gestione

Dettagli

MIB PER IL CONTROLLO DELLO STATO DI UN SERVER FTP

MIB PER IL CONTROLLO DELLO STATO DI UN SERVER FTP Università degli Studi di Pisa Facoltà di Scienze Matematiche,Fisiche e Naturali Corso di Laurea in Informatica Michela Chiucini MIB PER IL CONTROLLO DELLO STATO DI UN SERVER

Dettagli

Import Dati Release 4.0

Import Dati Release 4.0 Piattaforma Applicativa Gestionale Import Dati Release 4.0 COPYRIGHT 2000-2005 by ZUCCHETTI S.p.A. Tutti i diritti sono riservati.questa pubblicazione contiene informazioni protette da copyright. Nessuna

Dettagli

Guida Dell di base all'acquisto dei server

Guida Dell di base all'acquisto dei server Guida Dell di base all'acquisto dei server Per le piccole aziende che dispongono di più computer è opportuno investire in un server che aiuti a garantire la sicurezza e l'organizzazione dei dati, consentendo

Dettagli

Applicazione: Share - Sistema per la gestione strutturata di documenti

Applicazione: Share - Sistema per la gestione strutturata di documenti Riusabilità del software - Catalogo delle applicazioni: Gestione Documentale Applicazione: Share - Sistema per la gestione strutturata di documenti Amministrazione: Regione Piemonte - Direzione Innovazione,

Dettagli

PLM Software. Answers for industry. Siemens PLM Software

PLM Software. Answers for industry. Siemens PLM Software Siemens PLM Software Monitoraggio e reporting delle prestazioni di prodotti e programmi Sfruttare le funzionalità di reporting e analisi delle soluzioni PLM per gestire in modo più efficace i complessi

Dettagli

Pagine romane (I-XVIII) OK.qxd:romane.qxd 7-09-2009 16:23 Pagina VI. Indice

Pagine romane (I-XVIII) OK.qxd:romane.qxd 7-09-2009 16:23 Pagina VI. Indice Pagine romane (I-XVIII) OK.qxd:romane.qxd 7-09-2009 16:23 Pagina VI Prefazione Autori XIII XVII Capitolo 1 Sistemi informativi aziendali 1 1.1 Introduzione 1 1.2 Modello organizzativo 3 1.2.1 Sistemi informativi

Dettagli

Business Intelligence

Business Intelligence Breve panoramica sulla Business Intelligence con software Open Source Roberto Marchetto, 14 Gennaio 2009 L'articolo ed eventuali commenti sono disponibili su www.robertomarchetto.com (Introduzione) Il

Dettagli

Energy risk management

Energy risk management Il sistema di supporto alle tue decisioni Energy risk management Un approccio orientato agli attori M.B.I. Srl, Via Francesco Squartini 7-56121 Pisa, Italia - tel. 050 3870888 - fax. 050 3870808 www.powerschedo.it

Dettagli

un occhio al passato per il tuo business futuro

un occhio al passato per il tuo business futuro 2 3 5 7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 un occhio al passato per il tuo business futuro BUSINESS DISCOVERY Processi ed analisi per aziende virtuose Che cos è La Business Discovery è un insieme

Dettagli

Informatica per la comunicazione" - lezione 9 -

Informatica per la comunicazione - lezione 9 - Informatica per la comunicazione" - lezione 9 - Protocolli di livello intermedio:" TCP/IP" IP: Internet Protocol" E il protocollo che viene seguito per trasmettere un pacchetto da un host a un altro, in

Dettagli

Sistemi Web-Based - Terminologia. Progetto di Sistemi Web-Based Prof. Luigi Laura, Univ. Tor Vergata, a.a. 2010/2011

Sistemi Web-Based - Terminologia. Progetto di Sistemi Web-Based Prof. Luigi Laura, Univ. Tor Vergata, a.a. 2010/2011 Sistemi Web-Based - Terminologia Progetto di Sistemi Web-Based Prof. Luigi Laura, Univ. Tor Vergata, a.a. 2010/2011 CLIENT: il client è il programma che richiede un servizio a un computer collegato in

Dettagli

Business Intelligence: dell impresa

Business Intelligence: dell impresa Architetture Business Intelligence: dell impresa Silvana Bortolin Come organizzare la complessità e porla al servizio dell impresa attraverso i sistemi di Business Intelligence, per creare processi organizzativi

Dettagli

DNS (Domain Name System) Gruppo Linux

DNS (Domain Name System) Gruppo Linux DNS (Domain Name System) Gruppo Linux Luca Sozio Matteo Giordano Vincenzo Sgaramella Enrico Palmerini DNS (Domain Name System) Ci sono due modi per identificare un host nella rete: - Attraverso un hostname

Dettagli

Gestione delle Architetture e dei Servizi IT con ADOit. Un Prodotto della Suite BOC Management Office

Gestione delle Architetture e dei Servizi IT con ADOit. Un Prodotto della Suite BOC Management Office Gestione delle Architetture e dei Servizi IT con ADOit Un Prodotto della Suite BOC Management Office Controllo Globale e Permanente delle Architetture IT Aziendali e dei Processi IT: IT-Governance Definire

Dettagli

CAPITOLO CAPIT Tecnologie dell ecnologie dell info inf rmazione e controllo

CAPITOLO CAPIT Tecnologie dell ecnologie dell info inf rmazione e controllo CAPITOLO 8 Tecnologie dell informazione e controllo Agenda Evoluzione dell IT IT, processo decisionale e controllo Sistemi di supporto al processo decisionale Sistemi di controllo a feedback IT e coordinamento

Dettagli

Il linguaggio SQL: transazioni

Il linguaggio SQL: transazioni Il linguaggio SQL: transazioni Sistemi Informativi T Versione elettronica: 4.8.SQL.transazioni.pdf Cos è una transazione? Una transazione è un unità logica di elaborazione che corrisponde a una serie di

Dettagli

Università degli Studi di Parma. Facoltà di Scienze MM. FF. NN. Corso di Laurea in Informatica

Università degli Studi di Parma. Facoltà di Scienze MM. FF. NN. Corso di Laurea in Informatica Università degli Studi di Parma Facoltà di Scienze MM. FF. NN. Corso di Laurea in Informatica A.A. 2007-08 CORSO DI INGEGNERIA DEL SOFTWARE Prof. Giulio Destri http://www.areasp.com (C) 2007 AreaSP for

Dettagli

SAI QUANTO TEMPO IMPIEGHI A RINTRACCIARE UN DOCUMENTO, UN NUMERO DI TELEFONO O UNA E-MAIL?

SAI QUANTO TEMPO IMPIEGHI A RINTRACCIARE UN DOCUMENTO, UN NUMERO DI TELEFONO O UNA E-MAIL? archiviazione ottica, conservazione e il protocollo dei SAI QUANTO TEMPO IMPIEGHI A RINTRACCIARE UN DOCUMENTO, UN NUMERO DI TELEFONO O UNA E-MAIL? Il software Facile! BUSINESS Organizza l informazione

Dettagli

I.Stat Guida utente Versione 1.7 Dicembre 2010

I.Stat Guida utente Versione 1.7 Dicembre 2010 I.Stat Guida utente Versione 1.7 Dicembre 2010 1 Sommario INTRODUZIONE 3 I concetti principali di I.Stat 4 Organizzazione dei dati 4 Ricerca 5 GUIDA UTENTE 6 Per iniziare 6 Selezione della lingua 7 Individuazione

Dettagli

FORM Il sistema informativo di gestione della modulistica elettronica.

FORM Il sistema informativo di gestione della modulistica elettronica. Studio FORM FORM Il sistema informativo di gestione della modulistica elettronica. We believe in what we create This is FORM power La soluzione FORM permette di realizzare qualsiasi documento in formato

Dettagli

Corso di Amministrazione di Sistema Parte I ITIL 3

Corso di Amministrazione di Sistema Parte I ITIL 3 Corso di Amministrazione di Sistema Parte I ITIL 3 Francesco Clabot Responsabile erogazione servizi tecnici 1 francesco.clabot@netcom-srl.it Fondamenti di ITIL per la Gestione dei Servizi Informatici Il

Dettagli

FIRESHOP.NET. Gestione Utility & Configurazioni. Rev. 2014.3.1 www.firesoft.it

FIRESHOP.NET. Gestione Utility & Configurazioni. Rev. 2014.3.1 www.firesoft.it FIRESHOP.NET Gestione Utility & Configurazioni Rev. 2014.3.1 www.firesoft.it Sommario SOMMARIO Introduzione... 4 Impostare i dati della propria azienda... 5 Aggiornare il programma... 6 Controllare l integrità

Dettagli

Come difendersi dai VIRUS

Come difendersi dai VIRUS Come difendersi dai VIRUS DEFINIZIONE Un virus è un programma, cioè una serie di istruzioni, scritte in un linguaggio di programmazione, in passato era di solito di basso livello*, mentre con l'avvento

Dettagli

Sistemi di supporto alle decisioni

Sistemi di supporto alle decisioni Sistemi di supporto alle decisioni Introduzione I sistemi di supporto alle decisioni, DSS (decision support system), sono strumenti informatici che utilizzano dati e modelli matematici a supporto del decision

Dettagli

Copyright Università degli Studi di Torino, Progetto Atlante delle Professioni 2009 IT PROCESS EXPERT

Copyright Università degli Studi di Torino, Progetto Atlante delle Professioni 2009 IT PROCESS EXPERT IT PROCESS EXPERT 1. CARTA D IDENTITÀ... 2 2. CHE COSA FA... 3 3. DOVE LAVORA... 4 4. CONDIZIONI DI LAVORO... 5 5. COMPETENZE... 6 Quali competenze sono necessarie... 6 Conoscenze... 8 Abilità... 9 Comportamenti

Dettagli

MARKETING INTELLIGENCE SUL WEB:

MARKETING INTELLIGENCE SUL WEB: Via Durini, 23-20122 Milano (MI) Tel.+39.02.77.88.931 Fax +39.02.76.31.33.84 Piazza Marconi,15-00144 Roma Tel.+39.06.32.80.37.33 Fax +39.06.32.80.36.00 www.valuelab.it valuelab@valuelab.it MARKETING INTELLIGENCE

Dettagli

Studio di retribuzione 2014

Studio di retribuzione 2014 Studio di retribuzione 2014 TECHNOLOGY Temporary & permanent recruitment www.pagepersonnel.it EDITORIALE Grazie ad una struttura costituita da 100 consulenti e 4 uffici in Italia, Page Personnel offre

Dettagli

ARTICOLO 61 MARZO/APRILE 2013 LA BUSINESS INTELLIGENCE 1. http://www.sinedi.com

ARTICOLO 61 MARZO/APRILE 2013 LA BUSINESS INTELLIGENCE 1. http://www.sinedi.com http://www.sinedi.com ARTICOLO 61 MARZO/APRILE 2013 LA BUSINESS INTELLIGENCE 1 L estrema competitività dei mercati e i rapidi e continui cambiamenti degli scenari in cui operano le imprese impongono ai

Dettagli

Basi di Dati prof. Letizia Tanca lucidi ispirati al libro Atzeni-Ceri-Paraboschi-Torlone. SQL: il DDL

Basi di Dati prof. Letizia Tanca lucidi ispirati al libro Atzeni-Ceri-Paraboschi-Torlone. SQL: il DDL Basi di Dati prof. Letizia Tanca lucidi ispirati al libro Atzeni-Ceri-Paraboschi-Torlone SQL: il DDL Parti del linguaggio SQL Definizione di basi di dati (Data Definition Language DDL) Linguaggio per modificare

Dettagli

Estensione di un servizo di messaggistica per telefonia mobile (per una società di agenti TuCSoN)

Estensione di un servizo di messaggistica per telefonia mobile (per una società di agenti TuCSoN) Estensione di un servizo di messaggistica per telefonia mobile (per una società di agenti TuCSoN) System Overview di Mattia Bargellini 1 CAPITOLO 1 1.1 Introduzione Il seguente progetto intende estendere

Dettagli

BPEL: Business Process Execution Language

BPEL: Business Process Execution Language Ingegneria dei processi aziendali BPEL: Business Process Execution Language Ghilardi Dario 753708 Manenti Andrea 755454 Docente: Prof. Ernesto Damiani BPEL - definizione Business Process Execution Language

Dettagli

APPLICAZIONE WEB PER LA GESTIONE DELLE RICHIESTE DI ACQUISTO DEL MATERIALE INFORMATICO. Francesco Marchione e Dario Richichi

APPLICAZIONE WEB PER LA GESTIONE DELLE RICHIESTE DI ACQUISTO DEL MATERIALE INFORMATICO. Francesco Marchione e Dario Richichi APPLICAZIONE WEB PER LA GESTIONE DELLE RICHIESTE DI ACQUISTO DEL MATERIALE INFORMATICO Francesco Marchione e Dario Richichi Istituto Nazionale di Geofisica e Vulcanologia Sezione di Palermo Indice Introduzione...

Dettagli

F O R M A T O E U R O P E O

F O R M A T O E U R O P E O F O R M A T O E U R O P E O P E R I L C U R R I C U L U M V I T A E INFORMAZIONI PERSONALI Nome Indirizzo Laura Bacci, PMP Via Tezze, 36 46100 MANTOVA Telefono (+39) 348 6947997 Fax (+39) 0376 1810801

Dettagli

Classificazioni dei sistemi di produzione

Classificazioni dei sistemi di produzione Classificazioni dei sistemi di produzione Sistemi di produzione 1 Premessa Sono possibili diverse modalità di classificazione dei sistemi di produzione. Esse dipendono dallo scopo per cui tale classificazione

Dettagli

DataFix. La soluzione innovativa per l'help Desk aziendale

DataFix. La soluzione innovativa per l'help Desk aziendale DataFix D A T A N O S T O P La soluzione innovativa per l'help Desk aziendale La soluzione innovativa per l'help Desk aziendale L a necessità di fornire un adeguato supporto agli utenti di sistemi informatici

Dettagli

Elaidon Web Solutions

Elaidon Web Solutions Elaidon Web Solutions Realizzazione siti web e pubblicità sui motori di ricerca Consulente Lorenzo Stefano Piscioli Via Siena, 6 21040 Gerenzano (VA) Telefono +39 02 96 48 10 35 elaidonwebsolutions@gmail.com

Dettagli

Dal punto di vista organizzativo sono possibili due soluzioni per il sistema di rete.

Dal punto di vista organizzativo sono possibili due soluzioni per il sistema di rete. Premessa. La traccia di questo anno integra richieste che possono essere ricondotte a due tipi di prove, informatica sistemi, senza lasciare spazio ad opzioni facoltative. Alcuni quesiti vanno oltre le

Dettagli

Processi (di sviluppo del) software. Fase di Analisi dei Requisiti. Esempi di Feature e Requisiti. Progettazione ed implementazione

Processi (di sviluppo del) software. Fase di Analisi dei Requisiti. Esempi di Feature e Requisiti. Progettazione ed implementazione Processi (di sviluppo del) software Fase di Analisi dei Requisiti Un processo software descrive le attività (o task) necessarie allo sviluppo di un prodotto software e come queste attività sono collegate

Dettagli

PROFILI ALLEGATO A. Profili professionali

PROFILI ALLEGATO A. Profili professionali ALLEGATO A Profili professionali Nei profili di seguito descritti vengono sintetizzate le caratteristiche di delle figure professionali che verranno coinvolte nell erogazione dei servizi oggetto della

Dettagli

explora consulting s.r.l. Via Case Rosse, 35-84131 SALERNO - tel 089 848073 fax 089 384582 www.exploraconsulting.it info@exploraconsulting.

explora consulting s.r.l. Via Case Rosse, 35-84131 SALERNO - tel 089 848073 fax 089 384582 www.exploraconsulting.it info@exploraconsulting. explora consulting s.r.l. Via Case Rosse, 35-84131 SALERNO - tel 089 848073 fax 089 384582 www.exploraconsulting.it info@exploraconsulting.it Procedura di gestione per Laboratori di Analisi Cliniche Pag.

Dettagli

Introduzione. E un sistema EAI molto flessibile, semplice ed efficace:

Introduzione. E un sistema EAI molto flessibile, semplice ed efficace: Overview tecnica Introduzione E un sistema EAI molto flessibile, semplice ed efficace: Introduce un architettura ESB nella realtà del cliente Si basa su standard aperti Utilizza un qualsiasi Application

Dettagli

INDICE 1. DESCRIZIONE DEL CONTESTO ------------------------------------------------------------------- 4

INDICE 1. DESCRIZIONE DEL CONTESTO ------------------------------------------------------------------- 4 Appendice 1: Allegato Tecnico Servizio di consulenza specialistica e dei servizi di sviluppo, manutenzione ed evoluzione dei sistemi di Business Process Management (BPM) e di Business Intelligence (BI)

Dettagli

più del mercato applicazioni dei processi modificato. Reply www.reply.eu

più del mercato applicazioni dei processi modificato. Reply www.reply.eu SOA IN AMBITO TELCO Al fine di ottimizzare i costi e di migliorare la gestione dell'it, le aziende guardano, sempre più con maggiore interesse, alle problematiche di gestionee ed ottimizzazione dei processi

Dettagli

Il Business Process Management: nuova via verso la competitività aziendale

Il Business Process Management: nuova via verso la competitività aziendale Il Business Process Management: nuova via verso la competitività Renata Bortolin Che cosa significa Business Process Management? In che cosa si distingue dal Business Process Reingeneering? Cosa ha a che

Dettagli

12.5 UDP (User Datagram Protocol)

12.5 UDP (User Datagram Protocol) CAPITOLO 12. SUITE DI PROTOCOLLI TCP/IP 88 12.5 UDP (User Datagram Protocol) L UDP (User Datagram Protocol) é uno dei due protocolli del livello di trasporto. Come l IP, é un protocollo inaffidabile, che

Dettagli

Intrusion Detection System

Intrusion Detection System Capitolo 12 Intrusion Detection System I meccanismi per la gestione degli attacchi si dividono fra: meccanismi di prevenzione; meccanismi di rilevazione; meccanismi di tolleranza (recovery). In questo

Dettagli

Elementi di Informatica e Programmazione

Elementi di Informatica e Programmazione Elementi di Informatica e Programmazione Le Reti di Calcolatori (parte 2) Corsi di Laurea in: Ingegneria Civile Ingegneria per l Ambiente e il Territorio Università degli Studi di Brescia Docente: Daniela

Dettagli

Profilo Aziendale ISO 9001: 2008. METISOFT spa - p.iva 00702470675 - www.metisoft.it - info@metisoft.it

Profilo Aziendale ISO 9001: 2008. METISOFT spa - p.iva 00702470675 - www.metisoft.it - info@metisoft.it ISO 9001: 2008 Profilo Aziendale METISOFT spa - p.iva 00702470675 - www.metisoft.it - info@metisoft.it Sede legale: * Viale Brodolini, 117-60044 - Fabriano (AN) - Tel. 0732.251856 Sede amministrativa:

Dettagli

Elementi di UML (7): Diagrammi dei componenti e di deployment

Elementi di UML (7): Diagrammi dei componenti e di deployment Elementi di UML (7): Diagrammi dei componenti e di deployment Università degli Studi di Bologna Facoltà di Scienze MM. FF. NN. Corso di Laurea in Scienze di Internet Anno Accademico 2004-2005 Laboratorio

Dettagli

Utilizzato con successo nei più svariati settori aziendali, Passepartout Mexal BP è disponibile in diverse versioni e configurazioni:

Utilizzato con successo nei più svariati settori aziendali, Passepartout Mexal BP è disponibile in diverse versioni e configurazioni: Passepartout Mexal BP è una soluzione gestionale potente e completa per le imprese che necessitano di un prodotto estremamente flessibile, sia dal punto di vista tecnologico sia funzionale. Con più di

Dettagli

SISSI IN RETE. Quick Reference guide guida di riferimento rapido

SISSI IN RETE. Quick Reference guide guida di riferimento rapido SISSI IN RETE Quick Reference guide guida di riferimento rapido Indice generale Sissi in rete...3 Introduzione...3 Architettura Software...3 Installazione di SISSI in rete...3 Utilizzo di SISSI in Rete...4

Dettagli

Un'infrastruttura IT inadeguata provoca danni in tre organizzazioni su cinque

Un'infrastruttura IT inadeguata provoca danni in tre organizzazioni su cinque L'attuale ambiente di business è senz'altro maturo e ricco di opportunità, ma anche pieno di rischi. Questa dicotomia si sta facendo sempre più evidente nel mondo dell'it, oltre che in tutte le sale riunioni

Dettagli

Business Intelligence. Il data mining in

Business Intelligence. Il data mining in Business Intelligence Il data mining in L'analisi matematica per dedurre schemi e tendenze dai dati storici esistenti. Revenue Management. Previsioni di occupazione. Marketing. Mail diretto a clienti specifici.

Dettagli

VIRTUALIZE IT. www.digibyte.it - digibyte@digibyte.it

VIRTUALIZE IT. www.digibyte.it - digibyte@digibyte.it il server? virtualizzalo!! Se ti stai domandando: ma cosa stanno dicendo? ancora non sai che la virtualizzazione è una tecnologia software, oggi ormai consolidata, che sta progressivamente modificando

Dettagli

Sizing di un infrastruttura server con VMware

Sizing di un infrastruttura server con VMware Sizing di un infrastruttura server con VMware v1.1 Matteo Cappelli Vediamo una serie di best practices per progettare e dimensionare un infrastruttura di server virtuali con VMware vsphere 5.0. Innanzitutto

Dettagli

GARR WS9. OpenSource per l erogazione di servizi in alta disponibilità. Roma 17 giugno 2009

GARR WS9. OpenSource per l erogazione di servizi in alta disponibilità. Roma 17 giugno 2009 GARR WS9 OpenSource per l erogazione di servizi in alta disponibilità Roma 17 giugno 2009 Mario Di Ture Università degli Studi di Cassino Centro di Ateneo per i Servizi Informatici Programma Cluster Linux

Dettagli

Business Process Management

Business Process Management Corso di Certificazione in Business Process Management Progetto Didattico 2015 con la supervisione scientifica del Dipartimento di Informatica Università degli Studi di Torino Responsabile scientifico

Dettagli

1 BI Business Intelligence

1 BI Business Intelligence K Venture Corporate Finance Srl Via Papa Giovanni XXIII, 40F - 56025 Pontedera (PI) Tel/Fax 0587 482164 - Mail: info@kventure.it www.kventure.it 1 BI Business Intelligence Il futuro che vuoi. Sotto controllo!

Dettagli

E-MAIL INTEGRATA OTTIMIZZAZIONE DEI PROCESSI AZIENDALI

E-MAIL INTEGRATA OTTIMIZZAZIONE DEI PROCESSI AZIENDALI E-MAIL INTEGRATA OTTIMIZZAZIONE DEI PROCESSI AZIENDALI E-MAIL INTEGRATA Ottimizzazione dei processi aziendali Con il modulo E-mail Integrata, NTS Informatica ha realizzato uno strumento di posta elettronica

Dettagli

Data warehouse.stat Guida utente

Data warehouse.stat Guida utente Data warehouse.stat Guida utente Versione 3.0 Giugno 2013 1 Sommario INTRODUZIONE 3 I concetti principali 4 Organizzazione dei dati 4 Ricerca 5 Il browser 5 GUIDA UTENTE 6 Per iniziare 6 Selezione della

Dettagli

PUBLIC, PRIVATE O HYBRID CLOUD: QUAL È IL TIPO DI CLOUD OTTIMALE PER LE TUE APPLICAZIONI?

PUBLIC, PRIVATE O HYBRID CLOUD: QUAL È IL TIPO DI CLOUD OTTIMALE PER LE TUE APPLICAZIONI? PUBLIC, PRIVATE O HYBRID CLOUD: QUAL È IL TIPO DI CLOUD OTTIMALE PER LE TUE APPLICAZIONI? Le offerte di public cloud proliferano e il private cloud è sempre più diffuso. La questione ora è come sfruttare

Dettagli

Neomobile incentra l infrastruttura IT su Microsoft ALM, arrivando a 40 nuovi rilasci a settimana

Neomobile incentra l infrastruttura IT su Microsoft ALM, arrivando a 40 nuovi rilasci a settimana Storie di successo Microsoft per le Imprese Scenario: Software e Development Settore: Servizi In collaborazione con Neomobile incentra l infrastruttura IT su Microsoft ALM, arrivando a 40 nuovi rilasci

Dettagli

dal Controllo di Gestione alla Business Intelligence

dal Controllo di Gestione alla Business Intelligence dal Controllo di Gestione alla strumenti strategici per la gestione delle imprese Giovanni Esposito Bergamo, 29 Ottobre 2012 dal Controllo di Gestione alla 25/10/2012 1 Agenda 14:00 Benvenuto Il Sistema

Dettagli

white paper La Process Intelligence migliora le prestazioni operative del settore assicurativo

white paper La Process Intelligence migliora le prestazioni operative del settore assicurativo white paper La Process Intelligence migliora le prestazioni operative del settore assicurativo White paper La Process Intelligence migliora le prestazioni operative del settore assicurativo Pagina 2 Sintesi

Dettagli

Analisi dei requisiti e casi d uso

Analisi dei requisiti e casi d uso Analisi dei requisiti e casi d uso Indice 1 Introduzione 2 1.1 Terminologia........................... 2 2 Modello della Web Application 5 3 Struttura della web Application 6 4 Casi di utilizzo della Web

Dettagli