Distributed Data Stream Processing

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Distributed Data Stream Processing"

Transcript

1 Distributed Data Stream Processing Sistemi Distribuiti e Cloud Computing A.A. 2015/16 Matteo Nardelli Matteo Nardelli

2 Big Data IBM (2014) [1] : ogni giorno vengono creati circa 2,5 trilioni (10 18 ) di byte di dati ed il 90% dei dati è stato creato solo negli ultimi due anni. SOURCE: (2014) 2

3 Big Data Ogni anno prodotti circa 1200 EXABYTE (10^18, 2^60) di dati SOURCE: (2011, Stanford Univ.) Matteo Nardelli 3

4 Big Data Big Data indica collettivamente un insiemi di dati caratterizzati da (3+1 V): Volumi (terabyte, petabyte); Variabilità (di rappresentazione: strutturati e non strutturati); Velocità: dati in movimento, velocità di generazione e di analisi: utilità dell informazione estraibile degrada rapidamente con il passare del tempo; Veracity (veridicità): l integrità e l affidabilità dei dati: potervi fare affidamento per le operazioni di decision making. Approcci per la loro analisi: MapReduce: store and process; Data Stream Processing: elaborazione veloce dei dati senza memorizzarli. Matteo Nardelli 4

5 Motivazione number of four-byte integer values read per second from a 1-billion-long (4 GB) array on disk or in memory; random disk reads are for 10,000 indices chosen at random between one and 1 billion Adam Jacobs The Pathologies of Big Data. Queue 7, 6, Pages 10 (July 2009), 10 pages. Matteo Nardelli 5

6 Interesse Estrarre tempestivamente informazioni di interesse (di valore) da un insieme dati con le caratteristiche dei Big Data Produzione energetica: analisi consumi e produzione rinnovabili per allocazione più efficiente; Finanziario: evoluzione/previsione in tempo reale di quote azionarie; Medicina: telemedicina, studiare e prevedere la diffusione epidemica (Google Flu); Sicurezza: uso improprio di reti/sist. pagamento; behavioural pattern recognition; Servizi urbani: dispositivi per info traffico; ottimizzazione trasporti in risposta ad eventi; e.g., statistiche per taxi: tratte più frequenti, aree più redditizie (DEBS 2015 [2] ). Matteo Nardelli 6

7 Evoluzione delle Soluzioni Soluzioni derivanti da domini/contesti diversi Risultato: termini e soluzioni sovrapponibili (torre di babele) Una non-soluzione sono i DBMS impossibile memorizzazione tutti i dati processarli solo su richiesta DSMS (data stream management system): evoluzione dei DBMS Prevede: processamento continuo delle query (continuous query - CQ) query con sintassi SQL-like su flussi di dati transienti, non memorizzati Matteo Nardelli 7

8 Evoluzione delle Soluzioni DSP (data stream processing): è il modello che deriva dalla generalizzazione del DSMS (dati non persistenti, continuous query) «processamento di stream provenienti da sorgenti differenti, per produrre nuovi stream in uscita» (Cugola, Margara [3] ) CEP (complex event processing): si sviluppa in parallelo al DSMS, come evoluzione del publish-subscribe; processamento di notifiche di eventi (n.b.: non dati generici) provenienti da sorgenti diverse per identificare pattern di eventi (o eventi complessi) di interesse (in publish-subscribe ogni evento è separato dagli altri) MapReduce: paradigma per la computazione affidabile, scalabile e distribuita dati memorizzazione su file system distribuito (i.e., GFS, HDFS) paradigma «map» e «reduce» per lavorare su sottoinsiemi di dati Matteo Nardelli 8

9 DSP: Differenze con CEP Tipo di dato: CEP: notifiche di eventi DSP: (teoricamente) qualsiasi Tempo associato al dato ed ordinamento dei dati: CEP: molto importanti/essenziali DSP: non necessariamente considerati Tipologia di linguaggi per definire applicazioni: CEP: pattern-based language per specificare le firing condition e le azioni da intraprendere («if this then that»). DSP: (opzionale) regole di trasformazione (filtraggio, join, aggregazioni) per processare gli stream in ingresso e produrre stream in uscita. Matteo Nardelli 9

10 DSP: Differenze con Hadoop (MapReduce) Diverse estensioni consentono di usare Hadoop: Per interrogare il dataset con un approccio SQL-like (Apache Hive) Per interrogare il dataset con linguaggio procedurale (Apache Pig) Produrre approssimazioni successive dei risultati e possibilità di fare CQ (MapReduce Online [4] ) Differenze sostanziali: Persistenza: Hadoop necessita della memorizzazione dei dati Batching: Anche negli approcci per il CQ (Hadoop Online) si lavora considerando piccoli batch successivi da analizzare; questo introduce un ritardo proporzionale alla dimensione del batch. Matteo Nardelli 10

11 Distributed Data Stream Processing Applicazione descritta tramite un grafo diretto aciclico, chiamato «topologia» nodi = operatori dell'applicazione; archi = stream scambiato tra gli operatori Matteo Nardelli 11

12 DSP: Applicazioni Principali caratteristiche delle applicazioni DSP: Sorgenti: distribuite emettono un flusso continuo (stream) di dati (e.g., tuple) Stream: non memorizzato, riversato su un insieme di operatori Operatori (o Processing Elements): distribuiti progettati per lavorare in parallelo svolgono delle funzioni ben precise (e.g., aggregazione, filtraggio, trasformazione) possono generare un nuovo stream in output stateful: memorizzano uno stato interno (influenza output); stateless: output dipende solo dall input interagiscono solo per mezzo degli stream Matteo Nardelli 12

13 DSP: Modelli di processamento Di recente, sono emersi due modelli di DSP: one-at-a-time: ogni tupla è inviata singolarmente microbatched: tuple raggruppate prima di essere invite (e.g., Apache Storm) (e.g., Apache Spark) I due approcci sono complementari, trade-off tra punti di forza e debolezze, ed adatti per applicazioni diverse SOURCE: N. Marz, J. Warren Big Data. Matteo Nardelli 13

14 DSP: Ottimizzazioni Generalmente le applicazioni DSP richiedono performance estreme, le diverse comunità hanno sviluppato diverse forme di ottimizzazioni [5] Operator reordering, redundancy elimination, data parallelism, load balancing, load shedding, Parallelismo: processamento dei dati, applicando diverse forme di parallelismo: Pipeline: istruzione complessa suddivisa in una sequenza di passi Task parallelism: eseguire in parallelo le operazioni indipendenti (eventualmente riutilizzando i dati in input) Data parallelism: eseguire in parallelo una stessa operazione su un sottoinsieme dei dati in ingresso Matteo Nardelli 14

15 Ottimizzazione: Data Parallelism Aumentare le istanze dell operatore ed ogni istanza processa una porzione dello stream operatori stateless: nessun problema operatore stateful: problemi di inconsistenza dello stato Operatori partitioned stateful: caso speciale di operatori stateful; lo stato interno dipende da dati separabili in partizioni (shard) indipendenti parallelizzabile finché i dati della stessa partizione sono contenuti nello stesso stream Ogni shard (partizione orizzontale dei dati) è indirizzata sempre alla stessa istanza dell operatore, identificata applicando una funzione hash-based su sottoinsieme di attributi dei dati (partition key) Matteo Nardelli 15

16 Ottimizzazione: Load Shedding Load shedding: sacrifica l accuratezza dei risultati se il sistema è sovraccarico Decisioni fondamentali: Come scartare: random, probabilistico, priority-based, tecniche avanzate Quando scartare il traffico: comportamento proattivo o reattivo Dove scartare il traffico: ridurre il carico vicino alla sorgente fa sprecare meno lavoro, ma penalizza un numero maggiore di applicazioni Quanto scartare: dipende dalla politica di shedding adottata (e.g., fino a soddisfacimento soglia, percentuale, numero di classi) Matteo Nardelli 16

17 Infrastruttura Dove sono le risorse computazionali? Cluster dedicato nodi omogenei, «vicini» ed in numero staticamente definito scelta tradizionale Cloud e Distributed Clouds allocazione dinamica migliore assorbimento delle fluttuazioni nell'arrivo dei dati nodi geograficamente distribuiti nuovo interesse per il DSP, ma anche nuove problematiche i.e., scala, attenzione per la latenza tra i nodi, SLA Soluzioni ibride insieme statico di nodi, estendibili con risorse on-demand nel cloud trade-off tra prestazioni, bilanciamento del carico e costi Matteo Nardelli 17

18 Il problema dello Scheduling Scheduler: componente dei sistemi di DSP che assegna gli operatori delle applicazioni da eseguire alle risorse computazionali a disposizione Componente critico, influenza fortemente le performance del sistema e delle applicazioni eseguite. Diverse soluzioni: Algoritmo centralizzato vs algoritmo distribuito Conoscenza intera rete, problemi di scalabilità Metriche da ottimizzare Latenza, utilizzo della rete, importanza degli operatori, risorse Capacità adattativa Capacità di ottimizzare il grafo applicativo generalmente con definizione applicazioni con linguaggi formali e.g., merging, splitting e riordinamento degli operatori, load shedding Matteo Nardelli 18

19 Lambda Architecture Combina (i vantaggi di) diverse soluzioni per analizzare i Big Data Risponde alla stessa «query» fornendo una prima risposta approssimata (tramite speed layer) che viene affinata nel tempo (batch + serving layer): Batch layer: memorizza i dati e calcola delle «batch view» (Hadoop) Serving layer: carica ed indicizza le «batch view» per consentirne l esplorazione in modalità read-only (Google Dremel, Apache Drill, Impala, SploutSQL, ) Speed layer: calcola le «real-time view» in modo incrementale (basse latenze); responsabile per i dati non ancora presenti nelle viste del serving layer (DSP: Storm, Spark, ) Quando le batch view sono disponibili nel serving layer, i risultati corrispondenti presenti nelle realtime view vengono scartati. Matteo Nardelli 19 IMG SOURCE:

20 Lambda Architecture Proprietà: Batch e Serving layer: fault-tolerance e scalabilità di MapReduce Complexity isolation: lo speed layer, che è più difficile da realizzare, può compromettere i risultati per una finestra temporale limitata Flessibilità: usare algoritmi esatti nel batch layer, ed alg. approssimati nello speed layer. I risultati approssimati vengono corretti da quelli esatti (eventual accuracy) Michael Stonebraker (ACM Turing Award 2014) I suoi lavori hanno avuto un ruolo centrale nei sistemi database relazionali odierni Conosciuto per: Ingres (ER), Postgres, Streambase, SciDB, VoltDB (ma non solo!) VoltDB: in-memory, NewSQL (scalable, ACID, RDBMS), real-time database si basa su una semplificazione dell architettura lambda Matteo Nardelli 20

21 Kappa Architecture Semplificazione della lambda architecture: la presenza del processamento batch e real-time richiede duplicazione del codice ed effort di coordinamento Kappa architecture: uno stream processor può lavorare sia in modalità streaming che batching Applicazione è chiamata workflow Composta da pipeline di task Ogni task può essere un operatore di tipo stream o un job MapReduce Il framework può trattare i task in modo diverso in base alla loro tipologia Trattare = ottimizzare, memorizzare, spostare i risultati intermedi Framework: Apache Flink, Google Cloud DataFlow, Apache Spark Matteo Nardelli 21

22 Framework per il DSP Amazon Kinesis Apache Storm Matteo Nardelli 22

23 Amazon Kinesis Elaborazione real-time di streaming data su larga scala; definisce: Stream: sequenza di record Record: {sequence, partition-key, blob}; blob max size 50Kb Shard: numero di nodi su cui suddividere lo stream; questi sono determinati in base al datarate in ingresso ed in uscita desiderati Come funziona? Producers: (sorgenti esterne) generano i record, li immettono con HTTP PUT Matteo Nardelli 23

24 Amazon Kinesis Consumers: le applicazioni (generalmente su EC2) che processano ogni record dello stream - è possibile avere diverse applicazioni che consumano in modo indipendente e concorrente - l output può essere: un altro Kinesis Stream, EC2, DynamoDB, S3, altro Vantaggi Kinesis gestisce automaticamente l infrastruttura, lo storage e la configurazione necessaria per il recupero e l elaborazione dei dati Infrastruttura: load balancing, coordinamento tra i servizi distribuiti, fault tolerance Storage: dati memorizzati (e replicati) in diverse Availability Zone della stessa regione per 24 ore, periodo in cui sono disponibili Limitazioni Numero massimo di shard (50 o 25 in base alle regioni) Matteo Nardelli 24

25 Apache Storm Framework distribuito, scalabile, fault-tolerant per il DSP Applicazione (o topologia): componenti spout: sorgente delle tuple bolt: componente che elabora le tuple; può generarne di nuove stream: sequenza non limitata di tuple (tupla: insieme di coppie chiave/valore) spout bolt Poiché un bolt può essere replicato è possibile indicare: fieldgrouping: i campi per il partizionamento dello stream shufflegrouping: non siamo interessati allo stato Matteo Nardelli 25

26 Apache Storm: architettura ZooKeeper (shared memory) scambio configurazione e sincronizzazione Nimbus (nodo master) Scheduling (distribuzione per l esecuzione) delle applicazioni (topologie) Monitoring applicazioni: riassegnamento in caso di fallimento Worker Node Supervisor avvia e termina i worker process in base alle indicazioni di Nimbus Worker Process esegue (parte del) codice della topologia WN Supervisor WP WP Nimbus ZooKeeper WN Supervisor WN Supervisor WP Matteo Nardelli 26

27 WordCount in Storm WordCounter (esempio in storm-starter [6] ): Avendo sorgenti che emettono continuamente frasi, vogliamo contare le occorrenze di ogni parola A cosa serve? In modo simile vengono individuati i trend su twitter [7] Matteo Nardelli 27

28 WordCount in Storm Topologia Classe Java standard: main TopologyBuilder tb = new TopologyBuilder(); tb.setspout("spout", new RandomSentenceSpout(), 5); tb.setbolt("split", new SplitSentence(), 8).shuffleGrouping("spout"); tb.setbolt("count", new WordCount(), 12).fieldsGrouping("split", new Fields("word")); StormSubmitter.submitTopology("word-count", new Config(), tb.createtopology()); Partizionamento Stream Parallelismo componenti API Storm Matteo Nardelli 28

29 WordCount in Storm RandomSentenceSpout (extends BaseRichSpout ) public void nexttuple() { Utils.sleep(100); collector.emit(new Values(getRandomSentence())); } public void declareoutputfields(outputfieldsdeclarer d) { d.declare(new Fields("sentence")); } API Storm Dichiarazione stream WordCount (extends BaseBasicBolt) public void execute(tuple tuple, BasicOutputCollector collector) { String word = tuple.getstringbyfield("word"); Integer count = updatewordcounthashmap(word); collector.emit(new Values(word, count)); } public void declareoutputfields(outputfieldsdeclarer d) { d.declare(new Fields("word", "count")); } Matteo Nardelli Nuova tupla in uscita 29

30 Riferimenti [1] IBM. What is big data? [2] DEBS 2015: Grand Challenge. [3] A. Margara and G. Cugola Processing flows of information: from data stream to complex event processing. In Proc. of the 5th ACM DEBS '11. ACM. [4] T.Condie, N.Conway, P.Alvaro et al MapReduce online. In Proc. of the 7th USENIX conference on NSDI'10. USENIX Association, Berkeley, CA, USA. [5] M. Hirzel, R. Soulé, S. Schneider, B. Gedik, and R. Grimm A catalog of stream processing optimizations. ACM Comput. Surv. 46, 4. [6] Nathan Marz - Storm Starter. [7] M.G. Noll. Real-time Treding Topics With a Distributed Rolling Count Algorithm in Storm: Amazon Kinesis. url: Apache Storm. url: N. Marz and J. Warren Big Data: Principles and Best Practices of Scalable Realtime Data Systems. Manning Publications Co. N. Tatbul, U. Çetintemel, S. Zdonik et al Load shedding in a data stream manager. In Proc of the 29th international conference VLDB '03. VLDB Endowment Kappa Architecture: kappa-architecture.com Apache Flink Architecture: Matteo Nardelli 30

Distributed Data Stream Processing

Distributed Data Stream Processing Distributed Data Stream Processing Sistemi Distribuiti e Cloud Computing A.A. 2014/15 Matteo Nardelli Matteo Nardelli Big Data Source: http://www.intel.it/content/www/it/it/communications/internet-minute-infographic.html

Dettagli

Sistemi e Architetture per Big Data - A.A. 2017/18 Progetto 2: Analisi del dataset ACM DEBS Grand Challenge 2016 con Storm/Flink

Sistemi e Architetture per Big Data - A.A. 2017/18 Progetto 2: Analisi del dataset ACM DEBS Grand Challenge 2016 con Storm/Flink Sistemi e Architetture per Big Data - A.A. 2017/18 Progetto 2: Analisi del dataset ACM DEBS Grand Challenge 2016 con Storm/Flink Docenti: Valeria Cardellini, Matteo Nardelli Dipartimento di Ingegneria

Dettagli

Big Data: tecnologie, metodologie e applicazioni per l analisi dei dati massivi

Big Data: tecnologie, metodologie e applicazioni per l analisi dei dati massivi Big Data: tecnologie, metodologie e applicazioni per l analisi dei dati massivi Ministero Dello Sviluppo Economico Istituto Superiore delle Comunicazioni e delle Tecnologie dell Informazione Seminario

Dettagli

Savitar: Analisi di dati in tempo reale di una partita di calcio. Sistemi e architetture per Big Data

Savitar: Analisi di dati in tempo reale di una partita di calcio. Sistemi e architetture per Big Data Savitar: Analisi di dati in tempo reale di una partita di calcio Sistemi e architetture per Big Data Outline Scopo del progetto e descrizione dataset. Scelta del framework. Descrizione delle query. Valutazione

Dettagli

BASI DI DATI DISTRIBUITE

BASI DI DATI DISTRIBUITE BASI DI DATI DISTRIBUITE Definizione 2 Un sistema distribuito è costituito da un insieme di nodi (o di siti) di elaborazione una rete dati che connette fra loro i nodi Obiettivo: far cooperare i nodi per

Dettagli

Tecnologie e metodologie di Big Data Analytics - Apache Spark

Tecnologie e metodologie di Big Data Analytics - Apache Spark Tecnologie e metodologie di Big Data Analytics - Apache Spark Simone Angelini Fondazione Ugo Bordoni sangelini@fub.it 2 Luglio 2019 Simone Angelini (Fondazione Ugo Bordoni) Tecnologie e metodologie di

Dettagli

DataBase NoSQL. Prof. Marco Pedroni Unversità degli Studi di Ferrara

DataBase NoSQL. Prof. Marco Pedroni Unversità degli Studi di Ferrara DataBase NoSQL Prof. Marco Pedroni Unversità degli Studi di Ferrara Definizione DB NoSQL = sistemi software di archiviazione, in cui la persistenza dei dati è caratterizzata dal fatto di non utilizzare

Dettagli

Memoria primaria o secondaria? DFS MapReduce Scheduling & Data flow. Map Reduce. Giambattista Amati. Università di Tor Vergata.

Memoria primaria o secondaria? DFS MapReduce Scheduling & Data flow. Map Reduce. Giambattista Amati. Università di Tor Vergata. Map Reduce, Roma Sommario 1 Memoria primaria o secondaria? 2 DFS 3 MapReduce 4 Scheduling & Data flow Alcuni numeri Jeffrey Dean, Stanford talk, November 10, 2010 Dati in-memoria o su disco? Tempi di lettura

Dettagli

Indice generale. Introduzione...xiii. Gli autori...xvii. I revisori...xix

Indice generale. Introduzione...xiii. Gli autori...xvii. I revisori...xix Indice generale Introduzione...xiii Struttura del libro... xiii Cosa serve per questo libro...xiv Lo scopo del libro...xiv Convenzioni...xv Codice degli esempi...xv Gli autori...xvii I revisori...xix Capitolo

Dettagli

Big data ed eventi: quasi un tutorial. Prof. Riccardo Melen melen@disco.unimib.it

Big data ed eventi: quasi un tutorial. Prof. Riccardo Melen melen@disco.unimib.it Big data ed eventi: quasi un tutorial Prof. Riccardo Melen melen@disco.unimib.it Big Data Monitoraggio di reti e infrastrutture IT performance: data center, SOA/ESB, infrastrutture virtuali, configurazione

Dettagli

UML Introduzione a UML Linguaggio di Modellazione Unificato. Corso di Ingegneria del Software Anno Accademico 2012/13

UML Introduzione a UML Linguaggio di Modellazione Unificato. Corso di Ingegneria del Software Anno Accademico 2012/13 UML Introduzione a UML Linguaggio di Modellazione Unificato Corso di Ingegneria del Software Anno Accademico 2012/13 1 Che cosa è UML? UML (Unified Modeling Language) è un linguaggio grafico per: specificare

Dettagli

Scalabilità Energetica di Algoritmi Paralleli su Architetture Multicore. Gennaro Cordasco

Scalabilità Energetica di Algoritmi Paralleli su Architetture Multicore. Gennaro Cordasco Scalabilità Energetica di Algoritmi Paralleli su Architetture Multicore Gennaro Cordasco Outline Motivazioni Scalabilità Computazionale vs Scalabilità Energetica Modelli Computazionali e Assunzioni Una

Dettagli

Sviluppo di sistemi scalabili con Apache Spark. Alessandro Natilla - 22/10/2016 1

Sviluppo di sistemi scalabili con Apache Spark. Alessandro Natilla - 22/10/2016 1 Sviluppo di sistemi scalabili con Apache Spark Alessandro Natilla - 22/10/2016 1 Outline Big Data Cosa è Apache Spark Storia di Spark Spark vs MapReduce Componenti di Apache Spark Foundations: RDD e operazioni

Dettagli

Capitolo 9. Sistemi di basi di dati Pearson Addison-Wesley. All rights reserved

Capitolo 9. Sistemi di basi di dati Pearson Addison-Wesley. All rights reserved Capitolo 9 Sistemi di basi di dati 2007 Pearson Addison-Wesley. All rights reserved Capitolo 9: Sistemi di basi di dati 9.1 Definizione di Sistemi di Basi di Dati 9.2 Modello relazionale 9.3 Basi di dati

Dettagli

Sistemi distribuiti su larga scala

Sistemi distribuiti su larga scala Sistemi distribuiti su larga scala Sistemi Distribuiti Laurea magistrale in ingegneria informatica A.A. 2011-2012 Leonardo Querzoni Dove siamo arrivati Replicazione Attiva Replicazione Primary/Backup Atomic

Dettagli

Architetture Client/Server e World Wide Web

Architetture Client/Server e World Wide Web Basi di Dati Architetture Client/Server e World Wide Web Il World Wide Web Il web è una ragnatela (grafo) di contenuti (nodi) collegati tra loro attraverso collegamenti (link) I nodi sono documenti e/o

Dettagli

Informatica giuridica

Informatica giuridica Informatica giuridica Corso di laurea in Scienze dei Servizi giuridici Corso di laurea magistrale in Giurisprudenza A.A. 2015/16 L architettura hardware degli elaboratori La scheda madre Memoria principale

Dettagli

Architetture Client/Server. Un architettura è centralizzata quando i dati e le applicazioni (programmi) risiedono in un unico nodo elaborativo

Architetture Client/Server. Un architettura è centralizzata quando i dati e le applicazioni (programmi) risiedono in un unico nodo elaborativo Basi di Dati Architetture Client/Server D B M G Architettura centralizzata Un architettura è centralizzata quando i dati e le applicazioni (programmi) risiedono in un unico nodo elaborativo Tutta l intelligenza

Dettagli

Corso integrato di Sistemi di Elaborazione. Modulo I. Prof. Crescenzio Gallo.

Corso integrato di Sistemi di Elaborazione. Modulo I. Prof. Crescenzio Gallo. Corso integrato di Sistemi di Elaborazione Modulo I Prof. Crescenzio Gallo crescenzio.gallo@unifg.it Basi di dati: introduzione 2 Introduzione Gestione delle informazioni Basi di dati / DBMS Modello dei

Dettagli

Sperimentazione del file-system distribuito HDFS in ambiente GRID. III Borsista Day, Roma, 06.12.2012

Sperimentazione del file-system distribuito HDFS in ambiente GRID. III Borsista Day, Roma, 06.12.2012 Sperimentazione del file-system distribuito HDFS in ambiente GRID Tutor: Domenico Diacono Outline Use cases Hadoop Distributed File System Test di funzionalità Sviluppo di politiche di replica dei dati

Dettagli

Progettazione di un sistema per l analisi di dati real-time

Progettazione di un sistema per l analisi di dati real-time POLITECNICO DI TORINO Dipartimento di Automatica e Informatica Corso di Laurea Magistrale in Ingegneria Informatica Tesi di Laurea Magistrale Progettazione di un sistema per l analisi di dati real-time

Dettagli

Progettazione e prototipazione di un sistema di Data Stream Processing basato su Apache Storm

Progettazione e prototipazione di un sistema di Data Stream Processing basato su Apache Storm ALMA MATER STUDIORUM UNIVERSITÀ DI BOLOGNA CAMPUS DI CESENA Scuola di Scienze Corso di Laurea in Ingegneria e Scienze Informatiche Progettazione e prototipazione di un sistema di Data Stream Processing

Dettagli

Basi di Dati Architetture Client/Server

Basi di Dati Architetture Client/Server Basi di Dati Architetture Client/Server Architettura centralizzata Un architettura è centralizzata quando i dati e le applicazioni (programmi) risiedono in un unico nodo elaborativo Tutta l intelligenza

Dettagli

INFORMATICA GENERALE Prof. Alberto Postiglione Scienze della Comunicazione

INFORMATICA GENERALE Prof. Alberto Postiglione Scienze della Comunicazione 2.1c: MODELLI DEI DATI MODELLI DEI DATI Atzeni, cap. 1.3 DBMS: Modelli dei Dati 10 ott 2011 Dia 3 Modelli Logici e Modelli Concettuali Modelli Logici (disponibili sui DBMS commerciali) E un insieme di

Dettagli

Architetture Client/Server. Un architettura è centralizzata quando i dati e le applicazioni (programmi) risiedono in un unico nodo elaborativo

Architetture Client/Server. Un architettura è centralizzata quando i dati e le applicazioni (programmi) risiedono in un unico nodo elaborativo Basi di dati Basi di Dati Architetture Client/Server Architettura centralizzata Un architettura è centralizzata quando i dati e le applicazioni (programmi) risiedono in un unico nodo elaborativo Tutta

Dettagli

Sistema di monitoraggio per datacenter distribuiti geograficamente basati su OpenStack

Sistema di monitoraggio per datacenter distribuiti geograficamente basati su OpenStack Sistema di monitoraggio per datacenter distribuiti geograficamente basati su OpenStack Tutor: Dott. Domenico Elia Tutor: Dott. Giacinto Donvito Indice Descrizione del progetto Confronto con l attività

Dettagli

Introduzione D B M G

Introduzione D B M G Introduzione D B M G Introduzione alle basi di dati Gestione delle informazioni Base di dati Modello dei dati Indipendenza dei dati Accesso ai dati Vantaggi e svantaggi dei DBMS D B M G 2 Gestione delle

Dettagli

Gestione di Big RDF Data

Gestione di Big RDF Data Università degli Studi di Roma Tor Vergata Gestione di Big RDF Data Manuel Fiorelli fiorelli@info.uniroma2.it 11/12/2018 2 Distributed RDF store La taglia di un "big" RDF dataset può impedire di caricarlo

Dettagli

Basi di dati. Docente Prof. Alberto Belussi. Anno accademico 2009/10

Basi di dati. Docente Prof. Alberto Belussi. Anno accademico 2009/10 Basi di dati Docente Prof. Alberto Belussi Anno accademico 2009/10 Informazioni generali sull organizzazione Insegnamento annuale su due semestri Orario I Semestre Lunedì 11.30 13.30 (aula B) Martedì 11.30

Dettagli

Sistemi informativi D B M G. Introduzione. Introduzione alle basi di dati D B M G 2. Elena Baralis 2007 Politecnico di Torino 1

Sistemi informativi D B M G. Introduzione. Introduzione alle basi di dati D B M G 2. Elena Baralis 2007 Politecnico di Torino 1 Sistemi informativi D B M G Introduzione D B M G 2 2007 Politecnico di Torino 1 Introduzione D B M G Gestione delle informazioni Base di dati Modello dei dati Indipendenza dei dati Accesso ai dati Vantaggi

Dettagli

Gestione delle informazioni Base di dati Modello dei dati Indipendenza dei dati Accesso ai dati Vantaggi e svantaggi dei DBMS

Gestione delle informazioni Base di dati Modello dei dati Indipendenza dei dati Accesso ai dati Vantaggi e svantaggi dei DBMS 2007 Politecnico di Torino 1 Basi di dati DB M B G Gestione delle informazioni Base di dati Modello dei dati Indipendenza dei dati Accesso ai dati Vantaggi e svantaggi dei DBMS DB M B G 2 2007 Politecnico

Dettagli

Elena Baralis 2007 Politecnico di Torino 1

Elena Baralis 2007 Politecnico di Torino 1 2007 Politecnico di Torino 1 Basi di dati Gestione delle informazioni Base di dati Modello dei dati Accesso ai dati Vantaggi e svantaggi dei DBMS DB M BG2 Gestione delle informazioni Le informazioni sono

Dettagli

Subsection 1. MapReduce

Subsection 1. MapReduce MapReduce Subsection 1 MapReduce MapReduce La programmazione distribuita è molto pesante Soluzione: MapReduce MapReduce viene incontro alle sfide della programmazione distribuita. Le 3 regole Archivia

Dettagli

Progettazione ed implementazione di un sistema di calcolo distribuito ibrido multithread/multiprocesso per HPC: applicazione all imaging medico

Progettazione ed implementazione di un sistema di calcolo distribuito ibrido multithread/multiprocesso per HPC: applicazione all imaging medico Progettazione ed implementazione di un sistema di calcolo distribuito ibrido multithread/multiprocesso per HPC: applicazione all imaging medico Relatore: Chiar.mo Prof. Renato Campanini Correlatore: Dott.

Dettagli

DOCENTE PROF. ALBERTO BELUSSI. Anno accademico 2010/11

DOCENTE PROF. ALBERTO BELUSSI. Anno accademico 2010/11 Basi di dati DOCENTE PROF. ALBERTO BELUSSI Anno accademico 2010/11 Informazioni generali sull organizzazione Insegnamento annuale su due semestri Orario I Semestre Lunedì 11.30 13.30 (aula B) Martedì 11.30

Dettagli

Parallel Frequent Set Counting

Parallel Frequent Set Counting Parallel Frequent Set Counting Progetto del corso di Calcolo Parallelo AA 2001-02 Salvatore Orlando 1 Cosa significa association mining? Siano dati un insieme di item un insieme di transazioni, ciascuna

Dettagli

Soluzioni distribuite per la BioInformatica nel Virtual Data 5 Aprile Center / 33

Soluzioni distribuite per la BioInformatica nel Virtual Data 5 Aprile Center / 33 Soluzioni distribuite per la BioInformatica nel Virtual Data Center Workshop GARR 2017 - Netvolution Giuseppe Cattaneo Dipartimento di Informatica Università di Salerno, I-84084, Fisciano (SA), Italy cattaneo@unisa.it

Dettagli

GeoServer nel Cloud. Un caso di studio sulle modifiche architetturali nel passaggio a piattaforme Cloud. Federico Cacco

GeoServer nel Cloud. Un caso di studio sulle modifiche architetturali nel passaggio a piattaforme Cloud. Federico Cacco GeoServer nel Cloud Un caso di studio sulle modifiche architetturali nel passaggio a piattaforme Cloud Federico Cacco Laurea Magistrale in Informatica Università degli Studi di Padova Dipartimento di Matematica

Dettagli

Parallel Frequent Set Counting

Parallel Frequent Set Counting Parallel Frequent Set Counting Progetto del corso di Calcolo Parallelo AA 2010-11 Salvatore Orlando 1 Cosa significa association mining? Siano dati un insieme di item un insieme di transazioni, ciascuna

Dettagli

ALMA MATER STUDIORUM - UNIVERSITÀ DI BOLOGNA. Online Stream Processing di Big Data su Apache Storm per Applicazioni di Instant Coupon

ALMA MATER STUDIORUM - UNIVERSITÀ DI BOLOGNA. Online Stream Processing di Big Data su Apache Storm per Applicazioni di Instant Coupon ALMA MATER STUDIORUM - UNIVERSITÀ DI BOLOGNA SCUOLA DI INGEGNERIA E ARCHITETTURA DISI CORSO DI LAUREA IN INGEGNERIA INFORMATICA TESI DI LAUREA in Sistemi Distribuiti Online Stream Processing di Big Data

Dettagli

ANALISI E SPERIMENTAZIONE DELLA PIATTAFORMA CLOUD DATAFLOW

ANALISI E SPERIMENTAZIONE DELLA PIATTAFORMA CLOUD DATAFLOW ALMA MATER STUDIORUM UNIVERSITÀ DI BOLOGNA SCUOLA DI INGEGNERIA E ARCHITETTURA DIPARTIMENTO DI INFORMATICA SCIENZA E INGEGNERIA CORSO DI LAUREA IN INGEGNERIA INFORMATICA TESI DI LAUREA IN SISTEMI OPERATIVI

Dettagli

Elena Baralis 2007 Politecnico di Torino 1

Elena Baralis 2007 Politecnico di Torino 1 Introduzione Sistemi informativi 2 Introduzione Base di dati Modello dei dati Accesso ai dati Vantaggi e svantaggi dei DBMS 4 6 2007 Politecnico di Torino 1 7 8 9 10 Sistema informatico Nei sistemi informatici,

Dettagli

NoSQL. Definizione. Nella seconda metà degli anni 2000 Google, Amazon, Facebook studiavano nuove modalità di memorizzazione persistente dei dati

NoSQL. Definizione. Nella seconda metà degli anni 2000 Google, Amazon, Facebook studiavano nuove modalità di memorizzazione persistente dei dati NoSQL TESTO CONSIGLIATO http://martinfowler.com/nosql.html Definizione 2 Nella seconda metà degli anni 2000 Google, Amazon, Facebook studiavano nuove modalità di memorizzazione persistente dei dati Google

Dettagli

Elena Baralis 2007 Politecnico di Torino 1

Elena Baralis 2007 Politecnico di Torino 1 Introduzione Basi di dati DB M BG2 Introduzione Base di dati Modello dei dati Accesso ai dati Vantaggi e svantaggi dei DBMS DB M BG4 D B M G6 2007 Politecnico di Torino 1 D B M G7 D B M G8 D B M G9 D B

Dettagli

SQL Server Integration Services. SQL Server 2005: ETL - 1. Integration Services Project

SQL Server Integration Services. SQL Server 2005: ETL - 1. Integration Services Project Database and data mining group, SQL Server 2005 Integration Services SQL Server 2005: ETL - 1 Database and data mining group, Integration Services Project Permette di gestire tutti i processi di ETL Basato

Dettagli

D B M G 2. Linguaggio SQL: costrutti avanzati. SQL per le applicazioni

D B M G 2. Linguaggio SQL: costrutti avanzati. SQL per le applicazioni Linguaggio SQL: costrutti avanzati DB M B G Introduzione Concetto di cursore Aggiornabilità SQL statico e dinamico Embedded SQL Call Level Interface (CLI) Stored Procedure Confronto tra le alternative

Dettagli

Basi di dati D O C E N T E P R O F. A L B E R T O B E L U S S I. Anno accademico 2012/13

Basi di dati D O C E N T E P R O F. A L B E R T O B E L U S S I. Anno accademico 2012/13 Basi di dati D O C E N T E P R O F. A L B E R T O B E L U S S I Anno accademico 2012/13 Informazioni generali sull organizzazione Insegnamento annuale su due semestri Orario I Semestre Lunedì 11.30 13.30

Dettagli

Lezione 1. Introduzione ai sistemi di basi di dati

Lezione 1. Introduzione ai sistemi di basi di dati Lezione 1 Introduzione ai sistemi di basi di dati Pag.1 Testi consigliati Sistemi di Basi di Dati, di Raghu Ramakrishnan e Johannes Gehrke, McGraw Hill, 2004 (http://www.ateneonline.it/rama) Database Management

Dettagli

Metodi per la gestione e l utilizzo efficiente dei dati

Metodi per la gestione e l utilizzo efficiente dei dati Metodi per la gestione e l utilizzo efficiente dei dati Dr. Gabriele Galatolo, g.galatolo@kode.srl I metodi di controllo - il controllo dei metodi Dalla Tecnica alla Norma: gli oli come sistema modello

Dettagli

INFORMATICA GENERALE Prof. Alberto Postiglione. Scienze della Comunicazione Università di Salerno. INFORMATICA GENERALE Prof. Alberto Postiglione

INFORMATICA GENERALE Prof. Alberto Postiglione. Scienze della Comunicazione Università di Salerno. INFORMATICA GENERALE Prof. Alberto Postiglione INFORMATICA GENERALE Prof. Alberto Postiglione Scienze della Comunicazione Università degli Studi di Salerno 2.1c: MODELLI DEI DATI INFORMATICA GENERALE Prof. Alberto Postiglione Scienze della Comunicazione

Dettagli

SQL per le applicazioni. Basi di dati. Elena Baralis. Pag Politecnico di Torino 1 D B M G2 D B M G4 D B M G5 D B M G6. SQL per le applicazioni

SQL per le applicazioni. Basi di dati. Elena Baralis. Pag Politecnico di Torino 1 D B M G2 D B M G4 D B M G5 D B M G6. SQL per le applicazioni Linguaggio SQL: costrutti avanzati Introduzione Concetto di cursore Aggiornabilità SQL statico e dinamico Embedded SQL Call Level Interface (CLI) Stored Procedure Confronto tra le alternative DB M B G

Dettagli

Basi di dati Basi di dati per bioinformatica

Basi di dati Basi di dati per bioinformatica Basi di dati Basi di dati per bioinformatica DOCENTI PROF. ALBERTO BELUSSI PROF CARLO COMBI Anno accademico 2013/14 Organizzazione degli insegnamenti 3 Basi di dati Basi di dati per Bioinformatica Teoria

Dettagli

Fondamenti di Informatica

Fondamenti di Informatica Fondamenti di Informatica Accademia di Belle Arti di Verona Università degli Studi di Verona A.A. 2017-2018 Docente - Vincenzo Giannotti CAPITOLO 6 BASI DI DATI Basi di dati Il termine «Base di Dati» o

Dettagli

Orchestrazione di contenitori

Orchestrazione di contenitori Luca Cabibbo Architettura dei Sistemi Software Orchestrazione di contenitori dispensa asw670 marzo 2019 You may be wondering what we mean when we say reliable, scalable distributed systems. B. Burns, K.

Dettagli

Big Data E già troppo tardi oppure no?

Big Data E già troppo tardi oppure no? Big Data E già troppo tardi oppure no? Andrea Isidori Società Generale d Informatica SOGEI S.p.A. Città, gg mese anno UO-NN-AR-NN - Diffusione limitata / Uso interno aziendale / Confidenziale / Strettamente

Dettagli

I DATI E LA LORO INTEGRAZIONE 63 4/001.0

I DATI E LA LORO INTEGRAZIONE 63 4/001.0 I DATI E LA LORO INTEGRAZIONE 63 4/001.0 L INTEGRAZIONE DEI DATI INTEGRAZIONE DEI DATI SIGNIFICA LA CONDIVISIONE DEGLI ARCHIVI DA PARTE DI PIÙ AREE FUNZIONALI, PROCESSI E PROCEDURE AUTOMATIZZATE NELL AMBITO

Dettagli

Gestione di Big RDF Data

Gestione di Big RDF Data Università degli Studi di Roma Tor Vergata Gestione di Big RDF Data Manuel Fiorelli fiorelli@info.uniroma2.it 2 Distributed RDF store La taglia di un "big" RDF dataset può impedire di caricarlo e valutare

Dettagli

Introduzione ai. Sistemi Distribuiti

Introduzione ai. Sistemi Distribuiti Introduzione ai Sistemi Distribuiti Definizione di Sistema Distribuito (1) Un sistema distribuito è: Una collezione di computer indipendenti che appaiono agli utente come un sistema singolo coerente. 1

Dettagli

Elaborazione dati parallela con map/reduce. Roberto Congiu rcongiu@yahoo.com

Elaborazione dati parallela con map/reduce. Roberto Congiu rcongiu@yahoo.com Elaborazione dati parallela con map/reduce Roberto Congiu rcongiu@yahoo.com Indice delle slide Introduzione a Map/Reduce Descrizione del modello Implementazione Ottimizzazioni Introduzione Map/Reduce e

Dettagli

Linee di evoluzione dei Database

Linee di evoluzione dei Database Linee di evoluzione dei Database DB NoSQL Linked Open Data Semantic Web Esigenze e caratteristiche Presenza di grandi volumi di dati..crescenti Struttura non regolare dei dati da gestire Elementi relativamente

Dettagli

Piattaforme software distribuite I

Piattaforme software distribuite I Piattaforme software distribuite I Architetture Web: verifica delle prestazioni e Web caching Davide Lamanna lamanna@dis.uniroma1.it REPLICAZIONE DEL WEB SERVER: valutazione Prestazioni: più elevate grazie

Dettagli

MODELLI DEI DATI. Informatica Generale (AA 07/08) Corso di laurea in Scienze della Comunicazione Facoltà di Lettere e Filosofia

MODELLI DEI DATI. Informatica Generale (AA 07/08) Corso di laurea in Scienze della Comunicazione Facoltà di Lettere e Filosofia Informatica Generale (AA 07/08) Corso di laurea in Scienze della Comunicazione Facoltà di Lettere e Filosofia Università degli Studi di Salerno : Modelli dei Dati MODELLI DEI DATI Prof. Alberto Postiglione

Dettagli

Informatica Generale (AA 07/08) Corso di laurea in Scienze della Comunicazione Facoltà di Lettere e Filosofia. Università degli Studi di Salerno

Informatica Generale (AA 07/08) Corso di laurea in Scienze della Comunicazione Facoltà di Lettere e Filosofia. Università degli Studi di Salerno Informatica Generale (AA 07/08) Corso di laurea in Scienze della Comunicazione Facoltà di Lettere e Filosofia Università degli Studi di Salerno : Modelli dei Dati Prof. Alberto Postiglione Università degli

Dettagli

Architetture Applicative Altri Esempi

Architetture Applicative Altri Esempi Architetture Applicative Altri Esempi Alessandro Martinelli alessandro.martinelli@unipv.it 15 Aprile 2014 Architetture Applicative Altri Esempi di Architetture Applicative Architetture con più Applicazioni

Dettagli

Modelli di programmazione parallela

Modelli di programmazione parallela Modelli di programmazione parallela Oggi sono comunemente utilizzati diversi modelli di programmazione parallela: Shared Memory Multi Thread Message Passing Data Parallel Tali modelli non sono specifici

Dettagli

LEZIONE BASI DI DATI I 22/10/2008 XML

LEZIONE BASI DI DATI I 22/10/2008 XML LEZIONE BASI DI DATI I 22/10/2008 XML Il linguaggio XML (Extended Markup Language) è uno standard per la strutturazione dei dati sul web. A differenza di html, che è utilizzato per formattare documenti

Dettagli

Lezione n.4 DISTRIBUTED HASH TABLES: INTRODUZIONE 6/3/2009. Laura Ricci

Lezione n.4 DISTRIBUTED HASH TABLES: INTRODUZIONE 6/3/2009. Laura Ricci Lezione n.4 DISTRIBUTED HASH TABLES: INTRODUZIONE 6/3/2009 1 DISTRIBUTED HASH TABLES:INTRODUZIONE Distributed Hash Tables (DHT): Introduzione Motivazioni Caratteristiche Confronti DHT: Aspetti Fondamentali

Dettagli

Sommario. Elementi di Parallelismo. Misura delle prestazioni parallele. Tecniche di partizionamento. Load Balancing. Comunicazioni

Sommario. Elementi di Parallelismo. Misura delle prestazioni parallele. Tecniche di partizionamento. Load Balancing. Comunicazioni Sommario Elementi di Parallelismo Misura delle prestazioni parallele Tecniche di partizionamento Load Balancing Comunicazioni 2 Problema 1: Serie di Fibonacci Calcolare e stampare i primi N elementi della

Dettagli

Esperienze di Advanced Analytics nella statistica ufficiale: strumenti e progetti

Esperienze di Advanced Analytics nella statistica ufficiale: strumenti e progetti Esperienze di Advanced Analytics nella statistica ufficiale: strumenti e progetti Direzione Centrale per le tecnologie informatiche e della comunicazione Introduzione I Big Data nella statistica ufficiale

Dettagli

Lezione n.7 Distributed Hash Tables

Lezione n.7 Distributed Hash Tables Lezione n.7 Distributed Hash Tables Materiale didattico: Peer-to-Peer Systems and Applications Capitolo 7 1 Riassunto della Presentazione 1. Distributed Hash Tables (DHT): Introduzione 1. Motivazioni 2.

Dettagli

Design of Parallel Algorithm

Design of Parallel Algorithm Design of Parallel Algorithm Programmazione Concorrente, Parallela e su Cloud Carmine Spagnuolo, Ph.D. Plan 1 Progettazione di Programmi Tecniche Le problematiche Esempio 1: Array processing Esempio 2:

Dettagli

Isaac DE è una piattaforma Big Data completa di strumenti e servizi per l installazione, la configurazione, l uso, la gestione e il monitoraggio di

Isaac DE è una piattaforma Big Data completa di strumenti e servizi per l installazione, la configurazione, l uso, la gestione e il monitoraggio di Isaac DE è una piattaforma Big Data completa di strumenti e servizi per l installazione, la configurazione, l uso, la gestione e il monitoraggio di un intero ambiente NoSQL. 1 Sfrutta al massimo la potenza

Dettagli

Structured Query Language

Structured Query Language IL LINGUAGGIO SQL Structured Query Language Contiene sia il DDL sia il DML, quindi consente di: Definire e creare il database Effettuare l inserimento, la cancellazione, l aggiornamento dei record di un

Dettagli

Le basi di dati. Definizione 1. Lezione 2. Bisogna garantire. Definizione 2 DBMS. Differenza

Le basi di dati. Definizione 1. Lezione 2. Bisogna garantire. Definizione 2 DBMS. Differenza Definizione 1 Lezione 2 Le basi di dati Gli archivi di dati Organizzato in modo integrato attraverso tecniche di modellazione di dati Gestiti su memorie di massa Con l obiettivo Efficienza trattamento

Dettagli

Area Tecnologica 5 Information Processing and Management. Roma, 24 marzo 2011

Area Tecnologica 5 Information Processing and Management. Roma, 24 marzo 2011 Area Tecnologica 5 Information Processing and Management Presentata da: dott. Fabio Martinelli Consiglio Nazionale delle Ricerche Istituto di Informatica e Telematica Roma, Area Tecnologica 5 Information

Dettagli

Sperimentazione tecnologie big data per elaborazione e analisi dei testi (Big Data Text Analytics)

Sperimentazione tecnologie big data per elaborazione e analisi dei testi (Big Data Text Analytics) Scheda Sperimentazione tecnologie big data per elaborazione e analisi dei testi (Big Data Text Analytics) Direzione Piattaforme Trasversali, integrazione e Big Data Contesto Le fonti dei contenuti testuali

Dettagli

INDEXING: DISTRIBUITO O MAPREDUCE? Davide Tuccilli Algoritmi Avanzati A.A. 2011/2012

INDEXING: DISTRIBUITO O MAPREDUCE? Davide Tuccilli Algoritmi Avanzati A.A. 2011/2012 INDEXING: DISTRIBUITO O MAPREDUCE? Davide Tuccilli Algoritmi Avanzati A.A. 2011/2012 Introduzione Grandi moli di dati su cui effettuiamo ricerche quotidianamente Google indicizza per il motore di ricerca

Dettagli

Filippo Bergamasco ( DAIS - Università Ca Foscari di Venezia Anno accademico:

Filippo Bergamasco (   DAIS - Università Ca Foscari di Venezia Anno accademico: Filippo Bergamasco ( filippo.bergamasco@unive.it) http://www.dais.unive.it/~bergamasco/ DAIS - Università Ca Foscari di Venezia Anno accademico: 2017/2018 MongoDB è un DBMS: Non relazionale Orientato ai

Dettagli

Fondamenti di Informatica

Fondamenti di Informatica Fondamenti di Informatica Accademia di Belle Arti di Verona Università degli Studi di Verona A.A. 2016-2017 Docente - Vincenzo Giannotti CAPITOLO 6 BASI DI DATI Basi di dati Il termine «Base di Dati» o

Dettagli

Servizio clienti di alto livello

Servizio clienti di alto livello Servizio clienti di alto livello boschsecurity.com/instoreanalytics In-Store Analytics Operations Module Un servizio clienti eccellente permette al negozio di distinguersi e di migliorare le vendite e

Dettagli

LABORATORIO di INFORMATICA

LABORATORIO di INFORMATICA Università degli Studi di Cagliari Corso di Laurea Magistrale in Ingegneria per l Ambiente ed il Territorio LABORATORIO di INFORMATICA A.A. 2010/2011 Prof. Giorgio Giacinto BASI DI DATI GEOGRAFICHE http://www.diee.unica.it/giacinto/lab

Dettagli

Basi di Dati Parallele

Basi di Dati Parallele Basi di Dati Parallele Capitolo 3 Basi di dati Architetture e linee di evoluzione P. Atzeni, S. Ceri, P. Fraternali, S. Paraboschi, R. Torlone 1 Scalabilità delle applicazioni Carico insieme di tutte le

Dettagli

Modulo 2 Architetture dei SD Lezione 1

Modulo 2 Architetture dei SD Lezione 1 Modulo 2 Architetture dei SD Lezione 1 Corso Sistemi Distribuiti (6 CFU) Docente: Prof. Marcello Castellano Sistemi Distribuiti, LM Ing. Informatica 6 CFU Docente: Marcello Castellano Table of Contents

Dettagli

Nella vita quotidiana esistono innumerevoli esempi di database. Un agenda telefonica, un vocabolario o un catalogo di viaggi, sono tutti esempi di

Nella vita quotidiana esistono innumerevoli esempi di database. Un agenda telefonica, un vocabolario o un catalogo di viaggi, sono tutti esempi di 1 Nella vita quotidiana esistono innumerevoli esempi di database. Un agenda telefonica, un vocabolario o un catalogo di viaggi, sono tutti esempi di archivi di dati. Il prelievo da un bancomat o il noleggio

Dettagli

sistemi distribuiti Sistemi distribuiti - architetture varie classificazioni classificazione di Flynn (1972)

sistemi distribuiti Sistemi distribuiti - architetture varie classificazioni classificazione di Flynn (1972) Esempi di applicazioni comunicazione di dati Sistemi Distribuiti fra terminali di un sistema di elaborazione - fra sistemi di elaborazione sistemi distribuiti o centralizzati es. packed-switced networks

Dettagli

Informatica 3. LEZIONE 20: Ordinamento esterno. Modulo 1: Organizzazione della memoria Modulo 2: Ordinamento esterno

Informatica 3. LEZIONE 20: Ordinamento esterno. Modulo 1: Organizzazione della memoria Modulo 2: Ordinamento esterno Informatica 3 LEZIONE 20: Ordinamento esterno Modulo 1: Organizzazione della memoria Modulo 2: Ordinamento esterno Informatica 3 Lezione 20 - Modulo 1 Organizzazione della memoria Introduzione Dati in

Dettagli

Architetture Evolute nei Sistemi Informativi. architetture evolute 1

Architetture Evolute nei Sistemi Informativi. architetture evolute 1 Architetture Evolute nei Sistemi Informativi architetture evolute 1 Scalabilità delle Applicazioni carico: insieme di tutte le applicazioni (query) scalabilità: abilità di conservare prestazioni elevate

Dettagli

SISTEMI INFORMATIVI E DATABASE

SISTEMI INFORMATIVI E DATABASE SISTEMI INFORMATIVI E DATABASE SISTEMA INFORMATIVO AZIENDALE (S.I.) In una realtà aziendale si distingue: DATO elemento di conoscenza privo di qualsiasi elaborazione; insieme di simboli e caratteri. (274,

Dettagli

Cenni di Piattaforme di Supporto Clustered per Applicazioni Big Data

Cenni di Piattaforme di Supporto Clustered per Applicazioni Big Data Cenni di Piattaforme di Supporto Clustered per Applicazioni Big Data Alma Mater Studiorum - Università di Bologna CdS Laurea Magistrale in Ingegneria Informatica I Ciclo - A.A. 2015/2016 Corso di Sistemi

Dettagli

Big Query, nosql e Big Data

Big Query, nosql e Big Data Big Query, nosql e Big Data Ma c'è veramente bisogno di gestire tutti questi dati? Immaginiamo che.. L'attuale tecnologia Database e Web Services fosse disponibile già DA ANNI Cosa cambierebbe nella Vita

Dettagli

ANALISI DI DATI DI TRAIETTORIA SU PIATTAFORMA BIG DATA

ANALISI DI DATI DI TRAIETTORIA SU PIATTAFORMA BIG DATA Alma Mater Studiorum Università di Bologna SCUOLA DI INGEGNERIA E ARCHITETTURA CAMPUS DI CESENA Corso di Laurea Magistrale in Ingegneria e Scienze Informatiche ANALISI DI DATI DI TRAIETTORIA SU PIATTAFORMA

Dettagli

CONCETTI E ARCHITETTURA DI UN SISTEMA DI BASI DI DATI

CONCETTI E ARCHITETTURA DI UN SISTEMA DI BASI DI DATI CONCETTI E ARCHITETTURA DI UN SISTEMA DI BASI DI DATI Introduzione alle basi di dati (2) 2 Modelli dei dati, schemi e istanze (1) Nell approccio con basi di dati è fondamentale avere un certo livello di

Dettagli

La gestione delle interrogazioni

La gestione delle interrogazioni La gestione delle interrogazioni Basi di dati: Architetture e linee di evoluzione - Seconda edizione Capitolo 1 Appunti dalle lezioni Esecuzione e ottimizzazione delle query Un modulo del DBMS Query processor

Dettagli

Sommario. Analysis & design delle applicazioni parallele. Tecniche di partizionamento. Load balancing. Comunicazioni

Sommario. Analysis & design delle applicazioni parallele. Tecniche di partizionamento. Load balancing. Comunicazioni Sommario Analysis & design delle applicazioni parallele Tecniche di partizionamento Load balancing Comunicazioni Misura delle prestazioni parallele 2 Primi passi: analizzare il problema Prima di iniziare

Dettagli

MapReduce. Progettazione del Software a.a. 2012/13. Università degli Studi di Milano Dept. of Computer Science. Matteo Camilli

MapReduce. Progettazione del Software a.a. 2012/13. Università degli Studi di Milano Dept. of Computer Science. Matteo Camilli Università degli Studi di Milano Dept. of Computer Science MapReduce Matteo Camilli matteo.camilli@unimi.it http://camilli.di.unimi.it Progettazione del Software a.a. 2012/13 1 Motivazioni Vogliamo processare

Dettagli

QL (Query Language) Alice Pavarani

QL (Query Language) Alice Pavarani QL (Query Language) Alice Pavarani QL Query Language Linguaggio di interrogazione dei dati, permette di: Interrogare la base di dati per estrarre informazioni Elaborare i dati Il risultato di un interrogazione

Dettagli