Distributed Data Stream Processing
|
|
- Cesarina Valli
- 8 anni fa
- Visualizzazioni
Transcript
1 Distributed Data Stream Processing Sistemi Distribuiti e Cloud Computing A.A. 2014/15 Matteo Nardelli Matteo Nardelli
2 Big Data Source: Matteo Nardelli 2
3 Big Data Ogni anno prodotti circa 1200 EXABYTE (10^18, 2^60) di dati Source: Matteo Nardelli 3
4 Big Data IBM [1] ogni giorno vengono creati circa 2,5 trilioni (10 18 ) di byte di dati ed il 90% dei dati è stato creato solo negli ultimi due anni. Big Data: indica collettivamente insiemi di dati caratterizzati da (4V): Volumi: elevati (terabyte, petabyte); Variabilità di rappresentazione: dati strutturati (database), non strutturati (testi, video, immagini, audio); Velocità: dati in movimento, velocità di generazione e di analisi: utilità dell informazione estraibile degrada rapidamente con il passare del tempo; Veracity (veridicità): l integrità e l affidabilità dei dati: potervi fare affidamento per le operazioni di decision making. Matteo Nardelli 4
5 Interesse Produzione energetica: analisi consumi e produzione rinnovabili per allocazione più efficiente; Finanziario: evoluzione/previsione in tempo reale di quote azionarie; Medicina: telemedicina, studiare e prevedere la diffusione epidemica (Google Flu); Sicurezza: uso improprio di reti/sist. pagamento; behavioural pattern recognition; Servizi urbani: dispositivi per info traffico; ottimizzazione trasporti in risposta ad eventi; e.g., statistiche per taxi: tratte più frequenti, aree più redditizie (DEBS 2015 [2] ). Matteo Nardelli 5
6 Interesse Sean Patrick Murphy [3] I believe that big actually means important. Scientists have long known that data could create new knowledge but now the rest of the world, including government and management in particular, has realized that data can create value. Elaborare flussi continui di dati, raccolti da sorgenti (e.g., sensori, web) geograficamente distribuite che li producono con data rate non predicibili, per ottenere risposte in modo tempestivo Matteo Nardelli 6
7 Soluzioni Soluzioni derivanti da applicazioni/esigenze diverse Finanziario, rilevamento frodi, attacchi a reti, Risultato: termini e soluzioni sovrapponibili (torre di babele) Una non-soluzione sono i DBMS o Impossibile memorizzazione tutti i dati o Processarli solo su richiesta DSMS (data stream management system): evoluzione dei DBMS. Prevede: processamento continuo delle query (continuous query - CQ) query con sintassi SQL-like su flussi di dati transienti, non memorizzati. Matteo Nardelli 7
8 Soluzioni DSP (data stream processing): è il modello che deriva dalla generalizzazione del DSMS (dati non persistenti, continuous query) «processamento di stream provenienti da sorgenti differenti, per produrre nuovi stream in uscita» (Cugola, Margara [4] ) CEP (complex event processing): si sviluppa in parallelo al DSMS, come evoluzione del publish-subscribe; processamento di notifiche di eventi (n.b.: non dati generici) provenienti da sorgenti diverse per identificare pattern di eventi (o eventi complessi) di interesse (in publish-subscribe ogni evento è separato dagli altri) MapReduce: paradigma per la computazione affidabile, scalabile e distribuita dati memorizzazione su file system distribuito (i.e., GFS, HDFS) paradigma «map» e «reduce» per lavorare su sottoinsiemi di dati Matteo Nardelli 8
9 Data stream processing Matteo Nardelli 9
10 Differenze con CEP Tipo di dato: CEP: notifiche di eventi DSP: (teoricamente) qualsiasi Tempo associato al dato ed ordinamento dei dati: CEP: molto importanti/essenziali DSP: non necessariamente considerati Tipologia di linguaggi per definire applicazioni: CEP: pattern-based language per specificare le firing condition e le azioni da intraprendere («if this then that»). DSP: (opzionale) regole di trasformazione (filtraggio, join, aggregazioni) per processare gli stream in ingresso e produrre stream in uscita. Matteo Nardelli 10
11 Differenze con Hadoop (MapReduce) Diverse estensioni consentono di usare Hadoop: Per interrogare il dataset con un approccio SQL-like (Apache Hive) Per interrogare il dataset con linguaggio procedurale (Apache Pig) Produrre approssimazioni successive dei risultati e possibilità di fare CQ (Hadoop Online [5] ) Differenze sostanziali: Persistenza: Hadoop necessita della memorizzazione dei dati Batching: Anche negli approcci per il CQ (Hadoop Online) si lavora considerando piccoli batch successivi da analizzare; questo introduce un ritardo proporzionale alla dimensione del batch. Matteo Nardelli 11
12 Panoramica Matteo Nardelli 12
13 Panoramica: definizione delle applicazioni Linguaggi formali: maggiore rigorosità, ma alta espressività Dichiarativi: specificare il risultato (SQL-like); e.g., TESLA, IBM SPL; Imperativi: specificare la composizione degli operatori primitivi; e.g., SQuAl (Stream Query Algebra) di Aurora/Borealis; Descrizione topologica: maggiore flessibilità definizione esplicita dei componenti (built-in o definiti dall utente) e delle interconnessioni per mezzo di un grafo diretto aciclico, chiamato «topologia» nodi = operatori dell'applicazione; archi = stream scambiato tra gli operatori Matteo Nardelli 13
14 Panoramica: infrastruttura Dove sono le risorse computazionali? Cluster dedicato nodi omogenei, «vicini» ed in numero staticamente definito scelta tradizionale Cloud l allocazione dinamica migliore assorbimento delle fluttuazioni nell'arrivo dei dati nodi geograficamente distribuiti nuovo interesse per il DSP, ma anche nuove problematiche i.e., scala, attenzione per la latenza tra i nodi, SLA Soluzioni ibride insieme statico di nodi, estendibili con risorse on-demand nel cloud trade-off tra prestazioni, bilanciamento del carico e costi Matteo Nardelli 14
15 Panoramica: scheduling Scheduler: componente dei sistemi di DSP che assegna gli operatori delle applicazioni da eseguire alle risorse computazionali a disposizione Componente critico, influenza fortemente le performance del sistema e delle applicazioni eseguite. Diverse soluzioni: Algoritmo centralizzato vs algoritmo distribuito Conoscenza intera rete, problemi di scalabilità Metriche da ottimizzare Latenza, utilizzo della rete, importanza degli operatori, risorse Capacità adattativa Capacità di ottimizzare il grafo applicativo generalmente con definizione applicazioni con linguaggi formali e.g., merging, splitting e riordinamento degli operatori, load shedding Matteo Nardelli 15
16 Applicazioni: caratteristiche principali Le applicazioni hanno le seguenti caratteristiche (elenco non esaustivo): sorgenti sono emittenti di un flusso continuo (stream) dei dati; lo stream non viene memorizzato; lo stream viene riversato su un insieme di operatori (evt. distribuiti); gli operatori sono progettati per lavorare in parallelo; gli operatori interagiscono solo per mezzo degli stream; gli operatori eseguono delle funzioni ben precise, il cui risultato dipende (generalmente) dal solo flusso in ingresso; gli operatori possono, a loro volta, generare un nuovo stream. Matteo Nardelli 16
17 Tecniche avanzate Per processare grossi flussi di dati, devo aumentare il grado di parallelismo. Si distinguono: Pipeline: istruzione complessa suddivisa in una sequenza di passi Task parallelism: stesso dato utilizzato da diversi operatori (successori nel grafo) in parallelo Data parallelism: diversi dati appartenenti allo stesso flusso sono processati da diverse repliche dello stesso operatore Tecniche di ottimizzazione Sharding Load Shedding Matteo Nardelli 17
18 Tecniche avanzate: sharding Stato degli operatori stateful se mantengono uno stato relativo allo stream; stateless altrimenti. Rilassamento dello stato per aumentare il parallelismo di un operatore: partitioned stateful: considero stati indipendenti per sottoinsiemi non sovrapponibili di flussi informativi (e.g., prezzo medio degli acquisti per utente) Sharding: partizionamento orizzontale dei dati; dati con caratteristiche simili sono indirizzate sempre alla stessa replica Come determinare la replica di competenza? Soluzioni hash-based calcolate su sottoinsieme di attributi dei dati Matteo Nardelli 18
19 Tecniche avanzate: load shedding Load shedding: sacrifica l accuratezza dei risultati se il sistema è sovraccarico Decisioni fondamentali: Come scartare: random, probabilistico, priority-based, tecniche avanzate Quando scartare il traffico: comportamento proattivo o reattivo Dove scartare il traffico: ridurre il carico vicino alla sorgente fa sprecare meno lavoro, ma penalizza un numero maggiore di applicazioni Quanto scartare: dipende dalla politica di shedding adottata (e.g., fino a soddisfacimento soglia, percentuale, numero di classi) Matteo Nardelli 19
20 Framework per il DSP Amazon Kinesis Apache Storm Matteo Nardelli 20
21 Amazon Kinesis Elaborazione real-time di streaming data su larga scala; definisce: Stream: sequenza di record Record: {sequence, partition-key, blob}; blob max size 50Kb Shard: numero di nodi su cui suddividere lo stream; questi sono determinati in base al datarate in ingresso ed in uscita desiderati Come funziona? Producers: (sorgenti esterne) generano i record, li immettono con HTTP PUT Matteo Nardelli 21
22 Amazon Kinesis Consumers: le applicazioni (generalmente su EC2) che processano ogni record dello stream - è possibile avere diverse applicazioni che consumano in modo indipendente e concorrente - l output può essere: un altro Kinesis, EC2, DynamoDB, S3, altro Vantaggi Kinesis gestisce automaticamente l infrastruttura, lo storage e la configurazione necessaria per il recupero e l elaborazione dei dati Infrastruttura: load balancing, coordinamento tra i servizi distribuiti, fault tolerance Storage: dati memorizzati (e replicati) in diverse Availability Zone della stessa regione per 24 ore, periodo in cui sono disponibili Limitazioni Una sola regione: US East 10 shard per regione Matteo Nardelli 22
23 Apache Storm Framework distribuito, scalabile, fault-tolerant per il DSP Applicazione (o topologia): componenti spout: sorgente delle tuple bolt: componente che elabora le tuple; può generarne di nuove stream: sequenza non limitata di tuple (tupla: insieme di coppie chiave/valore) spout bolt Poiché un bolt può essere replicato è possibile indicare: fieldgrouping: i campi per il partizionamento dello stream shufflegrouping: non siamo interessati allo stato Matteo Nardelli 23
24 Apache Storm: architettura ZooKeeper (shared memory) scambio configurazione e sincronizzazione Nimbus (nodo master) Scheduling (distribuzione per l esecuzione) delle applicazioni (topologie) Monitoring applicazioni: riassegnamento in caso di fallimento Worker Node Supervisor avvia e termina i worker process in base alle indicazioni di Nimbus Worker Process esegue (parte del) codice della topologia WN Supervisor WP WP Nimbus ZooKeeper WN Supervisor WN Supervisor WP Matteo Nardelli 24
25 Apache Storm: estensione Storm esegue all interno di una infrastruttura locale Vogliamo aumentarne il grado di distribuzione dell infrastruttura latenza di rete diventa un fattore non trascurabile abilitare l utilizzo di risorse presenti nel Cloud (ma non solo), sfruttandone le politiche di provisioning avvicinare la computazione agli utenti finali o alle sorgenti Caratteristiche dell estensione Scheduling distribuito: fornire ad ogni nodo la capacità di gestire le applicazioni che esegue Scheduling location-aware: eseguire l applicazione in modo attento alle distanze di rete tra i suoi elementi Capacità di adattamento: rispondere ai cambiamenti rete/applicazione Matteo Nardelli 25
26 Apache Storm: estensione Initial Scheduler (centralizzato) assegna le applicazioni in modo location-aware Continuous Scheduler (distribuito) riposiziona i componenti dell applicazione se migliorano l utilizzo di rete (banda x latenza) Network Space Manager (distribuito) fornisce ai nodi la capacità di stimare in modo efficiente le distanze di rete, senza interrogazione diretta (alg. Vivaldi) Worker Monitor (distribuito) registra il traffico scambiato tra i componenti dell applicazione Matteo Nardelli 26
27 Apache Storm: un caso d uso WordCounter (esempio in storm-starter [6] ): Avendo sorgenti che emettono continuamente frasi, vogliamo contare le occorrenze di ogni parola A cosa serve? In modo simile vengono individuati i trend su twitter [7] Matteo Nardelli 27
28 Apache Storm: un caso d uso Topologia Classe Java standard: main TopologyBuilder tb = new TopologyBuilder(); tb.setspout("spout", new RandomSentenceSpout(), 5); tb.setbolt("split", new SplitSentence(), 8).shuffleGrouping("spout"); tb.setbolt("count", new WordCount(), 12).fieldsGrouping("split", new Fields("word")); StormSubmitter.submitTopology("word-count", new Config(), tb.createtopology()); Partizionamento Stream Parallelismo componenti API Storm Matteo Nardelli 28
29 Apache Storm: un caso d uso RandomSentenceSpout (extends BaseRichSpout ) public void nexttuple() { Utils.sleep(100); collector.emit(new Values(getRandomSentence())); } public void declareoutputfields(outputfieldsdeclarer d) { d.declare(new Fields("sentence")); } API Storm Dichiarazione stream WordCount (extends BaseBasicBolt) public void execute(tuple tuple, BasicOutputCollector collector) { String word = tuple.getstringbyfield("word"); Integer count = updatewordcounthashmap(word); collector.emit(new Values(word, count)); } public void declareoutputfields(outputfieldsdeclarer d) { d.declare(new Fields("word", "count")); } Matteo Nardelli Nuova tupla in uscita 29
30 Riferimenti [1] IBM. What is big data? url: [2] DEBS 2015: Grand Challenge. url: [3] Sean Murphy, A new definition for Big Data. url: [4] A. Margara and G. Cugola Processing flows of information: from data stream to complex event processing. In Proc. of the 5th ACM DEBS '11. ACM. [5] T.Condie, N.Conway, P.Alvaro et al MapReduce online. In Proc. of the 7th USENIX conference on NSDI'10. USENIX Association, Berkeley, CA, USA. [6] Nathan Marz - Storm Starter. url: [7] M.G. Noll. Real-time Treding Topics With a Distributed Rolling Count Algorithm in Storm: Amazon Kinesis. url: Apache Hive. url: Apache Pig. url: Apache Storm. url: N. Tatbul, U. Çetintemel, S. Zdonik et al Load shedding in a data stream manager. In Proc of the 29th international conference VLDB '03. VLDB Endowment Matteo Nardelli 30
Distributed Data Stream Processing
Distributed Data Stream Processing Sistemi Distribuiti e Cloud Computing A.A. 2015/16 Matteo Nardelli Matteo Nardelli Big Data IBM (2014) [1] : ogni giorno vengono creati circa 2,5 trilioni (10 18 ) di
DettagliBig data ed eventi: quasi un tutorial. Prof. Riccardo Melen melen@disco.unimib.it
Big data ed eventi: quasi un tutorial Prof. Riccardo Melen melen@disco.unimib.it Big Data Monitoraggio di reti e infrastrutture IT performance: data center, SOA/ESB, infrastrutture virtuali, configurazione
DettagliElaborazione dati parallela con map/reduce. Roberto Congiu rcongiu@yahoo.com
Elaborazione dati parallela con map/reduce Roberto Congiu rcongiu@yahoo.com Indice delle slide Introduzione a Map/Reduce Descrizione del modello Implementazione Ottimizzazioni Introduzione Map/Reduce e
DettagliLa Gestione delle risorse Renato Agati
Renato Agati delle risorse La Gestione Schedulazione dei processi Gestione delle periferiche File system Schedulazione dei processi Mono programmazione Multi programmazione Gestione delle periferiche File
DettagliGESTIONE DEI PROCESSI
Sistemi Operativi GESTIONE DEI PROCESSI Processi Concetto di Processo Scheduling di Processi Operazioni su Processi Processi Cooperanti Concetto di Thread Modelli Multithread I thread in Java Concetto
DettagliMapReduce. Progettazione del Software a.a. 2012/13. Università degli Studi di Milano Dept. of Computer Science. Matteo Camilli
Università degli Studi di Milano Dept. of Computer Science MapReduce Matteo Camilli matteo.camilli@unimi.it http://camilli.di.unimi.it Progettazione del Software a.a. 2012/13 1 Motivazioni Vogliamo processare
DettagliLinee di evoluzione dei Database
Linee di evoluzione dei Database DB NoSQL Linked Open Data Semantic Web Esigenze e caratteristiche Presenza di grandi volumi di dati..crescenti Struttura non regolare dei dati da gestire Elementi relativamente
DettagliSommario. Analysis & design delle applicazioni parallele. Misura delle prestazioni parallele. Tecniche di partizionamento.
Sommario Analysis & design delle applicazioni parallele Misura delle prestazioni parallele Tecniche di partizionamento Comunicazioni Load balancing 2 Primi passi: analizzare il problema Prima di iniziare
DettagliOrganizzazione degli archivi
COSA E UN DATA-BASE (DB)? è l insieme di dati relativo ad un sistema informativo COSA CARATTERIZZA UN DB? la struttura dei dati le relazioni fra i dati I REQUISITI DI UN DB SONO: la ridondanza minima i
DettagliGartner Group definisce il Cloud
Cloud Computing Gartner Group definisce il Cloud o Cloud Computing is a style of computing in which elastic and scalable information technology - enabled capabilities are delivered as a Service. Gartner
DettagliDistributed P2P Data Mining. Autore: Elia Gaglio (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo
Distributed P2P Data Mining Autore: (matricola n 809477) Corso di Sistemi Distribuiti Prof.ssa Simonetta Balsamo A.A. 2005/2006 Il settore del Data Mining Distribuito (DDM): Data Mining: cuore del processo
DettagliBASE DI DATI: introduzione. Informatica 5BSA Febbraio 2015
BASE DI DATI: introduzione Informatica 5BSA Febbraio 2015 Di cosa parleremo? Base di dati relazionali, modelli e linguaggi: verranno presentate le caratteristiche fondamentali della basi di dati. In particolare
DettagliIntroduzione al data base
Introduzione al data base L Informatica è quella disciplina che si occupa del trattamento automatico dei dati con l ausilio del computer. Trattare i dati significa: raccoglierli, elaborarli e conservarli
DettagliApproccio stratificato
Approccio stratificato Il sistema operativo è suddiviso in strati (livelli), ciascuno costruito sopra quelli inferiori. Il livello più basso (strato 0) è l hardware, il più alto (strato N) è l interfaccia
DettagliLa Videosorveglianza Criteri per il dimensionamento dello storage
La Videosorveglianza Criteri per il dimensionamento dello storage Serie vol 1005/2010 L importanza di registrare le immagini video Il valore di un sistema di videosorveglianza non dipende solo dall abilità
DettagliCLOUD AWS. #cloudaws. Community - Cloud AWS su Google+ Amazon Web Services. Amazon VPC (Virtual Private Cloud)
Community - Cloud AWS su Google+ Web Services VPC (Virtual Private Cloud) Oggi vediamo le caratteristiche generali del servizio di VPC per creare una rete virtuale nel cloud. Hangout 29 del 27.10.2014
DettagliAgenti Mobili Intelligenti e Sicurezza Informatica Utilizzare un nuovo paradigma applicativo per la realizzazione di sistemi informatici sicuri.
Agenti Mobili Intelligenti e Sicurezza Informatica Utilizzare un nuovo paradigma applicativo per la realizzazione di sistemi informatici sicuri. Roma, 25 ottobre 2010 Ing. Antonio Salomè Ing. Luca Lezzerini
DettagliScheduling della CPU. Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux
Scheduling della CPU Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux Sistemi multiprocessori Fin qui si sono trattati i problemi di scheduling su singola
DettagliArchitettura MVC-2: i JavaBeans
Siti web centrati sui dati Architettura MVC-2: i JavaBeans Alberto Belussi anno accademico 2008/2009 Limiti dell approccio SEVLET UNICA La servlet svolge tre tipi di funzioni distinte: Interazione con
DettagliOttimizzazione delle interrogazioni (parte I)
Ottimizzazione delle interrogazioni I Basi di Dati / Complementi di Basi di Dati 1 Ottimizzazione delle interrogazioni (parte I) Angelo Montanari Dipartimento di Matematica e Informatica Università di
DettagliCorso di Sistemi di Elaborazione delle informazioni
Corso di Sistemi di Elaborazione delle informazioni Basi di Dati Claudio Marrocco I report I Report sono lo strumento più adatto per ottenere una copia stampata dei dati e delle informazioni ricavate dalle
DettagliSiti web centrati sui dati Architettura MVC-2: i JavaBeans
Siti web centrati sui dati Architettura MVC-2: i JavaBeans 1 ALBERTO BELUSSI ANNO ACCADEMICO 2009/2010 Limiti dell approccio SEVLET UNICA La servlet svolge tre tipi di funzioni distinte: Interazione con
Dettagli7. Architetture Software
7. Architetture Software progettare la struttura Andrea Polini Ingegneria del Software Corso di Laurea in Informatica (Ingegneria del Software) 7. Architetture Software 1 / 20 Scopo della fase di design
DettagliDATABASE. www.andreavai.it
Cos'è un database? Quando si usa? Differenze con i fogli elettronici Le tabelle: record, campi, tipi di dati Chiavi e indici Database relazionali (R-DBMS) Relazioni uno-a-uno Relazioni uno-a-molti Relazioni
DettagliInfrastruttura di produzione INFN-GRID
Infrastruttura di produzione INFN-GRID Introduzione Infrastruttura condivisa Multi-VO Modello Organizzativo Conclusioni 1 Introduzione Dopo circa tre anni dall inizio dei progetti GRID, lo stato del middleware
DettagliTelerilevamento e GIS Prof. Ing. Giuseppe Mussumeci
Corso di Laurea Magistrale in Ingegneria per l Ambiente e il Territorio A.A. 2014-2015 Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci Strutture di dati: DB e DBMS DATO E INFORMAZIONE Dato: insieme
DettagliIndice generale. Gli autori...xiii. Prefazione...xv. Benvenuti nel cloud computing...1
Indice generale Gli autori...xiii Prefazione...xv Capitolo 1 Benvenuti nel cloud computing...1 Come evitare un successo disastroso... 2 Saperne di più sul cloud computing... 3 Cosa si intende per nuvola...
DettagliSistemi Operativi Il Sistema Operativo Windows (parte 3)
Sistemi Operativi Il Sistema Operativo Windows (parte 3) Docente: Claudio E. Palazzi cpalazzi@math.unipd.it Crediti per queste slides al Prof. Tullio Vardanega Architettura di NTFS 1 NTFS file system adottato
DettagliINFORMATICA. Il Sistema Operativo. di Roberta Molinari
INFORMATICA Il Sistema Operativo di Roberta Molinari Il Sistema Operativo un po di definizioni Elaborazione: trattamento di di informazioni acquisite dall esterno per per restituire un un risultato Processore:
DettagliSistemi Operativi. Scheduling della CPU SCHEDULING DELLA CPU. Concetti di Base Criteri di Scheduling Algoritmi di Scheduling
SCHEDULING DELLA CPU 5.1 Scheduling della CPU Concetti di Base Criteri di Scheduling Algoritmi di Scheduling FCFS, SJF, Round-Robin, A code multiple Scheduling in Multi-Processori Scheduling Real-Time
DettagliSistemi Operativi SCHEDULING DELLA CPU. Sistemi Operativi. D. Talia - UNICAL 5.1
SCHEDULING DELLA CPU 5.1 Scheduling della CPU Concetti di Base Criteri di Scheduling Algoritmi di Scheduling FCFS, SJF, Round-Robin, A code multiple Scheduling in Multi-Processori Scheduling Real-Time
DettagliIl Sistema Operativo. C. Marrocco. Università degli Studi di Cassino
Il Sistema Operativo Il Sistema Operativo è uno strato software che: opera direttamente sull hardware; isola dai dettagli dell architettura hardware; fornisce un insieme di funzionalità di alto livello.
DettagliIntroduzione all Architettura del DBMS
Introduzione all Architettura del DBMS Data Base Management System (DBMS) Un DBMS è uno strumento per la creazione e la gestione efficiente di grandi quantità di dati che consente di conservarli in modo
DettagliLezione 1. Introduzione e Modellazione Concettuale
Lezione 1 Introduzione e Modellazione Concettuale 1 Tipi di Database ed Applicazioni Database Numerici e Testuali Database Multimediali Geographic Information Systems (GIS) Data Warehouses Real-time and
DettagliFacoltà di Farmacia - Corso di Informatica
Basi di dati Riferimenti: Curtin cap. 8 Versione: 13/03/2007 1 Basi di dati (Database, DB) Una delle applicazioni informatiche più utilizzate, ma meno conosciute dai non informatici Avete già interagito
DettagliRECOGNITION ProductInfo
RECOGNITION Product Info Indicizzazione Automatica tramite Riconoscimento di Codice a Barre e Testo RECOGNITION rende ancor più rapida l archiviazione di documenti in DocuWare, grazie all individuazione
DettagliArchitetture software
Corso di Laurea Magistrale in Ingegneria Informatica Corso di Ingegneria del A. A. 2013-2014 Architettura software 1 Architetture software Sommario Definizioni 2 Architettura Definizione. L architettura
DettagliLa gestione di un calcolatore. Sistemi Operativi primo modulo Introduzione. Sistema operativo (2) Sistema operativo (1)
La gestione di un calcolatore Sistemi Operativi primo modulo Introduzione Augusto Celentano Università Ca Foscari Venezia Corso di Laurea in Informatica Un calcolatore (sistema di elaborazione) è un sistema
Dettagli2 Gli elementi del sistema di Gestione dei Flussi di Utenza
SISTEMA INFORMATIVO page 4 2 Gli elementi del sistema di Gestione dei Flussi di Utenza Il sistema è composto da vari elementi, software e hardware, quali la Gestione delle Code di attesa, la Gestione di
DettagliPROJECT MANAGEMENT SERVIZI DI PROJECT MANAGEMENT DI ELEVATA PROFESSIONALITÀ
PROJECT MANAGEMENT SERVIZI DI PROJECT MANAGEMENT DI ELEVATA PROFESSIONALITÀ SERVIZI DI PROJECT MANAGEMENT CENTRATE I VOSTRI OBIETTIVI LA MISSIONE In qualità di clienti Rockwell Automation, potete contare
DettagliAmbienti di calcolo a griglia Parte 2. Risorse (e loro gestione) Job di griglia e applicazioni di griglia Riservare le risorse ai job
Ambienti di calcolo a griglia Parte 2 Risorse (e loro gestione) Job di griglia e applicazioni di griglia Riservare le risorse ai job Docente: Marcello CASTELLANO La vera rivoluzione non è più la capacità
DettagliCon il termine Sistema operativo si fa riferimento all insieme dei moduli software di un sistema di elaborazione dati dedicati alla sua gestione.
Con il termine Sistema operativo si fa riferimento all insieme dei moduli software di un sistema di elaborazione dati dedicati alla sua gestione. Compito fondamentale di un S.O. è infatti la gestione dell
DettagliUn approccio innovativo per il delivery di servizi in infrastrutture di nomadic computing
Un approccio innovativo per il delivery di servizi in infrastrutture di nomadic computing Relatore Prof. Ing. Stefano Russo Correlatore Ing. Domenico Cotroneo Candidato Armando Migliaccio matr. 41/2784
DettagliRicerca di outlier. Ricerca di Anomalie/Outlier
Ricerca di outlier Prof. Matteo Golfarelli Alma Mater Studiorum - Università di Bologna Ricerca di Anomalie/Outlier Cosa sono gli outlier? L insieme di dati che sono considerevolmente differenti dalla
DettagliIl File System. Il file system
Il File System Il file system Parte di SO che fornisce i meccanismi di accesso e memorizzazione delle informazioni (programmi e dati) allocate in memoria di massa Realizza i concetti astratti di file:
DettagliCLOUD AWS. #cloudaws. Community - Cloud AWS su Google+ Amazon Web Services. Servizio Amazon CloudFront
Community - Cloud AWS su Google+ Amazon Web Services Servizio Amazon CloudFront Oggi vedremo il servizio di Amazon CloudFront per la distribuzione di contenuti statici tramite CDN. Hangout 08 del 03.03.2014
DettagliLinguaggi ed Applicazioni mul1mediali
Università degli Studi di Urbino "Carlo Bo" Linguaggi ed Applicazioni mul1mediali 01.02 - streaming Introduzione alla compressione e allo streaming Maurizio Maffi ISTI Informa1on Science and Technology
DettagliEstensione dei servizi cloud di ENEA-GRID basati su OpenNebula ad una configurazione multisite. Dott. Pasquale De Michele Tutor: Ing.
Estensione dei servizi cloud di ENEA-GRID basati su OpenNebula ad una configurazione multisite Dott. Pasquale De Michele Tutor: Ing. Giovanni Ponti 5 Borsisti Day 13/05/2014 Obiettivi della Borsa Estensione
Dettagli1. BASI DI DATI: GENERALITÀ
1. BASI DI DATI: GENERALITÀ BASE DI DATI (DATABASE, DB) Raccolta di informazioni o dati strutturati, correlati tra loro in modo da risultare fruibili in maniera ottimale. Una base di dati è usualmente
DettagliI Sistemi Informativi Geografici. Laboratorio GIS 1
I Sistemi Informativi Geografici Laboratorio GIS 1 Sistema Informativo Geografico Strumento computerizzato che permette di posizionare ed analizzare oggetti ed eventi che esistono e si verificano sulla
DettagliIndice generale. Introduzione...xiii. Gli autori...xvii. I revisori...xix
Indice generale Introduzione...xiii Struttura del libro... xiii Cosa serve per questo libro...xiv Lo scopo del libro...xiv Convenzioni...xv Codice degli esempi...xv Gli autori...xvii I revisori...xix Capitolo
DettagliTopologia delle reti. Rete Multipoint: ogni nodo è connesso agli altri tramite nodi intermedi (rete gerarchica).
Topologia delle reti Una RETE DI COMPUTER è costituita da un insieme di elaboratori (NODI) interconnessi tra loro tramite cavi (o sostituti dei cavi come le connessioni wireless). Rete Point-to-Point:
DettagliPkBox Client Smart API
19 aprile 2013 Le informazioni contenute in questo documento sono da considerarsi CONFIDENZIALI e non possono essere utilizzate o riprodotte - sia in parte che interamente - senza un permesso scritto rilasciato
DettagliAutomazione Industriale (scheduling+mms) scheduling+mms. adacher@dia.uniroma3.it
Automazione Industriale (scheduling+mms) scheduling+mms adacher@dia.uniroma3.it Introduzione Sistemi e Modelli Lo studio e l analisi di sistemi tramite una rappresentazione astratta o una sua formalizzazione
DettagliBig Data e Calcolo Parallelo
Big Data e Calcolo Parallelo Luigi Roggia Tempi che cambiano... I sistemi informatici di ieri non sono più idonei a gestire le esigenze informative odierne Oggi più che mai è indispensabile ottimizzare
DettagliIntroduzione ai database relazionali
Introduzione ai database relazionali Tabelle Un database (DB) è costituito da un insieme di file che memorizzano dati opportunamente organizzati Nei database relazionale tale organizzazione è costituita
DettagliNetwork Monitoring. Introduzione all attività di Network Monitoring introduzione a Nagios come motore ideale
Network Monitoring & Introduzione all attività di Network Monitoring introduzione a Nagios come motore ideale Nicholas Pocher Poker SpA - Settimo Torinese, Novembre 2013 1 Indice Il Network Monitoring:
DettagliSistemi Operativi SCHEDULING DELLA CPU
Sistemi Operativi SCHEDULING DELLA CPU Scheduling della CPU Concetti di Base Criteri di Scheduling Algoritmi di Scheduling FCFS, SJF, Round-Robin, A code multiple Scheduling in Multi-Processori Scheduling
DettagliUn architettura per lo streaming multimediale in ambiente distribuito
tesi di laurea Anno Accademico 2012/2013 relatore Ch.mo prof. Simon Pietro Romano correlatori Ing. Tobia Castaldi candidato Alessandro Arrichiello Matr. M63/43 Contesto: o Content Distribution Networks
DettagliIl linguaggio SQL. è di fatto lo standard tra i linguaggi per la gestione di data base relazionali.
(Structured Query Language) : Il linguaggio è di fatto lo standard tra i linguaggi per la gestione di data base relazionali. prima versione IBM alla fine degli anni '70 per un prototipo di ricerca (System
DettagliFederico Laschi. Conclusioni
Lo scopo di questa tesi è stato quello di proporre alcuni algoritmi di allocazione dinamica della capacità trasmissiva, basati su tecniche di predizione on-line dei processi di traffico. Come prima analisi
DettagliIndice generale. OOA Analisi Orientata agli Oggetti. Introduzione. Analisi
Indice generale OOA Analisi Orientata agli Oggetti Introduzione Analisi Metodi d' analisi Analisi funzionale Analisi del flusso dei dati Analisi delle informazioni Analisi Orientata agli Oggetti (OOA)
Dettagli03. Il Modello Gestionale per Processi
03. Il Modello Gestionale per Processi Gli aspetti strutturali (vale a dire l organigramma e la descrizione delle funzioni, ruoli e responsabilità) da soli non bastano per gestire la performance; l organigramma
DettagliIntroduzione. Elenco telefonico Conti correnti Catalogo libri di una biblioteca Orario dei treni aerei
Introduzione Elenco telefonico Conti correnti Catalogo libri di una biblioteca Orario dei treni aerei. ESEMPI DI INSIEMI DI DATI DA ORGANIZZARE ED USARE IN MANIERA EFFICIENTE Introduzione Più utenti con
DettagliHBase Data Model. in più : le colonne sono raccolte in gruppi di colonne detti Column Family; Cosa cambia dunque?
NOSQL Data Model HBase si ispira a BigTable di Google e perciò rientra nella categoria dei column store; tuttavia da un punto di vista logico i dati sono ancora organizzati in forma di tabelle, in cui
DettagliLezione V. Aula Multimediale - sabato 29/03/2008
Lezione V Aula Multimediale - sabato 29/03/2008 LAB utilizzo di MS Access Definire gli archivi utilizzando le regole di derivazione e descrivere le caratteristiche di ciascun archivio ASSOCIAZIONE (1:1)
DettagliTECNICHE DI SIMULAZIONE
TECNICHE DI SIMULAZIONE INTRODUZIONE Francesca Mazzia Dipartimento di Matematica Università di Bari a.a. 2004/2005 TECNICHE DI SIMULAZIONE p. 1 Introduzione alla simulazione Una simulazione è l imitazione
DettagliIntroduzione alle basi di dati. Gestione delle informazioni. Gestione delle informazioni. Sistema informatico
Introduzione alle basi di dati Introduzione alle basi di dati Gestione delle informazioni Base di dati Modello dei dati Indipendenza dei dati Accesso ai dati Vantaggi e svantaggi dei DBMS Gestione delle
DettagliMService La soluzione per ottimizzare le prestazioni dell impianto
MService La soluzione per ottimizzare le prestazioni dell impianto Il segreto del successo di un azienda sta nel tenere sotto controllo lo stato di salute delle apparecchiature degli impianti. Dati industriali
DettagliSistemi di supporto alle decisioni
Sistemi di supporto alle decisioni Introduzione I sistemi di supporto alle decisioni, DSS (decision support system), sono strumenti informatici che utilizzano dati e modelli matematici a supporto del decision
DettagliProgettazione concettuale
Progettazione concettuale Strategie top-down A partire da uno schema che descrive le specifiche mediante pochi concetti molto astratti, si produce uno schema concettuale mediante raffinamenti successivi
DettagliReti di calcolatori. Lezione del 10 giugno 2004
Reti di calcolatori Lezione del 10 giugno 2004 Internetworking I livelli 1 fisico e 2 data link si occupano della connessione di due host direttamente connessi su di una rete omogenea Non è possibile estendere
DettagliSistema operativo: Gestione dei processi
Dipartimento di Elettronica ed Informazione Politecnico di Milano Informatica - ICA Prof. Pierluigi Plebani A.A. 2011/2012 Sistema operativo: Gestione dei processi La presente dispensa e da utilizzarsi
DettagliScalabilità, Controllo distribuito e Console multiple
Scalabilità, Controllo distribuito e Console multiple Alessio Bechini Sommario Elementi logici Modello NNM (di HP) per distribuzione e scalabilita` Management attraverso consoles multiple Strategie di
DettagliFONDAMENTI di INFORMATICA L. Mezzalira
FONDAMENTI di INFORMATICA L. Mezzalira Possibili domande 1 --- Caratteristiche delle macchine tipiche dell informatica Componenti hardware del modello funzionale di sistema informatico Componenti software
DettagliBig Data. Davide Giarolo
Big Data Davide Giarolo Definizione da Wikipedia Big data è il termine usato per descrivere una raccolta di dati così estesa in termini di volume, velocità e varietà da richiedere tecnologie e metodi analitici
DettagliI Thread. I Thread. I due processi dovrebbero lavorare sullo stesso testo
I Thread 1 Consideriamo due processi che devono lavorare sugli stessi dati. Come possono fare, se ogni processo ha la propria area dati (ossia, gli spazi di indirizzamento dei due processi sono separati)?
DettagliProgetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario
Progetto ASTREA WP2: Sistema informativo per il monitoraggio del sistema giudiziario Nell ambito di questa attività è in fase di realizzazione un applicativo che metterà a disposizione dei policy makers,
DettagliLa Metodologia adottata nel Corso
La Metodologia adottata nel Corso 1 Mission Statement + Glossario + Lista Funzionalià 3 Descrizione 6 Funzionalità 2 Schema 4 Schema 5 concettuale Logico EA Relazionale Codice Transazioni In PL/SQL Schema
DettagliInformatica per le discipline umanistiche 2 lezione 10
Informatica per le discipline umanistiche 2 lezione 10 Parte III: il computer come strumento per l interazione e la comunicazione Si è parlato di identità Parte III: il computer come strumento per l interazione
DettagliStrutturazione logica dei dati: i file
Strutturazione logica dei dati: i file Informazioni più complesse possono essere composte a partire da informazioni elementari Esempio di una banca: supponiamo di voler mantenere all'interno di un computer
DettagliNodeXL: l amo delle Reti Sociali
UNIVERSITA DEGLI STUDI DI MILANO Facoltà di Giurisprudenza Cattedre di Informatica Giuridica e Informatica Avanzata CORSO DI PERFEZIONAMENTO IN COMPUTER FORENSICS E DATA PROTECTION l amo delle Reti Sociali
DettagliNuMa Nuove Manutenzioni. Web Application per la Gestione dell Iter di Manutenzione degli Edifici e del Territorio
NuMa Nuove Manutenzioni Web Application per la Gestione dell Iter di Manutenzione degli Edifici e del Territorio NuMa - Nuove Manutenzioni Manutenzione degli Edifici e del Territorio NuMa (Nuove Manutenzioni)
Dettagli1. Che cos è la multiprogrammazione? Si può realizzare su un sistema monoprocessore? 2. Quali sono i servizi offerti dai sistemi operativi?
1. Che cos è la multiprogrammazione? Si può realizzare su un sistema monoprocessore? 2. Quali sono i servizi offerti dai sistemi operativi? 1. La nozione di multiprogrammazione prevede la possibilità di
DettagliI Sistemi Informativi
I Sistemi Informativi Definizione Un Sistema Informativo è un mezzo per acquisire, organizzare, correlare, elaborare e distribuire le informazioni che riguardano una realtà che si desidera descrivere e
DettagliCENTRALE UNICA DI SOCCORSO
CENTRALE UNICA DI SOCCORSO Un sistema informatico per la gestione delle situazioni di emergenza e il coordinamento dei servizi di soccorso. Centrale Unica di Soccorso Un sistema informatico per la gestione
DettagliSOFTWARE PER LA RILEVAZIONE DEI TEMPI PER CENTRI DI COSTO
SOFTWARE PER LA RILEVAZIONE DEI TEMPI PER CENTRI DI COSTO Descrizione Nell ambito della rilevazione dei costi, Solari con l ambiente Start propone Time&Cost, una applicazione che contribuisce a fornire
DettagliRiccardo Dutto, Paolo Garza Politecnico di Torino. Riccardo Dutto, Paolo Garza Politecnico di Torino
Integration Services Project SQL Server 2005 Integration Services Permette di gestire tutti i processi di ETL Basato sui progetti di Business Intelligence di tipo Integration services Project SQL Server
DettagliProva di Esame - Rete Internet (ing. Giovanni Neglia) Lunedì 24 Gennaio 2005, ore 15.00
Prova di Esame - Rete Internet (ing. Giovanni Neglia) Lunedì 24 Gennaio 2005, ore 15.00 NB: alcune domande hanno risposta multipla: si richiede di identificare TUTTE le risposte corrette. Cognome: Nome:
DettagliGESTIONE AVANZATA DEI MATERIALI
GESTIONE AVANZATA DEI MATERIALI Divulgazione Implementazione/Modifica Software SW0003784 Creazione 23/01/2014 Revisione del 25/06/2014 Numero 1 Una gestione avanzata dei materiali strategici e delle materie
DettagliINFORMATICA. Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE.
INFORMATICA Applicazioni WEB a tre livelli con approfondimento della loro manutenzione e memorizzazione dati e del DATABASE. APPLICAZIONI WEB L architettura di riferimento è quella ampiamente diffusa ed
DettagliProgettazione di Basi di Dati
Progettazione di Basi di Dati Prof. Nicoletta D Alpaos & Prof. Andrea Borghesan Entità-Relazione Progettazione Logica 2 E il modo attraverso il quale i dati sono rappresentati : fa riferimento al modello
Dettagliconnessioni tra i singoli elementi Hanno caratteristiche diverse e sono presentati con modalità diverse Tali relazioni vengono rappresentate QUINDI
Documenti su Internet LINGUAGGI DI MARKUP Internet permette (tra l altro) di accedere a documenti remoti In generale, i documenti acceduti via Internet sono multimediali, cioè che possono essere riprodotti
DettagliReceptionist 2.0. La soluzione semplice ed affidabile per il contact center
Receptionist 2.0 La soluzione semplice ed affidabile per il contact center Il nostro Open Source ONC crede nell opportunità dell open source e ha basato due delle sue soluzioni full IP sulla piattaforma
DettagliGLI APPARATI PER L INTERCONNESSIONE DI RETI LOCALI 1. Il Repeater 2. L Hub 2. Il Bridge 4. Lo Switch 4. Router 6
GLI APPARATI PER L INTERCONNESSIONE DI RETI LOCALI 1 Il Repeater 2 L Hub 2 Il Bridge 4 Lo Switch 4 Router 6 Gli apparati per l interconnessione di reti locali Distinguiamo i seguenti tipi di apparati:
DettagliSISTEMI OPERATIVI DISTRIBUITI
SISTEMI OPERATIVI DISTRIBUITI E FILE SYSTEM DISTRIBUITI 12.1 Sistemi Distribuiti Sistemi operativi di rete Sistemi operativi distribuiti Robustezza File system distribuiti Naming e Trasparenza Caching
DettagliCALCOLO PARALLELO SUPERARE I LIMITI DI CALCOLO. A cura di Tania Caprini
CALCOLO PARALLELO SUPERARE I LIMITI DI CALCOLO A cura di Tania Caprini 1 CALCOLO SERIALE: esecuzione di istruzioni in sequenza CALCOLO PARALLELO: EVOLUZIONE DEL CALCOLO SERIALE elaborazione di un istruzione
DettagliI casi d uso corrispondono ai compiti che l attore (che può essere una persona fisica e non) può svolgere.
UML e i Casi d USO I casi d uso specificano una sequenza di azioni che producono un risultato visibile agli attori del sistema. Essi nascono per fornire descrizioni delle capacità del sistema. I casi d
DettagliEVOLUZIONE DEI LINGUAGGI DI ALTO LIVELLO
EVOLUZIONE DEI LINGUAGGI DI ALTO LIVELLO Linguaggi di programmazione classificati in base alle loro caratteristiche fondamentali. Linguaggio macchina, binario e fortemente legato all architettura. Linguaggi
Dettagli