Condor, Condor-G e la Griglia

Documenti analoghi
Condor, Condor-G e la Griglia. Griglie e Sistemi di Elaborazione Ubiqui

Condor e la Griglia. Jaskaran Singh CS-599 Introduction to Grid Computing. Cosa Fa Condor CONDOR

Condor-G: Un Agente per la Gestione dell Elaborazione in Multi-Institutional Grids

Bologna Batch System (BBS) Franco Semeria Seminario di Sezione

Griglie e Sistemi di Elaborazione Ubiqui

Reti di Calcolatori GRIGLIE COMPUTAZIONALI

GRIGLIE COMPUTAZIONALI

Workload Management Service (1/2)

Il Globus Toolkit 4: Sommario. Page 1. Architettura di GT4. Componenti e servizi principali. GRAM e Servizi di Gestione di processi e job

Grid Scheduling e WS-Agreement. Griglie e Sistemi di Elaborazione Ubiqui

Università degli Studi di Napoli Federico II Corso di Laurea in Informatica III Anno

Ambienti di calcolo a griglia - Parte 4

Il Globus Toolkit 4: Architettura e WS_GRAM. Sommario. Page 1. Architettura di GT4. Componenti e servizi principali

Grid Data Management Services. Griglie e Sistemi di Elaborazione Ubiqui

Griglie e Sistemi di Elaborazione Ubiqui

Comandi di Globus. Daniele D Agostino

Indice degli argomenti

Presentazione NIS Network Integration & Solutions s.r.l. Autore: nome Cognome Data: Evento

Griglie computazionali

ReCaS Datacenter cluster HPC, guida al suo utilizzo Febbraio, 2016 Alessandro Italiano

Grid Scheduling e WS-Agreement

WS-Agreement. Sommario. Il Problema del Resource Management. Obiettivi del proprietario vs. obiettivi delle applicazioni

Organizzazioni nel Grid Computing

Remote file access sulla grid e metodi di interconnesione di rete

5 Thread. 5 Thread. 5 Thread. Ad un generico processo, sono associati, in maniera univoca, i seguenti dati e le seguenti informazioni:

Argomenti. Architettura fisica di U-Lite Architettura software di U-Lite Comandi gestione job: NFS contro AFS Licenze software

Un introduzione a. II Parte

Ambienti di calcolo a griglia Parte 2. Docente: Marcello CASTELLANO

Griglie e Sistemi di Elaborazione Ubiqui. Grid File Systems. Requisiti, Funzionalità e Architettura. Grid File System: Requisiti

Griglie e Sistemi di Elaborazione Ubiqui. Grid File Systems. Requisiti, Funzionalità e Architettura. Griglie e Sistemi Ubiqui - D.

Work Package Grid Workload Management

Basi di Dati-IX. Basi di dati e web. Introduzione. Schema. Basi di dati e web. Corso di Laurea in Informatica Anno Accademico 2013/2014

Ambienti Grid HPC: un prototipo per il supporto della gestione delle risorse

Componenti di un sistema operativo

Struttura dei Sistemi Operativi

Francesco V. Buccoli Microsoft Student Evangelist

Grid Data Management Services

Ambienti di calcolo a griglia - Parte 3

Griglie computazionali LEZIONE N. 14. Università degli Studi di Napoli Federico II Corso di Laurea Magistrale in Informatica I Anno

Realizzazione di un cluster Condor su macchine virtuali

Sistemi Operativi 1. Lezione IV: Processi e thread. Mattia Monga. 11 marzo 2008

Grid Data Management Services. Griglie e Sistemi di Elaborazione Ubiqui

Sistema Operativo (Software di base)

Esperienza di un sito INFNGrid che offre risorse di calcolo e supporto T3-like ad utenti locali

Grid Tutorial Day Palermo, 13 Aprile 2011 Job Description Language Gestione job utente

HPC e Cloud 4 giugno 2018 Alberto Sabaini Anna Perina Piattaforma Computazionale

Gestione del processore. Il modello a thread

Università degli Studi di Napoli Federico II Corso di Laurea in Informatica III Anno

Introduzione ai. Sistemi Distribuiti

Grid Data Management Services

Lezione 3 Sistemi Operativi e misure di performance. Parleremo di

Il Sistema Operativo Ripasso

Modelli di Carico in. Emiliano Casalicchio

2011 Politecnico di Torino 1

Cloud Storage class software on-premises

CORSO MOC20415: Implementing a Desktop Infrastructure. CEGEKA Education corsi di formazione professionale

Condor e DAGMan. Napoli 2007

CORSO MOC20414: Implementing an Advanced Server Infrastructure

L integrazione di mail in un sistema automatico di distribuzione di ontologie: Ontology Mail Manager

Il Sistema Operativo. Informatica Sistema Operativo 1

Sistemi Operativi GESTIONE DEI PROCESSI. D. Talia - UNICAL. Sistemi Operativi 4.1

Linux nel calcolo distribuito

TESI DI LAUREA IN INFORMATICA

Un introduzione a. Condor Project Computer Sciences Department University of Wisconsin-Madison

Contributo ENEA all'attività WP13, progetto FIRB GRID.IT (Chimica computazionale)

Sistemi Operativi 1. Mattia Monga. 11 marzo Dip. di Informatica e Comunicazione Università degli Studi di Milano, Italia

Laboratorio di Reti, Corsi A e B. Text-Twist. Progetto di Fine Corso A.A. 2016/17

Sistemi a processori multipli

Griglie computazionali

CONFIGURAZIONI E TESTING DI HADOOP-FS PER L'ALTA AFFIDABILITÀ DEI DATI DI UN SITO MEDIO-PICCOLO

Integrazione di ENEA GRID in EGEE

CORSO MOC20462: Administering Microsoft SQL Server Databases. CEGEKA Education corsi di formazione professionale

I thread. Non bastavano i processi?

Sistemi di calcolo distribuiti e paralleli per l utilizzo di codici Monte Carlo

Sistemi Operativi. Lezione 3 Processi e Thread

Informatica II Sistemi Operativi DIGIP - a.a. 2015/16

Architettura dei Sistemi Informatici

SQL per le applicazioni D B M G

Introduzione ai thread

SQL per le applicazioni D B M G

Griglie Computazionali: GRID

MOLTIPLICAZIONE TRA MATRICI

2011 Politecnico di Torino 1

Valutazione del Globus Toolkit. Massimo Sgaravatto INFN Padova

Il calcolo distribuito mediante griglie computazionali

LABORATORIO di Reti di Calcolatori

Connettività e Comunicazione

Introduzione ai. Sistemi Distribuiti

Sistemi Operativi (modulo di Informatica II) L interfaccia del file system

Introduzione ai sistemi operativi

CORSO MOC20416: Implementing Desktop Application Environments. CEGEKA Education corsi di formazione professionale

Scuola di Calcolo Scientifico con MATLAB (SCSM) 2017 Palermo 31 Luglio - 4 Agosto 2017

CORSO MOC20533: Implementing Microsoft Azure Infrastructure Solutions. CEGEKA Education corsi di formazione professionale

Sistemi Operativi FILE SYSTEM : INTERFACCIA. D. Talia - UNICAL. Sistemi Operativi 8.1

Lab. di Sistemi Operativi - Lezione in aula - a.a. 2012/2013

L esecuzione di operazioni programmate ricopre un ruolo importante all interno dei processi elaborativi di un organizzazione.

Esame Laboratorio di Sistemi Operativi Cognome Nome Mat.

A livello fisico, un istanza di base di dati Oracle è composta. Gubiani & Montanari Oracle Database 3

Transcript:

Condor, Condor-G e la Griglia D. Talia - UNICAL Griglie e Sistemi di Elaborazione Ubiqui Cosa Fa Condor Job Risorsa Utente Feedback CONDOR Meccanismi di job management, politica di scheduling, schema con priorità, monitoring di risorse, 1

Filosofia di Flessibilità Lasciare il controllo al proprietario Politiche di Uso Decidere quando la risorsa potrà essere usata Proprietari felici -> più risorse ->maggior throughput Lasciar crescere naturalmente le comunità Cambi di requisiti e relazioni Contratti non precisi Pianificare senza essere prepotenti Non assumere un funzionamento corretto Obiettivo Condor: Un Sistema per High Throughput Computing Grandi quantità di potenza di elaborazione fault tolerant Utilizzazione effettiva di risorse Da ottenere tramite opportunistic computing Usa le risorse quando sono disponibili ClassAds per descrivere risorse e jobs Job checkpoint e job migration Remote system calls preserva l ambiente di esecuzione locale 2

Condor-G: Agente di gestione Computazionale per Grid Computing Combinazione di tecnologia Globus e Condor Globus Protocolli per comunicazioni sicure tra domini Accesso standard a sistemi batch remoti Condor Job submission e allocation Error recovery Creazione di un ambiente di esecuzione Condor Kernel Matchmaker Piano di esecuzione di ClassAds jobs job User Problem Solver Agent Resource richiesta Shadow Dettagli del job Sandbox Ambiente Job 3

Problem Solver Struttura di alto livello costruito sopra un Condor agent Si occupa dell ordinamento dei job e della selezione dei task E esso stesso rappresentato come un job Un job che sottomette jobs Dipende dall agent per l esecuzione dei task Master-Worker e DAG Manager Master-Worker work list Tracking wisc.edu/condor/mw/june-talk T2 in esecuzione su W3 e monitorato da Wid 3 4

Directed Acyclic Graph Manager Esegue più jobs con dipendenze Dipendenze dichiarate usando istruzioni Parent-Child Programmi speciali da eseguire prima o dopo un job sono specificati da comandi Pre e Post Per il setup dell ambiente di esecuzione e l analisi dei risultati L utente può specificare che un job fallito può essere rieseguito con in comando Retry Directed Acyclic Graph Manager b a d c Job a Job b Job c Job d Parent a child b c Parent b child d Parent c child d Script Pre c in.pl Retry c 3 5

Split Execution L esecuzione di Job richiede Informazione che specifica il job Tool come memoria, rete, ecc. Devono essere nello stesso sito Shadow Ha informazione che specifica il job Eseguibili, argomenti, file di input,... Sandbox Crea un ambiente per l esecuzione di un job Sandbox + Shadow Universo Standard Universi Sandbox crea una directory temporanea e la usa per i dettagli sul job in esecuzione Shadow fornisce accesso remoto a device di memoria dell utente Es. Job richiede un file, la richiesta va allo shadow e il file è memorizzato nel sito di esecuzione. Universo Java 6

Agente Politiche Quale risorsa è affidabile? Risorse utili per eseguire jobs Risorsa Di quale utente fidarsi? Matchmaker Politiche di Comunità, controllo di accesso Comunità definite dal matchmaker Agenti possono usare una risorsa solo se condividono un Matchmaker Gateway Flocking I Gateway passano informazione sui partecipanti tra pool, MA invia richiesta a MB attraverso un gateway G, MB ritorna un match 7

Gateway Flocking La struttura dei pool è preservata Completamente trasparente : nessuna modifica per gli utenti Condivisione a livello organizzativo Tecnicamente complesso : i gateway partecipano in tutte le interazioni nel kernel Condor Soluzione: Direct Flocking Direct Flocking A interagisce anche con il Condor Pool B 8

Condor-G Agenti Condor che comunicano con il GRAM R R R R R R Q Q Agent Jobs vengono accodati e non direttamente assegnati alle risorse Direct Flocking vs Condor-G In Condor un Agente sottomette job ad una risorsa, in Condor-G il job è sottomesso ad una coda. Agenti in Condor-G possono Over subscribe Sottomettere un job a più code, attendere una risposta e quindi cancellare gli altri job Under subscribe Sottomettere un job a una coda che può essere lunga Il GRAM permette l accesso ad una varietà di sistemi batch, con accodamento ed esecuzione remota 9

Condor Pool Personali Step 1: L utente sottomette dei deamon Condor come job su sistemi remoti Step 2: I deamon Condor forma un Condor pool ad hoc Step 3: L utente esegue job sul Condor pool così costituito Matchmaker: Un Ponte tra Planning e Scheduling Agenti e risorse pubblicano caratteristiche e requisiti come ClassAds Sono create coppie che soddisfano i vincoli Ambedue le parti sono informate 10

ClassAds Coppie di Attributi nome-valore Senza schema specifico Logica a tre valori True, false e undefined Requisiti Vincoli, per un match devono essere true Rank Desiderabilità di un match ClassAds Job ClassAd Machine ClassAd [ [ MyType = Job MyType= Machine TargetType = Machine TargetType= Job Requirements = Machine= tnt.isi.edu ((other.arch== INTEL && Requirements= other.opsys== LINUX ) (Load<3000) && other.disk > my.diskusage) Rank=dept==self.dept Rank = (Memory 10000) + KFlops Arch= Intel Cmd = /home-exe OpSys= Linux Department = CompSci Disk=600000 Owner = tannenba ] DiskUsage = 6000 ] 11

Gang matching Estensioni al matchmaking Co-allocazione di più di una risorsa Collections Memorie persistenti di ClassAds con tecniche proprie dei database come indexing Set matching Matching di un alto numero di risorse usando una espressione compatta Indirect references Per permettere ad un ClassAd di far riferimento ad un altro Planning e Scheduling Planning Acquisizione di risorse da parte degli utenti E relativo a cosa e dove Scheduling Gestione di una risorsa da parte del proprietario E relativo a chi e quando Feedback tra planning e scheduling 12

Planning e Scheduling Pianificare sulla base di uno schedule Lo scheduler pubblica informazioni circa orari e priorità Condor-G pianifica in questo modo Scheduling senza una pianificazione Match dei risultati di una richiesta di risorsa Un agente crea uno schedule per eseguire i task su quella risorsa Condor-G: Agente di gestione Computazionale per Grid Computing Combinazione di tecnologia Globus e Condor Globus Protocolli per comunicazioni sicure tra domini Accesso standard a sistemi batch remoti Condor Job submission e allocation Error recovery Creazione di un ambiente di esecuzione 13

Sfrutta: Condor-G Security, comunicazioni, resource discovery, accesso a risorse in ambienti multi-dominio offerti dal Globus Toolkit Gestione dell elaborazione e raccolta di risorse in un singolo dominio amministrativo forniti da Condor Condor-G: Permette agli utenti di integrare risorse appartenenti a più domini come se appartenessero ad un unico dominio personale. Tecnologie Condor in Middleware di Grid User level Application, problem solver Job execution Condor Globus Toolkit Condor-G Job submission Resource discovery, authentication. Resource level Processing, storage.. 14

Approccio Condor-G 1. Accesso a Risorse Remote Richiede che le risorse remote usino protocolli standard per la gestione di risorse remote Uso di protocolli definiti dal Globus Toolkit 2. Gestione dell elaborazione Introduce agenti per la gestione dei processi utente Responsabile per: resource discovery, job submission, job management, error recovery Uso del sistema Condor 3. Ambiente di esecuzione remota Uso della tecnologia di sandboxing per creare un ambiente di esecuzione su un nodo remoto Uso del sistema Condor Protocolli di Grid per l Accesso a Risorse Remote GSI (Security) GRAM (sottomissione remota di richieste di elaborazione) Two-phase commit (aggiunto dal Condor team) Fornisce una semantica di esecuzione exactly-once Le richieste di risorse dei client includono numeri di sequenza Il client riceve risposta da una risorsa e invia un messaggio di commit per indicare che l esecuzione può iniziare Fault tolerance (aggiunto dal Condor team) Il GRAM memorizza informazione sui job attivi in memoria stabile sul nodo client Accede all informazione se il GRAM server va in crash e riparte MDS-2 GASS (Global Access to Secondary Storage) Obsoleto, sostituito da GridFTP 15

Gestione dell Elaborazione: il Condor-G Agent Supporta l esecuzione remota L Agente esegue applicazioni su risorse di nodi remoti per conto di utenti Gestisce lo standard I/O e gli eseguibili dei job usando il GridFTP Sottomette un job su un nodo remoto usando il GRAM Monitoring dei job dei fallimenti remoti via GRAM Autenticazione di tutte le richieste usando il GSI Riesegue job falliti Comunica con l utente in caso di errori Memorizza lo stato della computazione su memoria stabile per supportare il restart in caso di fallimento di un agent 16