Running batch jobs on supercomputers

Documenti analoghi
Università degli Studi di Napoli Federico II Corso di Laurea Magistrale in Informatica I Anno

Condor-G: Un Agente per la Gestione dell Elaborazione in Multi-Institutional Grids

Analisi e sviluppo di un sistema automatico per la segnalazione di stati anomali dei job del Data Center S.Co.P.E.

Gestione Quota. Orazio Battaglia

Ambienti di calcolo a griglia Parte 2. Risorse (e loro gestione) Job di griglia e applicazioni di griglia Riservare le risorse ai job

Basi di dati. Corso di Laurea in Ingegneria Informatica Canale di Ingegneria delle Reti e dei Sistemi Informatici - Polo di Rieti

Grid on Cloud : Implementazione e Monitoraggio

Tutorial. Cluster Linux Ultimo aggiornamento Ottobre 2004

Sistemi Operativi (modulo di Informatica II) I processi

Sistema di protezione (2) Protezione (1)

Sistema di protezione (1)

Studi di Settore. Nota Operativa 22/4/2013

Mac Application Manager 1.3 (SOLO PER TIGER)

System Center Virtual Machine Manager Library Management

Il Sistema Operativo (1)

OmniAccessSuite. Plug-Ins. Ver. 1.3

Grid Data Management Services. Griglie e Sistemi di Elaborazione Ubiqui

D3.3 Documento illustrante le metodologie di interfacciamento tra il visualizzatore remoto e il portale EnginFrame in ambiente Cloud.

MIXER: gestione trasmissioni DJ: governance di MIXER

Architettura di un sistema operativo

Infrastruttura di produzione INFN-GRID

Configurazione avanzata di IBM SPSS Modeler Entity Analytics

Istruzioni di installazione di IBM SPSS Modeler Text Analytics (licenza per sito)

Introduzione all Architettura del DBMS

Le Interfacce Grafiche

MODELLO CLIENT/SERVER. Gianluca Daino Dipartimento di Ingegneria dell Informazione Università degli Studi di Siena

Sistemi Operativi e informatica 1

Il Web Server e il protocollo HTTP

Grid Tutorial Day Palermo, 13 Aprile 2011 Job Description Language Gestione job utente

BDCC : Guida rapida all utilizzo

Scheduling della CPU:

Approfondimenti. Contenuti

Realizzazione di un cluster Condor su macchine virtuali

Il SOFTWARE DI BASE (o SOFTWARE DI SISTEMA)

Software di interfacciamento sistemi gestionali Manuale di installazione, configurazione ed utilizzo

Alberto Ferrante. Security Association caching of a dedicated IPSec crypto processor: dimensioning the cache and software interface

Service Level Agreement Management Framework

Sistemi Operativi MECCANISMI E POLITICHE DI PROTEZIONE. D. Talia - UNICAL. Sistemi Operativi 13.1

MECCANISMI E POLITICHE DI PROTEZIONE 13.1

Guida all installazione Command WorkStation 5.5 con Fiery Extended Applications 4.1

Sigma Flusso informazioni

Come UGF gestisce il Change con Endevor

Progetto di Applicazioni Software

1. Che cos è la multiprogrammazione? Si può realizzare su un sistema monoprocessore? 2. Quali sono i servizi offerti dai sistemi operativi?

Applicazione JobScheduler su DB SQL Milano, lì 14/09/2009

Fisciano, 24 ottobre 2008

GammaApp. & Euro09 Evolution

TAS Network FOCUS ON. Pronti per SWIFTNet 7.0!

Sistemi Informativi Distribuiti

Legge e apprende nozioni in qualsiasi lingua, le contestualizza ed è in grado di elaborarle e riutilizzarle quando serve

Scheduling della CPU

SISTEMI OPERATIVI DISTRIBUITI

LSF. lab solution LOG SYSTEM FRAMEWORK. Pagina 1 di 14

Istruzioni di installazione di IBM SPSS Modeler Text AnalyticsServer per Windows

Oracle Database 11g: Workshop di amministrazione II Release 2

info@shift.it

Con il termine Sistema operativo si fa riferimento all insieme dei moduli software di un sistema di elaborazione dati dedicati alla sua gestione.

Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A Pietro Frasca.

Protezione. Protezione. Protezione. Obiettivi della protezione

Corso di Amministrazione di Sistema Parte I ITIL 8

Sistemi Operativi. Processi GESTIONE DEI PROCESSI. Concetto di Processo. Scheduling di Processi. Operazioni su Processi. Processi Cooperanti

Corso di Informatica

Firewall applicativo per la protezione di portali intranet/extranet

1. Introduzione agli ERP e a SAP

Replica di Active Directory. Orazio Battaglia

VMware. Gestione dello shutdown con UPS MetaSystem

Corso di recupero di sistemi Lezione 8

PROJECT MANAGEMENT SERVIZI DI PROJECT MANAGEMENT DI ELEVATA PROFESSIONALITÀ

Access Control List (I parte)

Le Soluzioni Tango/04 per adempiere alla normativa sugli amministratori di sistema

Online Help StruxureWare Data Center Expert

Grid Data Management Services

Toward a stand alone distributed management system

Introduzione alle applicazioni di rete

L obiettivo che si pone è di operare nei molteplici campi dell informatica aziendale, ponendosi come partner di riferimento per l utenza aziendale.

Implementing a new ADT based on the HL7 version 3 RIM. Esempio

Organizzazioni nel Grid Computing

Sommario. Introduzione Architettura Client-Server. Server Web Browser Web. Architettura a Due Livelli Architettura a Tre Livelli

PROGRAMMAZIONE MODULARE DI INFORMATICA CLASSE QUINTA - INDIRIZZO MERCURIO SEZIONE TECNICO

CLUSTER COKA. Macchine e Risorse

Guida Rapida di Syncronize Backup

Introduzione al data base

L importanza di una corretta impostazione delle politiche di sicurezza

Esercitazione 05. Sommario. Packet Filtering [ ICMP ] Esercitazione Descrizione generale. Angelo Di Iorio (Paolo Marinelli)

Caratteristiche principali. Contesti di utilizzo

Griglie computazionali LEZIONE N. 14. Università degli Studi di Napoli Federico II Corso di Laurea Magistrale in Informatica I Anno

Progetto di Applicazioni Software

INDICAZIONI GENERALI

Grid Data Management Services

Sistema Operativo di un Router (IOS Software)

SISTEMI E RETI 4(2) 4(2) 4(2) caratteristiche funzionali

AGENDA.. Mission. Componenti SMC. Security Environment. Report. Eventi. Update prodotti. Faq. Achab 2009 pagina 1

Il software di base comprende l insieme dei programmi predisposti per un uso efficace ed efficiente del computer.

Breve introduzione curata da Alessandro Benedetti. Struts2-Introduzione e breve guida

Gli strumenti Wiki per Inemar e gli inventari emissioni

File Server Resource Manager (FSRM)

Lezione 9. Applicazioni tradizionali

IBM SPSS Statistics - Essentials for Python- Istruzioni di installazione per Mac OS

Intel One Boot Flash Update Utility Guida dell utente

Transcript:

Running batch jobs on supercomputers Catello Di Martino Catello.dimartino@unina.it University of Naples Federico II, Dipartimento di Informatica e Sistemistica DIS Materiale a cura di Giulio Merolla (gmerolla@yahoo.it) 1

Riferimenti: Karl Czajkowski, Ian Foster, Nick Karonis, Carl Kesselman, Stuart Martin, Warren Smith, Steven Tuecke A Resource Management Architecture for Metacomputing Systems, Information Science Institute, University of Southern California Marina del Rey, CA 90292-6695 http://www.isi.edu Brett Bode, David M. Halstead, Ricky Kendall, and Zhou Lei The Portable Batch Scheduler and the Maui Scheduler on Linux Clusters, Scalable Computing Laboratory, Ames Laboratory, DOE Wilhelm Hall, Ames, IA 50011, USA, help@scl.ameslab.gov David Jackson, Maui High Performance Computing Center TORQUE Administrator Manual version 2.4.5, www.clusterresources.com Moab Workload Manager Administrator's Guide version 5.4, www.clusterresources.com OpenPBS Release 2.3 Administrator Guide 2

Contesto del lavoro svolto: Analisi FFDA dei supercalcolatori; Failure richiedono conoscenza del Workload; Informazioni sul workload sono nascoste nei log di sistema; Studio preventivo del particolare Batch System; Entità coinvolte, il loro funzionamento e come collaborano; 3

Alcune caratteristiche dell ambiente: Supercalcolatori eseguono soprattutto Batch Job; Incidono maggiormente sul workload; Non più architetture monolitiche ma cluster-like; Elaborazione su nodi differenti; Complessità maggiore; Problemi di gestione; Problemi di eterogeneità; Sono necessari Software di supporto: Resource Manager + Scheduler; 4

Roadmap: Panoramica sulle componenti del Batch System: Resource Manager; Scheduler; 5

Resource Manager: Resource Manager: componente principale del Batch System; Coordina tutte le altre componenti; Conserva un database di tutte le risorse disponibili, delle richieste di sottomissione dei job e dei running jobs; Forniscono alcuni meccanismi di scheduling di default; Alcune implementazioni well-known: IBM LoadLeveler; LSF (Load Sharing Facility); DQS (Distributed Queuing System); PBS (Portable Batch System); OpenPBS; TORQUE (Terascale Open-Source Resource and QUEue Manager); 6

PBS (Portable Batch System) Sviluppato dalla NASA all inizio degli anni 90; Aderisce allo standard POSIX; Gestisce code di batch jobs; Componenti di PBS: PBS_Commands; PBS_SERVER; PBS_MOM; PBS_SCHED; 7

I) PBS_COMMAND (1/3): Vengono utilizzati per sottomettere, monitorare, modificare e cancellare i job; Possono essere installati in un qualsiasi sistema che supporti PBS e non richiedono l installazione di PBS stesso; PBS supporta sia l esecuzione da riga di comando, sia il supporto di una interfaccia grafica, xpbs; I comandi possono essere classificati in: User commands; Operator commands; Administrator commands; 8

I) PBS_COMMAND (2/3): User commands: usati dall utente per sottomettere, controllare e modificare i job; qsub permette di sottomettere uno script al batch system; Risorse richieste; Attributi del job; qstat richiede lo stato di un job; qdel cancella il job dal sistema; qalter modifica gli attributi del job;... 9

I) PBS_COMMAND (3/3): Operator commands: controllo dei nodi; qenable abilita una destinazione ad accettare i batch jobs; qdisable disabilita una destinazione ad accettare i batch jobs; qrun forza il batch system ad eseguire un certo batch job; qstop forza l arresto dell esecuzione dei job in una destinazione; Administrator commands: controllo globale; qmgr apre una administrator interface relativa al batch system; pbsnodes modifica le proprietà dei vari nodi d esecuzione; Operator e Administrator commands richiedono privilegi di accesso particolare; 10

Scrivere uno script PBS: Sottomettere un job: scrivere un PBS job script; 11

II) PBS_SERVER: Risiede su un nodo amministrativo ; 12 Riceve/crea i batch jobs; Li modifica; Li protegge dai crash di sistema; Li mette nello stato di executable ; Gli utenti sottomettono i job al server tramite i PBS commands, attraverso una rete IP; Conosce la lista di tutti i nodi d eseuzione; Server gestisce una o più code, che possono essere di due tipologie: execution queue; routing queue;

III) PBS_MOM: PBS_MOM: è il job executor; Risiede su ogni nodo del supercalcolatore; In particolare, il pbs_mom: Esegue un job appena ne riceve una copia dal pbs_server; Crea una nuova sessione identica a quella dell utente; Monitora il job; Restituisce l output al server; 13

IV) PBS_SCHED: PBS fornisce un suo built-in scheduler; pbs_sched contiene le politiche di scheduling della macchina; Questo demone comunica costantemente con: i vari MOM, per controllare lo stato delle risorse disponibili; il pbs_server, per conoscere la disponibilità di job da eseguire. 14

Interazione tra le componenti di PBS: Host A Client Only PBS_COMMANDS 7) Submits the job; Executes the job! 8) MOM MOM 1) submits Host C Execution Host MOM 2) Host D Execution Host PBS_SERVER PBS_SCHED PBS_MOM Host E Execution Host Execution queues 15 6) 4) updates 5) Requests job info Resources database Host B Administrative Node - - -

Interazione tra le componenti di PBS: Host A Client Only 10) Returns output to the client PBS_COMMANDS 9) Returns output to the server MOM MOM Host C Execution Host MOM Host D Execution Host PBS_SERVER PBS_SCHED PBS_MOM Host E Execution Host Resources database - - - Execution queues Host B Administrative Node 16

Successore di PBS: TORQUE TORQUE: è un community effort PBS project (2003); Supportato da organizzazioni come NCSA, OSC, USC, TeraGrid e molte altre; Rilasciate oltre 1,200 patches; TORQUE provides enhancements over standard OpenPBS in the following areas: Fault Tolerance Additional failure conditions checked/handled Node health check script support Scheduling Interface Extended query interface providing the scheduler with additional and more accurate information Extended control interface allowing the scheduler increased control over job behavior and attributes Allows the collection of statistics for completed jobs Scalability Significantly improved server to MOM communication model Ability to handle larger clusters (over 15 TF/2,500 processors) Ability to handle larger jobs (over 2000 processors) Ability to support larger server messages Usability Extensive logging additions More human readable logging (i.e. no more 'error 15038 on command 42') 17

Roadmap: Panoramica sulle componenti del Batch System: Resource Manager; Scheduler; Sono diversi dagli scheduler di default che mette a disposizione il Resource Manager! 18

Scheduler: Problematiche relative ai built-in scheduler dei Resource Manager; Scarse prestazioni; Scarso utilizzo delle risorse; E giusto che l administrator possa implementare le sue politiche di scheduling; Un esempio: PBS_FIFO; Non è un FIFO in senso stretto; Scandisce la coda e seleziona il primo job che fitta le risorse disponibili; Sfavorisce i job più grandi; Implementa un meccanismo di starving dei job; Nascita scheduler Open Source MAUI; Fu integrato in PBS e in molti altri Resource Manager; Implementazione dello Scheduler fu separata dal Resource Manager; 19

MAUI (1/2) Scheduler MAUI: alcune caratteristiche; Reservation basata su wall-time; Scheduler a priorità; Meccanismo di backfill; High Priority reservations; Low Priority reservations; Future high priority reservations; backfill backfill backfill Riscosse un enorme successo: ottimo sfruttamento di risorse; Fornisce molti meccanismi di policy; Eventuali loro combinazioni, permettono schemi di scheduling particolarmente accurati e raffinati; Il file di configurazione maui.cfg contiene le policy, assieme ad altri parametri; 20 time

MAUI (2/2) Integrare MAUI nell architettura PBS: PBS_SERVER PBS_SCHED PBS_MOM MAUI Plug-in MAUI Policy Administrative Node 21

MOAB Scheduler MOAB: basato sullo scheduler MAUI, sviluppato da Cluster Resources; 22

Ricapitolando: Batch System = Resource Manager + Scheduler; Implementazioni osservate: PBS MAUI TORQUE MOAB (Resource Manager) (Scheduler) 23

Conclusioni e sviluppi futuri: Conoscere il funzionamento del batch system: Interpretare i log di sistema; Analisi del workload dai log di sistema; 24