Workshop Congiunto INFN CCR e GRID. Acireale, Maggio INFN - Sezione di Trieste - C. Strizzolo - L. Strizzolo

Documenti analoghi
Esame Laboratorio di Sistemi Operativi Cognome Nome Mat.

I Processi nel Sistema Operativo Unix. Gerarchie di processi Unix. Stati di un processo Unix. Stati di un processo Unix.

Il sistema operativo LINUX La shell

Laboratorio di sistemi operativi A.A. 2010/2011 Gruppo 2 Gennaro Oliva Processi

System call per la gestione di processi

Componenti di un sistema operativo

Esame Laboratorio di Sistemi Operativi Cognome Nome Mat.

Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A Pietro Frasca.

Dipartimento di Scienze Chimiche Laboratorio Interdipartimentale di Chimica Computazionale

Operazioni di I/O. Schema di collegamento fra dispositivi periferici e CPU

Argomenti. Architettura fisica di U-Lite Architettura software di U-Lite Comandi gestione job: NFS contro AFS Licenze software

Le Farm Grid a Pisa. Commissione Calcolo e Reti ROMA 5/10/2007. Silvia Arezzini INFN - Pisa

Segnali. Tecnica di comunicazione asincrona tra processi. Si può solo inviare uno tra un insieme fissato di segnali

System Calls per la Gestione dei Processi

Servizio CLOUD - Upgrade delle dotazioni hardware del server Cloud Versione 1.1 del

Laboratorio Centro Calcolo

Laboratorio in C su Processi e POSIX IPC (Inter Process Communications) Dalla nona lezione di laboratorio in avanti

Sommario. Introduzione al problema Infrastruttura realizzata Procedure di ottimizzazione Validazione Conclusioni

Lab 1: Java Multithreading

Workshop CCR-INFNGRID Survey MPI. Roberto Alfieri - Università di Parma & INFN, Gr.Coll. di Parma. Catania, 18 Maggio 2010

Il modello a thread : motivazioni

Bootstrap. Bootstrap. Shutdown. Struttura di un SO. Elementi principali di un SO:

20/04/2017 MANUALE DI ISTRUZIONI DELL APPLICAZIONE ENTRATEL-MULTIFILE VERSIONE 1.0.6

Corso di Reti di Calcolatori L-A

Università degli Studi di Roma Tor Vergata Dipartimento di Ingegneria Civile e Ingegneria Informatica

Sistemi Operativi GESTIONE DEI PROCESSI. D. Talia - UNICAL. Sistemi Operativi 4.1

Processi. Descrittore di Processo (PCB) Context Switch Primitive per la creazione e terminazione dei processi. Il descrittore di processo (PCB)

Controllo dei Processi 1

Simulazione di semafori e rotonde: verifica dell'efficienza al variare del traffico

Organizzazione di un SO monolitico

Sistemi Operativi 1. Mattia Monga. 11 marzo Dip. di Informatica e Comunicazione Università degli Studi di Milano, Italia

2. Nucleo del sistema operativo (la gestione dei processi)

Sistemi Operativi. La gestione delle risorse

Sistemi Operativi (modulo di Informatica II) I processi

: livelli : azione : processo

I Processi nel SO UNIX

Note_Batch_Application 04/02/2011

Sistemi Operativi Anno Accademico 2011/2012. Segnali: Interrupt software per la gestione di eventi asincroni

Introduzione al Multithreading

Sperimentazione del file-system distribuito HDFS in ambiente GRID. III Borsista Day, Roma,

AFS nell'infn Aggiornamento sulla configurazione attuale e sulle attivita' relative al periodo maggio -settembre

Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A Pietro Frasca.

BRR4i Backup, Repeat and Restore for IBM i

Il Sistema Operativo fa parte del software di base; e` costituito da un insieme di programmi che interagiscono e cooperano per:

Sistemi di calcolo distribuiti e paralleli per l utilizzo di codici Monte Carlo

Il software di sistema

Sistemi Operativi. Gianluca Della Vedova. Sistemi Operativi. Gianluca Della Vedova. Sistemi Operativi. Gianluca Della Vedova.

Report sull attività di monitoraggio del Testbed di INFN Grid

il tipo di parallelismo dipende dal grado di cooperazione

Informatica Generale 06 - Introduzione ai Sistemi Operativi

INTEGRAZIONE delle FARM di Sezione e di Grid Consiglio di Sezione 8 ottobre 2007 Tullio Macorini Lucio Strizzolo

LA GESTIONE DELLA I/O

Struttura Logica del S.O:

Interazione tra Processi. Sistemi Operativi T AA

Oxatis DataPlug. Per Windows XP, Windows Vista, Windows 7, Windows 8 e Windows 10. Manuale d uso della console Danea/EasyFatt

Telephony Appliance BNTA 2.0 Guida Rapida per l installazione

Configurazione di una LAN in ambiente Windows

Cenni su LSF. Utilizzo dell Infrastruttura Cresco. Ing. Fiorenzo Ambrosino, PhD DTE-ICT-HPC. Frascati 5 Aprile 2017

Guida per l esecuzione del trasferimento del programma DINAMIC su un nuovo computer

Il processo figlio : utilizza lo stesso codice che sta eseguendo il padre ;

Guida alla configurazione di Microsoft Outlook 2013 o 2016

Sistemi Operativi. Lez. 0: Introduzione ai sistemi operativi

Signalling (IPC) Signalling (segnalazione)

Open Database Connectivity (ODBC)

Processi Concetti di base. Esecuzione parallela e sequenziale Il concetto di processo Gestione dei processi

Setup di una cloud privata a Torino Un prototipo in produzione. S.Bagnasco, D.Berzano, R.Brunetti, S.Lusso

SISTEMI OPERATIVI. Nucleo di un SO. Il Nucleo. Il nucleo di un SO Gestione delle interruzioni Sincronizzazione tra processi Dispatcher. 06.

Esercitazione 11. Esercitazione di riepilogo

Modulo 3. Software. Corso di Sistemi di elaborazione delle informazioni -Autore: Ing. Maurizio Patanè

Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A Pietro Frasca.

Esercizio 2. Client e server comunicano attraverso socket TCP

ISTITUTO NAZIONALE DI FISICA NUCLEARE

Sistema operativo. Avere un architettura multi-core è un vantaggio

Architettura di un calcolatore

Informatica Generale 07 - Sistemi Operativi:Gestione dei processi

Avvio automatico. Anne-Marie Mahfouf Traduzione della documentazione: Valter Mura

Sistemi Operativi. Marzo-Giugno 2011 matricole congrue 0 mod 3. Controllo dei processi - I

Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A Pietro Frasca.

Livelli del sottosistema di I/O

La farm di LNL-Padova: stato e piani per il futuro

Introduzione al DEV C++

CREAZIONE INVIO TELEMATICO

Concetto di Processo Scheduling dei Processi Operazioni sui Processi Processi cooperanti Comunicazione tra processi

MANUALE DI USO. Documento: Manuale 010 SALVATAGGIO DEI DATI. Ultima revisione 07 gennaio Man010 Salvataggio dei dati 07 gennaio 2016 Pag.

Configurazioni ottimizzate per lo scheduling dei job

Memoria Virtuale. Alessandro A. Nacci ACSO 2014/2014

File di script. I File di Script Corso 2D - R.Virili 1

Monitor. Le procedure entry sono le sole operazioni che possono essere utilizzate dai processi per accedere alle variabili comuni.

FUTURA SERVICE S.r.l. Procedura GIMI.NET ver. 3.8 Agosto 2017

Il compilatore Dev-C++

Laboratorio di Sistemi Operativi Marzo-Giugno 2008 matricole congrue 0 mod 3

Normalizzazione puntuale dei dati di accounting

Processi. Introduzione. Effective user/group id. Fork

Automatic Deployment Tool For Networked Objects (ADEPTO)

Day by Day. Note Installative. Foglio presenze per il mondo Web e la procedura Rewind. Day by Day INFORMATICA TELEMATICA CONSULENZA.

ALLINEAMENTO ELETTRONICO ANAGRAFICHE IBAN

Università di Roma Tor Vergata Corso di Laurea triennale in Informatica Sistemi operativi e reti A.A Pietro Frasca.

Sistemi Operativi. Lezione 4 I processi: implementazioni

I THREAD O PROCESSI LEGGERI

Transcript:

Checkpoint e restore di job LSF Workshop Congiunto INFN CCR e GRID Acireale, 17-21 Maggio 2010

La farm di calcolo INFN-Trieste Farm di calcolo condivisa Possibilità di utilizzo con sottomissione di job in locale e via grid Condivisione completa di risorse di calcolo finanziate dalla sezione, dagli esperimenti locali e da grid, senza assegnazione esclusiva delle risorse di calcolo Utilizzo prioritario delle proprie risorse di calcolo da parte degli esperimenti locali, condivisione delle risorse in caso di non utilizzo Utilizzo di tutte le risorse di calcolo disponibili in caso di necessità evitando situazioni di scarso utilizzo delle risorse

Perchè un checkpoint/restore Necessità di sospendere l esecuzione di job sottomessi su alcune code: coda locale non privilegiata per collaborazione con enti diversi coda per l esecuzione di job in determinate fasce orarie code non di esperimento su nodi di esperimento Possibilità di sospendere l esecuzione di job su nodi che esauriscono la RAM

LSF Sospensione e checkpoint La sospensione dei job con il sistema di preemption di LSF o mediante l utilizzo del comando bstop di LSF libera la CPU ma non libera la RAM Il checkpoint fornito da LSF non è direttamente utilizzabile dai job degli utenti (ricompilazione)

Berkeley Lab Checkpoint/Restart (BLCR) 1/2 https://ftg.lbl.gov/checkpointrestart/checkpointrestart.shtml Richiede kernel 2.6.x (x86 e x86_64) Lavora a livello di kernel (moduli), permettendo il restore dei PID, processi e sottoprocessi, pipe di connessione fra i processi Funziona con programmi singlethread e multithread (pthreads)

Berkeley Lab Checkpoint/ Restart (BLCR) 2/2 Non esegue il checkpoint/restore dei socket aperti e degli oggetti SysV IPC Non esegue il restart di eventuali processi zombie presenti al momento del chekpoint Esiste un post su checkpoint@lbl.gov list per configurare LSF per l utilizzo di BLCR, ma non è sufficiente...

Configurazione di LSF - bqueues JOB_STARTER = /usr/bin/cr_run /lsf/scripts/jobstarter_ckpt_lsf_lcg.sh '%USRCMD CHKPNT = /gpfs/common/lsf-ckpnt POST_EXEC = /bin/rm -Rf $LSB_CHKPNT_DIR JOB_CONTROLS = SUSPEND[$LSF_SERVERDIR/echkpnt.blcr -k] RESUME[$LSF_SERVERDIR/erestart.blcr]

Configurazione di GRID Grazie a F. Prelz Sul CE viene modificato il file: /opt/globus/lib/perl/globus/gram/submit-helper.pl Se il job di LSF è stato lanciato con il jobstarter indicato viene commentata la riga: trap 'fatal_error "Job has been terminated (got SIGTERM) "OSB"' TERM nel file in cui il CE incapsula l effettivo job da eseguire.

Il funzionamento Jobstarter 1/6 LSF esegue il jobstarter caricando la libreria di checkpoint con cr_run JOB_STARTER=/usr/bin/cr_run /lsf/scripts/jobstarter_ckpt_lsf_lcg.sh '%USRCMD' Il jobstarter crea e lancia una shell script (chkpnt_script.sh) con cui viene eseguito il job inviato dall utente (%USRCMD) e rimane in attesa della conclusione della script.

Il funzionamento Sospensione del job 2/6 Un eventuale richiesta di sospensione del job (comando bstop di LSF) viene eseguita con il comando echkpnt.blcr JOB_CONTROLS = SUSPEND[$LSF_SERVERDIR/echkpnt.blcr -k] RESUME[$LSF_SERVERDIR/erestart.blcr] che esegue il checkpoint su disco (viene creato un file) della shell script e dei sottoprocessi (e non del jobstarter) con il comando cr_checkpoint ed invia SIGTERM alla shell script e a tutti i sottoprocessi.

Il funzionamento 3/6 Sospensione del job fallimento Prima di effettuare l operazione di checkpoint il comando echkpnt.blcr controlla che per i sottoprocessi della shell script non risultino aperti dei socket. Nel caso in cui ci siano socket aperti l operazione di checkpoint non viene eseguita. In questo caso, e nel caso in cui l operazione di checkpoint fallisca per qualche motivo (exit code 0), il job viene sospeso inviando SIGSTOP ai processi.

Il funzionamento 4/6 Controllo dello stato dei processi E necessario eseguire il checkpoint della shell script e non del jobstarter perché l operazione di checkpoint invia un SIGTERM ai processi ed LSF interpreterebbe la fine del jobstarter come la fine del job.

Il funzionamento Ripresa del job 5/6 La richiesta di ripresa del job (comando bresume di LSF) viene eseguita con il comando erestart.blcr JOB_CONTROLS = SUSPEND[$LSF_SERVERDIR/echkpnt.blcr -k] RESUME[$LSF_SERVERDIR/erestart.blcr] che esegue il ripristino dei processi, con il comando cr_restart, a partire dal file di checkpoint creato.

Il funzionamento Conclusione del job 6/6 Una volta terminata l esecuzione del job inviato dall utente (%USRCMD) la shell script termina segnalando al jobstarter l avvenuta conclusione del job in modo da portare a termine anche l esecuzione del jobstarter, che corrisponde alla conclusione del job LSF.

I risultati Utenti locali alice, compass, pamela, cms utenti esterni GRID VO atlas, cms, euindia, glast, compchem biomed Esito del checkpoint/restore OK OK OK NO socket aperti esr, theophys NO checkpoint fallito (code 52) lhcb NO problemi in restore (processi con PPID=1)