ReCaS Datacenter cluster HPC, guida al suo utilizzo Febbraio, 2016 Alessandro Italiano

Documenti analoghi
Laboratorio Centro Calcolo

Argomenti. Architettura fisica di U-Lite Architettura software di U-Lite Comandi gestione job: NFS contro AFS Licenze software

PORTING DELLA PIPELINE DI PLANCK SULLA

HPC e Cloud 4 giugno 2018 Alberto Sabaini Anna Perina Piattaforma Computazionale

Dipartimento di Scienze Chimiche Laboratorio Interdipartimentale di Chimica Computazionale

Si digita login e password e si clicca su accedi. Si apre la finestra di collegamento:

SOFTWARE SCIENTIFICO DISPONIBILE SUL CLUSTER DI CALCOLO DI IASF-BOLOGNA

Guida introduttiva e regole per l uso dei cluster CASPER e HACTAR

Bologna Batch System (BBS) Franco Semeria Seminario di Sezione

Esperienze di gestione di OpenNebula, Openstack, VMWare

Alcuni concetti base

Laboratorio Centro Calcolo

IMPLEMENTAZIONE CLUSTER DI CALCOLO PRESSO INAF/IASF Bologna. A.Tacchini,A.DeRosa,M.Genghini

Integrazione di ENEA GRID in EGEE

INDACO INfrastruttura di calcolo per il trattamento di DAti COmplessi

Strumenti per l analisi dati di plasmi di fusione in ambiente Linux AFS enea.it

Introduzione ai sistemi operativi

Evoluzione dei sistemi HPC ENEA-GRID/CRESCO

ENEA GRID. CRESCO: Corso di introduzione. Autore: Alessandro Secco

How build a Fedora HPC cluster running OpenFoam in parallel, using Torque/PBS, OpenMPI, Host-based authentication and NFS

Linux LPI Essential. Obiettivi

ENEA-GRID: LSF. LSF: job paralleli avanzati. Corso ENEA-GRID Brindisi 25 giugno Ing. Fiorenzo Ambrosino, PhD UTICT-HPC C.R.

Esperienza di un sito INFNGrid che offre risorse di calcolo e supporto T3-like ad utenti locali

L hardware da solo non è sufficiente per il funzionamento dell elaboratore È necessario introdurre il software:

IL SISTEMA OPERATIVO

Tier-2 Legnaro-Padova. Massimo Biasotto

SIL Locale. Manuale di installazione e configurazione. Veneto Lavoro Progetto S.I.L. Locale

Sistemi Operativi. Corso di Laurea Triennale in Ingegneria Informatica. Daniel Cesarini

Nozioni Base di Linux

Problematiche di rete nella sperimentazione di file-system distribuiti su WAN per applicazioni di GRID- Computing

Griglie Computazionali: GRID

Cluster CRESCO ed ENEAGRID

Comandi principali di Linux (1)

Indice degli argomenti

IL SOFTWARE DI SISTEMA

Seminari Quota - Utilizzi e Implementazione -

Modulo 3. Software. Corso di Sistemi di elaborazione delle informazioni -Autore: Ing. Maurizio Patanè

Corso di Informatica

Simulazione esame Laboratorio di Sistemi Operativi Cognome Nome Mat.

Aggiornamento sul sistema di gestione dei flussi computazionali del CRMA e data provenance

PROCEDURA APERTA PER L EVOLUZIONE DEL SISTEMA DI CALCOLO HPC DELLA SISSA PRESSO LA SEDE DI VIA BEIRUT 2-4 TRIESTE

Guida introduttiva e regole per l uso del cluster Casper. Lo Staff di HPC@Polito - 31 luglio 2015

Sistema Operativo (Software di base)

Utilizzo dei sistemi ENEA-GRID/CRESCO

La farm di LNL-Padova: stato e piani per il futuro

Lezione 1. Programmazione. Lab di Programmazione. Linux e la sua shell: questi sconosciuti. Filippo Gaudenzi. Università degli Studi di Milano

Il nuovo cluster INFN per la fisica teorica

Istruzioni installazione

Condor e la Griglia. Jaskaran Singh CS-599 Introduction to Grid Computing. Cosa Fa Condor CONDOR

Sistema Operativo. (hardware e software) della della macchina

Laboratorio di Calcolatori 1 Corso di Laurea in Fisica A.A. 2006/2007

Modalità di utilizzo dei server di calcolo del C.E.D. di Frascati

Introduzione alla. Alessandra Giordani Lunedì 11 marzo

(Ri)compilare il kernel

CRESCO4 & ENEAGRID per TEDAT e per il calcolo scientifico in ENEA

Sistemi di calcolo distribuiti e paralleli per l utilizzo di codici Monte Carlo

Capitolo 6 Le infrastrutture SoftWare

Configurazione shutdown automatico APC Smart-UPS RT XL

Architettura dei Sistemi Informatici

5 Thread. 5 Thread. 5 Thread. Ad un generico processo, sono associati, in maniera univoca, i seguenti dati e le seguenti informazioni:

Corso Amministratore di Sistema Linux Programma

Metodi di acquisizione dati. Tema J. Stage Valentina Bellussi, Fabio Iannotti, Jelena Nikolic

I Processi. Il Concetto di Processo

UTICT e UTTEI e il calcolo scientifico

Il Sistema Operativo

Lezione 15: Il Sistema Operativo : Principi Generali (3P) Lunedì 22 Novembre 2010

High Performance Cloud Computing Research Infrastructure

Architettura degli Elaboratori,

( 2 ) L elaboratore elettronico

Servizi DISI: spazio Web personale e di gruppo. Angelo Di Iorio

Organizzazione di un SO monolitico

Sistemi Operativi. La gestione delle risorse

Funzioni di un Calcolatore

Componenti di un sistema operativo

Remote file access sulla grid e metodi di interconnesione di rete

Il software. Il solo hardware non è sufficiente per usare un calcolatore

Le Farm Grid a Pisa. Commissione Calcolo e Reti ROMA 5/10/2007. Silvia Arezzini INFN - Pisa

Il sistema operativo

Corso amministratore di sistema Linux. Corso amministratore di sistema Linux Programma

FPL Prova di Laboratorio

Il Sistema Operativo

Capitolo 6 Le infrastrutture SoftWare

Lezione 16. Il Software di base

Workshop CCR-INFNGRID Survey MPI. Roberto Alfieri - Università di Parma & INFN, Gr.Coll. di Parma. Catania, 18 Maggio 2010

Interfaccia del file system

Clustered NFS. Alessandro Brunengo INFN-Genova

Tecnologie Informatiche. Il software: I Sistemi Operativi

Il sistema nazionale di previsione della qualità dell aria.

Sistema di monitoraggio per datacenter distribuiti geograficamente basati su OpenStack

Il Software programmabili programma algoritmo

Piattaforma Computazionale Openstack Cloud

Obiettivo della multiprogrammazione: massimizzazione dell utilizzo della CPU. Scheduling della CPU: commuta l uso della CPU tra i vari processi.

Processi. Capitolo 3 -- Silberschatz

Sistemi Operativi SISTEMI DI INPUT/OUTPUT. D. Talia - UNICAL. Sistemi Operativi 10.1

Sistema Operativo Compilatore. Maurizio Palesi

I sistemi operativi. Prof. Daniele Contarino

MODULO 1: INTRODUZIONE

Sistema operativo & file system 1

Introduzione all Informatica. Alfredo Cuzzocrea. Sistema Operativo

Struttura dei Sistemi Operativi

Transcript:

ReCaS Datacenter cluster HPC, guida al suo utilizzo Febbraio, 2016 Alessandro Italiano Indice: 1. Caratteristiche del cluster HPC 2. Accesso alle risorse, nodi di frontend 3. Compilazione codice 4. FileSystem condiviso 5. Compilatori 6. Module 7. Batch system 8. Sottomettere un job 1. Caratteristiche del cluster HPC del ReCaS Datacenter Il cluster e composto da 20 macchine, naturalmente identiche,che hanno le seguenti caratteristiche: - 2 socket da 10 core Intel(R) Xeon(R) CPU E5-2650L v2 @ 1.70GHz - Una interfaccia InfiniBand: QLogic Corp. IBA7322 QDR InfiniBand HCA (rev 02) - Una scheda grafica NVIDIA Corporation GK110BGL [Tesla K40m] (rev a1) - Una scheda Ethernet a 10Gb/s in fibra ottica In nodi sono tra loro interconnessi tramite una rete a bassa latenza con banda passata fino a 40Gb/s tramite uno switch Intel 12300 True Scale Fabric. 2. Accesso alle risorse. L accesso alle risorse del cluster HPC del ReCaS Datacenter e garantito solo ed esclusivamente in modalità batch. Ne consegue che la sottomissione di job batch possa essere effettuata solo dopo avere fatto il login via ssh sulla seguente macchine: - frontend.recas.ba.infn.it

DNS alias dei seguenti due server Unix - ui02.recas.ba.infn.it - ui03.recas.ba.infn.it Su tali macchine l utente avrà a disposizione una HOME directory per creare ed editare file necessari all esecuzione delle propria applicazione HPC. Il codice applicativo non può essere compilato sui frontend nel caso il codice richieda il supporto alla versione locale di openmpi poiché infiniband non è presente sui frontend. 3. Compilazione codice Nel caso il codice applicativo sia parallelo e si voglia usare la versione locale disponibile via module di openmpi si dove procedere alla compilazione attraverso un job interattivo sottomesso al batch System. In questo modo ci sarà a disposizione una sessione interattiva sui uno dei nodi del cluster sul quale si potrà procedere alla compilazione del codice poiché sui nodi è presente infiniband con relativo codice sorgente. Comando per sottomettere un job interattivo qsub -I -q bigmpi2@sauron.recas.ba.infn.it > module avail > module load gcc-447/openmpi-1.10.2 4. Filesystem condiviso Sul cluster HPC oltre che sulle due macchine di frontend saranno disponibili i seguenti filesystem condivisi - /lustre: IBM GPFS filesystem usato per memorizzare i dati degli utenti che vengono scritti in un unica copia cio vuol dire che non e garantita la consistenza del contenuto della propria aria. Su questo filesystem viene applicata una quota a livello di gruppo locale/esperimento di appartenenza superata la quale l intero gruppo non potra piu usare il filesystem per scrivere dati. - /lustrehome: IBM GPFS filesystem usato per fornire spazio disco per le home degli utenti. I file in questo filesystem vengono gestiti in doppia copia di modo da garantire la consistenza del contenuto della propria area.

- /opt/exp_soft: NFS filesystem usato per condividere il codice disponibile. Anche questo filesystem gestisce i file in doppia copia. 5. Compilatori Allo stato attuale il compilatore disponibile di default e il seguente: - gcc disponibile in più versioni ed accessibile utilizzando il comando module 6. Module L inizializzazione dell ambiante di lavoro sia per l utente che per i job mpi va fatta utilizzando il comando module, il quale in base ai comandi immessi caricherà l ambiente richiesto. Di seguito si riportano alcuni esempi esplicativi: - Vedere i moduli disponibili sul cluster HPC - module avail - Caricare un modulo - module load compilers/gcc-447 - Vedere i moduli caricati - module list - Rimuovere un modulo precedentemente caricato - module unload compilers/gcc-447 7. Batch system Le risorse di calcolo presenti nel cluster HPC siano queste le GPU che le CPU vengono gestite da un batch system che nel nostro caso specifico e - Torque versione 6.0.0.1 - Resource Manager - MAUI versione 3.3.1 - Scheduling In un sistema multi utente, come quello descritto in questo documento, il Batch system svolge le seguenti funzioni:

- Fornisce un sistema di accodamento per le richieste di sottomissione dei batch job. I job rimango in coda fino a quando non ci sono 0e risorse necessarie per la loro esecuzione - Gestisce le priorità di accesso alle risorse garantendo la quota di risorse per le quale il gruppo di appartenenza dell utente ha pagato. - Alloca correttamente le risorse richieste dall utente al momento della sottomissione in modo da rispettare i requisiti del batch job. Le risorse allocate saranno ad uso esclusivo per l esecuzione del batch job. - Si occupa in maniera completamente trasparente all utente di eseguire remotamente rispetto alla macchina di sottomissione, cioè il frontend, l applicazione HPC. - L utente può interagire col batch system attraverso comandi disponibili sul frontend nel default path della propria bash. Per esempio può recuperare lo stato dei job sottomessi o lo stato del batch system stesso. 8. Sottomettere un batch job Allo stato attuale sul sistema batch e presente una sola coda per cui i job andranno sottomessi usando solo questa. - batch queue: bigmpi2, con limite di esecuzione di 1000 ore Un esempio di comando per la sottomissione e il seguente: - qsub -q bigmpi2@sauron.recas.ba.infn.it -l nodes=2:ppn=40 my_mpi_script questo job richiede l esecuzione di my_mpi_script con 80 core allocati su due macchine - qsub -q bigmpi2@sauron.recas.ba.infn.it -l ppn=40 my_mpi_script questo job richiede l esecuzione di my_mpi_script con 40 core Un esempio di script per l esecuzione di un job mpi può essere il seguente #/bin/bash module load gcc-447/openmpi-1.10.2 /opt/exp_soft/misc/gcc-447/openmpi-1.10.2/bin/mpirun -n $PBS_NP -machinefile $PBS_NODEFILE --mca mtl psm /lustre/home/italiano/osu/libexec/osu-microbenchmarks/mpi/pt2pt/osu_latency D D