Griglie computazionali LEZIONE N. 10. Università degli Studi di Napoli Federico II Corso di Laurea Magistrale in Informatica I Anno

Documenti analoghi
Griglie computazionali LEZIONE N. 8. Università degli Studi di Napoli Federico II Corso di Laurea Magistrale in Informatica I Anno

Introduzione alle griglie computazionali

Grid Data Management Services

Università degli Studi di Napoli Federico II Corso di Laurea Magistrale in Informatica I Anno

Griglie e Sistemi di Elaborazione Ubiqui. Grid File Systems. Requisiti, Funzionalità e Architettura. Grid File System: Requisiti

Grid Data Management Services. Griglie e Sistemi di Elaborazione Ubiqui

Griglie e Sistemi di Elaborazione Ubiqui. Grid File Systems. Requisiti, Funzionalità e Architettura. Griglie e Sistemi Ubiqui - D.

Grid Data Management Services

Architettura degli elaboratori Docente:

EGRID MIDDLEWARE OVERVIEW. Angelo Leto Abdus Salam I.C.T.P. 08/10/2004

Concetto di File! Metodi di Accesso! Struttura delle Directory! Montaggio di File-System! Condivisione di File! Protezione!

Griglie computazionali

Introduzione alla rete Internet

Librerie digitali. Cos è una libreria digitale? Introduzione. Cos è una libreria digitale? Cos è una libreria digitale? Cos è una libreria digitale?

Sistema Operativo (Software di base)

Workload Management Service (1/2)

Sperimentazione del file-system distribuito HDFS in ambiente GRID. III Borsista Day, Roma,

Interfaccia del file system

Reti di Calcolatori Servizi di Rete Laboratorio di Didattica in Rete

SISTEMI OPERATIVI DISTRIBUITI

Sicurezza nelle Grid. Sommario. Page 1. Il Problema della Sicurezza nelle Grid. Grid Security Infrastructure Autorizzazione

Griglie computazionali LEZIONE N. 10. Università degli Studi di Napoli Federico II Corso di Laurea Magistrale in Informatica I Anno

File System I parte. File System

Introduzione Kerberos. Orazio Battaglia

File System ext2. Struttura del filesystem ext2.

Sistemi Operativi. Interfaccia del File System FILE SYSTEM : INTERFACCIA. Concetto di File. Metodi di Accesso. Struttura delle Directory

Griglie computazionali LEZIONE N. 14. Università degli Studi di Napoli Federico II Corso di Laurea Magistrale in Informatica I Anno

Sistemi Operativi. Sistemi I/O SISTEMI DI INPUT/OUTPUT. Hardware di I/O. Interfaccia di I/O per le applicazioni. Sottosistema per l I/O del kernel

Sistema operativo. Interazione con il SO

Lezione 2: Comandi avanzati della Shell di Unix

Sistemi Operativi 1. Mattia Monga. a.a. 2012/13. Dip. di Informatica Università degli Studi di Milano, Italia

Tecnologia dell Informazione

Il middleware INFNGRID Certification Authority Virtual Organization Servizi core Servizi collective Servizi di supporto al deployment e per la

IP TV and Internet TV

Lo strato di applicazione in Internet

Programmazione in Rete

Indice. 1 Introduzione Introduzione Cos è un impianto informatico enterprise... 8

Link e permessi. Corso di Laurea Triennale in Ingegneria delle TLC e dell Automazione. Corso di Sistemi Operativi A. A

tecnologie di cloud computing per il calcolo scientifico Presentazione stage per studenti triennali Università di Torino Mar 6, 2013

Università degli Studi di Napoli Federico II Corso di Laurea Magistrale in Informatica I Anno

Presentazione NIS Network Integration & Solutions s.r.l. Autore: nome Cognome Data: Evento

Sistemi Distribuiti. Libri di Testo

Organizzazioni nel Grid Computing

Lo sniffer. questo sconosciuto! Corso di Reti di Calcolatori Architetture e Servizi A.A. 2010/11. Introduzione allo sniffing TCP

Introduzione. Java HTTP. G. Prencipe

Transmission Control Protocol

INFORMATICA DISTRIBUITA. lez 4 Livello applicazione

Sistemi Operativi. Gianluca Della Vedova. Sistemi Operativi. Gianluca Della Vedova. Sistemi Operativi. Gianluca Della Vedova.

Web e HTTP. path name. host name Realizzato da Roberto Savino.

Sicurezza del File System

DICHIARAZIONE DI RESPONSABILITÀ

Implementazione del File System

Struttura Logica del S.O:

Sistemi Operativi. Organizzazione logica ed implementazione di un File System

Data transfer. Paolo Veronesi INFN-CNAF. VII Workshop GARR network in progress: la rete evolve con I suoi utenti

GRID Un nuovo e potente strumento di calcolo al servizio della ricerca scientifica

2. Strutture dei Sistemi Operativi. 2.2 Interfaccia col Sistema Operativo Interprete dei comandi

Sommario. Esempio di Modellazione mediante DASM: Grid OGSA. Grid secondo OGSA. Definizione Grid per OGSA. Stati di un Job e Requisiti DASM

Struttura interna del sistema operativo Linux

Architettura Connettore Alfresco Share

Problemi di schedulazione distribuita su Grid

Il file È un insieme di informazioni: programmi. Il File System. Il file system

Struttura del File-System! Implementazione del File System! Filesystem!

SISTEMI OPERATIVI DISTRIBUITI

Introduzione all uso dei laboratori aka Linux basics. October 23, 2013

Test e risultati sull uso di un file system GPFS condiviso su rete WAN

I Principali Servizi del Protocollo Applicativo

Configurazione di una LAN in ambiente Windows

INFORMATICA DISTRIBUITA. prof. Carlo Bellettini. lez 9 Distribuzione dei contenuti

How to use the WPA2 encrypted connection

Shell di Linux e Comandi Utente

Autenticazione con LDAP

Memorizzazione affidabile di dati in un ambiente di Griglia

Grid Middleware: L interazione con IPv6. Valentino R. Carcione valentino.carcione@garr.it GARR. [GARR WS7-Roma ]

Applicazioni e protocolli a livello applicazione

14 - INTRODUZIONE AL SISTEMA OPERATIVO LINUX

Capitolo 6 Le infrastrutture SoftWare

Esame Laboratorio di Sistemi Operativi Cognome Nome Mat.

Il Sistema Operativo

sdforexcontest2009 Tool

Reti di Telecomunicazione Lezione 7

(parte 2) DHCP e NAT

IBM Corporation

Reti e Protocolli rassegna (II)

Infrastrutture di calcolo su GRID in Italia

Protocolli multimediali

GstarCAD 2010 Features

Input/Output. Livelli del sottosistema di I/O

Autorizzazione ed autenticazione in glite

Sistemi operativi. Motivazione. Tipi di software. Sistemi operativi. Un sistema operativo (SO) e un insieme di programmi che gestiscono le funzioni

Laboratorio di Amministrazione di Sistema (CT0157) parte A : domande a risposta multipla

Internet Protocol Versione 4: aspetti generali

Il File System. È la componente del S.O. che si occupa della gestione della memoria di massa e dell organizzazione logica dei dati

Routing IP A.A. 2006/2007. Walter Cerroni. Routing gerarchico in Internet

CONFIGURATION MANUAL

Il file system. Le caratteristiche di file, direttorio e partizione sono del tutto indipendenti dalla natura e dal tipo di dispositivo utilizzato.

Portale Materiali Grafiche Tamburini. Grafiche Tamburini Materials Portal

REGISTRATION GUIDE TO RESHELL SOFTWARE

Ambienti di calcolo a griglia - Parte 3

Corso di Sistemi di Elaborazione delle informazioni

Transcript:

Griglie computazionali Università degli Studi di Napoli Federico II Corso di Laurea Magistrale in Informatica I Anno LEZIONE N. 10 Gestione dei dati in GRID Storage Element Storage Resource Management I protocolli di accesso ai dati Il trasferimento dati: GridFTP LCG File Catalogue 1

Il problema della gestione dei dati Supponete di eseguire una applicazione su una macchina locale. E necessario: allocare lo spazio per i file di input trasferire i file di input assicurasi della correttezza del trasferimento e recuperare eventuali errori allocare lo spazio per l output rimuovere gli input per far spazio a nuove esecuzioni Supponete ora che lo storage sia condiviso: fare i passi precendenti per tutti gli utenti e tutte le appicazioni stabilire quote per i diversi utenti 2

Gestione dei dati in GRID Il sistema di gestione delle risorse di storage nella grid deve inoltre occuparsi di Eterogeneità: I dati sono registrati in diversi sistemi di storage, che usano differenti tecnologie d accesso Distribuzione geografica: I dati sono registrati il locazoni diverse, in molti casi non esiste un file system condiviso né un namespace comune I Dati devo essere trasferiti in modo efficiente tra le diverse locazioni Descrizione: I dati sono immagazzinati come files; occorre un modo per identificare i file e localizzarli in base al loro contenuto 3

GRID Data Management System In GRID si aggiungono anche altre funzionalità di base: localizzazione dei dati accesso ai dati remoti copia dei dati catalogazione e replica dei dati gestione dei meta-dati I dati sono gestiti sotto forma di files. I metadati sono dati che descrivono i dati e possono tra l altro essere utilizzati per correlare files in insiemi, contenenti dati dello stesso tipo. 4

Risorse di storage Tutti i dati, sia locali che in GRID, sono memorizzati in una risorsa storage (che può variare da un singolo disco ad una libreria di nastri) Risorse differenti offrono differenti livelli di Quality of Service (QoS). Ogni hardware è controllato da un particolare software. Risorse differenti hanno differenti modi di accesso. Storage Hardware Risorsa di storage Definizione: Una risorsa di storage è una combinazione di un hardware e di un software che lo controlla (file system) 5

Il servizio di Storage Lo Storage Element è il servizio che consente ad utenti o applicazioni GRID di utilizzare le risorse di storage, ossia di memorizzare i dati e ritrovarli per usi futuri Lo Storage Element fornisce tre tipi di interfacce: Accesso ai dati (I/O) Trasferimento dati (GridFTP) Storage Management (SRM) I/O Interface Transfer Interface Storage Hardware Risorsa di storage Management Interface 6

Storage Resource Manager (SRM) Chiamiamo SRM l interfaccia che si occupa dell interazione tra la Grid e le risorse di storage. La definizione di uno standard SRM permette l interoperabilità tra le molteplici implementazioni Il servizio SRM non effettua del trasferimento dei file tra SE, ma può invocare i componenti del middleware che se ne occupano (come GridFTP). Definizione: I servizi SRM sono componenti del middleware di Grid la cui funzione è la gestione delle risorse di storage, mediante l allocazione dinamica dello spazio di storage. 7

Storage Resource Manager (SRM) I dati gestiti da un servizio SRM possono essere registrati in disk pool servers e/o Mass Storage Systems (nastri+dischi) La caratteristica di un SRM è di fornire un file system virtuale che nasconde la complessità del pool di risorse gestite dall interfaccia. I file possono essere spostati in modo trasparente tra diverse risorse di storage gestite dallo stesso SRM. Le risorse sono sono espandibili dinamicamente. 8

SRM v2.2 I file non sono più entità permanenti sullo storage: mediante la definizione di una lifetime specificata possono avere durata limitata. L utente può effettuare il pinning di un file, impedendone la cancellazione finchè ne ha bisogno. L autorizzazione di accesso ai pool e ai singoli file è gestita mediante le credenziali VOMS. E implementata una space reservation che consente di preallocare lo spazio di storage alle Virtual Organization. 9

Implementazioni di SRM In glite si utilizzano diverse implementazioni di SRM Per ogni tipo di SRM possono esserci diversi protocolli di accesso (posix-like) ai file. 10

Implementazioni di SRM I tipi di SRM presenti in glite sono: DPM (Disk Pool Manager): consiste di un server che fornisce un singlo punto di accesso verso un pool di server di disco. Castor e dcache: mediante un disk buffer, un server fa da frontend ad un sistema complesso di mass storage (liberie di nastri e/o server di dischi). StoRM: sfrutta le caratteristiche dei file system paralleli per l accesso alle aree disco. 11

CASTOR (CERN) 12

dcache (Fermilab and DESY) 13

Disk Pool Manager - DPM 14

Storage Resource Manager - StoRM (INFN) 15

Data Files Un file rappresenta la granularità più fine dei dati (il Data Management System non tratta oggetti, vettori, tabelle ) I files su uno Storage Element sono read-only: non possono essere modificati, ma solo cancellati o sovrascritti. Possono esistere numerose repliche dello stesso file, in locazioni diverse Devono essere accessibili da ogni punto della Grid. Si possono trasferire file tra file system locali (ad es. la propria UI) e la Grid (cioè un SE) 16

Identificazione di un GRID-file (1) Un file nella GRID è logicamente identificato, in maniera univoca, dal suo GUID (GRID Unique Identifier) l unicità è garantita da un algoritmo non è user friendly guid:f81d4fae-7dec-11d0-a765-00a0c91e6bf6 Il LFN (Logical File Name) definisce un alias del GUID, creato da un utente per meglio identificare il file lfn:/grid/cms/20030203/run2/track1 I nomi logici sono organizzati in una struttura gerarchica di directory 17

Identificazione di un GRID-file (2) Il SURL (Storage URL o Site URL) individua le copie fisiche dei file include l indirizzo dello Storage Element ed il path del file per un SRM il path è quello del file system virtuale srm://srm.cern.ch/castor/cern.ch/cms/output10_1 - Il TURL (Transport URL) contiene anche il protocollo di accesso al file: gsiftp://pcrd24.cern.ch/flatfiles/cms/output10_1 18

GRID-file Chiamiamo alias ogni nome del file Chiamiamo replica ogni istanza fisica del file Ogni file nella grid può avere più alias e più repliche, ma un solo GUID. Logical File Name 1 Physical File SURL 1 Logical File Name 2 GUID Logical File Name n Physical File SURL n I file possono essere replicati per vari motivi: Metterli vicino ai CE per questioni di efficienza Resistere a eventuali guasti di un SE 19

LFN e GUID identificano un file indipendentemente dalla sua locazione SURL e TURL contengono informazioni sulla locazione fisica del file e su come vi si può accedere. Il mapping tra SURL e TURL viene fatto dal servizio SRM 20

Accesso allo Storage in un sito GRID 21

Interazione con SRM 22

Protocolli di accesso ai dati Il protocollo di base per il trasferimento dei GRID file è GSIFTP: è una estensione di FTP (standard File Transfer Protocol), include autenticazione e encryption dei servizi di sicurezza GSI. Trasferisce in parallelo multiple stream di dati Il protocollo RFIO (Remote File Input/Output) si usa per l accesso diretto ai dati remoti su un SE. Consente di leggere i dati su un SE senza trasferirli. Ne esiste una verisone sicura che usa GSI. 23

Il modello FTP per il trasferimento dati 24

FTP Control functions (commands) and reply codes are transferred over the control connection. All data transfer takes place over the data connection. The control connection must be up while data transfer takes place. The control connection uses the TELNET protocol. Commands and replies are all line oriented text (default is ASCII). 25

FTP client commands 26

Requirements su trasferimento dati Velocità: si vuole utilizzare al massimo la velocità consentita dalle connessioni fisiche, minimizzando l overhead dovuto a servizi e protocolli Sicurezza: I files devono essere trasferiti solo tra entità autenticate Robustezza: i servizi devono essere stabili e va implementatla una fault tolerance. 27

GridFTP GridFTP - File Transfer Protocol in Grid Computing Networks. high-performance secure reliable data transfer protocol optimized for high-bandwidth wide-area based upon the Internet FTP protocol it implements extensions for high-performance operation 28

GridFTP Security Authentication of users or services The Globus GridFTP server and client use the Grid Security Infrastructure (GSI) protocol. Parallel Stream GridFTP supports multiple TCP streams in parallel between a single source and destination. This feature can improve aggregate bandwidth in relation to that done by a single stream Automatic negotiation of TCP buffer/window sizes (Tunability for network and I/O parameters) 29

GridFTP Stripping - having several network endpoints - at the source, destination, or both - participating in the transfer of the same file. Done by having a cluster with a parallel shared le system. Each node in the cluster reads a section of the le and sends it over the network. Stripping and parallelism may be used together where one may have more than one TCP streams open between each of the servers participating in the transfer. 30

GridFTP Partial File Transfer Partial file access: Regions of a file may be accessed by specifying an offset into the file and the length of the block desired GridFTP supports this capability by specifying the byte position in the file to begin the transfer. Support for reliable and restartable data transfer Integrated instrumentation, for monitoring ongoing transfer performance 31

Using GridFTP: globus-url-copy command line globus-url-copy is the command to transfer a file between sites using GridFTP. It is not an interactive command. Does not interact with SRM. The usage is: globus-url-copy <source> <destination> where <source> or <destination> are of the format: if local file, file:<full path> if remote file, gsiftp://<hostname>/<full path> 32

globus-url-copy syntax Server to local: $ globus-url-copy gsiftp://<source> file:/<dest> Local to server: $ globus-url-copy file:/<source> gsiftp://<dest> Remote server A to remote server B: $ globus-url-copy gsiftp://<source> gsiftp://<dest> 33

GridFTP Preformace By default, globus-url-copy uses 1 stream Monitor performance using -vb flag $ globus-url-copy -vb gsiftp://se01.ligo.caltech.edu:15000/usr1/grid/small file file:/tmp/smallfile 9437184 bytes 658.09 KB/sec avg 512.95 KB/sec inst Multiple channels dramatically boosts transfer rate $ globus-url-copy -vb -p 4 gsiftp://se01.ligo.caltech.edu:15000/usr1/grid/large file file:/tmp/largefile 523960320 bytes 5814.25 KB/sec avg 5568.27 KB/sec inst 34

Protocolli di accesso ai dati: RFIO RFIO è il protocollo di accesso dati (non copia) fornito da alcuni SRM RFIO implementa una versione remota delle funzioni di I/o standard Posix, come: open, read, write, lseek and close Utilizza un protocollo molto leggero. 35

Protocolli di accesso ai dati: RFIO Esiste una versione sicura ed una insicura di RFIO: La versione insicura puo essere usato solo per accedere ai dati in una LAN, tipicamente dai WN allo SE. Il controllo dell accesso ai dai è fatto sulla user ID e non sulle credenziali VOMS. Questa versione è implemantata in CASTOR RFIO in versione sicura (gsirfio) puo essere usato per l accesso remoto ai file anche da una UI o da WN fuori dal sito. Autorizzazione e Autenticazione basate su GSI. Implemenatto in DPM e StoRM. 36

LFC LCG File Catalogue LCG = LHC Computing Grid LHC = Large Hadron Collider Logical File Name 1 Physical File SURL 1 Logical File Name 2 Logical File Name n GUID LFC Physical File SURL n Il mapping tra LFN, GUID e SURL è fornito da un unico catalogo, Un file si può considerare un GRID File solo se è fisicamente presente su un SE ed è registrato in un LFC L LFC pubblica i propri riferimenti all Information Service, in modo da essere identificato dagli altri servizi. 37

Architettura dell LFC 38

I Metadati nell LFC I system metadata contengono la dimensione del file, che resta sempre invariata e una checksum per ogni replica, che viene calcolata ad ogni copia del file per verificarne l integrità. I metadata di utente descrivono i dati contenuti nel file. Possono tra l altro essere utilizzati per correlare files in insiemi, contenenti dati dello stesso tipo. 39

LFC LFC ha una struttura ad albero /grid/<vo_name>/ <you create it> LFC Namespace Defined by the user La chiave principale di accesso all LFC è il nome logico Lo spazio dei nomi è organizzato ad albero di directory. /grid/<vo>/<path> I permessi sono molto simili alle ACL di un filesystem Unix Gli utenti di una VO hanno i permessi di lettura e scrittura solo nella sottodirectory corrispondente 40

Comandi LFC Esiste un ampio set di comandi per interagire con il catalogo, che non toccano i file sugli SE: lfc-chmod lfc-chown lfc-getacl lfc-ln lfc-ls lfc-mkdir lfc-rename lfc-rm lfc-setacl Change access mode of the LFC file/directory Change owner and group of the LFC file-directory Get file/directory access control lists Make a symbolic link to a file/directory List file/directory entries in a directory Create a directory Rename a file/directory Remove a file/directory Set file/directory access control lists 41

Comandi di Replica Management Il Replica Management consiste in un set di comandi che l'utente può utilizzare per interagire con il servizio di Storage, quindi con i file presenti sugli SE. Comandi di gestione del catalogo lcg-aa: aggiungi un alias per un dato file lcg-rf: registra nel catalogo un file esistente su un SE lcg-lr: dato LFN, GUID o SURL, elenca tutte le repliche Comandi di gestione dei file lcg-cp: copia un GRID file su una UI lcg-cr: copia un file locale su un SE e lo registra nel catalogo lcg-del: cancella una replica lcg-rep: copia un file da un SE ad un altro e registra la replica 42

Interazione tra Replica Manager e SRM 1 2 File Catalogue Replica Management client 5 3 SRM 6 4 Storage 5 1. Il Client RM chiede al LFC di indicare la posizione di un dato file (a partire da GUID o LFN) 2. L LFC risponde indicando un SRM (PFN) 3. Il Client RM chiede il file allo SRM 4. Lo SRM chiede allo Storage System di rendere disponibile il file al Client RM 5. o attraverso lo SRM stesso 6. o direttamente 43

Esempio d uso dei comandi di replica [doria@atlasui01 ~]$ voms-proxy-init --voms atlas Enter GRID pass phrase: Your identity: /C=IT/O=INFN/OU=Personal Certificate/L=Napoli/CN=Alessandra Doria Creating temporary proxy... Done Contacting voms.cern.ch:15001 [/DC=ch/DC=cern/OU=computers/CN=voms.cern.ch] "atlas" Done Creating proxy... Done Your proxy is valid until Wed May 14 12:46:32 2008 [doria@atlasui01 ~]$ export LFC_HOST=lfc.cr.cnaf.infn.it [doria@atlasui01 ~]$ lcg-cr --vo atlas -d srm://t2-dpm- 01.na.infn.it/dpm/na.infn.it/home/atlas/users/alessandradoria/test100 -l /grid/atlas/users/alessandradoria/test100 file:///home/doria/test guid:b7f199a0-8a75-4e70-bacc-08c8cf1af981 [doria@atlasui01 ~]$ lfc-ls -l /grid/atlas/users/alessandradoria -rw-rw-r-- 1 19014 1307 42 Feb 07 2007 ale12 -rw-rw-r-- 1 19014 1307 42 Feb 12 2007 ale13 -rw-rw-r-- 1 19773 1307 153808339 May 14 01:04 test100 44

Input e Output su SE nel JDL Vediamo gli attributi del Job Descrition Language gli che specificano Input e Output (da/a) un SE InputData Executable= /home/ /home/doria doria/mytest mytest ; 45

Input e Output su SE nel JDL OutputData 46

References Data Management e Storage Element: glite User Guide cap. 7 Data Management https://edms.cern.ch/file/722398/1.2/glite-3-userguide.html GRIDFTP http://globus.org/toolkit/data/gridftp/ F. Donno et al., "Storage Element Model for SRM 2.2 and GLUE schema description, v3.5 : http://glueschema.forge.cnaf.infn.it/uploads/spec/v13/se-model-3.5.pdf 47