Infrastrutture di calcolo su GRID in Italia



Documenti analoghi
Infrastruttura di produzione INFN-GRID

Workload Management Service (1/2)

WNoD: Virtualizzazione, Grid e Cloud nel Calcolo Scientifico per l INFN

Il middleware INFNGRID Certification Authority Virtual Organization Servizi core Servizi collective Servizi di supporto al deployment e per la

Università degli Studi di Napoli Federico II Corso di Laurea in Informatica III Anno

Sommario. Oracle Database 10g (laboratorio) Grid computing. Oracle Database 10g. Concetti. Installazione Oracle Database 10g

P R O G E T T A Z I O N E E I M P L E M E N T A Z I O N E D E L L E I N T E R F A C C E U T E N T E

Sistemi informativi secondo prospettive combinate

Grid Tutorial Day Palermo, 13 Aprile 2011 Job Description Language Gestione job utente

Reti di Calcolatori GRIGLIE COMPUTAZIONALI

GRIGLIE COMPUTAZIONALI

Le Soluzioni Tango/04 per adempiere alla normativa sugli amministratori di sistema

Centralizzazione, log e monitoraggio

Presentazione NIS Network Integration & Solutions s.r.l. Autore: nome Cognome Data: Evento

Organizzazioni nel Grid Computing

Ambienti di calcolo a griglia Parte 2. Risorse (e loro gestione) Job di griglia e applicazioni di griglia Riservare le risorse ai job

Sicurezza dei dati in EGRID

Identificazione documento. Approvazioni. Variazioni DEGLI STUDI DI NAPOLI FEDERICO II. Centro di Ateneo per i Servizi Informativi

PROXYMA Contrà San Silvestro, Vicenza Tel Fax

Base di dati e sistemi informativi

Condor-G: Un Agente per la Gestione dell Elaborazione in Multi-Institutional Grids

Cos'é una (Computing) GRID?

Introduzione alle griglie computazionali

1. BASI DI DATI: GENERALITÀ

DGAS Accounting economico e bilanciamento del carico di lavoro per la European DataGrid

Lezione 1. Introduzione e Modellazione Concettuale

Active Directory. Installatore LAN. Progetto per le classi V del corso di Informatica

Identificazione documento. Approvazioni. Variazioni DEGLI STUDI DI NAPOLI FEDERICO II. Centro di Ateneo per i Servizi Informativi

PROJECT MANAGEMENT SERVIZI DI PROJECT MANAGEMENT DI ELEVATA PROFESSIONALITÀ

Integrazione dei processi aziendali Sistemi ERP e CRM. Alice Pavarani

Una rassegna dei sistemi operativi per il Cloud Computing

Monitoraggio e performance: il ruolo del DBA manager e gli strumenti a supporto

Programma del Corso. Dati e DBMS SQL. Progettazione di una. Normalizzazione

RETI INFORMATICHE Client-Server e reti paritetiche

Sviluppo Applicativi personalizzati per automatizzare le Analisi SPC

CONTENUTI 1. INTRODUZIONE CONCETTI BASICI SU EQUINOX CMS XPRESS ACCESSO A EQUINOX CMS XPRESS PAGINA D INIZIO...

Caratteristiche principali. Contesti di utilizzo

CASO DI SUCCESSO X DATANET INSIEME A VENETO BANCA PER LA GESTIONE DELL ASSEMBLEA SOCI

Architetture Informatiche. Dal Mainframe al Personal Computer

Il Progetto di Centro di Reprocessing di BaBar: Monitoring e Simulazione

Knowledge Management

Turismo Virtual Turismo Virtual Turismo Virtual

MANUALE DELLA QUALITA Revisione: Sezione 4 SISTEMA DI GESTIONE PER LA QUALITA

Questionario delle applicazioni per Science Gateway

Agent, porte, connettività e reti L agent di Kaseya utilizza la porta 5721 per comunicare con il server, ma che tipo di porta è?...

Sistema di Gestione dei Contenuti Multimediali

LSF. lab solution LOG SYSTEM FRAMEWORK. Pagina 1 di 14

Grid Data Management Services

Workshop CCR-INFNGRID Survey MPI. Roberto Alfieri - Università di Parma & INFN, Gr.Coll. di Parma. Catania, 18 Maggio 2010

Descrizione generale del sistema SGRI

Metodi di verifica degli utenti in ELMS 1.1

SCGMR Ver. 1.0 Software di Controllo e Gestione Monitor Remoti (per Monitor T4L Serie PIM)

Grid Data Management Services. Griglie e Sistemi di Elaborazione Ubiqui

Titolo progetto: ConsoliData. Ambito di intervento: ICT e dispositivi sensoriali. Struttura di riferimento : Coordinatore di progetto: INFN

Architetture Informatiche. Dal Mainframe al Personal Computer

ALLEGATO Esempio di questionario per la comprensione e valutazione del sistema IT

Configuration Management

CORSO WET 462 Amministrazione di database SQL Server 2012

Input/Output. Moduli di Input/ Output. gestiscono quantità di dati differenti a velocità diverse in formati diversi. n Grande varietà di periferiche

CONTENT MANAGEMENT SYSTEM

ControlloCosti. Cubi OLAP. Controllo Costi Manuale Cubi

lem logic enterprise manager

Console di Monitoraggio Centralizzata

Manuale Intesa. Guida all apertura di un ticket di assistenza online

Gruppi, Condivisioni e Permessi. Orazio Battaglia

EXPLOit Content Management Data Base per documenti SGML/XML

Titolo Perché scegliere Alfresco. Titolo1 ECM Alfresco

INFN-BOLOGNA-T3. L. Rinaldi

Modifiche principali al programma Adobe Open Options NOVITÀ! DISPONIBILITÀ ESCLUSIVA DEL SOFTWARE ADOBE ACROBAT ELEMENTS

Sistemi Operativi di Rete. Sistemi Operativi di rete. Sistemi Operativi di rete

Basi di dati. Corso di Laurea in Ingegneria Informatica Canale di Ingegneria delle Reti e dei Sistemi Informatici - Polo di Rieti

Griglie computazionali

Sistemi di gestione delle basi di dati. T. Catarci, M. Scannapieco, Corso di Basi di Dati, A.A. 2008/2009, Sapienza Università di Roma

Domenico Longhi. Dalla Informazione Geografica alla Infrastruttura Geografica. Le attività delle Regioni

Firewall, Proxy e VPN. L' accesso sicuro da e verso Internet

Total Security Knowledge Management Solution

Faber System è certificata WAM School

Il CMS Moka. Giovanni Ciardi Regione Emilia Romagna

Registrazione utente. Manuale Utente

InfiXor. il programma facile e versatile per preventivi veloci e completi. il software di preventivazione per produttori e rivenditori di infissi

Manuale Amministratore bloodmanagement.it

(Osservazioni sulla proposta dei referee del calcolo LHC) Lamberto Luminari

Open Source Monitoring. per le imprese. Sicurezza di investimento. Presenza presso il cliente. Competenza

Uso delle basi di dati DBMS. Cos è un database. DataBase. Esempi di database

SCHEDA REQUISITI PER LA CERTIFICAZIONE DEGLI ITSMS (IT SERVICE MANAGEMENT SYSTEMS) AUDITOR/RESPONSABILI GRUPPO DI AUDIT

Network Monitoring. Introduzione all attività di Network Monitoring introduzione a Nagios come motore ideale

LAit & Red Hat Dante Chiroli Direzione Tecnologie: Architetture

MODELLISTICA DI IMPIANTI E SISTEMI 2

Prodotto <ADAM DASHBOARD> Release <1.0> Gennaio 2015

Gruppo Web Tools. Dael Maselli (LNF) Commissione Calcolo e Reti 2 Ottobre 2006 Roma

Informatica Generale Andrea Corradini Sistemi di Gestione delle Basi di Dati

Ti consente di ricevere velocemente tutte le informazioni inviate dal personale, in maniera assolutamente puntuale, controllata ed organizzata.

È evidente dunque l'abbattimento dei costi che le soluzioni ASP permettono in quanto:

Finalità della soluzione Schema generale e modalità d integrazione Gestione centralizzata in TeamPortal... 6

2 Gli elementi del sistema di Gestione dei Flussi di Utenza

INTEGRAZIONE delle FARM di Sezione e di Grid Consiglio di Sezione 8 ottobre 2007 Tullio Macorini Lucio Strizzolo

IL CASO DELL AZIENDA. Perché SAP.

SISTEMA DESCRIZIONE SOMMARIA COMPONENTI SISTEMA. Sistema applicativo di gestione e monitoraggio. SIMIP Entrata in esercizio: Ottobre 2008

Il Web Server e il protocollo HTTP

Innovare. i vostri bisogni. la soluzione. i vantaggi

Transcript:

Infrastrutture di calcolo su GRID in Italia IFAE 27 Napoli, 12 aprile Enzo Miccio INFN/CNAF - CERN IFAE 27, Napoli, 12 aprile

Sommario In prospettiva Progetti attuali e futuri Lo stato attuale GRID in produzione, ora GRID in preparazione, per LHC Conclusioni IFAE 27, Napoli, 12 aprile

Infrastruttura GRID La disponibilità di servizi di rete e protocolli standard su uno strato fisico costituto da risorse di calcolo, spazio di storage e supercomputers, reso accessibile e condivisibile da un'adeguata organizzazione IFAE 27, Napoli, 12 aprile

Un po' di storia All'inizio del 2 viene approvato il progetto INFN Grid (grid.infn.it) 2 sedi, un centinaio di persone coinvolte collaborazione fra fisici, ignegneri, computer scientist... la motivazione principe era rispondere alla sfida del computing problem per LHC, ma sin dall'inizio il progetto è stato aperto alle esigenze provenienti da altri campi di ricerca come quello biomedico o di osservazione terrestre, come pure ad applicazioni industriali è stato il punto di partenza per lo sviluppo dell'infrastruttura GRID in Italia IFAE 27, Napoli, 12 aprile

Un po' di storia Nel 21, grazie all'esperienza di INFN Grid, nasce il progetto Grid.it vengono stanziati fondi dal ministero e vengono coinvolte altre istituzioni oltre all'infn (CNR, ASI...) l'obiettivo è quello di fornire le basi per un'infrastruttura comune a tutta l'area di ricerca italiana (IRA) IFAE 27, Napoli, 12 aprile

Un po' di storia Nel 21, nell'ambito del V Programma Quadro europeo e in collaborazione con il CERN, diversi paesi europei e alcune industrie, INFN Grid lancia DataGrid (cern.ch/eu-datagrid), pietra miliare verso la costruzione di un'infrastruttura a livello dell'area di Ricerca Europea (ERA). Il progetto sfocia in EGEE (Enabling Grids for EsciencE, eu-egee.org), un progetto quadriennale (24-8) finanziato nell'ambito del VI Programma Quadro europeo e orma a metà della sua seconda fase. IFAE 27, Napoli, 12 aprile

La strategia Sviluppo di middleware e infrastruttura all'interno di progetti europei ed internazionali (accedendo a fondi extra-infn: EU, MIUR...), passando spesso per il coordinamento del CERN (DataGrid, EGEE, EGEE II, WLCG...), spesso promossi dallo stesso INFN Collaborazione internazionale (Open Science Grid, Open Grid Forum...) improntata a garantire l'interoperatività globale dei servizi sviluppati e l'adozione di standard internazionali Sviluppi nazionali del middleware nelle aree non coperte da progetti UE IFAE 27, Napoli, 12 aprile

Oggi L'infrastruttura di produzione GRID italiana più di 4 centri di ricerca coinvolti le risorse sono raggiungibili attraverso servizi specifici per ciascuna VO la maggior parte di essi (~3) sono coinvolti anche a livello internazionale (EGEE/LCG) gli altri sono accessibili attraverso servizi di grid su scala nazionale IFAE 27, Napoli, 12 aprile

Oggi Portale operativo: http://grid-it.cnaf.infn.it/ Documentazione per l'utente Documentazione per gli amministratori Repository per il software Monitoring Sistema a ticket per la notifica di problemi FAQ e supporto IFAE 27, Napoli, 12 aprile

Domani (FP6) Garantire l'evoluzione del Middleware Grid Open Source verso standards internazionali (OMII-Europe) Contribuire alle attività informatiche di Ricerca e Sviluppo Coordinare l espansione di EGEE nel mondo (EUMedGrid, Eu-IndiaGrid, EUChinaGrid...) Sostenere l allargamento di EGEE a nuove comunità scientifiche GRIDCC (Applicazioni real time e controllo apparati) BionfoGrid (Bionformatici; Coordinato dal CNR) LIBI (MIUR; Bionfomatici in Italia) Cyclops ( Protezione Civile) IFAE 27, Napoli, 12 aprile

Oggi La fase di R&S preliminare è ormai ampiamente superata L'infrastruttura di GRID è ormai funzionante a livello di produzione per oltre 2 VO e migliaia di job al giorno In particolare gli esperimenti di LHC (CMS, ATLAS) non potrebbero più fare a meno, oggi, della GRID Il successo scientifico stesso di LHC è strettamente vincolato al successo della GRID Il successo di GRID è strettamente vincolato alla sua capacità di soddisfare le richieste di LHC IFAE 27, Napoli, 12 aprile

LHC e GRID Motivazioni il CERN da solo può fornire solo una frazione delle risorse necessarie decine di istituti possono contribuire con risorse necessità di integrare tali risorse Requisiti accesso uniforme e user-friendly interfacce standard a risorse eterogenee protocolli standard per l accesso ai dati ottimizzazione dell accesso ai dati distribuzione intelligente e il piú possibile automatica dei dati assegnazione intelligente delle risorse di calcolo richieste IFAE 27, Napoli, 12 aprile

LHC e GRID Componenti principali: Servizi di autenticazione e autorizzazione Workload Management Information System Data Management Computing Element Monitoraggio IFAE 27, Napoli, 12 aprile

La vita di un job Resource Broker User interface Input sandbox Replica Catalogue DataSets info Information Service er s x ok Br o db Publish + at u ox St nfo db san t Jo b gr id -p CE i san ut tpu Ou Job Query Job Submit Event Author. &Authen. SE & p In ro xy -i n it Output sandbox In fo Storage Element Job Status Logging & Book-keeping Computing Element IFAE 27, Napoli, 12 aprile

User Interface Resource Broker User interface Replica DataSets da accesso alleinfofunzionalità Catalogue del WMS: Output sandbox er x ok s at u Expanded JDL Br o db Publish + St ox db san t Jo b gr id -p san ut tpu Ou Job Query Job Submit Event Author. &Authen. elencare risorse compatibili (dato un Information Service insieme di requisiti) SE & CE i nfo mandare un job ottenere lo stato di un job cancellare un job ottenere informazioni di logging recuperare l'output p In ro xy -i n it Input sandbox In fo Storage Element Globus RSL Autenticazione e autorizzazione Job Status Gestione delle VO e dei privilegi Service degli utenti Job Submission corrispondenza tra utenti (identificati via certificato X.59) Computing Job Status e account locali Logging & Book-keeping Element IFAE 27, Napoli, 12 aprile

Workload Management Resource Broker User interface Input sandbox Replica Catalogue DataSets info Information Service s ox db St + er x ok Br o db In fo Logging & Book-keeping Publish san t at u nfo accetta e gestisce i job degli utenti seleziona le risorse più appropriate tiene traccia di quello che succede ai job Job Status restituisce l output all utente Jo b gr id -p CE i san ut tpu Ou Job Query Job Submit Event Author. &Authen. SE & p In ro xy -i n it Output sandbox Storage Element Computing Element IFAE 27, Napoli, 12 aprile

Information System Resource Broker User interface Input sandbox Replica Catalogue DataSets info it sandbox Fornisce in Output tempo reale lo stato della Grid (servizi e risorse) SE & er Expanded JDL s at u Jo b x ok Br o db Publish + St ox db san t In fo sapere quali risorse di calcolo possono soddisfare le richieste degli utenti Job Status nfo san gr id -p CE i ut tpu Job Query Author. &Authen. per Ou Job Submit Event usato dal WMS p In ro xy -i n Information Service Storage Element Globus RSL Job Submission Service Logging & Book-keeping Job Status Computing Element IFAE 27, Napoli, 12 aprile

Data Management User Catalogo interface Resource Broker dei file Input sandbox Replica Catalogue DataSets info er Expanded JDL s at u x ok Br o db In fo Storage Element Publish + St ox db san t Jo b gr id -p san ut tpu Ou Job Query Job Submit Event Author. &Authen. p In ro xy -i n it contiene le mappe tra Output sandbox Information Logical File Names (LFN) Service SE & Globally Unique Identifiers (GUID) CE i nfo Physical File Names (PFN) è centralizzato (backend Oracle o MySQL) Storage Element RSL Job Status Essenzialmente un diskglobus server Job Submission Service (eventualmente front-end a un sistema di mass storage) Job Status Logging & Book-keeping Computing Element IFAE 27, Napoli, 12 aprile

Monitoraggio Resource Broker User visualizza interface Replica Catalogue lo stato presente e passato della Grid consente di diagnosticare i problemi Output sandbox modello gerarchico (come per l IS) Input sandbox SE & p In ro xy -i n it DataSets info er x ok Br o db s at u In Publish + St ox db san t Jo b gr id -p san ut tpu Ou Job Query Job Submit Event CE i nfo l informazione viene generata sulle singole macchine da appositi sensori poi viene raccolta a livello di sito Author. infine viene spedita e immagazzinata in un database &Authen. centrale Information Service fo diversi sistemi attualmente in Storage funzione, con finalità spesso diverse Element Job Status Logging & Book-keeping R-GMA GridICE Computing Site Functional Tests Element IFAE 27, Napoli, 12 aprile

IFAE 27, Napoli, 12 aprile

Dal middleware LCG... Il Resource Broker di LCG si è dimostrato robusto, ma il codice è ormai congelato niente nuove feature difficoltà di bug fix la sottomissione via Network Server è troppo lenta può richiedere decine di secondi per job, se il RB è carico il rate massimo di sottomissione è limitato l'esperienza mostra che non possono essere gestiti più di ~7 jobs/day non supporta il rinnovo dei VOMS proxy i VOMS proxy sono ormai diventati uno standard sine qua non poiché permettono un'autorizzazione fine-graned (data access, job priorities) IFAE 27, Napoli, 12 aprile

...al middleware glite Viene introdotto il WMProxy, che si inserisce tra l'utente e il WMS vero e proprio, ottimizzando la gestione dei job IFAE 27, Napoli, 12 aprile

glite WMS: vantaggi Task queue interna: Se non ci sono risorse disponibili che corrispondono alle richieste di un job, questo può essere mantenuto in coda per un tentativo in un secondo momento Shallow resubmission : il job viene ri-sottomesso se il fallimento è avvenuto prima di raggiungere il Worker Node Information Supermarket Può sottomettere jobs basandosi su informazioni raccolte da più parti e raccolte in una cache locale IFAE 27, Napoli, 12 aprile

glite WMS: vantaggi Bulk submission Collections: insieme di job indipendenti Job sandbox Condivisione dell'input sandbox per le collection Download/upload delle sandbox via GridFTP, https, http Autenticazione più rapida via WMProxy Match-making più rapido Bulk match-making IFAE 27, Napoli, 12 aprile

glite WMS: vantaggi Tempi di risposta più rapidi per l'utente Job throughput più alti IFAE 27, Napoli, 12 aprile

glite WMS sotto test Servizio sperimentale urgenza di avere un servizio funzionante e prestante necessità di poterlo già usare in produzione (ATLAS) Sotto intensa attività di testing dall'estate 26 Test congiunti ATLAS & CMS Sono state usate come WMS poche macchine costantemente sotto controllo (CERN, Milano, CNAF) e aggiornate tutte con la stessa configurazione Ciclo di test-patch-deploy molto a stretto giro IFAE 27, Napoli, 12 aprile

glite WMS: problemi memory leak L'uso della memoria cresce linearmente in glite WMS 3. mantenerlo in funzione diventa difficile (restarts, reboots...) problema risolto in glite WMS 3.1 IFAE 27, Napoli, 12 aprile

glite WMS: problemi Job che vanno in stallo Problema serio in glite WMS 3. 15% di jobs su 15K jobs/day Peggiora considerevolmente sotto carico Situazione migliore in glite WMS 3.1 ~5% di jobs su 15K jobs/day Il problema è stato individuato nel Condor DAGMAN meccanismo di gestione delle collezioni Problema risolto come?...rimuovendo Condor DAGMAN! le collezioni sono gestite con un meccanismo più semplice gli ultimi test non mostrano più alcun job in stallo IFAE 27, Napoli, 12 aprile

glite WMS sotto test bulk submission target di 15k jobs/day per una settimana Effettivi requirement di ATLAS Semplici HelloWorld job, bulk submission Limite di Shallow Retry pari a 5 ultimi risultati 1K job/day meno dell'1% di job persi (in stallo) ritmo sostenuto stabilmente per una settimana Site ce5-lcg.cr.cnaf.infn.it ce6-lcg.cr.cnaf.infn.it cclcgceli2.in2p3.fr ce4.pic.es ce-fzk.gridka.de lcgce1.gridpp.rl.ac.uk lcgce1.triumf.ca ce113.cern.ch ce114.cern.ch ce115.cern.ch Submit Wait Ready Sched 1 2 2 Run 3 Don(S)Don(E)Don(F)Abort Clear 14188 12 1416 4 13781 19 1434 1 259 1954 243 12946 54 12384 14 1289 388 13519 281 13919 1 8 Canc IFAE 27, Napoli, 12 aprile

glite WMS sotto test non-bulk submission viene sottomessa vera applicazione CMSSW Limite di Shallow Retry pari a 3 Interrogazione frequente dello status dei job con retrieving automatico dell'output dalla UI ultimi risultati raggiunto limite del ritmo di sottomissione consecutivo (~6k job/day) limite superabile via sottomissione parallela, anche da una stessa UI >1 jobs/day IFAE 27, Napoli, 12 aprile

...e in produzione 1m job terminati vs giorni (ATLAS) Significativo incremento nell'ultimo mese raggiunti i 2k job/day 1m Wall-Clock-Time il tempo perso in job falliti (rosso) è tipicamente basso occasionali aumenti dovuti a validazioni e sporadici incidenti IFAE 27, Napoli, 12 aprile

glite WMS: stato attuale I problemi più grossi sono stati risolti e testati Gli altri problemi minori sono stati compresi e risolti Resta da effettuare i test con queste ultime patch IFAE 27, Napoli, 12 aprile

Conclusioni Grid è già funzionante Grid è già determinante Grid ha ancora sfide da affrontare IFAE 27, Napoli, 12 aprile