BaBar Computing in Italia: status report



Documenti analoghi
Il Progetto di Centro di Reprocessing di BaBar: Monitoring e Simulazione

Calcolo in BaBar: stato attuale e prospettive. Francesco Safai Tehrani, INFN Roma per BaBar Italia

Tier1-CNAF. DC04 Activities and Status. TISB - Pisa - P. Capiluppi

INFN-BOLOGNA-T3. L. Rinaldi

Status Report WS CCR 2002

BaBar: stato ed utilizzo delle farms

Babar Computing. Tina Cartaro. BABAR Italia Meeting Capri, Aprile 2010

Installare Ubuntu su macchina virtuale

WNoD: Virtualizzazione, Grid e Cloud nel Calcolo Scientifico per l INFN

Progetto Vserver- HighAvailability

Navigare verso il cambiamento. La St r a d a. p i ù semplice verso il ca m b i a m e n t o

Infrastruttura di produzione INFN-GRID

Test di affidabilita e performance a Genova. Alessandro Brunengo

Aspetti critici rete LAN e WAN per i Tier-2. R.Gomezel

Come modificare la propria Home Page e gli elementi correlati

Introduzione alla Virtualizzazione

LA MIGRAZIONE IN SEMPLICI STEP. Il moving di una macchina Linux sul Cloud Server Seeweb

FAQ DI INSTALLAZIONE DI INAZIENDA Rev.2

Modulo 4 Il pannello amministrativo dell'hosting e il database per Wordpress

INTEGRAZIONE delle FARM di Sezione e di Grid Consiglio di Sezione 8 ottobre 2007 Tullio Macorini Lucio Strizzolo

BRR4i. Backup, Repeat and Restore for IBM System i. (Vers. 2.0 del )

Guida all installazione di Easy

Organizzazione tecnico-informatica Ing. Fabio Binotto

Airone Gestione Rifiuti Funzioni di Esportazione e Importazione

IL SERVIZIO DI POSTA ELETTRONICA

Procedure di ripristino del sistema.

ENEA-GRID attività in corso

Software per Helpdesk

Come orari con Eventi importanti per oggi ricordo:

UTILIZZATORI A VALLE: COME RENDERE NOTI GLI USI AI FORNITORI

Piattaforma per la gestione dei crediti organica e professionale Recupero crediti stragiudiziale e giudiziale, monitoraggio anticipazioni ed attività

LE MEDIE MOBILI CENTRATE

Servizio di backup dei dati mediante sincronizzazione

Resusci Anne Skills Station

SISTEMI E RETI. Crittografia. Sistemi distribuiti e configurazione architetturale delle applicazioni WEB.

May Informatica S.r.l.

Esempio: aggiungere j

Volume GESTFLORA. Gestione aziende agricole e floricole. Guidaall uso del software

Online Help StruxureWare Data Center Expert

CONFIGURAZIONE E GESTIONE DEI DATABASE (rev. 1.1)

Stato del software per l analisi del test beam. 21/6/2002 Tommaso Boccali 1

Manuale di Aggiornamento BOLLETTINO. Rel H4. DATALOG Soluzioni Integrate a 32 Bit

Quintiq stabilisce un nuovo standard per la pianificazione delle risorse nel settore ferroviario

Vediamo un analisi della situazione Ciclica su Bund ed Euro/Dollaro (prezzi chiusura del 16 gennaio)

Cablaggio UNI CNR GRID. Cavedi0 1. Accelerat ore. Centro stella. Cavedi0 R FW. Villetta Rossa. Router GARR

G UI D A AL R E C U P E RO DEI DAT I D A T A R E C O V E R Y d a H A R D D I S K

SOFTWARE. Aprendo il SW la prima schermata che appare è la seguente:

DuBackup+ OnlineBackups BestPractices

Report di valutazione studiolegalebraggio.it

I documenti di Gli ingredienti per l allenamento per la corsa LE RIPETUTE

I chips di SVT relazione dei referees

ATOLLO BACKUP GUIDA INSTALLAZIONE E CONFIGURAZIONE

IL MODELLO CICLICO BATTLEPLAN

Il file seme o file modello del disegno

ControlloCosti. Cubi OLAP. Controllo Costi Manuale Cubi

Allegato 1.3 Modalità di messa in produzione software

VIRTUAL INFRASTRUCTURE DATABASE

Analisi settimanale N7 Settimana Novembre

Pagina n. 1. Introduzione e Istruzioni al Sito. Ci trovi anche su: E-Book Introduttivo all utilizzo del sito

Class CNBC Intervista al Group CEO, Mario Greco

Una delle cose che si apprezza maggiormente del prodotto è proprio la facilità di gestione e la pulizia dell interfaccia.

ORIGINALE ... PUBBLICATA a norma di legge. 23/04/2013 dal

Configuration Management

2010 Ing. Punzenberger COPA-DATA Srl. Tutti i diritti riservati.

Consiglio regionale della Toscana. Regole per il corretto funzionamento della posta elettronica

COME COLLEGARSI DA REMOTO AD UN PLC S7-300/400 via MPI Indice

MODULO 5 Appunti ACCESS - Basi di dati

Scenario di Progettazione

Pulire IM. Non tutti sanno che solo una corretta e regolare pulizia nelle cartelle di IM, assicura un funzionamento longevo del programma

CAPITOLATO TECNICO. 2. Un apparato di lettura/scrittura DVD IBM U3 completa di DVD ram.

Futuro del Calcolo in Sezione

L obiettivo che si pone è di operare nei molteplici campi dell informatica aziendale, ponendosi come partner di riferimento per l utenza aziendale.

Altre misure di sicurezza

Network Monitoring. Introduzione all attività di Network Monitoring introduzione a Nagios come motore ideale

LE CARATTERISTICHE. Caratteristiche. - tel fax pag. 2

Approfondimento: Migrazione dei database e backup della posta

Il Software. Il software del PC. Il BIOS

Dispensa di Informatica I.1

Scheduling della CPU. Sistemi multiprocessori e real time Metodi di valutazione Esempi: Solaris 2 Windows 2000 Linux

Azienda: cooperativa di consumatori nata nel 1989 e presente nelle Province di Modena e di Ferrara e nella Regione Puglia e Basilicata.

Vediamo l Indice Ftse-Mib (dati giornalieri aggiornati alla chiusura del 28 agosto): Volumi e Prezzi

Sicurezza dei dati in EGRID

Registratori di Cassa

Digital Persona Client/Server

DATABASE MASTER (SEDE PRINCIPALE)

Presentazione di virtual desktop client + LTSP server

Prodotto e sviluppato da: MyPlan. Manuale Operativo. Relativa alla Ver. 1.0 di MyPlan. M.O. Ver Ultima stampa 19/02/2008. Ear Informatica s.a.s.

Workshop CCR-INFNGRID Survey MPI. Roberto Alfieri - Università di Parma & INFN, Gr.Coll. di Parma. Catania, 18 Maggio 2010

La tecnologia cloud computing a supporto della gestione delle risorse umane

Prospettive di sviluppo di servizi

Il calendario di Windows Vista

1) GESTIONE DELLE POSTAZIONI REMOTE

SCHEDA TECNICA. Disaster Recovery e Alta Affidabilità. Twin system architecture. Software IBM i Solution Editions

Rapporto ambientale Anno 2012

La scelta del livello ottimo della disponibilità del prodotto. La disponibilità del prodotto 1

CMN4i (Vers del 27/02/2014)

Ti consente di ricevere velocemente tutte le informazioni inviate dal personale, in maniera assolutamente puntuale, controllata ed organizzata.

IBM SPSS Statistics per Linux - Istruzioni di installazione (Licenza per sito)

Procedura per creare un archivio storico remoto nelle 24 ore giornaliere

Transcript:

BaBar Computing in Italia: status report Alexis Pompili - CNAF (per il gruppo italiano di computing) Contributi di D.Andreotti, A.Fella, A.Lusiani, P.Solagna MEETING BABAR-ITALIA Roma 6/7 aprile 2006

1. Farm di (Re-)Processing (@ INFN-PD)

Persone coinvolte Roberto Stroili: responabile farm; Peter Solagna: production manager; Alberto Crescente, Fabio Bredo: supporto sistemistico; Elisa Stevanato: sistema import XTC files, supporto alle librerie nastri; Jordi Jarra Tico, Neus Lopez-March, Elisabetta Prencipe: shifters.

Risorse di calcolo Nodi di calcolo: 310 macchine biprocessore, divise in 7 farms, più una piccola farm di test. Spazio disco: più di 20TB su 16 macchine adibite allo spostamento & immagazzinamento temporaneo dei dati. Librerie di nastri: 2 unità per una capacità totale di 700 TB; memorizzati (attualmente) dati per quasi 400TB.

ATTIVITA 2 a metà 2005 1 a metà 2006 - I Processing Event Reco Run5 : Live data: anche ~400pb -1 /giorno Reprocessing di Run5a (dati registrati da Aprile a Ottobre 2006): 50 fb -1 (totali) Reprocessing ER Run1-4 : Oltre 240 fb -1 Reprocessing terminati Febbraio 2006

ATTIVITA 2 a metà 2005 1 a metà 2006 - II Luminosità media processata (su base settimanale!) Fine reprocessing dei Runs 1-5

ATTIVITA 2006 Run 5b - si continuerà ad eseguire l' Event Reco per i nuovi dati (target: processare entro 48 ore dalla prompt calibration); è previsto un aumento della luminosita' giornaliera processabile. - saranno eseguiti reprocessing eventualmente richiesti; non sono previsti, al momento, reprocessing estensivi come quello che ha impegnato le farms per tutto il 2005, ed i primi mesi del 2006. Skimming Per sfruttare le risorse liberate dalla fine del processing si sta portando parte dello skimming a Padova. Attualmente si sta testando e modificando il software di skimming per adattarlo alla configurazione della farm padovana.

2. Farm di Analisi (@ CNAF-BO)

PERSONE COINVOLTE proiezione manpower Gestione, mantenimento e talvolta anche supporto sistemistico: A.P., Armando Fella (50% farm, dedicato in particolare al supporto [*]); Qualche prezioso contributo/suggerimento da Fulvio Galeazzi e Alberto Crescente. Supporto sistemistico CNAF (a fasi alterne, più o meno soddisfacenti, anche a seconda dei periodi di intensità del lavoro: nulla di nuovo sotto al sole ) Proiezione manpower: A.Fella dovrebbe(?) ritornare a CDF da luglio A.P. ritorna a Bari (probabilmente da settembre) [*] l apporto di Armando è prezioso (rappresenta il supporto CNAF a BaBar) ma spesso ciò diventa un alibi per rallentare/sottrarsi ad ulteriori interventi dal lato CNAF per tutto ciò in cui serve competenza aggiuntiva

RISORSE di CALCOLO I (Ridondanza servers) SERVERS Objectivity (Fed +AMS) 3+1 QUANTITA ATTUALE DA AGGIUNGERE - Objectivity (lockserver) 1 1 mysql (bookeeping DB) 2 (master+slave) - Import dati 2+1 Xrootd 2+1 redirectors - Front-end (User Interface) Scratch area 1 user login 1 NFS server (user home) 1 1 (*) [load balancing] AWG areas 4 (per 6TB) - [Rispetto al report di PG (nov. 05) le novità in rosso!] (*) la prossima settimana la vorremmo dare ad un gruppo ristretto di utenti per usarla e segnalarci problemi residui (volontari? mandatemi una mail!)

RISORSE di CALCOLO II (Spazio disco & backup) Sistema Totale spazio (126TB [*]) Per i dati Altri usi IBM 32TB STK-bladestore 37TB 31TB 6TB (AWG) STK-flexline 37TB 3-ware 20TB 3 (*) per i servers [Rispetto al report di PG (nov. 05) le novità in rosso!] Backup su nastro (LTO): /home, bookkeeping DB, CVS repo, 1.5TB charm AWG, user skimming area [dopo estenuanti contrattazioni col CNAF ] (*) in futuro 10TB (upgrade in corso- al kernel di PD dovrebbe dare stabilità) [*] attendiamo una trentina di TB entro l inizio dell estate

Downtime: PERFORMANCE della FARM I - 1 sett. nov. 05: RAID 5 failure su bladestore: persi 6TB - 10gg natale/befana: HBA fiber channel trouble (0.5TB dati corrotti) - 5gg. mar. 06: RAID 5 failure su flexline: persi 3TB Shutdown programmati: -1 sett. gen 06 (lavori impianto elettrico) -5gg mar 06 (lavori impianto condizion.) [Totale job su code BaBar: ultimo mese]

PERFORMANCE della FARM II A colpi di 3000job Il limite sul max numero di job non compromette per ora la prestazione Dalla prossima settimana iniziano i test per aumentare il limite sulle code babar e babar_objy (tenendo sott occhio CPU load & I/O Wait su NFS server & front-end).

IL VERO PUNTO DEBOLE: IL SISTEMA DI STORAGE Abbiamo perso dati 2 volte sui sistemi STK per RAID5 failure (in seguito a rottura di più dischi): - sul bladestore (non ultima tecnologia) - ma anche sul flexline (il disco di ultima tecnologia ). Ma altri esperimenti hanno perso dati sia su STK che IBM Il caso di marzo del flexline è, in prospettiva, preoccupante. La risposta STorageTek al verificarsi del problema è stata deludente: dopo 3 settimane di intenso debugging hanno ammesso che per recuperare 3Tb da due partizioni avremmo dovuto spedire negli USA altre 4 partizioni insieme alle 2 danneggiate! Circa i problemini periodici ai servers, si è messo sù un sistema di controllo dell accesso ai dati via Xrootd, partizione per partizione, mediante cron job che ci avvisa di eventuali problemi prima che lo scoprano gli utenti. Peter Elmer ha ripreso il lavoro per l accesso dinamico via Xrootd ai file di dati su nastro (Castor); configurazione ancora da testare; esito positivo ad una rate utile tutto da verificare (limiti di Castor).

DATA IMPORT facciamo un pò di spazio? Import dati r18b finito (si inizia il bc); Import MC r18b verso la conclusione (da completare SP-1235,1237,3429) Desidero recuperare qualche TB da skim non ufficiali (r14/16) per analisi italiane (vedi HN relativa). Avete ancora qualche giorno in più per rispondere poi procedo nella cancellazione. TO DO LIST - Improved Monitoring ( farm state machine ) - Documentazione su web : - procedure gestione farm - disponibilità set di dati (skim per skim) in tempo reale

3. Produzione SP (su GRID) @ INFN

Persone coinvolte SP-GRID (FE + contributi da altre sedi: CNAF, Napoli, ) - gestione, mantenimento: D.Andreotti, E.Luppi - configurazione & co-gestione @ CNAF: A.Fella (50%);

SP-GRID @ INFN 3 siti coinvolti nella produzione: Ferrara, Napoli e Padova; ora anche il CNAF! Server AMS & Xrootd installati nei 4 siti ProdTools installati sulla UI (User Interface) di Ferrara Attualmente sono disponibili ca. 200 slots per la produzione (in totale sui 3 siti) più altrettanti a regime al CNAF (o forse più)

SP-GRID @ INFN: schema di produzione LCG 2.6.0 middleware FE NA FE PD FE La simulazione di eventi MonteCarlo fa uso: - del database Objectivity per le conditions - di Xrootd per i background trigger. Il software della simulazione viene distribuito ed installato con tools di LCG. Sottomissione dei job e recupero del loro output tipico di GRID. Il merging delle collezioni prodotte è attualmente operato sulla UI di Ferrara; bisognerebbe farlo su macchine dedicate (o proprio in coda batch su GRID p.es. al CNAF).

SP-GRID SETUP @ CNAF - I Implementazione dei servizi per la produzione al CNAF: Integrazione tra i tool di produzione standard di BaBar (ProdTools) e gli strumenti di sottomissione della grid Creazione delle release di produzione su Grid partendo dalle release standard di BaBar e installazione sui CE dei siti coinvolti Installazione e setup di una UI Babar con 200 GB di area dedicata alla produzione MC e di un area SE (950 GB) Gestione dei dati necessari alla simulazione: Installazione e configurazione di un server Xrootd per la distribuzione dei Background triggers Installazione di un server AMS per la lettura delle condition

SP-GRID SETUP @ CNAF - II Sviluppo di un tool di monitor dedicato al controllo/recupero dei run di produzione Utilizzo del catalogo della grid (LFC) per il bookkeping dei dati prodotti Recupero dei dati per il merge/export verso SLAC

RISULTATI Regime di produzione raggiunto dopo 3 settimane dall inizio dei lavori In grado di produrre almeno 3500K di eventi a settimana Rate di produzione con ampi margini di miglioramento: - Aumento del numero di processi paralleli per il server AMS installato al CNAF [*] - Utilizzo di nuovi siti per la produzione e di un nuovo condition server (Napoli) [*] Il limite di massimo 70-80 jobs dovuto al condition DB caratterizza il singolo AMS server.

4. Produzione SP (non-grid) @ INFN (farm Roma)

Persone coinvolte Responsabile produzione : Dal 01/08/2005 al 31/05/2006 A.Lusiani Dal 01/06/2006 31/07/2006???????? (+ A.Lusiani) Giuseppe Della Ricca rimane disponibile come consulente. Responsabile sistemistico : Fino al 31/06/2005 : Cristina Bulfon Dal 01/07/2005 : Daniela Anzellotti Cristina Bulfon rimane disponibile come consulente.

2 farm: INFN-old (SP6-SP8) e INFN-new (SP8) 4 nodi riparati rispetto a Dicembre 2005 4 nuovi nodi acquistati e messi in funzione nel 2006 INFN-old : INFN-new : Risorse di calcolo 1 0 server Dual Xeon 2 GHz + 2*0.5 TB (Codine+BFROOT+CDB+LS+bkg+export) (il server e' stato sostituito con uno dei nodi client) 13 13 client Dual P3 1.3 GHz (1 GB) 1 1 client Dual Xeon HT 2.8 GHz (4 GB) 1(+1) server Dual Xeon HT 2.4(3.4) GHz + 0.5 TB (Codine+BFROOT+export 1(+1) server Dual Xeon HT 2.4(3.4) GHz + 0.5 TB (CDB+LS+bkg) 22 client Dual Xeon HT 2.4 GHz (2 GB) 8 12 client Dual Xeon HT 2.8 GHz (4 GB) 2 client Dual Xeon HT 3.4 GHz (4 GB)

Cicli di produzione SP SP4: Objectivity CDB & EVS, GEANT3, 3 stages (simu/mixr/reco) 2000-2001-2002 conditions SP5: Objectivity CDB & Bkg. Triggers, ROOT output, GEANT4, 1 stage 2000-2001-2002-2003 conditions SP6: Objectivity CDB, XRootd Bkg. Triggers, ROOT output, GEANT4, 1 stage 2003-2004 conditions SP7: like SP6 2005-2006 conditions SP8: like SP6 2000-2001-2003-2004-2005-2006 conditions

ATTIVITA fine 2005 2006 - I Riparati 4 nodi su 7 nodi dual Xeon. Budget disponibile di ~20 keuro usato per: - 2 server HP dual Xeon come backup dei 2 server della farm nuova; - 850 Gb di disco RAID, montati su uno dei due server HP; - 2 clienti dual Xeon per la farm nuova. Possibile futura dismissione farm vecchia (non ci viene piu' richiesto SP6) spostando i nodi funzionanti sulla farm nuova.

ATTIVITA metà 2005 2006 Produzione SP8 - I 20 giugno 2005: partita produzione SP8 utilizzato numero ridotto di CPU per limitazioni potenza elettrica 12 agosto 2005: utilizzate tutte le CPU funzionanti Nessuna interruzione non programmata della produzione dopo inizio dicembre 2005! In passato - prodotti 183 milioni di eventi SP5 (su 2.4 miliardi) - prodotti 174 milioni di eventi SP6 (su 2.87 miliardi) Adesso prodotti 328 milioni di eventi SP8 (su 6.18 miliardi) la produzione procede a pieno regime

ATTIVITA metà 2005 2006 Produzione SP8 - II

SOMMARIO Processing/skimming: - reprocessing come previsto - ora processing seconda parte di run5 - ripresa dello skimming Analisi: - progressivamente verso un funzionamento stabile - ancora ampio spazio per miglioramenti e sviluppi Produzione MC: - SP8 dovrebbe partire stabilmente su GRID - da aggiungersi (e a regime pareggiare il contributo off-grid Complessivamente molte attività in corso. Nuove energie sono benvenute: guadagnare FTE è possibile! Presto problemi di manpower da affrontare subito.