Hepix Spring 2006 Report Roberto Gomezel CCR 5-6 giugno 2006
Spring meeting 2006 La riunione primaverile è stata organizzata dal CASPUR presso le sale riunioni CNR a Roma Organizzazione ha evidenziato le problematiche legate alla copertura wireless nel caso in cui qualcuno attivi un access point non autorizzato Questo evidenzia punti deboli nella infrastruttura wireless che devono essere tenuti in considerazione per eventi futuri Agenda del meeting al puntatore: http://hepix.caspur.it/spring2006/agenda.php Rapporto riassuntivo del meeting di A. Silverman on-line 2
Sessione Site report (1/3) Un sempre maggior incremento di FARM con piattaforma Opteron Infrastruttura networking: 10Gbps per backbone LAN e rete WAN Caspur insieme a CERN, ENEA e RZG lavorano al progetto AFS/OSD Obiettivo: migliorare le performance e scalabilità di AFS Estendere AFS per il supporto della gestione object- based dei file 3
Sessione site report (2/3) Nagios: strumento di monitoring diffuso nella comunità BNL: riporta problemi di scalabilità in ambienti con migliaia di nodi (ricorso a personalizzazione locale con bilanciamento su due server per diminuire latenza nelle segnalazioni) Batch system diffusi: : PBS, LSF e SGE File system distribuiti: : GPFS Panasas Lustre BNL: su Panasas riporta problemi scalabilità nell exporting exporting NFS contrario alle aspettative promesse Castor2: molto siti riportano successi nella sua adozione e implementazione Consumo elettrico e cooling: un problema trasversale 4
Sessione site report (3/3) Sistemi di condivisione: Indico: usato da molti per la gestione dell agenda Plone: abbastanza usato come strumento per il CMS web PSI: riporta scelta del commerciale Imperia più facile nella gestione in base alla loro esperienza Tecnologia dischi: : controller svariati; prevalente l uso di dischi SATA 5
CPU technology session (1/2) Roadmap:Dual core ormai presente Quad in arrivo inizio del 2007 8-core non prima del 2009 AMD e Intel si spartiscono il 98% del mercato Intel si muove ora sui 65 nm AMD l anno prossimo Il costo della CPU incide per il 27% sugli altri componenti Viene sottolineato che l incidenza maggiore si ha sul costo della memoria importante per le applicazioni HEP soprattutto sui sistemi multi-core Benchmarks: necessario confrontare le misure sulle reali applicazioni L OpenLab del CERN ha sviluppato strumenti per la verifica di quello che effettivamente fa la CPU a livello di istruzioni 6
CPU Technology Session (2/2) Problematiche del consumo elettrico: Sistemi Opteron più efficienti di quelli Xeon (Potenza CPU per unità di energia elettrica) IBM Blades sono in assoluto i più efficienti Dual-core migliore dell Hyperthreading Esperienze Dual-core: Test a GridKa evidenziano ancora AMD come vincenti su Intel in termini di consumo elettrico ed efficienza termica Offrono un raddoppio di potenza di calcolo con lo stesso consumo di energia e dissipazione di calore del single-core 20% il miglioramento introdotto ricompilando i programmi per l uso del 64bit nativo Sono state evidenziate delle perdite di performance di alcuni programmi a 32bit eseguiti in modalità 64bit compatibile ma non tale da scoraggiarne l utilizzo (6-10%) 7
Networking Presentazioni GARR su stato e sviluppo GEANT 2 evidenziando importanza del supporto di connessione P2P L2 tra utenti della rete per particolari servizi Progetti per dare risposta a esigenze di interconnessione a L1 e L2 end-to to-end Ottimizzazioni TCP per migliorare le performance in relazione alla diverse implementazioni TCP dei sistemi operativi,, al tuning dei parametri di send/receive socket buffer size e ai meccanismi di accodamento del kernel in uso 8
Batch system Francesco Prelz relaziona su glite CE Consente di passare al batch system locale le informazioni globali fornite al job da eseguire Si tratta di uno status report del lavoro condotto dal team di Francesco sullo scheduler di LSF Disponibile a breve glite versione 3.1 9
Data Base Il CERN presenta il cluster di 4 nodi e 64 HDs con Oracle RAC (Real Application Cluster) versione10g su Linux Previsto ampliamento in corso d anno 40 nodi e 400 HDs Server connessi in FC per la ridondanza CNAF e RAL: attivamente coinvolti nell LCG nell LCG 3D team del CERN cluster di 2 2-nodes 2 usati da entrambi 10
Tecnologie per l autenticazione Strumenti usati: Kerberos: molti siti lo usano difficile avere il Single Sign-On su molte applicazioni PKI (Public Key Infrastructure):reso reso importante nel passaggio ai servizi GRID SSO: un sogno o una possibile realtà? BNL: offre SSO via K5; problemi di sicurezza evidenziati hanno costretto a una politica più restrittiva RAL: lo schema SSO si fonda pesantemente su sshterm, scritto in Java, integrato con Myproxy per l integrazione con GRID CERN: PKI e Kerberos entrambi presentano vantaggi e svantaggi Attualmente usano LCG CA ma garantiscono anche il ticket kerberos per i servizi AFS e Windows 11
Ottimizzazioni e colli di bottiglia Prestare attenzione alla organizzazione delle shared libraries Tempo di compilazione: : un problema per il codice di ATLAS e CMS Multithreading: rendere un applicazione thread-aware aware non è un impresa banale Tier-2 2 e SRM: necessaria la implementazione di un servizio SRM (dcache( dcache,, DPM-Disk Disk Pool Manager) che richiede una ottimizzazione che richiede tempo Viene proposto una pubblicazione di linee guida da diffondere ai siti Tier2 per semplificare questa fase I test hanno evidenziato che XFS garantisce le migliori performance nel file transfer su dcache e DPM 12
Monitoraggio dei servizi L Università di Glasgow ha sviluppato MonAMI un tool per unificare i sensori da monitorare prima di inviarli al proprio sistema di monitoraggio preferito Tool presente in sourceforge invita a usarlo e a inviargli feedback DGAS (INFN) colleziona informazioni di accounting dagli utenti di batch job SYMPA, scritto in perl, usato per la gestione delle mailing list a DESY.Supporta Supporta certificati X.509 e prevede una interfaccia web per la gestione. SLAC Request Tracker: in risposta a necessità di avere un DB con funzionalità di ricerca su e-mail di tipo gestionale 13
Data Centre Cooling Interessante intervento di Bill Watts (Intel) Presenta alcuni grafici interessanti sulle potenze installate e i flussi di aria nelle sale calcolo Interessanti consigli sulla configurazione dei cabinet e del cablaggio interno Evidenzia le diverse problematiche su casi specifici che possono essere valide anche come considerazioni generali 14
Storage Day (1/4) FNAL presenta una panoramica sulla tape technology evidenziando il ruolo importante dell HSM in HEP Rischio elevato di perdita di dati nella fase di scrittura; meno probabile nella fase di conservazione del dato Attenzione a sostituire un media prima che diventi obsoleto e rimpiazzato da uno nuovo Il problema maggiore si evidenzia nella natura meccanica del nastro e la sua tecnologia La capacità del nastri raddoppia ogni 18-24 mesi 15
Storage Day (2/4) Tecnologia disco (DESY): FC-SAN, SCSI FC e altre Performance che ci si aspetta: : 40MB/s per TB di storage Importanza dei tre elementi: : disco, controller e network Sottolinea importanza nei grandi siti di disporre di rete a 10Gb o Infiniband Latenza dei dischi non è cambiata molto negli ultimi anni Per il futuro prevede Scarso incremento nell uso di FC Uso di Serial Attached SCSI (SAS) Uso di SATA continua ma senza miglioramenti sostanziali nelle performance (alta( capacità ma basso RPM) RAID6 rappresenta una via d uscita a errori non recuperabili Conclude sottolineando la promettente tecnologia OSD (Object Storage Device) per le performance e la scalabilità 16
Storage Day (3/4) Caspur: : RAID6 acquista sempre maggior importanza con dischi SATA e presenta panoramica costruttori controller che prevedono il rilascio di prodotti RAID6 INFN: report uso GPFS e StoRM CERN: confronto di file system locali Ext3: journal file system e il solo supportato in RH4 XFS: journal solo per i metadati e complesso altri (ReiserFS,, JFS) lenti o non abilitati in RH4 La scelta in base alle necessità di lavorare su file grandi e grande filesystem e prevelentemente in streaming I/O cade su XFS Prevista l inserimento di XFS nella release SLC 676 TB XFS in produzione al CERN EXT3 sta guadagnando in performance local streaming evidenzia maggior efficienza rispetto a XFS ma la cancellazione di file grandi ancora molto lenta 17
Storage DAY (4/4) CASTOR2 : presentati cambiamenti rispetto Castor1 e l ottimizzazione introdotta nella gestione dei nastri Solo LSF supportato per ora Interfaccia SRM v.1 e v.2 Uso ACL per file a livello di namespace Strong authentication in via di sviluppo Scalabilità: : 46M di file, 4.6 PB di dati, 715 TB disco(attuali attuali) Demoni stateless e quindi possono essere replicati Castor prevede l impegno di 2 FTE ed è installabile via RPM dcache: : storage element con connettività HSM Disponibile come RPM Supporta SRM v.1, non ancora completa la v.2 Discussione: si conclude con preoccupazione per il supporto locale richiesto dai diversi sistemi.. I tier2 non hanno necessità forte di disporre di nastri e HSM, nel caso viene suggerito uso di glite DPM che è progettato per questo scopo Rapporto dell HEPiX Storage Task Force 18
Sistemi Operativi e Security Windows@CERN: estensione a tutti i computer del CERN del Computer Management Framework che prevede un insieme di tool integrati per facililtare installazione e definizione di politiche di accesso Virtualizzazione di server per Windows: Alberto Pace presenta una demo per la creazioni di due sistemi server virtuali, uno con Windows e l altro Linux, usando Microsoft Virtual Hosting Server Stato di Scientific Linux (FNAL) SL@CERN Bob Cowles security update Rischi da monitorare nell uso di skype Problematiche legate all uso di PC infetti da casa Configurazioni del wireless 19
Prossimi meeting Definiti siti dei prossimi meeting JLAB prossimo Fall meeting 2006 DESY (Amburgo( Amburgo) ) spring meeting 2007 FNAL fall meeting 2007 20