Le Farm Grid a Pisa Commissione Calcolo e Reti ROMA 5/10/2007 Silvia Arezzini INFN - Pisa
Sala Calcolo e farm
Caratteristiche Scirocco (Opteron 280 ) 300 processori opteron dual core 2.4 GHz (socket E) 1 Gb ram per core Uniwide 1 U 2P Libeccio (Opteron 2218) 300 processori opteron dual core 2.6 GHz (socket F cioe quad core ready) 1 GB per core Rete veloce Infiniband 10 Gb/sec) IBM x3455 1U 2 P Grecale (Opteron 8220) 10 macchine SUN X4600 4U 8P Ogni macchina: 8 processori Opteron dual core 2.8 GHz (socket F) 2 GB ram per core valore commerciale circa 50 Keuro ciascuna
Modelli di utilizzo Diversi modelli di utilizzo con AMD: Scirocco: Processori non piu di ultima generazione Uso esclusivo struttura ospitante (INFN-GRID) Libeccio: In condominio Soluzione Bottone Rosso Grecale: Temporaneamente in uso esclusivo nostro Futuro condominio
condominio Per uso in condominio si intende: Il materiale è in uso alla AMD per attività di testing e benchmarking (mediamente non oltre il 20% del tempo macchina). Per il tempo macchina rimanente (mediamente almeno l 80% su base mensile) i sistemi sono in uso INFN/Dipartimento di Fisica.
Soluzione Bottone Rosso Meccanismo di switching automatico (basato su bootstrap via PXE) che permette la rapida riconfigurazione dei sistemi (tutti o in parte) dalla modalità di uso AMD a quella di uso INFN-Grid. Più precisamente nel caso di esigenza di un passaggio veloce da INFN-Grid a AMD i job in corso vengono re-indirizzati su altri sistemi in modo automatico, salvaguardando la loro integrità. Soluzione sviluppata dal Servizio Calcolo e Reti di Pisa
Bottone Rosso in dettaglio 1 Per l uso AMD viene installato di norma SUSE Linux SLES10 e non e' gridizzato/abile. Per l uso INFN-PISA grid, il sistema operativo e SLC4 Per rendere agevole questo cambio di sistema operativo : ogni server e' stato dotato di un secondo disco: sul disco 1 e' installata la configurazione "AMD", sul disco 2 e' installata la configurazione grid". Nessuna delle due configurazioni e' a conoscenza dell'esistenza dell'altra Per cambiare configurazione e' sufficiente riboostrappare la macchina dal disco contenente la configurazione desiderata. Per poter rendere automatico lo switch ciascuno dei sistemi si riferisce ad un indirizzamento IP diverso (la configurazione AMD e quella grid generarno un pool di macchine con indirizzi di rete diversi)
Bottone Rosso in dettaglio 2 con un solo comando, impartito via DHCP/PXE, si puo indicare la configurazione richiesta a tutta la farm/cluster, ad una singola macchina o a gruppi di macchine. Viene inviato alle macchine coinvolte nello switch un boot loader via PXE in grado di selezionare il boot loader del disco rigido contenente la configurazione desiderata. Prima che un server sia passato da una configurazione all'altra entra in gioco un meccanismo che interrompe e riaccoda eventuali job in esecuzione sulle macchine interessate dallo switch. il sistema e' dotato di tutti i tool (shell script realizzati in proprio) per il controllo delle configurazioni in produzione e lo switch delle stesse.
Infrastruttura di connessione In Sala Calcolo : traffico aggregato sul singolo rack switch FE + uplink GE Cablaggio strutturato cat 5e schermato (supporta Gbs) sotto pavimento con mattonelle a scomparsa Sistema di distribuzione fibre ottiche aereo utilizzato per la SAN
Rete locale: layout L2 L2 Link GE primario Link FE backup Link FE servizio Per ciascun armadio di piano
Connessioni Sala per Servizi Centrali e Farm Link GE geografico Uplink GE
Per il futuro: Sulla rete saranno presenti diversi protocolli (IP, Infiniband, Myrinet ecc.) Pensare a soluzioni in grado di gestirli tutti contemporaneamente Presenza di link da 10Gb/s Nella architettura generale dovrà essere prevista una sottorete dedicata allo storage con presenza congiunta di storage devices di tipo SAN e NAS e collegamenti di diversi tipi.
Organizzazione GRID 2 CE uno su lama IBM e uno provvisoriamente su SUN V20z. Il primo annuncia le code SLC3 e l'altro SLC4. Finita la transizione a SLC4 (fine ottobre) avremo ancora 2 CE (entrambi su blade IBM) funzionanti in parallelo (RIDONDANZA). 2 SE HLR: 1 di tipo classico esistente per motivi storici (vecchio supermicro) 1 di tipo dcache formato da 1 "head node" e 4 disk server. sistema di accounting attualmente ospitato su una macchina virtuale di tipo VMWare vari servizi specifici di CMS (Phedex, squid, pa, user interface)
Installazione e gestione code Meccanismo di gestione delle installazioni Sistema realizzato in casa e presentato workshop Otranto http://www.infn.it/ccr/workshop/ws2006/presenta zioni/mazzoni_installazione_multidistribuzione.pdf LSF e organizzazione code
Sistema di installazione 1 storia e motivazioni Nasce nel 2001 perche a fronte di una infrastruttura UNIX/Linux definita (autorizzazione AFS, syslog centralizzato, politiche di sicurezza) mancava: riproducibilità e standardizzazione dell'installazione Punto nodale: Garantire flessibilità per compensare differenze hardware e personalizzazioni specifiche dei gruppi All inizio: floppy bootnet + KS + script fatto in casa eseguito al primo boot Dal 2004 profonda rivoluzione dovuta a: diffusione capillare di PXE sulle NIC consolidamento infrastruttura di rete aumento delle distribuzioni da gestire
Sistema di installazione 2 Server coinvolti Server DHCP Fornisce conf. di rete alla macchina Passa file da caricare (filename "pxelinux.0";) Passa informazione sul nodo (next-server swsrv.pi.infn.it;) Server TFTP fornisce al PXE della NIC il bootloader e la sua configurazione grazie alle info ricevute via DHCP Repository delle distribuzioni: macchina con copia delle distribuzioni accessibili tramite protocollo anonimo (NFS, FTP, HTTP) Server DNS fornisce al sistema informazioni riguardanti la macchina (tipo dii nstallazione, utente/gruppo proprietario ) queste informazioni in precedenza erano immesse a mano dall'operatore
Sistema di installazione 3 caratteristiche principali Diverse reti IP ciascuna dedicata a tipologie di macchine diverse (server centrali e farm, desktop, portatili, ospiti, sistemi DAQ) Per ciascuna rete un file di configurazione del Boot Loader diverso Ovvero: diverse condizioni al contorno per l'installazione default = boot dal disco Per tutti disponibili utility generiche come memtest e rescue system File specifici per nodi particolari, es. macchine grid Possibile portare (soft. link) i file di configurazioni fuori dal TFTP server (AFS) per dare autonomia di installazione ai gruppi
Gestione code batch tramite LSF Un nodo master di LSF SERVIZIO di SEZIONE LSF viene usato infatti anche per cluster e farm non grid Ad oggi: due code per ciascuna VO supportate (una per SLC3 e una per SLC4) peso relativo delle code determinato in base al fairshare. coda local Nonostante ne esistesse gia' uno in ambiente INFN, internamente e in collaborazione con CMS-Pisa e' stato sviluppato un tool di monitoring dell'attivita' grid gestita mediante LSF http://farmsmon.pi.infn.it/lsfmon Il tool e trasferibile agli altri T2 interessati
Cenni sullo storage Device utilizzati Esperienza su SAN e NAS SRM: Attualmente Dcache Esperienza con DPM
Storage in particolare: Infrastruttura SAN (Storage Area Network) 2 switch FC (CISCO MDS9020) per permettere la ridondanza dei collegamenti Sistemi di storage: RIO288 6x4=24TB ==> espandibile a 32TB ER2510 7x4=28TB ==> massima capacità T2000 8TB ==> 840 dischi ~ 0.8PB 10 server di disco collegati Sistema PANASAS: 5 TB Sistema Thumper (Sun 4500): 24 TB
Lavori in corso Link 10 Gb per storage Presentazione di E. Mazzoni (Workshop CCR Rimini 2007) (https://agenda.infn.it/getfile.py/access?contribid=40&resid =0&materialId=paper&confId=65) Poster CHEP http://indico.cern.ch/contributiondisplay.py?contribid=81&session Id=20&confId=3580 bottone rosso Da completare, ma gia raccontato. Analisi termica In collaborazione con il servizio Alte Tecnologie della Sezione INFN di Pisa Simulazione fluido-termodinamica della sala (in corso) in collaborazione con Dip. Ingegneria Aerospaziale.
Futuro ASPETTI INFRASTRUTTURALI Completamento sala con APC Secondo chiller da 80KW gia' acquistato e posizionato (da collegare), forse un terzo Piu continuita elettrica?
Futuro FARM Presumibile installazione di Blade HP (occasione per analisi comparativa pizza vs blade) Valutazione AMD Opteron quad-core Valutazione pizze 1U 4P (16 core)
Futuro STORAGE Accordo con EMC2 (in corso di definizione) Potenziamento SAN Riorganizzazione: GPFS, xrootd? Approfondimento tematica NAS
Sala Calcolo ( foto 1)
Sala Calcolo (foto 2)
Sala Calcolo (foto 3)
Sala futura, modello 3D