1 IMPLEMENTAZIONE OPERATIVA DI UN MODELLO DI PREVISIONI METEOROLOGICHE SU UN SISTEMA DI CALCOLO PARALLELO LINUX/GNU Davide Cesari Massimo Bider Paolo Patruno Emilia Romagna
LM-COSMO-LAMI 2 Il modello LM Lokal Modell: modello di previsioni meteorologiche ad area limitata sviluppato al DWD (Germania) a partire dalla fine degli anni 90 Non-idrostatico: equazioni idrodinamiche complete, in grado, tra le altre cose, di rappresentare esplicitamente fenomeni locali come convezione, onde orografiche a piccola scala Inizialmente progettato per scale spaziali 10Km, varie innovazioni in via di sviluppo permetteranno -si spera- di renderlo adatto anche a scale 1Km Destinato sin dall inizio a sistemi di calcolo parallelo a memoria distribuita mediante la libreria MPI.
LM-COSMO-LAMI 3 Il Consorzio COSMO A partire dal 1999, lo sviluppo e l implementazione operativa del modello avvengono nell ambito di COSMO (COnsortium for Small scale MOdelling) a cui partecipano i servizi meteorologici nazionali di: Germania, Grecia, Italia, Polonia, Svizzera più altri enti tra cui il Servizio Idro-Meteorologico di ARPA Emilia Romagna.
LM-COSMO-LAMI 4 Suite operativa italiana-lami La suite operativa italiana di LM è denominata LAMI Concordata dai membri italiani di COSMO (ARPA-SIM Emilia Romagna, ARPA Piemonte, UGM) Gestita da ARPA-SIM Emilia Romagna Gira operativamente al CINECA e, in backup, ad ARPA-SIM I prodotti sono distribuiti ad un insieme di enti istituzionali tra cui UGM, Protezione Civile Nazionale, CIMA e numerosi servizi meteorologici regionali.
LM-COSMO-LAMI 5 Suite operativa italiana-lami Caratteristiche: Assimilazione dati continua (su osservazioni UGM) in 2 cicli giornalieri di 12 ore 2 corse al giorno (0 e 12 UTC) fino a 72 ore di previsione Dominio di integrazione esteso su tutto il territorio nazionale (234 272 35 punti) con un passo di griglia di 7Km Dati sui contorni del dominio forniti dal modello globale tedesco GME
Descrizione di LM 6 Struttura del modello Discretizzazione alle differenze finite Schema split-esplicito per le onde acustiche e di gravità Avvezione euleriana I/O in formato grib (WMO) Parallelizzazione a decomposizione di dominio mediante libreria MPI
Descrizione di LM 7 Decomposizione di dominio Nel caso di esecuzione su sistemi paralleli, il dominio di calcolo viene suddiviso orizzontalmente in un opportuno numero di sottodominî a topologia Cartesiana, ciascuno assegnato ad un diverso processo di calcolo.
Descrizione di LM 8 Decomposizione di dominio Decomposizione di dominio sovrapp. computazionale computazionale sovrapp.
Descrizione di LM 9 Struttura parallela del modello - comunicazione Dinamica - comunicazione tra vicini Cartesiani buona scalabilità e assenza di congestioni perché coinvolge solo processi vicini con comunicazioni sincronizzate stressante per l hardware di interconnessione perché le comunicazioni tra ogni coppia di vicini sono contemporanee Fisica - algoritmi quasi-verticali (alle scale spaziali attuali) comunicazione irrisoria, scalabilità quasi perfetta, I/O - comunicazione globale scalabilità scarsa incidenza quasi trascurabile sul tempo totale
Maialinux 10 Il sistema di calcolo ARPA Attualmente, in forma di backup del Cineca, il modello LAMI è operativo presso ARPA-SIM su un sistema parallelo basato su processori IA32 e sistema operativo Linux/GNU.
Maialinux 11 Il sistema di calcolo ARPA - hardware maialinux 1 nodo front-end con 2 processori XEON 2.4GHz, 512MB di RAM e 80GB di dischi raid, collegato alla rete esterna 21 nodi diskless, ognuno con 2 XEON 2.4/3.0GHz, 512MB di RAM 2 reti Gigabit Ethernet che collegano tutti i nodi (schede e1000) Montato in rack Costo indicativo < 60000 EUR (IVA inclusa)
Maialinux 12 Il sistema di calcolo ARPA - architettura nodo1 nodo2... nodo15 172.20.21.2 172.20.22.2 172.20.21.3 172.20.22.3 172.20.21.16 172.20.22.16 Switch 1 Switch 2 Ethernet 1 Gbit/s Ethernet 1 Gbit/s 172.20.21.1 172.20.22.1 maialinux Sistema server Rete esterna Ethernet 100 Mbit/s
Maialinux 13 Il sistema di calcolo ARPA - software Linux kernel 2.4.27smp Distribuzione Fedora Core 1 (aggiornata in parallelo alla rete di workstation di ARPA-SIM) Compilatore Fortran 90 Portland Group (PGI) Librerie LAM-MPI e MPICH per il message passing Software autosviluppato (KomTruDa) per semplificare il boot in rete, l amministrazione e il monitoraggio dello stato dei nodi di calcolo
Prestazioni 14 Prestazioni del modello sul sistema maialinux 1h di previsione con LM in configurazione operativa, tutte le parametrizzazioni fisiche attivate, precipitazione prognostica, dominio LAMI
Prestazioni 15 Confronto tra le prestazioni su diverse architetture 1h di previsione con LM in configurazione operativa, tutte le parametrizzazioni fisiche attivate, 32 processori, dominio LAMI Architetture: maialinux: Intel XEON 2.4GHz, interconnessione Gigabit ethernet, Linux OS clx: Intel XEON 2.8GHz, interconnessione Myrinet, Linux OS sp4: IBM Power 4 1.3GHz, interconnessione HPSwitch Colony dual plane configuration, AIX OS
Prestazioni 16 Prestazioni operative sul sistema maialinux Il tempo per effettuare una previsione di 24h con tutte le parametrizzazioni fisiche attivate, precipitazione prognostica e I/O completo ammonta a 45 minuti sul dominio LAMI (234 272 35 punti di griglia, 7Km di intervallo di griglia) su 42 processori Il programma di interpolazione GME2LM richiede circa 2.5 minuti sullo stesso dominio e numero di processori per interpolare 24 condizioni al contorno orarie
Prestazioni 17 Configurazioni sperimentali La disponibilità di 2 reti fisiche di connessione tra i nodi ha ispirato diverse configurazioni logiche delle reti nel tentativo di aumentarne la larghezza di banda Cart i,j+1 Cart i,j+1 Cart i 1,j Cart i,j Cart i+1,j Cart i 1,j Cart i,j Cart i+1,j Cart i,j 1 Cart i,j 1 scacchiera channel bonding
Prestazioni 18 Configurazioni sperimentali Purtroppo nessuna di queste configurazioni ha dato risultati positivi, a differeza di quanto è stato verificato per connessioni a 100mbit/s. Pobabilmente la larghezza di banda del Gigabit Ethernet è vicina al limite intrinseco dell hardware e non può essere migliorata se non con componenti di qualità migliore. L unica utilità della seconda rete resta quindi quella di backup in caso di guasto di un elemento di connessione (una delle modalità di channel bonding di Linux permette di fare ciò in maniera automatica, senza necessità di intervenire al momento del guasto).
Considerazioni sull uso di sistemi paralleli off the shelf 19 Considerazioni hardware Le prestazioni dipendono sensibilmente dall insieme dell hardware usato, non solo dal clock del processore I sistemi multiprocessore smp non sempre sono in grado di sfruttare al massimo i processori aggiuntivi, per cui il loro maggior costo può non essere giustificato La larghezza di banda Gigabit Ethernet può essere vicina al limite intrinseco del sistema e quindi risultare sottosfruttata Per questi motivi, prima di un acquisto è quasi d obbligo una prova pratica sull applicazione di interesse.
Considerazioni sull uso di sistemi paralleli off the shelf 20 Per risolvere i dubbi sui primi 2 dei 3 punti precedenti, ad ARPA-SIM è stato sviluppato un CD-ROM demo con un sistema operativo Linux ridotto, che non necessita di disco fisso. Il CD-ROM permette facilmente di mettere alla prova su diversi esemplari hardware un applicazione parallela, utilizzando le CPU disponibili nel sistema locale. Immagine della schermata iniziale del demo CD- ROM di LM
Considerazioni sull uso di sistemi paralleli off the shelf 21 Considerazioni software È opportuno utilizzare compilatori (nel caso di f90) e librerie MPI aggiornate per ottenere risultati affidabili e buone prestazioni con applicazioni complesse su Linux Se un sistema è quasi dedicato a procedure operative si può fare a meno di installare un sistema di accodamento dei job (es. OpenPBS), semplificando così la gestione del sistema È invece importante avere un sistema di monitoraggio dello stato dei nodi di calcolo del sistema, in modo da permettere alla macchina di funzionare anche in caso di guasto di uno o più nodi di calcolo
Conclusioni 22 Conclusioni I sistemi cosiddetti cluster Linux costruiti con componenti a basso costo sono attualmente maturi anche per applicazioni di previsione meteorologica operativa con modelli dell ultima generazione Il costo ridotto giustifica l uso di sistemi del genere in modalità dedicata ad un particolare obiettivo operativo, eliminando la difficoltà di garantire le risorse di calcolo a orari prefissati, problema di difficile risoluzione anche su sistemi di supercalcolo dell ultima generazione Rispetto a sistemi proprietari o a sistemi analoghi chiavi in mano, richiedono la disponibilità di risorse umane qualificate per lo sviluppo software iniziale e per il mantenimento
Conclusioni 23 Nelle configurazioni provate l impatto di sistemi di interconnessione più potenti (e costosi) dell Ethernet non è determinante I risultati andrebbero verificati su sistemi più grandi