Supercalcolo e Grid: le infrastrutture per la ricerca del nuovo millennio P. Govoni Universita ed INFN Milano-Bicocca
gli ingredienti fondamentali i computer: gli strumenti che svolgono le operazioni di calcolo il software: le istruzioni impartite ai computer lo spazio disco: la capacita di immagazzinare dati da elaborare la connessione: il mezzo attraverso il quale i computer possono comunicare fra loro 2
i computer 1939 nasce HP 1941 viene costruito Bombe 1945 von Neumann introduce il concetto di software (utilizzato praticamente nel 1949-50) 1950 primo computer distribuito commercialmente 1956 primo computer a transistor 1958 prima connessione su vasta scala di stazioni radar in USA e Canada 3
i computer 1964 IBM passa dai transistor ai circuiti integrati 1965 primo mini-computer 1974 primo computer basato su un processore Intel (8008) 1976 primo computer parallelo, composto da un vettore di processori (Cray I) 1981 primo personal computer IBM 1994 cluster di personal computer costruito alla NASA (Beowulf) 4
la potenza di calcolo cresce nel corso del tempo aumenta la potenza di calcolo dei computer e diminuisce il costo a parita di potenza: computer sempre piu economici e potenti 5
capacita di calcolo al CERN LEP1 LEP2 LHC 6
il software 1945 primo linguaggio di programmazione (Konrad Zuse) 1948 teoria della comunicazione fra computer (Claude Shannon) 1952 primo compilatore (Grace Hopper) 1957 nascita del linguaggio FORTRAN 1960 invenzione dell algoritmo di ordinamento Quicksort (C. A. R. Hoare) 1962 primo videogioco: SpaceWar! 7
il software 1969 sviluppo di UNIX (Kenneth Thompson e Dennis Richie) 1977 standard di criptografia IBM adottati dal governo USA 1989 sviluppo di Parallel Virtual Machine, per utilizzare un insieme di computer come un unico calcolatore 1990 invenzione di HTML al CERN (Tim Berners- Lee) 1991 nascita di Linux (Linus Torvalds) 8
l HTML il WWW nasce come strumento di un gruppo specifico di utenti (Fisica delle Alte Energie) il suo design universale ed essere stato concepito in un laboratorio no-profit sono fra le ragioni del suo successo 9
lo spazio disco 1956 primo disco magnetico (IBM) 1962 realizzazione della prima memoria virtuale (Tom Kilburn) 1971 primo disco floppy (David Noble, IBM) 1980 primo hard disk per microcomputer (Seagate Tech) 1981 primo sistema di salvataggio ottico (Sony) 10
evoluzione della capacita 11
la connessione 1960 primo modem (AT&T) 1970 nasce ARPANET, la prima rete di condivisione di risorse informatiche fra diverse universita americane 1971 viene mandata la prima email (Ray Tomlinson) 1975 primo protocollo di collegamento remoto: Telnet (Larry Roberts) 1979 primo dominio multi-utente per giochi multiplayer 1985 protocollo NSF per il trasferimento dati 1988 il primo worm informatico infesta ARPANET 1990 nasce il World Wide Web al CERN (T. Berners-Lee) 1993 nasce il primo browser WEB (Mosaic) 12
evoluzione della connessione la diffusione della banda larga nel mondo cresce in numero di utenti e larghezza di banda sempre piu compagnie scelgono un sistema di connessione a banda larga 13
uno sviluppo combinato hardware, software, spazio disco e connettivita sono in continua crescita il miglioramento delle prestazioni e legato sia allo sviluppo dei singoli elementi, sia alla loro sinergia nel creare sistemi di calcolo sempre piu articolati transistor microprocessore multiprocessore cluster di PC grazie alle elevate prestazioni delle connessioni di rete ed alla compatibilita fra hardware e software, la GRID rappresenta il passo successivo 14
La GRID un computer virtuale costruito sulle risorse di calcolo disponibili in tutto il mondo offre agli utenti accesso trasparente a risorse di calcolo, spazio disco e servizi specializzati fornisce a ai centri locali gli strumenti necessari per gestire le risorse e spostare i dati 15
I cinque punti fondamentali le aree di sviluppo della Grid riguardano: condivisione delle risorse su scala globale accesso sicuro: alto livello di fiducia fra utenti e fornitori di servizi, per garantire la privacy degli uni e la sicurezza degli altri utilizzo delle risorse bilanciato per ottimizzare l efficienza annullamento delle distanze: l accesso alle risorse deve essere indipendente dalla loro distanza fisica uso di standard comuni per garantire il dialogo fra diverse Grid e porre le basi per il suo sviluppo commerciale 16
l architettura di Grid la applicazioni a diretto contatto con l utente, legate al suo ambito di lavoro applications gli strumenti che permettono alle varie risorse di entrare il Grid middleware le risorse effettive: computer, dischi, cataloghi elettronici, strumentazioni,... le risorse il livello piu basso, interconnette fisicamente le risorse disponibili la rete 17
il middleware automatizza le relazioni M2M, cioe fra macchine, per dare alla Grid la forma di un unica entita gestisce lo stato della Grid attraverso meta-dati, cioe informazioni riguardanti le risorse stesse il suo funzionamento si basa sull interazione di software agenti, che per conto dell utente interagiscono con software broker per negoziare l uso delle risorse raggiunto un accordo, altri agenti si occupano di distribuire il lavoro ottimizzando le risorse disponibili (spostare i programmi da eseguire o i dati da analizzare) all utente viene offerto un centro di calcolo virtuale 18
la struttura interna tiene traccia delle risorse di calcolo e dello spazio disco lato utente lato risorse distribuisce il carico di lavoro fra i vari siti che compongono la grid fornisce un interfaccia comune a diversi sistemi di salvataggio dati gestisce l autenticazione, la sicurezza, il monitoring di risorse e calcoli,... collective services information protocols management protocols resource & connectivity communication protocols authentication protocols permette agli elementi della Grid di interagire fra loro riconoscere i messaggi legati alla Grid scambiare dati in modo sicuro 19
Grid Testbed per sviluppare Grid, i progetti di ricerca coinvolgono in una struttura di prova diversi siti i computer presenti giocano il ruolo dei vari elementi necessari al funzionamento della grid i diversi siti offrono uno o piu servizi che compongono la struttura di una Grid 20
struttura di un Testbed il punto di accesso degli utenti alla grid user interface riceve le richieste degli utenti e trova il modo migliore di eseguirle resource broker riceve richieste di lavori e le inoltra ai worker node computing element esegue i lavori inviati dal computing element, processando i dati da analizzare worker node 21
servizi associati certification authority information index storage element l ente che convalida l identita degli utenti e delle risorse attraverso un certificato digitale cataloga le risorse disponibili nella Grid fornisce spazio di salvataggio con un interfaccia comune per diverse soluzioni tecniche replica manager & catalog gestisce e cataloga la duplicazione dei dati, per facilitarne l accesso da molti siti 22
una Grid per ogni necessita Grid nazionali Grid legate a progetti specifici alta parallelizzazione, grandi volumi di dati da analizzare - fisica delle alte energie volume di dati ridotto, grande potenza di calcolo - analisi spettrali (SETI@home) Grid di volontariato (SETI@home, LHC@home) Grid peer-to-peer (Napster) Grid a pagamento Grid private per ogni dominio e definito un gruppo di utenti, la Virtual Organisation (VO) 23
la nascita di egee CERN 1999 progetto MONARC al CERN 2000 progetto DataGRID per la Fisica delle Alte Energie 2001-2004 progetto EU DataGRID: middleware & testbed per un prototipo funzionante 2002-2005 LHC Computing GRID - LCG utilizzare i risultati di EU DataGRID per gli esperimenti LHC 2004-2006 primo progetto egee, per espandere i risultati di LCG ad una comunita piu ampia 24
applicazioni di egee More than 20 applications from 7 domains High Energy Physics (Pilot domain) 4 LHC experiments Other HEP (DESY, Fermilab, etc.) Biomedicine (Pilot domain) Bioinformatics Medical imaging Earth Sciences Earth Observation Solid Earth Physics Hydrology Climate Computational Chemistry Fusion Astronomy Cosmic microwave background Gamma ray astronomy Geophysics Industrial applications 25
ERROR: ioerror OFFENDING COMMAND: image STACK: -mark- -savelevel-