Memorizzazione affidabile di dati in un ambiente di Griglia

Dimensione: px
Iniziare la visualizzazioe della pagina:

Download "Memorizzazione affidabile di dati in un ambiente di Griglia 2006-2007"

Transcript

1 tesi di laurea Memorizzazione affidabile di dati in un ambiente di Griglia relatore Ch.mo prof. Domenico Cotroneo correlatore Ing. Generoso Paolillo candidato Luigi Abate Matr

2 Contesto Ambienti che forniscono accesso a risorse in modo: Affidabile Consistente Esteso Non costoso Assumendo inoltre: Completa decentralizzazione Eterogeneità dei partecipanti Esistenza di relazioni affidabili

3 Problematiche di memorizzazione in un ambiente di Griglia Applicazioni di tipo data-intensive (petabyte( - terabyte) Trasferimento di dati sicuro e affidabile da parte di comunità scientifiche Gestione di dati per cui la ridondanza risulta essere vitale Obiettivo Studio dei servizi per la gestione dei dati Servizi esistenti ed ampiamente utilizzati Servizi in via di sviluppo Nuove idee, in fase di studio da parte delle comunità scientifiche, per l implementazione della ridondanza in ambienti di Griglia

4 I servizi per la gestione dei dati appartengono al core della Griglia Core services Architettura generale di un ambiente di Griglia

5 Globus Toolkit 4 e la gestione dei dati In progress Protocolli trasporto dati Servizio di replicazione

6 Il protocollo di trasporto GridFTP (vantaggi-svantaggi) Un protocollo di trasferimento sicuro, robusto, efficiente e standard Integra l esistente l FTP con funzionalità di sicurezza Modulare per l integrazione l a più livelli Implementa lo striping Include supporto per IPV6 Non è un protocollo ws-complient Socket sempre aperto durante il trasferimento Non si recupera dai guasti da parte del client

7 Reliable File Transfer (RFT) Servizio di tipo ws-resource Ogni trasferimento è un job Schedulatore per trasferire dati Lista di sorgenti e destinazioni Memorizza lo stato del job in DataBase (risorsa) affidabile

8 Gestione di Repliche nella Griglie Esigenza di un servizio di replicazione a causa di: Gestione guasti Ambiente fortemente distribuito Massiva interoperabilità tra i partecipanti La replicazione di dati in più locazioni è utile per: Fault tolerance (Evitare single points of failure ) Evitare grandi latenze di trasferimento Bilanciare il carico tra i nodi

9 Replica Location Service (RLS) Servizio che si basa su un registro distribuito Memorizza repliche esistenti di dati Gestisce la localizzazione delle repliche Mapping tra gli identificatori logici e le locazioni fisiche delle repliche Scalabilità per supportare milioni di oggetti, centinaia di client

10 I registri di Replica Location Service Local Replica Catalog (LRC): Associazione tra id-logico e id-fisico delle repliche Replica Location Index (RLI): Aggregano informazioni relative agli LRC Rendere i dati consistenti Meccanismo di aggiornamento: Soft-state Aggiorna e preserva lo stato degli RLI

11 Framework di RLS RLS senza ridondanza RLS con ridondanza

12 Conclusioni e sviluppi futuri Servizi di replicazione futuri prevedono l uso l del DRS (Data Replica Service) per gli ambienti di griglia Utilizzo combinato di RLS per la replicazione e di RFT per il trasferimento DRS RLS RFT Gestione della ridondanza in ambienti di griglia con tecniche di erasure coding