Analisi e sviluppo di un sistema automatico per la segnalazione di stati anomali dei job del Data Center S.Co.P.E.

Documenti analoghi
Un architettura per la gestione dei log di applicazioni distribuite

Grid on Cloud : Implementazione e Monitoraggio

Uno strumento per il deployment automatico di performance test su piattaforme per la distribuzione di dati

Memorizzazione affidabile di dati in un ambiente di Griglia

tesi di laurea Anno Accademico relatore Ch.mo prof. Stefano Russo correlatore Ing. Generoso Paolillo candidato Marco Leoni Matr.

Realizzazione di un sistema di logging prototipale per la piattaforma

Università degli studi Roma Tre Dipartimento di informatica ed automazione. Tesi di laurea

Strategie per il miglioramento dei log applicativi basate su Software Fault Injection

OmniAccessSuite. Plug-Ins. Ver. 1.3

Strumenti per la gestione della configurazione del software

La piattaforma di lettura targhe intelligente ed innovativa in grado di offrire servizi completi e personalizzati

Ambienti di calcolo a griglia Parte 2. Risorse (e loro gestione) Job di griglia e applicazioni di griglia Riservare le risorse ai job

con ANTLR tesi di laurea Anno Accademico Relatore Ch.mo prof. Porfirio Tramontana Candidato Fabio Canova Matr

Test in automatico di programmi Android

Tesi di Laurea Automazione del testing delle Interfacce utente di applicazioni WEB:

Si applica a: Windows Server 2008

Implementazione di un servizio VoIP in ambienti SOA per mobile computing

Tesi Di Laurea. Anno Accademico 2010/2011. relatore Ch.mo prof. Cinque Marcello. correlatore Ch.mo Ing. Catello Cacace

Una Soluzione di NAT Traversal per un sistema di comunicazione VOIP per una PMI

Progetto: Servizio location based per la ricerca di punti di interesse

Nuovi Flussi Informativi Cooperazione Applicativa Youth Guarantee

Realizzazione di un Tool per l iniezione automatica di difetti all interno di codice Javascript

LA TUA SOFTWARE HOUSE IN CANTON TICINO IL CRM DELLA PIATTAFORMA SMARTPLANNER

1. OBIETTIVI DEL SISTEMA

Analisi e utilizzo di un framework per lo sviluppo di applicazioni web

GammaApp. & Euro09 Evolution

Il glossario della Posta Elettronica Certificata (PEC) Diamo una definizione ai termini tecnici relativi al mondo della PEC.

Progetto e sviluppo di un applicazione per il pilotaggio remoto di reti

File Server Resource Manager (FSRM)

4.1 FAX Sollecito consegne via (Nuova funzione)

Generazione Automatica di Asserzioni da Modelli di Specifica

Analisi e sviluppo di un componente per un ESB open source

Ti consente di ricevere velocemente tutte le informazioni inviate dal personale, in maniera assolutamente puntuale, controllata ed organizzata.

Un architettura per lo streaming multimediale in ambiente distribuito

Note di rilascio. Aggiornamento disponibile tramite Live Update a partire dal. Il supporto per Windows XP e Office 2003 è terminato

Realizzazione di un tool di instrumentazione automatica a supporto della failure analysis

DATA BASE SCONTRINI. M46 GDS documentazione Verticale R0

Uno strumento per la valutazione automatica dell accessibilità delle

Manuale di riferimento per l utilizzo delle funzioni di monitoraggio dei documenti del Nodo telematico di Interscambio (NoTI-ER)

Legge e apprende nozioni in qualsiasi lingua, le contestualizza ed è in grado di elaborarle e riutilizzarle quando serve

Sviluppo di processi per l automatizzazione del testing per applicazioni Android

Aris TimeSheet. che guardano oltre. enti e aziende. Soluzioni per

Sommario. Introduzione al problema Infrastruttura realizzata Procedure di ottimizzazione Validazione Conclusioni

SISTEMA DI CONTROLLO ACCESSI IN TECNOLOGIA LONWORKS

FLEET MONITORING SCHEMA DI FUNZIONAMENTO

Realizzazione di un framework di monitoring per l'analisi di sistemi critici Anno Accademico 2013/2014

istraffic Sistema di monitoraggio Traffico

PROTOTIPAZIONE DI UN TRADUTTORE DA SORGENTE PLC AD ASSEMBLY DI UNA MACCHINA VIRTUALE

APPENDICE 3 AL CAPITOLATO TECNICO

Un applicazione client per la localizzazione via Bluetooth e Wi-Fi di dispositivi Smartphone Anno Accademico 2005/2006

Network Monitoring. Introduzione all attività di Network Monitoring introduzione a Nagios come motore ideale

.NetCRM/.netSCM Customer Relationship Management / Supply Relationship Management

MetaMAG METAMAG 1 IL PRODOTTO

Realizzazione di uno strumento web-based per la simulazione remota di reti di sensori senza filo

segnalazioni o ticket

Sistemi di Gestione dei Dati e dei Processi Aziendali. Computer-Assisted Audit Technique (CAAT)

Progettazione di un tool a supporto di un metodo per la selezione delle tecniche di test

Progetto e sviluppo di unʼapplicazione iphone per lʼaccesso a reti di sensori senza fili."

Un sistema per l'emulazione delle reti su cluster di macchine virtuali Anno Accademico 2007/2008

Lo scheduling. Tipici schedulatori

SiNfoNia.

Obiettivi d esame PHP Developer Fundamentals on MySQL Environment

Metodologie e strumenti per il collaudo di applicazioni Web

Studio della sicurezza in OMA SUPL e di una sua implementazione in Java

Titolo della tesi Testing Black Box di un Web Service : sperimentazione su di un servizio con stato

ALICE AMMINISTRAZIONE UTENTI WEB

Manuale Terminal Manager 2.0

PROGETTO Backup Consolidation

SOFTWARE A SUPPORTO DELLA GESTIONE AMMINISTRATIVA DELLO SPORTELLO UNICO SPECIFICA DEI REQUISITI UTENTE

MIXER: gestione trasmissioni DJ: governance di MIXER

Protezione delle registrazioni di tracciamento da modifiche non autorizzate A R.1.6 [TU /52/1/b]

Progettazione ed implementazione di un tool per lo sviluppo di applicazioni in Esperanto

CLUSTER COKA. Macchine e Risorse

I cookie sono classificati in base alla durata e al sito che li ha impostati.

Sommario. Oracle Database 10g (laboratorio) Grid computing. Oracle Database 10g. Concetti. Installazione Oracle Database 10g

Power-Studio è un semplice, veloce potente ed intuitivo applicativo software di monitoraggio e supervisione energetica che consente di realizzare:

Manuale LiveBox WEB ADMIN.

Approfondimenti. Contenuti

Realizzazione di Web Service per l estrazione di informazioni da siti web enciclopedici

Manutenzione programmata a gestione locale o remota: sicurezza ed efficienza dei siti di produzione

Gestione Automatizzata delle RDL

TECNICO SUPERIORE PER L AUTOMAZIONE INDUSTRIALE

CONTROLLO DI GESTIONE DELLO STUDIO

ALLEGATO Esempio di questionario per la comprensione e valutazione del sistema IT

Guida di Pro Spam Remove

Il sistema operativo TinyOS

SELEZIONE ICD icandidati

MarkOP GESTIONE INTEGRATA MARKETING OPERATIVO

Analisi sperimentale di software aging nel kernel Linux

COLLI. Gestione dei Colli di Spedizione. Release 5.20 Manuale Operativo

Università degli studi di Ferrara. Sviluppo di un Web Service per la classificazione del suolo e sua integrazione sul Portale SSE

2 Gli elementi del sistema di Gestione dei Flussi di Utenza

GESTIONE DELLA PRODUZIONE

TECNICO SUPERIORE PER L INFORMATICA INDUSTRIALE

Ottimizzazione dello scambio messaggi in un middleware di distribuzione dati conforme allo standard OMG DDS

Tecniche di riuso del software: applicazione ad un caso di studio reale

Strumento per l iniezione di guasti software nel sistema operativo GNU/Linux

Note per generazione file.txt per invio trimestrale V.P. all AGENZIA DELLE ENTRATE

Analisi della Costruzione Partecipativa di un Wiki con un Applicazione a Wikipedia

J-TraxAccessi+ 1. FUNZIONI J-TraxAccessi Definizione e composizione dei Varchi

Transcript:

Tesi di Laurea Analisi e sviluppo di un sistema automatico per la segnalazione di stati anomali dei job del Data Center S.Co.P.E. Anno Accademico 2011/2012 Relatore Ch.mo prof. Marcello Cinque Correlatore Ch.mo Ing. Flavio Frattini Ch.mo Ing. Davide Bottalico Candidato Salvatore De Simone Matr. 534003409 1

Motivazioni Il Data Center S.Co.P.E. Sistema Cooperativo per Elaborazioni Scientifiche 33 rack per il contenimento dei nodi; 280 server blade (doppia CPU quad-core per un totale di 2240 core); Soluzione di storage misto; Connessioni infiniband. Anomalia segnalata Alcuni job potrebbero non essere terminati a causa di nodi che risultano utilizzabili ma in realtà non sono in grado di eseguire job 2

N.O.M.A.D. Network Oriented Automated Monitoring Daemon Sistema automatico per la rilevazione di job in stallo basato su transizioni di stato anomale Interoperante con Scheduler e Resource Manager Modularità 3

Dettagli del Problema Stati Anomali Stato Waiting Accodamento di job waiting Transizioni temporanee e permanenti Conseguenze Diminuzione delle prestazioni del sistema Rilevazione delle transizioni Problematiche osservate S.Co.P.E. Administration Rilevazioni manuali Periodiche Segnalate Eventuale rilevazione di fallimento 4

Struttura Batch del Data Center Struttura Fisica un central node per la schedulazione dei job (torque02.scope.unina.it) e la gestione delle risorse uno o più execution node per l esecuzione dei job (wnxxx.scope.unina.it) uno o più user interface node per la sottomissione dei job (ui_node.scope.unina.it) 5

Schedulatore e Resource Manager Gestore delle risorse TORQUE Struttura a demoni Riceve comandi di schedulazione dallo schedulatore esterno MAUI Mantiene informazioni relative alle risorse libere ed assegnate Schedulatore MAUI Schedulazione su base prioritaria Concetto di componente La priorità di un job varia in funzione dei suoi componenti Entrambi sono installati sul nodo amministrativo Torque02 6

Il sistema di monitoraggio N.O.M.A.D. Composto da un lato client e un lato server Il demone di monitoraggio N.O.M.A.D. Scritto in Python Comunica col Resource Manager TORQUE per l'individuazione degli stati dei job Scansione ciclica a tempo continuo delle attività dei nodi del Data Center Il Front End Web Scritto in PHP Visualizza le segnalazioni relative ad eventuali fallimenti Mantiene uno storico delle segnalazioni temporanee e permanenti 7

Fasi di un ciclo di monitoraggio Ottenimento della lista dei job waiting state Verifica Presenza Estrazione delle credenziali Invio della segnalazione Aggiornamento dell archivio Logica di monitoraggio Controllo sulla Temporaneità Il controllo sulla temporaneità è implementato mediante flag di presenza aggiornati ad ogni ciclo di scansione 8

Vantaggi e Limiti Vantaggi Segnlazioni quasi istantanee Gestione esterna delle informazioni estratte dal Resource Manager Limiti Impossibilità di definire la causa del fallimento (se presente) Il sistema non è in grado di individuare la macchina che ha causato la transizione sbagliata, bensì un insieme di macchine (job paralleli schedulati su più nodi) 9

Sviluppi Futuri Studio delle cause dei fallimenti Analisi dei nodi individuati al fine di identificare eventuali fallimenti che hanno causato la transizione in uno stato errato Integrazione del parser XML Le statistiche di utilizzo sono memorizzate per ogni nodo in formato XML cpu_load.rrd, mem_free.rrd, ecc.. Utilizzo dei dati di performance per definire la correlazione tra le statistiche di utilizzo dei nodi segnalati e le segnalazioni 10