Tecnologie software per



Documenti analoghi
Nuove Tecnologie: Trigger, Computing & Software

INFN-BOLOGNA-T3. L. Rinaldi

Capitolo 13. Interrogare una base di dati

I MODULI Q.A.T. PANORAMICA. La soluzione modulare di gestione del Sistema Qualità Aziendale

La memoria centrale (RAM)

CONTENUTI 1. INTRODUZIONE CONCETTI BASICI SU EQUINOX CMS XPRESS ACCESSO A EQUINOX CMS XPRESS PAGINA D INIZIO...

Calcolatori Elettronici A a.a. 2008/2009

IL FITOFOR: UNO STRUMENTO PER LA GESTIONE DELLE INFORMAZIONI FITOSANITARIE. Marino Vignoli, Elisa Moneti, M. Miozzo DREAM - Italia

MANUALE DI UTILIZZO: INTRANET PROVINCIA DI POTENZA

Informatica Generale Andrea Corradini Sistemi di Gestione delle Basi di Dati

Il modello di ottimizzazione SAM

Il Portale Documentale. Note Operative. Distribuzione Documenti on Line. Finpro Soc.Coop.

OBIETTIVI DEL DOCUMENTO INTRODUZIONE

La Metodologia adottata nel Corso

Dispensa di database Access

Il SOFTWARE DI BASE (o SOFTWARE DI SISTEMA)

Lezione 1. Introduzione e Modellazione Concettuale

lem logic enterprise manager

Sistemi Operativi. Interfaccia del File System FILE SYSTEM : INTERFACCIA. Concetto di File. Metodi di Accesso. Struttura delle Directory

Airone Gestione Rifiuti Funzioni di Esportazione e Importazione

ESERCITAZIONE Semplice creazione di un sito Internet

INTEGRATA OTTIMIZZAZIONE DEI PROCESSI AZIENDALI

La suite Pentaho Community Edition

La piattaforma di lettura targhe intelligente ed innovativa in grado di offrire servizi completi e personalizzati

Organizzazione degli archivi

uadro Soluzione software e hardware Per le rilevazione presenze Gestione Aziendale Fa quadrato attorno alla tua azienda

La Videosorveglianza Criteri per il dimensionamento dello storage

Registratori di Cassa

La Skills Card relativa alle certificazioni Nuova ECDL è svincolata dalla singola certificazione.

Sistemi di gestione delle basi di dati. T. Catarci, M. Scannapieco, Corso di Basi di Dati, A.A. 2008/2009, Sapienza Università di Roma

CONTENT MANAGEMENT SY STEM

Con il termine Sistema operativo si fa riferimento all insieme dei moduli software di un sistema di elaborazione dati dedicati alla sua gestione.

Guida all uso del web service SDMX

Ti consente di ricevere velocemente tutte le informazioni inviate dal personale, in maniera assolutamente puntuale, controllata ed organizzata.

Capitolo 4 Pianificazione e Sviluppo di Web Part

Architetture Informatiche. Dal Mainframe al Personal Computer

Architetture Informatiche. Dal Mainframe al Personal Computer

Come archiviare i dati per le scienze sociali

Domande e risposte su Avira ProActiv Community

Sistemi Operativi IMPLEMENTAZIONE DEL FILE SYSTEM. D. Talia - UNICAL. Sistemi Operativi 9.1

1.ECDL BASE. Computer Essentials

Premessa Le indicazioni seguenti sono parzialmente tratte da Wikipedia ( e da un tutorial di Pierlauro Sciarelli su comefare.

INTEGRATA OTTIMIZZAZIONE DEI PROCESSI AZIENDALI

Introduzione all Architettura del DBMS

Futuro del Calcolo in Sezione

Istruzioni di installazione di IBM SPSS Modeler Text Analytics (licenza per sito)

1- OBIETTIVI DEL DOCUMENTO 2- INTRODUZIONE

Brochure Internet. Versione The Keyrules Company s.r.l. Pagina 2 di 8

Che differenza c è tra una richiesta XML ed una domanda XML? (pag. 4)

Ottimizzazione delle interrogazioni (parte I)

Software di base. Corso di Fondamenti di Informatica

Guida di Pro Spam Remove

Nuova funzione di ricerca del sito WIKA.

Sistemi Operativi IMPLEMENTAZIONE DEL FILE SYSTEM. Implementazione del File System. Struttura del File System. Implementazione

Copyright Hook & Festa Tutti I diritti riservati

Edizione 1 IT. Nokia e Nokia Connecting People sono marchi registrati di Nokia Corporation

INSTALLAZIONE PROCEDURA 770/2011

Faber System è certificata WAM School

Volume GESTFLORA. Gestione aziende agricole e floricole. Guidaall uso del software

Guida all uso di. a cura dell Area Economia Applicata (AEA) - IPI

Utilizzo di Certificati SSL e relative implicazioni

Introduzione Ai Data Bases. Prof. Francesco Accarino IIS Altiero Spinelli Via Leopardi 132 Sesto San giovanni

Funzionamento e attivazione

Manuale d uso Event Bureau

Il Progetto di Centro di Reprocessing di BaBar: Monitoring e Simulazione

CPU. Maurizio Palesi

Telerilevamento e GIS Prof. Ing. Giuseppe Mussumeci

LCMobile Restaurant. Guida su come usare il software per palmare LCMobile Restaurant.

SOFTWARE. Aprendo il SW la prima schermata che appare è la seguente:

Introduzione alla teoria dei database relazionali. Come progettare un database

Mon Ami 3000 Centri di costo Contabilità analitica per centri di costo/ricavo e sub-attività

A tal fine il presente documento si compone di tre distinte sezioni:

Prodotto <ADAM DASHBOARD> Release <1.0> Gennaio 2015

Infrastruttura di produzione INFN-GRID

Database. Francesco Tapparo Informatica e Bioinformatica /16

Programma Gestione Presenze Manuale autorizzatore. Versione /08/2010. Area Sistemi Informatici - Università di Pisa

uadro Soluzioni software per L archiviazione elettronica dei documenti Gestione Aziendale Fa quadrato attorno alla tua azienda

30 Collaboratori. Provenienti dalle più importanti agenzie internazionali e con grandi esperienze sviluppate nei più diversi settori merceologici.

Data Base Management System. Strumenti: Formato: Pro: Contro: Software specifico. Proprietario

Scuola Digitale. Manuale utente. Copyright 2014, Axios Italia

Guida Compilazione Piani di Studio on-line

Operare efficacemente sul desktop di un computer usando icone e finestre;

Versioni x.7.9 Note Operative

Il Sistema Operativo. Di cosa parleremo? Come si esegue un programma. La nozione di processo. Il sistema operativo

Il software impiegato su un computer si distingue in: Sistema Operativo Compilatori per produrre programmi

PrometeoQualità. Manuale Documenti

Note Tecniche Installazione ed Aggiornamento EasyTelematico 1.3.x

La gestione di un calcolatore. Sistemi Operativi primo modulo Introduzione. Sistema operativo (2) Sistema operativo (1)

Mac Application Manager 1.3 (SOLO PER TIGER)

Introduzione alle basi di dati. Gestione delle informazioni. Gestione delle informazioni. Sistema informatico

Situazione Attuale. Le persone svolgono molte operazioni ripetitive ed occupano il proprio computer per le elaborazioni..

HBase Data Model. in più : le colonne sono raccolte in gruppi di colonne detti Column Family; Cosa cambia dunque?

Silca Software GLOSSARIO. February 2013 Copyright Silca S.p.A. V.2.0

GESTIONE WEB AGENZIA

Guida di Pro PC Secure

InteGrazIone con MICrosoFt DYnaMICs. mailup.com

Il database management system Access

Che cos'è il cloud computing? e cosa può fare per la mia azienda

Software di gestione della stampante

Corso di Informatica (Programmazione) Lezione 6 (31 ottobre 2008)

Transcript:

Tecnologie software per l analisi offline Tecnologie software per l analisi offline Carminati Leonardo Universita e sezione INFN di Milano Leonardo Carminati IFAE 2007 1

CM, EDM, AM e altro ancora... Tecnologie software per l analisi offline Cerchero di affrontare il problema di come fare l analisi dal punto di vista dell utente Occorre fare luce su quel tanto che basta del CM per capire come muoversi Leonardo Carminati IFAE 2007 2

Tecnologie software per l analisi offline Sommario & disclaimer(s)... () Overview sul data flow, formati e tecniche di analisi degli esperimenti che stanno prendendo d dati CM1 e CM2 di Babar, CDF e D0 Cosa si e capito dall esperienza a dagli esperimenti attulamente in funzione Analysis model di ATLAS e CMS: soluzioni, i pro/cons Impossibile una review completa: mi limitero a segnalare gli aspetti che mi sembrano piu significativi Non sono un esperto di software e computing: Chiaramente un male per gli esperti presenti in sala spero un bene per i non addetti ai lavori Leonardo Carminati IFAE 2007 3

Tecnologie software per l analisi offline Tipico data-flow RAW Raw Data: dati in output dal sistema di trigger e acquisizione in formato byte-stream Reco,ESD Event Summary Data: output della ricostruzione (tracce e hit, celle e cluster nei calorimetri, combined reconstruction objects AOD,micro Analysis Object Data: rappresentazione ridotta degli eventi per l analisi: oggetti fisici ricostruiti (elettroni, muoni, jet, missing Et...). DPD Derived Physics Data: utilizzati dagli utenti per l analisi interattiva finale TAG Tag: informazioni sintetiche per selezione veloce degli eventi negli AOD e/o ESD. Leonardo Carminati IFAE 2007 4

Tecnologie software per l analisi offline Analogie, differenze e keypoints Central vs distributed computing: running experiments nascono prevedendo un central computing e si muovono verso forme piu distribuite gli esperimenti LHC investono (e scommettono!) molto sul calcolo distribuito Formato di analisi, accessibilita dei dati ai vari livelli e possibilita di aggiungere user data. Frameworks di analisi vs analisi pivata ROOT - based: portabilita del codice di analisi i e uso di tools comuni Alcune parole chiave da tenere a mente Skimming : tenere e solo gli eventi enti interessanti e nti Thinning : tenere solo gli oggetti interessanti (ex. Elettroni, muoni..) Slimming : tenere solo subset di informazioni relative agli oggetti selezionati Leonardo Carminati IFAE 2007 5

Tecnologie software per l analisi offline running experiments : il CM1 di Babar Tracks Clusters Reco Data 10 kbytes/event Track hits Dirc hits No cross-links Analysis Data 2 kbytes/event Candidates C t P4 Candidate PID, J/Ψ (pointer) BReco (pointer) Charm (pointer) Tau (pointer) O(100) Analysis Tuples Candidate P4 Candidate PID, Physics variables Fit Files (ascii) Physics variables Leonardo Carminati IFAE 2007 6

Tecnologie software per l analisi offline running experiments : limiti del CM1 di Babar Necessaria una massiccia duplicazione dei formati di analisi Consumo di spazio disco La produzione di NTuple domina l occupazione delle code di analisi Proliferazione di formati di Ntuple per ogni analisi Nessuna supervisione o supporto alla produzione di ntuple Spreco di manpower Pointer skims Data servers agli originali spesso overloaded Skimmed data non possono essere esportati Algoritmi pesanti (combinatori) ri-eseguiti leggendo gli skims Nessuna connessione tra analisi e ricostruzione: Nuovi algoritmi e/o costanti necessitano un full reprocessing Il codice di analisi non puo essere back ported alla ricostruzione Detector-level analysis quasi impossibile Leonardo Carminati IFAE 2007 7

running experiments : il CM2 di Babar Reconstruction Reco Data 10kBytes/event Analysis Data 2.5kBytes/event Tracks Clusters Candidate identity Track hits DIRC hits Skim Tecnologie software per l analisi offline Analysis 2-γγ Skim J/Ψ e + e - (Pointer) subskim Tracks Clusters J/Ψ Skim e + e - Candidates Tracks e + e - User-data Clusters J/Ψ Candidates User-data Analysis CM1 τ Skim Tuples Tracks Clusters τ Candidates τ User-data Candidate P4 Candidate PID Physics variables Fit Files (ascii) Track hits Physics Variables Leonardo Carminati IFAE 2007 8

Tecnologie software per l analisi offline running experiments : goals del CM2 di Babar Consolidare la ricostruzione e I formati di analisi Supportare il deep-copy skimming La profondita della copia specificata dall utente nell analisi Componenti non copiati ancora accessibili per referenza Permettere agli utenti di customizzare l output Storare oggetti compositi e user data Provvedere varie opzioni di accesso ai dati: Permettere all utente di scegliere il livello di dettaglio Supportare l accesso diretto in interattivo ai dati di produzione Mantenere la piena compatibilita con il codice di analisi esistente: Introddurre gli improvements senza compromettere le analisi esistenti Leonardo Carminati IFAE 2007 9

Tecnologie software per l analisi offline running experiments : CDF Sistema centralizzato di ricostruzione, Ntupling e storage dei raw data (FNAL) Il formato dei dati e ROOT based a tutti gli stage di processamento. Sistema centralizzato: i dati sono disponibili per l utente dopo 6-12 settimana dal recording. MC productions e analisi sull Ntuple principalemente nei siti remoti. Leonardo Carminati IFAE 2007 10

running experiments : CDF Tecnologie software per l analisi offline Produzione delle master ntuples per l analisi avviene in maniera centralizzata e coordinata Il contenuto delle ntuple e negoziato tra i vari gruppi di fisica Ottimizzazione risorse di storage e computing: i task piu comuni (vertexing, b-tagging, g, ulteriori jet algos ) sono effettuati durante l ntupling re-ntupling time tipico 6-12 mesi Le master ntuples sono la base per l analisi lanalisi gli utenti estraggono sotto-ntuple (thinning/slimming) dalle main ntuples per la laptop analysis Raramente gli utenti ti tornano ai raw data: nuovo processing centrale Esiste un framework per l analisi dentro ROOT Il sistema centralizzato di produzione ha aspetti positivi: elimina la duplicazione degli sforzi e beneficia dello sharing del codice Assicura la riproducilita delle analisi!! Leonardo Carminati IFAE 2007 11

Tecnologie software per l analisi offline running experiments : D0 Solo 2 hints dall esperienza di analisi e computing di D0: Esempio i di formato non efficiente: i il thumbnails 2001 primi dati: ntuple PAW copmpatibili prodotto con un eseguibile comune d0analyze 2002/2003 : thumbnails come formato ufficiale per l analisi. Accesso lento. I gruppi di fisica producono private ntuples Proliferazione di formati di analisi e di codice per produrre le ntuple Circa impossibile confrontare diverse analisi Formato di analisi comune e produzione centralizzata: fine 2004: si decide di adottare un formato ROOT-based ( everybody wants to use ROOT at the end ) La produzione di ntuple viene organizzata centralmente t Sviluppo di un framework di analisi comune (cafe) utilizzabile anche in standalone : permette la condivisione di codice comune! Leonardo Carminati IFAE 2007 12

La lezione degli esperimenti Tecnologie software per l analisi offline La velocita di accesso ai dati e il fattore guida nei modelli di analisi adottati dagli utenti indipendentemente dalle indicazioni di management e developers I tasks basati su analisi al livello ESD o il reprocessing (eg: calibrazioni, allineamenti, tracks fits, re-clustering) sono di norma eseguiti al livello piu alto dell analisi Man mano che l Analysis model evolve L `ESD si gonfia e diventa di difficile accesso dropped AOD viene aumentato con alcune grandezze dell ESD (eg: hits in roads, calo cluster cells) per avere piu possibilita in fase di analisi In generale di e osservato un profilerare di formati di ntuple e l impatto di cio sul CM e contrastato da: Produzione centralizzata di Ntuples Permettendo l accesso via ROOT agli AOD -equivalenti Leonardo Carminati IFAE 2007 13

La lezione degli esperimenti Dropping degli ESD, incremento degli AOD Tecnologie software per l analisi offline Chiaramento questo processo funziona a patto di mantere la size degli AOD ad un livello tale che gli AOD stessi siano facilmente disponibili. Molti tasks di calibrazione e allineamento richiedono dettagli in ogni caso impossibili da inserire negli AOD: gli ESD sono necessari per sub- sets di dati. In-Framework vs Out-of-Framework Analysis FW e necessario per alcune ricalibrazioni (DB access e tools) e tasks complessi (eg Jet finding, b-tagging). FW provvede un environment comune per i tools di analisi La familiarita con ROOT e la velocita di accesso spinge gli utenti verso una l ntuple analysis. Central vs Private Derived Physics Data (DPD) production Le strategie verranno determinate con l esperienza dentro la comunita dei fisici. Tools comunni per la produzione o di DPD garantiscono a o l uniformita tra I diversi DPD. Leonardo Carminati IFAE 2007 14

Diversi punti di vista... Tecnologie software per l analisi offline Gli utenti sono preoccupati dalla complessita del framework. In genere vogliono soltanto: Un ntuple con la quale possano fare tutto cio che vogliono in ROOT. Deve essere il piu veloce possibile Deve essere semplice I Developers e il management sono preoccupati p Varie copie delle Ntuple possano diventare un peso per il CM. Gli utenti a volte sottostimano la complessita delle analisi: con il tempo arrivano a ri-creare da se il framework ri-scrivendosi tools che gia esistono nel framework. Senza framework non si puo avere accesso a tools comuni debuggati e ottimizzati Senza framework diventa quasi impossible mantenere codice comune e garantire la riproducibilita delle analisi. Leonardo Carminati IFAE 2007 15

L analysis model di CMS Tecnologie software per l analisi offline CMS ha raccolto appieno l esperienza di BaBar e CDF : la parola d ordine e standardizzazione : tutte le collezioni, dai RAW data agli AOD e anche le collezioni definite dall'utente sono accessibili sia in batch che in interattivo con ROOT. L EDM puo essere usato come formato finale di analisi, no ntuples! gsystem->load("libfwcorefwlite") AutoLibraryLoader::enable() TFile f("reco.root") Events.Draw("tracks.phi() - tracks.outerphi(): tracks.pt()", t()" "tracks.pt()<10", "box") Interfacce uniformi agli oggetti ricostruiti ovunque (reco/aod) : dovunque si definiche pt() o getpt() per accedervi L uniformita permette di scrivere algoritmi generici (selettori, filtri ) validi per oggetti diversi via templates in modo molto semplice. Leonardo Carminati IFAE 2007 16

L analysis model di CMS: il modello a particle candidates Modello a particle candidates : Stabilire un linguaggio comune per le analisi Interfaccia comune a tool di analisi (fitters, combiners..) Tecnologie software per l analisi offline Un processo di analisi i viene decomposto in steps intermedi: Ogni step produce una collezione intermedia di Candidates Es.: H ZZ μμee: Scegliere le collezioni di muoni ed elettroni standard Ricostruire la Z μμ da una collezione di μ Ricostruire la Z ee da una collezione di e Ricostruire l H ZZ da Z μμ e Z ee μ Z μμ H ZZ e Z ee Leonardo Carminati IFAE 2007 17

L analysis model di CMS: modello a particle candidates Tecnologie software per l analisi offline process Analysis = { source = PoolInputService { int32 maxevents = 50 string filename = "aod.root" } module alltracks = TrackCandidateProducer { InputTag src = "ctfwithmaterialtracks" } module goodtracks = PtMinCandSelector { InputTag src = "alltracks" double ptmin = 3.0 } module ZCandidates = CandCombiner { string decay = "goodtracks@+ goodtracks@-" string cut = "86.0 < mass < 96.0" } } module HiggsCandidates = CandCombiner { string decay = "ZCandidates ZCandidates" string cut = "mass < 600.0" } module out = PoolOutputModule { string filename = "canddst.root" untracked vstring productsselected = { "drop *", "*_ctfwithmaterialtracks_*_*", "*_goodtracks_*_* * * ", "*_ZCandidates_*_* ", "*_HiggsCandidates_*_*" } } path p = { alltracks, goodtracks, ZCandidates, HiggsCandidates } endpath o = { out } Leonardo Carminati IFAE 2007 18

Analysis model di CMS: il CSA06 Tecnologie software per l analisi offline Esercizio di test del flow della ricostruzione e dei dati su un set to 50 milioni di eventi Un test al 25% della capacita richiesta nel 2008i Flow del CSA06: Simulazione dei datases con HLT-tags) Ricostruzione prompt al Tier-0: Ricostruzione a 40 Hz (su 150 Hz) usando CMSSW(software ufficiale) Applicazione delle calibrazioni dal database dell offline Generazione di Reco e AOD Streaming in physics datasets (5-7) Distribuzione di tutti gli AOD & alcuni FEVT a tutti i Tier-1s partecipanti Test di ricostruzione di alcuni FEVT al Tier-1s Re-reconstruction al Tier-1s (per testare la calibrazione) i Jobs di skim runnati al Tier1 con dati propagati ai Tier2 Jobs di fisica ai Tier-2s ssusu AOD ereco Leonardo Carminati IFAE 2007 19

Il computing model di ATLAS: ESD egamma Jet CMuon TauObj Cluster TTrack Truth ME T Histograms Cells Hits Athena AOD Building Copy select info Slim: make lighter objects. Thin (eg remove some truth particles). Athena 2 Stage User Analysis ROOT 2. Out-of-Framework Analysis Further Analysis Make plots Athena a/ev AOD Electron Photon PJet TauJet Cluster TrackP Tecnologie software per l analisi offline Muon ME TruthP 1. Framework Analysis Recalibrate Select Obj/Remove overlap Complicated Tasks Calculate DPD DPD (Ntuple) El_p_T[] Ph_p_T[] Mu_p_T[] El_eta[] Ph_eta[] Mu_eta[] MissingEt Top_mass[] M_eff ROOT Event Data + User Data Leonardo Carminati IFAE 2007 20 Athena a/ev

Tecnologie software per l analisi offline L analysis model di ATLAS: l analisi distribuita Selezione TAG based Apertura di una sessione tramite un interfaccia (GANGA) che permette di eseguire tutte le operazioni d analisi: Job configuration, submission, splitting, merging, monitoring, output retrieval Interrogazione del Dataset Content Catalog che contiene i metadata per ogni dataset del tipo desiderato per trovare quelli che gli interessano Esempio di query: dammi la lista dei dataset con trigger 2μ del 2009, versione x.y.z del software etc. Localizzazione tramite il Dataset Location Catalog del sito (cloud) dove risiede il dataset Passaggio dai dataset ai singoli files tramite il Local File Catalog presente in ogni Tier1 della cloud Applicazione dell algoritmo di selezione sui dataset scelti e produzione di una lista di eventi accettati In Athena è disponibile il tool che per ogni dataset permette di processare solo gli eventi specificati via TAG list TAG, 2μ, 2009, Event 1, Event 3, Event 6 Dataset Content Catalog Dataset C Dataset Location Catalog Selection criteria LFC Dataset C: File 1 File2 CNAF Leonardo Carminati IFAE 2007 21

L analysis model di ATLAS: l analisi distribuita Selezionati gli eventi, sottomissione alla Grid dei job di analisi tramite il Work Load Manager (WLM), nei siti dove risiedono gli eventi Il Dataset Location Catalog localizza i siti dove risiedono i dataset contenenti gli eventi accettati e con il Local File Catalog, si passa ai singoli files residenti sugli SE Un job può dare come output una nuova collezione di eventi, che può essere registrata come nuovo dataset nei cataloghi In DQ2 è possibile sottoscrivere uno o più siti come destinazione del dataset La possibilità di generare nuovi dataset consistenti sarà ristretta (almeno inizialmente) ai responsabili delle produzioni dei gruppi di fisica LFC Event 1, Event 3, Event 6 Dataset C: File 5 File 6Computing Element Tecnologie software per l analisi offline Submission tool Work Load Manager Job 3 Job 2 Job 1 Dataset Location Catalog LFC Dataset A: File 1 File 2 Computing Dataset B: Element File 3 File 4 Estrazione dall insieme dei dati analizzati (in DPD/Ntuple formato AOD) dei file di Derived Physics Data File 5 (tipo n-tupla) che potrà poi essere analizzare File 6 interattivamente i in locale. l File 2 DPD/Ntuple File 3 File 4 DPD/Ntuple File 1 Leonardo Carminati IFAE 2007 22

ATLAS: il modello ideale Lots of EDM Histograms ESD Electron Photon PJet Muon TauJet Cluster TTrack TruthP AOD Electron Photon PJet TauJet Cluster TrackP ME T Cells Hits Muon ME TruthP Lots of EDM objects are directly accessible in ROOT ROOT All data uses same objects and format: Same Athena job runs on ESD, AOD, DPD Athena Thinning provides faster DPD Analysis in both ROOT and Athena Porting DPD/ROOT analysis to Athena is easier DPD Electron Photon PJet Cluster TrackP UserData a FS IO Muon MET TruthP Composites EventView Leonardo Carminati IFAE 2007 Top_mass[] Sphericity 23 M_eff Delta_R[][]

ATLAS: il modello ideale Nel modello di analisi attuale AOD non sono leggibili da ROOT ATLAS ha scelto un modello per sostenere la schema evolution basato sulla separazione Transient&Persistent difficile da esportare in ROOT Possibilita di leggere gli AOD da ROOT: accesso alle classi transienti a partire da quelle persistenti. I vantaggi sono evidenti: No ntuple centralizzate: l AOD e gia ROOT readable (CM e al sicuro). L utente puo usare direttamente ROOT senza usare il framework Oppureusareilframeworkeaveremoltibenefici: usare e avere molti Costruire DPD piu semplici e usare un set di tool comuni Modello di analisi elegante dove input/output sono unificatiç simile a CMS e BaBar B mantenendo la schema evolution: ESD Athena AOD AOD Athena DPD AOD or DPD ROOT Plots DPD Athena DPD Leonardo Carminati IFAE 2007 24

Alice: soluzioni PROOF-based Tecnologie software per l analisi offline Dati e framework di ricostruzione e analisi (AliROOT) tutti ROOT based. Modello a Tiers e analisi distribuita simile ad ATLAS e CMS Alice utilizzera PROOF su una CERN Analysis Facility (CAF) per i tasks da runnare su una time scale corta Prompt analysis di dati pp e pilot analysis di dati PbPb Calibrazioni e allineamenti Design goals 500 CPUs + 200 TB di dati selezionati disponibili localmente L uso Luso di PROOF e trasparente per l utente: lutente:lo lo stesso codice puoà essere runnato in locale o in un PROOF system La soluzione PROOF non e legata all uso di GRID Puo accedere ai files su grid In fase di studio se/come i Tier possano venir utilizzati come CAFs Leonardo Carminati IFAE 2007 25

Tecnologie software per l analisi offline Alice: soluzioni PROOF-based Experiment Tier-1 data export Tape storage Disk Buffer Sub set (moderated) stdout/result ana.c CAF computing cluster Proof local Proof node disk node local disk stdout/result ana.c Client - Local PC root Proof node $ root local Proof local root [0] tree->process( ana.c ) disk node disk root [1] groot->proof( remote ) remote ana.c root [2] chain->process( ana.c ) Leonardo Carminati IFAE 2007 26 Data

Conclusioni e prospettive p Non e facile proporre conclusioni univoche vista la messe di soluzioni adottate dai vari esperimenti (e talvolta dai vari gruppi negli exp e talvolta dai vari gruppi negli exp) What went wrong with thumbnails? 3 main reasons: speed, speed, speed People who had not used the D0 offline framework would avoid it whenever possible, i.e. if any alternative was around. Framework perceived as too complex (despite tutorials etc.) R. Hauser, The D0 analysis model, Analysis Model Workshop (CERN25/10/2006) Standardizzazione dei formati di dati e la conseguente modularita del framework sono elementi chiave accesso ai dati in modo simile e semplice ad ogni livello: viene limitato il ricorso a inventarsi formati di dati per l analisi. equivalenza e intercambiabilita dell analisi in-framework e off-framework e portabilita del codice: rende il framework piu amico facilita il code-sharing e conseguentemente la riproducibilita delle analisi Leonardo Carminati IFAE 2007 27

Conclusioni e prospettive p Leonardo Carminati IFAE 2007 28

Computing model Tecnologie software per l analisi offline Il modello generale di calcolo l per l offline e l analisi li i di ATLAS è quello gerarchico multi-tier. Modello a cloud: ad ogni Tier-1 sono associati alcuni (3 o 4) Tier-2 spesso i base a considerazioni geografiche. ~PB/s Event Builder Event Filter Tier1 Tier0 10 GB/s 320 MB/s ~ 150 MB/s ~10 ~50 Mb/s Tier2 ~3-4/Tier1 Tier-0 (CERN) Archivio dei RAW data ricevuti dall EF e distribuzione ai Tier1 Prompt Reconstruction delle calibration e express stream Prompt Reconstruction dell event stream Distribuzione output ricostruzione (ESD,AOD,TAG) ai Tier-1 Tier-1 (10) Accesso a lungo termine e archivio di un subset di RAW data CopiadeiRAWdatadiunaltroTier1 data di altro Tier-1 Reprocessing della ricostruzione dei propri RAW data con parametri di calibrazioni e allineamenti finali e distribuzione AOD ai Tier-2 Archivio dati simulati MC prodotti nei Tier-2 Tier3 Simulazione Monte Carlo Analisi Tier-2 Leonardo Carminati IFAE 2007 29

L analysis model di ATLAS: l analisi distribuita Uso delle risorse per l analisi I Tier-2 ospitano job di analisi sia individuale che di gruppo Tecnologie software per l analisi offline Il CM prevede che il 50% delle risorse di CPU siano dedicate all analsi I Tier-1 possono accogliere job di analisi di gruppo Analisi distribuita: 1. Selezione degli eventi da TAG e analisi sugli AOD degli eventi selezionati 2. Determinazione dei siti dove i dati sono memorizzati 3. Invio in questi siti (tramite Grid tools) dei jobs ed estrazione delle informazioni più rilevanti: nella forma AOD piu leggeri che consentano un ulteriore ulteriore analisi nel fw nella forma di DPD (ntuple) da usare localmente in modo interattivo Leonardo Carminati IFAE 2007 30