Flops. Differenza tra sustained performance, e di picco (cenni a proposito dei metodi di ottimizzazione, il compilatore ed oltre)



Documenti analoghi
Flops. Differenza tra sustained performance, e di picco (cenni a proposito dei metodi di ottimizzazione, il compilatore ed oltre)

Calcolatori Elettronici A a.a. 2008/2009

I componenti di un Sistema di elaborazione. CPU (central process unit)

Informatica di base. Hardware: CPU SCHEDA MADRE. Informatica Hardware di un PC Prof. Corrado Lai

GPGPU GPGPU. anni piu' recenti e' naturamente aumentata la versatilita' ed usabilita' delle GPU

Architettura hardware

Benchmark Ansys Fluent su CRESCO

L Unità Centrale di Elaborazione

I Thread. I Thread. I due processi dovrebbero lavorare sullo stesso testo

Introduzione. Classificazione di Flynn... 2 Macchine a pipeline... 3 Macchine vettoriali e Array Processor... 4 Macchine MIMD... 6

CALCOLO PARALLELO SUPERARE I LIMITI DI CALCOLO. A cura di Tania Caprini

Prestazioni CPU Corso di Calcolatori Elettronici A 2007/2008 Sito Web: Prof. G. Quarella prof@quarella.

Speedup. Si definisce anche lo Speedup relativo in cui, invece di usare T 1 si usa T p (1).

Fondamenti di informatica: un po di storia

Gestione della memoria centrale

1.4a: Hardware (Processore)

STRUTTURE DEI SISTEMI DI CALCOLO

Approccio stratificato

Parte IV Architettura della CPU Central Processing Unit

Corso di Architettura degli Elaboratori

Sistemi Elettronici #1. Sistemi Elettronici. Definizioni e concetti generali. Sistemi Elettronici Laurea Triennale in Elettronica A.A.

Il clustering HA con Linux: Kimberlite

Prestazioni computazionali di OpenFOAM sul. sistema HPC CRESCO di ENEA GRID

Più processori uguale più velocità?

Università degli Studi di Padova Dipartimento di Matematica. - Corso di Laurea in Informatica

Architetture parallele

Linux lo installo a 32 o 64 bit? (teoria e pratica)

Introduzione alle tecnologie informatiche. Strumenti mentali per il futuro

Concetti fondamentali della Tecnologia Dell informazione Parte prima

Calcolatori Elettronici

Esempio: aggiungere j

CALCOLATORI ELETTRONICI A cura di Luca Orrù. Lezione n.7. Il moltiplicatore binario e il ciclo di base di una CPU

Flops. Ad esempio nel caso del prodotto classico tra matrici, vengono eseguite 2*N 3 operazioni, quindi ad esempio:

Come funziona un sistema di elaborazione

CALCOLATORI ELETTRONICI Lezione n. Arch_Par 3

La macchina di Von Neumann. Archite(ura di un calcolatore. L unità di elaborazione (CPU) Sequenza di le(ura. Il bus di sistema

Università degli Studi di Salerno

Piano Nazionale di Formazione degli Insegnanti sulle Tecnologie dell'informazione e della Comunicazione. Percorso Formativo C1.

Con il termine Sistema operativo si fa riferimento all insieme dei moduli software di un sistema di elaborazione dati dedicati alla sua gestione.

Dispensa di Informatica I.1

Vari tipi di computer

CALCOLATORI ELETTRONICI A cura di Luca Orrù

La memoria centrale (RAM)

Architettura dei calcolatori I parte Introduzione, CPU

L HARDWARE parte 1 ICTECFOP@GMAIL.COM

Architetture Applicative

Il Processore: i registri

Complessità Computazionale

Corso PLC - Manuale Pratico 1

Presentazione di virtual desktop client + LTSP server

Architettura dei calcolatori. Moreno Marzolla

L informatica INTRODUZIONE. L informatica. Tassonomia: criteri. È la disciplina scientifica che studia

3. Il client HMI, che consente la visualizzazione delle informazioni e riceve dall'utente l'input da inviare al controllore. SLC

Architettura di un sistema di calcolo

Definizione Parte del software che gestisce I programmi applicativi L interfaccia tra il calcolatore e i programmi applicativi Le funzionalità di base

SISTEMI OPERATIVI. Prof. Enrico Terrone A. S: 2008/09

COME È FATTO IL COMPUTER

Varie tipologie di memoria

Linux nel calcolo distribuito

Ottimizzazioni delle prestazioni di un Web server Ottimizzazioni delle prestazioni di un Web server

Valutazione delle Prestazioni. Valutazione delle Prestazioni. Architetture dei Calcolatori (Lettere. Tempo di risposta e throughput

Sistemi operativi e reti A.A Lezione 2

Il Sistema Operativo. C. Marrocco. Università degli Studi di Cassino

Esame di INFORMATICA

Riduzione dei costi per la sicurezza IT

Memoria Secondaria o di Massa

ECDL MODULO 1 Concetti di base della tecnologia dell informazione. Prof. Michele Barcellona

Cloud Computing Stato dell arte, Opportunità e rischi

ShareGrid Una piattaforma di calcolo condivisa per Grid Computing

Sistemi Operativi e informatica 1

Architetture Informatiche. Dal Mainframe al Personal Computer

Architetture Informatiche. Dal Mainframe al Personal Computer

Introduzione alle architetture parallele

Architettura di un calcolatore

ANALISI DELLE TECNOLOGIE INTEL-VT E AMD-V A SUPPORTO DELLA VIRTUALIZZAZIONE DELL'HARDWARE

ARCHITETTURE MULTIPROCESSORE E CALCOLO PARALLELO (Motivazioni e Classificazioni)

Informatica per la Storia dell Arte. Anno Accademico 2014/2015

Marco Danelutto Dipartimento di Informatica Università di Pisa 16 ottobre 2014

Sistemi Operativi. Introduzione UNICAL. Facoltà di Ingegneria. Domenico Talia A.A

e-dva - eni-depth Velocity Analysis

In un modello a strati il SO si pone come un guscio (shell) tra la macchina reale (HW) e le applicazioni 1 :

Il software di base comprende l insieme dei programmi predisposti per un uso efficace ed efficiente del computer.

ALLEGATO. del. regolamento delegato della Commissione

Sistemi Operativi UNICAL. Facoltà di Ingegneria. Domenico Talia A.A Sistemi Operativi. D. Talia - UNICAL

DMA Accesso Diretto alla Memoria

1.3 Concetti base dell Informatica: Elaboratore

- Libro di Testo ECDL Open il manuale Syllabus 4.0 Ed. Apogeo. - Lucidi...riassuntivi! - Io ;) paolo.moschini@lugpiacenza.org

Tecnologie dell informazione e della comunicazione per le aziende

Memoria Virtuale. Anche la memoria principale ha una dimensione limitata. memoria principale (memoria fisica) memoria secondaria (memoria virtuale)

Introduzione al Many/Multi-core Computing

Creare una Rete Locale Lezione n. 1

Il Sistema Operativo (1)

montagna ai trasporti internazionali Luca Bertazzi

SanDisk. sul banco di prova. Test Schede Memoria

PACCHETTI SOFTWARE E WEB

Architettura dei calcolatori II parte Memorie

Tecniche di parallelismo, processori RISC

Criteri di Scheduling Algoritmi di Scheduling Multiple-Processor Scheduling Asymmetric/Symmetric multiprocessing Processori Multicore

1 di 5 18/10/ :36

Transcript:

LaTop500

Flops Differenza tra sustained performance, e di picco (cenni a proposito dei metodi di ottimizzazione, il compilatore ed oltre) La valutazione dell'effettiva potenza di calcolo dev'essere effettuata in relazione ad un benchmark standard, che consenta di comparare i valori ottenuti con quelli di altri elaboratori. Un riferimento in questo senso sono il Linpack. Cenni a proposito della TOP500 http://www.top500.org/

Top500 Kcomputer 2.0GHz8 coresparc64viiifxprocessors 10.5petaflops(peak11.3petaflops) 705024cores 9.89MW(824.6GFlop/kWatt)

Top500 Tianhe 1A XeonX56706C2.93GHz,NVIDIATesla2050,NUDT FT10000 2.6petaflops(peak4.7petaflops) 14.336processoriXeonX5670e7.168GPUNvidiaTesla M2050.2.048processoriNUDTFT1000(8 cores)

Top500 CrayJaguar AMDx86_64OpteronSixCore2600MHz 1.8petaflops(peak2.3petaflops) 224162cores

Top500 TSUBAME2.0 HPProLiantSL390sG7Xeon6CX5670,NvidiaFermi GPU, 1.2petaflops(peak2.3petaflops) 73278cores

Top500 CrayCielo AMDx86_64Opteron61368C2.40GHz 1.1petaflops(peak1.4petaflops)

Top500 PleiadesSGI XeonHTQC3.0/Xeon5570/56702.93Ghz,Infiniband 1.1petaflops(peak1.3petaflops)

Top500 vtera100 Bullbullxsuper nodes6010/s6030,intelxeone7family processors 1.0petaflops(peak1.2petaflops)

Top500 RoadRunnerIBM PowerXCell8i3.2Ghz/OpteronDC1.8GHz, 1.0petaflops(peak1.4petaflops)

Top500 RoadRunner AMD Opteron 2210, 1.8 GHz. Ogni processore ha due cores. Questi processori sono usati sia nella computazione (essenzialmente fungono da master node per i processori Cell), sia nella operazione di sistema. In totale il RoadRunner e' costituito da 6912 processori Opteron (6480 computation, 432 operation) per un totale di (12960+864) 13824 cores. IBM PowerXCell 8i, 3.2 GHz. Questi processori hanno un core general purpose (PPE), ed otto special performance cores (SPE) per le operazioni floating point. Roadrunner ha un totale di 12960 processori PowerXCell, con 12960 PPE cores e 103680 SPE cores, per un totale di 116640 cores. 13824 Opteron cores + 116640 Cell cores = 130464 cores 2.35 MW power

Top500 BlueGene DOE/NNSA/LLNL United States BlueGene/L - eserver Blue Gene Solution IBM 280,6 teraflops (Linpack) con una configurazione formata da 65.536 nodi di calcolo e 1024 nodi di I/O.

Top500 BlueGene

BlueGene Architecture EachComputeorIOnodeintegratestwo 700MHzPowerPC440embedded processors(eachwithadouble pipeline double precisionfloatingpointunit (FPU)),withassociatedDRAMmemory chips(512mb) EachBlueGene/Lnodehasatheoretical peakperformanceof5.6gflopsand dissipateslowpower.(17watts)

BlueGene Network EachBlueGene/Lnodeisattachedtothreeparallel communicationsnetworks: a3dtoroidalnetworkforpeer to peercommunication betweencomputenodes acollectivenetworkforcollectivecommunication aglobalinterruptnetworkforfastbarriers. TheI/Onodes(whichruntheLinux)provide communicationwiththeworldviaanethernetnetwork. AseparateandprivateEthernetnetworkprovidesaccess toanynodeforconfigurationanddiagnostics.

BlueGene Software BlueGene/LComputenodesuseaminimaloperating systemsupportingasingleuserprogram.toallow multipleprogramstorunconcurrently,abluegene systemcanbepartitionedintoelectronicallyisolated setsofnodes. I/OnodeshandletheI/Oneedsofthecomputenodes, andinsomecasesperformsignificantmanagement activities,suchasbootingthecomputenodekernelsor handlingsystemcallsnotsupportedbythecompute nodes. Withsomanynodes,componentfailuresareinevitable. Thesystemisabletoelectricallyisolatefaultyhardware toallowthemachinetocontinuetorun.

(PetaFLOPS = 1015 FLoating-point Operations Per Second)

Stimepotenzadicalcolomenteumana20 100petaflops?

Ilcalcoloparallelo

Calcolosequenziale Tradizionalmente il software e' stato scritto per la computazione seriale, ovvero per girare su un singolo computer dotato di una singola CPU Un problema e' diviso in una serie discreta di istruzioni Le istruzioni sono eseguite una dopo l altra (almeno in teoria!) In un certo istante e' eseguita una sola istruzione (almeno in teoria!)

Calcoloparallelo In generale, il calcolo parallelo e' l uso simultaneo di piu' computer per risolvere un problema computazionale Per girare su piu' CPU, un problema e' diviso in parti discrete che possono essere risolte concorrentemente Ogni parte e' a sua volta divisa in una serie di istruzioni Le istruzioni di ogni parte sono eseguite contemporaneamente su CPU diverse (non necessariamente CPU diverse)

Perche'ilcalcoloparallelo? I principali motivi per usare il calcolo parallelo: Risparmiare tempo (minore wall clock time) Risolvere problemi piu' grandi Utilizzare un insieme di risorse non locali, disponibili su WAN o anche su Internet Contenere i costi: utilizzare contemporaneamente molte risorse computazionali economiche piuttosto che un singolo supercomputer costoso Superare vincoli di memoria Un singolo computer possiede risorse di memoria finite Per i problemi piu' grandi, utilizzare la memoria di piu' computer puo' aggirare questo vincolo

GrandChallangeProblems Storicamente il calcolo parallelo e' stato motivato dalla simulazione numerica di sistemi molto complessi: Understanding matter from elementary particles (quantum chemistry) to cosmology Storm forecasting and climate prediction Understanding biochemical processes of living organisms Drug design Nuclear weapons stewardship Advanced vehicle design Pollution modeling and remediation planning Molecular nanotechnology Cryptology Data mining Information retrieval Computational finance

Limitidelcomputingseriale Ci sono ragioni fisiche e pratiche che pongono un serio vincolo alla costruzione di computer seriali sempre piu' veloci: Limiti alla velocita' di trasmissione. La velocita' di un computer seriale dipendente da quanto i dati possono essere spostati velocemente nell hardware Il limite assoluto e' la velocita' della luce (30 cm/nsec) ed il limite di trasmissione in un filo di rame (9 cm/nsec) Per incrementare la velocita' di trasmissione e' necessario aumentare la prossimita' dei processing elements Limiti alla miniaturizzazione La tecnologia dei processori permette di inserire un numero sempre piu' alto di transistor in un chip Anche con componenti a livello atomico/molecolare un limite di miniaturizzazione sara' comunque raggiunto

Limitieconomici E' sempre piu' costoso realizzare processori sempre piu' veloci E' meno costoso utilizzare un numero piu' grande di processori moderatamente veloci per raggiungere la stessa performance, o addirittura una performance piu' alta Negli ultimi 10 anni i trend indicano l imporsi di network sempre piu' veloci sistemi distribuiti architetture di computer multi processore, anche a livello di desktop e laptop Il parallelismo e' il futuro del computing?

IlParallelismoOggi Parallelismo implicito pipeline (esecuzione pipelined implicita delle istruzioni) Parallelismo esplicito istruzioni multimediali e di streaming (MMX, SSE vedi opzioni del compilatore) Processori multicore AMD: Opteron dual core (caches separate) Intel: Core 2 Duo, dual core (cache condivisa) Sun: Niagara, 8 cores IBM: Power 5, dual core; Cell 1 PPC core ed 8 SPE Cluster (Beowulf cluster) SuperComputer (vedi il trend della top500)

BlueBrainProject Reconstructingthebrainpiecebypieceandbuildingavirtualbrain inasupercomputer thesearesomeofthegoalsofthebluebrain Project. The virtual brain will be an exceptional tool giving neuroscientists a new understanding of the brain and a better understandingofneurologicaldiseases. The computing power needed is considerable. Each simulated neuronrequirestheequivalentofalaptopcomputer.amodelofthe whole brain would have billions. Supercomputing technology is rapidly approaching a level where simulating the whole brain becomesaconcretepossibility.